Add the vocab params fix patch

JamePeng · JamePeng · commit db2a8453908d · 2025-01-28T10:38:34.000+08:00
diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py
@@ -1430,7 +1430,7 @@ def logit_bias_processor(
                             )
                         )
                         top_logprob = {
-                            self.detokenize([i]).decode(
+                            self.detokenize(self._vocab, [i]).decode(
                                 "utf-8", errors="ignore"
                             ): logprob
                             for logprob, i in sorted_logprobs[:logprobs]
@@ -1559,6 +1559,7 @@ def logit_bias_processor(
                     )
                     text_offset = len(prompt) + len(
                         self.detokenize(
+                            self._vocab,
                             completion_tokens[:returned_tokens],
                             prev_tokens=prompt_tokens
                             + completion_tokens[:returned_tokens],
@@ -1574,7 +1575,7 @@ def logit_bias_processor(
                         )
                     )
                     top_logprob = {
-                        self.detokenize([i]).decode("utf-8", errors="ignore"): logprob
+                        self.detokenize(self._vocab, [i]).decode("utf-8", errors="ignore"): logprob
                         for logprob, i in sorted_logprobs[:logprobs]
                     }
                     top_logprob.update({token_str: current_logprobs[int(token)]})
@@ -1617,7 +1618,7 @@ def logit_bias_processor(
                     "model": model_name,
                     "choices": [
                         {
-                            "text": self.detokenize([token]).decode(
+                            "text": self.detokenize(self._vocab, [token]).decode(
                                 "utf-8", errors="ignore"
                             ),
                             "index": 0,
@@ -1680,7 +1681,7 @@ def logit_bias_processor(
                 all_tokens = completion_tokens
 
             all_token_strs = [
-                self.detokenize([token], prev_tokens=all_tokens[:i]).decode(
+                self.detokenize(self._vocab, [token], prev_tokens=all_tokens[:i]).decode(
                     "utf-8", errors="ignore"
                 )
                 for i, token in enumerate(all_tokens)
@@ -1695,7 +1696,7 @@ def logit_bias_processor(
                 text_offsets.append(
                     text_offset
                     + len(
-                        self.detokenize(all_tokens[:idx]).decode(
+                        self.detokenize(self._vocab, all_tokens[:idx]).decode(
                             "utf-8", errors="ignore"
                         )
                     )
@@ -1708,7 +1709,7 @@ def logit_bias_processor(
                 )
                 token_logprobs.append(logprobs_token[int(token)])
                 top_logprob: Optional[Dict[str, float]] = {
-                    self.detokenize([i], prev_tokens=all_tokens[:idx]).decode(
+                    self.detokenize(self._vocab, [i], prev_tokens=all_tokens[:idx]).decode(
                         "utf-8", errors="ignore"
                     ): logprob
                     for logprob, i in sorted_logprobs[:logprobs]
diff --git a/llama_cpp/llama_chat_format.py b/llama_cpp/llama_chat_format.py
@@ -594,7 +594,7 @@ def chat_completion_handler(
             tool_choice=tool_choice,
         )
         prompt = llama.tokenize(
-            vocab=llama.llama_model_get_vocab(model),
+            vocab=llama.llama_model_get_vocab(llama.model),
             text=result.prompt.encode("utf-8"),
             add_bos=not result.added_special,
             special=True,
@@ -2813,8 +2813,8 @@ def __call__(
         text = template.render(
             messages=messages,
             add_generation_prompt=True,
-            eos_token=llama.detokenize([llama.token_eos()]),
-            bos_token=llama.detokenize([llama.token_bos()]),
+            eos_token=llama.detokenize(vocab=llama.llama_model_get_vocab(llama.model), tokens=[llama.token_eos()]),
+            bos_token=llama.detokenize(vocab=llama.llama_model_get_vocab(llama.model), tokens=[llama.token_bos()]),
         )
         split_text = self.split_text_on_image_urls(text, image_urls)
 
@@ -2828,7 +2828,8 @@ def __call__(
         for type_, value in split_text:
             if type_ == "text":
                 tokens = llama.tokenize(
-                    value.encode("utf8"), add_bos=False, special=True
+                    vocab=llama.llama_model_get_vocab(llama.model),
+                    text=value.encode("utf8"), add_bos=False, special=True
                 )
                 if llama.n_tokens + len(tokens) > llama.n_ctx():
                     raise ValueError(
diff --git a/llama_cpp/llama_tokenizer.py b/llama_cpp/llama_tokenizer.py
@@ -62,14 +62,14 @@ def detokenize(
         return self._model.detokenize(vocab, tokens, special=special)
 
     def encode(
-        self, text: str, add_bos: bool = True, special: bool = True
+        self, vocab:llama_cpp.llama_vocab_p, text: str, add_bos: bool = True, special: bool = True
     ) -> List[int]:
         return self.tokenize(
-            text.encode("utf-8", errors="ignore"), add_bos=add_bos, special=special
+            vocab, text.encode("utf-8", errors="ignore"), add_bos=add_bos, special=special
         )
 
-    def decode(self, tokens: List[int]) -> str:
-        return self.detokenize(tokens).decode("utf-8", errors="ignore")
+    def decode(self, vocab:llama_cpp.llama_vocab_p, tokens: List[int]) -> str:
+        return self.detokenize(vocab, tokens).decode("utf-8", errors="ignore")
 
     @classmethod
     def from_ggml_file(cls, path: str) -> "LlamaTokenizer":
diff --git a/llama_cpp/server/app.py b/llama_cpp/server/app.py
@@ -227,9 +227,10 @@ def _logit_bias_tokens_to_input_ids(
     logit_bias: Dict[str, float],
 ) -> Dict[str, float]:
     to_bias: Dict[str, float] = {}
+    vocab=llama.llama_model_get_vocab(llama.model)
     for token, score in logit_bias.items():
         token = token.encode("utf-8")
-        for input_id in llama.tokenize(token, add_bos=False, special=True):
+        for input_id in llama.tokenize(vocab, token, add_bos=False, special=True):
             to_bias[str(input_id)] = score
     return to_bias
 

Original file line number	Diff line number	Diff line change
`@@ -1430,7 +1430,7 @@ def logit_bias_processor(`
`1430`	`1430`	`)`
`1431`	`1431`	`)`
`1432`	`1432`	`top_logprob = {`
`1433`		`- self.detokenize([i]).decode(`
	`1433`	`+ self.detokenize(self._vocab, [i]).decode(`
`1434`	`1434`	`"utf-8", errors="ignore"`
`1435`	`1435`	`): logprob`
`1436`	`1436`	`for logprob, i in sorted_logprobs[:logprobs]`
`@@ -1559,6 +1559,7 @@ def logit_bias_processor(`
`1559`	`1559`	`)`
`1560`	`1560`	`text_offset = len(prompt) + len(`
`1561`	`1561`	`self.detokenize(`
	`1562`	`+ self._vocab,`
`1562`	`1563`	`completion_tokens[:returned_tokens],`
`1563`	`1564`	`prev_tokens=prompt_tokens`
`1564`	`1565`	`+ completion_tokens[:returned_tokens],`
`@@ -1574,7 +1575,7 @@ def logit_bias_processor(`
`1574`	`1575`	`)`
`1575`	`1576`	`)`
`1576`	`1577`	`top_logprob = {`
`1577`		`- self.detokenize([i]).decode("utf-8", errors="ignore"): logprob`
	`1578`	`+ self.detokenize(self._vocab, [i]).decode("utf-8", errors="ignore"): logprob`
`1578`	`1579`	`for logprob, i in sorted_logprobs[:logprobs]`
`1579`	`1580`	`}`
`1580`	`1581`	`top_logprob.update({token_str: current_logprobs[int(token)]})`
`@@ -1617,7 +1618,7 @@ def logit_bias_processor(`
`1617`	`1618`	`"model": model_name,`
`1618`	`1619`	`"choices": [`
`1619`	`1620`	`{`
`1620`		`- "text": self.detokenize([token]).decode(`
	`1621`	`+ "text": self.detokenize(self._vocab, [token]).decode(`
`1621`	`1622`	`"utf-8", errors="ignore"`
`1622`	`1623`	`),`
`1623`	`1624`	`"index": 0,`
`@@ -1680,7 +1681,7 @@ def logit_bias_processor(`
`1680`	`1681`	`all_tokens = completion_tokens`
`1681`	`1682`
`1682`	`1683`	`all_token_strs = [`
`1683`		`- self.detokenize([token], prev_tokens=all_tokens[:i]).decode(`
	`1684`	`+ self.detokenize(self._vocab, [token], prev_tokens=all_tokens[:i]).decode(`
`1684`	`1685`	`"utf-8", errors="ignore"`
`1685`	`1686`	`)`
`1686`	`1687`	`for i, token in enumerate(all_tokens)`
`@@ -1695,7 +1696,7 @@ def logit_bias_processor(`
`1695`	`1696`	`text_offsets.append(`
`1696`	`1697`	`text_offset`
`1697`	`1698`	`+ len(`
`1698`		`- self.detokenize(all_tokens[:idx]).decode(`
	`1699`	`+ self.detokenize(self._vocab, all_tokens[:idx]).decode(`
`1699`	`1700`	`"utf-8", errors="ignore"`
`1700`	`1701`	`)`
`1701`	`1702`	`)`
`@@ -1708,7 +1709,7 @@ def logit_bias_processor(`
`1708`	`1709`	`)`
`1709`	`1710`	`token_logprobs.append(logprobs_token[int(token)])`
`1710`	`1711`	`top_logprob: Optional[Dict[str, float]] = {`
`1711`		`- self.detokenize([i], prev_tokens=all_tokens[:idx]).decode(`
	`1712`	`+ self.detokenize(self._vocab, [i], prev_tokens=all_tokens[:idx]).decode(`
`1712`	`1713`	`"utf-8", errors="ignore"`
`1713`	`1714`	`): logprob`
`1714`	`1715`	`for logprob, i in sorted_logprobs[:logprobs]`