27
27
28
28
import numpy as np
29
29
import numpy .typing as npt
30
-
30
+ import llama_cpp . llama_cpp as llama_cpp
31
31
import llama_cpp .llama as llama
32
32
import llama_cpp .llama_types as llama_types
33
33
import llama_cpp .llama_grammar as llama_grammar
@@ -594,7 +594,7 @@ def chat_completion_handler(
594
594
tool_choice = tool_choice ,
595
595
)
596
596
prompt = llama .tokenize (
597
- vocab = llama .llama_model_get_vocab (llama .model ),
597
+ vocab = llama_cpp .llama_model_get_vocab (llama .model ),
598
598
text = result .prompt .encode ("utf-8" ),
599
599
add_bos = not result .added_special ,
600
600
special = True ,
@@ -2813,8 +2813,8 @@ def __call__(
2813
2813
text = template .render (
2814
2814
messages = messages ,
2815
2815
add_generation_prompt = True ,
2816
- eos_token = llama .detokenize (vocab = llama .llama_model_get_vocab (llama .model ), tokens = [llama .token_eos ()]),
2817
- bos_token = llama .detokenize (vocab = llama .llama_model_get_vocab (llama .model ), tokens = [llama .token_bos ()]),
2816
+ eos_token = llama .detokenize (vocab = llama_cpp .llama_model_get_vocab (llama .model ), tokens = [llama .token_eos ()]),
2817
+ bos_token = llama .detokenize (vocab = llama_cpp .llama_model_get_vocab (llama .model ), tokens = [llama .token_bos ()]),
2818
2818
)
2819
2819
split_text = self .split_text_on_image_urls (text , image_urls )
2820
2820
@@ -2828,7 +2828,7 @@ def __call__(
2828
2828
for type_ , value in split_text :
2829
2829
if type_ == "text" :
2830
2830
tokens = llama .tokenize (
2831
- vocab = llama .llama_model_get_vocab (llama .model ),
2831
+ vocab = llama_cpp .llama_model_get_vocab (llama .model ),
2832
2832
text = value .encode ("utf8" ), add_bos = False , special = True
2833
2833
)
2834
2834
if llama .n_tokens + len (tokens ) > llama .n_ctx ():
0 commit comments