@@ -91,15 +91,15 @@ def _load_shared_library(lib_base_name: str):
91
91
LLAMA_MAX_DEVICES = GGML_CUDA_MAX_DEVICES if GGML_USE_CUBLAS else 1
92
92
93
93
# define LLAMA_DEFAULT_SEED 0xFFFFFFFF
94
- LLAMA_DEFAULT_SEED = ctypes . c_int ( 0xFFFFFFFF )
94
+ LLAMA_DEFAULT_SEED = 0xFFFFFFFF
95
95
96
96
# define LLAMA_FILE_MAGIC_GGSN 0x6767736eu // 'ggsn'
97
- LLAMA_FILE_MAGIC_GGSN = ctypes . c_uint ( 0x6767736E )
97
+ LLAMA_FILE_MAGIC_GGSN = 0x6767736E
98
98
99
99
# define LLAMA_SESSION_MAGIC LLAMA_FILE_MAGIC_GGSN
100
100
LLAMA_SESSION_MAGIC = LLAMA_FILE_MAGIC_GGSN
101
101
# define LLAMA_SESSION_VERSION 1
102
- LLAMA_SESSION_VERSION = ctypes . c_int ( 1 )
102
+ LLAMA_SESSION_VERSION = 1
103
103
104
104
105
105
# struct llama_model;
@@ -118,16 +118,16 @@ def _load_shared_library(lib_base_name: str):
118
118
# LLAMA_LOG_LEVEL_WARN = 3,
119
119
# LLAMA_LOG_LEVEL_INFO = 4
120
120
# };
121
- LLAMA_LOG_LEVEL_ERROR = c_int ( 2 )
122
- LLAMA_LOG_LEVEL_WARN = c_int ( 3 )
123
- LLAMA_LOG_LEVEL_INFO = c_int ( 4 )
121
+ LLAMA_LOG_LEVEL_ERROR = 2
122
+ LLAMA_LOG_LEVEL_WARN = 3
123
+ LLAMA_LOG_LEVEL_INFO = 4
124
124
125
125
# enum llama_vocab_type {
126
126
# LLAMA_VOCAB_TYPE_SPM = 0, // SentencePiece
127
127
# LLAMA_VOCAB_TYPE_BPE = 1, // Byte Pair Encoding
128
128
# };
129
- LLAMA_VOCAB_TYPE_SPM = c_int ( 0 )
130
- LLAMA_VOCAB_TYPE_BPE = c_int ( 1 )
129
+ LLAMA_VOCAB_TYPE_SPM = 0
130
+ LLAMA_VOCAB_TYPE_BPE = 1
131
131
132
132
133
133
# enum llama_token_type {
@@ -139,13 +139,13 @@ def _load_shared_library(lib_base_name: str):
139
139
# LLAMA_TOKEN_TYPE_UNUSED = 5,
140
140
# LLAMA_TOKEN_TYPE_BYTE = 6,
141
141
# };
142
- LLAMA_TOKEN_TYPE_UNDEFINED = c_int ( 0 )
143
- LLAMA_TOKEN_TYPE_NORMAL = c_int ( 1 )
144
- LLAMA_TOKEN_TYPE_UNKNOWN = c_int ( 2 )
145
- LLAMA_TOKEN_TYPE_CONTROL = c_int ( 3 )
146
- LLAMA_TOKEN_TYPE_USER_DEFINED = c_int ( 4 )
147
- LLAMA_TOKEN_TYPE_UNUSED = c_int ( 5 )
148
- LLAMA_TOKEN_TYPE_BYTE = c_int ( 6 )
142
+ LLAMA_TOKEN_TYPE_UNDEFINED = 0
143
+ LLAMA_TOKEN_TYPE_NORMAL = 1
144
+ LLAMA_TOKEN_TYPE_UNKNOWN = 2
145
+ LLAMA_TOKEN_TYPE_CONTROL = 3
146
+ LLAMA_TOKEN_TYPE_USER_DEFINED = 4
147
+ LLAMA_TOKEN_TYPE_UNUSED = 5
148
+ LLAMA_TOKEN_TYPE_BYTE = 6
149
149
150
150
# enum llama_ftype {
151
151
# LLAMA_FTYPE_ALL_F32 = 0,
@@ -170,24 +170,24 @@ def _load_shared_library(lib_base_name: str):
170
170
#
171
171
# LLAMA_FTYPE_GUESSED = 1024, // not specified in the model file
172
172
# };
173
- LLAMA_FTYPE_ALL_F32 = c_int ( 0 )
174
- LLAMA_FTYPE_MOSTLY_F16 = c_int ( 1 )
175
- LLAMA_FTYPE_MOSTLY_Q4_0 = c_int ( 2 )
176
- LLAMA_FTYPE_MOSTLY_Q4_1 = c_int ( 3 )
177
- LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16 = c_int ( 4 )
178
- LLAMA_FTYPE_MOSTLY_Q8_0 = c_int ( 7 )
179
- LLAMA_FTYPE_MOSTLY_Q5_0 = c_int ( 8 )
180
- LLAMA_FTYPE_MOSTLY_Q5_1 = c_int ( 9 )
181
- LLAMA_FTYPE_MOSTLY_Q2_K = c_int ( 10 )
182
- LLAMA_FTYPE_MOSTLY_Q3_K_S = c_int ( 11 )
183
- LLAMA_FTYPE_MOSTLY_Q3_K_M = c_int ( 12 )
184
- LLAMA_FTYPE_MOSTLY_Q3_K_L = c_int ( 13 )
185
- LLAMA_FTYPE_MOSTLY_Q4_K_S = c_int ( 14 )
186
- LLAMA_FTYPE_MOSTLY_Q4_K_M = c_int ( 15 )
187
- LLAMA_FTYPE_MOSTLY_Q5_K_S = c_int ( 16 )
188
- LLAMA_FTYPE_MOSTLY_Q5_K_M = c_int ( 17 )
189
- LLAMA_FTYPE_MOSTLY_Q6_K = c_int ( 18 )
190
- LLAMA_FTYPE_GUESSED = c_int ( 1024 )
173
+ LLAMA_FTYPE_ALL_F32 = 0
174
+ LLAMA_FTYPE_MOSTLY_F16 = 1
175
+ LLAMA_FTYPE_MOSTLY_Q4_0 = 2
176
+ LLAMA_FTYPE_MOSTLY_Q4_1 = 3
177
+ LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16 = 4
178
+ LLAMA_FTYPE_MOSTLY_Q8_0 = 7
179
+ LLAMA_FTYPE_MOSTLY_Q5_0 = 8
180
+ LLAMA_FTYPE_MOSTLY_Q5_1 = 9
181
+ LLAMA_FTYPE_MOSTLY_Q2_K = 10
182
+ LLAMA_FTYPE_MOSTLY_Q3_K_S = 11
183
+ LLAMA_FTYPE_MOSTLY_Q3_K_M = 12
184
+ LLAMA_FTYPE_MOSTLY_Q3_K_L = 13
185
+ LLAMA_FTYPE_MOSTLY_Q4_K_S = 14
186
+ LLAMA_FTYPE_MOSTLY_Q4_K_M = 15
187
+ LLAMA_FTYPE_MOSTLY_Q5_K_S = 16
188
+ LLAMA_FTYPE_MOSTLY_Q5_K_M = 17
189
+ LLAMA_FTYPE_MOSTLY_Q6_K = 18
190
+ LLAMA_FTYPE_GUESSED = 1024
191
191
192
192
193
193
# typedef struct llama_token_data {
@@ -589,7 +589,7 @@ def llama_model_n_embd(model: llama_model_p) -> int:
589
589
590
590
# // Get a string describing the model type
591
591
# LLAMA_API int llama_model_desc(const struct llama_model * model, char * buf, size_t buf_size);
592
- def llama_model_desc (model : llama_model_p , buf : bytes , buf_size : c_size_t ) -> int :
592
+ def llama_model_desc (model : llama_model_p , buf : bytes , buf_size : Union [ c_size_t , int ] ) -> int :
593
593
return _lib .llama_model_desc (model , buf , buf_size )
594
594
595
595
@@ -957,8 +957,8 @@ def llama_tokenize(
957
957
ctx : llama_context_p ,
958
958
text : bytes ,
959
959
tokens , # type: Array[llama_token]
960
- n_max_tokens : c_int ,
961
- add_bos : c_bool ,
960
+ n_max_tokens : Union [ c_int , int ] ,
961
+ add_bos : Union [ c_bool , int ] ,
962
962
) -> int :
963
963
return _lib .llama_tokenize (ctx , text , tokens , n_max_tokens , add_bos )
964
964
@@ -977,8 +977,8 @@ def llama_tokenize_with_model(
977
977
model : llama_model_p ,
978
978
text : bytes ,
979
979
tokens , # type: Array[llama_token]
980
- n_max_tokens : c_int ,
981
- add_bos : c_bool ,
980
+ n_max_tokens : Union [ c_int , int ] ,
981
+ add_bos : Union [ c_bool , bool ] ,
982
982
) -> int :
983
983
return _lib .llama_tokenize_with_model (model , text , tokens , n_max_tokens , add_bos )
984
984
@@ -1003,7 +1003,7 @@ def llama_tokenize_with_model(
1003
1003
# char * buf,
1004
1004
# int length);
1005
1005
def llama_token_to_piece (
1006
- ctx : llama_context_p , token : llama_token , buf : bytes , length : c_int
1006
+ ctx : llama_context_p , token : llama_token , buf : bytes , length : Union [ c_int , int ]
1007
1007
) -> int :
1008
1008
return _lib .llama_token_to_piece (ctx , token , buf , length )
1009
1009
@@ -1018,7 +1018,7 @@ def llama_token_to_piece(
1018
1018
# char * buf,
1019
1019
# int length);
1020
1020
def llama_token_to_piece_with_model (
1021
- model : llama_model_p , token : llama_token , buf : bytes , length : c_int
1021
+ model : llama_model_p , token : llama_token , buf : bytes , length : Union [ c_int , int ]
1022
1022
) -> int :
1023
1023
return _lib .llama_token_to_piece_with_model (model , token , buf , length )
1024
1024
@@ -1453,10 +1453,10 @@ def llama_beam_search(
1453
1453
ctx : llama_context_p ,
1454
1454
callback : "ctypes._CFuncPtr[None, c_void_p, llama_beams_state]" , # type: ignore
1455
1455
callback_data : c_void_p ,
1456
- n_beams : c_size_t ,
1457
- n_past : c_int ,
1458
- n_predict : c_int ,
1459
- n_threads : c_int ,
1456
+ n_beams : Union [ c_size_t , int ] ,
1457
+ n_past : Union [ c_int , int ] ,
1458
+ n_predict : Union [ c_int , int ] ,
1459
+ n_threads : Union [ c_int , int ] ,
1460
1460
):
1461
1461
return _lib .llama_beam_search (
1462
1462
ctx , callback , callback_data , n_beams , n_past , n_predict , n_threads
0 commit comments