Skip to content

Commit 6c63550

Browse files
committed
llama : update tokenizer style
1 parent 7494c78 commit 6c63550

File tree

2 files changed

+101
-75
lines changed

2 files changed

+101
-75
lines changed

gguf-llama.cpp

Lines changed: 50 additions & 37 deletions
Original file line numberDiff line numberDiff line change
@@ -2112,49 +2112,56 @@ static bool llama_eval_internal(
21122112
// tokenizer
21132113
//
21142114

2115-
static std::string llama_vocab_type(const llama_vocab& vocab) {
2115+
static std::string llama_vocab_type(const llama_vocab & vocab) {
21162116
return vocab.token_to_id.size() == 32000 ? "spm": "bpe";
21172117
}
21182118

2119-
static bool llama_is_normal_token(const llama_vocab& vocab, llama_token token) {
2120-
if(llama_vocab_type(vocab) == "spm")
2119+
static bool llama_is_normal_token(const llama_vocab & vocab, llama_token token) {
2120+
if (llama_vocab_type(vocab) == "spm") {
21212121
return token >= 259;
2122-
else if(llama_vocab_type(vocab) == "bpe")
2122+
}
2123+
2124+
if (llama_vocab_type(vocab) == "bpe") {
21232125
return token >= 95;
2124-
else
2125-
return false;
2126+
}
2127+
2128+
return false;
21262129
}
21272130

2128-
static bool llama_is_unknown_token(const llama_vocab& vocab, llama_token token) {
2129-
if(llama_vocab_type(vocab) == "spm")
2131+
static bool llama_is_unknown_token(const llama_vocab & vocab, llama_token token) {
2132+
if (llama_vocab_type(vocab) == "spm") {
21302133
return token == 0;
2131-
else
2132-
// TODO: improve?
2133-
return false;
2134+
}
2135+
2136+
// TODO: improve?
2137+
return false;
21342138
}
21352139

2136-
static bool llama_is_control_token(const llama_vocab& vocab, llama_token token) {
2137-
if(llama_vocab_type(vocab) == "spm")
2140+
static bool llama_is_control_token(const llama_vocab & vocab, llama_token token) {
2141+
if (llama_vocab_type(vocab) == "spm") {
21382142
return token == 1 || token == 2;
2139-
else
2140-
// TODO: improve?
2141-
return false;
2143+
}
2144+
2145+
// TODO: improve?
2146+
return false;
21422147
}
21432148

2144-
static bool llama_is_bos_token(const llama_vocab& vocab, llama_token token) {
2145-
if(llama_vocab_type(vocab) == "spm")
2149+
static bool llama_is_bos_token(const llama_vocab & vocab, llama_token token) {
2150+
if (llama_vocab_type(vocab) == "spm") {
21462151
return token == 1;
2147-
else
2148-
// TODO: improve?
2149-
return false;
2152+
}
2153+
2154+
// TODO: improve?
2155+
return false;
21502156
}
21512157

2152-
static bool llama_is_eos_token(const llama_vocab& vocab, llama_token token) {
2153-
if(llama_vocab_type(vocab) == "spm")
2158+
static bool llama_is_eos_token(const llama_vocab & vocab, llama_token token) {
2159+
if (llama_vocab_type(vocab) == "spm") {
21542160
return token == 2;
2155-
else
2156-
// TODO: improve?
2157-
return false;
2161+
}
2162+
2163+
// TODO: improve?
2164+
return false;
21582165
}
21592166

21602167
static bool llama_is_user_defined_token(const llama_vocab & vocab, llama_token token) {
@@ -2164,29 +2171,35 @@ static bool llama_is_user_defined_token(const llama_vocab & vocab, llama_token t
21642171
return false;
21652172
}
21662173

2167-
static bool llama_is_unused_token(const llama_vocab& vocab, llama_token token) {
2174+
static bool llama_is_unused_token(const llama_vocab & vocab, llama_token token) {
21682175
UNUSED(vocab);
21692176
UNUSED(token);
21702177
// TODO: improve?
21712178
return false;
21722179
}
21732180

2174-
static bool llama_is_byte_token(const llama_vocab& vocab, llama_token token) {
2175-
if(llama_vocab_type(vocab) == "spm")
2181+
static bool llama_is_byte_token(const llama_vocab & vocab, llama_token token) {
2182+
if (llama_vocab_type(vocab) == "spm") {
21762183
return 3 <= token && token < 259;
2177-
else if(llama_vocab_type(vocab) == "bpe")
2184+
}
2185+
2186+
if (llama_vocab_type(vocab) == "bpe") {
21782187
return 1 <= token && token < 95;
2179-
else
2180-
return false;
2188+
}
2189+
2190+
return false;
21812191
}
21822192

2183-
static uint8_t llama_byte_to_char(const llama_vocab& vocab, uint8_t byte) {
2184-
if(llama_vocab_type(vocab) == "spm")
2193+
static uint8_t llama_byte_to_char(const llama_vocab & vocab, uint8_t byte) {
2194+
if (llama_vocab_type(vocab) == "spm") {
21852195
return byte + 3;
2186-
else if(llama_vocab_type(vocab) == "bpe")
2196+
}
2197+
2198+
if (llama_vocab_type(vocab) == "bpe") {
21872199
return byte + 32;
2188-
else
2189-
return false;
2200+
}
2201+
2202+
return false;
21902203
}
21912204

21922205
static std::string llama_escape_whitespace(const std::string& text) {

llama.cpp

Lines changed: 51 additions & 38 deletions
Original file line numberDiff line numberDiff line change
@@ -1944,81 +1944,94 @@ static bool llama_eval_internal(
19441944
// tokenizer
19451945
//
19461946

1947-
static std::string llama_vocab_type(const llama_vocab& vocab) {
1947+
static std::string llama_vocab_type(const llama_vocab & vocab) {
19481948
return vocab.token_to_id.size() == 32000 ? "spm": "bpe";
19491949
}
19501950

1951-
static bool llama_is_normal_token(const llama_vocab& vocab, llama_token token) {
1952-
if(llama_vocab_type(vocab) == "spm")
1951+
static bool llama_is_normal_token(const llama_vocab & vocab, llama_token token) {
1952+
if (llama_vocab_type(vocab) == "spm") {
19531953
return token >= 259;
1954-
else if(llama_vocab_type(vocab) == "bpe")
1954+
}
1955+
1956+
if (llama_vocab_type(vocab) == "bpe") {
19551957
return token >= 95;
1956-
else
1957-
return false;
1958+
}
1959+
1960+
return false;
19581961
}
19591962

1960-
static bool llama_is_unknown_token(const llama_vocab& vocab, llama_token token) {
1961-
if(llama_vocab_type(vocab) == "spm")
1963+
static bool llama_is_unknown_token(const llama_vocab & vocab, llama_token token) {
1964+
if (llama_vocab_type(vocab) == "spm") {
19621965
return token == 0;
1963-
else
1964-
// TODO: improve?
1965-
return false;
1966+
}
1967+
1968+
// TODO: improve?
1969+
return false;
19661970
}
19671971

1968-
static bool llama_is_control_token(const llama_vocab& vocab, llama_token token) {
1969-
if(llama_vocab_type(vocab) == "spm")
1972+
static bool llama_is_control_token(const llama_vocab & vocab, llama_token token) {
1973+
if (llama_vocab_type(vocab) == "spm") {
19701974
return token == 1 || token == 2;
1971-
else
1972-
// TODO: improve?
1973-
return false;
1975+
}
1976+
1977+
// TODO: improve?
1978+
return false;
19741979
}
19751980

1976-
static bool llama_is_bos_token(const llama_vocab& vocab, llama_token token) {
1977-
if(llama_vocab_type(vocab) == "spm")
1981+
static bool llama_is_bos_token(const llama_vocab & vocab, llama_token token) {
1982+
if (llama_vocab_type(vocab) == "spm") {
19781983
return token == 1;
1979-
else
1980-
// TODO: improve?
1981-
return false;
1984+
}
1985+
1986+
// TODO: improve?
1987+
return false;
19821988
}
19831989

1984-
static bool llama_is_eos_token(const llama_vocab& vocab, llama_token token) {
1985-
if(llama_vocab_type(vocab) == "spm")
1990+
static bool llama_is_eos_token(const llama_vocab & vocab, llama_token token) {
1991+
if (llama_vocab_type(vocab) == "spm") {
19861992
return token == 2;
1987-
else
1988-
// TODO: improve?
1989-
return false;
1993+
}
1994+
1995+
// TODO: improve?
1996+
return false;
19901997
}
19911998

1992-
static bool llama_is_user_defined_token(const llama_vocab& vocab, llama_token token) {
1999+
static bool llama_is_user_defined_token(const llama_vocab & vocab, llama_token token) {
19932000
UNUSED(vocab);
19942001
UNUSED(token);
19952002
// TODO: improve?
19962003
return false;
19972004
}
19982005

1999-
static bool llama_is_unused_token(const llama_vocab& vocab, llama_token token) {
2006+
static bool llama_is_unused_token(const llama_vocab & vocab, llama_token token) {
20002007
UNUSED(vocab);
20012008
UNUSED(token);
20022009
// TODO: improve?
20032010
return false;
20042011
}
20052012

2006-
static bool llama_is_byte_token(const llama_vocab& vocab, llama_token token) {
2007-
if(llama_vocab_type(vocab) == "spm")
2013+
static bool llama_is_byte_token(const llama_vocab & vocab, llama_token token) {
2014+
if (llama_vocab_type(vocab) == "spm") {
20082015
return 3 <= token && token < 259;
2009-
else if(llama_vocab_type(vocab) == "bpe")
2016+
}
2017+
2018+
if (llama_vocab_type(vocab) == "bpe") {
20102019
return 1 <= token && token < 95;
2011-
else
2012-
return false;
2020+
}
2021+
2022+
return false;
20132023
}
20142024

2015-
static uint8_t llama_byte_to_char(const llama_vocab& vocab, uint8_t byte) {
2016-
if(llama_vocab_type(vocab) == "spm")
2025+
static uint8_t llama_byte_to_char(const llama_vocab & vocab, uint8_t byte) {
2026+
if (llama_vocab_type(vocab) == "spm") {
20172027
return byte + 3;
2018-
else if(llama_vocab_type(vocab) == "bpe")
2028+
}
2029+
2030+
if (llama_vocab_type(vocab) == "bpe") {
20192031
return byte + 32;
2020-
else
2021-
return false;
2032+
}
2033+
2034+
return false;
20222035
}
20232036

20242037
static std::string llama_escape_whitespace(const std::string& text) {

0 commit comments

Comments
 (0)