llama : remove notion of CLS token

ggerganov · ggerganov · commit 747c85d4603d · 2025-01-06T10:58:01.000+02:00
ggml-ci
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -183,7 +183,6 @@ class Tokenizer:
         UNK_ID               = "tokenizer.ggml.unknown_token_id"
         SEP_ID               = "tokenizer.ggml.seperator_token_id"
         PAD_ID               = "tokenizer.ggml.padding_token_id"
-        CLS_ID               = "tokenizer.ggml.cls_token_id"
         MASK_ID              = "tokenizer.ggml.mask_token_id"
         ADD_BOS              = "tokenizer.ggml.add_bos_token"
         ADD_EOS              = "tokenizer.ggml.add_eos_token"
@@ -1782,7 +1781,6 @@ def get_type(val: Any) -> GGUFValueType:
 KEY_TOKENIZER_UNK_ID     = Keys.Tokenizer.UNK_ID
 KEY_TOKENIZER_SEP_ID     = Keys.Tokenizer.SEP_ID
 KEY_TOKENIZER_PAD_ID     = Keys.Tokenizer.PAD_ID
-KEY_TOKENIZER_CLS_ID     = Keys.Tokenizer.CLS_ID
 KEY_TOKENIZER_MASK_ID    = Keys.Tokenizer.MASK_ID
 KEY_TOKENIZER_HF_JSON    = Keys.Tokenizer.HF_JSON
 KEY_TOKENIZER_RWKV       = Keys.Tokenizer.RWKV
diff --git a/gguf-py/gguf/gguf_writer.py b/gguf-py/gguf/gguf_writer.py
@@ -854,9 +854,6 @@ def add_sep_token_id(self, id: int) -> None:
     def add_pad_token_id(self, id: int) -> None:
         self.add_uint32(Keys.Tokenizer.PAD_ID, id)
 
-    def add_cls_token_id(self, id: int) -> None:
-        self.add_uint32(Keys.Tokenizer.CLS_ID, id)
-
     def add_mask_token_id(self, id: int) -> None:
         self.add_uint32(Keys.Tokenizer.MASK_ID, id)
 
diff --git a/include/llama.h b/include/llama.h
@@ -924,11 +924,14 @@ extern "C" {
     LLAMA_API llama_token llama_token_bos(const struct llama_model * model); // beginning-of-sentence
     LLAMA_API llama_token llama_token_eos(const struct llama_model * model); // end-of-sentence
     LLAMA_API llama_token llama_token_eot(const struct llama_model * model); // end-of-turn
-    LLAMA_API llama_token llama_token_cls(const struct llama_model * model); // classification
     LLAMA_API llama_token llama_token_sep(const struct llama_model * model); // sentence separator
     LLAMA_API llama_token llama_token_nl (const struct llama_model * model); // next-line
     LLAMA_API llama_token llama_token_pad(const struct llama_model * model); // padding
 
+    // CLS is equivalent to BOS
+    DEPRECATED(LLAMA_API llama_token llama_token_cls(const struct llama_model * model), // classification
+            "use llama_token_bos instead");
+
     LLAMA_API bool llama_add_bos_token(const struct llama_model * model);
     LLAMA_API bool llama_add_eos_token(const struct llama_model * model);
 
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1134,7 +1134,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) {
             vocab.special_unk_id  = LLAMA_TOKEN_NULL;
             vocab.special_sep_id  = LLAMA_TOKEN_NULL;
             vocab.special_pad_id  = LLAMA_TOKEN_NULL;
-            vocab.special_cls_id  = LLAMA_TOKEN_NULL;
             vocab.special_mask_id = LLAMA_TOKEN_NULL;
             vocab.linefeed_id     = LLAMA_TOKEN_NULL;
 
@@ -1155,18 +1154,16 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) {
             vocab.special_unk_id  = 0;
             vocab.special_sep_id  = LLAMA_TOKEN_NULL;
             vocab.special_pad_id  = LLAMA_TOKEN_NULL;
-            vocab.special_cls_id  = LLAMA_TOKEN_NULL;
             vocab.special_mask_id = LLAMA_TOKEN_NULL;
         } else if (tokenizer_model == "bert") {
             vocab.type = LLAMA_VOCAB_TYPE_WPM;
 
             // default special tokens
-            vocab.special_bos_id  = LLAMA_TOKEN_NULL;
+            vocab.special_bos_id  = 101;
             vocab.special_eos_id  = LLAMA_TOKEN_NULL;
             vocab.special_unk_id  = 100;
             vocab.special_sep_id  = 102;
             vocab.special_pad_id  = 0;
-            vocab.special_cls_id  = 101;
             vocab.special_mask_id = 103;
         } else if (tokenizer_model == "gpt2") {
             vocab.type = LLAMA_VOCAB_TYPE_BPE;
@@ -1201,7 +1198,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) {
             vocab.special_unk_id  = LLAMA_TOKEN_NULL;
             vocab.special_sep_id  = LLAMA_TOKEN_NULL;
             vocab.special_pad_id  = LLAMA_TOKEN_NULL;
-            vocab.special_cls_id  = LLAMA_TOKEN_NULL;
             vocab.special_mask_id = LLAMA_TOKEN_NULL;
         } else if (tokenizer_model == "t5") {
             vocab.type = LLAMA_VOCAB_TYPE_UGM;
@@ -1212,7 +1208,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) {
             vocab.special_unk_id  = 2;
             vocab.special_sep_id  = LLAMA_TOKEN_NULL;
             vocab.special_pad_id  = 0;
-            vocab.special_cls_id  = LLAMA_TOKEN_NULL;
             vocab.special_mask_id = LLAMA_TOKEN_NULL;
 
             const int precompiled_charsmap_keyidx = gguf_find_key(ctx, kv(LLM_KV_TOKENIZER_PRECOMPILED_CHARSMAP).c_str());
@@ -1495,7 +1490,6 @@ void llm_load_vocab(llama_model_loader & ml, llama_model & model) {
             { LLM_KV_TOKENIZER_UNK_ID,     vocab.special_unk_id     },
             { LLM_KV_TOKENIZER_SEP_ID,     vocab.special_sep_id     },
             { LLM_KV_TOKENIZER_PAD_ID,     vocab.special_pad_id     },
-            { LLM_KV_TOKENIZER_CLS_ID,     vocab.special_cls_id     },
             { LLM_KV_TOKENIZER_MASK_ID,    vocab.special_mask_id    },
             { LLM_KV_TOKENIZER_FIM_PRE_ID, vocab.special_fim_pre_id },
             { LLM_KV_TOKENIZER_FIM_SUF_ID, vocab.special_fim_suf_id },
@@ -1930,7 +1924,6 @@ void llm_load_print_meta(llama_model_loader & ml, llama_model & model) {
     if (vocab.special_unk_id  != LLAMA_TOKEN_NULL)    { LLAMA_LOG_INFO( "%s: UNK token        = %d '%s'\n", __func__, vocab.special_unk_id,     vocab.id_to_token[vocab.special_unk_id].text.c_str() );  }
     if (vocab.special_sep_id  != LLAMA_TOKEN_NULL)    { LLAMA_LOG_INFO( "%s: SEP token        = %d '%s'\n", __func__, vocab.special_sep_id,     vocab.id_to_token[vocab.special_sep_id].text.c_str() );  }
     if (vocab.special_pad_id  != LLAMA_TOKEN_NULL)    { LLAMA_LOG_INFO( "%s: PAD token        = %d '%s'\n", __func__, vocab.special_pad_id,     vocab.id_to_token[vocab.special_pad_id].text.c_str() );  }
-    if (vocab.special_cls_id  != LLAMA_TOKEN_NULL)    { LLAMA_LOG_INFO( "%s: CLS token        = %d '%s'\n", __func__, vocab.special_cls_id,     vocab.id_to_token[vocab.special_cls_id].text.c_str() );  }
     if (vocab.special_mask_id != LLAMA_TOKEN_NULL)    { LLAMA_LOG_INFO( "%s: MASK token       = %d '%s'\n", __func__, vocab.special_mask_id,    vocab.id_to_token[vocab.special_mask_id].text.c_str() ); }
 
     if (vocab.linefeed_id != LLAMA_TOKEN_NULL)        { LLAMA_LOG_INFO( "%s: LF token         = %d '%s'\n", __func__, vocab.linefeed_id,        vocab.id_to_token[vocab.linefeed_id].text.c_str() ); }
diff --git a/src/llama-vocab.cpp b/src/llama-vocab.cpp
@@ -1522,8 +1522,8 @@ std::vector<llama_vocab::id> llama_tokenize_internal(
         case LLAMA_VOCAB_TYPE_WPM:
             {
                 if (add_special) {
-                    GGML_ASSERT(vocab.special_cls_id != LLAMA_TOKEN_NULL);
-                    output.push_back(vocab.special_cls_id);
+                    GGML_ASSERT(vocab.special_bos_id != LLAMA_TOKEN_NULL);
+                    output.push_back(vocab.special_bos_id);
                 }
 
                 llm_tokenizer_wpm_session session(vocab);
@@ -1650,7 +1650,7 @@ bool llama_token_is_control_impl(const struct llama_vocab & vocab, llama_token t
 }
 
 llama_token llama_token_bos_impl(const struct llama_vocab & vocab) {
-    return vocab.type != LLAMA_VOCAB_TYPE_WPM ? vocab.special_bos_id : vocab.special_cls_id;
+    return vocab.special_bos_id;
 }
 
 llama_token llama_token_eos_impl(const struct llama_vocab & vocab) {
@@ -1665,10 +1665,6 @@ llama_token llama_token_eom_impl(const struct llama_vocab & vocab) {
     return vocab.special_eom_id;
 }
 
-llama_token llama_token_cls_impl(const struct llama_vocab & vocab) {
-    return vocab.special_cls_id;
-}
-
 llama_token llama_token_sep_impl(const struct llama_vocab & vocab) {
     return vocab.special_sep_id;
 }
diff --git a/src/llama-vocab.h b/src/llama-vocab.h
@@ -57,7 +57,6 @@ struct llama_vocab {
     id special_unk_id  = 0;
     id special_sep_id  = LLAMA_TOKEN_NULL;
     id special_pad_id  = LLAMA_TOKEN_NULL;
-    id special_cls_id  = LLAMA_TOKEN_NULL; // TODO: revisit if this is really needed https://github.com/ggerganov/llama.cpp/pull/10930
     id special_mask_id = LLAMA_TOKEN_NULL;
 
     id linefeed_id = 13;
@@ -124,7 +123,6 @@ llama_token llama_token_bos_impl(const struct llama_vocab & vocab);
 llama_token llama_token_eos_impl(const struct llama_vocab & vocab);
 llama_token llama_token_eot_impl(const struct llama_vocab & vocab);
 llama_token llama_token_eom_impl(const struct llama_vocab & vocab);
-llama_token llama_token_cls_impl(const struct llama_vocab & vocab);
 llama_token llama_token_sep_impl(const struct llama_vocab & vocab);
 llama_token llama_token_nl_impl (const struct llama_vocab & vocab);
 llama_token llama_token_pad_impl(const struct llama_vocab & vocab);
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -12267,7 +12267,7 @@ llama_token llama_token_eot(const struct llama_model * model) {
 }
 
 llama_token llama_token_cls(const struct llama_model * model) {
-    return llama_token_cls_impl(model->vocab);
+    return llama_token_bos_impl(model->vocab);
 }
 
 llama_token llama_token_sep(const struct llama_model * model) {

Original file line number	Diff line number	Diff line change
`@@ -1522,8 +1522,8 @@ std::vector<llama_vocab::id> llama_tokenize_internal(`
`1522`	`1522`	`case LLAMA_VOCAB_TYPE_WPM:`
`1523`	`1523`	`{`
`1524`	`1524`	`if (add_special) {`
`1525`		`- GGML_ASSERT(vocab.special_cls_id != LLAMA_TOKEN_NULL);`
`1526`		`- output.push_back(vocab.special_cls_id);`
	`1525`	`+ GGML_ASSERT(vocab.special_bos_id != LLAMA_TOKEN_NULL);`
	`1526`	`+ output.push_back(vocab.special_bos_id);`
`1527`	`1527`	`}`
`1528`	`1528`
`1529`	`1529`	`llm_tokenizer_wpm_session session(vocab);`
`@@ -1650,7 +1650,7 @@ bool llama_token_is_control_impl(const struct llama_vocab & vocab, llama_token t`
`1650`	`1650`	`}`
`1651`	`1651`
`1652`	`1652`	`llama_token llama_token_bos_impl(const struct llama_vocab & vocab) {`
`1653`		`- return vocab.type != LLAMA_VOCAB_TYPE_WPM ? vocab.special_bos_id : vocab.special_cls_id;`
	`1653`	`+ return vocab.special_bos_id;`
`1654`	`1654`	`}`
`1655`	`1655`
`1656`	`1656`	`llama_token llama_token_eos_impl(const struct llama_vocab & vocab) {`
`@@ -1665,10 +1665,6 @@ llama_token llama_token_eom_impl(const struct llama_vocab & vocab) {`
`1665`	`1665`	`return vocab.special_eom_id;`
`1666`	`1666`	`}`
`1667`	`1667`
`1668`		`-llama_token llama_token_cls_impl(const struct llama_vocab & vocab) {`
`1669`		`- return vocab.special_cls_id;`
`1670`		`-}`
`1671`		`-`
`1672`	`1668`	`llama_token llama_token_sep_impl(const struct llama_vocab & vocab) {`
`1673`	`1669`	`return vocab.special_sep_id;`
`1674`	`1670`	`}`
Original file line number	Diff line number	Diff line change
`@@ -12267,7 +12267,7 @@ llama_token llama_token_eot(const struct llama_model * model) {`
`12267`	`12267`	`}`
`12268`	`12268`
`12269`	`12269`	`llama_token llama_token_cls(const struct llama_model * model) {`
`12270`		`- return llama_token_cls_impl(model->vocab);`
	`12270`	`+ return llama_token_bos_impl(model->vocab);`
`12271`	`12271`	`}`
`12272`	`12272`
`12273`	`12273`	`llama_token llama_token_sep(const struct llama_model * model) {`