Update base for Update on "Remove llama related stuff out of bpe_tokenizer"

helunwencser · helunwencser · commit 0e5dbed4067d · 2024-07-12T12:31:43.000-07:00
We don't need to initialize `vocab_`, `vocab_scores_`, etc. They will be initialized anyway while loading the tokenizer binary. A benefit of removing them is that we can remove these llama related default values and make `bpe_tokenizer` agnostic to models. Differential Revision: [D59664556](https://our.internmc.facebook.com/intern/diff/D59664556/) [ghstack-poisoned]
diff --git a/examples/models/llama2/runner/runner.cpp b/examples/models/llama2/runner/runner.cpp
@@ -81,7 +81,7 @@ Error Runner::load() {
 
   // Load tokenizer
 #if ET_USE_TIKTOKEN
-  tokenizer_ = std::make_unique<LlamaTiktoken>();
+  tokenizer_ = get_tiktoken_for_llama();
 #else
   tokenizer_ = std::make_unique<BPETokenizer>();
 #endif
diff --git a/examples/models/llama2/tokenizer/llama_tiktoken.cpp b/examples/models/llama2/tokenizer/llama_tiktoken.cpp
@@ -12,98 +12,77 @@ namespace torch {
 namespace executor {
 namespace {
 static constexpr int32_t kSpecialTokensSize = 256;
+static std::string kBOSToken = "<|begin_of_text|>";
+static constexpr size_t kBOSTokenIndex = 0;
+static std::string kEOSToken = "<|end_of_text|>";
+static constexpr size_t kEOSTokenIndex = 1;
 
-static inline const Encoder _get_default_special_tokens(
-    ssize_t num_base_tokens) {
-  Encoder special_tokens;
-  ssize_t special_token_count = 0;
-  special_tokens.emplace(
-      "<|begin_of_text|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|end_of_text|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_0|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_1|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_2|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_3|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|start_header_id|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|end_header_id|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_4|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace("<|eot_id|>", num_base_tokens + special_token_count++);
+static inline std::unique_ptr<std::vector<std::string>>
+_get_default_special_tokens() {
+  auto special_tokens = std::make_unique<std::vector<std::string>>(
+      std::vector<std::string>{kBOSToken, kEOSToken});
+  special_tokens->emplace_back("<|reserved_special_token_0|>");
+  special_tokens->emplace_back("<|reserved_special_token_1|>");
+  special_tokens->emplace_back("<|reserved_special_token_2|>");
+  special_tokens->emplace_back("<|reserved_special_token_3|>");
+  special_tokens->emplace_back("<|start_header_id|>");
+  special_tokens->emplace_back("<|end_header_id|>");
+  special_tokens->emplace_back("<|reserved_special_token_4|>");
+  special_tokens->emplace_back("<|eot_id|>");
 
   // pad the rest of the special tokens with reserved tokens
   ssize_t reserved_special_token_num = 5;
-  while (special_token_count < kSpecialTokensSize) {
-    special_tokens.emplace(
+  while (special_tokens->size() < kSpecialTokensSize) {
+    special_tokens->emplace_back(
         "<|reserved_special_token_" +
-            std::to_string(reserved_special_token_num++) + "|>",
-        num_base_tokens + special_token_count++);
+        std::to_string(reserved_special_token_num++) + "|>");
   }
   return special_tokens;
 }
 
-static inline const Encoder _get_multimodal_special_tokens(
-    ssize_t num_base_tokens) {
-  ssize_t special_token_count = 0;
-  Encoder special_tokens;
-  special_tokens.emplace(
-      "<|begin_of_text|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|end_of_text|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_0|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_1|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_2|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|reserved_special_token_3|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|start_header_id|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace(
-      "<|end_header_id|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace("<|eom_id|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace("<|eot_id|>", num_base_tokens + special_token_count++);
-  special_tokens.emplace("<|image|>", num_base_tokens + special_token_count++);
+static inline std::unique_ptr<std::vector<std::string>>
+_get_multimodal_special_tokens() {
+  auto special_tokens = std::make_unique<std::vector<std::string>>(
+      std::vector<std::string>{kBOSToken, kEOSToken});
+  special_tokens->emplace_back("<|reserved_special_token_0|>");
+  special_tokens->emplace_back("<|reserved_special_token_1|>");
+  special_tokens->emplace_back("<|reserved_special_token_2|>");
+  special_tokens->emplace_back("<|reserved_special_token_3|>");
+  special_tokens->emplace_back("<|start_header_id|>");
+  special_tokens->emplace_back("<|end_header_id|>");
+  special_tokens->emplace_back("<|eom_id|>");
+  special_tokens->emplace_back("<|eot_id|>");
+  special_tokens->emplace_back("<|image|>");
 
   // pad the rest of the special tokens with reserved tokens except the last
   // one
   ssize_t reserved_special_token_num = 4;
-  while (special_token_count < kSpecialTokensSize - 1) {
-    special_tokens.emplace(
+  while (special_tokens->size() < kSpecialTokensSize - 1) {
+    special_tokens->emplace_back(
         "<|reserved_special_token_" +
-            std::to_string(reserved_special_token_num++) + "|>",
-        num_base_tokens + special_token_count++);
+        std::to_string(reserved_special_token_num++) + "|>");
   }
 
-  special_tokens.emplace(
-      "<|python_tag|>", num_base_tokens + special_token_count++);
+  special_tokens->emplace_back("<|python_tag|>");
 
   return special_tokens;
 }
-} // namespace
 
-const Encoder LlamaTiktoken::get_special_tokens(ssize_t num_base_tokens) const {
-  switch (_version) {
+std::unique_ptr<std::vector<std::string>> _get_special_tokens(Version version) {
+  switch (version) {
     case MULTIMODAL:
-      return _get_multimodal_special_tokens(num_base_tokens);
+      return _get_multimodal_special_tokens();
     default:
-      return _get_default_special_tokens(num_base_tokens);
+      return _get_default_special_tokens();
   }
 }
 
-const std::string LlamaTiktoken::get_bos_token() const {
-  return "<|begin_of_text|>";
-}
+} // namespace
 
-const std::string LlamaTiktoken::get_eos_token() const {
-  return "<|end_of_text|>";
+std::unique_ptr<Tiktoken> get_tiktoken_for_llama(Version version) {
+  return std::make_unique<Tiktoken>(
+      _get_special_tokens(version), kBOSTokenIndex, kEOSTokenIndex);
 }
+
 } // namespace executor
 } // namespace torch
diff --git a/examples/models/llama2/tokenizer/llama_tiktoken.h b/examples/models/llama2/tokenizer/llama_tiktoken.h
@@ -18,19 +18,7 @@ enum Version {
   MULTIMODAL,
 };
 
-class LlamaTiktoken : public Tiktoken {
- public:
-  explicit LlamaTiktoken(Version version = Version::DEFAULT)
-      : Tiktoken(), _version(version) {}
-  ~LlamaTiktoken() override {}
+std::unique_ptr<Tiktoken> get_tiktoken_for_llama(Version version = DEFAULT);
 
- protected:
-  const Encoder get_special_tokens(ssize_t num_base_tokens) const override;
-  const std::string get_bos_token() const override;
-  const std::string get_eos_token() const override;
-
- private:
-  const Version _version;
-};
 } // namespace executor
 } // namespace torch
diff --git a/examples/models/llama2/tokenizer/test/test_tiktoken.cpp b/examples/models/llama2/tokenizer/test/test_tiktoken.cpp
@@ -21,7 +21,7 @@ class TiktokenExtensionTest : public Test {
  public:
   void SetUp() override {
     torch::executor::runtime_init();
-    tokenizer_ = std::make_unique<LlamaTiktoken>();
+    tokenizer_ = get_tiktoken_for_llama();
     modelPath_ = std::getenv("RESOURCES_PATH") +
         std::string("/test_tiktoken_tokenizer.model");
   }
@@ -34,7 +34,7 @@ class MultimodalTiktokenV5ExtensionTest : public Test {
  public:
   void SetUp() override {
     torch::executor::runtime_init();
-    tokenizer_ = std::make_unique<LlamaTiktoken>(MULTIMODAL);
+    tokenizer_ = get_tiktoken_for_llama(MULTIMODAL);
     modelPath_ = std::getenv("RESOURCES_PATH") +
         std::string("/test_tiktoken_tokenizer.model");
   }
@@ -144,5 +144,34 @@ TEST_F(TiktokenExtensionTest, TokenizerDecodeOutOfRangeFails) {
   EXPECT_EQ(out.error(), Error::NotSupported);
 }
 
+TEST_F(TiktokenExtensionTest, ConstructionWithInvalidBOSIndex) {
+  // gtest death test doesn't work on iOS:
+  // https://github.com/google/googletest/issues/2834
+#if !GTEST_OS_IOS
+  EXPECT_EXIT(
+      std::make_unique<Tiktoken>(
+          std::make_unique<std::vector<std::string>>(
+              std::vector<std::string>{"<|end_of_text|>"}),
+          1,
+          0),
+      ::testing::KilledBySignal(SIGABRT),
+      "");
+#endif
+}
+
+TEST_F(TiktokenExtensionTest, ConstructionWithInvalidEOSIndex) {
+  // gtest death test doesn't work on iOS:
+  // https://github.com/google/googletest/issues/2834
+#if !GTEST_OS_IOS
+  EXPECT_EXIT(
+      std::make_unique<Tiktoken>(
+          std::make_unique<std::vector<std::string>>(
+              std::vector<std::string>{"<|begin_of_text|>"}),
+          0,
+          1),
+      ::testing::KilledBySignal(SIGABRT),
+      "");
+#endif
+}
 } // namespace executor
 } // namespace torch
diff --git a/examples/models/llama2/tokenizer/tiktoken.cpp b/examples/models/llama2/tokenizer/tiktoken.cpp
@@ -330,12 +330,38 @@ std::pair<std::vector<uint64_t>, uint64_t> Tiktoken::_encode_with_special_token(
   return std::make_pair(tokens, last_piece_token_len);
 }
 
+Encoder Tiktoken::_build_special_token_encoder(ssize_t num_base_tokens) const {
+  Encoder special_token_encoder;
+  for (ssize_t i = 0; i < _special_tokens->size(); ++i) {
+    special_token_encoder.emplace(_special_tokens->at(i), num_base_tokens + i);
+  }
+  return special_token_encoder;
+}
+
 // -------------------------private method end-------------------------------
 // -------------------------public method start-------------------------------
 
+Tiktoken::Tiktoken(
+    std::unique_ptr<std::vector<std::string>> special_tokens,
+    size_t bos_token_index,
+    size_t eos_token_index)
+    : Tokenizer(),
+      _special_tokens(std::move(special_tokens)),
+      _bos_token_index(bos_token_index),
+      _eos_token_index(eos_token_index) {
+  ET_CHECK_MSG(
+      _bos_token_index < _special_tokens->size(),
+      "invalid bos_token_index %zu",
+      _bos_token_index);
+  ET_CHECK_MSG(
+      _eos_token_index < _special_tokens->size(),
+      "invalid eos_token_index %zu",
+      _eos_token_index);
+}
+
 Error Tiktoken::load(const std::string& path) {
   _encoder = _load_encoder(path);
-  _special_token_encoder = get_special_tokens(_encoder.size());
+  _special_token_encoder = _build_special_token_encoder(_encoder.size());
 
   _decoder = _build_decoder(_encoder);
   _special_token_decoder = _build_decoder(_special_token_encoder);
@@ -346,8 +372,8 @@ Error Tiktoken::load(const std::string& path) {
 
   // initialize vocab_size, bos_tok, eos_tok
   vocab_size_ = _encoder.size() + _special_token_encoder.size();
-  bos_tok_ = _special_token_encoder.at(get_bos_token());
-  eos_tok_ = _special_token_encoder.at(get_eos_token());
+  bos_tok_ = _special_token_encoder.at(_special_tokens->at(_bos_token_index));
+  eos_tok_ = _special_token_encoder.at(_special_tokens->at(_eos_token_index));
 
   initialized_ = true;
   return Error::Ok;
diff --git a/examples/models/llama2/tokenizer/tiktoken.h b/examples/models/llama2/tokenizer/tiktoken.h
@@ -25,8 +25,16 @@ using Re2UPtr = std::unique_ptr<re2::RE2>;
 
 class Tiktoken : public Tokenizer {
  public:
-  explicit Tiktoken() : Tokenizer() {}
-  virtual ~Tiktoken() {}
+  /**
+   * @param[in] special_tokens List of special tokens including bos, eos;
+   * @param[in] bos_token_index Index of the bos token in special_tokens;
+   * @param[in] eos_token_index Index of the eos token in special_tokens.
+   */
+  explicit Tiktoken(
+      std::unique_ptr<std::vector<std::string>> special_tokens,
+      size_t bos_token_index,
+      size_t eos_token_index);
+  ~Tiktoken() {}
 
   Error load(const std::string& tokenizer_path) override;
 
@@ -36,14 +44,6 @@ class Tiktoken : public Tokenizer {
   Result<std::string> decode(uint64_t prev_token, uint64_t token)
       const override;
 
- protected:
-  // Provide model specific special tokens.
-  virtual const Encoder get_special_tokens(ssize_t num_base_tokens) const = 0;
-  // Provide beginning of sentence token.
-  virtual const std::string get_bos_token() const = 0;
-  // Provide end of sentence token.
-  virtual const std::string get_eos_token() const = 0;
-
  private:
   template <typename T>
   std::pair<std::optional<std::string>, re2::StringPiece>
@@ -61,6 +61,11 @@ class Tiktoken : public Tokenizer {
       const std::string& text,
       const T& allowed_special) const;
 
+  Encoder _build_special_token_encoder(ssize_t num_base_tokens) const;
+
+  std::unique_ptr<std::vector<std::string>> _special_tokens;
+  size_t _bos_token_index;
+  size_t _eos_token_index;
   // Removed negative lookahead \s+(?!\S) since it's not supported by RE2.
   const std::string _pattern =
       R"((?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+)";