Let models provider their own specific special tokens

helunwencser · helunwencser · commit b78d8b24a8fe · 2024-07-11T17:19:24.000-07:00
Pull Request resolved: #4227 ghstack-source-id: 233473801 Differential Revision: [D59651199](https://our.internmc.facebook.com/intern/diff/D59651199/)
diff --git a/examples/models/llama2/runner/CMakeLists.txt b/examples/models/llama2/runner/CMakeLists.txt
@@ -43,7 +43,7 @@ target_include_directories(
 
 if(EXECUTORCH_USE_TIKTOKEN)
   list(APPEND _llama_runner__srcs
-       ${CMAKE_CURRENT_SOURCE_DIR}/../tokenizer/tiktoken.cpp
+       ${CMAKE_CURRENT_SOURCE_DIR}/../tokenizer/llama_tiktoken.cpp
   )
   set(_preprocessor_flag -DET_USE_TIKTOKEN)
 endif()
diff --git a/examples/models/llama2/runner/runner.cpp b/examples/models/llama2/runner/runner.cpp
@@ -11,7 +11,7 @@
 
 #include <executorch/examples/models/llama2/runner/runner.h>
 #if ET_USE_TIKTOKEN
-#include <executorch/examples/models/llama2/tokenizer/tiktoken.h>
+#include <executorch/examples/models/llama2/tokenizer/llama_tiktoken.h>
 #else /* BPE */
 #include <executorch/examples/models/llama2/tokenizer/bpe_tokenizer.h>
 #endif /* ET_USE_TIKTOKEN*/
@@ -81,7 +81,7 @@ Error Runner::load() {
 
   // Load tokenizer
 #if ET_USE_TIKTOKEN
-  tokenizer_ = std::make_unique<Tiktoken>();
+  tokenizer_ = std::make_unique<LlamaTiktoken>();
 #else
   tokenizer_ = std::make_unique<BPETokenizer>();
 #endif
diff --git a/examples/models/llama2/tokenizer/llama_tiktoken.cpp b/examples/models/llama2/tokenizer/llama_tiktoken.cpp
@@ -0,0 +1,101 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#include <executorch/examples/models/llama2/tokenizer/llama_tiktoken.h>
+
+namespace torch {
+namespace executor {
+namespace {
+static constexpr int32_t kSpecialTokensSize = 256;
+
+static inline const Encoder _get_default_special_tokens(
+    ssize_t num_base_tokens) {
+  Encoder special_tokens;
+  ssize_t special_token_count = 0;
+  special_tokens.emplace(
+      "<|begin_of_text|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|end_of_text|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_0|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_1|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_2|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_3|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|start_header_id|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|end_header_id|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_4|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace("<|eot_id|>", num_base_tokens + special_token_count++);
+
+  // pad the rest of the special tokens with reserved tokens
+  ssize_t reserved_special_token_num = 5;
+  while (special_token_count < kSpecialTokensSize) {
+    special_tokens.emplace(
+        "<|reserved_special_token_" +
+            std::to_string(reserved_special_token_num++) + "|>",
+        num_base_tokens + special_token_count++);
+  }
+  return special_tokens;
+}
+
+static inline const Encoder _get_multimodal_special_tokens(
+    ssize_t num_base_tokens) {
+  ssize_t special_token_count = 0;
+  Encoder special_tokens;
+  special_tokens.emplace(
+      "<|begin_of_text|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|end_of_text|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_0|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_1|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_2|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|reserved_special_token_3|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|start_header_id|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace(
+      "<|end_header_id|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace("<|eom_id|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace("<|eot_id|>", num_base_tokens + special_token_count++);
+  special_tokens.emplace("<|image|>", num_base_tokens + special_token_count++);
+
+  // pad the rest of the special tokens with reserved tokens except the last
+  // one
+  ssize_t reserved_special_token_num = 4;
+  while (special_token_count < kSpecialTokensSize - 1) {
+    special_tokens.emplace(
+        "<|reserved_special_token_" +
+            std::to_string(reserved_special_token_num++) + "|>",
+        num_base_tokens + special_token_count++);
+  }
+
+  special_tokens.emplace(
+      "<|python_tag|>", num_base_tokens + special_token_count++);
+
+  return special_tokens;
+}
+} // namespace
+
+const Encoder LlamaTiktoken::get_special_tokens(ssize_t num_base_tokens) const {
+  switch (_version) {
+    case MULTIMODAL:
+      return _get_multimodal_special_tokens(num_base_tokens);
+    default:
+      return _get_default_special_tokens(num_base_tokens);
+  }
+}
+} // namespace executor
+} // namespace torch
diff --git a/examples/models/llama2/tokenizer/llama_tiktoken.h b/examples/models/llama2/tokenizer/llama_tiktoken.h
@@ -0,0 +1,34 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#pragma once
+
+#include <executorch/examples/models/llama2/tokenizer/tiktoken.h>
+
+namespace torch {
+namespace executor {
+
+enum Version {
+  DEFAULT,
+  MULTIMODAL,
+};
+
+class LlamaTiktoken : public Tiktoken {
+ public:
+  explicit LlamaTiktoken(Version version = Version::DEFAULT)
+      : Tiktoken(), _version(version) {}
+  ~LlamaTiktoken() override {}
+
+ protected:
+  const Encoder get_special_tokens(ssize_t num_base_tokens) const override;
+
+ private:
+  const Version _version;
+};
+} // namespace executor
+} // namespace torch
diff --git a/examples/models/llama2/tokenizer/targets.bzl b/examples/models/llama2/tokenizer/targets.bzl
@@ -23,10 +23,12 @@ def define_common_targets():
         name = "tiktoken",
         srcs = [
             "tiktoken.cpp",
+            "llama_tiktoken.cpp",
         ],
         exported_headers = [
             "tokenizer.h",
             "tiktoken.h",
+            "llama_tiktoken.h",
             "base64.h",
         ],
         exported_deps = [
diff --git a/examples/models/llama2/tokenizer/test/CMakeLists.txt b/examples/models/llama2/tokenizer/test/CMakeLists.txt
@@ -26,6 +26,7 @@ set(
   test_tiktoken.cpp
   test_bpe_tokenizer.cpp
   ${CMAKE_CURRENT_SOURCE_DIR}/../tiktoken.cpp
+  ${CMAKE_CURRENT_SOURCE_DIR}/../llama_tiktoken.cpp
   ${CMAKE_CURRENT_SOURCE_DIR}/../bpe_tokenizer.cpp
 )
 
diff --git a/examples/models/llama2/tokenizer/test/test_tiktoken.cpp b/examples/models/llama2/tokenizer/test/test_tiktoken.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  */
 
-#include <executorch/examples/models/llama2/tokenizer/tiktoken.h>
+#include <executorch/examples/models/llama2/tokenizer/llama_tiktoken.h>
 #include <executorch/examples/models/llama2/tokenizer/tokenizer.h>
 #include <executorch/runtime/platform/runtime.h>
 #include <gtest/gtest.h>
@@ -21,7 +21,7 @@ class TiktokenExtensionTest : public Test {
  public:
   void SetUp() override {
     torch::executor::runtime_init();
-    tokenizer_ = std::make_unique<Tiktoken>();
+    tokenizer_ = std::make_unique<LlamaTiktoken>();
     modelPath_ = std::getenv("RESOURCES_PATH") +
         std::string("/test_tiktoken_tokenizer.model");
   }
@@ -34,7 +34,7 @@ class MultimodalTiktokenV5ExtensionTest : public Test {
  public:
   void SetUp() override {
     torch::executor::runtime_init();
-    tokenizer_ = std::make_unique<Tiktoken>(MULTIMODAL);
+    tokenizer_ = std::make_unique<LlamaTiktoken>(MULTIMODAL);
     modelPath_ = std::getenv("RESOURCES_PATH") +
         std::string("/test_tiktoken_tokenizer.model");
   }
diff --git a/examples/models/llama2/tokenizer/tiktoken.cpp b/examples/models/llama2/tokenizer/tiktoken.cpp
@@ -334,7 +334,7 @@ std::pair<std::vector<uint64_t>, uint64_t> Tiktoken::_encode_with_special_token(
 
 Error Tiktoken::load(const std::string& path) {
   _encoder = _load_encoder(path);
-  _special_token_encoder = _get_special_tokens(_encoder.size());
+  _special_token_encoder = get_special_tokens(_encoder.size());
 
   _decoder = _build_decoder(_encoder);
   _special_token_decoder = _build_decoder(_special_token_encoder);
diff --git a/examples/models/llama2/tokenizer/tiktoken.h b/examples/models/llama2/tokenizer/tiktoken.h
@@ -24,18 +24,10 @@ using Encoder = std::unordered_map<std::string, uint64_t>;
 using Decoder = std::unordered_map<uint64_t, std::string>;
 using Re2UPtr = std::unique_ptr<re2::RE2>;
 
-constexpr int32_t kSpecialTokensSize = 256;
-
-enum Version {
-  DEFAULT,
-  MULTIMODAL,
-};
-
 class Tiktoken : public Tokenizer {
  public:
-  explicit Tiktoken(const Version& version = DEFAULT)
-      : Tokenizer(), _version(version) {}
-  ~Tiktoken(){};
+  explicit Tiktoken() : Tokenizer() {}
+  virtual ~Tiktoken() {}
 
   Error load(const std::string& tokenizer_path) override;
 
@@ -45,104 +37,11 @@ class Tiktoken : public Tokenizer {
   Result<std::string> decode(uint64_t prev_token, uint64_t token)
       const override;
 
- private:
-  static inline const Encoder _get_default_special_tokens(
-      ssize_t num_base_tokens) {
-    Encoder special_tokens;
-    ssize_t special_token_count = 0;
-    special_tokens.emplace(
-        "<|begin_of_text|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|end_of_text|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_0|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_1|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_2|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_3|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|start_header_id|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|end_header_id|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_4|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|eot_id|>", num_base_tokens + special_token_count++);
-
-    // pad the rest of the special tokens with reserved tokens
-    ssize_t reserved_special_token_num = 5;
-    while (special_token_count < kSpecialTokensSize) {
-      special_tokens.emplace(
-          "<|reserved_special_token_" +
-              std::to_string(reserved_special_token_num++) + "|>",
-          num_base_tokens + special_token_count++);
-    }
-    return special_tokens;
-  }
-
-  static inline const Encoder _get_multimodal_special_tokens(
-      ssize_t num_base_tokens) {
-    ssize_t special_token_count = 0;
-    Encoder special_tokens;
-    special_tokens.emplace(
-        "<|begin_of_text|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|end_of_text|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_0|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_1|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_2|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|reserved_special_token_3|>",
-        num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|start_header_id|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|end_header_id|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|eom_id|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|eot_id|>", num_base_tokens + special_token_count++);
-    special_tokens.emplace(
-        "<|image|>", num_base_tokens + special_token_count++);
-
-    // pad the rest of the special tokens with reserved tokens except the last
-    // one
-    ssize_t reserved_special_token_num = 4;
-    while (special_token_count < kSpecialTokensSize - 1) {
-      special_tokens.emplace(
-          "<|reserved_special_token_" +
-              std::to_string(reserved_special_token_num++) + "|>",
-          num_base_tokens + special_token_count++);
-    }
-
-    special_tokens.emplace(
-        "<|python_tag|>", num_base_tokens + special_token_count++);
-
-    return special_tokens;
-  }
-
-  inline const Encoder _get_special_tokens(ssize_t num_base_tokens) {
-    switch (_version) {
-      case MULTIMODAL:
-        return _get_multimodal_special_tokens(num_base_tokens);
-      default:
-        return _get_default_special_tokens(num_base_tokens);
-    }
-  }
+ protected:
+  // Provide model specific special tokens.
+  virtual const Encoder get_special_tokens(ssize_t num_base_tokens) const = 0;
 
+ private:
   template <typename T>
   std::pair<std::optional<std::string>, re2::StringPiece>
   _split_with_allowed_special_token(
@@ -159,8 +58,6 @@ class Tiktoken : public Tokenizer {
       const std::string& text,
       const T& allowed_special) const;
 
-  const Version _version;
-
   // Removed negative lookahead \s+(?!\S) since it's not supported by RE2.
   const std::string _pattern =
       R"((?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+)";

Original file line number	Diff line number	Diff line change
`@@ -43,7 +43,7 @@ target_include_directories(`
`43`	`43`
`44`	`44`	`if(EXECUTORCH_USE_TIKTOKEN)`
`45`	`45`	`list(APPEND _llama_runner__srcs`
`46`		`- ${CMAKE_CURRENT_SOURCE_DIR}/../tokenizer/tiktoken.cpp`
	`46`	`+ ${CMAKE_CURRENT_SOURCE_DIR}/../tokenizer/llama_tiktoken.cpp`
`47`	`47`	`)`
`48`	`48`	`set(_preprocessor_flag -DET_USE_TIKTOKEN)`
`49`	`49`	`endif()`
Original file line number	Diff line number	Diff line change
`@@ -26,6 +26,7 @@ set(`
`26`	`26`	`test_tiktoken.cpp`
`27`	`27`	`test_bpe_tokenizer.cpp`
`28`	`28`	`${CMAKE_CURRENT_SOURCE_DIR}/../tiktoken.cpp`
	`29`	`+ ${CMAKE_CURRENT_SOURCE_DIR}/../llama_tiktoken.cpp`
`29`	`30`	`${CMAKE_CURRENT_SOURCE_DIR}/../bpe_tokenizer.cpp`
`30`	`31`	`)`
`31`	`32`