Migrate users of llm tokenizer to use pytorch-labs/tokenizers (#9114)

larryliu0820 · facebook-github-bot · commit 8262bad244a0 · 2025-03-10T21:04:53.000-07:00
Summary:

Finally migrate llm tokenizer usages to pytorch-labs/tokenizers.

Differential Revision: D70932091
diff --git a/.ci/scripts/utils.sh b/.ci/scripts/utils.sh
@@ -20,6 +20,14 @@ clean_executorch_install_folders() {
   ./install_executorch.sh --clean
 }
 
+update_tokenizers_git_submodule() {
+  echo "Updating tokenizers git submodule..."
+  git submodule update --init
+  pushd extension/llm/tokenizers
+  git submodule update --init
+  popd
+}
+
 install_executorch() {
   which pip
   # Install executorch, this assumes that Executorch is checked out in the
diff --git a/examples/models/llama/runner/CMakeLists.txt b/examples/models/llama/runner/CMakeLists.txt
@@ -43,7 +43,7 @@ target_include_directories(
 
 list(
   APPEND _llama_runner__srcs
-  ${CMAKE_CURRENT_SOURCE_DIR}/../../../../extension/llm/tokenizer/tiktoken.cpp
+  ${CMAKE_CURRENT_SOURCE_DIR}/../../../../extension/llm/tokenizers/src/tiktoken.cpp
 )
 list(APPEND _llama_runner__srcs
      ${CMAKE_CURRENT_SOURCE_DIR}/../tokenizer/llama_tiktoken.cpp
diff --git a/examples/models/llama/runner/runner.cpp b/examples/models/llama/runner/runner.cpp
@@ -16,7 +16,7 @@
 #include <executorch/extension/llm/runner/util.h>
 
 #include <executorch/examples/models/llama/tokenizer/llama_tiktoken.h>
-#include <executorch/extension/llm/tokenizer/bpe_tokenizer.h>
+#include <pytorch/tokenizers/llama2c_tokenizer.h>
 
 namespace example {
 
@@ -78,16 +78,16 @@ Error Runner::load() {
   // load tokenizer. Assuming tiktoken is the default tokenizer
   tokenizer_ = nullptr;
   tokenizer_ = get_tiktoken_for_llama();
-  Error err = tokenizer_->load(tokenizer_path_);
+  ::tokenizers::Error err = tokenizer_->load(tokenizer_path_);
   // Rely on tiktoken to throw error if the artifact is incompatible. Then we
   // fallback to BPE tokenizer.
-  if (err == Error::InvalidArgument) {
+  if (err == ::tokenizers::Error::LoadFailure) {
     ET_LOG(
         Info,
         "Failed to load %s as a Tiktoken artifact, trying BPE tokenizer",
         tokenizer_path_.c_str());
     tokenizer_.reset();
-    tokenizer_ = std::make_unique<llm::BPETokenizer>();
+    tokenizer_ = std::make_unique<::tokenizers::Llama2cTokenizer>();
     tokenizer_->load(tokenizer_path_);
   }
 
@@ -201,12 +201,12 @@ Error Runner::generate(
       ? seq_len
       : metadata_.at(kMaxSeqLen);
 
-  Result<std::vector<uint64_t>> encode_res = tokenizer_->encode(
+  ::tokenizers::Result<std::vector<uint64_t>> encode_res = tokenizer_->encode(
       prompt,
       /* bos */ 0,
       /* eos */ 0);
 
-  ET_CHECK_OK_OR_RETURN_ERROR(
+  ET_CHECK_TK_OK_OR_RETURN_ERROR(
       encode_res.error(), "Failed to encode prompt %s", prompt.c_str());
 
   // encode the (string) prompt into tokens sequence
@@ -242,7 +242,7 @@ Error Runner::generate(
   uint64_t cur_token = prefill_res.get();
 
   // print the first token from prefill. No prev_token so use cur_token for it.
-  wrapped_callback(ET_UNWRAP(tokenizer_->decode(cur_token, cur_token)));
+  wrapped_callback(ET_UNWRAP_TOKENIZER(tokenizer_->decode(cur_token, cur_token)));
   RUNNER_ET_LOG(
       warmup,
       "RSS after prompt prefill: %f MiB (0 if unsupported)",
diff --git a/examples/models/llama/runner/runner.h b/examples/models/llama/runner/runner.h
@@ -23,7 +23,7 @@
 #include <executorch/extension/llm/runner/text_decoder_runner.h>
 #include <executorch/extension/llm/runner/text_prefiller.h>
 #include <executorch/extension/llm/runner/text_token_generator.h>
-#include <executorch/extension/llm/tokenizer/tokenizer.h>
+#include <pytorch/tokenizers/tokenizer.h>
 #include <executorch/extension/module/module.h>
 
 namespace example {
@@ -58,7 +58,7 @@ class ET_EXPERIMENTAL Runner : public executorch::extension::llm::IRunner {
   // model
   std::unique_ptr<::executorch::extension::Module> module_;
   std::string tokenizer_path_;
-  std::unique_ptr<::executorch::extension::llm::Tokenizer> tokenizer_;
+  std::unique_ptr<::tokenizers::Tokenizer> tokenizer_;
   std::unordered_map<std::string, int64_t> metadata_;
   std::unique_ptr<::executorch::extension::llm::TextDecoderRunner>
       text_decoder_runner_;
diff --git a/examples/models/llama/runner/targets.bzl b/examples/models/llama/runner/targets.bzl
@@ -48,7 +48,7 @@ def define_common_targets():
                 "//executorch/runtime/core/exec_aten:lib" + aten_suffix,
                 "//executorch/runtime/core/exec_aten/util:tensor_util" + aten_suffix,
                 "//executorch/examples/models/llama/tokenizer:tiktoken",
-                "//executorch/extension/llm/tokenizer:bpe_tokenizer",
+                "//pytorch/tokenizers:llama2c_tokenizer",
             ] + (_get_operator_lib(aten)) + ([
                 # Vulkan API currently cannot build on some platforms (e.g. Apple, FBCODE)
                 # Therefore enable it explicitly for now to avoid failing tests
diff --git a/examples/models/llama/tokenizer/llama_tiktoken.cpp b/examples/models/llama/tokenizer/llama_tiktoken.cpp
@@ -10,7 +10,7 @@
 
 namespace example {
 
-using ::executorch::extension::llm::Tiktoken;
+using ::tokenizers::Tiktoken;
 
 namespace {
 static constexpr int32_t kSpecialTokensSize = 256;
@@ -42,8 +42,25 @@ _get_default_special_tokens() {
   return special_tokens;
 }
 
-static inline std::unique_ptr<std::vector<std::string>>
-_get_multimodal_special_tokens() {
+
+std::unique_ptr<std::vector<std::string>> _get_special_tokens(Version version) {
+  switch (version) {
+    case Version::Multimodal:
+      return get_multimodal_special_tokens();
+    default:
+      return _get_default_special_tokens();
+  }
+}
+
+} // namespace
+
+std::unique_ptr<Tiktoken> get_tiktoken_for_llama(Version version) {
+  return std::make_unique<Tiktoken>(
+      _get_special_tokens(version), kBOSTokenIndex, kEOSTokenIndex);
+}
+
+std::unique_ptr<std::vector<std::string>>
+get_multimodal_special_tokens() {
   auto special_tokens =
       std::make_unique<std::vector<std::string>>(std::vector<std::string>{
           "<|begin_of_text|>",
@@ -72,20 +89,4 @@ _get_multimodal_special_tokens() {
   return special_tokens;
 }
 
-std::unique_ptr<std::vector<std::string>> _get_special_tokens(Version version) {
-  switch (version) {
-    case Version::Multimodal:
-      return _get_multimodal_special_tokens();
-    default:
-      return _get_default_special_tokens();
-  }
-}
-
-} // namespace
-
-std::unique_ptr<Tiktoken> get_tiktoken_for_llama(Version version) {
-  return std::make_unique<Tiktoken>(
-      _get_special_tokens(version), kBOSTokenIndex, kEOSTokenIndex);
-}
-
 } // namespace example
diff --git a/examples/models/llama/tokenizer/llama_tiktoken.h b/examples/models/llama/tokenizer/llama_tiktoken.h
@@ -8,7 +8,7 @@
 
 #pragma once
 
-#include <executorch/extension/llm/tokenizer/tiktoken.h>
+#include <pytorch/tokenizers/tiktoken.h>
 
 namespace example {
 
@@ -17,7 +17,9 @@ enum class Version {
   Multimodal,
 };
 
-std::unique_ptr<::executorch::extension::llm::Tiktoken> get_tiktoken_for_llama(
+std::unique_ptr<::tokenizers::Tiktoken> get_tiktoken_for_llama(
     Version version = Version::Default);
 
+std::unique_ptr<std::vector<std::string>> get_multimodal_special_tokens();
+
 } // namespace example
diff --git a/examples/models/llama/tokenizer/targets.bzl b/examples/models/llama/tokenizer/targets.bzl
@@ -15,7 +15,8 @@ def define_common_targets():
             "llama_tiktoken.h",
         ],
         exported_deps = [
-            "//executorch/extension/llm/tokenizer:tiktoken",
+            "//pytorch/tokenizers:tiktoken",
+            "//executorch/extension/llm/tokenizer:tiktoken", # TODO: remove
         ],
         visibility = [
             "@EXECUTORCH_CLIENTS",
diff --git a/examples/models/llama/tokenizer/test/test_tiktoken.cpp b/examples/models/llama/tokenizer/test/test_tiktoken.cpp
@@ -10,7 +10,7 @@
 
 #include <vector>
 
-#include <executorch/runtime/platform/runtime.h>
+#include <executorch/extension/llm/tokenizer/tiktoken.h>
 
 #include <gtest/gtest.h>
 
@@ -36,8 +36,7 @@ static std::string get_resource_path(const std::string& name) {
 class MultimodalTiktokenV5ExtensionTest : public Test {
  public:
   void SetUp() override {
-    executorch::runtime::runtime_init();
-    tokenizer_ = get_tiktoken_for_llama(Version::Multimodal);
+    tokenizer_ = std::make_unique<executorch::extension::llm::Tiktoken>(example::get_multimodal_special_tokens(), 0, 1);
     modelPath_ = get_resource_path("test_tiktoken_tokenizer.model");
   }
 
diff --git a/examples/models/llava/runner/CMakeLists.txt b/examples/models/llava/runner/CMakeLists.txt
@@ -29,7 +29,7 @@ set(_common_include_directories ${EXECUTORCH_ROOT}/..)
 set(_llava_runner__srcs
     "${CMAKE_CURRENT_SOURCE_DIR}/llava_runner.cpp"
     "${EXECUTORCH_ROOT}/extension/llm/sampler/sampler.cpp"
-    "${EXECUTORCH_ROOT}/extension/llm/tokenizer/bpe_tokenizer.cpp"
+    "${EXECUTORCH_ROOT}/extension/llm/tokenizers/src/llama2c_tokenizer.cpp"
 )
 
 # extension llm runner lib
@@ -47,5 +47,6 @@ set(llava_runner_deps executorch extension_data_loader extension_llm_runner
 target_link_libraries(llava_runner PUBLIC ${llava_runner_deps})
 
 target_include_directories(
-  llava_runner INTERFACE ${_common_include_directories} ${EXECUTORCH_ROOT}
+  llava_runner INTERFACE ${_common_include_directories}
+                         ${EXECUTORCH_ROOT}/extension/llm/tokenizers/include
 )
diff --git a/extension/llm/runner/CMakeLists.txt b/extension/llm/runner/CMakeLists.txt
@@ -51,5 +51,5 @@ target_link_libraries(extension_llm_runner PUBLIC ${runner_deps})
 
 target_include_directories(
   extension_llm_runner INTERFACE ${_common_include_directories}
-                                 ${EXECUTORCH_ROOT}
+                                 ${EXECUTORCH_ROOT}/extension/llm/tokenizers/include
 )
diff --git a/extension/llm/runner/multimodal_runner.h b/extension/llm/runner/multimodal_runner.h
@@ -26,8 +26,8 @@
 #include <executorch/extension/llm/runner/text_prefiller.h>
 #include <executorch/extension/llm/runner/text_token_generator.h>
 #include <executorch/extension/llm/sampler/sampler.h>
-#include <executorch/extension/llm/tokenizer/tokenizer.h>
 #include <executorch/extension/module/module.h>
+#include <pytorch/tokenizers/tokenizer.h>
 
 namespace executorch {
 namespace extension {
@@ -129,7 +129,7 @@ class ET_EXPERIMENTAL MultimodalRunner {
   std::unique_ptr<ImagePrefiller> image_prefiller_;
   std::unique_ptr<TextTokenGenerator> text_token_generator_;
   std::string tokenizer_path_;
-  std::unique_ptr<Tokenizer> tokenizer_;
+  std::unique_ptr<::tokenizers::Tokenizer> tokenizer_;
 
   // stats
   Stats stats_;
diff --git a/extension/llm/runner/targets.bzl b/extension/llm/runner/targets.bzl
@@ -49,7 +49,7 @@ def define_common_targets():
             ],
             exported_deps = [
                 ":text_decoder_runner" + aten_suffix,
-                "//executorch/extension/llm/tokenizer:tokenizer_header",
+                "//pytorch/tokenizers:headers",
                 "//executorch/extension/module:module" + aten_suffix,
                 "//executorch/extension/tensor:tensor" + aten_suffix,
             ],
@@ -63,7 +63,7 @@ def define_common_targets():
             ],
             exported_deps = [
                 ":text_decoder_runner" + aten_suffix,
-                "//executorch/extension/llm/tokenizer:tokenizer_header",
+                "//pytorch/tokenizers:headers",
                 "//executorch/extension/module:module" + aten_suffix,
                 "//executorch/extension/tensor:tensor" + aten_suffix,
             ],
diff --git a/extension/llm/runner/text_prefiller.h b/extension/llm/runner/text_prefiller.h
@@ -12,8 +12,6 @@
 #pragma once
 
 #include <executorch/extension/llm/runner/text_decoder_runner.h>
-#include <executorch/extension/llm/tokenizer/tokenizer.h>
-#include <functional>
 
 namespace executorch {
 namespace extension {
diff --git a/extension/llm/runner/text_token_generator.h b/extension/llm/runner/text_token_generator.h
@@ -11,17 +11,37 @@
 
 #include <executorch/extension/llm/runner/stats.h>
 #include <executorch/extension/llm/runner/text_decoder_runner.h>
-#include <executorch/extension/llm/tokenizer/tokenizer.h>
+#include <pytorch/tokenizers/tokenizer.h>
 #include <executorch/extension/tensor/tensor.h>
 
+#define ET_UNWRAP_TOKENIZER(result__) \
+({  \
+  auto tk_result__ = (result__); \
+  if (!tk_result__.ok()) {          \
+    ET_LOG(Error, "Tokenizers error code %d", static_cast<uint32_t>(tk_result__.error())); \
+    return ::executorch::runtime::Error::InvalidArgument;     \
+  }                         \
+  std::move(*tk_result__);          \
+})
+
+#define ET_CHECK_TK_OK_OR_RETURN_ERROR(result__, ...) \
+({ \
+  auto tk_result__ = (result__); \
+  if (tk_result__ != ::tokenizers::Error::Ok) { \
+    ET_LOG(Error, "Tokenizer error: %d", static_cast<uint32_t>(tk_result__)); \
+    ET_LOG(Error, __VA_ARGS__); \
+    return ::executorch::runtime::Error::InvalidArgument; \
+  } \
+})
+
 namespace executorch {
 namespace extension {
 namespace llm {
 
 class ET_EXPERIMENTAL TextTokenGenerator {
  public:
   TextTokenGenerator(
-      Tokenizer* tokenizer,
+      ::tokenizers::Tokenizer* tokenizer,
       TextDecoderRunner* text_decoder_runner,
       bool use_kv_cache,
       std::unique_ptr<std::unordered_set<uint64_t>>&& eos_ids,
@@ -106,7 +126,7 @@ class ET_EXPERIMENTAL TextTokenGenerator {
       }
 
       // print the token as string, decode it with the Tokenizer object
-      token_callback(ET_UNWRAP(tokenizer_->decode(prev_token, cur_token)));
+      token_callback(ET_UNWRAP_TOKENIZER(tokenizer_->decode(prev_token, cur_token)));
 
       if (should_stop_) {
         break;
@@ -130,7 +150,7 @@ class ET_EXPERIMENTAL TextTokenGenerator {
   }
 
  private:
-  Tokenizer* tokenizer_;
+  ::tokenizers::Tokenizer* tokenizer_;
   TextDecoderRunner* text_decoder_runner_;
   std::unique_ptr<std::unordered_set<uint64_t>> eos_ids_;
   bool use_kv_cache_;
diff --git a/install_executorch.py b/install_executorch.py
@@ -66,6 +66,7 @@ def clean():
     "pthreadpool": "CMakeLists.txt",
     "pybind11": "CMakeLists.txt",
     "shim": "BUCK",
+    "tokenizers": "CMakeLists.txt",
     "XNNPACK": "CMakeLists.txt",
 }
 
diff --git a/shim_et/xplat/executorch/build/env_interface.bzl b/shim_et/xplat/executorch/build/env_interface.bzl
@@ -10,6 +10,8 @@ load(":type_defs.bzl", "is_list", "is_tuple")
 
 _ET_TARGET_PREFIX = "executorch"
 
+_TOKENIZER_TARGET_PREFIX = "pytorch/tokenizers"
+
 # Indicates that an external_dep entry should fall through to the underlying
 # buck rule.
 _EXTERNAL_DEP_FALLTHROUGH = "<fallthrough>"
@@ -46,7 +48,6 @@ _EXTERNAL_DEPS = {
     "re2": "//extension/llm/tokenizers/third-party:re2",
     "sentencepiece": [], # Intentionally not supporting OSS buck build of sentencepiece.
     "sentencepiece-py": [],
-    "tiktoken": "//extension/llm/tokenizers:tiktoken",
     # Core C++ PyTorch functionality like Tensor and ScalarType.
     "torch-core-cpp": "//third-party:libtorch",
     "torchgen": "//third-party:torchgen",
@@ -66,10 +67,11 @@ def _resolve_external_dep(name):
         return [res]
 
 def _start_with_et_targets(target):
-    prefix = "//" + _ET_TARGET_PREFIX
-    for suffix in ("/", ":"):
-        if target.startswith(prefix + suffix):
-            return True
+    for prefix in [_ET_TARGET_PREFIX, _TOKENIZER_TARGET_PREFIX]:
+        prefix = "//" + prefix
+        for suffix in ("/", ":"):
+            if target.startswith(prefix + suffix):
+                return True
     return False
 
 def _patch_platforms(kwargs):
@@ -199,7 +201,11 @@ def _target_needs_patch(target):
     return _start_with_et_targets(target) or target.startswith(":")
 
 def _patch_target_for_env(target):
-    return target.replace("//executorch/", "//", 1)
+    if _ET_TARGET_PREFIX in target:
+        return target.replace("//executorch/", "//", 1)
+    elif _TOKENIZER_TARGET_PREFIX in target:
+        return target.replace("//pytorch/tokenizers", "//extension/llm/tokenizers", 1)
+    return target
 
 def _struct_to_json(object):
     # @lint-ignore BUCKLINT: native and fb_native are explicitly forbidden in fbcode.
diff --git a/test/build_size_test.sh b/test/build_size_test.sh

Original file line number	Diff line number	Diff line change
`@@ -43,7 +43,7 @@ target_include_directories(`
`43`	`43`
`44`	`44`	`list(`
`45`	`45`	`APPEND _llama_runner__srcs`
`46`		`- ${CMAKE_CURRENT_SOURCE_DIR}/../../../../extension/llm/tokenizer/tiktoken.cpp`
	`46`	`+ ${CMAKE_CURRENT_SOURCE_DIR}/../../../../extension/llm/tokenizers/src/tiktoken.cpp`
`47`	`47`	`)`
`48`	`48`	`list(APPEND _llama_runner__srcs`
`49`	`49`	`${CMAKE_CURRENT_SOURCE_DIR}/../tokenizer/llama_tiktoken.cpp`
Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ set(_common_include_directories ${EXECUTORCH_ROOT}/..)`
`29`	`29`	`set(_llava_runner__srcs`
`30`	`30`	`"${CMAKE_CURRENT_SOURCE_DIR}/llava_runner.cpp"`
`31`	`31`	`"${EXECUTORCH_ROOT}/extension/llm/sampler/sampler.cpp"`
`32`		`- "${EXECUTORCH_ROOT}/extension/llm/tokenizer/bpe_tokenizer.cpp"`
	`32`	`+ "${EXECUTORCH_ROOT}/extension/llm/tokenizers/src/llama2c_tokenizer.cpp"`
`33`	`33`	`)`
`34`	`34`
`35`	`35`	`# extension llm runner lib`
`@@ -47,5 +47,6 @@ set(llava_runner_deps executorch extension_data_loader extension_llm_runner`
`47`	`47`	`target_link_libraries(llava_runner PUBLIC ${llava_runner_deps})`
`48`	`48`
`49`	`49`	`target_include_directories(`
`50`		`- llava_runner INTERFACE ${_common_include_directories} ${EXECUTORCH_ROOT}`
	`50`	`+ llava_runner INTERFACE ${_common_include_directories}`
	`51`	`+ ${EXECUTORCH_ROOT}/extension/llm/tokenizers/include`
`51`	`52`	`)`
Original file line number	Diff line number	Diff line change
`@@ -51,5 +51,5 @@ target_link_libraries(extension_llm_runner PUBLIC ${runner_deps})`
`51`	`51`
`52`	`52`	`target_include_directories(`
`53`	`53`	`extension_llm_runner INTERFACE ${_common_include_directories}`
`54`		`- ${EXECUTORCH_ROOT}`
	`54`	`+ ${EXECUTORCH_ROOT}/extension/llm/tokenizers/include`
`55`	`55`	`)`
Original file line number	Diff line number	Diff line change
`@@ -66,6 +66,7 @@ def clean():`
`66`	`66`	`"pthreadpool": "CMakeLists.txt",`
`67`	`67`	`"pybind11": "CMakeLists.txt",`
`68`	`68`	`"shim": "BUCK",`
	`69`	`+ "tokenizers": "CMakeLists.txt",`
`69`	`70`	`"XNNPACK": "CMakeLists.txt",`
`70`	`71`	`}`
`71`	`72`