Add REGISTER_OPTIMIZED_OPS option to CMake build (ET + Llama) (#2632)

GregoryComer · facebook-github-bot · commit 6a0a6c7b8f81 · 2024-03-25T10:27:25.000-07:00
Summary: Add a CMake option to gate build of optimized ops. Update executor_runner and llama_runner targets to conditionally use portable lib if optimized ops are disabled. Bypassing known failures in external CI. bypass-github-export-checks bypass-github-executorch-ci-checks Pull Request resolved: #2632 Test Plan: Build via the following. Note that the way it's built is a bit touchy and requires removing cmake-out (iterative builds don't seem vito work). This is unrelated to these changes, so will be address separately. [build_llama.sh] ``` dir=examples/models/llama2 cmake -DBUCK2=buck2-et2 \ -DCMAKE_INSTALL_PREFIX=cmake-out \ -DCMAKE_BUILD_TYPE=Debug \ -DEXECUTORCH_BUILD_EXTENSION_MODULE=ON \ -DEXECUTORCH_BUILD_EXTENSION_DATA_LOADER=ON \ -DEXECUTORCH_BUILD_XNNPACK=ON \ -DEXECUTORCH_ENABLE_LOGGING=1 \ -Bcmake-out . cmake --build cmake-out -j33 --target install --config Debug cmake -DBUCK2=buck2-et2 \ -DCMAKE_INSTALL_PREFIX=cmake-out \ -DCMAKE_BUILD_TYPE=Debug \ -Bcmake-out/examples/models/llama2 \ examples/models/llama2 cmake --build cmake-out/${dir} -j33 --config Debug ``` Confirmed liboptimized_native_cpu_ops_lib.a and liboptimized_kernels.a are present under cmake-out/lib. Confirmed optimized kernels are linked via running `nm -C cmake-out/examples/models/llama2/llama_main`. Confirmed that opt_add_out is present. Reviewed By: kimishpatel Differential Revision: D55292705 Pulled By: GregoryComer fbshipit-source-id: 63a036bbe56c353585b2ef13a30fee8abfd5ba7d
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -158,7 +158,9 @@ option(EXECUTORCH_BUILD_PYBIND "Build the Python Bindings" OFF)
 
 option(EXECUTORCH_BUILD_QNN "Build the Qualcomm backend" OFF)
 
-option(REGISTER_QUANTIZED_OPS "Build the quantized kernels" OFF)
+option(EXECUTORCH_REGISTER_OPTIMIZED_OPS "Build the optimized kernels" ON)
+
+option(EXECUTORCH_REGISTER_QUANTIZED_OPS "Build the quantized kernels" OFF)
 
 option(EXECUTORCH_BUILD_SDK "Build the ExecuTorch SDK")
 
@@ -313,14 +315,17 @@ endif()
 # operators necessary for the models that will run.
 #
 add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/kernels/portable)
-add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/kernels/optimized)
 
-add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/configurations)
+if(EXECUTORCH_REGISTER_OPTIMIZED_OPS)
+  add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/kernels/optimized)
+endif()
 
-if(REGISTER_QUANTIZED_OPS)
+if(EXECUTORCH_REGISTER_QUANTIZED_OPS)
   add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/kernels/quantized)
 endif()
 
+add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/configurations)
+
 #
 # gflags: Commandline flag host library.
 #
@@ -347,10 +352,16 @@ cmake_dependent_option(
   EXECUTORCH_BUILD_HOST_TARGETS OFF)
 if(EXECUTORCH_BUILD_EXECUTOR_RUNNER)
   # Baseline libraries that executor_runner will link against.
-  set(_executor_runner_libs executorch optimized_native_cpu_ops_lib gflags)
+  set(_executor_runner_libs executorch gflags)
+
+  if(EXECUTORCH_REGISTER_OPTIMIZED_OPS)
+    list(APPEND _executor_runner_libs optimized_native_cpu_ops_lib)
+  else()
+    list(APPEND _executor_runner_libs portable_ops_lib)
+  endif()
 
   # Generate lib to register quantized ops
-  if(REGISTER_QUANTIZED_OPS)
+  if(EXECUTORCH_REGISTER_QUANTIZED_OPS)
     list(APPEND _executor_runner_libs quantized_ops_lib)
   endif()
 
diff --git a/build/Codegen.cmake b/build/Codegen.cmake
@@ -138,7 +138,7 @@ function(gen_operators_lib lib_name)
       ${CMAKE_CURRENT_BINARY_DIR}/NativeFunctions.h)
   target_link_libraries(${lib_name} PRIVATE ${GEN_DEPS})
   if(GEN_KERNEL_LIBS)
-    target_link_libraries(${lib_name} PRIVATE ${GEN_KERNEL_LIBS})
+    target_link_libraries(${lib_name} PUBLIC ${GEN_KERNEL_LIBS})
   endif()
 
   target_link_options_shared_lib(${lib_name})
diff --git a/build/Utils.cmake b/build/Utils.cmake
@@ -73,7 +73,9 @@ function(executorch_print_configuration_summary)
   message(
     STATUS "  EXECUTORCH_BUILD_QNN                   : ${EXECUTORCH_BUILD_QNN}")
   message(
-    STATUS "  REGISTER_QUANTIZED_OPS             : ${REGISTER_QUANTIZED_OPS}")
+    STATUS "  EXECUTORCH_REGISTER_OPTIMIZED_OPS      : ${EXECUTORCH_REGISTER_OPTIMIZED_OPS}")
+  message(
+    STATUS "  EXECUTORCH_REGISTER_QUANTIZED_OPS      : ${EXECUTORCH_REGISTER_QUANTIZED_OPS}")
   message(
     STATUS "  EXECUTORCH_BUILD_SDK                   : ${EXECUTORCH_BUILD_SDK}")
   message(
diff --git a/build/build_apple_frameworks.sh b/build/build_apple_frameworks.sh
@@ -127,7 +127,7 @@ cmake_build() {
         -DIOS_DEPLOYMENT_TARGET="$IOS_DEPLOYMENT_TARGET" \
         -DEXECUTORCH_BUILD_COREML=$COREML \
         -DEXECUTORCH_BUILD_MPS=$MPS \
-        -DREGISTER_QUANTIZED_OPS=$QUANTIZED \
+        -DEXECUTORCH_REGISTER_QUANTIZED_OPS=$QUANTIZED \
         -DEXECUTORCH_BUILD_XNNPACK=$XNNPACK \
         ${platform_flag:+-DIOS_PLATFORM=$platform_flag}
     cmake --build . --config $MODE
diff --git a/build/executorch-config.cmake b/build/executorch-config.cmake
@@ -44,7 +44,8 @@ endif()
 set(lib_list
     etdump bundled_program extension_data_loader ${FLATCC_LIB} mpsdelegate
     qnn_executorch_backend portable_ops_lib extension_module xnnpack_backend
-    XNNPACK cpuinfo pthreadpool vulkan_backend
+    XNNPACK cpuinfo pthreadpool vulkan_backend optimized_kernels 
+    optimized_ops_lib optimized_native_cpu_ops_lib
 )
 foreach(lib ${lib_list})
     # Name of the variable which stores result of the find_library search
diff --git a/configurations/CMakeLists.txt b/configurations/CMakeLists.txt
@@ -28,24 +28,25 @@ set(_common_compile_options -Wno-deprecated-declarations)
 include(${EXECUTORCH_ROOT}/build/Utils.cmake)
 include(${EXECUTORCH_ROOT}/build/Codegen.cmake)
 
-
-# Merge optimized and portable definitions, taking optimized where available.
-merge_yaml(
-    FUNCTIONS_YAML ${EXECUTORCH_ROOT}/kernels/optimized/optimized-oss.yaml
-    FALLBACK_YAML ${EXECUTORCH_ROOT}/kernels/portable/functions.yaml
-    OUTPUT_DIR ${CMAKE_CURRENT_BINARY_DIR}
-)
-
-gen_selected_ops("${CMAKE_CURRENT_BINARY_DIR}/merged.yaml" "" "")
-
-generate_bindings_for_kernels(
-    FUNCTIONS_YAML ${CMAKE_CURRENT_BINARY_DIR}/merged.yaml)
-message("Generated files ${gen_command_sources}")
-
-# optimized_native_cpu_ops_lib: Register optimized op kernels into the runtime
-gen_operators_lib(
-  "optimized_native_cpu_ops_lib"
-  KERNEL_LIBS portable_kernels optimized_kernels
-  DEPS executorch)
-
-install(TARGETS optimized_native_cpu_ops_lib DESTINATION lib)
+if(EXECUTORCH_REGISTER_OPTIMIZED_OPS)
+  # Merge optimized and portable definitions, taking optimized where available.
+  merge_yaml(
+      FUNCTIONS_YAML ${EXECUTORCH_ROOT}/kernels/optimized/optimized-oss.yaml
+      FALLBACK_YAML ${EXECUTORCH_ROOT}/kernels/portable/functions.yaml
+      OUTPUT_DIR ${CMAKE_CURRENT_BINARY_DIR}
+  )
+
+  gen_selected_ops("${CMAKE_CURRENT_BINARY_DIR}/merged.yaml" "" "")
+
+  generate_bindings_for_kernels(
+      FUNCTIONS_YAML ${CMAKE_CURRENT_BINARY_DIR}/merged.yaml)
+  message("Generated files ${gen_command_sources}")
+
+  # optimized_native_cpu_ops_lib: Register optimized op kernels into the runtime
+  gen_operators_lib(
+    "optimized_native_cpu_ops_lib"
+    KERNEL_LIBS portable_kernels optimized_kernels
+    DEPS executorch)
+
+  install(TARGETS optimized_native_cpu_ops_lib DESTINATION lib)
+endif()
diff --git a/examples/models/llama2/CMakeLists.txt b/examples/models/llama2/CMakeLists.txt
@@ -18,6 +18,8 @@
 cmake_minimum_required(VERSION 3.19)
 project(llama_runner)
 
+option(EXECUTORCH_REGISTER_OPTIMIZED_OPS "Build the optimized kernels" ON)
+
 if(NOT PYTHON_EXECUTABLE)
   set(PYTHON_EXECUTABLE python3)
 endif()
@@ -52,34 +54,47 @@ find_package(executorch CONFIG REQUIRED)
 # llama_runner library
 add_subdirectory(runner)
 
+set(link_options)
+set(link_libraries)
+
+if(EXECUTORCH_REGISTER_OPTIMIZED_OPS)
+  list(APPEND link_libraries optimized_native_cpu_ops_lib optimized_kernels portable_kernels)
+  list(APPEND link_options
+                      "SHELL:LINKER:--whole-archive \
+                      $<TARGET_FILE:optimized_native_cpu_ops_lib> \
+                      LINKER:--no-whole-archive")
+else()
+  list(APPEND link_libraries portable_ops_lib portable_kernels)
+  list(APPEND link_options
+                      "SHELL:LINKER:--whole-archive \
+                      $<TARGET_FILE:portable_ops_lib> \
+                      LINKER:--no-whole-archive")
+endif()
 
-target_link_libraries(llama_main PUBLIC gflags llama_runner
-                      portable_ops_lib)
-target_link_options(
-  llama_main PUBLIC "SHELL:LINKER:--whole-archive \
-                    $<TARGET_FILE:portable_ops_lib> \
-                    LINKER:--no-whole-archive")
+target_link_libraries(llama_main PUBLIC gflags llama_runner)
 
 # XNNPACK pthreadpool cpuinfo
 if(TARGET xnnpack_backend)
   set(xnnpack_backend_libs xnnpack_backend XNNPACK pthreadpool cpuinfo)
-  target_link_libraries(llama_main PUBLIC ${xnnpack_backend_libs})
-  target_link_options(
-    llama_main PUBLIC "SHELL:LINKER:--whole-archive \
+  list(APPEND link_libraries ${xnnpack_backend_libs})
+  list(APPEND link_options
+                      "SHELL:LINKER:--whole-archive \
                       $<TARGET_FILE:xnnpack_backend> \
                       LINKER:--no-whole-archive")
 endif()
 
 # Vulkan backend
 if(TARGET vulkan_backend)
-  target_link_libraries(llama_main PUBLIC vulkan_backend)
-  target_link_options(
-    llama_main PUBLIC "SHELL:LINKER:--whole-archive \
+  list(APPEND link_libraries vulkan_backend)
+  list(APPEND link_options
+                      "SHELL:LINKER:--whole-archive \
                       $<TARGET_FILE:vulkan_backend> \
                       LINKER:--no-whole-archive")
 endif()
 
 target_compile_options(llama_main PUBLIC ${_common_compile_options})
+target_link_libraries(llama_main PUBLIC ${link_libraries})
+target_link_options(llama_main PUBLIC ${link_options})
 
 # Print all summary
 executorch_print_configuration_summary()
diff --git a/examples/models/llama2/export_llama_lib.py b/examples/models/llama2/export_llama_lib.py
@@ -141,7 +141,7 @@ def check_embedding_byte_registered():
                     'Use `python -c "import torch as _; print(_.__path__)"` to find where torch package is installed.\n'
                     "Set that as TORCH_PACKAGE_DIR.\n"
                     "Then from root executorch dir do the following:\n"
-                    "rm -rf cmake-out && mkdir cmake-out && (cd cmake-out && cmake -DBUCK2=<path-to-buck2> -DCMAKE_PREFIX_PATH=$TORCH_PACKAGE_DIR -DREGISTER_QUANTIZED_OPS=ON ..) && cmake --build . -j16\n"
+                    "rm -rf cmake-out && mkdir cmake-out && (cd cmake-out && cmake -DBUCK2=<path-to-buck2> -DCMAKE_PREFIX_PATH=$TORCH_PACKAGE_DIR -DEXECUTORCH_REGISTER_QUANTIZED_OPS=ON ..) && cmake --build . -j16\n"
                     'To find the location of the lib: find cmake-out -name "libquantized_ops_aot_lib*"\n'
                     "Then specify the said library via -s <path to libquantized_ops_aot_lib.so\n"
                 )
diff --git a/examples/models/llama2/runner/CMakeLists.txt b/examples/models/llama2/runner/CMakeLists.txt
@@ -22,6 +22,7 @@ endif()
 
 include(${EXECUTORCH_ROOT}/build/Utils.cmake)
 include(${EXECUTORCH_ROOT}/build/Codegen.cmake)
+
 #
 # The `_<target>_srcs` lists are defined by including ${EXECUTORCH_SRCS_FILE}.
 #
@@ -46,6 +47,10 @@ else()
   add_library(llama_runner SHARED ${_llama_runner__srcs})
 endif()
 
+set(llama_runner_deps executorch extension_module extension_data_loader)
+
 target_link_libraries(
-  llama_runner PUBLIC executorch portable_kernels extension_module
-                      extension_data_loader)
+  llama_runner PUBLIC ${llama_runner_deps})
+
+target_include_directories(llama_runner
+                           INTERFACE ${_common_include_directories} ${EXECUTORCH_ROOT})
diff --git a/kernels/optimized/CMakeLists.txt b/kernels/optimized/CMakeLists.txt
@@ -53,3 +53,5 @@ gen_operators_lib(
   "optimized_ops_lib"
   KERNEL_LIBS optimized_kernels
   DEPS executorch)
+
+install(TARGETS optimized_kernels optimized_ops_lib DESTINATION lib)

Original file line number	Diff line number	Diff line change
`@@ -141,7 +141,7 @@ def check_embedding_byte_registered():`
`141`	`141`	'Use `python -c "import torch as _; print(_.__path__)"` to find where torch package is installed.\n'
`142`	`142`	`"Set that as TORCH_PACKAGE_DIR.\n"`
`143`	`143`	`"Then from root executorch dir do the following:\n"`
`144`		`- "rm -rf cmake-out && mkdir cmake-out && (cd cmake-out && cmake -DBUCK2=<path-to-buck2> -DCMAKE_PREFIX_PATH=$TORCH_PACKAGE_DIR -DREGISTER_QUANTIZED_OPS=ON ..) && cmake --build . -j16\n"`
	`144`	`+ "rm -rf cmake-out && mkdir cmake-out && (cd cmake-out && cmake -DBUCK2=<path-to-buck2> -DCMAKE_PREFIX_PATH=$TORCH_PACKAGE_DIR -DEXECUTORCH_REGISTER_QUANTIZED_OPS=ON ..) && cmake --build . -j16\n"`
`145`	`145`	`'To find the location of the lib: find cmake-out -name "libquantized_ops_aot_lib*"\n'`
`146`	`146`	`"Then specify the said library via -s <path to libquantized_ops_aot_lib.so\n"`
`147`	`147`	`)`