pytorch
diff --git a/‎extension/llm/custom_ops/CMakeLists.txt
Lines changed: 3 additions & 1 deletion b/‎extension/llm/custom_ops/CMakeLists.txt
Lines changed: 3 additions & 1 deletion
diff --git a/‎extension/llm/custom_ops/op_sdpa.cpp
Lines changed: 2 additions & 2 deletions b/‎extension/llm/custom_ops/op_sdpa.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎kernels/optimized/cpu/moments_utils.h
Lines changed: 14 additions & 14 deletions b/‎kernels/optimized/cpu/moments_utils.h
Lines changed: 14 additions & 14 deletions
diff --git a/‎kernels/optimized/cpu/op_add.cpp
Lines changed: 6 additions & 6 deletions b/‎kernels/optimized/cpu/op_add.cpp
Lines changed: 6 additions & 6 deletions
diff --git a/‎kernels/optimized/cpu/op_add_sub_impl.h
Lines changed: 5 additions & 5 deletions b/‎kernels/optimized/cpu/op_add_sub_impl.h
Lines changed: 5 additions & 5 deletions
diff --git a/‎kernels/optimized/cpu/op_div.cpp
Lines changed: 9 additions & 9 deletions b/‎kernels/optimized/cpu/op_div.cpp
Lines changed: 9 additions & 9 deletions
diff --git a/‎kernels/optimized/cpu/op_exp.cpp
Lines changed: 4 additions & 4 deletions b/‎kernels/optimized/cpu/op_exp.cpp
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/optimized/cpu/op_le.cpp
Lines changed: 9 additions & 9 deletions b/‎kernels/optimized/cpu/op_le.cpp
Lines changed: 9 additions & 9 deletions
diff --git a/‎kernels/optimized/cpu/op_linear.cpp
Lines changed: 4 additions & 4 deletions b/‎kernels/optimized/cpu/op_linear.cpp
Lines changed: 4 additions & 4 deletions
diff --git a/‎kernels/optimized/cpu/op_mul.cpp
Lines changed: 10 additions & 10 deletions b/‎kernels/optimized/cpu/op_mul.cpp
Lines changed: 10 additions & 10 deletions
@@ -70,10 +70,11 @@ else()
 endif()
 
 add_library(custom_ops ${_custom_ops__srcs})
-
+find_package_torch_headers()
 target_include_directories(custom_ops PUBLIC "${_common_include_directories}")
 target_include_directories(
   custom_ops PRIVATE "${CMAKE_CURRENT_BINARY_DIR}/../../../include"
+                     ${TORCH_INCLUDE_DIRS}
 )
 target_link_libraries(custom_ops PUBLIC ${custom_ops_libs} executorch_core)
 
@@ -99,6 +100,7 @@ if(EXECUTORCH_BUILD_KERNELS_CUSTOM_AOT)
   )
   target_include_directories(
     custom_ops_aot_lib PRIVATE "${CMAKE_CURRENT_BINARY_DIR}/../../../include"
+                               ${TORCH_INCLUDE_DIRS}
   )
   # TODO: This only works if we install portable_lib.so to
   # <site-packages>/executorch/extension/pybindings/.
 
@@ -9,9 +9,9 @@
 #include <executorch/extension/llm/custom_ops/op_sdpa.h>
 #include <executorch/extension/llm/custom_ops/op_sdpa_impl.h>
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/optimized/blas/CPUBlas.h>
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
 #include <executorch/runtime/core/exec_aten/util/dim_order_util.h>
 // @lint-ignore CLANGTIDY facebook-unused-include-check
 #include <executorch/runtime/core/exec_aten/util/scalar_type_util.h>
 
@@ -12,7 +12,7 @@
 // for use in optimized ExecuTorch ops. Template specializations of BFloat16
 // are excluded.
 
-#include <executorch/kernels/optimized/vec/vec.h>
+#include <ATen/cpu/vec/vec.h>
 
 #include <executorch/kernels/optimized/utils/math_utils.h>
 #include <executorch/runtime/platform/compiler.h>
@@ -47,12 +47,12 @@ void AddMoments(
 template <typename T>
 ET_INLINE void AddMomentsVec(
     int64_t m0_add,
-    const executorch::vec::Vectorized<T>& m1_add,
-    const executorch::vec::Vectorized<T>& m2_add,
+    const at::vec::Vectorized<T>& m1_add,
+    const at::vec::Vectorized<T>& m2_add,
     int64_t& m0,
-    executorch::vec::Vectorized<T>& m1,
-    executorch::vec::Vectorized<T>& m2) {
-  using Vec = executorch::vec::Vectorized<T>;
+    at::vec::Vectorized<T>& m1,
+    at::vec::Vectorized<T>& m2) {
+  using Vec = at::vec::Vectorized<T>;
   const int64_t n = m0 + m0_add;
   const T c =
       n == 0 ? static_cast<T>(0) : static_cast<T>(m0_add) / static_cast<T>(n);
@@ -67,11 +67,11 @@ template <typename T>
 inline void UpdateMomentsVec(
     int64_t m0,
     const T* X_ptr,
-    const std::array<executorch::vec::Vectorized<acc_t<T>>, kChunkSize>& c_vecs,
+    const std::array<at::vec::Vectorized<acc_t<T>>, kChunkSize>& c_vecs,
     int64_t& m0_stk0,
-    executorch::vec::Vectorized<acc_t<T>>& m1_stk0,
-    executorch::vec::Vectorized<acc_t<T>>& m2_stk0) {
-  using Vec = executorch::vec::Vectorized<acc_t<T>>;
+    at::vec::Vectorized<acc_t<T>>& m1_stk0,
+    at::vec::Vectorized<acc_t<T>>& m2_stk0) {
+  using Vec = at::vec::Vectorized<acc_t<T>>;
   Vec m1_vec(0);
   Vec m2_vec(0);
   for (int64_t j = 0; j < m0; ++j) {
@@ -92,13 +92,13 @@ std::pair<acc_t<T>, acc_t<T>>
 RowwiseMomentsImpl(const T* X, int64_t N, int64_t ddof = 0) {
   using T_ACC = acc_t<T>;
 
-  constexpr int64_t kVecSize = executorch::vec::Vectorized<T>::size();
-  constexpr int64_t kAccVecSize = executorch::vec::Vectorized<T_ACC>::size();
+  constexpr int64_t kVecSize = at::vec::Vectorized<T>::size();
+  constexpr int64_t kAccVecSize = at::vec::Vectorized<T_ACC>::size();
   const int64_t n = N / kVecSize;
   const int64_t m = executorch::utils::divup(n, kChunkSize);
   const int64_t depth = executorch::utils::CeilLog2(m);
 
-  using Vec = executorch::vec::Vectorized<T_ACC>;
+  using Vec = at::vec::Vectorized<T_ACC>;
   const Vec kZeroVec(T_ACC(0));
   std::array<int64_t, kMaxDepth> m0_stk;
   std::array<Vec, kMaxDepth> m1_stk;
@@ -168,7 +168,7 @@ RowwiseMomentsImpl(const T* X, int64_t N, int64_t ddof = 0) {
 template <typename T>
 std::pair<acc_t<T>, acc_t<T>>
 RowwiseMoments(const T* X, int64_t N, int64_t ddof = 0) {
-  using Vec = executorch::vec::Vectorized<T>;
+  using Vec = at::vec::Vectorized<T>;
   constexpr int64_t kVecSize = Vec::size();
   const int64_t n = N / kVecSize;
   const int64_t m = executorch::utils::divup(n, kChunkSize);
 
@@ -6,9 +6,9 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/optimized/cpu/binary_ops.h>
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
@@ -51,8 +51,8 @@ Tensor& opt_add_out(
           CTYPE_B b_val = *b.const_data_ptr<CTYPE_B>();
           CTYPE b_casted = static_cast<CTYPE>(b_val);
 
-          using Vec = executorch::vec::Vectorized<CTYPE>;
-          executorch::vec::map<CTYPE>(
+          using Vec = at::vec::Vectorized<CTYPE>;
+          at::vec::map<CTYPE>(
               [alpha_val, b_casted](Vec x) {
                 return x + Vec(alpha_val * b_casted);
               },
@@ -106,8 +106,8 @@ Tensor& opt_add_scalar_out(
         CTYPE alpha_val;
         ET_EXTRACT_SCALAR(alpha, alpha_val);
 
-        using Vec = executorch::vec::Vectorized<CTYPE>;
-        executorch::vec::map<CTYPE>(
+        using Vec = at::vec::Vectorized<CTYPE>;
+        at::vec::map<CTYPE>(
             [alpha_val, b_casted](Vec x) {
               return x + Vec(alpha_val * b_casted);
             },
 
@@ -6,9 +6,9 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/optimized/cpu/binary_ops.h>
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
@@ -104,8 +104,8 @@ Tensor& opt_add_sub_out_impl(
       if constexpr (is_sub) {
         alpha_val = -alpha_val;
       }
-      using Vec = executorch::vec::Vectorized<CTYPE>;
-      executorch::vec::map2<CTYPE>(
+      using Vec = at::vec::Vectorized<CTYPE>;
+      at::vec::map2<CTYPE>(
           [alpha_val](Vec x, Vec y) { return x + Vec(alpha_val) * y; },
           out.mutable_data_ptr<CTYPE>(),
           a.const_data_ptr<CTYPE>(),
@@ -123,7 +123,7 @@ Tensor& opt_add_sub_out_impl(
           InvalidArgument,
           out,
           "Failed to extract scalar alpha.");
-      using Vec = executorch::vec::Vectorized<CTYPE>;
+      using Vec = at::vec::Vectorized<CTYPE>;
       Vec alpha_val_vec(alpha_val);
       if constexpr (is_sub) {
         if (selected_optimized_path ==
 
@@ -6,9 +6,9 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/optimized/cpu/binary_ops.h>
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
@@ -76,16 +76,16 @@ Tensor& opt_div_out(
           CTYPE_SCALAR scalar_val = *scalar->const_data_ptr<CTYPE_SCALAR>();
           CTYPE scalar_casted = static_cast<CTYPE>(scalar_val);
 
-          using Vec = executorch::vec::Vectorized<CTYPE>;
+          using Vec = at::vec::Vectorized<CTYPE>;
           if (a.numel() == 1) {
-            executorch::vec::map<CTYPE>(
+            at::vec::map<CTYPE>(
                 [scalar_casted](Vec x) { return Vec(scalar_casted) / x; },
                 out.mutable_data_ptr<CTYPE>(),
                 tensor->const_data_ptr<CTYPE>(),
                 out.numel());
           } else {
             Vec inv_scalar_casted_vec(CTYPE(1) / scalar_casted);
-            executorch::vec::map<CTYPE>(
+            at::vec::map<CTYPE>(
                 [inv_scalar_casted_vec](Vec x) {
                   return x * inv_scalar_casted_vec;
                 },
@@ -111,8 +111,8 @@ Tensor& opt_div_out(
         "Failed to resize output tensor.");
 
     ET_SWITCH_REAL_TYPES_AND(Bool, out_type, ctx, "div.out", CTYPE, [&]() {
-      using Vec = executorch::vec::Vectorized<CTYPE>;
-      executorch::vec::map2<CTYPE>(
+      using Vec = at::vec::Vectorized<CTYPE>;
+      at::vec::map2<CTYPE>(
           [](Vec x, Vec y) { return x / y; },
           out.mutable_data_ptr<CTYPE>(),
           a.const_data_ptr<CTYPE>(),
@@ -198,9 +198,9 @@ Tensor& opt_div_scalar_out(
             ET_EXTRACT_SCALAR(b, b_val);
             CTYPE b_casted = static_cast<CTYPE>(b_val);
 
-            using Vec = executorch::vec::Vectorized<CTYPE>;
+            using Vec = at::vec::Vectorized<CTYPE>;
             Vec inv_b_casted_vec(CTYPE(1) / b_casted);
-            executorch::vec::map<CTYPE>(
+            at::vec::map<CTYPE>(
                 [inv_b_casted_vec](Vec x) { return x * inv_b_casted_vec; },
                 out.mutable_data_ptr<CTYPE>(),
                 a.const_data_ptr<CTYPE>(),
 
@@ -8,8 +8,8 @@
 
 #include <cmath>
 
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
 
 namespace torch {
@@ -34,8 +34,8 @@ void exp_data(
     const CTYPE_IN* in_data,
     const size_t numel,
     CTYPE_OUT* out_data) {
-  using Vec = executorch::vec::Vectorized<CTYPE_IN>;
-  executorch::vec::map<CTYPE_IN>(
+  using Vec = at::vec::Vectorized<CTYPE_IN>;
+  at::vec::map<CTYPE_IN>(
       [](Vec x) { return x.exp(); }, out_data, in_data, numel);
 }
 
 
@@ -6,8 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  */
 
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
@@ -60,15 +60,15 @@ Tensor& opt_le_tensor_out(
         CTYPE_SCALAR scalar_val = *scalar->const_data_ptr<CTYPE_SCALAR>();
         CTYPE scalar_casted = static_cast<CTYPE>(scalar_val);
 
-        using Vec = executorch::vec::Vectorized<CTYPE>;
+        using Vec = at::vec::Vectorized<CTYPE>;
         if (a.numel() == 1) {
-          executorch::vec::map<CTYPE>(
+          at::vec::map<CTYPE>(
               [scalar_casted](Vec x) { return Vec(scalar_casted).le(x); },
               out.mutable_data_ptr<CTYPE>(),
               tensor->const_data_ptr<CTYPE>(),
               out.numel());
         } else {
-          executorch::vec::map<CTYPE>(
+          at::vec::map<CTYPE>(
               [scalar_casted](Vec x) { return x.le(Vec(scalar_casted)); },
               out.mutable_data_ptr<CTYPE>(),
               tensor->const_data_ptr<CTYPE>(),
@@ -93,8 +93,8 @@ Tensor& opt_le_tensor_out(
   if (a_type == b_type && a_type == out_type) {
     ET_SWITCH_REAL_TYPES_AND(
         Bool, out_type, ctx, "le.Tensor_out", CTYPE, [&]() {
-          using Vec = executorch::vec::Vectorized<CTYPE>;
-          executorch::vec::map2<CTYPE>(
+          using Vec = at::vec::Vectorized<CTYPE>;
+          at::vec::map2<CTYPE>(
               [](Vec x, Vec y) { return x.le(y); },
               out.mutable_data_ptr<CTYPE>(),
               a.const_data_ptr<CTYPE>(),
@@ -158,8 +158,8 @@ Tensor& opt_le_scalar_out(
             CTYPE_B b_val = 0;
             ET_EXTRACT_SCALAR(b, b_val);
             CTYPE b_casted = static_cast<CTYPE>(b_val);
-            using Vec = executorch::vec::Vectorized<CTYPE>;
-            executorch::vec::map<CTYPE>(
+            using Vec = at::vec::Vectorized<CTYPE>;
+            at::vec::map<CTYPE>(
                 [b_casted](Vec x) { return x.le(Vec(b_casted)); },
                 out.mutable_data_ptr<CTYPE>(),
                 a.const_data_ptr<CTYPE>(),
 
@@ -10,9 +10,9 @@
 
 #include <c10/util/irange.h>
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/optimized/blas/CPUBlas.h>
-#include <executorch/kernels/optimized/vec/functional_base.h>
-#include <executorch/kernels/optimized/vec/vec_base.h>
 #include <executorch/kernels/portable/cpu/util/matmul_ops_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
 
@@ -21,12 +21,12 @@ namespace executor {
 namespace native {
 
 namespace {
+using ::at::vec::map;
+using ::at::vec::Vectorized;
 using ::executorch::aten::Tensor;
 using ::executorch::cpublas::gemm;
 using ::executorch::cpublas::TransposeType;
 using ::executorch::runtime::toString;
-using ::executorch::vec::map;
-using ::executorch::vec::Vectorized;
 
 // Use vector store to initialize with scalar bias.
 template <typename scalar_t>
 
@@ -6,9 +6,9 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/optimized/cpu/binary_ops.h>
-#include <executorch/kernels/optimized/vec/functional.h>
-#include <executorch/kernels/optimized/vec/vec.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/runtime/core/exec_aten/util/tensor_util.h> // IWYU pragma: export
@@ -95,8 +95,8 @@ Tensor& opt_mul_out(
           CTYPE_B b_val = *b.const_data_ptr<CTYPE_B>();
           CTYPE b_casted = static_cast<CTYPE>(b_val);
 
-          using Vec = executorch::vec::Vectorized<CTYPE>;
-          executorch::vec::map<CTYPE>(
+          using Vec = at::vec::Vectorized<CTYPE>;
+          at::vec::map<CTYPE>(
               [b_casted](Vec x) { return x * Vec(b_casted); },
               out.mutable_data_ptr<CTYPE>(),
               a.const_data_ptr<CTYPE>(),
@@ -125,8 +125,8 @@ Tensor& opt_mul_out(
           ctx, a_type == b_type && a_type == out_type, InvalidArgument, out);
 
       ET_SWITCH_COMPLEXH_TYPES(out_type, ctx, "mul.out", CTYPE, [&]() {
-        using Vec = executorch::vec::Vectorized<CTYPE>;
-        executorch::vec::map2<CTYPE>(
+        using Vec = at::vec::Vectorized<CTYPE>;
+        at::vec::map2<CTYPE>(
             [](Vec x, Vec y) { return x * y; },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
@@ -135,8 +135,8 @@ Tensor& opt_mul_out(
       });
     } else {
       ET_SWITCH_REALB_TYPES(out_type, ctx, "mul.out", CTYPE, [&]() {
-        using Vec = executorch::vec::Vectorized<CTYPE>;
-        executorch::vec::map2<CTYPE>(
+        using Vec = at::vec::Vectorized<CTYPE>;
+        at::vec::map2<CTYPE>(
             [](Vec x, Vec y) { return x * y; },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
@@ -244,8 +244,8 @@ Tensor& opt_mul_scalar_out(
         ET_EXTRACT_SCALAR(b, b_val);
         CTYPE b_casted = static_cast<CTYPE>(b_val);
 
-        using Vec = executorch::vec::Vectorized<CTYPE>;
-        executorch::vec::map<CTYPE>(
+        using Vec = at::vec::Vectorized<CTYPE>;
+        at::vec::map<CTYPE>(
             [b_casted](Vec x) { return x * Vec(b_casted); },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
Original file line number	Diff line number	Diff line change
`@@ -70,10 +70,11 @@ else()`
`70`	`70`	`endif()`
`71`	`71`
`72`	`72`	`add_library(custom_ops ${_custom_ops__srcs})`
`73`		`-`
	`73`	`+find_package_torch_headers()`
`74`	`74`	`target_include_directories(custom_ops PUBLIC "${_common_include_directories}")`
`75`	`75`	`target_include_directories(`
`76`	`76`	`custom_ops PRIVATE "${CMAKE_CURRENT_BINARY_DIR}/../../../include"`
	`77`	`+ ${TORCH_INCLUDE_DIRS}`
`77`	`78`	`)`
`78`	`79`	`target_link_libraries(custom_ops PUBLIC ${custom_ops_libs} executorch_core)`
`79`	`80`
`@@ -99,6 +100,7 @@ if(EXECUTORCH_BUILD_KERNELS_CUSTOM_AOT)`
`99`	`100`	`)`
`100`	`101`	`target_include_directories(`
`101`	`102`	`custom_ops_aot_lib PRIVATE "${CMAKE_CURRENT_BINARY_DIR}/../../../include"`
	`103`	`+ ${TORCH_INCLUDE_DIRS}`
`102`	`104`	`)`
`103`	`105`	`# TODO: This only works if we install portable_lib.so to`
`104`	`106`	`# <site-packages>/executorch/extension/pybindings/.`