Manual LICM for numel() in quantize ops (#3785)

swolchok · facebook-github-bot · commit 0412dead3f8e · 2024-05-30T18:32:30.000-07:00
Summary: Pull Request resolved: #3785 Profiling showed that numel() is not getting inlined, which was preventing optimization. ghstack-source-id: 228354913 Reviewed By: larryliu0820 Differential Revision: D57988068 fbshipit-source-id: e077721c1ec87c0a3969215bc875e7a633af48ea
diff --git a/kernels/quantized/cpu/op_dequantize.cpp b/kernels/quantized/cpu/op_dequantize.cpp
@@ -97,7 +97,8 @@ Tensor& dequantize_per_tensor_out(
      * get inlined without LTO, particularly in ATen mode. */                  \
     auto* out_data_ptr = out.mutable_data_ptr<OUT_CTYPE>();                    \
     const auto* input_data_ptr = input.const_data_ptr<IN_CTYPE>();             \
-    for (size_t i = 0; i < input.numel(); i++) {                               \
+    const auto input_numel = input.numel();                                    \
+    for (size_t i = 0; i < input_numel; i++) {                                 \
       out_data_ptr[i] = static_cast<OUT_CTYPE>(                                \
           (input_data_ptr[i] - static_cast<int32_t>(zero_point)) *             \
           static_cast<float>(scale));                                          \
diff --git a/kernels/quantized/cpu/op_quantize.cpp b/kernels/quantized/cpu/op_quantize.cpp
@@ -124,7 +124,8 @@ Tensor& quantize_per_tensor_out(
      * get inlined without LTO, particularly in ATen mode. */                  \
     auto* out_data_ptr = out.mutable_data_ptr<OUT_CTYPE>();                    \
     const auto* input_data_ptr = input.const_data_ptr<IN_CTYPE>();             \
-    for (size_t i = 0; i < input.numel(); i++) {                               \
+    const auto input_numel = input.numel();                                    \
+    for (size_t i = 0; i < input_numel; i++) {                                 \
       IN_CTYPE value = input_data_ptr[i];                                      \
       out_data_ptr[i] = quantize_val<OUT_CTYPE, IN_CTYPE>(                     \
           scale, zero_point, value, quant_min, quant_max);                     \