Replace {map_,}reduce_over_dim_list with {Map,}ReduceOverDimListPlan in kernels/portable (#9110)

swolchok · web-flow · commit 6f0ae19deb27 · 2025-03-11T15:34:02.000-07:00
Plan-then-execute for reductions should avoid repeating prepratory work.
diff --git a/kernels/portable/cpu/op_amax.cpp b/kernels/portable/cpu/op_amax.cpp
@@ -43,15 +43,14 @@ Tensor& amax_out(
   ET_KERNEL_CHECK(
       ctx, tensors_have_same_dim_order(in, out), InvalidArgument, out);
 
+  ReduceOverDimListPlan plan(in, dim_list);
   ET_SWITCH_REALHBBF16_TYPES(in.scalar_type(), ctx, "amax.out", CTYPE, [&]() {
     CTYPE* out_data = out.mutable_data_ptr<CTYPE>();
     for (const auto out_ix : c10::irange(out.numel())) {
-      out_data[out_ix] = reduce_over_dim_list<CTYPE>(
+      out_data[out_ix] = plan.execute<CTYPE>(
           [](CTYPE v, CTYPE max_v) {
             return std::isnan(v) || v > max_v ? v : max_v;
           },
-          in,
-          dim_list,
           out_ix);
     }
   });
diff --git a/kernels/portable/cpu/op_amin.cpp b/kernels/portable/cpu/op_amin.cpp
@@ -42,15 +42,14 @@ Tensor& amin_out(
   ET_KERNEL_CHECK(
       ctx, tensors_have_same_dim_order(in, out), InvalidArgument, out);
 
+  ReduceOverDimListPlan plan(in, dim_list);
   ET_SWITCH_REALHBBF16_TYPES(in.scalar_type(), ctx, "amin.out", CTYPE, [&]() {
     CTYPE* out_data = out.mutable_data_ptr<CTYPE>();
     for (const auto out_ix : c10::irange(out.numel())) {
-      out_data[out_ix] = reduce_over_dim_list<CTYPE>(
+      out_data[out_ix] = plan.execute<CTYPE>(
           [](CTYPE v, CTYPE min_v) {
             return std::isnan(v) || v < min_v ? v : min_v;
           },
-          in,
-          dim_list,
           out_ix);
     }
   });
diff --git a/kernels/portable/cpu/op_any.cpp b/kernels/portable/cpu/op_any.cpp
@@ -10,6 +10,8 @@
 #include <executorch/kernels/portable/cpu/util/reduce_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
 
+#include <optional>
+
 namespace torch {
 namespace executor {
 namespace native {
@@ -79,6 +81,11 @@ Tensor& any_dims_out(
   ScalarType out_type = out.scalar_type();
   constexpr auto name = "any.dims_out";
 
+  const bool in_not_empty = in.numel() > 0;
+  std::optional<MapReduceOverDimListPlan> plan;
+  if ((!dim_list.has_value() || !dim_list.value().empty()) && in_not_empty) {
+    plan.emplace(in, dim_list);
+  }
   ET_SWITCH_REALHBBF16_TYPES(in_type, ctx, name, CTYPE_IN, [&] {
     ET_SWITCH_TWO_TYPES(Bool, Byte, out_type, ctx, name, CTYPE_OUT, [&] {
       CTYPE_OUT* out_data = out.mutable_data_ptr<CTYPE_OUT>();
@@ -91,12 +98,10 @@ Tensor& any_dims_out(
       } else {
         for (const auto out_ix : c10::irange(out.numel())) {
           bool any = false;
-          if (in.numel() > 0) {
-            any = map_reduce_over_dim_list<CTYPE_IN, bool>(
+          if (in_not_empty) {
+            any = plan->execute<CTYPE_IN, bool>(
                 [](CTYPE_IN v) { return static_cast<bool>(v); },
                 [](bool outv, bool acc) { return acc || outv; },
-                in,
-                dim_list,
                 out_ix);
           }
           out_data[out_ix] = static_cast<CTYPE_OUT>(any);
diff --git a/kernels/portable/cpu/op_mean.cpp b/kernels/portable/cpu/op_mean.cpp
@@ -45,6 +45,7 @@ Tensor& mean_dim_out(
       InvalidArgument,
       out);
 
+  MapReduceOverDimListPlan plan(in, dim_list);
   ET_SWITCH_REALHBBF16_TYPES(in.scalar_type(), ctx, "mean.out", CTYPE_IN, [&] {
     ET_SWITCH_FLOATHBF16_TYPES(
         out.scalar_type(), ctx, "mean.out", CTYPE_OUT, [&] {
@@ -53,11 +54,9 @@ Tensor& mean_dim_out(
           for (const auto out_ix : c10::irange(out.numel())) {
             CTYPE_OUT sum = 0;
             if (in.numel() > 0) {
-              sum = map_reduce_over_dim_list<CTYPE_IN, CTYPE_OUT>(
+              sum = plan.execute<CTYPE_IN, CTYPE_OUT>(
                   [](CTYPE_IN v) { return static_cast<CTYPE_OUT>(v); },
                   [](CTYPE_OUT outv, CTYPE_OUT acc) { return acc + outv; },
-                  in,
-                  dim_list,
                   out_ix);
             }
             out_data[out_ix] = sum / static_cast<float>(num);
diff --git a/kernels/portable/cpu/op_sum.cpp b/kernels/portable/cpu/op_sum.cpp
@@ -11,6 +11,8 @@
 #include <executorch/runtime/kernel/kernel_includes.h>
 #include <executorch/runtime/platform/assert.h>
 
+#include <optional>
+
 namespace torch {
 namespace executor {
 namespace native {
@@ -44,19 +46,21 @@ Tensor& sum_dim_out(
 
   ET_KERNEL_CHECK(ctx, tensor_is_default_dim_order(in), InvalidArgument, out);
 
+  std::optional<MapReduceOverDimListPlan> plan;
+  if (in.numel() > 0) {
+    plan.emplace(in, dim_list);
+  }
   ET_SWITCH_REALHBBF16_TYPES(
       in.scalar_type(), ctx, "sum.IntList_out", CTYPE_IN, [&] {
         ET_SWITCH_REALHBBF16_TYPES(
             out.scalar_type(), ctx, "sum.IntList_out", CTYPE_OUT, [&] {
               CTYPE_OUT* out_data = out.mutable_data_ptr<CTYPE_OUT>();
               for (const auto out_ix : c10::irange(out.numel())) {
                 CTYPE_OUT sum = 0;
-                if (in.numel() > 0) {
-                  sum = map_reduce_over_dim_list<CTYPE_IN, CTYPE_OUT>(
+                if (plan.has_value()) {
+                  sum = plan->execute<CTYPE_IN, CTYPE_OUT>(
                       [](CTYPE_IN v) { return static_cast<CTYPE_OUT>(v); },
                       [](CTYPE_OUT outv, CTYPE_OUT acc) { return acc + outv; },
-                      in,
-                      dim_list,
                       out_ix);
                 }
                 out_data[out_ix] = sum;
diff --git a/kernels/portable/cpu/op_var.cpp b/kernels/portable/cpu/op_var.cpp
@@ -32,23 +32,20 @@ void compute_variance(
       out_data[out_ix] = NAN;
     }
   } else {
+    MapReduceOverDimListPlan plan(in, dim_list);
     for (const auto out_ix : c10::irange(out.numel())) {
-      CTYPE_OUT sum = map_reduce_over_dim_list<CTYPE_IN, CTYPE_OUT>(
+      CTYPE_OUT sum = plan.execute<CTYPE_IN, CTYPE_OUT>(
           [](CTYPE_IN v) { return static_cast<CTYPE_OUT>(v); },
           [](CTYPE_OUT outv, CTYPE_OUT acc) { return acc + outv; },
-          in,
-          dim_list,
           out_ix);
       CTYPE_OUT mean = sum / static_cast<CTYPE_OUT>(num);
-      CTYPE_OUT sum2 = map_reduce_over_dim_list<CTYPE_IN, CTYPE_OUT>(
+      CTYPE_OUT sum2 = plan.execute<CTYPE_IN, CTYPE_OUT>(
           [mean](CTYPE_IN v) {
             return (
                 (static_cast<CTYPE_OUT>(v) - mean) *
                 (static_cast<CTYPE_OUT>(v) - mean));
           },
           [](CTYPE_OUT outv, CTYPE_OUT acc) { return acc + outv; },
-          in,
-          dim_list,
           out_ix);
       out_data[out_ix] = sum2 / denominator;
     }