IntelPython
diff --git a/‎dpctl/tensor/libtensor/include/kernels/reductions.hpp
Lines changed: 85 additions & 66 deletions b/‎dpctl/tensor/libtensor/include/kernels/reductions.hpp
Lines changed: 85 additions & 66 deletions
@@ -50,6 +50,14 @@ namespace tensor
 namespace kernels
 {
 
+template <typename ReductionOpT, typename T> struct can_use_reduce_over_group
+{
+    static constexpr bool value =
+        sycl::has_known_identity<ReductionOpT, T>::value &&
+        !std::is_same_v<T, std::int64_t> && !std::is_same_v<T, std::uint64_t> &&
+        !std::is_same_v<ReductionOpT, sycl::multiplies<T>>;
+};
+
 template <typename argT,
           typename outT,
           typename ReductionOp,
@@ -477,7 +485,8 @@ sycl::event reduction_over_group_with_atomics_strided_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName = class reduction_over_group_with_atomics_krn<
                     argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
                     ReductionIndexerT>;
@@ -618,7 +627,8 @@ sycl::event reduction_axis1_over_group_with_atomics_contig_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName =
                     class reduction_axis1_over_group_with_atomics_contig_krn<
                         argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
@@ -717,7 +727,8 @@ sycl::event reduction_axis0_over_group_with_atomics_contig_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName =
                     class reduction_axis0_over_group_with_atomics_contig_krn<
                         argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
@@ -1007,10 +1018,12 @@ sycl::event reduction_over_group_temps_strided_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName = class reduction_over_group_temps_krn<
                     argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
                     ReductionIndexerT>;
+
                 cgh.parallel_for<KernelName>(
                     sycl::nd_range<1>(globalRange, localRange),
                     ReductionOverGroupNoAtomicFunctor<
@@ -1026,6 +1039,7 @@ sycl::event reduction_over_group_temps_strided_impl(
                 using KernelName = class custom_reduction_over_group_temps_krn<
                     argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
                     ReductionIndexerT, SlmT>;
+
                 cgh.parallel_for<KernelName>(
                     sycl::nd_range<1>(globalRange, localRange),
                     CustomReductionOverGroupNoAtomicFunctor<
@@ -1062,68 +1076,67 @@ sycl::event reduction_over_group_temps_strided_impl(
                 partially_reduced_tmp + reduction_groups * iter_nelems;
         }
 
-        const sycl::event &first_reduction_ev =
-            exec_q.submit([&](sycl::handler &cgh) {
-                cgh.depends_on(depends);
+        const sycl::event &first_reduction_ev = exec_q.submit([&](sycl::handler
+                                                                      &cgh) {
+            cgh.depends_on(depends);
 
-                using InputIndexerT =
-                    dpctl::tensor::offset_utils::StridedIndexer;
-                using ResIndexerT = dpctl::tensor::offset_utils::NoOpIndexer;
-                using InputOutputIterIndexerT =
-                    dpctl::tensor::offset_utils::TwoOffsets_CombinedIndexer<
-                        InputIndexerT, ResIndexerT>;
-                using ReductionIndexerT =
-                    dpctl::tensor::offset_utils::StridedIndexer;
+            using InputIndexerT = dpctl::tensor::offset_utils::StridedIndexer;
+            using ResIndexerT = dpctl::tensor::offset_utils::NoOpIndexer;
+            using InputOutputIterIndexerT =
+                dpctl::tensor::offset_utils::TwoOffsets_CombinedIndexer<
+                    InputIndexerT, ResIndexerT>;
+            using ReductionIndexerT =
+                dpctl::tensor::offset_utils::StridedIndexer;
 
-                // Only 2*iter_nd entries describing shape and strides of
-                // iterated dimensions of input array from
-                // iter_shape_and_strides are going to be accessed by
-                // inp_indexer
-                InputIndexerT inp_indexer(iter_nd, iter_arg_offset,
-                                          iter_shape_and_strides);
-                ResIndexerT noop_tmp_indexer{};
+            // Only 2*iter_nd entries describing shape and strides of
+            // iterated dimensions of input array from
+            // iter_shape_and_strides are going to be accessed by
+            // inp_indexer
+            InputIndexerT inp_indexer(iter_nd, iter_arg_offset,
+                                      iter_shape_and_strides);
+            ResIndexerT noop_tmp_indexer{};
 
-                InputOutputIterIndexerT in_out_iter_indexer{inp_indexer,
-                                                            noop_tmp_indexer};
-                ReductionIndexerT reduction_indexer{
-                    red_nd, reduction_arg_offset, reduction_shape_stride};
+            InputOutputIterIndexerT in_out_iter_indexer{inp_indexer,
+                                                        noop_tmp_indexer};
+            ReductionIndexerT reduction_indexer{red_nd, reduction_arg_offset,
+                                                reduction_shape_stride};
 
-                auto globalRange =
-                    sycl::range<1>{iter_nelems * reduction_groups * wg};
-                auto localRange = sycl::range<1>{wg};
+            auto globalRange =
+                sycl::range<1>{iter_nelems * reduction_groups * wg};
+            auto localRange = sycl::range<1>{wg};
 
-                if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
-                    using KernelName = class reduction_over_group_temps_krn<
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
+                using KernelName = class reduction_over_group_temps_krn<
+                    argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
+                    ReductionIndexerT>;
+                cgh.parallel_for<KernelName>(
+                    sycl::nd_range<1>(globalRange, localRange),
+                    ReductionOverGroupNoAtomicFunctor<
                         argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
-                        ReductionIndexerT>;
-                    cgh.parallel_for<KernelName>(
-                        sycl::nd_range<1>(globalRange, localRange),
-                        ReductionOverGroupNoAtomicFunctor<
-                            argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
-                            ReductionIndexerT>(
-                            arg_tp, partially_reduced_tmp, ReductionOpT(),
-                            identity_val, in_out_iter_indexer,
-                            reduction_indexer, reduction_nelems, iter_nelems,
-                            preferrered_reductions_per_wi));
-                }
-                else {
-                    using SlmT = sycl::local_accessor<resTy, 1>;
-                    SlmT local_memory = SlmT(localRange, cgh);
-                    using KernelName =
-                        class custom_reduction_over_group_temps_krn<
-                            argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
-                            ReductionIndexerT, SlmT>;
-                    cgh.parallel_for<KernelName>(
-                        sycl::nd_range<1>(globalRange, localRange),
-                        CustomReductionOverGroupNoAtomicFunctor<
-                            argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
-                            ReductionIndexerT, SlmT>(
-                            arg_tp, partially_reduced_tmp, ReductionOpT(),
-                            identity_val, in_out_iter_indexer,
-                            reduction_indexer, local_memory, reduction_nelems,
-                            iter_nelems, preferrered_reductions_per_wi));
-                }
-            });
+                        ReductionIndexerT>(
+                        arg_tp, partially_reduced_tmp, ReductionOpT(),
+                        identity_val, in_out_iter_indexer, reduction_indexer,
+                        reduction_nelems, iter_nelems,
+                        preferrered_reductions_per_wi));
+            }
+            else {
+                using SlmT = sycl::local_accessor<resTy, 1>;
+                SlmT local_memory = SlmT(localRange, cgh);
+                using KernelName = class custom_reduction_over_group_temps_krn<
+                    argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
+                    ReductionIndexerT, SlmT>;
+                cgh.parallel_for<KernelName>(
+                    sycl::nd_range<1>(globalRange, localRange),
+                    CustomReductionOverGroupNoAtomicFunctor<
+                        argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
+                        ReductionIndexerT, SlmT>(
+                        arg_tp, partially_reduced_tmp, ReductionOpT(),
+                        identity_val, in_out_iter_indexer, reduction_indexer,
+                        local_memory, reduction_nelems, iter_nelems,
+                        preferrered_reductions_per_wi));
+            }
+        });
 
         size_t remaining_reduction_nelems = reduction_groups;
 
@@ -1165,7 +1178,8 @@ sycl::event reduction_over_group_temps_strided_impl(
                 auto globalRange =
                     sycl::range<1>{iter_nelems * reduction_groups_ * wg};
                 auto localRange = sycl::range<1>{wg};
-                if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
+                if constexpr (can_use_reduce_over_group<ReductionOpT,
+                                                        resTy>::value) {
                     using KernelName = class reduction_over_group_temps_krn<
                         resTy, resTy, ReductionOpT, InputOutputIterIndexerT,
                         ReductionIndexerT>;
@@ -1240,7 +1254,8 @@ sycl::event reduction_over_group_temps_strided_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<resTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName = class reduction_over_group_temps_krn<
                     argTy, resTy, ReductionOpT, InputOutputIterIndexerT,
                     ReductionIndexerT>;
@@ -2564,7 +2579,8 @@ sycl::event search_reduction_over_group_temps_strided_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<argTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName = class search_reduction_over_group_temps_krn<
                     argTy, resTy, ReductionOpT, IndexOpT,
                     InputOutputIterIndexerT, ReductionIndexerT, true, true>;
@@ -2663,7 +2679,8 @@ sycl::event search_reduction_over_group_temps_strided_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<argTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName = class search_reduction_over_group_temps_krn<
                     argTy, resTy, ReductionOpT, IndexOpT,
                     InputOutputIterIndexerT, ReductionIndexerT, true, false>;
@@ -2743,7 +2760,8 @@ sycl::event search_reduction_over_group_temps_strided_impl(
                 auto globalRange =
                     sycl::range<1>{iter_nelems * reduction_groups_ * wg};
                 auto localRange = sycl::range<1>{wg};
-                if constexpr (su_ns::IsSyclOp<argTy, ReductionOpT>::value) {
+                if constexpr (can_use_reduce_over_group<ReductionOpT,
+                                                        resTy>::value) {
                     using KernelName =
                         class search_reduction_over_group_temps_krn<
                             argTy, resTy, ReductionOpT, IndexOpT,
@@ -2826,7 +2844,8 @@ sycl::event search_reduction_over_group_temps_strided_impl(
                 sycl::range<1>{iter_nelems * reduction_groups * wg};
             auto localRange = sycl::range<1>{wg};
 
-            if constexpr (su_ns::IsSyclOp<argTy, ReductionOpT>::value) {
+            if constexpr (can_use_reduce_over_group<ReductionOpT, resTy>::value)
+            {
                 using KernelName = class search_reduction_over_group_temps_krn<
                     argTy, resTy, ReductionOpT, IndexOpT,
                     InputOutputIterIndexerT, ReductionIndexerT, false, true>;