Merge remote-tracking branch 'jack/fp16x2_marray' into 9-may-22-cuda

jchlanda · jchlanda · commit 24a4b2f105a8 · 2022-05-09T07:25:10.000-07:00
diff --git a/sycl/include/CL/sycl/builtins.hpp b/sycl/include/CL/sycl/builtins.hpp
@@ -39,6 +39,135 @@ detail::enable_if_t<detail::is_genfloat<T>::value, T> acos(T x) __NOEXC {
   return __sycl_std::__invoke_acos<T>(x);
 }
 
+#define __SYCL_MATH_FUNCTION_OVERLOAD(NAME)                                    \
+  template <typename T, size_t N>                                              \
+  inline __SYCL_ALWAYS_INLINE std::enable_if_t<                                \
+      std::is_same<T, half>::value || std::is_same<T, float>::value ||         \
+          std::is_same<T, double>::value,                                      \
+      sycl::marray<T, N>>                                                      \
+  NAME(sycl::marray<T, N> x) __NOEXC {                                         \
+    sycl::marray<T, N> res;                                                    \
+    auto x_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&x);               \
+    auto res_vec2 = reinterpret_cast<sycl::vec<T, 2> *>(&res);                 \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] = __sycl_std::__invoke_##NAME<sycl::vec<T, 2>>(x_vec2[i]);   \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] = __sycl_std::__invoke_##NAME<T>(x[N - 1]);                   \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_MATH_FUNCTION_OVERLOAD(sin)
+__SYCL_MATH_FUNCTION_OVERLOAD(cos)
+__SYCL_MATH_FUNCTION_OVERLOAD(tan)
+__SYCL_MATH_FUNCTION_OVERLOAD(cospi)
+__SYCL_MATH_FUNCTION_OVERLOAD(sinpi)
+__SYCL_MATH_FUNCTION_OVERLOAD(tanpi)
+__SYCL_MATH_FUNCTION_OVERLOAD(sinh)
+__SYCL_MATH_FUNCTION_OVERLOAD(cosh)
+__SYCL_MATH_FUNCTION_OVERLOAD(tanh)
+__SYCL_MATH_FUNCTION_OVERLOAD(asin)
+__SYCL_MATH_FUNCTION_OVERLOAD(acos)
+__SYCL_MATH_FUNCTION_OVERLOAD(atan)
+__SYCL_MATH_FUNCTION_OVERLOAD(asinpi)
+__SYCL_MATH_FUNCTION_OVERLOAD(acospi)
+__SYCL_MATH_FUNCTION_OVERLOAD(atanpi)
+__SYCL_MATH_FUNCTION_OVERLOAD(asinh)
+__SYCL_MATH_FUNCTION_OVERLOAD(acosh)
+__SYCL_MATH_FUNCTION_OVERLOAD(atanh)
+__SYCL_MATH_FUNCTION_OVERLOAD(cbrt)
+__SYCL_MATH_FUNCTION_OVERLOAD(ceil)
+__SYCL_MATH_FUNCTION_OVERLOAD(floor)
+__SYCL_MATH_FUNCTION_OVERLOAD(erfc)
+__SYCL_MATH_FUNCTION_OVERLOAD(erf)
+__SYCL_MATH_FUNCTION_OVERLOAD(exp)
+__SYCL_MATH_FUNCTION_OVERLOAD(exp2)
+__SYCL_MATH_FUNCTION_OVERLOAD(exp10)
+__SYCL_MATH_FUNCTION_OVERLOAD(expm1)
+__SYCL_MATH_FUNCTION_OVERLOAD(tgamma)
+__SYCL_MATH_FUNCTION_OVERLOAD(lgamma)
+__SYCL_MATH_FUNCTION_OVERLOAD(log)
+__SYCL_MATH_FUNCTION_OVERLOAD(log2)
+__SYCL_MATH_FUNCTION_OVERLOAD(log10)
+__SYCL_MATH_FUNCTION_OVERLOAD(log1p)
+__SYCL_MATH_FUNCTION_OVERLOAD(logb)
+__SYCL_MATH_FUNCTION_OVERLOAD(rint)
+__SYCL_MATH_FUNCTION_OVERLOAD(round)
+__SYCL_MATH_FUNCTION_OVERLOAD(sqrt)
+__SYCL_MATH_FUNCTION_OVERLOAD(rsqrt)
+__SYCL_MATH_FUNCTION_OVERLOAD(trunc)
+
+#undef __SYCL_MATH_FUNCTION_OVERLOAD
+
+#define __SYCL_MATH_FUNCTION_2_OVERLOAD(NAME)                                  \
+  template <typename T, size_t N>                                              \
+  inline __SYCL_ALWAYS_INLINE std::enable_if_t<                                \
+      std::is_same<T, half>::value || std::is_same<T, float>::value ||         \
+          std::is_same<T, double>::value,                                      \
+      sycl::marray<T, N>>                                                      \
+  NAME(sycl::marray<T, N> x, sycl::marray<T, N> y) __NOEXC {                   \
+    sycl::marray<T, N> res;                                                    \
+    auto x_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&x);               \
+    auto y_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&y);               \
+    auto res_vec2 = reinterpret_cast<sycl::vec<T, 2> *>(&res);                 \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] =                                                            \
+          __sycl_std::__invoke_##NAME<sycl::vec<T, 2>>(x_vec2[i], y_vec2[i]);  \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] = __sycl_std::__invoke_##NAME<T>(x[N - 1], y[N - 1]);         \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_MATH_FUNCTION_2_OVERLOAD(atan2)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(atan2pi)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(copysign)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(fdim)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(fmin)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(fmax)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(fmod)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(hypot)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(maxmag)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(minmag)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(nextafter)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(pow)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(powr)
+__SYCL_MATH_FUNCTION_2_OVERLOAD(remainder)
+
+#undef __SYCL_MATH_FUNCTION_2_OVERLOAD
+
+#define __SYCL_MATH_FUNCTION_3_OVERLOAD(NAME)                                  \
+  template <typename T, size_t N>                                              \
+  inline __SYCL_ALWAYS_INLINE std::enable_if_t<                                \
+      std::is_same<T, half>::value || std::is_same<T, float>::value ||         \
+          std::is_same<T, double>::value,                                      \
+      sycl::marray<T, N>>                                                      \
+  NAME(sycl::marray<T, N> x, sycl::marray<T, N> y, sycl::marray<T, N> z)       \
+      __NOEXC {                                                                \
+    sycl::marray<T, N> res;                                                    \
+    auto x_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&x);               \
+    auto y_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&y);               \
+    auto z_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&z);               \
+    auto res_vec2 = reinterpret_cast<sycl::vec<T, 2> *>(&res);                 \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] = __sycl_std::__invoke_##NAME<sycl::vec<T, 2>>(              \
+          x_vec2[i], y_vec2[i], z_vec2[i]);                                    \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] =                                                             \
+          __sycl_std::__invoke_##NAME<T>(x[N - 1], y[N - 1], z[N - 1]);        \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_MATH_FUNCTION_3_OVERLOAD(mad)
+__SYCL_MATH_FUNCTION_3_OVERLOAD(mix)
+__SYCL_MATH_FUNCTION_3_OVERLOAD(fma)
+
+#undef __SYCL_MATH_FUNCTION_3_OVERLOAD
+
 // genfloat acosh (genfloat x)
 template <typename T>
 detail::enable_if_t<detail::is_genfloat<T>::value, T> acosh(T x) __NOEXC {
@@ -1395,6 +1524,63 @@ select(T a, T b, T2 c) __NOEXC {
 namespace native {
 /* ----------------- 4.13.3 Math functions. ---------------------------------*/
 // genfloatf cos (genfloatf x)
+
+#define __SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(NAME)                             \
+  template <size_t N>                                                          \
+  inline __SYCL_ALWAYS_INLINE sycl::marray<float, N> NAME(                     \
+      sycl::marray<float, N> x) __NOEXC {                                      \
+    sycl::marray<float, N> res;                                                \
+    auto x_vec2 = reinterpret_cast<sycl::vec<float, 2> const *>(&x);           \
+    auto res_vec2 = reinterpret_cast<sycl::vec<float, 2> *>(&res);             \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] =                                                            \
+          __sycl_std::__invoke_native_##NAME<sycl::vec<float, 2>>(x_vec2[i]);  \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] = __sycl_std::__invoke_native_##NAME<float>(x[N - 1]);        \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(sin)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(cos)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(tan)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(exp)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(exp2)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(exp10)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(log)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(log2)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(log10)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(sqrt)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(rsqrt)
+__SYCL_NATIVE_MATH_FUNCTION_OVERLOAD(recip)
+
+#undef __SYCL_NATIVE_MATH_FUNCTION_OVERLOAD
+
+#define __SYCL_NATIVE_MATH_FUNCTION_2_OVERLOAD(NAME)                           \
+  template <size_t N>                                                          \
+  inline __SYCL_ALWAYS_INLINE sycl::marray<float, N> NAME(                     \
+      sycl::marray<float, N> x, sycl::marray<float, N> y) __NOEXC {            \
+    sycl::marray<float, N> res;                                                \
+    auto x_vec2 = reinterpret_cast<sycl::vec<float, 2> const *>(&x);           \
+    auto y_vec2 = reinterpret_cast<sycl::vec<float, 2> const *>(&y);           \
+    auto res_vec2 = reinterpret_cast<sycl::vec<float, 2> *>(&res);             \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] = __sycl_std::__invoke_native_##NAME<sycl::vec<float, 2>>(   \
+          x_vec2[i], y_vec2[i]);                                               \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] =                                                             \
+          __sycl_std::__invoke_native_##NAME<float>(x[N - 1], y[N - 1]);       \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_NATIVE_MATH_FUNCTION_2_OVERLOAD(divide)
+__SYCL_NATIVE_MATH_FUNCTION_2_OVERLOAD(powr)
+
+#undef __SYCL_NATIVE_MATH_FUNCTION_2_OVERLOAD
+
 template <typename T>
 detail::enable_if_t<detail::is_genfloatf<T>::value, T> cos(T x) __NOEXC {
   return __sycl_std::__invoke_native_cos<T>(x);
@@ -1482,6 +1668,62 @@ detail::enable_if_t<detail::is_genfloatf<T>::value, T> tan(T x) __NOEXC {
 } // namespace native
 namespace half_precision {
 /* ----------------- 4.13.3 Math functions. ---------------------------------*/
+#define __SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(NAME)                     \
+  template <size_t N>                                                          \
+  inline __SYCL_ALWAYS_INLINE sycl::marray<float, N> NAME(                     \
+      sycl::marray<float, N> x) __NOEXC {                                      \
+    sycl::marray<float, N> res;                                                \
+    auto x_vec2 = reinterpret_cast<sycl::vec<float, 2> const *>(&x);           \
+    auto res_vec2 = reinterpret_cast<sycl::vec<float, 2> *>(&res);             \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] =                                                            \
+          __sycl_std::__invoke_half_##NAME<sycl::vec<float, 2>>(x_vec2[i]);    \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] = __sycl_std::__invoke_half_##NAME<float>(x[N - 1]);          \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(sin)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(cos)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(tan)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(exp)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(exp2)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(exp10)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(log)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(log2)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(log10)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(sqrt)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(rsqrt)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD(recip)
+
+#undef __SYCL_HALF_PRECISION_MATH_FUNCTION_OVERLOAD
+
+#define __SYCL_HALF_PRECISION_MATH_FUNCTION_2_OVERLOAD(NAME)                   \
+  template <size_t N>                                                          \
+  inline __SYCL_ALWAYS_INLINE sycl::marray<float, N> NAME(                     \
+      sycl::marray<float, N> x, sycl::marray<float, N> y) __NOEXC {            \
+    sycl::marray<float, N> res;                                                \
+    auto x_vec2 = reinterpret_cast<sycl::vec<float, 2> const *>(&x);           \
+    auto y_vec2 = reinterpret_cast<sycl::vec<float, 2> const *>(&y);           \
+    auto res_vec2 = reinterpret_cast<sycl::vec<float, 2> *>(&res);             \
+    for (size_t i = 0; i < N / 2; i++) {                                       \
+      res_vec2[i] = __sycl_std::__invoke_half_##NAME<sycl::vec<float, 2>>(     \
+          x_vec2[i], y_vec2[i]);                                               \
+    }                                                                          \
+    if (N % 2) {                                                               \
+      res[N - 1] =                                                             \
+          __sycl_std::__invoke_half_##NAME<float>(x[N - 1], y[N - 1]);         \
+    }                                                                          \
+    return res;                                                                \
+  }
+
+__SYCL_HALF_PRECISION_MATH_FUNCTION_2_OVERLOAD(divide)
+__SYCL_HALF_PRECISION_MATH_FUNCTION_2_OVERLOAD(powr)
+
+#undef __SYCL_HALF_PRECISION_MATH_FUNCTION_2_OVERLOAD
+
 // genfloatf cos (genfloatf x)
 template <typename T>
 detail::enable_if_t<detail::is_genfloatf<T>::value, T> cos(T x) __NOEXC {
diff --git a/sycl/include/CL/sycl/detail/generic_type_lists.hpp b/sycl/include/CL/sycl/detail/generic_type_lists.hpp
@@ -45,8 +45,7 @@ using marray_half_list =
     type_list<marray<half, 1>, marray<half, 2>, marray<half, 3>,
               marray<half, 4>, marray<half, 8>, marray<half, 16>>;
 
-using half_list =
-    type_list<scalar_half_list, vector_half_list, marray_half_list>;
+using half_list = type_list<scalar_half_list, vector_half_list>;
 
 using scalar_float_list = type_list<float>;
 
@@ -58,8 +57,7 @@ using marray_float_list =
     type_list<marray<float, 1>, marray<float, 2>, marray<float, 3>,
               marray<float, 4>, marray<float, 8>, marray<float, 16>>;
 
-using float_list =
-    type_list<scalar_float_list, vector_float_list, marray_float_list>;
+using float_list = type_list<scalar_float_list, vector_float_list>;
 
 using scalar_double_list = type_list<double>;
 
@@ -83,8 +81,7 @@ using vector_floating_list =
 using marray_floating_list =
     type_list<marray_float_list, marray_double_list, marray_half_list>;
 
-using floating_list =
-    type_list<scalar_floating_list, vector_floating_list, marray_floating_list>;
+using floating_list = type_list<scalar_floating_list, vector_floating_list>;
 
 // geometric floating point types
 using scalar_geo_half_list = type_list<half>;
diff --git a/sycl/include/sycl/ext/oneapi/experimental/builtins.hpp b/sycl/include/sycl/ext/oneapi/experimental/builtins.hpp
@@ -98,6 +98,32 @@ inline __SYCL_ALWAYS_INLINE
 #endif
 }
 
+template <typename T, size_t N>
+inline __SYCL_ALWAYS_INLINE std::enable_if_t<std::is_same<T, half>::value ||
+                                                 std::is_same<T, float>::value,
+                                             sycl::marray<T, N>>
+tanh(sycl::marray<T, N> x) __NOEXC {
+  sycl::marray<T, N> res;
+  auto x_vec2 = reinterpret_cast<sycl::vec<T, 2> const *>(&x);
+  auto res_vec2 = reinterpret_cast<sycl::vec<T, 2> *>(&res);
+#if defined(__SYCL_DEVICE_ONLY__) && defined(__NVPTX__)
+  for (size_t i = 0; i < N / 2; i++) {
+    res_vec2[i] = __clc_native_tanh(x_vec2[i]);
+  }
+  if constexpr (N % 2) {
+    res[N - 1] = __clc_native_tanh(x[N - 1]);
+  }
+#else
+  for (size_t i = 0; i < N / 2; i++) {
+    res_vec2[i] = __sycl_std::__invoke_tanh<sycl::vec<T, 2>>(x_vec2[i]);
+  }
+  if constexpr (N % 2) {
+    res[N - 1] = __sycl_std::__invoke_tanh<T>(x[N - 1]);
+  }
+#endif // defined(__SYCL_DEVICE_ONLY__) && defined(__NVPTX__)
+  return res;
+}
+
 // genfloath exp2 (genfloath x)
 template <typename T>
 inline __SYCL_ALWAYS_INLINE
@@ -113,6 +139,30 @@ inline __SYCL_ALWAYS_INLINE
 #endif
 }
 
+template <size_t N>
+inline __SYCL_ALWAYS_INLINE sycl::marray<half, N>
+exp2(sycl::marray<half, N> x) __NOEXC {
+  sycl::marray<half, N> res;
+  auto x_vec2 = reinterpret_cast<sycl::vec<half, 2> const *>(&x);
+  auto res_vec2 = reinterpret_cast<sycl::vec<half, 2> *>(&res);
+#if defined(__SYCL_DEVICE_ONLY__) && defined(__NVPTX__)
+  for (size_t i = 0; i < N / 2; i++) {
+    res_vec2[i] = __clc_native_exp2(x_vec2[i]);
+  }
+  if constexpr (N % 2) {
+    res[N - 1] = __clc_native_exp2(x[N - 1]);
+  }
+#else
+  for (size_t i = 0; i < N / 2; i++) {
+    res_vec2[i] = __sycl_std::__invoke_exp2<sycl::vec<half, 2>>(x_vec2[i]);
+  }
+  if constexpr (N % 2) {
+    res[N - 1] = __sycl_std::__invoke_exp2<half>(x[N - 1]);
+  }
+#endif // defined(__SYCL_DEVICE_ONLY__) && defined(__NVPTX__)
+  return res;
+}
+
 } // namespace native
 
 namespace detail {