intel
diff --git a/‎sycl/include/sycl/ext/oneapi/matrix/matrix-tensorcores-legacy.hpp
Lines changed: 0 additions & 1 deletion b/‎sycl/include/sycl/ext/oneapi/matrix/matrix-tensorcores-legacy.hpp
Lines changed: 0 additions & 1 deletion
diff --git a/‎sycl/include/sycl/ext/oneapi/matrix/matrix-tensorcores.hpp
Lines changed: 10 additions & 13 deletions b/‎sycl/include/sycl/ext/oneapi/matrix/matrix-tensorcores.hpp
Lines changed: 10 additions & 13 deletions
diff --git a/‎sycl/include/sycl/ext/oneapi/matrix/matrix-unified.hpp
Lines changed: 1 addition & 2 deletions b/‎sycl/include/sycl/ext/oneapi/matrix/matrix-unified.hpp
Lines changed: 1 addition & 2 deletions
diff --git a/‎sycl/test/check_device_code/matrix/matrix-nvptx-bfloat16-test.cpp
Lines changed: 42 additions & 68 deletions b/‎sycl/test/check_device_code/matrix/matrix-nvptx-bfloat16-test.cpp
Lines changed: 42 additions & 68 deletions
@@ -790,4 +790,3 @@ inline __SYCL_ALWAYS_INLINE float round_to_tf32(float a) {
 } // namespace ext
 } // __SYCL_INLINE_VER_NAMESPACE(_V1)
 } // namespace sycl
-
@@ -1,11 +1,11 @@
 
-//===--- matrix-tensorcores.hpp - tensor cores matrix ext impl --*- C++ -*---===//
+//===-------- matrix-tensorcores.hpp - matrix ext impl ---*- C++ -*-------===//
 //
 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
 // See https://llvm.org/LICENSE.txt for license information.
 // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
 //
-// ===----------------------------------------------------------------------=== //
+// ===-------------------------------------------------------------------=== //
 
 #pragma once
 #include <sycl/ext/oneapi/experimental/bfloat16.hpp>
@@ -185,11 +185,9 @@ void load_accumulator_layoutT(
       __imma_m16n16k16_ld_c(destptr, src.get(), stride,
                             get_layout_id<Layout>());
     } else if constexpr (NumRows == 8 && NumCols == 32) {
-      __imma_m8n32k16_ld_c(destptr, src.get(), stride,
-                           get_layout_id<Layout>());
+      __imma_m8n32k16_ld_c(destptr, src.get(), stride, get_layout_id<Layout>());
     } else if constexpr (NumRows == 32 && NumCols == 8) {
-      __imma_m32n8k16_ld_c(destptr, src.get(), stride,
-                           get_layout_id<Layout>());
+      __imma_m32n8k16_ld_c(destptr, src.get(), stride, get_layout_id<Layout>());
     }
   } else if constexpr (std::is_same_v<S, float>) {
     auto dstptr = reinterpret_cast<float *>(&res.wi_marray);
@@ -549,8 +547,8 @@ void joint_matrix_mad_cuda(
             get_layout_pair_id<LayoutA, LayoutB>(), 0);
       }
     } else if constexpr (std::is_same_v<Tm, uint16_t> ||
-                         std::is_same_v<Tm, sycl::ext::oneapi::experimental::
-                                              bfloat16>) {
+                         std::is_same_v<
+                             Tm, sycl::ext::oneapi::experimental::bfloat16>) {
       __mma_bf16_m16n16k16_mma_f32(
           reinterpret_cast<float *>(&D.wi_marray),
           reinterpret_cast<const int32_t *>(&A.wi_marray),
@@ -586,8 +584,8 @@ void joint_matrix_mad_cuda(
             get_layout_pair_id<LayoutA, LayoutB>(), 0);
       }
     } else if constexpr (std::is_same_v<Tm, uint16_t> ||
-                         std::is_same_v<Tm, sycl::ext::oneapi::experimental::
-                                              bfloat16>) {
+                         std::is_same_v<
+                             Tm, sycl::ext::oneapi::experimental::bfloat16>) {
       __mma_bf16_m8n32k16_mma_f32(
           reinterpret_cast<float *>(&D.wi_marray),
           reinterpret_cast<const int32_t *>(&A.wi_marray),
@@ -609,8 +607,8 @@ void joint_matrix_mad_cuda(
                                get_layout_pair_id<LayoutA, LayoutB>(), 0);
       }
     } else if constexpr (std::is_same_v<Tm, uint16_t> ||
-                         std::is_same_v<Tm, sycl::ext::oneapi::experimental::
-                                              bfloat16>) {
+                         std::is_same_v<
+                             Tm, sycl::ext::oneapi::experimental::bfloat16>) {
       __mma_bf16_m32n8k16_mma_f32(
           reinterpret_cast<float *>(&D.wi_marray),
           reinterpret_cast<const int32_t *>(&A.wi_marray),
@@ -653,4 +651,3 @@ void joint_matrix_mad_cuda(
 } // namespace ext
 } // __SYCL_INLINE_VER_NAMESPACE(_V1)
 } // namespace sycl
-
@@ -21,7 +21,7 @@ template <typename Group, typename T, size_t NumRows, size_t NumCols, use Use,
 inline __SYCL_ALWAYS_INLINE void
 joint_matrix_fill(Group sg,
                   joint_matrix<T, Use, NumRows, NumCols, Layout, Group> &res,
-                  const T2& v) {
+                  const T2 &v) {
   std::ignore = sg;
 #if defined(__SYCL_DEVICE_ONLY__)
 #if defined(__NVPTX__)
@@ -177,4 +177,3 @@ float round_to_tf32(float &a) {
 } // namespace ext
 } // __SYCL_INLINE_VER_NAMESPACE(_V1)
 } // namespace sycl
-
@@ -38,163 +38,137 @@ int main() {
         [=](nd_item<2> item) [[sycl::reqd_work_group_size(1, 1, 32)]] {
           sycl::sub_group sg = item.get_sub_group();
 
-          joint_matrix<float, use::accumulator, 16, 16>
-              sub_c;
-
-          joint_matrix<bfloat16, use::a, 16, 16,
-                       layout::row_major>
-              sub_a;
-
-          joint_matrix<bfloat16, use::b, 16, 16,
-                       layout::row_major>
-              sub_b;
+          joint_matrix<float, use::accumulator, 16, 16> sub_c;
+          joint_matrix<bfloat16, use::a, 16, 16, layout::row_major> sub_a;
+          joint_matrix<bfloat16, use::b, 16, 16, layout::row_major> sub_b;
 
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m16n16k16.load.c.row.stride.f32.p1f32(float addrspace(1)* %_arg_accC, i32 16)
-          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride, layout::row_major);
+          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride,
+                            layout::row_major);
           // CHECK: tail call { i32, i32, i32, i32 } @llvm.nvvm.wmma.m16n16k16.load.a.row.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_a, accA.get_pointer(), stride);
           // CHECK: tail call { i32, i32, i32, i32 } @llvm.nvvm.wmma.m16n16k16.load.b.row.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_b, accB.get_pointer(), stride);
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m16n16k16.mma.row.row.bf16(i32 %11, i32 %12, i32 %13, i32 %14, i32 %17, i32 %18, i32 %19, i32 %20, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8)
           sub_c = joint_matrix_mad(sg, sub_a, sub_b, sub_c);
           // CHECK: tail call void @llvm.nvvm.wmma.m16n16k16.store.d.row.stride.f32.p1f32(float addrspace(1)* %_arg_accD, float %22, float %23, float %24, float %25, float %26, float %27, float %28, float %29, i32 16)
-          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride, layout::row_major);
+          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride,
+                             layout::row_major);
         });
 
     cgh.parallel_for<class col_col_m16n16k16>(
         nd_range<2>({1, 32}, {1, 32}),
         [=](nd_item<2> item) [[sycl::reqd_work_group_size(1, 1, 32)]] {
           sycl::sub_group sg = item.get_sub_group();
 
-          joint_matrix<float, use::accumulator, 16, 16>
-              sub_c;
-
-          joint_matrix<bfloat16, use::a, 16, 16,
-                       layout::col_major>
-              sub_a;
-
-          joint_matrix<bfloat16, use::b, 16, 16,
-                       layout::col_major>
-              sub_b;
+          joint_matrix<float, use::accumulator, 16, 16> sub_c;
+          joint_matrix<bfloat16, use::a, 16, 16, layout::col_major> sub_a;
+          joint_matrix<bfloat16, use::b, 16, 16, layout::col_major> sub_b;
 
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m16n16k16.load.c.col.stride.f32.p1f32(float addrspace(1)* %_arg_accC, i32 16)
-          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride, layout::col_major);
+          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride,
+                            layout::col_major);
           // CHECK: tail call { i32, i32, i32, i32 } @llvm.nvvm.wmma.m16n16k16.load.a.col.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_a, accA.get_pointer(), stride);
           // CHECK: tail call { i32, i32, i32, i32 } @llvm.nvvm.wmma.m16n16k16.load.b.col.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_b, accB.get_pointer(), stride);
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m16n16k16.mma.col.col.bf16(i32 %11, i32 %12, i32 %13, i32 %14, i32 %17, i32 %18, i32 %19, i32 %20, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8)
           sub_c = joint_matrix_mad(sg, sub_a, sub_b, sub_c);
           // CHECK: tail call void @llvm.nvvm.wmma.m16n16k16.store.d.col.stride.f32.p1f32(float addrspace(1)* %_arg_accD, float %22, float %23, float %24, float %25, float %26, float %27, float %28, float %29, i32 16)
-          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride, layout::col_major);
+          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride,
+                             layout::col_major);
         });
 
     cgh.parallel_for<class row_row_m32n8k16>(
         nd_range<2>({1, 32}, {1, 32}),
         [=](nd_item<2> item) [[sycl::reqd_work_group_size(1, 1, 32)]] {
           sycl::sub_group sg = item.get_sub_group();
 
-          joint_matrix<float, use::accumulator, 32, 8>
-              sub_c;
-
-          joint_matrix<bfloat16, use::a, 32, 16,
-                       layout::row_major>
-              sub_a;
-
-          joint_matrix<bfloat16, use::b, 16, 8, layout::row_major>
-              sub_b;
+          joint_matrix<float, use::accumulator, 32, 8> sub_c;
+          joint_matrix<bfloat16, use::a, 32, 16, layout::row_major> sub_a;
+          joint_matrix<bfloat16, use::b, 16, 8, layout::row_major> sub_b;
 
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m32n8k16.load.c.row.stride.f32.p1f32(float addrspace(1)* %_arg_accC, i32 16)
-          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride, layout::row_major);
+          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride,
+                            layout::row_major);
           // CHECK: tail call { i32, i32, i32, i32, i32, i32, i32, i32 } @llvm.nvvm.wmma.m32n8k16.load.a.row.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_a, accA.get_pointer(), stride);
           // CHECK: tail call { i32, i32 } @llvm.nvvm.wmma.m32n8k16.load.b.row.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_b, accB.get_pointer(), stride);
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m32n8k16.mma.row.row.bf16(i32 %11, i32 %12, i32 %13, i32 %14, i32 %15, i32 %16, i32 %17, i32 %18, i32 %21, i32 %22, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8)
           sub_c = joint_matrix_mad(sg, sub_a, sub_b, sub_c);
           // CHECK: tail call void @llvm.nvvm.wmma.m32n8k16.store.d.row.stride.f32.p1f32(float addrspace(1)* %_arg_accD, float %24, float %25, float %26, float %27, float %28, float %29, float %30, float %31, i32 16)
-          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride, layout::row_major);
+          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride,
+                             layout::row_major);
         });
 
     cgh.parallel_for<class col_col_m32n8k16>(
         nd_range<2>({1, 32}, {1, 32}),
         [=](nd_item<2> item) [[sycl::reqd_work_group_size(1, 1, 32)]] {
           sycl::sub_group sg = item.get_sub_group();
 
-          joint_matrix<float, use::accumulator, 32, 8>
-              sub_c;
-
-          joint_matrix<bfloat16, use::a, 32, 16,
-                       layout::col_major>
-              sub_a;
-
-          joint_matrix<bfloat16, use::b, 16, 8, layout::col_major>
-              sub_b;
+          joint_matrix<float, use::accumulator, 32, 8> sub_c;
+          joint_matrix<bfloat16, use::a, 32, 16, layout::col_major> sub_a;
+          joint_matrix<bfloat16, use::b, 16, 8, layout::col_major> sub_b;
 
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m32n8k16.load.c.col.stride.f32.p1f32(float addrspace(1)* %_arg_accC, i32 16)
-          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride, layout::col_major);
+          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride,
+                            layout::col_major);
           // CHECK: tail call { i32, i32, i32, i32, i32, i32, i32, i32 } @llvm.nvvm.wmma.m32n8k16.load.a.col.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_a, accA.get_pointer(), stride);
           // CHECK: tail call { i32, i32 } @llvm.nvvm.wmma.m32n8k16.load.b.col.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_b, accB.get_pointer(), stride);
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m32n8k16.mma.col.col.bf16(i32 %11, i32 %12, i32 %13, i32 %14, i32 %15, i32 %16, i32 %17, i32 %18, i32 %21, i32 %22, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8)
           sub_c = joint_matrix_mad(sg, sub_a, sub_b, sub_c);
           // CHECK: tail call void @llvm.nvvm.wmma.m32n8k16.store.d.col.stride.f32.p1f32(float addrspace(1)* %_arg_accD, float %24, float %25, float %26, float %27, float %28, float %29, float %30, float %31, i32 16)
-          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride, layout::col_major);
+          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride,
+                             layout::col_major);
         });
 
     cgh.parallel_for<class row_row_m8n32k16>(
         nd_range<2>({1, 32}, {1, 32}),
         [=](nd_item<2> item) [[sycl::reqd_work_group_size(1, 1, 32)]] {
           sycl::sub_group sg = item.get_sub_group();
 
-          joint_matrix<float, use::accumulator, 8, 32>
-              sub_c;
-
-          joint_matrix<bfloat16, use::a, 8, 16, layout::row_major>
-              sub_a;
-
-          joint_matrix<bfloat16, use::b, 16, 32,
-                       layout::row_major>
-              sub_b;
+          joint_matrix<float, use::accumulator, 8, 32> sub_c;
+          joint_matrix<bfloat16, use::a, 8, 16, layout::row_major> sub_a;
+          joint_matrix<bfloat16, use::b, 16, 32, layout::row_major> sub_b;
 
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m8n32k16.load.c.row.stride.f32.p1f32(float addrspace(1)* %_arg_accC, i32 16)
-          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride, layout::row_major);
+          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride,
+                            layout::row_major);
           // CHECK: tail call { i32, i32 } @llvm.nvvm.wmma.m8n32k16.load.a.row.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_a, accA.get_pointer(), stride);
           // CHECK: tail call { i32, i32, i32, i32, i32, i32, i32, i32 } @llvm.nvvm.wmma.m8n32k16.load.b.row.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_b, accB.get_pointer(), stride);
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m8n32k16.mma.row.row.bf16(i32 %11, i32 %12, i32 %15, i32 %16, i32 %17, i32 %18, i32 %19, i32 %20, i32 %21, i32 %22, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8)
           sub_c = joint_matrix_mad(sg, sub_a, sub_b, sub_c);
           // CHECK: tail call void @llvm.nvvm.wmma.m8n32k16.store.d.row.stride.f32.p1f32(float addrspace(1)* %_arg_accD, float %24, float %25, float %26, float %27, float %28, float %29, float %30, float %31, i32 16)
-          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride, layout::row_major);
+          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride,
+                             layout::row_major);
         });
 
     cgh.parallel_for<class col_col_m8n32k16>(
         nd_range<2>({1, 32}, {1, 32}),
         [=](nd_item<2> item) [[sycl::reqd_work_group_size(1, 1, 32)]] {
           sycl::sub_group sg = item.get_sub_group();
 
-          joint_matrix<float, use::accumulator, 8, 32>
-              sub_c;
-
-          joint_matrix<bfloat16, use::a, 8, 16, layout::col_major>
-              sub_a;
-
-          joint_matrix<bfloat16, use::b, 16, 32,
-                       layout::col_major>
-              sub_b;
+          joint_matrix<float, use::accumulator, 8, 32> sub_c;
+joint_matrix<bfloat16, use::a, 8, 16, layout::col_major> sub_a;
+joint_matrix<bfloat16, use::b, 16, 32, layout::col_major> sub_b;
 
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m8n32k16.load.c.col.stride.f32.p1f32(float addrspace(1)* %_arg_accC, i32 16)
-          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride, layout::col_major);
+          joint_matrix_load(sg, sub_c, accC.get_pointer(), stride,
+                            layout::col_major);
           // CHECK: tail call { i32, i32 } @llvm.nvvm.wmma.m8n32k16.load.a.col.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_a, accA.get_pointer(), stride);
           // CHECK: tail call { i32, i32, i32, i32, i32, i32, i32, i32 } @llvm.nvvm.wmma.m8n32k16.load.b.col.stride.bf16.p0i32(i32* %call.ascast.i.i{{.*}}.i, i32 16)
           joint_matrix_load(sg, sub_b, accB.get_pointer(), stride);
           // CHECK: tail call { float, float, float, float, float, float, float, float } @llvm.nvvm.wmma.m8n32k16.mma.col.col.bf16(i32 %11, i32 %12, i32 %15, i32 %16, i32 %17, i32 %18, i32 %19, i32 %20, i32 %21, i32 %22, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8)
           sub_c = joint_matrix_mad(sg, sub_a, sub_b, sub_c);
           // CHECK: tail call void @llvm.nvvm.wmma.m8n32k16.store.d.col.stride.f32.p1f32(float addrspace(1)* %_arg_accD, float %24, float %25, float %26, float %27, float %28, float %29, float %30, float %31, i32 16)
-          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride, layout::col_major);
+          joint_matrix_store(sg, sub_c, accD.get_pointer(), stride,
+                             layout::col_major);
         });
   });