Add cooperative matrix type interpretation

MrSidims · igcbot · commit 888d85520409 · 2024-06-07T13:52:57.000+02:00
This patch adds support for TF32 and BF16 types.
diff --git a/IGC/Compiler/Optimizer/OpenCLPasses/JointMatrixFuncsResolutionPass/JointMatrixFuncsResolutionPass.cpp b/IGC/Compiler/Optimizer/OpenCLPasses/JointMatrixFuncsResolutionPass/JointMatrixFuncsResolutionPass.cpp
@@ -441,7 +441,9 @@ enum {
   MatrixCSignedComponentsKHR = 0x4,
   MatrixResultSignedComponentsKHR = 0x8,
   // Unused right now
-  SaturatingAccumulationKHR = 0x10
+  SaturatingAccumulationKHR = 0x10,
+  MatrixAAndBTF32ComponentsINTEL = 0x20,
+  MatrixAAndBBFloat16ComponentsINTEL = 0x40
 };
 
 namespace IGC {
@@ -1402,7 +1404,8 @@ Instruction *JointMatrixFuncsResolutionPass::ResolveStore(CallInst *CI)
     return newCall;
 }
 
-static PrecisionType getElementPrecison(const JointMatrixTypeDescription *desc, bool floatOp, bool isUnsigned) {
+static PrecisionType getJointMatrixElementPrecison(
+    const JointMatrixTypeDescription *desc, bool floatOp, bool isUnsigned) {
   const unsigned width = desc->bitWidth;
   if (floatOp && width == 16) {
       /* bf is passed as uint16_t, hf is using halfs */
@@ -1417,6 +1420,39 @@ static PrecisionType getElementPrecison(const JointMatrixTypeDescription *desc,
   return PrecisionType::PRECISION_UNUSED;
 }
 
+static PrecisionType getCoopMatrixElementPrecison(
+    const JointMatrixTypeDescription *desc, unsigned OperandsMask, unsigned Use,
+    bool floatOp) {
+    const unsigned width = desc->bitWidth;
+    if (OperandsMask & MatrixAAndBBFloat16ComponentsINTEL) {
+        IGC_ASSERT_MESSAGE(floatOp && width == 16,
+                           "Wrong OpCooperativeMatrixMulAddKHR ops for BFloat16");
+        return PrecisionType::BF16;
+    }
+    if (floatOp && width == 16) {
+        IGC_ASSERT_MESSAGE(!OperandsMask,
+                           "Wrong OpCooperativeMatrixMulAddKHR ops for FP16");
+        /* bf is passed as uint16_t, hf is using halfs */
+        return desc->isFloating ? PrecisionType::FP16 : PrecisionType::BF16;
+    }
+    if (OperandsMask & MatrixAAndBTF32ComponentsINTEL ||
+        (floatOp && width == 32)) {
+        return PrecisionType::TF32;
+    }
+    if (!floatOp && width == 8) {
+        if (OperandsMask & MatrixASignedComponentsKHR &&
+            OperandsMask & MatrixBSignedComponentsKHR) {
+            return PrecisionType::S8;
+        } else if (OperandsMask & MatrixASignedComponentsKHR) {
+            return Use == UseMatrixA ? PrecisionType::S8 : PrecisionType::U8;
+        } else if (OperandsMask & MatrixBSignedComponentsKHR) {
+            return Use == UseMatrixB ? PrecisionType::S8 : PrecisionType::U8;
+        }
+        return PrecisionType::U8;
+    }
+    return PrecisionType::PRECISION_UNUSED;
+}
+
 static const char *getElementName(PrecisionType P) {
     switch (P) {
         case PrecisionType::FP16: return "fp16_";
@@ -1499,28 +1535,20 @@ Instruction *JointMatrixFuncsResolutionPass::ResolveMad(CallInst *CI, unsigned O
 
     const bool floatMad = cDesc.isFloating;
 
-    // TODO: with Cooperative matrix extension and with further extend
-    // of a new version of Joint matrix extension we carry information of the
-    // type interpretation in MulAdd last masked parameter, so need to adjust
-    // getElementPrecison logic for the new versions
+    PrecisionType PA = PrecisionType::PRECISION_UNUSED;
+    PrecisionType PB = PrecisionType::PRECISION_UNUSED;
     if (OperationType == CooperativeOp) {
-        OperationType = floatMad ? MadOpSS : MadOpUU;
         const unsigned MulAddArgSize = CI->arg_size();
-        if (MulAddArgSize > 3) {
-            const auto OperandsMask =
-                cast<ConstantInt>(CI->getArgOperand(3))->getZExtValue();
-            if (OperandsMask & MatrixASignedComponentsKHR &&
-                OperandsMask & MatrixBSignedComponentsKHR) {
-                OperationType = MadOpSS;
-            } else if (OperandsMask & MatrixASignedComponentsKHR) {
-                OperationType = MadOpSU;
-            } else if (OperandsMask & MatrixBSignedComponentsKHR) {
-                OperationType = MadOpUS;
-            }
-        }
+        const auto OperandsMask = MulAddArgSize > 3
+            ? cast<ConstantInt>(CI->getArgOperand(3))->getZExtValue() : 0;
+        PA = getCoopMatrixElementPrecison(&aDesc, OperandsMask, UseMatrixA, floatMad);
+        PB = getCoopMatrixElementPrecison(&bDesc, OperandsMask, UseMatrixB, floatMad);
+    } else {
+        PA = getJointMatrixElementPrecison(&aDesc, floatMad,
+                                           isOperandUnsigned(OperationType, 0));
+        PB = getJointMatrixElementPrecison(&bDesc, floatMad,
+                                           isOperandUnsigned(OperationType, 1));
     }
-    PrecisionType PA = getElementPrecison(&aDesc, floatMad, isOperandUnsigned(OperationType, 0));
-    PrecisionType PB = getElementPrecison(&bDesc, floatMad, isOperandUnsigned(OperationType, 1));
 
     IGC_ASSERT_MESSAGE(PA != PrecisionType::PRECISION_UNUSED, "Invalid matrix A element type.");
     IGC_ASSERT_MESSAGE(PB != PrecisionType::PRECISION_UNUSED, "Invalid matrix B element type.");
diff --git a/IGC/Compiler/tests/JointMatrixFuncsResolutionPass/cooperative-mad-builtin-pvc.ll b/IGC/Compiler/tests/JointMatrixFuncsResolutionPass/cooperative-mad-builtin-pvc.ll
@@ -38,8 +38,8 @@
 
 define spir_kernel void @mad_builtin_signed(i8 addrspace(1)* %src, i64 %stride, i32 addrspace(1)* %dst) {
   %1 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructi(i32 0)
-  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructi(i8 1)
-  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructi(i8 -1)
+  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructc(i8 1)
+  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructc(i8 -1)
   %4 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__char_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__char_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2i(%spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* %2, %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* %3, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %1, i32 3)
   call spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2ili(i32 addrspace(1)* %dst, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %4, i32 0, i64 %stride, i32 3)
   ret void
@@ -68,8 +68,8 @@ define spir_kernel void @mad_builtin_signed(i8 addrspace(1)* %src, i64 %stride,
 
 define spir_kernel void @mad_builtin_unsigned(i8 addrspace(1)* %src, i64 %stride, i32 addrspace(1)* %dst) {
   %1 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructi(i32 0)
-  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructi(i8 1)
-  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructi(i8 -1)
+  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructc(i8 1)
+  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructc(i8 -1)
   %4 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__char_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__char_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2(%spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* %2, %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* %3, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %1)
   call spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2ili(i32 addrspace(1)* %dst, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %4, i32 0, i64 %stride, i32 3)
   ret void
@@ -98,8 +98,8 @@ define spir_kernel void @mad_builtin_unsigned(i8 addrspace(1)* %src, i64 %stride
 
 define spir_kernel void @mad_builtin_unsigned_2(i8 addrspace(1)* %src, i64 %stride, i32 addrspace(1)* %dst) {
   %1 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructi(i32 0)
-  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructi(i8 1)
-  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructi(i8 -1)
+  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructc(i8 1)
+  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructc(i8 -1)
   %4 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__char_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__char_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2i(%spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* %2, %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* %3, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %1, i32 0)
   call spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2ili(i32 addrspace(1)* %dst, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %4, i32 0, i64 %stride, i32 3)
   ret void
@@ -128,8 +128,8 @@ define spir_kernel void @mad_builtin_unsigned_2(i8 addrspace(1)* %src, i64 %stri
 
 define spir_kernel void @mad_builtin_unsigned_signed(i8 addrspace(1)* %src, i64 %stride, i32 addrspace(1)* %dst) {
   %1 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructi(i32 0)
-  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructi(i8 1)
-  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructi(i8 -1)
+  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructc(i8 1)
+  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructc(i8 -1)
   %4 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__char_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__char_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2i(%spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* %2, %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* %3, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %1, i32 2)
   call spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2ili(i32 addrspace(1)* %dst, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %4, i32 0, i64 %stride, i32 3)
   ret void
@@ -158,18 +158,18 @@ define spir_kernel void @mad_builtin_unsigned_signed(i8 addrspace(1)* %src, i64
 
 define spir_kernel void @mad_builtin_signed_unsigned(i8 addrspace(1)* %src, i64 %stride, i32 addrspace(1)* %dst) {
   %1 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructi(i32 0)
-  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructi(i8 1)
-  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructi(i8 -1)
+  %2 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructc(i8 1)
+  %3 = call spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructc(i8 -1)
   %4 = call spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__char_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__char_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2i(%spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* %2, %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* %3, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %1, i32 1)
   call spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2ili(i32 addrspace(1)* %dst, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* %4, i32 0, i64 %stride, i32 3)
   ret void
 }
 
 declare spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructi(i32)
 
-declare spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructi(i8)
+declare spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructc(i8)
 
-declare spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructi(i8)
+declare spir_func %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructc(i8)
 
 declare spir_func %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__char_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__char_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__int_3_16_16_2(%spirv.CooperativeMatrixKHR._char_3_16_16_0 addrspace(1)*, %spirv.CooperativeMatrixKHR._char_3_16_16_1 addrspace(1)*, %spirv.CooperativeMatrixKHR._int_3_16_16_2 addrspace(1)*)
 
diff --git a/IGC/Compiler/tests/JointMatrixFuncsResolutionPass/cooperative-matrix-bfloat16.ll b/IGC/Compiler/tests/JointMatrixFuncsResolutionPass/cooperative-matrix-bfloat16.ll
@@ -0,0 +1,62 @@
+;=========================== begin_copyright_notice ============================
+;
+; Copyright (C) 2024 Intel Corporation
+;
+; SPDX-License-Identifier: MIT
+;
+;============================ end_copyright_notice =============================
+;
+; RUN: igc_opt %s -S -o - -igc-joint-matrix-resolution --platformpvc 2>&1 | FileCheck %s
+; ------------------------------------------------
+; JointMatrixFuncsResolutionPass
+; ------------------------------------------------
+
+%spirv.CooperativeMatrixKHR._float_3_16_16_2 = type opaque
+%spirv.CooperativeMatrixKHR._short_3_16_16_0 = type opaque
+%spirv.CooperativeMatrixKHR._short_3_16_16_1 = type opaque
+
+; CHECK-LABEL: @mad_builtin_bfloat16(
+; CHECK-NEXT:    [[TMP1:%.*]] = alloca <16 x float>
+; CHECK-NEXT:    [[TMP2:%.*]] = alloca <16 x i16>
+; CHECK-NEXT:    [[TMP3:%.*]] = alloca <8 x i32>
+; CHECK-NEXT:    [[TMP4:%.*]] = alloca <16 x float>
+; CHECK-NEXT:    [[TMP5:%.*]] = alloca <16 x float>
+; CHECK-NEXT:    store <16 x i16>{{.*}} <16 x i16>* [[TMP2]]
+; CHECK-NEXT:    store <8 x i32>{{.*}} <8 x i32>* [[TMP3]]
+; CHECK-NEXT:    store <16 x float> zeroinitializer, <16 x float>* [[TMP4]]
+; CHECK-NEXT:    [[TMP6:%.*]] = bitcast <16 x i16>* [[TMP2]] to i8*
+; CHECK-NEXT:    [[TMP7:%.*]] = bitcast <8 x i32>* [[TMP3]] to i8*
+; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <16 x float>* [[TMP4]] to i8*
+; CHECK-NEXT:    [[TMP9:%.*]] = bitcast <16 x float>* [[TMP5]] to i8*
+; CHECK-NEXT:    call void @__builtin_spriv_OpJointMatrixMadINTEL_16x16x16_bf16_bf16_fp32(i8* [[TMP6]], i8* [[TMP7]], i8* [[TMP8]], i8* [[TMP9]])
+; CHECK-NEXT:    [[TMP10:%.*]] = load <16 x float>, <16 x float>* [[TMP5]]
+; CHECK-NEXT:    store <16 x float> [[TMP10]], <16 x float>* [[TMP1]]
+; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <16 x float>* [[TMP1]] to i8*
+; CHECK-NEXT:    call void @__builtin_spriv_OpJointMatrixStoreINTEL_Accumulator_RowMajor_SG16_16x16_i32_16_global_pi64_v8i8(float addrspace(1)* [[DST:%.*]], i8* [[TMP11]], i64 [[STRIDE:%.*]])
+; CHECK-NEXT:    ret void
+; CHECK-NOT: error:
+
+define spir_kernel void @mad_builtin_bfloat16(i8 addrspace(1)* %src, i64 %stride, float addrspace(1)* %dst) {
+  %1 = call spir_func %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructf(float 0.0)
+  %2 = call spir_func %spirv.CooperativeMatrixKHR._short_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructs(i16 1)
+  %3 = call spir_func %spirv.CooperativeMatrixKHR._short_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructs(i16 -1)
+  %4 = call spir_func %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__short_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__short_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__float_3_16_16_2i(%spirv.CooperativeMatrixKHR._short_3_16_16_0 addrspace(1)* %2, %spirv.CooperativeMatrixKHR._short_3_16_16_1 addrspace(1)* %3, %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)* %1, i32 64)
+  call spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__float_3_16_16_2ili(float addrspace(1)* %dst, %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)* %4, i32 0, i64 %stride, i32 3)
+  ret void
+}
+
+declare spir_func %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)* @_Z26__spirv_CompositeConstructf(float)
+
+declare spir_func %spirv.CooperativeMatrixKHR._short_3_16_16_0 addrspace(1)* @_Z76__spirv_CompositeConstructs(i16)
+
+declare spir_func %spirv.CooperativeMatrixKHR._short_3_16_16_1 addrspace(1)* @_Z80__spirv_CompositeConstructs(i16)
+
+declare spir_func %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)* @_Z34__spirv_CooperativeMatrixMulAddKHRPU3AS141__spirv_CooperativeMatrixKHR__short_3_16_16_0PU3AS142__spirv_CooperativeMatrixKHR__short_3_16_16_1PU3AS140__spirv_CooperativeMatrixKHR__float_3_16_16_2i(%spirv.CooperativeMatrixKHR._short_3_16_16_0 addrspace(1)*, %spirv.CooperativeMatrixKHR._short_3_16_16_1 addrspace(1)*, %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)*, i32)
+
+declare spir_func void @_Z33__spirv_CooperativeMatrixStoreKHRPU3AS1iPU3AS140__spirv_CooperativeMatrixKHR__float_3_16_16_2ili(float addrspace(1)*, %spirv.CooperativeMatrixKHR._float_3_16_16_2 addrspace(1)*, i32, i64, i32)
+
+!igc.functions = !{!0}
+!0 = !{void (i8 addrspace(1)*, i64, float addrspace(1)*)* @mad_builtin_bfloat16, !1}
+!1 = !{!2, !3}
+!2 = !{!"function_type", i32 0}
+!3 = !{!"sub_group_size", i32 16}
diff --git a/IGC/Compiler/tests/JointMatrixFuncsResolutionPass/cooperative-matrix-half-mul-fp32.ll b/IGC/Compiler/tests/JointMatrixFuncsResolutionPass/cooperative-matrix-half-mul-fp32.ll