[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd #108238

krzysz00 · 2024-09-11T15:25:36Z

Extend the lowering of atomic.fadd to support the v2f16 variant avaliable on some AMDGPU chips.

Extend the lowering of atomic.fadd to support the v2f16 variant avaliable on some AMDGPU chips. Co-authored-by: Giuseppe Rossini <[email protected]>

llvmbot · 2024-09-11T15:26:08Z

@llvm/pr-subscribers-backend-amdgpu
@llvm/pr-subscribers-mlir-gpu
@llvm/pr-subscribers-mlir

@llvm/pr-subscribers-mlir-amdgpu

Author: Krzysztof Drewniak (krzysz00)

Changes

Extend the lowering of atomic.fadd to support the v2f16 variant avaliable on some AMDGPU chips.

Full diff: https://github.com/llvm/llvm-project/pull/108238.diff

3 Files Affected:

(modified) mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td (+2-2)
(modified) mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp (+5-2)
(modified) mlir/test/Conversion/AMDGPUToROCDL/amdgpu-to-rocdl.mlir (+11)

diff --git a/mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td b/mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td
index 8a1ef94c853a58..64db4448bc2f2b 100644
--- a/mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td
+++ b/mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td
@@ -253,8 +253,8 @@ def AMDGPU_RawBufferAtomicCmpswapOp :
 // Raw buffer atomic floating point add
 def AMDGPU_RawBufferAtomicFaddOp :
     AMDGPU_Op<"raw_buffer_atomic_fadd", [AllElementTypesMatch<["value", "memref"]>,
-      AttrSizedOperandSegments]>,
-    Arguments<(ins F32:$value,
+    AttrSizedOperandSegments]>,
+    Arguments<(ins AnyTypeOf<[F32, VectorOfLengthAndType<[2], [F16]>]>:$value,
                    Arg<AnyMemRef, "buffer to operate on", [MemRead, MemWrite]>:$memref,
                    Variadic<I32>:$indices,
                    DefaultValuedAttr<BoolAttr, "true">:$boundsCheck,
diff --git a/mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp b/mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp
index 96b433294d258a..fc5dd7c5602129 100644
--- a/mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp
+++ b/mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp
@@ -115,15 +115,18 @@ struct RawBufferOpLowering : public ConvertOpToLLVMPattern<GpuOp> {
             rewriter.getIntegerType(floatType.getWidth()));
     }
     if (auto dataVector = dyn_cast<VectorType>(wantedDataType)) {
+      uint32_t vecLen = dataVector.getNumElements();
       uint32_t elemBits = dataVector.getElementTypeBitWidth();
-      uint32_t totalBits = elemBits * dataVector.getNumElements();
+      uint32_t totalBits = elemBits * vecLen;
+      bool usePackedFp16 =
+          dyn_cast_or_null<RawBufferAtomicFaddOp>(*gpuOp) && vecLen == 2;
       if (totalBits > maxVectorOpWidth)
         return gpuOp.emitOpError(
             "Total width of loads or stores must be no more than " +
             Twine(maxVectorOpWidth) + " bits, but we call for " +
             Twine(totalBits) +
             " bits. This should've been caught in validation");
-      if (elemBits < 32) {
+      else if (!usePackedFp16 && elemBits < 32) {
         if (totalBits > 32) {
           if (totalBits % 32 != 0)
             return gpuOp.emitOpError("Load or store of more than 32-bits that "
diff --git a/mlir/test/Conversion/AMDGPUToROCDL/amdgpu-to-rocdl.mlir b/mlir/test/Conversion/AMDGPUToROCDL/amdgpu-to-rocdl.mlir
index 717667c22af800..cc51a8c40942f9 100644
--- a/mlir/test/Conversion/AMDGPUToROCDL/amdgpu-to-rocdl.mlir
+++ b/mlir/test/Conversion/AMDGPUToROCDL/amdgpu-to-rocdl.mlir
@@ -151,6 +151,17 @@ func.func @gpu_gcn_raw_buffer_atomic_fadd_f32(%value: f32, %buf: memref<64xf32>,
   func.return
 }
 
+// CHECK-LABEL: func @gpu_gcn_raw_buffer_atomic_fadd_v2f16
+func.func @gpu_gcn_raw_buffer_atomic_fadd_v2f16(%value: vector<2xf16>, %buf: memref<64xf16>, %idx: i32) {
+  // CHECK: %[[numRecords:.*]] = llvm.mlir.constant(128 : i32)
+  // GFX9:  %[[flags:.*]] = llvm.mlir.constant(159744 : i32)
+  // RDNA:  %[[flags:.*]] = llvm.mlir.constant(822243328 : i32)
+  // CHECK: %[[resource:.*]] = rocdl.make.buffer.rsrc %{{.*}}, %{{.*}}, %[[numRecords]], %[[flags]]
+  // CHECK: rocdl.raw.ptr.buffer.atomic.fadd %{{.*}}, %[[resource]], %{{.*}}, %{{.*}}, %{{.*}} : vector<2xf16>
+  amdgpu.raw_buffer_atomic_fadd {boundsCheck = true} %value -> %buf[%idx] : vector<2xf16> -> memref<64xf16>, i32
+  func.return
+}
+
 // CHECK-LABEL: func @gpu_gcn_raw_buffer_atomic_fmax_f32
 func.func @gpu_gcn_raw_buffer_atomic_fmax_f32(%value: f32, %buf: memref<64xf32>, %idx: i32) {
   // CHECK: %[[numRecords:.*]] = llvm.mlir.constant(256 : i32)

arsenm

Might as well handle v2bf16 too

krzysz00 · 2024-09-11T15:36:20Z

Oh, that's a thing now? Sure!

krzysz00 · 2024-09-11T15:41:34Z

Update: bf16 support would need me to back out the "bf16 is i16" change that still lives in MLIR from back when bfloat wasn't implemented on AMDGPU

kuhar

Did this land without an approval?

kuhar · 2024-09-11T17:23:52Z

mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp

      if (totalBits > maxVectorOpWidth)
        return gpuOp.emitOpError(
            "Total width of loads or stores must be no more than " +
            Twine(maxVectorOpWidth) + " bits, but we call for " +
            Twine(totalBits) +
            " bits. This should've been caught in validation");
-      if (elemBits < 32) {
+      else if (!usePackedFp16 && elemBits < 32) {


nit: no else after return: https://llvm.org/docs/CodingStandards.html#don-t-use-else-after-a-return

... I thought I saw an approval, reverting, thanks

…fadd (llvm#108238)" This reverts commit 0d48d4d.

…fadd (#108238)" (#108256) This reverts commit 0d48d4d. Mistakenly landed without approval

kuhar · 2024-09-11T17:42:33Z

mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp

-      uint32_t totalBits = elemBits * dataVector.getNumElements();
+      uint32_t totalBits = elemBits * vecLen;
+      bool usePackedFp16 =
+          dyn_cast_or_null<RawBufferAtomicFaddOp>(*gpuOp) && vecLen == 2;


Use isa_and_present

Extend the lowering of atomic.fadd to support the v2f16 variant avaliable on some AMDGPU chips. Re-lands llvm#108238 (and addresses review comments from there) Co-authored-by: Giuseppe Rossini <[email protected]>

…08286) Extend the lowering of atomic.fadd to support the v2f16 variant avaliable on some AMDGPU chips. Re-lands #108238 (and addresses review comments from there) Co-authored-by: Giuseppe Rossini <[email protected]>

[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd

dc295e4

Extend the lowering of atomic.fadd to support the v2f16 variant avaliable on some AMDGPU chips. Co-authored-by: Giuseppe Rossini <[email protected]>

llvmbot added backend:AMDGPU mlir:gpu mlir mlir:amdgpu labels Sep 11, 2024

arsenm reviewed Sep 11, 2024

View reviewed changes

krzysz00 merged commit 0d48d4d into llvm:main Sep 11, 2024
13 checks passed

kuhar reviewed Sep 11, 2024

View reviewed changes

krzysz00 added a commit to krzysz00/llvm-project that referenced this pull request Sep 11, 2024

Revert "[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic …

54ca191

…fadd (llvm#108238)" This reverts commit 0d48d4d.

krzysz00 added a commit that referenced this pull request Sep 11, 2024

Revert "[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic …

cb03126

…fadd (#108238)" (#108256) This reverts commit 0d48d4d. Mistakenly landed without approval

kuhar reviewed Sep 11, 2024

View reviewed changes

krzysz00 mentioned this pull request Sep 11, 2024

[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd #108286

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd #108238

[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd #108238

Uh oh!

krzysz00 commented Sep 11, 2024

Uh oh!

llvmbot commented Sep 11, 2024 •

edited

Loading

Uh oh!

arsenm left a comment

Uh oh!

krzysz00 commented Sep 11, 2024

Uh oh!

krzysz00 commented Sep 11, 2024

Uh oh!

Uh oh!

kuhar left a comment

Uh oh!

kuhar Sep 11, 2024

Uh oh!

krzysz00 Sep 11, 2024

Uh oh!

kuhar Sep 11, 2024

Uh oh!

Uh oh!

[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd #108238

[mlir][AMDGPU] Support vector<2xf16> inputs to buffer atomic fadd #108238

Uh oh!

Conversation

krzysz00 commented Sep 11, 2024

Uh oh!

llvmbot commented Sep 11, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

arsenm left a comment

Choose a reason for hiding this comment

Uh oh!

krzysz00 commented Sep 11, 2024

Uh oh!

krzysz00 commented Sep 11, 2024

Uh oh!

Uh oh!

kuhar left a comment

Choose a reason for hiding this comment

Uh oh!

kuhar Sep 11, 2024

Choose a reason for hiding this comment

Uh oh!

krzysz00 Sep 11, 2024

Choose a reason for hiding this comment

Uh oh!

kuhar Sep 11, 2024

Choose a reason for hiding this comment

Uh oh!

Uh oh!

llvmbot commented Sep 11, 2024 •

edited

Loading