uplift pack over broadcast

yifeizh2 · yifeizh2 · commit d6d6e7e7643e · 2024-07-29T21:50:08.000-07:00
diff --git a/lib/gc/Transforms/PropagateLayout.cpp b/lib/gc/Transforms/PropagateLayout.cpp
@@ -19,6 +19,7 @@
 #include "mlir/IR/PatternMatch.h"
 #include "mlir/Transforms/DialectConversion.h"
 #include "mlir/Transforms/GreedyPatternRewriteDriver.h"
+#include "llvm/ADT/DenseMap.h"
 
 #include "gc/Dialect/Linalgx/LinalgxDialect.h"
 #include "gc/Dialect/Linalgx/LinalgxOps.h"
@@ -495,6 +496,83 @@ struct PackVNNI<linalg::GenericOp>
   }
 };
 
+/*
+Match patterns like broadcast + pack, uplift pack
+*/
+struct UpliftPackOverBroadcast : public OpRewritePattern<tensor::PackOp> {
+  UpliftPackOverBroadcast(MLIRContext *context, PatternBenefit benefit = 1)
+      : OpRewritePattern<tensor::PackOp>(context, benefit) {}
+  LogicalResult matchAndRewrite(tensor::PackOp pack,
+                                PatternRewriter &rewriter) const override {
+    auto broadcastOp = pack.getSource().getDefiningOp<linalg::BroadcastOp>();
+    if (!broadcastOp || !broadcastOp.getResult()[0].hasOneUse()) {
+      return failure();
+    }
+    SmallVector<int64_t> innerTileSizes = pack.getStaticTiles();
+    SmallVector<int64_t> innerDimsPos(pack.getInnerDimsPos());
+    SmallVector<int64_t> outerDimsPerm(pack.getOuterDimsPerm());
+    int64_t rank =
+        cast<ShapedType>(pack.getSource().getType()).getShape().size();
+    if (outerDimsPerm.empty()) {
+      outerDimsPerm.resize(rank);
+      std::iota(outerDimsPerm.begin(), outerDimsPerm.end(), 0);
+    }
+    ArrayRef<int64_t> broadcastAxis = broadcastOp.getDimensions();
+    SmallVector<int64_t> newInnerDimsPos, newOuterDimsPerm, packedBroadcastAxis;
+    SmallVector<OpFoldResult> newInnerTileSizes;
+    llvm::SmallDenseMap<int64_t, int64_t> axisMapping;
+    int64_t axisCounter = 0;
+    for (int64_t axis = 0; axis < rank; ++axis) {
+      if (std::find(broadcastAxis.begin(), broadcastAxis.end(), axis) ==
+          broadcastAxis.end()) {
+        // if the axis is not broadcasted, keep it
+        axisMapping[axis] = axisCounter++;
+      }
+    }
+    // update broadcast dims
+    for (auto [index, axis] : llvm::enumerate(outerDimsPerm)) {
+      if (std::find(broadcastAxis.begin(), broadcastAxis.end(), axis) !=
+          broadcastAxis.end()) {
+        packedBroadcastAxis.push_back(index);
+      }
+    }
+    for (auto [index, axis] : llvm::enumerate(innerDimsPos)) {
+      if (std::find(broadcastAxis.begin(), broadcastAxis.end(), axis) !=
+          broadcastAxis.end()) {
+        packedBroadcastAxis.push_back(index + rank);
+      }
+    }
+    // update packing axis
+    for (auto [index, axis] : llvm::enumerate(outerDimsPerm)) {
+      if (std::find(broadcastAxis.begin(), broadcastAxis.end(), axis) ==
+          broadcastAxis.end()) {
+        newOuterDimsPerm.push_back(axisMapping[axis]);
+      }
+    }
+    for (auto [index, axis] : llvm::enumerate(innerDimsPos)) {
+      if (std::find(broadcastAxis.begin(), broadcastAxis.end(), axis) ==
+          broadcastAxis.end()) {
+        newInnerDimsPos.push_back(axisMapping[axis]);
+        newInnerTileSizes.push_back(
+            rewriter.getIndexAttr(innerTileSizes[index]));
+      }
+    }
+    // replace ops
+    auto loc = broadcastOp.getLoc();
+    auto dest = tensor::PackOp::createDestinationTensor(
+        rewriter, loc, broadcastOp.getDpsInputs()[0], newInnerTileSizes,
+        newInnerDimsPos, newOuterDimsPerm);
+    Value packedSource = rewriter.create<tensor::PackOp>(
+        loc, broadcastOp.getDpsInputs()[0], dest, newInnerDimsPos,
+        newInnerTileSizes,
+        /*padding=*/std::nullopt, newOuterDimsPerm);
+    auto newBroadcastOp = rewriter.create<linalg::BroadcastOp>(
+        loc, packedSource, pack.getDest(), packedBroadcastAxis);
+    rewriter.replaceOp(pack, newBroadcastOp.getResults());
+    return success();
+  }
+};
+
 void PropagateLayoutOnNamedOps::runOnOperation() {
   MLIRContext *ctx = &getContext();
   mlir::Operation *graph = getOperation();
@@ -541,6 +619,12 @@ void PropagateLayoutOnNamedOps::runOnOperation() {
   };
   if (failed(namedOpLayoutPropagation(ctx, graph, layoutControlFn)))
     return signalPassFailure();
+
+  // stage4: uplift pack through broadcast
+  RewritePatternSet upliftPatterns(&getContext());
+  upliftPatterns.add<UpliftPackOverBroadcast>(ctx);
+  if (failed(applyPatternsAndFoldGreedily(graph, std::move(upliftPatterns))))
+    return signalPassFailure();
 }
 
 } // namespace gc
diff --git a/test/mlir/test/gc/Transforms/named-op-layout-propagation.mlir b/test/mlir/test/gc/Transforms/named-op-layout-propagation.mlir
@@ -1,58 +1,12 @@
 // RUN: gc-opt %s --split-input-file --propagate-layout-on-named-ops | FileCheck %s
 
-// CHECK-LABEL: @single_matmul_f32
-func.func @single_matmul_f32(%arg0: tensor<128x64xf32>, %arg1: tensor<64x32xf32>) -> tensor<128x32xf32> {
+// CHECK-LABEL: @matmul_add
+func.func @matmul_add(%arg0: tensor<128x64xf32>, %arg1: tensor<64x32xf32>, %arg2: tensor<32xf32>) -> tensor<128x32xf32> {
   %cst = arith.constant 0.000000e+00 : f32
   %0 = tensor.empty() : tensor<128x32xf32>
   %1 = linalg.fill ins(%cst : f32) outs(%0 : tensor<128x32xf32>) -> tensor<128x32xf32>
-  %2 = linalg.matmul ins(%arg0, %arg1 : tensor<128x64xf32>, tensor<64x32xf32>) outs(%0 : tensor<128x32xf32>) -> tensor<128x32xf32>
-  return %2 : tensor<128x32xf32>
+  %2 = linalg.matmul ins(%arg0, %arg1 : tensor<128x64xf32>, tensor<64x32xf32>) outs(%1 : tensor<128x32xf32>) -> tensor<128x32xf32>
+  %3 = linalg.broadcast ins(%arg2 : tensor<32xf32>) outs(%0 : tensor<128x32xf32>) dimensions = [0]
+  %4 = linalg.add ins(%2, %3 : tensor<128x32xf32>, tensor<128x32xf32>) outs(%0 : tensor<128x32xf32>) -> tensor<128x32xf32>
+  return %4 : tensor<128x32xf32>
 }
-// CHECK-COUNT-3: tensor.pack
-// CHECK-COUNT-1: linalg.generic
-// CHECK-COUNT-1: tensor.unpack
-
-// CHECK-LABEL: @single_matmul_bf16
-func.func @single_matmul_bf16(%arg0: tensor<128x64xbf16>, %arg1: tensor<64x32xbf16>) -> tensor<128x32xbf16> {
-  %cst = arith.constant 0.000000e+00 : bf16
-  %0 = tensor.empty() : tensor<128x32xbf16>
-  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<128x32xbf16>) -> tensor<128x32xbf16>
-  %2 = linalg.matmul ins(%arg0, %arg1 : tensor<128x64xbf16>, tensor<64x32xbf16>) outs(%0 : tensor<128x32xbf16>) -> tensor<128x32xbf16>
-  return %2 : tensor<128x32xbf16>
-}
-// CHECK-COUNT-4: tensor.pack
-// CHECK-COUNT-1: linalgx.mm4d_vnni
-// CHECK-COUNT-1: tensor.unpack
-
-// CHECK-LABEL: @single_batch_matmul_bf16
-func.func @single_batch_matmul_bf16(%arg0: tensor<64x128x64xbf16>, %arg1: tensor<64x64x32xbf16>) -> tensor<64x128x32xbf16> {
-  %cst = arith.constant 0.000000e+00 : bf16
-  %0 = tensor.empty() : tensor<64x128x32xbf16>
-  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<64x128x32xbf16>) -> tensor<64x128x32xbf16>
-  %2 = linalg.batch_matmul ins(%arg0, %arg1 : tensor<64x128x64xbf16>, tensor<64x64x32xbf16>) outs(%0 : tensor<64x128x32xbf16>) -> tensor<64x128x32xbf16>
-  return %2 : tensor<64x128x32xbf16>
-}
-// CHECK-COUNT-4: tensor.pack
-// CHECK-COUNT-1: linalg.generic
-// CHECK-COUNT-1: tensor.unpack
-
-func.func @pack_vnni_mmt4d(%arg0: tensor<4x2x32x32xbf16>, %arg1: tensor<1x2x32x32xbf16>) -> tensor<4x1x32x32xbf16> {
-  %cst = arith.constant 0.000000e+00 : bf16
-  %0 = tensor.empty() : tensor<4x1x32x32xbf16>
-  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<4x1x32x32xbf16>) -> tensor<4x1x32x32xbf16>
-  %2 = linalg.mmt4d ins(%arg0, %arg1 : tensor<4x2x32x32xbf16>, tensor<1x2x32x32xbf16>) outs(%0 : tensor<4x1x32x32xbf16>) -> tensor<4x1x32x32xbf16>
-  return %2 : tensor<4x1x32x32xbf16>
-}
-// CHECK-COUNT-1: tensor.pack
-// CHECK-COUNT-1: linalgx.mm4d_vnni
-
-func.func @pack_vnni_batchmmt4d(%arg0: tensor<4x4x2x32x32xbf16>, %arg1: tensor<4x1x2x32x32xbf16>) -> tensor<4x4x1x32x32xbf16> {
-  %cst = arith.constant 0.000000e+00 : bf16
-  %0 = tensor.empty() : tensor<4x4x1x32x32xbf16>
-  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<4x4x1x32x32xbf16>) -> tensor<4x4x1x32x32xbf16>
-  %2 = linalg.batch_mmt4d ins(%arg0, %arg1 : tensor<4x4x2x32x32xbf16>, tensor<4x1x2x32x32xbf16>) outs(%0 : tensor<4x4x1x32x32xbf16>) -> tensor<4x4x1x32x32xbf16>
-  return %2 : tensor<4x4x1x32x32xbf16>
-}
-// CHECK-COUNT-1: tensor.pack
-// CHECK-COUNT-1: linalg.generic
-
diff --git a/test/mlir/test/gc/Transforms/pack-matmul.mlir b/test/mlir/test/gc/Transforms/pack-matmul.mlir
@@ -0,0 +1,58 @@
+// RUN: gc-opt %s --split-input-file --propagate-layout-on-named-ops | FileCheck %s
+
+// CHECK-LABEL: @single_matmul_f32
+func.func @single_matmul_f32(%arg0: tensor<128x64xf32>, %arg1: tensor<64x32xf32>) -> tensor<128x32xf32> {
+  %cst = arith.constant 0.000000e+00 : f32
+  %0 = tensor.empty() : tensor<128x32xf32>
+  %1 = linalg.fill ins(%cst : f32) outs(%0 : tensor<128x32xf32>) -> tensor<128x32xf32>
+  %2 = linalg.matmul ins(%arg0, %arg1 : tensor<128x64xf32>, tensor<64x32xf32>) outs(%0 : tensor<128x32xf32>) -> tensor<128x32xf32>
+  return %2 : tensor<128x32xf32>
+}
+// CHECK-COUNT-3: tensor.pack
+// CHECK-COUNT-1: linalg.generic
+// CHECK-COUNT-1: tensor.unpack
+
+// CHECK-LABEL: @single_matmul_bf16
+func.func @single_matmul_bf16(%arg0: tensor<128x64xbf16>, %arg1: tensor<64x32xbf16>) -> tensor<128x32xbf16> {
+  %cst = arith.constant 0.000000e+00 : bf16
+  %0 = tensor.empty() : tensor<128x32xbf16>
+  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<128x32xbf16>) -> tensor<128x32xbf16>
+  %2 = linalg.matmul ins(%arg0, %arg1 : tensor<128x64xbf16>, tensor<64x32xbf16>) outs(%0 : tensor<128x32xbf16>) -> tensor<128x32xbf16>
+  return %2 : tensor<128x32xbf16>
+}
+// CHECK-COUNT-4: tensor.pack
+// CHECK-COUNT-1: linalgx.mm4d_vnni
+// CHECK-COUNT-1: tensor.unpack
+
+// CHECK-LABEL: @single_batch_matmul_bf16
+func.func @single_batch_matmul_bf16(%arg0: tensor<64x128x64xbf16>, %arg1: tensor<64x64x32xbf16>) -> tensor<64x128x32xbf16> {
+  %cst = arith.constant 0.000000e+00 : bf16
+  %0 = tensor.empty() : tensor<64x128x32xbf16>
+  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<64x128x32xbf16>) -> tensor<64x128x32xbf16>
+  %2 = linalg.batch_matmul ins(%arg0, %arg1 : tensor<64x128x64xbf16>, tensor<64x64x32xbf16>) outs(%0 : tensor<64x128x32xbf16>) -> tensor<64x128x32xbf16>
+  return %2 : tensor<64x128x32xbf16>
+}
+// CHECK-COUNT-4: tensor.pack
+// CHECK-COUNT-1: linalg.generic
+// CHECK-COUNT-1: tensor.unpack
+
+func.func @pack_vnni_mmt4d(%arg0: tensor<4x2x32x32xbf16>, %arg1: tensor<1x2x32x32xbf16>) -> tensor<4x1x32x32xbf16> {
+  %cst = arith.constant 0.000000e+00 : bf16
+  %0 = tensor.empty() : tensor<4x1x32x32xbf16>
+  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<4x1x32x32xbf16>) -> tensor<4x1x32x32xbf16>
+  %2 = linalg.mmt4d ins(%arg0, %arg1 : tensor<4x2x32x32xbf16>, tensor<1x2x32x32xbf16>) outs(%0 : tensor<4x1x32x32xbf16>) -> tensor<4x1x32x32xbf16>
+  return %2 : tensor<4x1x32x32xbf16>
+}
+// CHECK-COUNT-1: tensor.pack
+// CHECK-COUNT-1: linalgx.mm4d_vnni
+
+func.func @pack_vnni_batchmmt4d(%arg0: tensor<4x4x2x32x32xbf16>, %arg1: tensor<4x1x2x32x32xbf16>) -> tensor<4x4x1x32x32xbf16> {
+  %cst = arith.constant 0.000000e+00 : bf16
+  %0 = tensor.empty() : tensor<4x4x1x32x32xbf16>
+  %1 = linalg.fill ins(%cst : bf16) outs(%0 : tensor<4x4x1x32x32xbf16>) -> tensor<4x4x1x32x32xbf16>
+  %2 = linalg.batch_mmt4d ins(%arg0, %arg1 : tensor<4x4x2x32x32xbf16>, tensor<4x1x2x32x32xbf16>) outs(%0 : tensor<4x4x1x32x32xbf16>) -> tensor<4x4x1x32x32xbf16>
+  return %2 : tensor<4x4x1x32x32xbf16>
+}
+// CHECK-COUNT-1: tensor.pack
+// CHECK-COUNT-1: linalg.generic
+