[RISCV] Add GPR bypasses for most scalar integer instructions to the SiFive7 scheduler model.

topperc · topperc · commit 8089bd4bcfea · 2023-06-25T00:47:56.000-07:00
SiFive7's scalar execution consists of 4 stages AG, M1, M2, WB. Most simple arithmetic and branch instructions can execute in either AG or M2. If the operands are ready, the instruction will execute in the AG stage. Otherwise, it executes in the M2 stage. Everything is fully bypassed, so dependent instructions should only see 1 cycle latency. This patch adds ReadAdvances to pretend that these instructions execute in the M2 ALU and reads their operands then. This allows the scheduler to schedule dependent instructions back to back. I've increased branch latency to 3 since they are also executed in both stages. Still need to fix JALR, but I want to cleanup some scheduler classes first. Multiply, cpop and division instructions can only start in the AG stage. Still need to do some work for FP instructions that produce integer results. I've added an llvm-mca test that creates a long dependency chain. The timeline view can show that things are bypassed. I didn't check all permutations, but we have some variety. Reviewed By: wangpc Differential Revision: https://reviews.llvm.org/D153666
diff --git a/llvm/lib/Target/RISCV/RISCVSchedSiFive7.td b/llvm/lib/Target/RISCV/RISCVSchedSiFive7.td
@@ -198,6 +198,20 @@ class SiFive7GetOrderedReductionCycles<string mx, int sew> {
   int c = !mul(5, VLUpperBound);
 }
 
+class SiFive7AnyToGPRBypass<SchedRead read, int cycles = 2>
+    : ReadAdvance<read, cycles, [WriteIALU, WriteIALU32,
+                                 WriteShiftImm, WriteShiftImm32,
+                                 WriteShiftReg, WriteShiftReg32,
+                                 WriteSHXADD, WriteSHXADD32,
+                                 WriteRotateImm, WriteRotateImm32,
+                                 WriteRotateReg, WriteRotateReg32,
+                                 WriteCLZ, WriteCLZ32, WriteCTZ, WriteCTZ32,
+                                 WriteCPOP, WriteCPOP32,
+                                 WriteREV8, WriteORCB, WriteSFB,
+                                 WriteIMul, WriteIMul32,
+                                 WriteIDiv, WriteIDiv32,
+                                 WriteLDB, WriteLDH, WriteLDW, WriteLDD]>;
+
 // SiFive7 machine model for scheduling and other instruction cost heuristics.
 def SiFive7Model : SchedMachineModel {
   let MicroOpBufferSize = 0; // Explicitly set to zero since SiFive7 is in-order.
@@ -234,10 +248,12 @@ def SiFive7VS          : ProcResource<1> { let Super = SiFive7PipeV; } // Store
 def SiFive7PipeAB : ProcResGroup<[SiFive7PipeA, SiFive7PipeB]>;
 
 // Branching
+let Latency = 3 in {
 def : WriteRes<WriteJmp, [SiFive7PipeB]>;
 def : WriteRes<WriteJal, [SiFive7PipeB]>;
 def : WriteRes<WriteJalr, [SiFive7PipeB]>;
 def : WriteRes<WriteJmpReg, [SiFive7PipeB]>;
+}
 
 //Short forward branch
 def : WriteRes<WriteSFB, [SiFive7PipeA, SiFive7PipeB]> {
@@ -896,18 +912,19 @@ let Latency = 3 in
 def : InstRW<[WriteIALU], (instrs COPY)>;
 
 //===----------------------------------------------------------------------===//
+
 // Bypass and advance
-def : ReadAdvance<ReadJmp, 0>;
+def : SiFive7AnyToGPRBypass<ReadJmp>;
 def : ReadAdvance<ReadJalr, 0>;
 def : ReadAdvance<ReadCSR, 0>;
 def : ReadAdvance<ReadStoreData, 0>;
 def : ReadAdvance<ReadMemBase, 0>;
-def : ReadAdvance<ReadIALU, 0>;
-def : ReadAdvance<ReadIALU32, 0>;
-def : ReadAdvance<ReadShiftImm, 0>;
-def : ReadAdvance<ReadShiftImm32, 0>;
-def : ReadAdvance<ReadShiftReg, 0>;
-def : ReadAdvance<ReadShiftReg32, 0>;
+def : SiFive7AnyToGPRBypass<ReadIALU>;
+def : SiFive7AnyToGPRBypass<ReadIALU32>;
+def : SiFive7AnyToGPRBypass<ReadShiftImm>;
+def : SiFive7AnyToGPRBypass<ReadShiftImm32>;
+def : SiFive7AnyToGPRBypass<ReadShiftReg>;
+def : SiFive7AnyToGPRBypass<ReadShiftReg32>;
 def : ReadAdvance<ReadIDiv, 0>;
 def : ReadAdvance<ReadIDiv32, 0>;
 def : ReadAdvance<ReadIMul, 0>;
@@ -974,24 +991,24 @@ def : ReadAdvance<ReadFClass16, 0>;
 def : ReadAdvance<ReadFClass32, 0>;
 def : ReadAdvance<ReadFClass64, 0>;
 
-def : ReadAdvance<ReadSFBJmp, 0>;
-def : ReadAdvance<ReadSFBALU, 0>;
+def : SiFive7AnyToGPRBypass<ReadSFBJmp, 0>;
+def : SiFive7AnyToGPRBypass<ReadSFBALU, 0>;
 
 // Bitmanip
-def : ReadAdvance<ReadRotateImm, 0>;
-def : ReadAdvance<ReadRotateImm32, 0>;
-def : ReadAdvance<ReadRotateReg, 0>;
-def : ReadAdvance<ReadRotateReg32, 0>;
-def : ReadAdvance<ReadCLZ, 0>;
-def : ReadAdvance<ReadCLZ32, 0>;
-def : ReadAdvance<ReadCTZ, 0>;
-def : ReadAdvance<ReadCTZ32, 0>;
+def : SiFive7AnyToGPRBypass<ReadRotateImm>;
+def : SiFive7AnyToGPRBypass<ReadRotateImm32>;
+def : SiFive7AnyToGPRBypass<ReadRotateReg>;
+def : SiFive7AnyToGPRBypass<ReadRotateReg32>;
+def : SiFive7AnyToGPRBypass<ReadCLZ>;
+def : SiFive7AnyToGPRBypass<ReadCLZ32>;
+def : SiFive7AnyToGPRBypass<ReadCTZ>;
+def : SiFive7AnyToGPRBypass<ReadCTZ32>;
 def : ReadAdvance<ReadCPOP, 0>;
 def : ReadAdvance<ReadCPOP32, 0>;
-def : ReadAdvance<ReadORCB, 0>;
-def : ReadAdvance<ReadREV8, 0>;
-def : ReadAdvance<ReadSHXADD, 0>;
-def : ReadAdvance<ReadSHXADD32, 0>;
+def : SiFive7AnyToGPRBypass<ReadORCB>;
+def : SiFive7AnyToGPRBypass<ReadREV8>;
+def : SiFive7AnyToGPRBypass<ReadSHXADD>;
+def : SiFive7AnyToGPRBypass<ReadSHXADD32>;
 
 // 6. Configuration-Setting Instructions
 def : ReadAdvance<ReadVSETVLI, 2>;
diff --git a/llvm/test/tools/llvm-mca/RISCV/SiFive7/gpr-bypass-c.s b/llvm/test/tools/llvm-mca/RISCV/SiFive7/gpr-bypass-c.s
@@ -0,0 +1,147 @@
+# NOTE: Assertions have been autogenerated by utils/update_mca_test_checks.py
+# RUN: llvm-mca -mtriple=riscv64 -mcpu=sifive-u74 -mattr=+c -timeline \
+# RUN:   -timeline-max-cycles=1000 -iterations=1 < %s | FileCheck %s
+
+c.lui a0, 1
+c.add a0, a0
+c.addi a0, 1
+c.addw a0, a0
+c.addiw a0, 1
+c.sub a0, a0
+c.subw a0, a0
+c.and a0, a0
+c.andi a0, 1
+c.or a0, a0
+c.xor a0, a0
+c.slli a0, 1
+c.srli a0, 1
+c.srai a0, 1
+c.add a0, a0
+beqz a0, 1f
+1:
+c.add a0, a0
+bnez a0, 1f
+1:
+
+# CHECK:      Iterations:        1
+# CHECK-NEXT: Instructions:      18
+# CHECK-NEXT: Total Cycles:      24
+# CHECK-NEXT: Total uOps:        18
+
+# CHECK:      Dispatch Width:    2
+# CHECK-NEXT: uOps Per Cycle:    0.75
+# CHECK-NEXT: IPC:               0.75
+# CHECK-NEXT: Block RThroughput: 9.0
+
+# CHECK:      Instruction Info:
+# CHECK-NEXT: [1]: #uOps
+# CHECK-NEXT: [2]: Latency
+# CHECK-NEXT: [3]: RThroughput
+# CHECK-NEXT: [4]: MayLoad
+# CHECK-NEXT: [5]: MayStore
+# CHECK-NEXT: [6]: HasSideEffects (U)
+
+# CHECK:      [1]    [2]    [3]    [4]    [5]    [6]    Instructions:
+# CHECK-NEXT:  1      3     0.50                        lui	a0, 1
+# CHECK-NEXT:  1      3     0.50                        add	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        addi	a0, a0, 1
+# CHECK-NEXT:  1      3     0.50                        addw	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        addiw	a0, a0, 1
+# CHECK-NEXT:  1      3     0.50                        sub	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        subw	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        and	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        andi	a0, a0, 1
+# CHECK-NEXT:  1      3     0.50                        or	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        xor	a0, a0, a0
+# CHECK-NEXT:  1      3     0.50                        slli	a0, a0, 1
+# CHECK-NEXT:  1      3     0.50                        srli	a0, a0, 1
+# CHECK-NEXT:  1      3     0.50                        srai	a0, a0, 1
+# CHECK-NEXT:  1      3     0.50                        add	a0, a0, a0
+# CHECK-NEXT:  1      3     1.00                        beqz	a0, .Ltmp0
+# CHECK-NEXT:  1      3     0.50                        add	a0, a0, a0
+# CHECK-NEXT:  1      3     1.00                        bnez	a0, .Ltmp1
+
+# CHECK:      Resources:
+# CHECK-NEXT: [0]   - SiFive7FDiv
+# CHECK-NEXT: [1]   - SiFive7IDiv
+# CHECK-NEXT: [2]   - SiFive7PipeA
+# CHECK-NEXT: [3]   - SiFive7PipeB
+# CHECK-NEXT: [4]   - SiFive7PipeV
+# CHECK-NEXT: [5]   - SiFive7VA
+# CHECK-NEXT: [6]   - SiFive7VL
+# CHECK-NEXT: [7]   - SiFive7VS
+
+# CHECK:      Resource pressure per iteration:
+# CHECK-NEXT: [0]    [1]    [2]    [3]    [4]    [5]    [6]    [7]
+# CHECK-NEXT:  -      -     8.00   10.00   -      -      -      -
+
+# CHECK:      Resource pressure by instruction:
+# CHECK-NEXT: [0]    [1]    [2]    [3]    [4]    [5]    [6]    [7]    Instructions:
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     lui	a0, 1
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     add	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     addi	a0, a0, 1
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     addw	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     addiw	a0, a0, 1
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     sub	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     subw	a0, a0, a0
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     and	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     andi	a0, a0, 1
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     or	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     xor	a0, a0, a0
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     slli	a0, a0, 1
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     srli	a0, a0, 1
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     srai	a0, a0, 1
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     add	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     beqz	a0, .Ltmp0
+# CHECK-NEXT:  -      -     1.00    -      -      -      -      -     add	a0, a0, a0
+# CHECK-NEXT:  -      -      -     1.00    -      -      -      -     bnez	a0, .Ltmp1
+
+# CHECK:      Timeline view:
+# CHECK-NEXT:                     0123456789
+# CHECK-NEXT: Index     0123456789          0123
+
+# CHECK:      [0,0]     DeeE .    .    .    .  .   lui	a0, 1
+# CHECK-NEXT: [0,1]     .DeeE.    .    .    .  .   add	a0, a0, a0
+# CHECK-NEXT: [0,2]     . DeeE    .    .    .  .   addi	a0, a0, 1
+# CHECK-NEXT: [0,3]     .  DeeE   .    .    .  .   addw	a0, a0, a0
+# CHECK-NEXT: [0,4]     .   DeeE  .    .    .  .   addiw	a0, a0, 1
+# CHECK-NEXT: [0,5]     .    DeeE .    .    .  .   sub	a0, a0, a0
+# CHECK-NEXT: [0,6]     .    .DeeE.    .    .  .   subw	a0, a0, a0
+# CHECK-NEXT: [0,7]     .    . DeeE    .    .  .   and	a0, a0, a0
+# CHECK-NEXT: [0,8]     .    .  DeeE   .    .  .   andi	a0, a0, 1
+# CHECK-NEXT: [0,9]     .    .   DeeE  .    .  .   or	a0, a0, a0
+# CHECK-NEXT: [0,10]    .    .    DeeE .    .  .   xor	a0, a0, a0
+# CHECK-NEXT: [0,11]    .    .    .DeeE.    .  .   slli	a0, a0, 1
+# CHECK-NEXT: [0,12]    .    .    . DeeE    .  .   srli	a0, a0, 1
+# CHECK-NEXT: [0,13]    .    .    .  DeeE   .  .   srai	a0, a0, 1
+# CHECK-NEXT: [0,14]    .    .    .   DeeE  .  .   add	a0, a0, a0
+# CHECK-NEXT: [0,15]    .    .    .    . DeeE  .   beqz	a0, .Ltmp0
+# CHECK-NEXT: [0,16]    .    .    .    . DeeE  .   add	a0, a0, a0
+# CHECK-NEXT: [0,17]    .    .    .    .    DeeE   bnez	a0, .Ltmp1
+
+# CHECK:      Average Wait times (based on the timeline view):
+# CHECK-NEXT: [0]: Executions
+# CHECK-NEXT: [1]: Average time spent waiting in a scheduler's queue
+# CHECK-NEXT: [2]: Average time spent waiting in a scheduler's queue while ready
+# CHECK-NEXT: [3]: Average time elapsed from WB until retire stage
+
+# CHECK:            [0]    [1]    [2]    [3]
+# CHECK-NEXT: 0.     1     0.0    0.0    0.0       lui	a0, 1
+# CHECK-NEXT: 1.     1     0.0    0.0    0.0       add	a0, a0, a0
+# CHECK-NEXT: 2.     1     0.0    0.0    0.0       addi	a0, a0, 1
+# CHECK-NEXT: 3.     1     0.0    0.0    0.0       addw	a0, a0, a0
+# CHECK-NEXT: 4.     1     0.0    0.0    0.0       addiw	a0, a0, 1
+# CHECK-NEXT: 5.     1     0.0    0.0    0.0       sub	a0, a0, a0
+# CHECK-NEXT: 6.     1     0.0    0.0    0.0       subw	a0, a0, a0
+# CHECK-NEXT: 7.     1     0.0    0.0    0.0       and	a0, a0, a0
+# CHECK-NEXT: 8.     1     0.0    0.0    0.0       andi	a0, a0, 1
+# CHECK-NEXT: 9.     1     0.0    0.0    0.0       or	a0, a0, a0
+# CHECK-NEXT: 10.    1     0.0    0.0    0.0       xor	a0, a0, a0
+# CHECK-NEXT: 11.    1     0.0    0.0    0.0       slli	a0, a0, 1
+# CHECK-NEXT: 12.    1     0.0    0.0    0.0       srli	a0, a0, 1
+# CHECK-NEXT: 13.    1     0.0    0.0    0.0       srai	a0, a0, 1
+# CHECK-NEXT: 14.    1     0.0    0.0    0.0       add	a0, a0, a0
+# CHECK-NEXT: 15.    1     0.0    0.0    0.0       beqz	a0, .Ltmp0
+# CHECK-NEXT: 16.    1     0.0    0.0    0.0       add	a0, a0, a0
+# CHECK-NEXT: 17.    1     0.0    0.0    0.0       bnez	a0, .Ltmp1
+# CHECK-NEXT:        1     0.0    0.0    0.0       <total>
diff --git a/llvm/test/tools/llvm-mca/RISCV/SiFive7/gpr-bypass.s b/llvm/test/tools/llvm-mca/RISCV/SiFive7/gpr-bypass.s