[RISCV] Add test coverage for DAG store merging of floating point values

preames · preames · commit a5c7f81a9aaa · 2025-03-20T16:14:19.000-07:00
diff --git a/llvm/test/CodeGen/RISCV/stores-of-loads-merging.ll b/llvm/test/CodeGen/RISCV/stores-of-loads-merging.ll
@@ -1,5 +1,6 @@
 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
-; RUN: llc < %s -mtriple=riscv64 -mattr=+v | FileCheck %s
+; RUN: llc < %s -mtriple=riscv64 -mattr=+v | FileCheck %s --check-prefixes=CHECK,V
+; RUN: llc < %s -mtriple=riscv64 -mattr=+v,+zvfh | FileCheck %s --check-prefixes=CHECK,ZVFH
 
 declare i32 @llvm.experimental.constrained.fptosi.i32.f64(double, metadata)
 declare void @g()
@@ -327,3 +328,168 @@ define void @v16i8_v32i8(ptr %p, ptr %q) {
   store <16 x i8> %x1, ptr %q1
   ret void
 }
+
+; TODO: We fail to merge these, which would be profitable.
+define void @two_half(ptr %p, ptr %q) {
+; V-LABEL: two_half:
+; V:       # %bb.0:
+; V-NEXT:    addi sp, sp, -32
+; V-NEXT:    .cfi_def_cfa_offset 32
+; V-NEXT:    sd ra, 24(sp) # 8-byte Folded Spill
+; V-NEXT:    sd s0, 16(sp) # 8-byte Folded Spill
+; V-NEXT:    sd s1, 8(sp) # 8-byte Folded Spill
+; V-NEXT:    sd s2, 0(sp) # 8-byte Folded Spill
+; V-NEXT:    .cfi_offset ra, -8
+; V-NEXT:    .cfi_offset s0, -16
+; V-NEXT:    .cfi_offset s1, -24
+; V-NEXT:    .cfi_offset s2, -32
+; V-NEXT:    lh s1, 0(a0)
+; V-NEXT:    lh s2, 2(a0)
+; V-NEXT:    mv s0, a1
+; V-NEXT:    call g
+; V-NEXT:    sh s1, 0(s0)
+; V-NEXT:    sh s2, 2(s0)
+; V-NEXT:    ld ra, 24(sp) # 8-byte Folded Reload
+; V-NEXT:    ld s0, 16(sp) # 8-byte Folded Reload
+; V-NEXT:    ld s1, 8(sp) # 8-byte Folded Reload
+; V-NEXT:    ld s2, 0(sp) # 8-byte Folded Reload
+; V-NEXT:    .cfi_restore ra
+; V-NEXT:    .cfi_restore s0
+; V-NEXT:    .cfi_restore s1
+; V-NEXT:    .cfi_restore s2
+; V-NEXT:    addi sp, sp, 32
+; V-NEXT:    .cfi_def_cfa_offset 0
+; V-NEXT:    ret
+;
+; ZVFH-LABEL: two_half:
+; ZVFH:       # %bb.0:
+; ZVFH-NEXT:    addi sp, sp, -32
+; ZVFH-NEXT:    .cfi_def_cfa_offset 32
+; ZVFH-NEXT:    sd ra, 24(sp) # 8-byte Folded Spill
+; ZVFH-NEXT:    sd s0, 16(sp) # 8-byte Folded Spill
+; ZVFH-NEXT:    .cfi_offset ra, -8
+; ZVFH-NEXT:    .cfi_offset s0, -16
+; ZVFH-NEXT:    csrr a2, vlenb
+; ZVFH-NEXT:    sub sp, sp, a2
+; ZVFH-NEXT:    .cfi_escape 0x0f, 0x0d, 0x72, 0x00, 0x11, 0x20, 0x22, 0x11, 0x01, 0x92, 0xa2, 0x38, 0x00, 0x1e, 0x22 # sp + 32 + 1 * vlenb
+; ZVFH-NEXT:    vsetivli zero, 2, e16, mf4, ta, ma
+; ZVFH-NEXT:    vle16.v v8, (a0)
+; ZVFH-NEXT:    addi a0, sp, 16
+; ZVFH-NEXT:    vs1r.v v8, (a0) # Unknown-size Folded Spill
+; ZVFH-NEXT:    mv s0, a1
+; ZVFH-NEXT:    call g
+; ZVFH-NEXT:    addi a0, sp, 16
+; ZVFH-NEXT:    vl1r.v v8, (a0) # Unknown-size Folded Reload
+; ZVFH-NEXT:    vsetivli zero, 2, e16, mf4, ta, ma
+; ZVFH-NEXT:    vse16.v v8, (s0)
+; ZVFH-NEXT:    csrr a0, vlenb
+; ZVFH-NEXT:    add sp, sp, a0
+; ZVFH-NEXT:    .cfi_def_cfa sp, 32
+; ZVFH-NEXT:    ld ra, 24(sp) # 8-byte Folded Reload
+; ZVFH-NEXT:    ld s0, 16(sp) # 8-byte Folded Reload
+; ZVFH-NEXT:    .cfi_restore ra
+; ZVFH-NEXT:    .cfi_restore s0
+; ZVFH-NEXT:    addi sp, sp, 32
+; ZVFH-NEXT:    .cfi_def_cfa_offset 0
+; ZVFH-NEXT:    ret
+  %p0 = getelementptr i8, ptr %p, i64 0
+  %p1 = getelementptr i8, ptr %p, i64 2
+  %x0 = load half, ptr %p0
+  %x1 = load half, ptr %p1
+  call void @g()
+  %q0 = getelementptr i8, ptr %q, i64 0
+  %q1 = getelementptr i8, ptr %q, i64 2
+  store half %x0, ptr %q0
+  store half %x1, ptr %q1
+  ret void
+}
+
+; TODO: This one is currently a vector which is unprofitable, we should
+; use i64 instead.
+define void @two_float(ptr %p, ptr %q) {
+; CHECK-LABEL: two_float:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    addi sp, sp, -32
+; CHECK-NEXT:    .cfi_def_cfa_offset 32
+; CHECK-NEXT:    sd ra, 24(sp) # 8-byte Folded Spill
+; CHECK-NEXT:    sd s0, 16(sp) # 8-byte Folded Spill
+; CHECK-NEXT:    .cfi_offset ra, -8
+; CHECK-NEXT:    .cfi_offset s0, -16
+; CHECK-NEXT:    csrr a2, vlenb
+; CHECK-NEXT:    sub sp, sp, a2
+; CHECK-NEXT:    .cfi_escape 0x0f, 0x0d, 0x72, 0x00, 0x11, 0x20, 0x22, 0x11, 0x01, 0x92, 0xa2, 0x38, 0x00, 0x1e, 0x22 # sp + 32 + 1 * vlenb
+; CHECK-NEXT:    vsetivli zero, 2, e32, mf2, ta, ma
+; CHECK-NEXT:    vle32.v v8, (a0)
+; CHECK-NEXT:    addi a0, sp, 16
+; CHECK-NEXT:    vs1r.v v8, (a0) # Unknown-size Folded Spill
+; CHECK-NEXT:    mv s0, a1
+; CHECK-NEXT:    call g
+; CHECK-NEXT:    addi a0, sp, 16
+; CHECK-NEXT:    vl1r.v v8, (a0) # Unknown-size Folded Reload
+; CHECK-NEXT:    vsetivli zero, 2, e32, mf2, ta, ma
+; CHECK-NEXT:    vse32.v v8, (s0)
+; CHECK-NEXT:    csrr a0, vlenb
+; CHECK-NEXT:    add sp, sp, a0
+; CHECK-NEXT:    .cfi_def_cfa sp, 32
+; CHECK-NEXT:    ld ra, 24(sp) # 8-byte Folded Reload
+; CHECK-NEXT:    ld s0, 16(sp) # 8-byte Folded Reload
+; CHECK-NEXT:    .cfi_restore ra
+; CHECK-NEXT:    .cfi_restore s0
+; CHECK-NEXT:    addi sp, sp, 32
+; CHECK-NEXT:    .cfi_def_cfa_offset 0
+; CHECK-NEXT:    ret
+  %p0 = getelementptr i8, ptr %p, i64 0
+  %p1 = getelementptr i8, ptr %p, i64 4
+  %x0 = load float, ptr %p0
+  %x1 = load float, ptr %p1
+  call void @g()
+  %q0 = getelementptr i8, ptr %q, i64 0
+  %q1 = getelementptr i8, ptr %q, i64 4
+  store float %x0, ptr %q0
+  store float %x1, ptr %q1
+  ret void
+}
+
+define void @two_double(ptr %p, ptr %q) {
+; CHECK-LABEL: two_double:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    addi sp, sp, -32
+; CHECK-NEXT:    .cfi_def_cfa_offset 32
+; CHECK-NEXT:    sd ra, 24(sp) # 8-byte Folded Spill
+; CHECK-NEXT:    sd s0, 16(sp) # 8-byte Folded Spill
+; CHECK-NEXT:    .cfi_offset ra, -8
+; CHECK-NEXT:    .cfi_offset s0, -16
+; CHECK-NEXT:    csrr a2, vlenb
+; CHECK-NEXT:    sub sp, sp, a2
+; CHECK-NEXT:    .cfi_escape 0x0f, 0x0d, 0x72, 0x00, 0x11, 0x20, 0x22, 0x11, 0x01, 0x92, 0xa2, 0x38, 0x00, 0x1e, 0x22 # sp + 32 + 1 * vlenb
+; CHECK-NEXT:    vsetivli zero, 2, e64, m1, ta, ma
+; CHECK-NEXT:    vle64.v v8, (a0)
+; CHECK-NEXT:    addi a0, sp, 16
+; CHECK-NEXT:    vs1r.v v8, (a0) # Unknown-size Folded Spill
+; CHECK-NEXT:    mv s0, a1
+; CHECK-NEXT:    call g
+; CHECK-NEXT:    addi a0, sp, 16
+; CHECK-NEXT:    vl1r.v v8, (a0) # Unknown-size Folded Reload
+; CHECK-NEXT:    vsetivli zero, 2, e64, m1, ta, ma
+; CHECK-NEXT:    vse64.v v8, (s0)
+; CHECK-NEXT:    csrr a0, vlenb
+; CHECK-NEXT:    add sp, sp, a0
+; CHECK-NEXT:    .cfi_def_cfa sp, 32
+; CHECK-NEXT:    ld ra, 24(sp) # 8-byte Folded Reload
+; CHECK-NEXT:    ld s0, 16(sp) # 8-byte Folded Reload
+; CHECK-NEXT:    .cfi_restore ra
+; CHECK-NEXT:    .cfi_restore s0
+; CHECK-NEXT:    addi sp, sp, 32
+; CHECK-NEXT:    .cfi_def_cfa_offset 0
+; CHECK-NEXT:    ret
+  %p0 = getelementptr i8, ptr %p, i64 0
+  %p1 = getelementptr i8, ptr %p, i64 8
+  %x0 = load double, ptr %p0
+  %x1 = load double, ptr %p1
+  call void @g()
+  %q0 = getelementptr i8, ptr %q, i64 0
+  %q1 = getelementptr i8, ptr %q, i64 8
+  store double %x0, ptr %q0
+  store double %x1, ptr %q1
+  ret void
+}