llvm
diff --git a/‎llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
Lines changed: 4 additions & 0 deletions b/‎llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
Lines changed: 4 additions & 0 deletions
diff --git a/‎llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
Lines changed: 8 additions & 0 deletions b/‎llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
Lines changed: 8 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll
Lines changed: 12 additions & 20 deletions b/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll
Lines changed: 12 additions & 20 deletions
@@ -3651,6 +3651,10 @@ bool AMDGPUDAGToDAGISel::SelectVOP3PMadMixModsImpl(SDValue In, SDValue &Src,
       // TODO: Should we try to look for neg/abs here?
     }
 
+    // Prevent unnecessary subreg COPY to VGPR_16
+    if (Subtarget->useRealTrue16Insts() && Src.getOpcode() == ISD::TRUNCATE) {
+      Src = Src.getOperand(0);
+    }
     return true;
   }
 
 
@@ -5841,6 +5841,14 @@ AMDGPUInstructionSelector::selectVOP3PMadMixModsImpl(MachineOperand &Root,
       CheckAbsNeg();
     }
 
+    // Since we looked through FPEXT and removed it, we must also remove
+    // G_TRUNC. G_TRUNC to 16-bits would have a destination in RC VGPR_16, which
+    // is not compatible with MadMix instructions
+    Register PeekSrc = Src;
+    if (Subtarget->useRealTrue16Insts() &&
+        mi_match(PeekSrc, *MRI, m_GTrunc(m_Reg(PeekSrc))))
+      Src = PeekSrc;
+
     Matched = true;
   }
 
 
@@ -175,14 +175,12 @@ define half @v_fdiv_f16(half %a, half %b) {
 ; GFX11-IEEE-TRUE16-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-IEEE-TRUE16-NEXT:    v_cvt_f32_f16_e32 v2, v1.l
 ; GFX11-IEEE-TRUE16-NEXT:    v_cvt_f32_f16_e32 v3, v0.l
-; GFX11-IEEE-TRUE16-NEXT:    v_mov_b16_e32 v4.l, v1.l
-; GFX11-IEEE-TRUE16-NEXT:    v_mov_b16_e32 v5.l, v0.l
 ; GFX11-IEEE-TRUE16-NEXT:    v_rcp_f32_e32 v2, v2
 ; GFX11-IEEE-TRUE16-NEXT:    s_waitcnt_depctr 0xfff
 ; GFX11-IEEE-TRUE16-NEXT:    v_mul_f32_e32 v3, v3, v2
-; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v6, -v4, v3, v5 op_sel_hi:[1,0,1]
-; GFX11-IEEE-TRUE16-NEXT:    v_fmac_f32_e32 v3, v6, v2
-; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v4, -v4, v3, v5 op_sel_hi:[1,0,1]
+; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
+; GFX11-IEEE-TRUE16-NEXT:    v_fmac_f32_e32 v3, v4, v2
+; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
 ; GFX11-IEEE-TRUE16-NEXT:    v_mul_f32_e32 v2, v4, v2
 ; GFX11-IEEE-TRUE16-NEXT:    v_and_b32_e32 v2, 0xff800000, v2
 ; GFX11-IEEE-TRUE16-NEXT:    v_add_f32_e32 v2, v2, v3
@@ -213,14 +211,12 @@ define half @v_fdiv_f16(half %a, half %b) {
 ; GFX11-FLUSH-TRUE16-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-FLUSH-TRUE16-NEXT:    v_cvt_f32_f16_e32 v2, v1.l
 ; GFX11-FLUSH-TRUE16-NEXT:    v_cvt_f32_f16_e32 v3, v0.l
-; GFX11-FLUSH-TRUE16-NEXT:    v_mov_b16_e32 v4.l, v1.l
-; GFX11-FLUSH-TRUE16-NEXT:    v_mov_b16_e32 v5.l, v0.l
 ; GFX11-FLUSH-TRUE16-NEXT:    v_rcp_f32_e32 v2, v2
 ; GFX11-FLUSH-TRUE16-NEXT:    s_waitcnt_depctr 0xfff
 ; GFX11-FLUSH-TRUE16-NEXT:    v_mul_f32_e32 v3, v3, v2
-; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v6, -v4, v3, v5 op_sel_hi:[1,0,1]
-; GFX11-FLUSH-TRUE16-NEXT:    v_fmac_f32_e32 v3, v6, v2
-; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v4, -v4, v3, v5 op_sel_hi:[1,0,1]
+; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
+; GFX11-FLUSH-TRUE16-NEXT:    v_fmac_f32_e32 v3, v4, v2
+; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
 ; GFX11-FLUSH-TRUE16-NEXT:    v_mul_f32_e32 v2, v4, v2
 ; GFX11-FLUSH-TRUE16-NEXT:    v_and_b32_e32 v2, 0xff800000, v2
 ; GFX11-FLUSH-TRUE16-NEXT:    v_add_f32_e32 v2, v2, v3
@@ -491,14 +487,12 @@ define half @v_fdiv_f16_ulp25(half %a, half %b) {
 ; GFX11-IEEE-TRUE16-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-IEEE-TRUE16-NEXT:    v_cvt_f32_f16_e32 v2, v1.l
 ; GFX11-IEEE-TRUE16-NEXT:    v_cvt_f32_f16_e32 v3, v0.l
-; GFX11-IEEE-TRUE16-NEXT:    v_mov_b16_e32 v4.l, v1.l
-; GFX11-IEEE-TRUE16-NEXT:    v_mov_b16_e32 v5.l, v0.l
 ; GFX11-IEEE-TRUE16-NEXT:    v_rcp_f32_e32 v2, v2
 ; GFX11-IEEE-TRUE16-NEXT:    s_waitcnt_depctr 0xfff
 ; GFX11-IEEE-TRUE16-NEXT:    v_mul_f32_e32 v3, v3, v2
-; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v6, -v4, v3, v5 op_sel_hi:[1,0,1]
-; GFX11-IEEE-TRUE16-NEXT:    v_fmac_f32_e32 v3, v6, v2
-; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v4, -v4, v3, v5 op_sel_hi:[1,0,1]
+; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
+; GFX11-IEEE-TRUE16-NEXT:    v_fmac_f32_e32 v3, v4, v2
+; GFX11-IEEE-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
 ; GFX11-IEEE-TRUE16-NEXT:    v_mul_f32_e32 v2, v4, v2
 ; GFX11-IEEE-TRUE16-NEXT:    v_and_b32_e32 v2, 0xff800000, v2
 ; GFX11-IEEE-TRUE16-NEXT:    v_add_f32_e32 v2, v2, v3
@@ -529,14 +523,12 @@ define half @v_fdiv_f16_ulp25(half %a, half %b) {
 ; GFX11-FLUSH-TRUE16-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-FLUSH-TRUE16-NEXT:    v_cvt_f32_f16_e32 v2, v1.l
 ; GFX11-FLUSH-TRUE16-NEXT:    v_cvt_f32_f16_e32 v3, v0.l
-; GFX11-FLUSH-TRUE16-NEXT:    v_mov_b16_e32 v4.l, v1.l
-; GFX11-FLUSH-TRUE16-NEXT:    v_mov_b16_e32 v5.l, v0.l
 ; GFX11-FLUSH-TRUE16-NEXT:    v_rcp_f32_e32 v2, v2
 ; GFX11-FLUSH-TRUE16-NEXT:    s_waitcnt_depctr 0xfff
 ; GFX11-FLUSH-TRUE16-NEXT:    v_mul_f32_e32 v3, v3, v2
-; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v6, -v4, v3, v5 op_sel_hi:[1,0,1]
-; GFX11-FLUSH-TRUE16-NEXT:    v_fmac_f32_e32 v3, v6, v2
-; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v4, -v4, v3, v5 op_sel_hi:[1,0,1]
+; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
+; GFX11-FLUSH-TRUE16-NEXT:    v_fmac_f32_e32 v3, v4, v2
+; GFX11-FLUSH-TRUE16-NEXT:    v_fma_mix_f32 v4, -v1, v3, v0 op_sel_hi:[1,0,1]
 ; GFX11-FLUSH-TRUE16-NEXT:    v_mul_f32_e32 v2, v4, v2
 ; GFX11-FLUSH-TRUE16-NEXT:    v_and_b32_e32 v2, 0xff800000, v2
 ; GFX11-FLUSH-TRUE16-NEXT:    v_add_f32_e32 v2, v2, v3
Original file line number	Diff line number	Diff line change
`@@ -3651,6 +3651,10 @@ bool AMDGPUDAGToDAGISel::SelectVOP3PMadMixModsImpl(SDValue In, SDValue &Src,`
`3651`	`3651`	`// TODO: Should we try to look for neg/abs here?`
`3652`	`3652`	`}`
`3653`	`3653`
	`3654`	`+ // Prevent unnecessary subreg COPY to VGPR_16`
	`3655`	`+ if (Subtarget->useRealTrue16Insts() && Src.getOpcode() == ISD::TRUNCATE) {`
	`3656`	`+ Src = Src.getOperand(0);`
	`3657`	`+ }`
`3654`	`3658`	`return true;`
`3655`	`3659`	`}`
`3656`	`3660`
Original file line number	Diff line number	Diff line change
`@@ -5841,6 +5841,14 @@ AMDGPUInstructionSelector::selectVOP3PMadMixModsImpl(MachineOperand &Root,`
`5841`	`5841`	`CheckAbsNeg();`
`5842`	`5842`	`}`
`5843`	`5843`
	`5844`	`+ // Since we looked through FPEXT and removed it, we must also remove`
	`5845`	`+ // G_TRUNC. G_TRUNC to 16-bits would have a destination in RC VGPR_16, which`
	`5846`	`+ // is not compatible with MadMix instructions`
	`5847`	`+ Register PeekSrc = Src;`
	`5848`	`+ if (Subtarget->useRealTrue16Insts() &&`
	`5849`	`+ mi_match(PeekSrc, *MRI, m_GTrunc(m_Reg(PeekSrc))))`
	`5850`	`+ Src = PeekSrc;`
	`5851`	`+`
`5844`	`5852`	`Matched = true;`
`5845`	`5853`	`}`
`5846`	`5854`