@@ -1021,116 +1021,8 @@ define i64 @sdiv64_known32(i64 %a, i64 %b) {
1021
1021
; GFX9-LABEL: sdiv64_known32:
1022
1022
; GFX9: ; %bb.0:
1023
1023
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
1024
- ; GFX9-NEXT: v_ashrrev_i32_e32 v2, 31, v1
1025
- ; GFX9-NEXT: v_ashrrev_i32_e32 v0, 31, v3
1026
- ; GFX9-NEXT: v_or_b32_e32 v5, v2, v0
1027
- ; GFX9-NEXT: v_mov_b32_e32 v4, 0
1028
- ; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
1029
- ; GFX9-NEXT: v_mov_b32_e32 v7, v1
1030
- ; GFX9-NEXT: v_mov_b32_e32 v6, v3
1031
- ; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
1032
- ; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
1033
- ; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
1034
- ; GFX9-NEXT: s_cbranch_execz .LBB10_2
1035
- ; GFX9-NEXT: ; %bb.1:
1036
- ; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v6
1037
- ; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v0
1038
- ; GFX9-NEXT: v_sub_co_u32_e32 v11, vcc, 0, v6
1039
- ; GFX9-NEXT: v_subb_co_u32_e32 v12, vcc, 0, v0, vcc
1040
- ; GFX9-NEXT: v_madmk_f32 v1, v3, 0x4f800000, v1
1041
- ; GFX9-NEXT: v_rcp_f32_e32 v1, v1
1042
- ; GFX9-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
1043
- ; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v1
1044
- ; GFX9-NEXT: v_trunc_f32_e32 v3, v3
1045
- ; GFX9-NEXT: v_madmk_f32 v1, v3, 0xcf800000, v1
1046
- ; GFX9-NEXT: v_cvt_u32_f32_e32 v10, v3
1047
- ; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
1048
- ; GFX9-NEXT: v_mul_lo_u32 v5, v11, v10
1049
- ; GFX9-NEXT: v_mul_lo_u32 v8, v12, v1
1050
- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v1, 0
1051
- ; GFX9-NEXT: v_add3_u32 v8, v4, v5, v8
1052
- ; GFX9-NEXT: v_mul_hi_u32 v9, v1, v3
1053
- ; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v8, 0
1054
- ; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v9, v4
1055
- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v10, v3, 0
1056
- ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v10, v8, 0
1057
- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
1058
- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v13, v3
1059
- ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc
1060
- ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v9, vcc
1061
- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v8
1062
- ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v4, vcc
1063
- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v3
1064
- ; GFX9-NEXT: v_addc_co_u32_e32 v13, vcc, v10, v4, vcc
1065
- ; GFX9-NEXT: v_mul_lo_u32 v5, v11, v13
1066
- ; GFX9-NEXT: v_mul_lo_u32 v8, v12, v1
1067
- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v1, 0
1068
- ; GFX9-NEXT: v_add3_u32 v8, v4, v5, v8
1069
- ; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v13, v8, 0
1070
- ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v1, v8, 0
1071
- ; GFX9-NEXT: v_mul_hi_u32 v12, v1, v3
1072
- ; GFX9-NEXT: v_mad_u64_u32 v[10:11], s[4:5], v13, v3, 0
1073
- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v12, v8
1074
- ; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
1075
- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v10
1076
- ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v11, vcc
1077
- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
1078
- ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
1079
- ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
1080
- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v3
1081
- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v13, v4, vcc
1082
- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v7, v5, 0
1083
- ; GFX9-NEXT: v_mul_hi_u32 v8, v7, v1
1084
- ; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v8, v3
1085
- ; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, 0, v4, vcc
1086
- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v2, v1, 0
1087
- ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v2, v5, 0
1088
- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v10, v3
1089
- ; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v11, v4, vcc
1090
- ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v9, vcc
1091
- ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v8
1092
- ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v3, vcc
1093
- ; GFX9-NEXT: v_mul_lo_u32 v8, v0, v1
1094
- ; GFX9-NEXT: v_mul_lo_u32 v9, v6, v5
1095
- ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v1, 0
1096
- ; GFX9-NEXT: v_add3_u32 v4, v4, v9, v8
1097
- ; GFX9-NEXT: v_sub_u32_e32 v8, v2, v4
1098
- ; GFX9-NEXT: v_sub_co_u32_e32 v3, vcc, v7, v3
1099
- ; GFX9-NEXT: v_subb_co_u32_e64 v7, s[4:5], v8, v0, vcc
1100
- ; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v3, v6
1101
- ; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[4:5], 0, v7, s[4:5]
1102
- ; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v0
1103
- ; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
1104
- ; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v6
1105
- ; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
1106
- ; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v7, v0
1107
- ; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[4:5]
1108
- ; GFX9-NEXT: v_add_co_u32_e64 v8, s[4:5], 2, v1
1109
- ; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v4, vcc
1110
- ; GFX9-NEXT: v_addc_co_u32_e64 v9, s[4:5], 0, v5, s[4:5]
1111
- ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
1112
- ; GFX9-NEXT: v_add_co_u32_e64 v10, s[4:5], 1, v1
1113
- ; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
1114
- ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v6
1115
- ; GFX9-NEXT: v_addc_co_u32_e64 v11, s[4:5], 0, v5, s[4:5]
1116
- ; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
1117
- ; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v2, v0
1118
- ; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7
1119
- ; GFX9-NEXT: v_cndmask_b32_e32 v0, v4, v3, vcc
1120
- ; GFX9-NEXT: v_cndmask_b32_e64 v7, v11, v9, s[4:5]
1121
- ; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
1122
- ; GFX9-NEXT: v_cndmask_b32_e64 v0, v10, v8, s[4:5]
1123
- ; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
1124
- ; GFX9-NEXT: v_cndmask_b32_e32 v4, v1, v0, vcc
1125
- ; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
1126
- ; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
1127
- ; GFX9-NEXT: .LBB10_2: ; %Flow
1128
- ; GFX9-NEXT: s_andn2_saveexec_b64 s[4:5], s[6:7]
1129
- ; GFX9-NEXT: s_cbranch_execz .LBB10_4
1130
- ; GFX9-NEXT: ; %bb.3:
1131
1024
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, v3
1132
1025
; GFX9-NEXT: v_sub_u32_e32 v2, 0, v3
1133
- ; GFX9-NEXT: v_mov_b32_e32 v5, 0
1134
1026
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
1135
1027
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
1136
1028
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
@@ -1141,17 +1033,14 @@ define i64 @sdiv64_known32(i64 %a, i64 %b) {
1141
1033
; GFX9-NEXT: v_mul_lo_u32 v2, v0, v3
1142
1034
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
1143
1035
; GFX9-NEXT: v_sub_u32_e32 v1, v1, v2
1144
- ; GFX9-NEXT: v_sub_u32_e32 v2, v1, v3
1145
1036
; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1146
- ; GFX9-NEXT: v_cndmask_b32_e32 v1 , v1, v2, vcc
1037
+ ; GFX9-NEXT: v_sub_u32_e32 v2 , v1, v3
1147
1038
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
1039
+ ; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
1148
1040
; GFX9-NEXT: v_add_u32_e32 v2, 1, v0
1149
1041
; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1150
- ; GFX9-NEXT: v_cndmask_b32_e32 v4, v0, v2, vcc
1151
- ; GFX9-NEXT: .LBB10_4:
1152
- ; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
1153
- ; GFX9-NEXT: v_mov_b32_e32 v0, v4
1154
- ; GFX9-NEXT: v_mov_b32_e32 v1, v5
1042
+ ; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
1043
+ ; GFX9-NEXT: v_mov_b32_e32 v1, 0
1155
1044
; GFX9-NEXT: s_setpc_b64 s[30:31]
1156
1045
%a.ext = ashr i64 %a , 32
1157
1046
%b.ext = ashr i64 %b , 32
0 commit comments