@@ -1021,8 +1021,116 @@ define i64 @sdiv64_known32(i64 %a, i64 %b) {
1021
1021
; GFX9-LABEL: sdiv64_known32:
1022
1022
; GFX9: ; %bb.0:
1023
1023
; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
1024
+ ; GFX9-NEXT: v_ashrrev_i32_e32 v2, 31, v1
1025
+ ; GFX9-NEXT: v_ashrrev_i32_e32 v0, 31, v3
1026
+ ; GFX9-NEXT: v_or_b32_e32 v5, v2, v0
1027
+ ; GFX9-NEXT: v_mov_b32_e32 v4, 0
1028
+ ; GFX9-NEXT: v_cmp_ne_u64_e32 vcc, 0, v[4:5]
1029
+ ; GFX9-NEXT: v_mov_b32_e32 v7, v1
1030
+ ; GFX9-NEXT: v_mov_b32_e32 v6, v3
1031
+ ; GFX9-NEXT: ; implicit-def: $vgpr4_vgpr5
1032
+ ; GFX9-NEXT: s_and_saveexec_b64 s[4:5], vcc
1033
+ ; GFX9-NEXT: s_xor_b64 s[6:7], exec, s[4:5]
1034
+ ; GFX9-NEXT: s_cbranch_execz .LBB10_2
1035
+ ; GFX9-NEXT: ; %bb.1:
1036
+ ; GFX9-NEXT: v_cvt_f32_u32_e32 v1, v6
1037
+ ; GFX9-NEXT: v_cvt_f32_u32_e32 v3, v0
1038
+ ; GFX9-NEXT: v_sub_co_u32_e32 v11, vcc, 0, v6
1039
+ ; GFX9-NEXT: v_subb_co_u32_e32 v12, vcc, 0, v0, vcc
1040
+ ; GFX9-NEXT: v_madmk_f32 v1, v3, 0x4f800000, v1
1041
+ ; GFX9-NEXT: v_rcp_f32_e32 v1, v1
1042
+ ; GFX9-NEXT: v_mul_f32_e32 v1, 0x5f7ffffc, v1
1043
+ ; GFX9-NEXT: v_mul_f32_e32 v3, 0x2f800000, v1
1044
+ ; GFX9-NEXT: v_trunc_f32_e32 v3, v3
1045
+ ; GFX9-NEXT: v_madmk_f32 v1, v3, 0xcf800000, v1
1046
+ ; GFX9-NEXT: v_cvt_u32_f32_e32 v10, v3
1047
+ ; GFX9-NEXT: v_cvt_u32_f32_e32 v1, v1
1048
+ ; GFX9-NEXT: v_mul_lo_u32 v5, v11, v10
1049
+ ; GFX9-NEXT: v_mul_lo_u32 v8, v12, v1
1050
+ ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v1, 0
1051
+ ; GFX9-NEXT: v_add3_u32 v8, v4, v5, v8
1052
+ ; GFX9-NEXT: v_mul_hi_u32 v9, v1, v3
1053
+ ; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v1, v8, 0
1054
+ ; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v9, v4
1055
+ ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v10, v3, 0
1056
+ ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v10, v8, 0
1057
+ ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
1058
+ ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v13, v3
1059
+ ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v5, v4, vcc
1060
+ ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v9, vcc
1061
+ ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v8
1062
+ ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v4, vcc
1063
+ ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v3
1064
+ ; GFX9-NEXT: v_addc_co_u32_e32 v13, vcc, v10, v4, vcc
1065
+ ; GFX9-NEXT: v_mul_lo_u32 v5, v11, v13
1066
+ ; GFX9-NEXT: v_mul_lo_u32 v8, v12, v1
1067
+ ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v11, v1, 0
1068
+ ; GFX9-NEXT: v_add3_u32 v8, v4, v5, v8
1069
+ ; GFX9-NEXT: v_mad_u64_u32 v[4:5], s[4:5], v13, v8, 0
1070
+ ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v1, v8, 0
1071
+ ; GFX9-NEXT: v_mul_hi_u32 v12, v1, v3
1072
+ ; GFX9-NEXT: v_mad_u64_u32 v[10:11], s[4:5], v13, v3, 0
1073
+ ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v12, v8
1074
+ ; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, 0, v9, vcc
1075
+ ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v10
1076
+ ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, v8, v11, vcc
1077
+ ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
1078
+ ; GFX9-NEXT: v_add_co_u32_e32 v3, vcc, v3, v4
1079
+ ; GFX9-NEXT: v_addc_co_u32_e32 v4, vcc, 0, v5, vcc
1080
+ ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v3
1081
+ ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v13, v4, vcc
1082
+ ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v7, v5, 0
1083
+ ; GFX9-NEXT: v_mul_hi_u32 v8, v7, v1
1084
+ ; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v8, v3
1085
+ ; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, 0, v4, vcc
1086
+ ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v2, v1, 0
1087
+ ; GFX9-NEXT: v_mad_u64_u32 v[8:9], s[4:5], v2, v5, 0
1088
+ ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v10, v3
1089
+ ; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, v11, v4, vcc
1090
+ ; GFX9-NEXT: v_addc_co_u32_e32 v3, vcc, 0, v9, vcc
1091
+ ; GFX9-NEXT: v_add_co_u32_e32 v1, vcc, v1, v8
1092
+ ; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v3, vcc
1093
+ ; GFX9-NEXT: v_mul_lo_u32 v8, v0, v1
1094
+ ; GFX9-NEXT: v_mul_lo_u32 v9, v6, v5
1095
+ ; GFX9-NEXT: v_mad_u64_u32 v[3:4], s[4:5], v6, v1, 0
1096
+ ; GFX9-NEXT: v_add3_u32 v4, v4, v9, v8
1097
+ ; GFX9-NEXT: v_sub_u32_e32 v8, v2, v4
1098
+ ; GFX9-NEXT: v_sub_co_u32_e32 v3, vcc, v7, v3
1099
+ ; GFX9-NEXT: v_subb_co_u32_e64 v7, s[4:5], v8, v0, vcc
1100
+ ; GFX9-NEXT: v_sub_co_u32_e64 v8, s[4:5], v3, v6
1101
+ ; GFX9-NEXT: v_subbrev_co_u32_e64 v7, s[4:5], 0, v7, s[4:5]
1102
+ ; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v7, v0
1103
+ ; GFX9-NEXT: v_cndmask_b32_e64 v9, 0, -1, s[4:5]
1104
+ ; GFX9-NEXT: v_cmp_ge_u32_e64 s[4:5], v8, v6
1105
+ ; GFX9-NEXT: v_cndmask_b32_e64 v8, 0, -1, s[4:5]
1106
+ ; GFX9-NEXT: v_cmp_eq_u32_e64 s[4:5], v7, v0
1107
+ ; GFX9-NEXT: v_cndmask_b32_e64 v7, v9, v8, s[4:5]
1108
+ ; GFX9-NEXT: v_add_co_u32_e64 v8, s[4:5], 2, v1
1109
+ ; GFX9-NEXT: v_subb_co_u32_e32 v2, vcc, v2, v4, vcc
1110
+ ; GFX9-NEXT: v_addc_co_u32_e64 v9, s[4:5], 0, v5, s[4:5]
1111
+ ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v2, v0
1112
+ ; GFX9-NEXT: v_add_co_u32_e64 v10, s[4:5], 1, v1
1113
+ ; GFX9-NEXT: v_cndmask_b32_e64 v4, 0, -1, vcc
1114
+ ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v3, v6
1115
+ ; GFX9-NEXT: v_addc_co_u32_e64 v11, s[4:5], 0, v5, s[4:5]
1116
+ ; GFX9-NEXT: v_cndmask_b32_e64 v3, 0, -1, vcc
1117
+ ; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, v2, v0
1118
+ ; GFX9-NEXT: v_cmp_ne_u32_e64 s[4:5], 0, v7
1119
+ ; GFX9-NEXT: v_cndmask_b32_e32 v0, v4, v3, vcc
1120
+ ; GFX9-NEXT: v_cndmask_b32_e64 v7, v11, v9, s[4:5]
1121
+ ; GFX9-NEXT: v_cmp_ne_u32_e32 vcc, 0, v0
1122
+ ; GFX9-NEXT: v_cndmask_b32_e64 v0, v10, v8, s[4:5]
1123
+ ; GFX9-NEXT: v_cndmask_b32_e32 v5, v5, v7, vcc
1124
+ ; GFX9-NEXT: v_cndmask_b32_e32 v4, v1, v0, vcc
1125
+ ; GFX9-NEXT: ; implicit-def: $vgpr2_vgpr3
1126
+ ; GFX9-NEXT: ; implicit-def: $vgpr0_vgpr1
1127
+ ; GFX9-NEXT: .LBB10_2: ; %Flow
1128
+ ; GFX9-NEXT: s_andn2_saveexec_b64 s[4:5], s[6:7]
1129
+ ; GFX9-NEXT: s_cbranch_execz .LBB10_4
1130
+ ; GFX9-NEXT: ; %bb.3:
1024
1131
; GFX9-NEXT: v_cvt_f32_u32_e32 v0, v3
1025
1132
; GFX9-NEXT: v_sub_u32_e32 v2, 0, v3
1133
+ ; GFX9-NEXT: v_mov_b32_e32 v5, 0
1026
1134
; GFX9-NEXT: v_rcp_iflag_f32_e32 v0, v0
1027
1135
; GFX9-NEXT: v_mul_f32_e32 v0, 0x4f7ffffe, v0
1028
1136
; GFX9-NEXT: v_cvt_u32_f32_e32 v0, v0
@@ -1033,14 +1141,17 @@ define i64 @sdiv64_known32(i64 %a, i64 %b) {
1033
1141
; GFX9-NEXT: v_mul_lo_u32 v2, v0, v3
1034
1142
; GFX9-NEXT: v_add_u32_e32 v4, 1, v0
1035
1143
; GFX9-NEXT: v_sub_u32_e32 v1, v1, v2
1036
- ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1037
1144
; GFX9-NEXT: v_sub_u32_e32 v2, v1, v3
1038
- ; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
1145
+ ; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1039
1146
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
1147
+ ; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
1040
1148
; GFX9-NEXT: v_add_u32_e32 v2, 1, v0
1041
1149
; GFX9-NEXT: v_cmp_ge_u32_e32 vcc, v1, v3
1042
- ; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
1043
- ; GFX9-NEXT: v_mov_b32_e32 v1, 0
1150
+ ; GFX9-NEXT: v_cndmask_b32_e32 v4, v0, v2, vcc
1151
+ ; GFX9-NEXT: .LBB10_4:
1152
+ ; GFX9-NEXT: s_or_b64 exec, exec, s[4:5]
1153
+ ; GFX9-NEXT: v_mov_b32_e32 v0, v4
1154
+ ; GFX9-NEXT: v_mov_b32_e32 v1, v5
1044
1155
; GFX9-NEXT: s_setpc_b64 s[30:31]
1045
1156
%a.ext = ashr i64 %a , 32
1046
1157
%b.ext = ashr i64 %b , 32
0 commit comments