llvm
diff --git a/‎llvm/lib/Target/X86/X86FixupVectorConstants.cpp
Lines changed: 105 additions & 16 deletions b/‎llvm/lib/Target/X86/X86FixupVectorConstants.cpp
Lines changed: 105 additions & 16 deletions
diff --git a/‎llvm/lib/Target/X86/X86ISelLowering.cpp
Lines changed: 8 additions & 0 deletions b/‎llvm/lib/Target/X86/X86ISelLowering.cpp
Lines changed: 8 additions & 0 deletions
diff --git a/‎llvm/lib/Target/X86/X86InstrFoldTables.cpp
Lines changed: 2 additions & 0 deletions b/‎llvm/lib/Target/X86/X86InstrFoldTables.cpp
Lines changed: 2 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/X86/any_extend_vector_inreg_of_broadcast.ll
Lines changed: 8 additions & 16 deletions b/‎llvm/test/CodeGen/X86/any_extend_vector_inreg_of_broadcast.ll
Lines changed: 8 additions & 16 deletions
diff --git a/‎llvm/test/CodeGen/X86/any_extend_vector_inreg_of_broadcast_from_memory.ll
Lines changed: 10 additions & 16 deletions b/‎llvm/test/CodeGen/X86/any_extend_vector_inreg_of_broadcast_from_memory.ll
Lines changed: 10 additions & 16 deletions
diff --git a/‎llvm/test/CodeGen/X86/avx512-shuffles/partial_permute.ll
Lines changed: 6 additions & 8 deletions b/‎llvm/test/CodeGen/X86/avx512-shuffles/partial_permute.ll
Lines changed: 6 additions & 8 deletions
@@ -294,20 +294,56 @@ bool X86FixupVectorConstantsPass::processInstruction(MachineFunction &MF,
   case X86::VMOVUPSZ128rm:
     return ConvertToBroadcast(0, 0, X86::VMOVDDUPZ128rm,
                               X86::VBROADCASTSSZ128rm, 0, 0, 1);
+  case X86::VMOVAPDZ128rmk:
+  case X86::VMOVUPDZ128rmk:
+    return ConvertToBroadcast(0, 0, X86::VMOVDDUPZ128rmk, 0, 0, 0, 3);
+  case X86::VMOVAPSZ128rmk:
+  case X86::VMOVUPSZ128rmk:
+    return ConvertToBroadcast(0, 0, 0, X86::VBROADCASTSSZ128rmk, 0, 0, 3);
+  case X86::VMOVAPDZ128rmkz:
+  case X86::VMOVUPDZ128rmkz:
+    return ConvertToBroadcast(0, 0, X86::VMOVDDUPZ128rmkz, 0, 0, 0, 2);
+  case X86::VMOVAPSZ128rmkz:
+  case X86::VMOVUPSZ128rmkz:
+    return ConvertToBroadcast(0, 0, 0, X86::VBROADCASTSSZ128rmkz, 0, 0, 2);
   case X86::VMOVAPDZ256rm:
   case X86::VMOVAPSZ256rm:
   case X86::VMOVUPDZ256rm:
   case X86::VMOVUPSZ256rm:
     return ConvertToBroadcast(0, X86::VBROADCASTF32X4Z256rm,
                               X86::VBROADCASTSDZ256rm, X86::VBROADCASTSSZ256rm,
                               0, 0, 1);
+  case X86::VMOVAPDZ256rmk:
+  case X86::VMOVUPDZ256rmk:
+    return ConvertToBroadcast(0, 0, X86::VBROADCASTSDZ256rmk, 0, 0, 0, 3);
+  case X86::VMOVAPSZ256rmk:
+  case X86::VMOVUPSZ256rmk:
+    return ConvertToBroadcast(0, 0, 0, X86::VBROADCASTSSZ256rmk, 0, 0, 3);
+  case X86::VMOVAPDZ256rmkz:
+  case X86::VMOVUPDZ256rmkz:
+    return ConvertToBroadcast(0, 0, X86::VBROADCASTSDZ256rmkz, 0, 0, 0, 2);
+  case X86::VMOVAPSZ256rmkz:
+  case X86::VMOVUPSZ256rmkz:
+    return ConvertToBroadcast(0, 0, 0, X86::VBROADCASTSSZ256rmkz, 0, 0, 2);
   case X86::VMOVAPDZrm:
   case X86::VMOVAPSZrm:
   case X86::VMOVUPDZrm:
   case X86::VMOVUPSZrm:
     return ConvertToBroadcast(X86::VBROADCASTF64X4rm, X86::VBROADCASTF32X4rm,
                               X86::VBROADCASTSDZrm, X86::VBROADCASTSSZrm, 0, 0,
                               1);
+  case X86::VMOVAPDZrmk:
+  case X86::VMOVUPDZrmk:
+    return ConvertToBroadcast(0, 0, X86::VBROADCASTSDZrmk, 0, 0, 0, 3);
+  case X86::VMOVAPSZrmk:
+  case X86::VMOVUPSZrmk:
+    return ConvertToBroadcast(0, 0, 0, X86::VBROADCASTSSZrmk, 0, 0, 3);
+  case X86::VMOVAPDZrmkz:
+  case X86::VMOVUPDZrmkz:
+    return ConvertToBroadcast(0, 0, X86::VBROADCASTSDZrmkz, 0, 0, 0, 2);
+  case X86::VMOVAPSZrmkz:
+  case X86::VMOVUPSZrmkz:
+    return ConvertToBroadcast(0, 0, 0, X86::VBROADCASTSSZrmkz, 0, 0, 2);
     /* Integer Loads */
   case X86::VMOVDQArm:
   case X86::VMOVDQUrm:
@@ -332,6 +368,18 @@ bool X86FixupVectorConstantsPass::processInstruction(MachineFunction &MF,
                               X86::VPBROADCASTDZ128rm,
                               HasBWI ? X86::VPBROADCASTWZ128rm : 0,
                               HasBWI ? X86::VPBROADCASTBZ128rm : 0, 1);
+  case X86::VMOVDQA32Z128rmk:
+  case X86::VMOVDQU32Z128rmk:
+    return ConvertToBroadcast(0, 0, 0, X86::VPBROADCASTDZ128rmk, 0, 0, 3);
+  case X86::VMOVDQA32Z128rmkz:
+  case X86::VMOVDQU32Z128rmkz:
+    return ConvertToBroadcast(0, 0, 0, X86::VPBROADCASTDZ128rmkz, 0, 0, 2);
+  case X86::VMOVDQA64Z128rmk:
+  case X86::VMOVDQU64Z128rmk:
+    return ConvertToBroadcast(0, 0, X86::VPBROADCASTQZ128rmk, 0, 0, 0, 3);
+  case X86::VMOVDQA64Z128rmkz:
+  case X86::VMOVDQU64Z128rmkz:
+    return ConvertToBroadcast(0, 0, X86::VPBROADCASTQZ128rmkz, 0, 0, 0, 2);
   case X86::VMOVDQA32Z256rm:
   case X86::VMOVDQA64Z256rm:
   case X86::VMOVDQU32Z256rm:
@@ -340,6 +388,24 @@ bool X86FixupVectorConstantsPass::processInstruction(MachineFunction &MF,
                               X86::VPBROADCASTQZ256rm, X86::VPBROADCASTDZ256rm,
                               HasBWI ? X86::VPBROADCASTWZ256rm : 0,
                               HasBWI ? X86::VPBROADCASTBZ256rm : 0, 1);
+  case X86::VMOVDQA32Z256rmk:
+  case X86::VMOVDQU32Z256rmk:
+    return ConvertToBroadcast(0, X86::VBROADCASTI32X4Z256rmk,
+                              HasDQI ? X86::VBROADCASTI32X2Z256rmk : 0,
+                              X86::VPBROADCASTDZ256rmk, 0, 0, 3);
+  case X86::VMOVDQA32Z256rmkz:
+  case X86::VMOVDQU32Z256rmkz:
+    return ConvertToBroadcast(0, X86::VBROADCASTI32X4Z256rmkz,
+                              HasDQI ? X86::VBROADCASTI32X2Z256rmkz : 0,
+                              X86::VPBROADCASTDZ256rmkz, 0, 0, 2);
+  case X86::VMOVDQA64Z256rmk:
+  case X86::VMOVDQU64Z256rmk:
+    return ConvertToBroadcast(0, HasDQI ? X86::VBROADCASTI64X2Z128rmk : 0,
+                              X86::VPBROADCASTQZ256rmk, 0, 0, 0, 3);
+  case X86::VMOVDQA64Z256rmkz:
+  case X86::VMOVDQU64Z256rmkz:
+    return ConvertToBroadcast(0, HasDQI ? X86::VBROADCASTI64X2Z128rmkz : 0,
+                              X86::VPBROADCASTQZ256rmkz, 0, 0, 0, 2);
   case X86::VMOVDQA32Zrm:
   case X86::VMOVDQA64Zrm:
   case X86::VMOVDQU32Zrm:
@@ -348,39 +414,62 @@ bool X86FixupVectorConstantsPass::processInstruction(MachineFunction &MF,
                               X86::VPBROADCASTQZrm, X86::VPBROADCASTDZrm,
                               HasBWI ? X86::VPBROADCASTWZrm : 0,
                               HasBWI ? X86::VPBROADCASTBZrm : 0, 1);
+  case X86::VMOVDQA32Zrmk:
+  case X86::VMOVDQU32Zrmk:
+    return ConvertToBroadcast(
+        HasDQI ? X86::VBROADCASTI32X8rmk : 0, X86::VBROADCASTI32X4rmk,
+        HasDQI ? X86::VBROADCASTI32X2Zrmk : 0, X86::VPBROADCASTDZrmk, 0, 0, 3);
+  case X86::VMOVDQA32Zrmkz:
+  case X86::VMOVDQU32Zrmkz:
+    return ConvertToBroadcast(HasDQI ? X86::VBROADCASTI32X8rmkz : 0,
+                              X86::VBROADCASTI32X4rmkz,
+                              HasDQI ? X86::VBROADCASTI32X2Zrmkz : 0,
+                              X86::VPBROADCASTDZrmkz, 0, 0, 2);
+  case X86::VMOVDQA64Zrmk:
+  case X86::VMOVDQU64Zrmk:
+    return ConvertToBroadcast(X86::VBROADCASTI64X4rmk,
+                              HasDQI ? X86::VBROADCASTI64X2rmk : 0,
+                              X86::VPBROADCASTQZrmk, 0, 0, 0, 3);
+  case X86::VMOVDQA64Zrmkz:
+  case X86::VMOVDQU64Zrmkz:
+    return ConvertToBroadcast(X86::VBROADCASTI64X4rmkz,
+                              HasDQI ? X86::VBROADCASTI64X2rmkz : 0,
+                              X86::VPBROADCASTQZrmkz, 0, 0, 0, 2);
   }
 
-  auto ConvertToBroadcastAVX512 = [&](unsigned OpSrc32, unsigned OpSrc64) {
-    unsigned OpBcst32 = 0, OpBcst64 = 0;
-    unsigned OpNoBcst32 = 0, OpNoBcst64 = 0;
+  auto ConvertToBroadcastAVX512 = [&](unsigned OpSrc16, unsigned OpSrc32,
+                                      unsigned OpSrc64) {
+    if (OpSrc16) {
+      if (const X86FoldTableEntry *Mem2Bcst =
+              llvm::lookupBroadcastFoldTable(OpSrc16, 16)) {
+        if (ConvertToBroadcast(0, 0, 0, 0, Mem2Bcst->DstOp, 0,
+                               Mem2Bcst->Flags & TB_INDEX_MASK))
+          return true;
+      }
+    }
     if (OpSrc32) {
       if (const X86FoldTableEntry *Mem2Bcst =
               llvm::lookupBroadcastFoldTable(OpSrc32, 32)) {
-        OpBcst32 = Mem2Bcst->DstOp;
-        OpNoBcst32 = Mem2Bcst->Flags & TB_INDEX_MASK;
+        if (ConvertToBroadcast(0, 0, 0, Mem2Bcst->DstOp, 0, 0,
+                               Mem2Bcst->Flags & TB_INDEX_MASK))
+          return true;
       }
     }
     if (OpSrc64) {
       if (const X86FoldTableEntry *Mem2Bcst =
               llvm::lookupBroadcastFoldTable(OpSrc64, 64)) {
-        OpBcst64 = Mem2Bcst->DstOp;
-        OpNoBcst64 = Mem2Bcst->Flags & TB_INDEX_MASK;
+        if (ConvertToBroadcast(0, 0, Mem2Bcst->DstOp, 0, 0, 0,
+                               Mem2Bcst->Flags & TB_INDEX_MASK))
+          return true;
       }
     }
-    assert(((OpBcst32 == 0) || (OpBcst64 == 0) || (OpNoBcst32 == OpNoBcst64)) &&
-           "OperandNo mismatch");
-
-    if (OpBcst32 || OpBcst64) {
-      unsigned OpNo = OpBcst32 == 0 ? OpNoBcst64 : OpNoBcst32;
-      return ConvertToBroadcast(0, 0, OpBcst64, OpBcst32, 0, 0, OpNo);
-    }
     return false;
   };
 
   // Attempt to find a AVX512 mapping from a full width memory-fold instruction
   // to a broadcast-fold instruction variant.
   if ((MI.getDesc().TSFlags & X86II::EncodingMask) == X86II::EVEX)
-    return ConvertToBroadcastAVX512(Opc, Opc);
+    return ConvertToBroadcastAVX512(Opc, Opc, Opc);
 
   // Reverse the X86InstrInfo::setExecutionDomainCustom EVEX->VEX logic
   // conversion to see if we can convert to a broadcasted (integer) logic op.
@@ -437,7 +526,7 @@ bool X86FixupVectorConstantsPass::processInstruction(MachineFunction &MF,
       break;
     }
     if (OpSrc32 || OpSrc64)
-      return ConvertToBroadcastAVX512(OpSrc32, OpSrc64);
+      return ConvertToBroadcastAVX512(0, OpSrc32, OpSrc64);
   }
 
   return false;
 
@@ -7144,6 +7144,14 @@ static SDValue lowerBuildVectorAsBroadcast(BuildVectorSDNode *BVOp,
   assert((VT.is128BitVector() || VT.is256BitVector() || VT.is512BitVector()) &&
          "Unsupported vector type for broadcast.");
 
+  // On AVX512VL targets we're better off keeping the full width constant load
+  // and letting X86FixupVectorConstantsPass handle conversion to
+  // broadcast/broadcast-fold.
+  // AVX512 targets without AVX512VL can do this only for 512-bit vectors.
+  if (Subtarget.hasAVX512() && (Subtarget.hasVLX() || VT.is512BitVector()) &&
+      BVOp->isConstant())
+    return SDValue();
+
   // See if the build vector is a repeating sequence of scalars (inc. splat).
   SDValue Ld;
   BitVector UndefElements;
 
@@ -297,6 +297,8 @@ static bool matchBroadcastSize(const X86FoldTableEntry &Entry,
   case TB_BCAST_SS:
   case TB_BCAST_D:
     return BroadcastBits == 32;
+  case TB_BCAST_SH:
+    return BroadcastBits == 16;
   }
   return false;
 }
 
@@ -1482,10 +1482,8 @@ define void @vec256_i8_widen_to_i128_factor16_broadcast_to_v2i128_factor2(ptr %i
 ; AVX512F-NEXT:    vpaddb 32(%rsi), %ymm1, %ymm1
 ; AVX512F-NEXT:    vpaddb (%rsi), %ymm0, %ymm0
 ; AVX512F-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
-; AVX512F-NEXT:    vbroadcasti128 {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512F-NEXT:    # ymm2 = mem[0,1,0,1]
-; AVX512F-NEXT:    vpternlogq $202, %ymm0, %ymm1, %ymm2
-; AVX512F-NEXT:    vpaddb (%rdx), %ymm2, %ymm0
+; AVX512F-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
+; AVX512F-NEXT:    vpaddb (%rdx), %ymm0, %ymm0
 ; AVX512F-NEXT:    vmovdqa %ymm0, (%rcx)
 ; AVX512F-NEXT:    vzeroupper
 ; AVX512F-NEXT:    retq
@@ -1497,10 +1495,8 @@ define void @vec256_i8_widen_to_i128_factor16_broadcast_to_v2i128_factor2(ptr %i
 ; AVX512DQ-NEXT:    vpaddb 32(%rsi), %ymm1, %ymm1
 ; AVX512DQ-NEXT:    vpaddb (%rsi), %ymm0, %ymm0
 ; AVX512DQ-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,1,0,1]
-; AVX512DQ-NEXT:    vbroadcasti128 {{.*#+}} ymm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512DQ-NEXT:    # ymm2 = mem[0,1,0,1]
-; AVX512DQ-NEXT:    vpternlogq $202, %ymm0, %ymm1, %ymm2
-; AVX512DQ-NEXT:    vpaddb (%rdx), %ymm2, %ymm0
+; AVX512DQ-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
+; AVX512DQ-NEXT:    vpaddb (%rdx), %ymm0, %ymm0
 ; AVX512DQ-NEXT:    vmovdqa %ymm0, (%rcx)
 ; AVX512DQ-NEXT:    vzeroupper
 ; AVX512DQ-NEXT:    retq
@@ -3263,10 +3259,8 @@ define void @vec384_i8_widen_to_i128_factor16_broadcast_to_v3i128_factor3(ptr %i
 ; AVX512F-NEXT:    vmovdqa 48(%rdi), %xmm1
 ; AVX512F-NEXT:    vpaddb 48(%rsi), %xmm1, %xmm1
 ; AVX512F-NEXT:    vpermq {{.*#+}} ymm2 = ymm0[0,1,0,1]
-; AVX512F-NEXT:    vbroadcasti128 {{.*#+}} ymm3 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512F-NEXT:    # ymm3 = mem[0,1,0,1]
-; AVX512F-NEXT:    vpternlogq $202, %ymm2, %ymm1, %ymm3
-; AVX512F-NEXT:    vpaddb (%rdx), %ymm3, %ymm1
+; AVX512F-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm2
+; AVX512F-NEXT:    vpaddb (%rdx), %ymm2, %ymm1
 ; AVX512F-NEXT:    vpaddb 32(%rdx), %ymm0, %ymm0
 ; AVX512F-NEXT:    vmovdqa %ymm0, 32(%rcx)
 ; AVX512F-NEXT:    vmovdqa %ymm1, (%rcx)
@@ -3280,10 +3274,8 @@ define void @vec384_i8_widen_to_i128_factor16_broadcast_to_v3i128_factor3(ptr %i
 ; AVX512DQ-NEXT:    vmovdqa 48(%rdi), %xmm1
 ; AVX512DQ-NEXT:    vpaddb 48(%rsi), %xmm1, %xmm1
 ; AVX512DQ-NEXT:    vpermq {{.*#+}} ymm2 = ymm0[0,1,0,1]
-; AVX512DQ-NEXT:    vbroadcasti128 {{.*#+}} ymm3 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512DQ-NEXT:    # ymm3 = mem[0,1,0,1]
-; AVX512DQ-NEXT:    vpternlogq $202, %ymm2, %ymm1, %ymm3
-; AVX512DQ-NEXT:    vpaddb (%rdx), %ymm3, %ymm1
+; AVX512DQ-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm2
+; AVX512DQ-NEXT:    vpaddb (%rdx), %ymm2, %ymm1
 ; AVX512DQ-NEXT:    vpaddb 32(%rdx), %ymm0, %ymm0
 ; AVX512DQ-NEXT:    vmovdqa %ymm0, 32(%rcx)
 ; AVX512DQ-NEXT:    vmovdqa %ymm1, (%rcx)
 
@@ -1213,21 +1213,19 @@ define void @vec256_i8_widen_to_i128_factor16_broadcast_to_v2i128_factor2(ptr %i
 ;
 ; AVX512F-LABEL: vec256_i8_widen_to_i128_factor16_broadcast_to_v2i128_factor2:
 ; AVX512F:       # %bb.0:
-; AVX512F-NEXT:    vpermq {{.*#+}} ymm0 = mem[0,1,0,1]
-; AVX512F-NEXT:    vbroadcasti128 {{.*#+}} ymm1 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512F-NEXT:    # ymm1 = mem[0,1,0,1]
-; AVX512F-NEXT:    vpternlogq $172, 32(%rdi), %ymm0, %ymm1
+; AVX512F-NEXT:    vmovdqa 32(%rdi), %ymm0
+; AVX512F-NEXT:    vpermq {{.*#+}} ymm1 = mem[0,1,0,1]
+; AVX512F-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
 ; AVX512F-NEXT:    vpaddb (%rsi), %ymm1, %ymm0
 ; AVX512F-NEXT:    vmovdqa %ymm0, (%rdx)
 ; AVX512F-NEXT:    vzeroupper
 ; AVX512F-NEXT:    retq
 ;
 ; AVX512DQ-LABEL: vec256_i8_widen_to_i128_factor16_broadcast_to_v2i128_factor2:
 ; AVX512DQ:       # %bb.0:
-; AVX512DQ-NEXT:    vpermq {{.*#+}} ymm0 = mem[0,1,0,1]
-; AVX512DQ-NEXT:    vbroadcasti128 {{.*#+}} ymm1 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512DQ-NEXT:    # ymm1 = mem[0,1,0,1]
-; AVX512DQ-NEXT:    vpternlogq $172, 32(%rdi), %ymm0, %ymm1
+; AVX512DQ-NEXT:    vmovdqa 32(%rdi), %ymm0
+; AVX512DQ-NEXT:    vpermq {{.*#+}} ymm1 = mem[0,1,0,1]
+; AVX512DQ-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
 ; AVX512DQ-NEXT:    vpaddb (%rsi), %ymm1, %ymm0
 ; AVX512DQ-NEXT:    vmovdqa %ymm0, (%rdx)
 ; AVX512DQ-NEXT:    vzeroupper
@@ -2629,10 +2627,8 @@ define void @vec384_i8_widen_to_i128_factor16_broadcast_to_v3i128_factor3(ptr %i
 ; AVX512F-NEXT:    vmovdqa 48(%rdi), %xmm0
 ; AVX512F-NEXT:    vmovdqa (%rdi), %ymm1
 ; AVX512F-NEXT:    vpermq {{.*#+}} ymm2 = ymm1[0,1,0,1]
-; AVX512F-NEXT:    vbroadcasti128 {{.*#+}} ymm3 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512F-NEXT:    # ymm3 = mem[0,1,0,1]
-; AVX512F-NEXT:    vpternlogq $202, %ymm2, %ymm0, %ymm3
-; AVX512F-NEXT:    vpaddb (%rsi), %ymm3, %ymm0
+; AVX512F-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm2
+; AVX512F-NEXT:    vpaddb (%rsi), %ymm2, %ymm0
 ; AVX512F-NEXT:    vpaddb 32(%rsi), %ymm1, %ymm1
 ; AVX512F-NEXT:    vmovdqa %ymm1, 32(%rdx)
 ; AVX512F-NEXT:    vmovdqa %ymm0, (%rdx)
@@ -2644,10 +2640,8 @@ define void @vec384_i8_widen_to_i128_factor16_broadcast_to_v3i128_factor3(ptr %i
 ; AVX512DQ-NEXT:    vmovdqa 48(%rdi), %xmm0
 ; AVX512DQ-NEXT:    vmovdqa (%rdi), %ymm1
 ; AVX512DQ-NEXT:    vpermq {{.*#+}} ymm2 = ymm1[0,1,0,1]
-; AVX512DQ-NEXT:    vbroadcasti128 {{.*#+}} ymm3 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX512DQ-NEXT:    # ymm3 = mem[0,1,0,1]
-; AVX512DQ-NEXT:    vpternlogq $202, %ymm2, %ymm0, %ymm3
-; AVX512DQ-NEXT:    vpaddb (%rsi), %ymm3, %ymm0
+; AVX512DQ-NEXT:    vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm2
+; AVX512DQ-NEXT:    vpaddb (%rsi), %ymm2, %ymm0
 ; AVX512DQ-NEXT:    vpaddb 32(%rsi), %ymm1, %ymm1
 ; AVX512DQ-NEXT:    vmovdqa %ymm1, 32(%rdx)
 ; AVX512DQ-NEXT:    vmovdqa %ymm0, (%rdx)
 
@@ -3671,10 +3671,9 @@ define <4 x float> @test_masked_z_16xfloat_to_4xfloat_perm_mem_mask1(ptr %vp, <4
 define <4 x float> @test_masked_16xfloat_to_4xfloat_perm_mem_mask2(ptr %vp, <4 x float> %vec2, <4 x float> %mask) {
 ; CHECK-LABEL: test_masked_16xfloat_to_4xfloat_perm_mem_mask2:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmovddup {{.*#+}} xmm2 = [4,14,4,14]
-; CHECK-NEXT:    # xmm2 = mem[0,0]
-; CHECK-NEXT:    vmovaps 32(%rdi), %ymm3
-; CHECK-NEXT:    vpermt2ps (%rdi), %ymm2, %ymm3
+; CHECK-NEXT:    vmovaps 32(%rdi), %ymm2
+; CHECK-NEXT:    vbroadcastsd {{.*#+}} ymm3 = [4,14,4,14,4,14,4,14]
+; CHECK-NEXT:    vpermi2ps (%rdi), %ymm2, %ymm3
 ; CHECK-NEXT:    vxorps %xmm2, %xmm2, %xmm2
 ; CHECK-NEXT:    vcmpeqps %xmm2, %xmm1, %k1
 ; CHECK-NEXT:    vmovaps %xmm3, %xmm0 {%k1}
@@ -3690,12 +3689,11 @@ define <4 x float> @test_masked_16xfloat_to_4xfloat_perm_mem_mask2(ptr %vp, <4 x
 define <4 x float> @test_masked_z_16xfloat_to_4xfloat_perm_mem_mask2(ptr %vp, <4 x float> %mask) {
 ; CHECK-LABEL: test_masked_z_16xfloat_to_4xfloat_perm_mem_mask2:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmovddup {{.*#+}} xmm2 = [4,14,4,14]
-; CHECK-NEXT:    # xmm2 = mem[0,0]
-; CHECK-NEXT:    vmovaps 32(%rdi), %ymm1
+; CHECK-NEXT:    vmovaps 32(%rdi), %ymm2
+; CHECK-NEXT:    vbroadcastsd {{.*#+}} ymm1 = [4,14,4,14,4,14,4,14]
 ; CHECK-NEXT:    vxorps %xmm3, %xmm3, %xmm3
 ; CHECK-NEXT:    vcmpeqps %xmm3, %xmm0, %k1
-; CHECK-NEXT:    vpermt2ps (%rdi), %ymm2, %ymm1 {%k1} {z}
+; CHECK-NEXT:    vpermi2ps (%rdi), %ymm2, %ymm1 {%k1} {z}
 ; CHECK-NEXT:    vmovaps %xmm1, %xmm0
 ; CHECK-NEXT:    vzeroupper
 ; CHECK-NEXT:    retq
Original file line number	Diff line number	Diff line change
`@@ -297,6 +297,8 @@ static bool matchBroadcastSize(const X86FoldTableEntry &Entry,`
`297`	`297`	`case TB_BCAST_SS:`
`298`	`298`	`case TB_BCAST_D:`
`299`	`299`	`return BroadcastBits == 32;`
	`300`	`+ case TB_BCAST_SH:`
	`301`	`+ return BroadcastBits == 16;`
`300`	`302`	`}`
`301`	`303`	`return false;`
`302`	`304`	`}`