llvm
diff --git a/‎llvm/lib/Target/X86/X86ISelLowering.cpp
Lines changed: 11 additions & 1 deletion b/‎llvm/lib/Target/X86/X86ISelLowering.cpp
Lines changed: 11 additions & 1 deletion
diff --git a/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-4.ll
Lines changed: 1267 additions & 951 deletions b/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-4.ll
Lines changed: 1267 additions & 951 deletions
diff --git a/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-5.ll
Lines changed: 853 additions & 905 deletions b/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-5.ll
Lines changed: 853 additions & 905 deletions
diff --git a/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-6.ll
Lines changed: 2579 additions & 2719 deletions b/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-6.ll
Lines changed: 2579 additions & 2719 deletions
diff --git a/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-7.ll
Lines changed: 4292 additions & 3327 deletions b/‎llvm/test/CodeGen/X86/vector-interleaved-store-i16-stride-7.ll
Lines changed: 4292 additions & 3327 deletions
diff --git a/‎llvm/test/CodeGen/X86/vector-interleaved-store-i64-stride-4.ll
Lines changed: 38 additions & 20 deletions b/‎llvm/test/CodeGen/X86/vector-interleaved-store-i64-stride-4.ll
Lines changed: 38 additions & 20 deletions
@@ -37317,7 +37317,8 @@ static bool matchBinaryShuffle(MVT MaskVT, ArrayRef<int> Mask,
       (MaskVT.is128BitVector() && Subtarget.hasSSE2()) ||
       (MaskVT.is256BitVector() && 32 <= EltSizeInBits && Subtarget.hasAVX()) ||
       (MaskVT.is256BitVector() && Subtarget.hasAVX2()) ||
-      (MaskVT.is512BitVector() && Subtarget.hasAVX512())) {
+      (MaskVT.is512BitVector() && Subtarget.hasAVX512() &&
+       (32 <= EltSizeInBits || Subtarget.hasBWI()))) {
     if (matchShuffleWithUNPCK(MaskVT, V1, V2, Shuffle, IsUnary, Mask, DL, DAG,
                               Subtarget)) {
       SrcVT = DstVT = MaskVT;
@@ -55005,6 +55006,15 @@ static SDValue combineINSERT_SUBVECTOR(SDNode *N, SelectionDAG &DAG,
       return DAG.getNode(ISD::INSERT_SUBVECTOR, dl, OpVT,
                          getZeroVector(OpVT, Subtarget, DAG, dl),
                          SubVectorOps[0], DAG.getIntPtrConstant(0, dl));
+
+    // Attempt to recursively combine to a shuffle.
+    if (all_of(SubVectorOps, [](SDValue SubOp) {
+          return isTargetShuffle(SubOp.getOpcode());
+        })) {
+      SDValue Op(N, 0);
+      if (SDValue Res = combineX86ShufflesRecursively(Op, DAG, Subtarget))
+        return Res;
+    }
   }
 
   // If this is a broadcast insert into an upper undef, use a larger broadcast.
 
@@ -159,26 +159,44 @@ define void @store_i64_stride4_vf4(ptr %in.vecptr0, ptr %in.vecptr1, ptr %in.vec
 ; AVX2-ONLY-NEXT:    vzeroupper
 ; AVX2-ONLY-NEXT:    retq
 ;
-; AVX512-LABEL: store_i64_stride4_vf4:
-; AVX512:       # %bb.0:
-; AVX512-NEXT:    vmovdqa (%rdi), %ymm0
-; AVX512-NEXT:    vmovdqa (%rsi), %ymm1
-; AVX512-NEXT:    vmovdqa (%rdx), %ymm2
-; AVX512-NEXT:    vmovdqa (%rcx), %ymm3
-; AVX512-NEXT:    vperm2i128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
-; AVX512-NEXT:    vperm2i128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
-; AVX512-NEXT:    vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
-; AVX512-NEXT:    vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
-; AVX512-NEXT:    vpunpcklqdq {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]
-; AVX512-NEXT:    vpunpcklqdq {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
-; AVX512-NEXT:    vpunpckhqdq {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]
-; AVX512-NEXT:    vpunpckhqdq {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
-; AVX512-NEXT:    vinserti64x4 $1, %ymm4, %zmm2, %zmm1
-; AVX512-NEXT:    vinserti64x4 $1, %ymm0, %zmm3, %zmm0
-; AVX512-NEXT:    vmovdqa64 %zmm0, 64(%r8)
-; AVX512-NEXT:    vmovdqa64 %zmm1, (%r8)
-; AVX512-NEXT:    vzeroupper
-; AVX512-NEXT:    retq
+; AVX512-SLOW-LABEL: store_i64_stride4_vf4:
+; AVX512-SLOW:       # %bb.0:
+; AVX512-SLOW-NEXT:    vmovdqa (%rdi), %ymm0
+; AVX512-SLOW-NEXT:    vmovdqa (%rsi), %ymm1
+; AVX512-SLOW-NEXT:    vmovdqa (%rdx), %ymm2
+; AVX512-SLOW-NEXT:    vmovdqa (%rcx), %ymm3
+; AVX512-SLOW-NEXT:    vperm2i128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
+; AVX512-SLOW-NEXT:    vperm2i128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
+; AVX512-SLOW-NEXT:    vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
+; AVX512-SLOW-NEXT:    vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
+; AVX512-SLOW-NEXT:    vpunpcklqdq {{.*#+}} ymm2 = ymm4[0],ymm5[0],ymm4[2],ymm5[2]
+; AVX512-SLOW-NEXT:    vpunpcklqdq {{.*#+}} ymm3 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
+; AVX512-SLOW-NEXT:    vpunpckhqdq {{.*#+}} ymm4 = ymm4[1],ymm5[1],ymm4[3],ymm5[3]
+; AVX512-SLOW-NEXT:    vpunpckhqdq {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
+; AVX512-SLOW-NEXT:    vinserti64x4 $1, %ymm4, %zmm2, %zmm1
+; AVX512-SLOW-NEXT:    vinserti64x4 $1, %ymm0, %zmm3, %zmm0
+; AVX512-SLOW-NEXT:    vmovdqa64 %zmm0, 64(%r8)
+; AVX512-SLOW-NEXT:    vmovdqa64 %zmm1, (%r8)
+; AVX512-SLOW-NEXT:    vzeroupper
+; AVX512-SLOW-NEXT:    retq
+;
+; AVX512-FAST-LABEL: store_i64_stride4_vf4:
+; AVX512-FAST:       # %bb.0:
+; AVX512-FAST-NEXT:    vmovdqa (%rdi), %ymm0
+; AVX512-FAST-NEXT:    vmovdqa (%rsi), %ymm1
+; AVX512-FAST-NEXT:    vmovdqa (%rdx), %ymm2
+; AVX512-FAST-NEXT:    vmovdqa (%rcx), %ymm3
+; AVX512-FAST-NEXT:    vperm2i128 {{.*#+}} ymm4 = ymm0[0,1],ymm2[0,1]
+; AVX512-FAST-NEXT:    vperm2i128 {{.*#+}} ymm5 = ymm1[0,1],ymm3[0,1]
+; AVX512-FAST-NEXT:    vperm2i128 {{.*#+}} ymm0 = ymm0[2,3],ymm2[2,3]
+; AVX512-FAST-NEXT:    vperm2i128 {{.*#+}} ymm1 = ymm1[2,3],ymm3[2,3]
+; AVX512-FAST-NEXT:    vmovdqa64 {{.*#+}} zmm2 = [0,8,2,10,1,9,3,11]
+; AVX512-FAST-NEXT:    vpermt2q %zmm5, %zmm2, %zmm4
+; AVX512-FAST-NEXT:    vpermt2q %zmm1, %zmm2, %zmm0
+; AVX512-FAST-NEXT:    vmovdqa64 %zmm0, 64(%r8)
+; AVX512-FAST-NEXT:    vmovdqa64 %zmm4, (%r8)
+; AVX512-FAST-NEXT:    vzeroupper
+; AVX512-FAST-NEXT:    retq
   %in.vec0 = load <4 x i64>, ptr %in.vecptr0, align 64
   %in.vec1 = load <4 x i64>, ptr %in.vecptr1, align 64
   %in.vec2 = load <4 x i64>, ptr %in.vecptr2, align 64