intel
diff --git a/‎llvm/lib/Target/X86/X86ISelLowering.cpp
Lines changed: 27 additions & 6 deletions b/‎llvm/lib/Target/X86/X86ISelLowering.cpp
Lines changed: 27 additions & 6 deletions
diff --git a/‎llvm/test/CodeGen/X86/bitreverse.ll
Lines changed: 4 additions & 9 deletions b/‎llvm/test/CodeGen/X86/bitreverse.ll
Lines changed: 4 additions & 9 deletions
diff --git a/‎llvm/test/CodeGen/X86/bswap-vector.ll
Lines changed: 16 additions & 35 deletions b/‎llvm/test/CodeGen/X86/bswap-vector.ll
Lines changed: 16 additions & 35 deletions
@@ -11704,7 +11704,7 @@ static int matchShuffleAsBitRotate(ArrayRef<int> Mask, int NumSubElts) {
   return RotateAmt;
 }
 
-/// Lower shuffle using ISD::ROTL rotations.
+/// Lower shuffle using X86ISD::VROTLI rotations.
 static SDValue lowerShuffleAsBitRotate(const SDLoc &DL, MVT VT, SDValue V1,
                                        ArrayRef<int> Mask,
                                        const X86Subtarget &Subtarget,
@@ -11716,25 +11716,46 @@ static SDValue lowerShuffleAsBitRotate(const SDLoc &DL, MVT VT, SDValue V1,
   assert(EltSizeInBits < 64 && "Can't rotate 64-bit integers");
 
   // Only XOP + AVX512 targets have bit rotation instructions.
+  // If we at least have SSSE3 (PSHUFB) then we shouldn't attempt to use this.
   bool IsLegal =
       (VT.is128BitVector() && Subtarget.hasXOP()) || Subtarget.hasAVX512();
-  if (!IsLegal)
+  if (!IsLegal && Subtarget.hasSSE3())
     return SDValue();
 
   // AVX512 only has vXi32/vXi64 rotates, so limit the rotation sub group size.
-  int MinSubElts = Subtarget.hasXOP() ? 2 : std::max(32 / EltSizeInBits, 2);
+  int MinSubElts = Subtarget.hasAVX512() ? std::max(32 / EltSizeInBits, 2) : 2;
   int MaxSubElts = 64 / EltSizeInBits;
   for (int NumSubElts = MinSubElts; NumSubElts <= MaxSubElts; NumSubElts *= 2) {
     int RotateAmt = matchShuffleAsBitRotate(Mask, NumSubElts);
     if (RotateAmt < 0)
       continue;
-    int RotateAmtInBits = RotateAmt * EltSizeInBits;
+
     int NumElts = VT.getVectorNumElements();
     MVT RotateSVT = MVT::getIntegerVT(EltSizeInBits * NumSubElts);
     MVT RotateVT = MVT::getVectorVT(RotateSVT, NumElts / NumSubElts);
+
+    // For pre-SSSE3 targets, if we are shuffling vXi8 elts then ISD::ROTL,
+    // expanded to OR(SRL,SHL), will be more efficient, but if they can
+    // widen to vXi16 or more then existing lowering should will be better.
+    int RotateAmtInBits = RotateAmt * EltSizeInBits;
+    if (!IsLegal) {
+      if ((RotateAmtInBits % 16) == 0)
+        return SDValue();
+      // TODO: Use getTargetVShiftByConstNode.
+      unsigned ShlAmt = RotateAmtInBits;
+      unsigned SrlAmt = RotateSVT.getScalarSizeInBits() - RotateAmtInBits;
+      V1 = DAG.getBitcast(RotateVT, V1);
+      SDValue SHL = DAG.getNode(X86ISD::VSHLI, DL, RotateVT, V1,
+                                DAG.getTargetConstant(ShlAmt, DL, MVT::i8));
+      SDValue SRL = DAG.getNode(X86ISD::VSRLI, DL, RotateVT, V1,
+                                DAG.getTargetConstant(SrlAmt, DL, MVT::i8));
+      SDValue Rot = DAG.getNode(ISD::OR, DL, RotateVT, SHL, SRL);
+      return DAG.getBitcast(VT, Rot);
+    }
+
     SDValue Rot =
-        DAG.getNode(ISD::ROTL, DL, RotateVT, DAG.getBitcast(RotateVT, V1),
-                    DAG.getConstant(RotateAmtInBits, DL, RotateVT));
+        DAG.getNode(X86ISD::VROTLI, DL, RotateVT, DAG.getBitcast(RotateVT, V1),
+                    DAG.getTargetConstant(RotateAmtInBits, DL, MVT::i8));
     return DAG.getBitcast(VT, Rot);
   }
 
 
@@ -52,15 +52,10 @@ define <2 x i16> @test_bitreverse_v2i16(<2 x i16> %a) nounwind {
 ;
 ; X64-LABEL: test_bitreverse_v2i16:
 ; X64:       # %bb.0:
-; X64-NEXT:    pxor %xmm1, %xmm1
-; X64-NEXT:    movdqa %xmm0, %xmm2
-; X64-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
-; X64-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[1,0,3,2,4,5,6,7]
-; X64-NEXT:    pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,5,4,7,6]
-; X64-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-; X64-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
-; X64-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
-; X64-NEXT:    packuswb %xmm2, %xmm0
+; X64-NEXT:    movdqa %xmm0, %xmm1
+; X64-NEXT:    psrlw $8, %xmm1
+; X64-NEXT:    psllw $8, %xmm0
+; X64-NEXT:    por %xmm1, %xmm0
 ; X64-NEXT:    movdqa %xmm0, %xmm1
 ; X64-NEXT:    psllw $4, %xmm1
 ; X64-NEXT:    pand {{.*}}(%rip), %xmm1
 
@@ -11,15 +11,10 @@ declare <2 x i64> @llvm.bswap.v2i64(<2 x i64>)
 define <8 x i16> @test1(<8 x i16> %v) {
 ; CHECK-NOSSSE3-LABEL: test1:
 ; CHECK-NOSSSE3:       # %bb.0: # %entry
-; CHECK-NOSSSE3-NEXT:    pxor %xmm1, %xmm1
-; CHECK-NOSSSE3-NEXT:    movdqa %xmm0, %xmm2
-; CHECK-NOSSSE3-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    packuswb %xmm2, %xmm0
+; CHECK-NOSSSE3-NEXT:    movdqa %xmm0, %xmm1
+; CHECK-NOSSSE3-NEXT:    psrlw $8, %xmm1
+; CHECK-NOSSSE3-NEXT:    psllw $8, %xmm0
+; CHECK-NOSSSE3-NEXT:    por %xmm1, %xmm0
 ; CHECK-NOSSSE3-NEXT:    ret{{[l|q]}}
 ;
 ; CHECK-SSSE3-LABEL: test1:
@@ -132,23 +127,14 @@ declare <4 x i64> @llvm.bswap.v4i64(<4 x i64>)
 define <16 x i16> @test4(<16 x i16> %v) {
 ; CHECK-NOSSSE3-LABEL: test4:
 ; CHECK-NOSSSE3:       # %bb.0: # %entry
-; CHECK-NOSSSE3-NEXT:    pxor %xmm2, %xmm2
-; CHECK-NOSSSE3-NEXT:    movdqa %xmm0, %xmm3
-; CHECK-NOSSSE3-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm2[8],xmm3[9],xmm2[9],xmm3[10],xmm2[10],xmm3[11],xmm2[11],xmm3[12],xmm2[12],xmm3[13],xmm2[13],xmm3[14],xmm2[14],xmm3[15],xmm2[15]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm3 = xmm3[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    packuswb %xmm3, %xmm0
-; CHECK-NOSSSE3-NEXT:    movdqa %xmm1, %xmm3
-; CHECK-NOSSSE3-NEXT:    punpckhbw {{.*#+}} xmm3 = xmm3[8],xmm2[8],xmm3[9],xmm2[9],xmm3[10],xmm2[10],xmm3[11],xmm2[11],xmm3[12],xmm2[12],xmm3[13],xmm2[13],xmm3[14],xmm2[14],xmm3[15],xmm2[15]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm3 = xmm3[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm3 = xmm3[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm1 = xmm1[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm1 = xmm1[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    packuswb %xmm3, %xmm1
+; CHECK-NOSSSE3-NEXT:    movdqa %xmm0, %xmm2
+; CHECK-NOSSSE3-NEXT:    psrlw $8, %xmm2
+; CHECK-NOSSSE3-NEXT:    psllw $8, %xmm0
+; CHECK-NOSSSE3-NEXT:    por %xmm2, %xmm0
+; CHECK-NOSSSE3-NEXT:    movdqa %xmm1, %xmm2
+; CHECK-NOSSSE3-NEXT:    psrlw $8, %xmm2
+; CHECK-NOSSSE3-NEXT:    psllw $8, %xmm1
+; CHECK-NOSSSE3-NEXT:    por %xmm2, %xmm1
 ; CHECK-NOSSSE3-NEXT:    ret{{[l|q]}}
 ;
 ; CHECK-SSSE3-LABEL: test4:
@@ -252,15 +238,10 @@ declare <4 x i16> @llvm.bswap.v4i16(<4 x i16>)
 define <4 x i16> @test7(<4 x i16> %v) {
 ; CHECK-NOSSSE3-LABEL: test7:
 ; CHECK-NOSSSE3:       # %bb.0: # %entry
-; CHECK-NOSSSE3-NEXT:    pxor %xmm1, %xmm1
-; CHECK-NOSSSE3-NEXT:    movdqa %xmm0, %xmm2
-; CHECK-NOSSSE3-NEXT:    punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm1[8],xmm2[9],xmm1[9],xmm2[10],xmm1[10],xmm2[11],xmm1[11],xmm2[12],xmm1[12],xmm2[13],xmm1[13],xmm2[14],xmm1[14],xmm2[15],xmm1[15]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm2 = xmm2[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
-; CHECK-NOSSSE3-NEXT:    pshuflw {{.*#+}} xmm0 = xmm0[1,0,3,2,4,5,6,7]
-; CHECK-NOSSSE3-NEXT:    pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,7,6]
-; CHECK-NOSSSE3-NEXT:    packuswb %xmm2, %xmm0
+; CHECK-NOSSSE3-NEXT:    movdqa %xmm0, %xmm1
+; CHECK-NOSSSE3-NEXT:    psrlw $8, %xmm1
+; CHECK-NOSSSE3-NEXT:    psllw $8, %xmm0
+; CHECK-NOSSSE3-NEXT:    por %xmm1, %xmm0
 ; CHECK-NOSSSE3-NEXT:    ret{{[l|q]}}
 ;
 ; CHECK-SSSE3-LABEL: test7: