Implement support for LLVM intrinsic CTLZ

mnaczk · igcbot · commit 5741f806227d · 2022-09-16T14:59:15.000+02:00
Implement support for LLVM intrinsic CTLZ with source other than i32
diff --git a/IGC/Compiler/Optimizer/OpenCLPasses/ReplaceUnsupportedIntrinsics/ReplaceUnsupportedIntrinsics.cpp b/IGC/Compiler/Optimizer/OpenCLPasses/ReplaceUnsupportedIntrinsics/ReplaceUnsupportedIntrinsics.cpp
@@ -96,6 +96,9 @@ namespace
         void generalGroupI8Stream(
             LLVMContext& C, uint32_t NumI8, uint32_t Align,
             uint32_t& NumI32, Type** Vecs, uint32_t& L, uint32_t BaseTypeSize);
+        // support function for replaceCountTheLeadingZeros
+        Value* evaluateCtlzUpto32bit(IGCLLVM::IRBuilder<>* Builder, Value* inVal, Type* singleElementType, Value* canBePoison);
+        Value* evaluateCtlz64bit(IGCLLVM::IRBuilder<>* Builder, Value* inVal, Type* singleElementType, Value* canBePoison);
 
         /// replace member function
         void replaceMemcpy(IntrinsicInst* I);
@@ -104,6 +107,7 @@ namespace
         void replaceExpect(IntrinsicInst* I);
         void replaceFunnelShift(IntrinsicInst* I);
         void replaceLRound(IntrinsicInst* I);
+        void replaceCountTheLeadingZeros(IntrinsicInst* I);
 
         static const std::map< Intrinsic::ID, MemFuncPtr_t > m_intrinsicToFunc;
     };
@@ -129,7 +133,8 @@ const std::map< Intrinsic::ID, ReplaceUnsupportedIntrinsics::MemFuncPtr_t > Repl
     { Intrinsic::memmove,    &ReplaceUnsupportedIntrinsics::replaceMemMove },
     { Intrinsic::expect,     &ReplaceUnsupportedIntrinsics::replaceExpect },
     { Intrinsic::lround,     &ReplaceUnsupportedIntrinsics::replaceLRound },
-    { Intrinsic::llround,    &ReplaceUnsupportedIntrinsics::replaceLRound }
+    { Intrinsic::llround,    &ReplaceUnsupportedIntrinsics::replaceLRound },
+    { Intrinsic::ctlz,       &ReplaceUnsupportedIntrinsics::replaceCountTheLeadingZeros }
 };
 
 ReplaceUnsupportedIntrinsics::ReplaceUnsupportedIntrinsics() : FunctionPass(ID)
@@ -985,6 +990,113 @@ void ReplaceUnsupportedIntrinsics::replaceLRound(IntrinsicInst* I) {
     I->eraseFromParent();
 }
 
+/*
+  Replaces llvm.ctlz.* intrinsics (count the leading zeros)
+  to llvm.ctlz.i32 because we support llvm.ctlz intrinsic
+  only with source type i32.
+
+  E.g.
+  %1 = call <2 x i8> @llvm.ctlz.v2i8(<2 x i8> %0, i1 false)
+  ret <2 x i8> %1
+  =>
+  %1 = extractelement <2 x i8> %0, i64 0
+  %2 = zext i8 %1 to i32
+  %3 = call i32 @llvm.ctlz.i32(i32 %2, i1 false)
+  %4 = trunc i32 %3 to i8
+  %5 = add nsw i8 %4, -24
+  %6 = insertelement <2 x i8> undef, i8 %5, i32 0
+  %7 = extractelement <2 x i8> %0, i64 1
+  %8 = zext i8 %7 to i32
+  %9 = call i32 @llvm.ctlz.i32(i32 %8, i1 false)
+  %10 = trunc i32 %9 to i8
+  %11 = add nsw i8 %10, -24
+  %12 = insertelement <2 x i8> %6, i8 %11, i32 1
+  %13 = call <2 x i8> @llvm.ctlz.v2i8(<2 x i8> %0, i1 false)
+  ret <2 x i8> %12
+*/
+void ReplaceUnsupportedIntrinsics::replaceCountTheLeadingZeros(IntrinsicInst* I) {
+    IGC_ASSERT(I->getIntrinsicID() == Intrinsic::ctlz);
+
+    Type* oldIntrinsicDstType = I->getType();
+    Type* singleElementType = oldIntrinsicDstType;
+    uint32_t numOfElements = 1;
+    bool isVector = oldIntrinsicDstType->isVectorTy();
+
+    if (isVector)
+    {
+        auto oldIntrinsicDstTypeFVT = dyn_cast<IGCLLVM::FixedVectorType>(oldIntrinsicDstType);
+        numOfElements = (uint32_t)oldIntrinsicDstTypeFVT->getNumElements();
+        singleElementType = oldIntrinsicDstTypeFVT->getElementType();
+    }
+
+    int singleElementSizeInBits = singleElementType->getScalarSizeInBits();
+
+    IGC_ASSERT_MESSAGE(singleElementSizeInBits == 8 || singleElementSizeInBits == 16 ||
+        singleElementSizeInBits == 32 || singleElementSizeInBits == 64,
+        "Currently for Intrinsic::ctlz we support source bit size: 8,16,32,64");
+
+    // noting to replace, early return
+    if (!isVector && singleElementSizeInBits == 32) return;
+
+    bool bitSizeLowerThan32 = singleElementSizeInBits < 32;
+    bool bitSizeEqual64 = singleElementSizeInBits == 64;
+
+    IGCLLVM::IRBuilder<> Builder(I);
+
+    Value* inputVal = I->getArgOperand(0);
+    Value* canBePoison = I->getArgOperand(1);
+    Value* outputVal = llvm::UndefValue::get(oldIntrinsicDstType); // Will be overwritten in scalar case.
+    Value* retVal = inputVal;
+
+    for (uint32_t i = 0; i < numOfElements; i++)
+    {
+        if (isVector) retVal = Builder.CreateExtractElement(inputVal, i);
+
+        if (bitSizeLowerThan32)
+            retVal = evaluateCtlzUpto32bit(&Builder, retVal, singleElementType, canBePoison);
+        else if (bitSizeEqual64)
+            retVal = evaluateCtlz64bit(&Builder, retVal, singleElementType, canBePoison);
+
+        if (singleElementSizeInBits == 32)
+            retVal = Builder.CreateIntrinsic(Intrinsic::ctlz, { Builder.getInt32Ty() }, { retVal, canBePoison });
+
+        if (isVector)
+            outputVal = Builder.CreateInsertElement(outputVal, retVal, Builder.getInt32(i));
+        else // for scalar type
+            outputVal = retVal;
+    }
+    I->replaceAllUsesWith(outputVal);
+}
+
+Value* ReplaceUnsupportedIntrinsics::evaluateCtlzUpto32bit(IGCLLVM::IRBuilder<>* Builder, Value* inVal, Type* singleElementType, Value* canBePoison) {
+    int sizeInBits = singleElementType->getScalarSizeInBits();
+    Value* retVal = Builder->CreateZExt(inVal, Builder->getInt32Ty());
+    retVal = Builder->CreateIntrinsic(Intrinsic::ctlz, { Builder->getInt32Ty() }, { retVal, canBePoison });
+    retVal = Builder->CreateTrunc(retVal, singleElementType);
+    auto constInt = Builder->getIntN(sizeInBits, sizeInBits - 32);
+    retVal = Builder->CreateNSWAdd(retVal, constInt);
+    return retVal;
+}
+
+Value* ReplaceUnsupportedIntrinsics::evaluateCtlz64bit(IGCLLVM::IRBuilder<>* Builder, Value* inVal, Type* singleElementType, Value* canBePoison) {
+    Value* lowBits = Builder->CreateTrunc(inVal, Builder->getInt32Ty());
+    lowBits = Builder->CreateIntrinsic(Intrinsic::ctlz, { Builder->getInt32Ty() }, { lowBits, canBePoison });
+
+    Value* hiBits = Builder->CreateLShr(inVal, 32);
+    hiBits = Builder->CreateTrunc(hiBits, Builder->getInt32Ty());
+    hiBits = Builder->CreateIntrinsic(Intrinsic::ctlz, { Builder->getInt32Ty() }, { hiBits, canBePoison });
+
+    auto maxValueIn32BitsPlusOne = Builder->getInt64((uint64_t)(0xffffffff) + 1); // maxValueIn32Bits + 1
+    Value* cmp = Builder->CreateICmp(CmpInst::Predicate::ICMP_ULT, inVal, maxValueIn32BitsPlusOne);
+
+    auto constInt = Builder->getInt32(32);
+    lowBits = Builder->CreateAdd(lowBits, constInt);
+
+    Value* retVal = Builder->CreateSelect(cmp, lowBits, hiBits);
+    retVal = Builder->CreateZExt(retVal, singleElementType);
+    return retVal;
+}
+
 void ReplaceUnsupportedIntrinsics::visitIntrinsicInst(IntrinsicInst& I) {
     if (m_intrinsicToFunc.find(I.getIntrinsicID()) != m_intrinsicToFunc.end()) {
         m_instsToReplace.push_back(&I);
diff --git a/IGC/Compiler/tests/ReplaceIntrinsics/ctlz.ll b/IGC/Compiler/tests/ReplaceIntrinsics/ctlz.ll
@@ -0,0 +1,144 @@
+;=========================== begin_copyright_notice ============================
+;
+; Copyright (C) 2022 Intel Corporation
+;
+; SPDX-License-Identifier: MIT
+;
+;============================ end_copyright_notice =============================
+
+; RUN: igc_opt -igc-replace-unsupported-intrinsics -verify -S %s -o %t
+; RUN: FileCheck %s < %t
+
+define i8 @A0(i8) {
+entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[CONV_0:%[a-zA-Z0-9]+]] = zext i8 %0 to i32
+; CHECK:  [[CALL:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_0]], i1 false)
+; CHECK:  [[CONV_1:%[a-zA-Z0-9]+]] = trunc i32 [[CALL]] to i8
+; CHECK:  [[SUB:%[a-zA-Z0-9]+]] = add nsw i8 [[CONV_1]], -24
+; CHECK:  ret i8 [[SUB]]
+  %1 = call i8 @llvm.ctlz.i8(i8 %0, i1 false)
+  ret i8 %1
+}
+
+
+define i16 @A1(i16) {
+entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[CONV_0:%[a-zA-Z0-9]+]] = zext i16 %0 to i32
+; CHECK:  [[CALL:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_0]], i1 false)
+; CHECK:  [[CONV_1:%[a-zA-Z0-9]+]] = trunc i32 [[CALL]] to i16
+; CHECK:  [[SUB:%[a-zA-Z0-9]+]] = add nsw i16 [[CONV_1]], -16
+; CHECK:  ret i16 [[SUB]]
+  %1 = call i16 @llvm.ctlz.i16(i16 %0, i1 false)
+  ret i16 %1
+}
+
+
+define i32 @A2(i32) {
+entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[CALL:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 %0, i1 false)
+; CHECK:  ret i32 [[CALL]]
+  %1 = call i32 @llvm.ctlz.i32(i32 %0, i1 false)
+  ret i32 %1
+}
+
+define <2 x i8> @A3(<2 x i8>) {
+entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[EXTRACT_0:%[a-zA-Z0-9]+]] = extractelement <2 x i8> %0, [[INDEX_TYPE_E:i(16|32|64)]] 0
+; CHECK:  [[CONV_0_0:%[a-zA-Z0-9]+]] = zext i8 [[EXTRACT_0]] to i32
+; CHECK:  [[CALL_0:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_0_0]], i1 false)
+; CHECK:  [[CONV_0_1:%[a-zA-Z0-9]+]] = trunc i32 [[CALL_0]] to i8
+; CHECK:  [[SUB_0:%[a-zA-Z0-9]+]] = add nsw i8 [[CONV_0_1]], -24
+; CHECK:  [[INSERT_0:%[a-zA-Z0-9]+]] = insertelement <2 x i8> undef, i8 [[SUB_0]], [[INDEX_TYPE_I:i(16|32|64)]] 0
+
+; CHECK:  [[EXTRACT_1:%[a-zA-Z0-9]+]] = extractelement <2 x i8> %0, [[INDEX_TYPE_E]] 1
+; CHECK:  [[CONV_1_0:%[a-zA-Z0-9]+]] = zext i8 [[EXTRACT_1]] to i32
+; CHECK:  [[CALL_1:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_1_0]], i1 false)
+; CHECK:  [[CONV_1_1:%[a-zA-Z0-9]+]] = trunc i32 [[CALL_1]] to i8
+; CHECK:  [[SUB_1:%[a-zA-Z0-9]+]] = add nsw i8 [[CONV_1_1]], -24
+; CHECK:  [[INSERT_1:%[a-zA-Z0-9]+]] = insertelement <2 x i8> [[INSERT_0]], i8 [[SUB_1]], [[INDEX_TYPE_I]] 1
+
+; CHECK:  ret <2 x i8> [[INSERT_1]]
+  %1 = call <2 x i8> @llvm.ctlz.v2i8(<2 x i8> %0, i1 false)
+  ret <2 x i8> %1
+}
+
+
+define <2 x i32> @A4(<2 x i32>) {
+entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[EXTRACT_0:%[a-zA-Z0-9]+]] = extractelement <2 x i32> %0, [[INDEX_TYPE_E:i(16|32|64)]] 0
+; CHECK:  [[CALL_0:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[EXTRACT_0]], i1 false)
+; CHECK:  [[INSERT_0:%[a-zA-Z0-9]+]] = insertelement <2 x i32> undef, i32 [[CALL_0]], [[INDEX_TYPE_I:i(16|32|64)]] 0
+
+; CHECK:  [[EXTRACT_1:%[a-zA-Z0-9]+]] = extractelement <2 x i32> %0, [[INDEX_TYPE_E]] 1
+; CHECK:  [[CALL_1:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[EXTRACT_1]], i1 false)
+; CHECK:  [[INSERT_1:%[a-zA-Z0-9]+]] = insertelement <2 x i32> [[INSERT_0]], i32 [[CALL_1]], [[INDEX_TYPE_I]] 1
+
+; CHECK:  ret <2 x i32> [[INSERT_1]]
+  %1 = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %0, i1 false)
+  ret <2 x i32> %1
+}
+
+define i64 @A5(i64) {
+  entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[CONV_0:%[a-zA-Z0-9]+]] = trunc i64 %0 to i32
+; CHECK:  [[CALL_0:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_0]], i1 false)
+; CHECK:  [[SHR:%[a-zA-Z0-9]+]] = lshr i64 %0, 32
+; CHECK:  [[CONV_1:%[a-zA-Z0-9]+]] = trunc i64 [[SHR]] to i32
+; CHECK:  [[CALL_1:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_1]], i1 false)
+; CHECK:  [[CMP:%[a-zA-Z0-9]+]] = icmp ult i64 %0, 4294967296
+; CHECK:  [[ADD:%[a-zA-Z0-9]+]] = add i32 [[CALL_0]], 32
+; CHECK:  [[SELECT:%[a-zA-Z0-9]+]] = select i1 [[CMP]], i32 [[ADD]], i32 [[CALL_1]]
+; CHECK:  [[CONV_3:%[a-zA-Z0-9]+]] = zext i32 [[SELECT]] to i64
+; CHECK:  ret i64 [[CONV_3]]
+  %1 = call i64 @llvm.ctlz.i64(i64 %0, i1 false)
+  ret i64 %1
+}
+
+
+define <2 x i64> @A6(<2 x i64>) {
+  entry:
+; CHECK-LABEL: entry:
+; CHECK:  [[EXTRACT_0:%[a-zA-Z0-9]+]] = extractelement <2 x i64> %0, [[INDEX_TYPE_E]] 0
+; CHECK:  [[CONV_0_0:%[a-zA-Z0-9]+]] = trunc i64 [[EXTRACT_0]] to i32
+; CHECK:  [[CALL_0_0:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_0_0]], i1 false)
+; CHECK:  [[SHR_0:%[a-zA-Z0-9]+]] = lshr i64 [[EXTRACT_0]], 32
+; CHECK:  [[CONV_0_1:%[a-zA-Z0-9]+]] = trunc i64 [[SHR_0]] to i32
+; CHECK:  [[CALL_1_1:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_0_1]], i1 false)
+; CHECK:  [[CMP_0:%[a-zA-Z0-9]+]] = icmp ult i64 [[EXTRACT_0]], 4294967296
+; CHECK:  [[ADD_0:%[a-zA-Z0-9]+]] = add i32 [[CALL_0_0]], 32
+; CHECK:  [[SELECT_0:%[a-zA-Z0-9]+]] = select i1 [[CMP_0]], i32 [[ADD_0]], i32 [[CALL_1_1]]
+; CHECK:  [[CONV_0_3:%[a-zA-Z0-9]+]] = zext i32 [[SELECT_0]] to i64
+; CHECK:  [[INSERT_0:%[a-zA-Z0-9]+]] = insertelement <2 x i64> undef, i64 [[CONV_0_3]], [[INDEX_TYPE_I]] 0
+
+; CHECK:  [[EXTRACT_1:%[a-zA-Z0-9]+]] = extractelement <2 x i64> %0, [[INDEX_TYPE_E]] 1
+; CHECK:  [[CONV_1_0:%[a-zA-Z0-9]+]] = trunc i64 [[EXTRACT_1]] to i32
+; CHECK:  [[CALL_1_0:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_1_0]], i1 false)
+; CHECK:  [[SHR_1:%[a-zA-Z0-9]+]] = lshr i64 [[EXTRACT_1]], 32
+; CHECK:  [[CONV_1_1:%[a-zA-Z0-9]+]] = trunc i64 [[SHR_1]] to i32
+; CHECK:  [[CALL_1_1:%[a-zA-Z0-9]+]] = call i32 @llvm.ctlz.i32(i32 [[CONV_1_1]], i1 false)
+; CHECK:  [[CMP_1:%[a-zA-Z0-9]+]] = icmp ult i64 [[EXTRACT_1]], 4294967296
+; CHECK:  [[ADD_1:%[a-zA-Z0-9]+]] = add i32 [[CALL_1_0]], 32
+; CHECK:  [[SELECT_1:%[a-zA-Z0-9]+]] = select i1 [[CMP_1]], i32 [[ADD_1]], i32 [[CALL_1_1]]
+; CHECK:  [[CONV_1_3:%[a-zA-Z0-9]+]] = zext i32 [[SELECT_1]] to i64
+; CHECK:  [[INSERT_1:%[a-zA-Z0-9]+]] = insertelement <2 x i64> [[INSERT_0]], i64 [[CONV_1_3]], [[INDEX_TYPE_I]] 1
+
+; CHECK:  ret <2 x i64> [[INSERT_1]]
+  %1 = call <2 x i64> @llvm.ctlz.v2i64(<2 x i64> %0, i1 false)
+  ret <2 x i64> %1
+}
+
+
+
+declare i8 @llvm.ctlz.i8(i8, i1)
+declare i16 @llvm.ctlz.i16(i16, i1)
+declare i32 @llvm.ctlz.i32(i32, i1)
+declare i64 @llvm.ctlz.i64(i64, i1)
+declare <2 x i8> @llvm.ctlz.v2i8(<2 x i8>, i1)
+declare <2 x i32> @llvm.ctlz.v2i32(<2 x i32>, i1)
+declare <2 x i64> @llvm.ctlz.v2i64(<2 x i64>, i1)