intel
diff --git a/‎IGC/Compiler/CISACodeGen/CMakeLists.txt
Lines changed: 2 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/CMakeLists.txt
Lines changed: 2 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/ShaderCodeGen.cpp
Lines changed: 5 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/ShaderCodeGen.cpp
Lines changed: 5 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/SplitLoads.cpp
Lines changed: 2090 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/SplitLoads.cpp
Lines changed: 2090 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/SplitLoads.h
Lines changed: 153 additions & 0 deletions b/‎IGC/Compiler/CISACodeGen/SplitLoads.h
Lines changed: 153 additions & 0 deletions
diff --git a/‎IGC/Compiler/InitializePasses.h
Lines changed: 1 addition & 0 deletions b/‎IGC/Compiler/InitializePasses.h
Lines changed: 1 addition & 0 deletions
diff --git a/‎IGC/Compiler/tests/SplitLoads/LS-params.ll
Lines changed: 141 additions & 0 deletions b/‎IGC/Compiler/tests/SplitLoads/LS-params.ll
Lines changed: 141 additions & 0 deletions
@@ -76,6 +76,7 @@ set(IGC_BUILD__SRC__CISACodeGen_Common
     "${CMAKE_CURRENT_SOURCE_DIR}/PromoteConstantStructs.cpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/PromoteInt8Type.cpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/SinkCommonOffsetFromGEP.cpp"
+    "${CMAKE_CURRENT_SOURCE_DIR}/SplitLoads.cpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/PruneUnusedArguments.cpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/PullConstantHeuristics.cpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/PushAnalysis.cpp"
@@ -201,6 +202,7 @@ set(IGC_BUILD__HDR__CISACodeGen_Common
     "${CMAKE_CURRENT_SOURCE_DIR}/ScalarizerCodeGen.hpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/ShaderCodeGen.hpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/ShaderUnits.hpp"
+    "${CMAKE_CURRENT_SOURCE_DIR}/SplitLoads.h"
     "${CMAKE_CURRENT_SOURCE_DIR}/Simd32Profitability.hpp"
     "${CMAKE_CURRENT_SOURCE_DIR}/SinkCommonOffsetFromGEP.h"
     "${CMAKE_CURRENT_SOURCE_DIR}/TimeStatsCounter.h"
 
@@ -39,6 +39,7 @@ SPDX-License-Identifier: MIT
 #include "Compiler/CISACodeGen/MemOpt.h"
 #include "Compiler/CISACodeGen/MemOpt2.h"
 #include "Compiler/CISACodeGen/MergeUniformStores.hpp"
+#include "Compiler/CISACodeGen/SplitLoads.h"
 #include "Compiler/CISACodeGen/PreRARematFlag.h"
 #include "Compiler/CISACodeGen/PromoteConstantStructs.hpp"
 #include "Compiler/Optimizer/OpenCLPasses/Decompose2DBlockFuncs/Decompose2DBlockFuncs.hpp"
@@ -220,6 +221,10 @@ void AddAnalysisPasses(CodeGenContext& ctx, IGCPassManager& mpm)
             mpm.add(createMemOpt2Pass(16));
     }
 
+    if (!isOptDisabled) {
+        mpm.add(createSplitLoadsPass());
+    }
+
     // only limited code-sinking to several shader-type
     // vs input has the URB-reuse issue to be resolved.
     // Also need to understand the performance benefit better.
 
@@ -0,0 +1,153 @@
+/*========================== begin_copyright_notice ============================
+
+Copyright (C) 2025 Intel Corporation
+
+SPDX-License-Identifier: MIT
+
+============================= end_copyright_notice ===========================*/
+
+#pragma once
+
+#include "Compiler/CISACodeGen/IGCLivenessAnalysis.h"
+#include "Compiler/CodeGenPublic.h"
+#include "GenISAIntrinsics/GenIntrinsicInst.h"
+
+#include "common/LLVMWarningsPush.hpp"
+#include "llvm/ADT/SmallPtrSet.h"
+#include "llvm/ADT/SmallVector.h"
+#include "llvm/IR/BasicBlock.h"
+#include "llvm/IR/Function.h"
+#include "llvm/IR/Instruction.h"
+#include "llvm/IR/Value.h"
+#include "llvm/Pass.h"
+#include "common/LLVMWarningsPop.hpp"
+
+#include <memory>
+#include <set>
+#include <utility>
+
+namespace llvm {
+class FunctionPass;
+}
+
+namespace IGC {
+namespace LS {
+
+/// A `struct` containing two dimensions of a block.
+struct Dims {
+  unsigned grSize, numOfGr;
+  unsigned size() const { return grSize * numOfGr; }
+
+  bool operator<(const Dims &rhs) const {
+    return grSize < rhs.grSize ||
+           (grSize == rhs.grSize && numOfGr < rhs.numOfGr);
+  }
+};
+
+using PossibleDims = std::set<Dims>;
+
+struct Config {
+  Module *M = nullptr; // for debug info
+  CodeGenContext *CGC = nullptr;
+  IGCLivenessAnalysis *RPE = nullptr;
+
+  bool isLegitW8 = false;
+  unsigned sizeOfRegs_B = 0;
+  unsigned numOfRegs = 0;
+  unsigned defaultSimd = 0;
+  unsigned actualSimd = 0;
+
+  /// Turns on the splitting pass.
+  bool enableLoadSplitting = IGC_IS_FLAG_ENABLED(LS_enableLoadSplitting);
+
+  /// If `true`, the register pressure data is ignored and the pass splits all
+  /// loads.
+  bool ignoreSplitThreshold = IGC_IS_FLAG_ENABLED(LS_ignoreSplitThreshold);
+
+  /// Minimal split size in terms of GRFs, used in determination of the possible
+  /// split dimensions.
+  unsigned minSplitSize_GRF = IGC_GET_FLAG_VALUE(LS_minSplitSize_GRF);
+
+  /// Minimal split size in terms of vector elements (bit width-independent),
+  /// used in determination of the possible split dimensions.
+  unsigned minSplitSize_E = IGC_GET_FLAG_VALUE(LS_minSplitSize_E);
+
+  /// If `ignoreSplitThreshold = false`, the pass splits loads in a given basic
+  /// block only if the maximal register pressure exceeds total GRFs by this
+  /// much.
+  int splitThresholdDelta_GRF = IGC_GET_FLAG_VALUE(LS_splitThresholdDelta_GRF);
+
+  /// Minimal split size in bytes, to be calculated from minSplitSize_GRF.
+  unsigned minSplitSize_B = 0;
+
+  /// Absolute split threshold in bytes.
+  int splitThreshold_B = 0;
+
+  Config(const Config &) = delete;
+  Config(Config &&) = delete;
+
+  /// Value of `SIMD` as reported by metadata.
+  unsigned SIMD() const { return actualSimd ? actualSimd : defaultSimd; }
+
+  static Config &get() {
+    static Config config;
+    return config;
+  }
+
+  bool initialize(Function *inF, CodeGenContext *inCGC,
+                  IGCLivenessAnalysis *inRPE);
+
+private:
+  Config() = default;
+};
+
+Config &config();
+
+/// The class `LoadSplitter` is responsible for splitting loads in an LLVM
+/// function.
+class LoadSplitter {
+public:
+  /// @brief Factory function to create an instance of `LoadSplitter`.
+  /// @param inF   LLVM function pointer.
+  /// @param inCGC The code generation context.
+  /// @param inRPE The register pressure estimator.
+  static std::unique_ptr<LoadSplitter>
+  Create(Function *inF, CodeGenContext *inCGC, IGCLivenessAnalysis *inRPE);
+
+  LoadSplitter(const LoadSplitter &) = delete;
+  LoadSplitter &operator=(const LoadSplitter &) = delete;
+
+  /// @brief Returns `true` is the register pressure for the basic block exceeds
+  /// the threshold given by the flag IGS_LS_splitThresholdDelta_GRF. The
+  /// pressure must also exceed the goal, IGC_LS_goalPressureDelta_GRF.
+  /// @param BB The basic block to check.
+  bool isRPHigh(BasicBlock *BB);
+
+  /// @brief Returns the set of all possible dimensions in which the load or AP
+  /// loads can be split into.
+  /// @param GII The load or the address payload to split. If `GII` is an AP
+  /// Load, all loads associated with its AP are considered.
+  PossibleDims possibleDims(GenIntrinsicInst *GII);
+
+  /// @brief Splits the block load into the specified dimensions.
+  /// @param GII The load or the address payload to split. If `GII` is an AP
+  /// Load, all loads associated with its AP are considered.
+  /// @param dims Size of the new blocks.
+  /// @return Returns `true` on success, `false` otherwise.
+  bool split(GenIntrinsicInst *GII, Dims dims);
+
+  /// @brief Splits all loads in the basic block to the smallest size possible.
+  /// @param BB The basic block.
+  /// @return Returns `true` on success, `false` otherwise.
+  bool splitAllToSmallest(BasicBlock *BB);
+
+private:
+  LoadSplitter() = default;
+  struct Impl;
+  std::unique_ptr<Impl> impl;
+};
+
+} // namespace LS
+
+FunctionPass *createSplitLoadsPass();
+} // namespace IGC
@@ -156,6 +156,7 @@ void initializeSPIRMetaDataTranslationPass(llvm::PassRegistry&);
 void initializeSplitStructurePhisPassPass(llvm::PassRegistry&);
 void initializeSpv2dBlockIOResolutionPass(llvm::PassRegistry&);
 void initializeSpvSubgroupMMAResolutionPass(llvm::PassRegistry&);
+void initializeSplitLoadsPass(llvm::PassRegistry&);
 void initializeStatelessToStatefulPass(llvm::PassRegistry&);
 void initializeSubGroupFuncsResolutionPass(llvm::PassRegistry&);
 void initializeSubGroupReductionPatternPass(llvm::PassRegistry&);
 
@@ -0,0 +1,141 @@
+; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
+;=========================== begin_copyright_notice ============================
+;
+; Copyright (C) 2025 Intel Corporation
+;
+; SPDX-License-Identifier: MIT
+;
+;============================ end_copyright_notice =============================
+
+; REQUIRES: regkeys
+; RUN: igc_opt -S --igc-split-loads -platformpvc --regkey=LS_enableLoadSplitting=1 --regkey=LS_ignoreSplitThreshold=1 --regkey=LS_minSplitSize_GRF=0 --regkey=LS_minSplitSize_E=0 %s | FileCheck %s --check-prefix=SPLIT
+; RUN: igc_opt -S --igc-split-loads -platformpvc --regkey=LS_enableLoadSplitting=1 --regkey=LS_ignoreSplitThreshold=1 --regkey=LS_minSplitSize_GRF=100 --regkey=LS_minSplitSize_E=0 %s | FileCheck %s --check-prefix=GRF
+; RUN: igc_opt -S --igc-split-loads -platformpvc --regkey=LS_enableLoadSplitting=1 --regkey=LS_ignoreSplitThreshold=1 --regkey=LS_minSplitSize_GRF=0 --regkey=LS_minSplitSize_E=4 %s | FileCheck %s --check-prefix=ELTS4
+; RUN: igc_opt -S --igc-split-loads -platformpvc --regkey=LS_enableLoadSplitting=1 --regkey=LS_ignoreSplitThreshold=1 --regkey=LS_minSplitSize_GRF=0 --regkey=LS_minSplitSize_E=8 %s | FileCheck %s --check-prefix=ELTS8
+; RUN: igc_opt -S --igc-split-loads -platformpvc --regkey=LS_enableLoadSplitting=1 --regkey=LS_ignoreSplitThreshold=1 --regkey=LS_minSplitSize_GRF=0 --regkey=LS_minSplitSize_E=16 %s | FileCheck %s --check-prefix=ELTS16
+; RUN: igc_opt -S --igc-split-loads -platformpvc --regkey=LS_enableLoadSplitting=1 --regkey=LS_ignoreSplitThreshold=0 --regkey=LS_splitThresholdDelta_GRF=-1000 %s | FileCheck %s --check-prefix=THRESHOLD
+
+declare spir_func void @fun_v4i32(<4 x i32>)
+
+declare spir_func <16 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v16i32(i64, i32, i32, i32, i32, i32, i32, i32, i32, i32, i1, i1, i32)
+
+define spir_kernel void @test_threshold(i64 %ptr) {
+; SPLIT-LABEL: @test_threshold(
+; SPLIT-NEXT:    [[TMP1:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; SPLIT-NEXT:    [[TMP2:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 4, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; SPLIT-NEXT:    [[TMP3:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 8, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; SPLIT-NEXT:    [[TMP4:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 12, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; SPLIT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP1]])
+; SPLIT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP2]])
+; SPLIT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP3]])
+; SPLIT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP4]])
+; SPLIT-NEXT:    ret void
+;
+; GRF-LABEL: @test_threshold(
+; GRF-NEXT:    [[VEC1:%.*]] = call <16 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v16i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 16, i32 1, i1 false, i1 false, i32 0)
+; GRF-NEXT:    [[PICK1_1:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
+; GRF-NEXT:    [[PICK1_2:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
+; GRF-NEXT:    [[PICK1_3:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 8, i32 9, i32 10, i32 11>
+; GRF-NEXT:    [[PICK1_4:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 12, i32 13, i32 14, i32 15>
+; GRF-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_1]])
+; GRF-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_2]])
+; GRF-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_3]])
+; GRF-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_4]])
+; GRF-NEXT:    ret void
+;
+; ELTS4-LABEL: @test_threshold(
+; ELTS4-NEXT:    [[TMP1:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; ELTS4-NEXT:    [[TMP2:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 4, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; ELTS4-NEXT:    [[TMP3:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 8, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; ELTS4-NEXT:    [[TMP4:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 12, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; ELTS4-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP1]])
+; ELTS4-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP2]])
+; ELTS4-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP3]])
+; ELTS4-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP4]])
+; ELTS4-NEXT:    ret void
+;
+; ELTS8-LABEL: @test_threshold(
+; ELTS8-NEXT:    [[TMP1:%.*]] = call <8 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v8i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 8, i32 1, i1 false, i1 false, i32 0)
+; ELTS8-NEXT:    [[TMP2:%.*]] = extractelement <8 x i32> [[TMP1]], i64 0
+; ELTS8-NEXT:    [[TMP3:%.*]] = insertelement <4 x i32> undef, i32 [[TMP2]], i64 0
+; ELTS8-NEXT:    [[TMP4:%.*]] = extractelement <8 x i32> [[TMP1]], i64 1
+; ELTS8-NEXT:    [[TMP5:%.*]] = insertelement <4 x i32> [[TMP3]], i32 [[TMP4]], i64 1
+; ELTS8-NEXT:    [[TMP6:%.*]] = extractelement <8 x i32> [[TMP1]], i64 2
+; ELTS8-NEXT:    [[TMP7:%.*]] = insertelement <4 x i32> [[TMP5]], i32 [[TMP6]], i64 2
+; ELTS8-NEXT:    [[TMP8:%.*]] = extractelement <8 x i32> [[TMP1]], i64 3
+; ELTS8-NEXT:    [[TMP9:%.*]] = insertelement <4 x i32> [[TMP7]], i32 [[TMP8]], i64 3
+; ELTS8-NEXT:    [[TMP10:%.*]] = extractelement <8 x i32> [[TMP1]], i64 4
+; ELTS8-NEXT:    [[TMP11:%.*]] = insertelement <4 x i32> undef, i32 [[TMP10]], i64 0
+; ELTS8-NEXT:    [[TMP12:%.*]] = extractelement <8 x i32> [[TMP1]], i64 5
+; ELTS8-NEXT:    [[TMP13:%.*]] = insertelement <4 x i32> [[TMP11]], i32 [[TMP12]], i64 1
+; ELTS8-NEXT:    [[TMP14:%.*]] = extractelement <8 x i32> [[TMP1]], i64 6
+; ELTS8-NEXT:    [[TMP15:%.*]] = insertelement <4 x i32> [[TMP13]], i32 [[TMP14]], i64 2
+; ELTS8-NEXT:    [[TMP16:%.*]] = extractelement <8 x i32> [[TMP1]], i64 7
+; ELTS8-NEXT:    [[TMP17:%.*]] = insertelement <4 x i32> [[TMP15]], i32 [[TMP16]], i64 3
+; ELTS8-NEXT:    [[TMP18:%.*]] = call <8 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v8i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 8, i32 32, i32 16, i32 8, i32 1, i1 false, i1 false, i32 0)
+; ELTS8-NEXT:    [[TMP19:%.*]] = extractelement <8 x i32> [[TMP18]], i64 0
+; ELTS8-NEXT:    [[TMP20:%.*]] = insertelement <4 x i32> undef, i32 [[TMP19]], i64 0
+; ELTS8-NEXT:    [[TMP21:%.*]] = extractelement <8 x i32> [[TMP18]], i64 1
+; ELTS8-NEXT:    [[TMP22:%.*]] = insertelement <4 x i32> [[TMP20]], i32 [[TMP21]], i64 1
+; ELTS8-NEXT:    [[TMP23:%.*]] = extractelement <8 x i32> [[TMP18]], i64 2
+; ELTS8-NEXT:    [[TMP24:%.*]] = insertelement <4 x i32> [[TMP22]], i32 [[TMP23]], i64 2
+; ELTS8-NEXT:    [[TMP25:%.*]] = extractelement <8 x i32> [[TMP18]], i64 3
+; ELTS8-NEXT:    [[TMP26:%.*]] = insertelement <4 x i32> [[TMP24]], i32 [[TMP25]], i64 3
+; ELTS8-NEXT:    [[TMP27:%.*]] = extractelement <8 x i32> [[TMP18]], i64 4
+; ELTS8-NEXT:    [[TMP28:%.*]] = insertelement <4 x i32> undef, i32 [[TMP27]], i64 0
+; ELTS8-NEXT:    [[TMP29:%.*]] = extractelement <8 x i32> [[TMP18]], i64 5
+; ELTS8-NEXT:    [[TMP30:%.*]] = insertelement <4 x i32> [[TMP28]], i32 [[TMP29]], i64 1
+; ELTS8-NEXT:    [[TMP31:%.*]] = extractelement <8 x i32> [[TMP18]], i64 6
+; ELTS8-NEXT:    [[TMP32:%.*]] = insertelement <4 x i32> [[TMP30]], i32 [[TMP31]], i64 2
+; ELTS8-NEXT:    [[TMP33:%.*]] = extractelement <8 x i32> [[TMP18]], i64 7
+; ELTS8-NEXT:    [[TMP34:%.*]] = insertelement <4 x i32> [[TMP32]], i32 [[TMP33]], i64 3
+; ELTS8-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP9]])
+; ELTS8-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP17]])
+; ELTS8-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP26]])
+; ELTS8-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP34]])
+; ELTS8-NEXT:    ret void
+;
+; ELTS16-LABEL: @test_threshold(
+; ELTS16-NEXT:    [[VEC1:%.*]] = call <16 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v16i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 16, i32 1, i1 false, i1 false, i32 0)
+; ELTS16-NEXT:    [[PICK1_1:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
+; ELTS16-NEXT:    [[PICK1_2:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
+; ELTS16-NEXT:    [[PICK1_3:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 8, i32 9, i32 10, i32 11>
+; ELTS16-NEXT:    [[PICK1_4:%.*]] = shufflevector <16 x i32> [[VEC1]], <16 x i32> undef, <4 x i32> <i32 12, i32 13, i32 14, i32 15>
+; ELTS16-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_1]])
+; ELTS16-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_2]])
+; ELTS16-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_3]])
+; ELTS16-NEXT:    call void @fun_v4i32(<4 x i32> [[PICK1_4]])
+; ELTS16-NEXT:    ret void
+;
+; THRESHOLD-LABEL: @test_threshold(
+; THRESHOLD-NEXT:    [[TMP1:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; THRESHOLD-NEXT:    [[TMP2:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 4, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; THRESHOLD-NEXT:    [[TMP3:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 8, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; THRESHOLD-NEXT:    [[TMP4:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 12, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; THRESHOLD-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP1]])
+; THRESHOLD-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP2]])
+; THRESHOLD-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP3]])
+; THRESHOLD-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP4]])
+; THRESHOLD-NEXT:    ret void
+;
+; DEFAULT-LABEL: @test_threshold(
+; DEFAULT-NEXT:    [[TMP1:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR:%.*]], i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; DEFAULT-NEXT:    [[TMP2:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 4, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; DEFAULT-NEXT:    [[TMP3:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 8, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; DEFAULT-NEXT:    [[TMP4:%.*]] = call <4 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v4i32(i64 [[PTR]], i32 127, i32 63, i32 127, i32 0, i32 12, i32 32, i32 16, i32 4, i32 1, i1 false, i1 false, i32 0)
+; DEFAULT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP1]])
+; DEFAULT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP2]])
+; DEFAULT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP3]])
+; DEFAULT-NEXT:    call void @fun_v4i32(<4 x i32> [[TMP4]])
+; DEFAULT-NEXT:    ret void
+  %vec1 = call <16 x i32> @llvm.genx.GenISA.LSC2DBlockRead.v16i32(i64 %ptr, i32 127, i32 63, i32 127, i32 0, i32 0, i32 32, i32 16, i32 16, i32 1, i1 false, i1 false, i32 0)
+  %pick1.1 = shufflevector <16 x i32> %vec1, <16 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
+  %pick1.2 = shufflevector <16 x i32> %vec1, <16 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
+  %pick1.3 = shufflevector <16 x i32> %vec1, <16 x i32> undef, <4 x i32> <i32 8, i32 9, i32 10, i32 11>
+  %pick1.4 = shufflevector <16 x i32> %vec1, <16 x i32> undef, <4 x i32> <i32 12, i32 13, i32 14, i32 15>
+  call void @fun_v4i32(<4 x i32> %pick1.1)
+  call void @fun_v4i32(<4 x i32> %pick1.2)
+  call void @fun_v4i32(<4 x i32> %pick1.3)
+  call void @fun_v4i32(<4 x i32> %pick1.4)
+  ret void
+}