intel
diff --git a/‎IGC/BiFModule/CMakeLists.txt
Lines changed: 3 additions & 3 deletions b/‎IGC/BiFModule/CMakeLists.txt
Lines changed: 3 additions & 3 deletions
diff --git a/‎IGC/BiFModule/Implementation/IGCBiF_Intrinsics.cl
Lines changed: 20 additions & 0 deletions b/‎IGC/BiFModule/Implementation/IGCBiF_Intrinsics.cl
Lines changed: 20 additions & 0 deletions
diff --git a/‎IGC/BiFModule/Languages/OpenCL/IBiF_Atomics.cl
Lines changed: 98 additions & 0 deletions b/‎IGC/BiFModule/Languages/OpenCL/IBiF_Atomics.cl
Lines changed: 98 additions & 0 deletions
diff --git a/‎IGC/BiFModule/Languages/OpenCL/opencl_cth_released.h
Lines changed: 30 additions & 0 deletions b/‎IGC/BiFModule/Languages/OpenCL/opencl_cth_released.h
Lines changed: 30 additions & 0 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/CISABuilder.cpp
Lines changed: 19 additions & 3 deletions b/‎IGC/Compiler/CISACodeGen/CISABuilder.cpp
Lines changed: 19 additions & 3 deletions
diff --git a/‎IGC/Compiler/CISACodeGen/CISABuilder.hpp
Lines changed: 1 addition & 1 deletion b/‎IGC/Compiler/CISACodeGen/CISABuilder.hpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎IGC/Compiler/CISACodeGen/EmitVISAPass.cpp
Lines changed: 24 additions & 8 deletions b/‎IGC/Compiler/CISACodeGen/EmitVISAPass.cpp
Lines changed: 24 additions & 8 deletions
@@ -79,7 +79,7 @@
 
   if(NOT EXISTS ${CCLANG_DIR_BINARIES})
     set(CCLANG_DIR_BINARIES "${CMAKE_CURRENT_SOURCE_DIR}/../../../../cclang-prebuilt/${_OS_folder}")
-  endif()
+  endif()  
   if(NOT EXISTS ${CCLANG_DIR_BINARIES})
     set(CCLANG_DIR_BINARIES "${IGC_BUILD__GFX_DEV_SRC_DIR}/Clang/Prebuilt/${_OS_folder}")
   endif()
@@ -89,7 +89,7 @@
     string(TOUPPER "${configName}" upperConfigName)
     set(locPropName "IMPORTED_LOCATION_${upperConfigName}")
     set_property(TARGET CLANG_7Z
-        PROPERTY "${locPropName}" "${IGC_BUILD__GFX_DEV_SRC_DIR}/Clang/Prebuilt/${_OS_folder}/Release/${_cpuSuffix}/clang.7z"
+        PROPERTY "${locPropName}" "${CCLANG_DIR_BINARIES}/Release/${_cpuSuffix}/clang.7z"
     )
     set_property(TARGET CLANG_7Z_OUTPUT
         PROPERTY "${locPropName}" "${IGC_TARGET__TOOLS_CLANG_DIR}"
@@ -898,7 +898,7 @@ set(FLAG "")
 
 igc_bif_find_cl_files(IGC_BUILD__BIF_OCL_COMMON_DEPENDS ${IGC_BUILD__BIF_OCL_COMMON_INC_DIRS} "${IGC_OPTION__BIF_SRC_OCL_DIR}/Implementation")
 
-set(KHR_DEFINES "cl_khr_f16" "cl_khrfp64" "cl_khr_gl_msaa_sharing" "cl_khr_mipmap_image" "cl_khr_depth_images" "cl_intel_subgroups_short" "cl_intel_subgroups_char" "cl_intel_subgroups_long")
+set(KHR_DEFINES "cl_khr_f16" "cl_khrfp64" "cl_khr_gl_msaa_sharing" "cl_khr_mipmap_image" "cl_khr_depth_images" "cl_intel_subgroups_short" "cl_intel_subgroups_char" "cl_intel_subgroups_long" "cl_intel_64bit_global_atomics_placeholder")
 
 igc_bif_build_bc(
     OUTPUT               "${IGC_BUILD__BIF_DIR}/IBiF_Impl_int.bc"
 
@@ -243,6 +243,26 @@ float    __builtin_IB_atomic_cmpxchg_global_f32(__global float*, float, float);
 int      __builtin_IB_atomic_cmpxchg_local_i32(__local int*, int, int);
 float    __builtin_IB_atomic_cmpxchg_local_f32(__local float*, float, float);
 
+// 64bit Atomic operations
+#if defined(cl_intel_64bit_global_atomics_placeholder)
+long     __builtin_IB_atomic_add_global_i64(__global long*, long);
+long     __builtin_IB_atomic_sub_global_i64(__global long*, long);
+long     __builtin_IB_atomic_xchg_global_i64(__global long*, long);
+long     __builtin_IB_atomic_min_global_i64(__global long*, long);
+ulong    __builtin_IB_atomic_min_global_u64(__global ulong*, ulong);
+double   __builtin_IB_atomic_min_global_f64(__global double*, double);
+long     __builtin_IB_atomic_max_global_i64(__global long*, long);
+ulong    __builtin_IB_atomic_max_global_u64(__global ulong*, ulong);
+double   __builtin_IB_atomic_max_global_f64(__global double*, double);
+long     __builtin_IB_atomic_and_global_i64(__global long*, long);
+long     __builtin_IB_atomic_or_global_i64(__global long*, long);
+long     __builtin_IB_atomic_xor_global_i64(__global long*, long);
+long     __builtin_IB_atomic_inc_global_i64(__global long*);
+long     __builtin_IB_atomic_dec_global_i64(__global long*);
+long     __builtin_IB_atomic_cmpxchg_global_i64(__global long*, long, long);
+double   __builtin_IB_atomic_cmpxchg_global_f64(__global double*, double, double);
+#endif // defined(cl_intel_64bit_global_atomics_placeholder)
+
 
 int      __builtin_IB_image_atomic_add_i32(int, int4, int);
 int      __builtin_IB_image_atomic_sub_i32(int, int4, int);
 
@@ -54,6 +54,12 @@ INLINE float OVERLOADABLE atomic_xchg(__local volatile float *p, float val) {
     return as_float( __builtin_IB_atomic_xchg_local_i32( (__local volatile int *)p, as_int(val) ) );
 }
 
+#if defined(cl_intel_64bit_global_atomics_placeholder)
+INLINE float OVERLOADABLE atomic_xchg(__global volatile double *p, double val) {
+    return as_double( __builtin_IB_atomic_xchg_global_i64( (__global volatile long *)p, as_long(val) ) );
+}
+#endif // if defined(cl_intel_64bit_global_atomics_placeholder)
+
 
 #define DEF_ATOMIC_1SRC(KEY, ADDRSPACE, TYPE, IGC_TYPE, IGC_CL_TYPE) \
 INLINE TYPE OVERLOADABLE atomic_##KEY(volatile __##ADDRSPACE TYPE *p) { \
@@ -244,6 +250,98 @@ DEF_ATOM_1SRC(dec, local, int, i32, int)
 DEF_ATOM_1SRC(dec, local, uint, i32, int)
 
 
+#if defined(cl_intel_64bit_global_atomics_placeholder)
+
+// atomic_add_64
+DEF_ATOMIC_2SRC(add, global, long, i64, long)
+DEF_ATOMIC_2SRC(add, global, ulong, i64, long)
+
+// atomic_sub_64
+DEF_ATOMIC_SUB(sub, global, long, i64, long)
+DEF_ATOMIC_SUB(sub, global, ulong, i64, long)
+
+// atomic_xchg_64
+DEF_ATOMIC_2SRC(xchg, global, long, i64, long)
+DEF_ATOMIC_2SRC(xchg, global, ulong, i64, long)
+
+// atomic_min_64
+DEF_ATOMIC_2SRC(min, global, long, i64, long)
+DEF_ATOMIC_2SRC(min, global, ulong, u64, ulong)
+
+// atomic_max_64
+DEF_ATOMIC_2SRC(max, global, long, i64, long)
+DEF_ATOMIC_2SRC(max, global, ulong, u64, ulong)
+
+// atomic_and_64
+DEF_ATOMIC_2SRC(and, global, long, i64, long)
+DEF_ATOMIC_2SRC(and, global, ulong, i64, long)
+
+// atomic_or_64
+DEF_ATOMIC_2SRC(or, global, long, i64, long)
+DEF_ATOMIC_2SRC(or, global, ulong, i64, long)
+
+// atomic_xor_64
+DEF_ATOMIC_2SRC(xor, global, long, i64, long)
+DEF_ATOMIC_2SRC(xor, global, ulong, i64, long)
+
+// atomic_inc_64
+DEF_ATOMIC_1SRC(inc, global, long, i64, long)
+DEF_ATOMIC_1SRC(inc, global, ulong, i64, long)
+
+// atomic_dec_64
+DEF_ATOMIC_1SRC(dec, global, long, i64, long)
+DEF_ATOMIC_1SRC(dec, global, ulong, i64, long)
+
+// atomic_cmpxchg_64
+DEF_ATOMIC_3SRC(cmpxchg, global, long, i64, long)
+DEF_ATOMIC_3SRC(cmpxchg, global, ulong, i64, long)
+
+// atom_add
+DEF_ATOM_2SRC(add, global, long, i64, long)
+DEF_ATOM_2SRC(add, global, ulong, i64, long)
+
+// atom_sub
+DEF_ATOM_SUB(sub, global, long, i64, long)
+DEF_ATOM_SUB(sub, global, ulong, i64, long)
+
+// atom_xchg
+DEF_ATOM_2SRC(xchg, global, long, i64, long)
+DEF_ATOM_2SRC(xchg, global, ulong, i64, long)
+
+// atom_min
+DEF_ATOM_2SRC(min, global, long, i64, long)
+DEF_ATOM_2SRC(min, global, ulong, u64, ulong)
+
+// atom_max
+DEF_ATOM_2SRC(max, global, long, i64, long)
+DEF_ATOM_2SRC(max, global, ulong, u64, ulong)
+
+// atom_and
+DEF_ATOM_2SRC(and, global, long, i64, long)
+DEF_ATOM_2SRC(and, global, ulong, i64, long)
+
+// atom_or
+DEF_ATOM_2SRC(or, global, long, i64, long)
+DEF_ATOM_2SRC(or, global, ulong, i64, long)
+
+// atom_xor
+DEF_ATOM_2SRC(xor, global, long, i64, long)
+DEF_ATOM_2SRC(xor, global, ulong, i64, long)
+
+// atom_inc
+DEF_ATOM_1SRC(inc, global, long, i64, long)
+DEF_ATOM_1SRC(inc, global, ulong, i64, long)
+
+// atom_cmpxchg
+DEF_ATOM_3SRC(cmpxchg, global, long, i64, long)
+DEF_ATOM_3SRC(cmpxchg, global, ulong, i64, long)
+
+// atom_dec
+DEF_ATOM_1SRC(dec, global, long, i64, long)
+DEF_ATOM_1SRC(dec, global, ulong, i64, long)
+
+#endif // if defined(cl_intel_64bit_global_atomics_placeholder)
+
 // The below functions were added because of the clang 4.0 itanium mangling update
 // See http://llvm.org/viewvc/llvm-project?view=revision&revision=262414
 
 
@@ -604,6 +604,36 @@ atomic_flag_prototype(clear, void)
 
 #endif
 
+#if defined(cl_intel_64bit_global_atomics_placeholder)
+long __attribute__((overloadable)) atomic_add(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_sub(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_xchg(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_min(volatile __global long *p, long val);
+unsigned long __attribute__((overloadable)) atomic_min(volatile __global unsigned long *p, unsigned long val);
+long __attribute__((overloadable)) atomic_max(volatile __global long *p, long val);
+unsigned long __attribute__((overloadable)) atomic_max(volatile __global unsigned long *p, unsigned long val);
+long __attribute__((overloadable)) atomic_and(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_or(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_xor(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_inc(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_dec(volatile __global long *p, long val);
+long __attribute__((overloadable)) atomic_cmpxchg(volatile __global long *p, long val);
+
+long __attribute__((overloadable)) atom_add(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_sub(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_xchg(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_min(volatile __global long *p, long val);
+unsigned long __attribute__((overloadable)) atom_min(volatile __global unsigned long *p, unsigned long val);
+long __attribute__((overloadable)) atom_max(volatile __global long *p, long val);
+unsigned long __attribute__((overloadable)) atom_max(volatile __global unsigned long *p, unsigned long val);
+long __attribute__((overloadable)) atom_and(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_or(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_xor(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_inc(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_dec(volatile __global long *p, long val);
+long __attribute__((overloadable)) atom_cmpxchg(volatile __global long *p, long val);
+#endif // defined(cl_intel_64bit_global_atomics_placeholder)
+
 #if (__OPENCL_C_VERSION__ >= CL_VERSION_2_0)
 void __attribute__((overloadable)) work_group_barrier(cl_mem_fence_flags flags, memory_scope scope);
 void __attribute__((overloadable)) work_group_barrier(cl_mem_fence_flags flags);
 
@@ -77,36 +77,52 @@ VISAAtomicOps convertAtomicOpEnumToVisa(AtomicOp op)
     switch(op)
     {
     case EATOMIC_AND:
+    case EATOMIC_AND64:
         return ATOMIC_AND;
     case EATOMIC_DEC:
+    case EATOMIC_DEC64:
         return ATOMIC_DEC;
     case EATOMIC_IADD:
+    case EATOMIC_IADD64:
         return ATOMIC_ADD;
     case EATOMIC_IMAX:
+    case EATOMIC_IMAX64:
         return ATOMIC_IMAX;
     case EATOMIC_IMIN:
+    case EATOMIC_IMIN64:
         return ATOMIC_IMIN;
     case EATOMIC_INC:
+    case EATOMIC_INC64:
         return ATOMIC_INC;
     case EATOMIC_MAX:
+    case EATOMIC_MAX64:
         return ATOMIC_MAX;
     case EATOMIC_MIN:
+    case EATOMIC_MIN64:
         return ATOMIC_MIN;
     case EATOMIC_OR:
+    case EATOMIC_OR64:
         return ATOMIC_OR;
     case EATOMIC_SUB:
+    case EATOMIC_SUB64:
         return ATOMIC_SUB;
     case EATOMIC_UMAX:
+    case EATOMIC_UMAX64:
         return ATOMIC_MAX;
     case EATOMIC_UMIN:
+    case EATOMIC_UMIN64:
         return ATOMIC_MIN;
     case EATOMIC_XOR:
+    case EATOMIC_XOR64:
         return ATOMIC_XOR;
     case EATOMIC_XCHG:
+    case EATOMIC_XCHG64:
         return ATOMIC_XCHG;
     case EATOMIC_CMPXCHG:
+    case EATOMIC_CMPXCHG64:
         return ATOMIC_CMPXCHG;
     case EATOMIC_PREDEC:
+    case EATOMIC_PREDEC64:
         return ATOMIC_PREDEC;
     case EATOMIC_FMAX:
         return ATOMIC_FMAX;
@@ -4933,7 +4949,7 @@ void CEncoder::AtomicRawA64(AtomicOp atomic_op,
                             CVariable* offset,
                             CVariable* src0,
                             CVariable* src1,
-                            bool is16Bit)
+                            unsigned short bitwidth)
 {
     // For cmpxchg, we have to change the order of arguments.
     if (atomic_op == EATOMIC_CMPXCHG) {
@@ -4956,7 +4972,7 @@ void CEncoder::AtomicRawA64(AtomicOp atomic_op,
 
             V(vKernel->AppendVISASvmAtomicInst(GetFlagOperand(m_encoderState.m_flag),
                                                SplitEMask(fromExecSize, toExecSize, thePart, execMask),
-                                               toExecSize, atomicOpcode, is16Bit,
+                                               toExecSize, atomicOpcode, bitwidth,
                                                addressOpnd, src0Opnd, src1Opnd, dstOpnd));
         }
 
@@ -4972,7 +4988,7 @@ void CEncoder::AtomicRawA64(AtomicOp atomic_op,
                                        ConvertMaskToVisaType(m_encoderState.m_mask, m_encoderState.m_noMask),
                                        visaExecSize(m_encoderState.m_simdSize),
                                        atomicOpcode,
-                                       is16Bit,
+                                       bitwidth,
                                        addressOpnd,
                                        src0Opnd,
                                        src1Opnd,
 
@@ -155,7 +155,7 @@ class CEncoder
                         CVariable *src1, bool is16Bit = false);
     void AtomicRawA64(AtomicOp atomic_op, CVariable *dst,
                       CVariable *elem_offset, CVariable *src0, CVariable *src1,
-                      bool is16Bit = false);
+                      unsigned short bitwidth);
     void Cmp(e_predicate p, CVariable* dst, CVariable* src0, CVariable* src1);
     void Select(CVariable* flag, CVariable* dst, CVariable* src0, CVariable* src1);
     void GenericAlu(e_opcode opcode, CVariable* dst, CVariable* src0, CVariable* src1, CVariable* src2 = nullptr);
 
@@ -10022,7 +10022,7 @@ void EmitPass::emitScalarAtomics(
 
     if(isA64)
     {
-        m_encoder->AtomicRawA64(uniformAtomicOp, pReturnVal, pDstAddr, pFinalAtomicSrcVal, nullptr, is16Bit);
+        m_encoder->AtomicRawA64(uniformAtomicOp, pReturnVal, pDstAddr, pFinalAtomicSrcVal, nullptr, is16Bit ? 16 : 32);
     }
     else
     {
@@ -10090,7 +10090,7 @@ bool EmitPass::IsUniformAtomic(llvm::Instruction* pInst)
 
 CVariable *EmitPass::UnpackOrBroadcastIfUniform(CVariable *pVar)
 {
-    if (pVar->GetElemSize() == 4)
+    if (pVar->GetElemSize() == 4 || pVar->GetElemSize() == 8)
         return BroadcastIfUniform(pVar);
 
     assert(pVar->GetElemSize() == 2);
@@ -10149,8 +10149,10 @@ void EmitPass::emitAtomicRaw(llvm::GenIntrinsicInst* pInsn)
         atomic_op = static_cast<AtomicOp>(llvm::cast<llvm::ConstantInt>(pInsn->getOperand(3))->getZExtValue());
     }
 
+    unsigned short bitwidth = pInsn->getType()->getScalarSizeInBits();
     const bool is16Bit = (pInsn->getType()->getScalarSizeInBits() == 16);
 
+
     // atomic_inc and atomic_dec don't have both src0 and src1.
     if(atomic_op != EATOMIC_INC && atomic_op != EATOMIC_DEC)
     {
@@ -10160,8 +10162,8 @@ void EmitPass::emitAtomicRaw(llvm::GenIntrinsicInst* pInsn)
     // Dst address in bytes.
     CVariable* pDstAddr = GetSymbol(pllDstAddr);
     // If DisableScalarAtomics regkey is enabled or DisableIGCOptimizations regkey is enabled then
-    // don't enable scalar atomics
-    if (IsUniformAtomic(pInsn))
+    // don't enable scalar atomics, also do not enable for 64 bit
+    if (IsUniformAtomic(pInsn) && bitwidth != 64)
     {
             PointerType *PtrTy = dyn_cast<PointerType>(pllDstAddr->getType());
             bool isA64 = PtrTy && isA64Ptr(PtrTy, m_currShader->GetContext());
@@ -10186,15 +10188,29 @@ void EmitPass::emitAtomicRaw(llvm::GenIntrinsicInst* pInsn)
     else
     {
         CVariable* pDst = returnsImmValue ?
-            m_currShader->GetNewVariable(numLanes(m_currShader->m_SIMDSize), ISA_TYPE_UD, EALIGN_GRF) :
+            m_currShader->GetNewVariable(numLanes(m_currShader->m_SIMDSize), m_destination->GetType(), EALIGN_GRF) :
             nullptr;
 
         PointerType *PtrTy = dyn_cast<PointerType>(pllDstAddr->getType());
         bool isA64 = PtrTy && isA64Ptr(PtrTy, m_currShader->GetContext());
-        if(isA64)
+        bool extendPointer = (bitwidth == 64 && !isA64);
+        if(isA64 || extendPointer)
         {
-            m_encoder->AtomicRawA64(atomic_op, pDst, pDstAddr, pSrc0, pSrc1, is16Bit);
-            m_encoder->Push();
+            if (extendPointer) 
+            {
+                pDstAddr = m_currShader->BitCast(pDstAddr, GetUnsignedIntegerType(pDstAddr->GetType()));
+                CVariable* pDstAddr2 = m_currShader->GetNewVariable(pDstAddr->GetNumberElement(),
+                    ISA_TYPE_UQ, EALIGN_GRF);
+                m_encoder->Cast(pDstAddr2, pDstAddr);
+                m_encoder->AtomicRawA64(atomic_op, pDst, pDstAddr2, pSrc0, pSrc1, bitwidth);
+                m_encoder->Push();
+            }
+            else 
+            {
+                m_encoder->AtomicRawA64(atomic_op, pDst, pDstAddr, pSrc0, pSrc1, bitwidth);
+                m_encoder->Push();
+            }
+           
             if (returnsImmValue)
             {
                 m_encoder->Cast(