llvm
diff --git a/‎llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
Lines changed: 7 additions & 4 deletions b/‎llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
Lines changed: 7 additions & 4 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fp64-atomics-gfx90a.ll
Lines changed: 223 additions & 51 deletions b/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fp64-atomics-gfx90a.ll
Lines changed: 223 additions & 51 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/fp64-atomics-gfx90a.ll
Lines changed: 213 additions & 57 deletions b/‎llvm/test/CodeGen/AMDGPU/fp64-atomics-gfx90a.ll
Lines changed: 213 additions & 57 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll
Lines changed: 560 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll
Lines changed: 560 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll
Lines changed: 420 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll
Lines changed: 420 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll
Lines changed: 5578 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll
Lines changed: 5578 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmax.ll
Lines changed: 3960 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmax.ll
Lines changed: 3960 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmin.ll
Lines changed: 3960 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmin.ll
Lines changed: 3960 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fsub.ll
Lines changed: 5576 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fsub.ll
Lines changed: 5576 additions & 0 deletions
@@ -209,8 +209,9 @@ void AMDGPUAtomicOptimizerImpl::visitAtomicRMWInst(AtomicRMWInst &I) {
     break;
   }
 
-  // Only 32-bit floating point atomic ops are supported.
-  if (AtomicRMWInst::isFPOperation(Op) && !I.getType()->isFloatTy()) {
+  // Only 32 and 64 bit floating point atomic ops are supported.
+  if (AtomicRMWInst::isFPOperation(Op) &&
+      !(I.getType()->isFloatTy() || I.getType()->isDoubleTy())) {
     return;
   }
 
@@ -920,8 +921,10 @@ void AMDGPUAtomicOptimizerImpl::optimizeAtomic(Instruction &I,
     Value *BroadcastI = nullptr;
 
     if (TyBitWidth == 64) {
-      Value *const ExtractLo = B.CreateTrunc(PHI, Int32Ty);
-      Value *const ExtractHi = B.CreateTrunc(B.CreateLShr(PHI, 32), Int32Ty);
+      Value *CastedPhi = B.CreateBitCast(PHI, IntNTy);
+      Value *const ExtractLo = B.CreateTrunc(CastedPhi, Int32Ty);
+      Value *const ExtractHi =
+          B.CreateTrunc(B.CreateLShr(CastedPhi, 32), Int32Ty);
       CallInst *const ReadFirstLaneLo =
           B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, ExtractLo);
       CallInst *const ReadFirstLaneHi =