ROCm
diff --git a/‎llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
Lines changed: 7 additions & 4 deletions b/‎llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
Lines changed: 7 additions & 4 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fp64-atomics-gfx90a.ll
Lines changed: 255 additions & 51 deletions b/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fp64-atomics-gfx90a.ll
Lines changed: 255 additions & 51 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/fp64-atomics-gfx90a.ll
Lines changed: 245 additions & 57 deletions b/‎llvm/test/CodeGen/AMDGPU/fp64-atomics-gfx90a.ll
Lines changed: 245 additions & 57 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll
Lines changed: 560 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomic_optimizer_fp_rtn.ll
Lines changed: 560 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll
Lines changed: 420 additions & 0 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_optimizer_fp_no_rtn.ll
Lines changed: 420 additions & 0 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll
Lines changed: 3586 additions & 2216 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll
Lines changed: 3586 additions & 2216 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmax.ll
Lines changed: 2907 additions & 1979 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmax.ll
Lines changed: 2907 additions & 1979 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmin.ll
Lines changed: 2907 additions & 1978 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmin.ll
Lines changed: 2907 additions & 1978 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fsub.ll
Lines changed: 3580 additions & 1399 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fsub.ll
Lines changed: 3580 additions & 1399 deletions
@@ -209,8 +209,9 @@ void AMDGPUAtomicOptimizerImpl::visitAtomicRMWInst(AtomicRMWInst &I) {
     break;
   }
 
-  // Only 32-bit floating point atomic ops are supported.
-  if (AtomicRMWInst::isFPOperation(Op) && !I.getType()->isFloatTy()) {
+  // Only 32 and 64 bit floating point atomic ops are supported.
+  if (AtomicRMWInst::isFPOperation(Op) &&
+      !(I.getType()->isFloatTy() || I.getType()->isDoubleTy())) {
     return;
   }
 
@@ -931,8 +932,10 @@ void AMDGPUAtomicOptimizerImpl::optimizeAtomic(Instruction &I,
     Value *BroadcastI = nullptr;
 
     if (TyBitWidth == 64) {
-      Value *const ExtractLo = B.CreateTrunc(PHI, Int32Ty);
-      Value *const ExtractHi = B.CreateTrunc(B.CreateLShr(PHI, 32), Int32Ty);
+      Value *CastedPhi = B.CreateBitCast(PHI, IntNTy);
+      Value *const ExtractLo = B.CreateTrunc(CastedPhi, Int32Ty);
+      Value *const ExtractHi =
+          B.CreateTrunc(B.CreateLShr(CastedPhi, 32), Int32Ty);
       CallInst *const ReadFirstLaneLo =
           B.CreateIntrinsic(Intrinsic::amdgcn_readfirstlane, {}, ExtractLo);
       CallInst *const ReadFirstLaneHi =