[SYCL] Extend -fsycl-device-obj to dump assembly (#17390)

jchlanda · stefanatwork · web-flow · commit a89ae4154bcc · 2025-04-11T10:35:16.000+01:00
This patch adds `asm` value to `-fsycl-device-obj` to enable dumping
assembly (or PTX) of kernels.

---------

Co-authored-by: Werner, Stefan &lt;stefan.werner@intel.com&gt;
diff --git a/clang/include/clang/Basic/DiagnosticDriverKinds.td b/clang/include/clang/Basic/DiagnosticDriverKinds.td
@@ -427,6 +427,10 @@ def err_drv_fsycl_wrong_optimization_options : Error<
 def warn_drv_fsycl_add_default_spec_consts_image_flag_in_non_AOT : Warning<
   "-fsycl-add-default-spec-consts-image flag has an effect only in Ahead of Time Compilation mode (AOT)">,
   InGroup<SyclTarget>;
+def warn_drv_fsycl_device_obj_asm_device_only : Warning<
+  "-fsycl-device-obj=asm flag has an effect only when compiling device code "
+  "and emitting assembly, make sure both -fsycl-device-only and -S flags are "
+  "present; will be ignored">, InGroup<UnusedCommandLineArgument>;
 def warn_drv_ftarget_register_alloc_mode_pvc : Warning<
   "using '%0' to set GRF mode on PVC hardware is deprecated; use '-ftarget-register-alloc-mode=pvc:%1'">,
   InGroup<Deprecated>;
diff --git a/clang/include/clang/Driver/Options.td b/clang/include/clang/Driver/Options.td
@@ -7114,8 +7114,8 @@ defm sycl_id_queries_fit_in_int: BoolFOption<"sycl-id-queries-fit-in-int",
   BothFlags<[], [ClangOption, CLOption, CC1Option], " that SYCL ID queries fit "
             "within MAX_INT.">>;
 def fsycl_device_obj_EQ : Joined<["-"], "fsycl-device-obj=">,
-  Values<"spirv,llvmir">, HelpText<"Specify format of device code stored in "
-  "the resulting object. Valid values are: spirv, llvmir (default)">;
+  Values<"spirv,llvmir,asm">, HelpText<"Specify format of device code stored "
+  "in the resulting object. Valid values are: spirv, asm, llvmir (default)">;
 def fsycl_use_bitcode : Flag<["-"], "fsycl-use-bitcode">,
   Alias<fsycl_device_obj_EQ>, AliasArgs<["llvmir"]>, Flags<[Deprecated]>,
   HelpText<"Use LLVM bitcode instead of SPIR-V in fat objects (deprecated)">;
diff --git a/clang/lib/Driver/Driver.cpp b/clang/lib/Driver/Driver.cpp
@@ -1330,17 +1330,21 @@ void Driver::CreateOffloadingDeviceToolChains(Compilation &C,
       C.getInputArgs().getLastArg(options::OPT_fsycl_range_rounding_EQ);
   checkSingleArgValidity(RangeRoundingPreference, {"disable", "force", "on"});
 
-  // Evaluation of -fsycl-device-obj is slightly different, we will emit
-  // a warning and inform the user of the default behavior used.
+  // Evaluation of -fsycl-device-obj is slightly different, we will emit a
+  // warning and inform the user of the default behavior used.
   // TODO: General usage of this option is to check for 'spirv' and fallthrough
   // to using llvmir.  This can be improved to be more obvious in usage.
   if (Arg *DeviceObj = C.getInputArgs().getLastArgNoClaim(
           options::OPT_fsycl_device_obj_EQ)) {
+    const bool SYCLDeviceOnly = C.getDriver().offloadDeviceOnly();
+    const bool EmitAsm = C.getInputArgs().getLastArgNoClaim(options::OPT_S);
     StringRef ArgValue(DeviceObj->getValue());
-    SmallVector<StringRef, 2> DeviceObjValues = {"spirv", "llvmir"};
+    SmallVector<StringRef, 3> DeviceObjValues = {"spirv", "llvmir", "asm"};
     if (llvm::find(DeviceObjValues, ArgValue) == DeviceObjValues.end())
       Diag(clang::diag::warn_ignoring_value_using_default)
           << DeviceObj->getSpelling().split('=').first << ArgValue << "llvmir";
+    else if (ArgValue == "asm" && (!SYCLDeviceOnly || !EmitAsm))
+      Diag(clang::diag::warn_drv_fsycl_device_obj_asm_device_only);
   }
 
   Arg *SYCLForceTarget =
@@ -1569,6 +1573,7 @@ void Driver::CreateOffloadingDeviceToolChains(Compilation &C,
       addSYCLDefaultTriple(C, UniqueSYCLTriplesVec);
     }
   }
+
   // -fno-sycl-libspirv flag is reserved for very unusual cases where the
   // libspirv library is not linked when using CUDA/HIP: so output appropriate
   // warnings.
@@ -5347,6 +5352,15 @@ class OffloadingActionBuilder final {
                                                        types::TY_SPIRV);
             if (SYCLDeviceOnly)
               continue;
+          } else if (SYCLDeviceOnly && Args.hasArg(options::OPT_S) &&
+                     Args.getLastArgValue(options::OPT_fsycl_device_obj_EQ)
+                         .equals_insensitive("asm")) {
+            auto *CompileAction =
+                C.MakeAction<CompileJobAction>(A, types::TY_LLVM_BC);
+            A = C.MakeAction<BackendJobAction>(CompileAction, types::TY_PP_Asm);
+
+            if (SYCLDeviceOnly)
+              continue;
           } else {
             if (Args.hasArg(options::OPT_fsyntax_only))
               OutputType = types::TY_Nothing;
diff --git a/clang/test/Driver/sycl-device-obj-asm.cpp b/clang/test/Driver/sycl-device-obj-asm.cpp
@@ -0,0 +1,39 @@
+///
+/// Check that we call into backend assembler, when using `asm` as device
+/// object format, namely:
+/// `backend, {2}, assembler, (device-sycl, ...)`
+
+// REQUIRES: nvptx-registered-target,amdgpu-registered-target
+
+/// Check -fsycl-device-obj=asm for AMD.
+// RUN:   %clang -fsycl-device-only -fsycl -fsycl-targets=amdgcn-amd-amdhsa -Xsycl-target-backend=amdgcn-amd-amdhsa --offload-arch=gfx90a -fsycl-device-obj=asm -S %s 2>&1 -ccc-print-phases -o - | FileCheck %s --check-prefix=CHECK-AMD
+// CHECK-AMD: 0: input, "{{.+\.cpp}}", c++, (device-sycl, gfx90a)
+// CHECK-AMD: 1: preprocessor, {0}, c++-cpp-output, (device-sycl, gfx90a)
+// CHECK-AMD: 2: compiler, {1}, ir, (device-sycl, gfx90a)
+// CHECK-AMD: 3: backend, {2}, assembler, (device-sycl, gfx90a)
+// CHECK-AMD: 4: offload, "device-sycl (amdgcn-amd-amdhsa:gfx90a)" {3}, assembler
+
+/// Check -fsycl-device-obj=asm for Nvidia.
+// RUN:   %clang -fsycl-device-only -fsycl -fsycl-targets=nvptx64-nvidia-cuda -Xsycl-target-backend=nvptx64-nvidia-cuda --cuda-gpu-arch=sm_50 -fsycl-device-obj=asm -S %s 2>&1 -ccc-print-phases -o - | FileCheck %s --check-prefix=CHECK-PTX
+// CHECK-PTX: 0: input, "{{.+\.cpp}}", c++, (device-sycl, sm_50)
+// CHECK-PTX: 1: preprocessor, {0}, c++-cpp-output, (device-sycl, sm_50)
+// CHECK-PTX: 2: compiler, {1}, ir, (device-sycl, sm_50)
+// CHECK-PTX: 3: backend, {2}, assembler, (device-sycl, sm_50)
+// CHECK-PTX: 4: offload, "device-sycl (nvptx64-nvidia-cuda:sm_50)" {3}, assembler
+
+/// Check -fsycl-device-obj option when emitting llvm IR.
+// RUN:   %clang -fsycl-device-only -fsycl -fsycl-targets=nvptx64-nvidia-cuda -Xsycl-target-backend=nvptx64-nvidia-cuda --cuda-gpu-arch=sm_50 -fsycl-device-obj=llvmir -S %s 2>&1 -ccc-print-phases -o - | FileCheck %s --check-prefix=CHECK-LLVMIR
+// CHECK-LLVMIR: 0: input, "{{.+\.cpp}}", c++, (device-sycl, sm_50)
+// CHECK-LLVMIR: 1: preprocessor, {0}, c++-cpp-output, (device-sycl, sm_50)
+// CHECK-LLVMIR: 2: compiler, {1}, ir, (device-sycl, sm_50)
+// CHECK-LLVMIR: 3: offload, "device-sycl (nvptx64-nvidia-cuda:sm_50)" {2}, ir
+
+/// -fsycl-device-obj=asm should always be accompanied by -fsycl-device-only
+/// and -S, check that the compiler issues a correct warning message:
+// RUN:   %clang -nocudalib -fsycl-device-only -fsycl -fsycl-targets=nvptx64-nvidia-cuda -Xsycl-target-backend=nvptx64-nvidia-cuda --cuda-gpu-arch=sm_50 -fsycl-device-obj=asm %s 2>&1 -o - | FileCheck %s --check-prefix=CHECK-NO-DEV-ONLY-NO-S
+// CHECK-NO-DEV-ONLY-NO-S: warning: -fsycl-device-obj=asm flag has an effect only when compiling device code and emitting assembly, make sure both -fsycl-device-only and -S flags are present; will be ignored [-Wunused-command-line-argument]
+
+/// -fsycl-device-obj=asm will finish at generating assembly stage, hence
+/// inform users that generating library will not be possible (ignore -c)
+// RUN:   %clang -nocudalib -fsycl-device-only -fsycl -fsycl-targets=nvptx64-nvidia-cuda -Xsycl-target-backend=nvptx64-nvidia-cuda --cuda-gpu-arch=sm_50 -fsycl-device-obj=asm %s 2>&1 -fsycl-device-only -S -c -o - | FileCheck %s --check-prefix=CHECK-DASH-C-IGNORE
+// CHECK-DASH-C-IGNORE: warning: argument unused during compilation: '-c' [-Wunused-command-line-argument]
diff --git a/sycl/doc/UsersManual.md b/sycl/doc/UsersManual.md
@@ -348,7 +348,8 @@ and not recommended to use in production environment.
 **`-fsycl-device-obj=<arg>`** [EXPERIMENTAL]
 
     Specify format of device code stored in the resulting object. The <arg> can
-    be one of the following:  "spirv" - SPIR-V is emitted, "llvmir" - LLVM-IR
+    be one of the following:  "spirv" - SPIR-V, "asm" - assembly output when
+    possible (PTX, when targetting Nvidia devices) , or "llvmir" - LLVM-IR
     bitcode format is emitted (default).
 
 **`-fsycl-help[=backend]`**