CONSOLIDATED COMMITS: Bump to AOTriton 0.7.1b

xinyazhang · pruthvistony · commit 046a06c6f3b4 · 2024-12-20T18:19:57.000-06:00
============================================= Bump to AOTriton 0.7.1b (#1572) A cherry-picked version of pytorch#134498 for rocm6.3_internal_testing (cherry picked from commit d28d7ff) AOTriton 0.7.1 compile fix (cherry picked from commit 7ac294f)
diff --git a/aten/src/ATen/native/transformers/cuda/attention_backward.cu b/aten/src/ATen/native/transformers/cuda/attention_backward.cu
@@ -445,6 +445,7 @@ _efficient_attention_backward(
   using sdp::aotriton_adapter::mk_aotensor;
   using sdp::aotriton_adapter::mk_aoscalartensor;
   using sdp::aotriton_adapter::cast_dtype;
+  using sdp::aotriton_adapter::mk_aoscalartensor;
   aotriton::TensorView<4> empty_t4(0, {0, 0, 0, 0}, {0, 0, 0, 0}, cast_dtype(query.dtype()));
   if (cu_seqlens_q.has_value()) {
     // varlen aka Nested tensor
diff --git a/aten/src/ATen/native/transformers/hip/flash_attn/flash_api.hip b/aten/src/ATen/native/transformers/hip/flash_attn/flash_api.hip
@@ -533,6 +533,7 @@ mha_bwd(const at::Tensor &dout,  // batch_size x seqlen_q x num_heads, x head_si
     using sdp::aotriton_adapter::mk_aotensor;
     using sdp::aotriton_adapter::mk_aoscalartensor;
     using sdp::aotriton_adapter::cast_dtype;
+    using sdp::aotriton_adapter::mk_aoscalartensor;
     aotriton::TensorView<4> empty_bias(0, {0,0,0,0}, {0,0,0,0}, cast_dtype(q.dtype()));
     err = attn_bwd(mk_aotensor(q_t, "q"),
                    mk_aotensor(k_t, "k"),
diff --git a/test/inductor/test_flex_decoding.py b/test/inductor/test_flex_decoding.py
@@ -1383,6 +1383,7 @@ def mask_mod(b, h, q, kv):
         loss.backward()
         self.assertEqual(query.grad[:, :, M:, :].sum(), 0)
 
+    @skipIfRocm
     @supported_platform
     def test_windowed_no_mask_vs_sdpa(self):
         score_mod = _generate_windowed(1000)
diff --git a/test/test_transformers.py b/test/test_transformers.py
@@ -3518,6 +3518,10 @@ def get_dropout_mask(output, fused_kernel, batch_size, n_heads, q_len, kv_len, d
             torch.rand_like(query, device=query.device)  # test non-zero intragraph offset
             # Create real output
             output_tuple = fused_op(query, key, value, **kwargs)
+            # for o in output_tuple:
+            #     print(f'{o.__class__=}')
+            #     if isinstance(o, torch.Tensor):
+            #         print(f'{o.is_cuda=}')
             assert all(not isinstance(o, torch.Tensor) or o.is_cuda for o in output_tuple)
         g.replay()
         out_first = output_tuple[0].clone()