CUDA: fix typo in FlashAttention code (#13926)

JohannesGaessler · web-flow · commit e562eece7cb4 · 2025-05-30T21:22:03.000+02:00
diff --git a/ggml/src/ggml-cuda/fattn-mma-f16.cuh b/ggml/src/ggml-cuda/fattn-mma-f16.cuh
@@ -1246,7 +1246,7 @@ static __global__ void flash_attn_ext_f16(
         NO_DEVICE_CODE;
         return;
     }
-#endif __CUDA_ARCH__ == GGML_CUDA_CC_TURING
+#endif // __CUDA_ARCH__ == GGML_CUDA_CC_TURING
 
     static_assert(!mla || DKQ >= DV, "MLA needs DKQ >= DV");
 

Original file line number	Diff line number	Diff line change
`@@ -1246,7 +1246,7 @@ static __global__ void flash_attn_ext_f16(`
`1246`	`1246`	`NO_DEVICE_CODE;`
`1247`	`1247`	`return;`
`1248`	`1248`	`}`
`1249`		`-#endif __CUDA_ARCH__ == GGML_CUDA_CC_TURING`
	`1249`	`+#endif // __CUDA_ARCH__ == GGML_CUDA_CC_TURING`
`1250`	`1250`
`1251`	`1251`	`static_assert(!mla \|\| DKQ >= DV, "MLA needs DKQ >= DV");`
`1252`	`1252`