limit to GGML_ALLOW_CUDA_GRAPHS defined in llama.cpp cmake

agray3 · agray3 · commit 0640427f7b03 · 2024-04-25T00:51:48.000-07:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -413,6 +413,7 @@ if (LLAMA_CUDA)
         list(APPEND GGML_SOURCES_CUDA "ggml-cuda.cu")
 
         add_compile_definitions(GGML_USE_CUDA)
+        add_compile_definitions(GGML_ALLOW_CUDA_GRAPHS)
         if (LLAMA_CUDA_FORCE_DMMV)
             add_compile_definitions(GGML_CUDA_FORCE_DMMV)
         endif()
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
@@ -2405,7 +2405,7 @@ GGML_CALL static void ggml_backend_cuda_synchronize(ggml_backend_t backend) {
     GGML_UNUSED(backend);
 }
 
-#if (CUDART_VERSION >= 12000)
+#if (CUDART_VERSION >= 12000) && defined(GGML_ALLOW_CUDA_GRAPHS)
 #define USE_CUDA_GRAPH
 #endif
 

Original file line number	Diff line number	Diff line change
`@@ -2405,7 +2405,7 @@ GGML_CALL static void ggml_backend_cuda_synchronize(ggml_backend_t backend) {`
`2405`	`2405`	`GGML_UNUSED(backend);`
`2406`	`2406`	`}`
`2407`	`2407`
`2408`		`-#if (CUDART_VERSION >= 12000)`
	`2408`	`+#if (CUDART_VERSION >= 12000) && defined(GGML_ALLOW_CUDA_GRAPHS)`
`2409`	`2409`	`#define USE_CUDA_GRAPH`
`2410`	`2410`	`#endif`
`2411`	`2411`