ggml : allow CUDA graphs when using pipeline parallelism (#13814)

slaren · web-flow · commit 952f3953c1b6 · 2025-05-27T13:05:18.000+02:00
diff --git a/ggml/src/ggml-backend.cpp b/ggml/src/ggml-backend.cpp
@@ -1598,6 +1598,9 @@ void ggml_backend_sched_synchronize(ggml_backend_sched_t sched) {
     for (int i = 0; i < sched->n_backends; i++) {
         ggml_backend_synchronize(sched->backends[i]);
     }
+    // reset the current copy to 0 so that the graphs will be similar during generation
+    // necessary for CUDA graphs
+    sched->cur_copy = 0;
 }
 
 void ggml_backend_sched_set_eval_callback(ggml_backend_sched_t sched, ggml_backend_sched_eval_callback callback, void * user_data) {

Original file line number	Diff line number	Diff line change
`@@ -1598,6 +1598,9 @@ void ggml_backend_sched_synchronize(ggml_backend_sched_t sched) {`
`1598`	`1598`	`for (int i = 0; i < sched->n_backends; i++) {`
`1599`	`1599`	`ggml_backend_synchronize(sched->backends[i]);`
`1600`	`1600`	`}`
	`1601`	`+ // reset the current copy to 0 so that the graphs will be similar during generation`
	`1602`	`+ // necessary for CUDA graphs`
	`1603`	`+ sched->cur_copy = 0;`
`1601`	`1604`	`}`
`1602`	`1605`
`1603`	`1606`	`void ggml_backend_sched_set_eval_callback(ggml_backend_sched_t sched, ggml_backend_sched_eval_callback callback, void * user_data) {`