vulkan: guard against multiple initialization

cebtenzzre · cebtenzzre · commit bb9054d3478a · 2024-05-01T17:46:20.000-04:00
This trades a late heap-use-after-free for an early abort, which feels
more correct.

Signed-off-by: Jared Van Bortel &lt;jared@nomic.ai&gt;
diff --git a/ggml-vulkan.cpp b/ggml-vulkan.cpp
@@ -5219,6 +5219,11 @@ GGML_CALL static bool ggml_backend_buffer_is_vk(ggml_backend_buffer_t buffer) {
     return buffer->iface.get_name == ggml_backend_vk_buffer_get_name;
 }
 
+size_t ggml_backend_vk_idx(ggml_backend_t backend) {
+    ggml_backend_vk_context * ctx = (ggml_backend_vk_context *)backend->context;
+    return ctx->idx;
+}
+
 GGML_CALL static void ggml_backend_vk_buffer_free_buffer(ggml_backend_buffer_t buffer) {
 #ifdef GGML_VULKAN_DEBUG
     std::cerr << "ggml_backend_vk_buffer_free_buffer()" << std::endl;
diff --git a/ggml-vulkan.h b/ggml-vulkan.h
@@ -25,6 +25,7 @@ GGML_API GGML_CALL void                    ggml_vk_device_destroy(ggml_vk_device
 GGML_API GGML_CALL ggml_backend_t ggml_backend_vk_init(size_t dev_num);
 
 GGML_API GGML_CALL bool ggml_backend_is_vk(ggml_backend_t backend);
+GGML_API GGML_CALL size_t ggml_backend_vk_idx(ggml_backend_t backend);
 GGML_API GGML_CALL int  ggml_backend_vk_get_device_count(void);
 GGML_API GGML_CALL void ggml_backend_vk_get_device_description(int device, char * description, size_t description_size);
 GGML_API GGML_CALL void ggml_backend_vk_get_device_memory(int device, size_t * free, size_t * total);
diff --git a/llama.cpp b/llama.cpp
@@ -2240,12 +2240,21 @@ struct llama_model {
     }
 };
 
+#ifdef GGML_USE_VULKAN
+static bool vulkan_backend_initialized[GGML_VK_MAX_DEVICES] = {};
+#endif
+
 struct llama_context {
     llama_context(const llama_model & model) : model(model), t_start_us(model.t_start_us), t_load_us(model.t_load_us) {}
     ~llama_context() {
         ggml_backend_sched_free(sched);
 
         for (ggml_backend_t backend : backends) {
+#ifdef GGML_USE_VULKAN
+            if (ggml_backend_is_vk(backend)) {
+                vulkan_backend_initialized[ggml_backend_vk_idx(backend)] = false;
+            }
+#endif
             ggml_backend_free(backend);
         }
 
@@ -15489,6 +15498,8 @@ struct llama_context * llama_new_context_with_model(
             return nullptr;
         }
         if (model->split_mode == LLAMA_SPLIT_MODE_NONE) {
+            GGML_ASSERT(!vulkan_backend_initialized[model->main_gpu]);
+            vulkan_backend_initialized[model->main_gpu] = true;
             ggml_backend_t backend = ggml_backend_vk_init(model->main_gpu);
             if (backend == nullptr) {
                 LLAMA_LOG_ERROR("%s: failed to initialize Vulkan backend\n", __func__);
@@ -15498,6 +15509,8 @@ struct llama_context * llama_new_context_with_model(
             ctx->backends.push_back(backend);
         } else {
             for (int device = 0; device < ggml_backend_vk_get_device_count(); ++device) {
+                GGML_ASSERT(!vulkan_backend_initialized[device]);
+                vulkan_backend_initialized[device] = true;
                 ggml_backend_t backend = ggml_backend_vk_init(device);
                 if (backend == nullptr) {
                     LLAMA_LOG_ERROR("%s: failed to initialize Vulkan%d backend\n", __func__, device);