update

wsxiaoys · wsxiaoys · commit ca8fa3b478ac · 2023-11-04T15:55:16.000-07:00
diff --git a/llama.cpp b/llama.cpp
@@ -570,19 +570,37 @@ static void ggml_graph_compute_helper(std::vector<uint8_t> & buf, ggml_cgraph *
 // llama helpers
 //
 
+static inline void * llama_host_malloc(size_t n) {
 #ifdef GGML_USE_CUBLAS
-#   define llama_host_malloc(n)  ggml_cuda_host_malloc(n)
-#   define llama_host_free(data) ggml_cuda_host_free(data)
+    if (ggml_cublas_loaded()) {
+        return ggml_cuda_host_malloc(n);
+    } else {
+        return malloc(n);
+    }
+#elif GGML_USE_METAL
+    return ggml_metal_host_malloc(n);
+#elif GGML_USE_CPU_HBM
+    return hbw_malloc(n)
+#else
+    return malloc(n)
+#endif
+}
+
+static inline void llama_host_free(void * ptr) {
+#ifdef GGML_USE_CUBLAS
+    if (ggml_cublas_loaded()) {
+        return ggml_cuda_host_free(ptr);
+    } else {
+        return free(ptr);
+    }
 #elif GGML_USE_METAL
-#   define llama_host_malloc(n)  ggml_metal_host_malloc(n)
-#   define llama_host_free(data) ggml_metal_host_free(data)
+    return ggml_metal_host_free(ptr);
 #elif GGML_USE_CPU_HBM
-#   define llama_host_malloc(n)  hbw_malloc(n)
-#   define llama_host_free(data) if (data != NULL) hbw_free(data)
+    return hbw_free(ptr)
 #else
-#   define llama_host_malloc(n)  malloc(n)
-#   define llama_host_free(data) free(data)
+    return free(ptr)
 #endif
+}
 
 #if defined(_WIN32)
 static std::string llama_format_win_err(DWORD err) {
@@ -1160,12 +1178,12 @@ struct llama_kv_cache {
             ggml_free(ctx);
         }
 
-        if (ggml_cpu_has_cublas()) {
 #ifdef GGML_USE_CUBLAS
+        if (ggml_cublas_loaded()) {
             ggml_cuda_free_data(k);
             ggml_cuda_free_data(v);
-#endif
         }
+#endif
     }
 };
 
@@ -1264,14 +1282,14 @@ struct llama_model {
             ggml_free(ctx);
         }
 
-        if (ggml_cpu_has_cublas()) {
 #ifdef GGML_USE_CUBLAS
+        if (ggml_cublas_loaded()) {
             for (size_t i = 0; i < tensors_by_name.size(); ++i) {
                 ggml_cuda_free_data(tensors_by_name[i].second);
             }
             ggml_cuda_free_scratch();
-#endif
         }
+#endif
 
 #if defined(GGML_USE_CLBLAST)
         for (size_t i = 0; i < tensors_by_name.size(); ++i) {
@@ -1386,8 +1404,8 @@ static bool llama_kv_cache_init(
 
     (void) n_gpu_layers;
 
-    if (ggml_cpu_has_cublas()) {
 #ifdef GGML_USE_CUBLAS
+    if (ggml_cublas_loaded()) {
         size_t vram_kv_cache = 0;
 
         if (n_gpu_layers > (int)n_layer + 1) {
@@ -1403,8 +1421,8 @@ static bool llama_kv_cache_init(
         if (vram_kv_cache > 0) {
             LLAMA_LOG_INFO("%s: VRAM kv self = %.2f MB\n", __func__, vram_kv_cache / 1024.0 / 1024.0);
         }
-#endif
     }
+#endif
 
     return true;
 }
@@ -2468,19 +2486,19 @@ static void llm_load_tensors(
     enum ggml_backend_type llama_backend_offload = GGML_BACKEND_CPU;
     enum ggml_backend_type llama_backend_offload_split = GGML_BACKEND_CPU;
 
-    if (ggml_cpu_has_cublas()) {
 #ifdef GGML_USE_CUBLAS
+    if (ggml_cublas_loaded()) {
         LLAMA_LOG_INFO("%s: using " GGML_CUDA_NAME " for GPU acceleration\n", __func__);
         ggml_cuda_set_main_device(main_gpu);
 
         llama_backend_offload = GGML_BACKEND_GPU;
         llama_backend_offload_split = GGML_BACKEND_GPU_SPLIT;
-#endif
-    } else if (ggml_cpu_has_clblast()) {
+    }
+#elif GGML_USE_CLBLAST
         LLAMA_LOG_INFO("%s: using OpenCL for GPU acceleration\n", __func__);
         llama_backend_offload = GGML_BACKEND_GPU;
         llama_backend_offload_split = GGML_BACKEND_GPU;
-    }
+#endif
 
     // prepare memory for the weights
     size_t vram_weights = 0;