CUDA scratch proportional to batch size

JohannesGaessler · JohannesGaessler · commit ad7951c3128b · 2023-06-06T00:30:04.000+02:00
diff --git a/examples/common.cpp b/examples/common.cpp
@@ -510,6 +510,7 @@ struct llama_context * llama_init_from_gpt_params(const gpt_params & params) {
     auto lparams = llama_context_default_params();
 
     lparams.n_ctx        = params.n_ctx;
+    lparams.n_batch      = params.n_batch;
     lparams.n_gpu_layers = params.n_gpu_layers;
     memcpy(lparams.tensor_split, params.tensor_split, LLAMA_MAX_DEVICES*sizeof(float));
     lparams.seed         = params.seed;
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
@@ -534,12 +534,12 @@ static void ggml_cuda_pool_free(void * ptr, size_t size) {
     CUDA_CHECK(cudaFree(ptr));
 }
 
-#define GGML_CUDA_MAX_SCRATCH_BUFFERS 16
-#define GGML_CUDA_SCRATCH_SIZE 536870912 // 512 MB
-//#define GGML_CUDA_SCRATCH_SIZE 1073741824 // 1 GB
-//#define GGML_CUDA_SCRATCH_SIZE 4294967296 // 4 GB
-static void * g_scratch_buffers[GGML_CUDA_MAX_DEVICES][GGML_CUDA_MAX_SCRATCH_BUFFERS] = {nullptr};
-static int g_scratch_index = 0;
+
+#define GGML_CUDA_SCRATCH_SIZE_PER_BATCH 1048576 // 1 MB
+//#define GGML_CUDA_SCRATCH_SIZE_PER_BATCH 2097152 // 2 MB
+
+static void * g_scratch_buffer = nullptr;
+static int g_n_batch = 512;
 static size_t g_scratch_offset = 0;
 
 #define GGML_CUDA_MAX_STREAMS 8 // Set this to 1 for reproducible matrix multiplication.
@@ -1288,8 +1288,9 @@ void ggml_cuda_free_data(struct ggml_tensor * tensor) {
 
 void ggml_cuda_assign_buffers(struct ggml_tensor * tensor) {
     const size_t size = ggml_nbytes(tensor);
-    GGML_ASSERT(size <= GGML_CUDA_SCRATCH_SIZE);
-    if (g_scratch_offset + size > GGML_CUDA_SCRATCH_SIZE) {
+    const size_t scratch_size = g_n_batch * GGML_CUDA_SCRATCH_SIZE_PER_BATCH;
+    GGML_ASSERT(size <= scratch_size);
+    if (g_scratch_offset + size > scratch_size) {
         g_scratch_offset = 0;
     }
 
@@ -1304,10 +1305,10 @@ void ggml_cuda_assign_buffers(struct ggml_tensor * tensor) {
         extra->data_device[g_main_device] = src0_extra->data_device;
         GGML_ASSERT(false);
     } else {
-        char * data = (char *) g_scratch_buffers[g_main_device][g_scratch_index];
+        char * data = (char *) g_scratch_buffer;
         if (data == nullptr) {
-            CUDA_CHECK(cudaMalloc(&data, GGML_CUDA_SCRATCH_SIZE));
-            g_scratch_buffers[g_main_device][g_scratch_index] = data;
+            CUDA_CHECK(cudaMalloc(&data, scratch_size));
+            g_scratch_buffer = data;
         }
         extra->data_device[g_main_device] = data + g_scratch_offset;
     }
@@ -1317,20 +1318,12 @@ void ggml_cuda_assign_buffers(struct ggml_tensor * tensor) {
     // fprintf(stderr, "%s: scratch %d, %p - %p\n",
     //         tensor->name, g_scratch_index, data + g_scratch_offset, data + g_scratch_offset + size);
 
-    GGML_ASSERT(g_scratch_offset <= GGML_CUDA_SCRATCH_SIZE);
+    GGML_ASSERT(g_scratch_offset <= scratch_size);
     tensor->extra = extra;
 }
 
-void ggml_cuda_set_scratch(int i) {
-    if (i == -1) {
-        return;
-    }
-#if false
-    fprintf(stderr, "\n%s: switched scratch %d -> %d, old scratch used %.2f MB\n",
-            __func__, g_scratch_index, i, g_scratch_offset/1024.0f/1024.0f);
-#endif
-    g_scratch_index = i;
-    g_scratch_offset = 0;
+void ggml_cuda_set_n_batch(int n_batch) {
+    g_n_batch = n_batch;
 }
 
 bool ggml_cuda_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor){
diff --git a/ggml-cuda.h b/ggml-cuda.h
@@ -13,7 +13,7 @@ struct ggml_tensor_extra_gpu {
 };
 
 void   ggml_init_cublas(void);
-void ggml_cuda_set_tensor_split(const float * tensor_split);
+void   ggml_cuda_set_tensor_split(const float * tensor_split);
 
 void   ggml_cuda_mul(const struct ggml_tensor * src0, const struct ggml_tensor * src1, struct ggml_tensor * dst);
 bool   ggml_cuda_can_mul_mat(const struct ggml_tensor * src0, const struct ggml_tensor * src1, struct ggml_tensor * dst);
@@ -24,11 +24,11 @@ void   ggml_cuda_mul_mat(const struct ggml_tensor * src0, const struct ggml_tens
 void * ggml_cuda_host_malloc(size_t size);
 void   ggml_cuda_host_free(void * ptr);
 
-void ggml_cuda_load_data(const char * fname, struct ggml_tensor * tensors, size_t offset);
-void ggml_cuda_free_data(struct ggml_tensor * tensor);
-void ggml_cuda_assign_buffers(struct ggml_tensor * tensor);
-void ggml_cuda_set_scratch(int i);
-bool ggml_cuda_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor);
+void   ggml_cuda_load_data(const char * fname, struct ggml_tensor * tensors, size_t offset);
+void   ggml_cuda_free_data(struct ggml_tensor * tensor);
+void   ggml_cuda_assign_buffers(struct ggml_tensor * tensor);
+void   ggml_cuda_set_n_batch(int n_batch);
+bool   ggml_cuda_compute_forward(struct ggml_compute_params * params, struct ggml_tensor * tensor);
 
 #ifdef  __cplusplus
 }
diff --git a/llama.cpp b/llama.cpp
@@ -849,6 +849,7 @@ static bool kv_cache_init(
 struct llama_context_params llama_context_default_params() {
     struct llama_context_params result = {
         /*.n_ctx                       =*/ 512,
+        /*.n_batch                     =*/ 512,
         /*.gpu_layers                  =*/ 0,
         /*.tensor_split                =*/ {0},
         /*.seed                        =*/ -1,
@@ -934,6 +935,7 @@ static void llama_model_load_internal(
         const std::string & fname,
         llama_context & lctx,
         int n_ctx,
+        int n_batch,
         int n_gpu_layers,
         const float * tensor_split,
         ggml_type memory_type,
@@ -1142,6 +1144,7 @@ static void llama_model_load_internal(
 
 #if defined(GGML_USE_CUBLAS)
     {
+        ggml_cuda_set_n_batch(n_batch);
         ggml_cuda_set_tensor_split(tensor_split);
 
         size_t done_size = 0;
@@ -1186,6 +1189,7 @@ static void llama_model_load_internal(
         }
     }
 #else
+    (void) n_batch;
     (void) tensor_split;
 #endif
 
@@ -1204,6 +1208,7 @@ static bool llama_model_load(
         const std::string & fname,
         llama_context & lctx,
         int n_ctx,
+        int n_batch,
         int n_gpu_layers,
         float * tensor_split,
         ggml_type memory_type,
@@ -1213,7 +1218,7 @@ static bool llama_model_load(
         llama_progress_callback progress_callback,
         void *progress_callback_user_data) {
     try {
-        llama_model_load_internal(fname, lctx, n_ctx, n_gpu_layers, tensor_split, memory_type, use_mmap,
+        llama_model_load_internal(fname, lctx, n_ctx, n_batch, n_gpu_layers, tensor_split, memory_type, use_mmap,
                                   use_mlock, vocab_only, progress_callback, progress_callback_user_data);
         return true;
     } catch (const std::string & err) {
@@ -2375,8 +2380,8 @@ struct llama_context * llama_init_from_file(
 
     ggml_type memory_type = params.f16_kv ? GGML_TYPE_F16 : GGML_TYPE_F32;
 
-    if (!llama_model_load(path_model, *ctx, params.n_ctx, params.n_gpu_layers, params.tensor_split,
-                memory_type, params.use_mmap, params.use_mlock, params.vocab_only,
+    if (!llama_model_load(path_model, *ctx, params.n_ctx, params.n_batch, params.n_gpu_layers,
+                params.tensor_split, memory_type, params.use_mmap, params.use_mlock, params.vocab_only,
                 params.progress_callback, params.progress_callback_user_data)) {
         fprintf(stderr, "%s: failed to load model\n", __func__);
         llama_free(ctx);
diff --git a/llama.h b/llama.h
@@ -72,10 +72,11 @@ extern "C" {
     typedef void (*llama_progress_callback)(float progress, void *ctx);
 
     struct llama_context_params {
-        int n_ctx;                            // text context
-        int n_gpu_layers;                     // number of layers to store in VRAM
+        int n_ctx;                             // text context
+        int n_batch;                           // prompt processing batch size
+        int n_gpu_layers;                      // number of layers to store in VRAM
         float tensor_split[LLAMA_MAX_DEVICES]; // how to split layers across multiple GPUs
-        int seed;                             // RNG seed, -1 for random
+        int seed;                              // RNG seed, -1 for random
 
         bool f16_kv;     // use fp16 for KV cache
         bool logits_all; // the llama_eval() call computes all logits, not just the last one