ggml_context default_backend

JohannesGaessler · JohannesGaessler · commit 4900d3a0009a · 2023-06-05T21:57:31.000+02:00
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
@@ -600,7 +600,7 @@ void ggml_init_cublas() {
     }
 }
 
-void ggml_cuda_set_tensor_split(float * tensor_split) {
+void ggml_cuda_set_tensor_split(const float * tensor_split) {
     bool all_zero = true;
     for (int i = 0; i < g_device_count; ++i) {
         if (tensor_split[i] != 0.0f) {
@@ -1295,12 +1295,12 @@ void ggml_cuda_assign_buffers(struct ggml_tensor * tensor) {
 
     tensor->backend = GGML_BACKEND_GPU;
     struct ggml_tensor_extra_gpu * extra = new ggml_tensor_extra_gpu;
-    struct ggml_tensor_extra_gpu * src0_extra = (ggml_tensor_extra_gpu * ) tensor->src0->extra;
 
-    bool inplace = tensor->src0->data == tensor->data;
+    bool inplace = tensor->src0 != nullptr && tensor->src0->data == tensor->data;
 
     CUDA_CHECK(cudaSetDevice(g_main_device));
     if (inplace && tensor->src0->backend == GGML_BACKEND_GPU) {
+        struct ggml_tensor_extra_gpu * src0_extra = (ggml_tensor_extra_gpu * ) tensor->src0->extra;
         extra->data_device[g_main_device] = src0_extra->data_device;
         GGML_ASSERT(false);
     } else {
diff --git a/ggml-cuda.h b/ggml-cuda.h
@@ -13,7 +13,7 @@ struct ggml_tensor_extra_gpu {
 };
 
 void   ggml_init_cublas(void);
-void ggml_cuda_set_tensor_split(float * tensor_split);
+void ggml_cuda_set_tensor_split(const float * tensor_split);
 
 void   ggml_cuda_mul(const struct ggml_tensor * src0, const struct ggml_tensor * src1, struct ggml_tensor * dst);
 bool   ggml_cuda_can_mul_mat(const struct ggml_tensor * src0, const struct ggml_tensor * src1, struct ggml_tensor * dst);
diff --git a/ggml.c b/ggml.c
@@ -3639,6 +3639,8 @@ struct ggml_context {
 
     struct ggml_scratch scratch;
     struct ggml_scratch scratch_save;
+
+    enum ggml_backend default_backend;
 };
 
 struct ggml_context_container {
@@ -3965,6 +3967,7 @@ struct ggml_context * ggml_init(struct ggml_init_params params) {
         /*.objects_end        =*/ NULL,
         /*.scratch            =*/ { 0, 0, NULL, },
         /*.scratch_save       =*/ { 0, 0, NULL, },
+        /*.default_backend    =*/ GGML_BACKEND_CPU,
     };
 
     GGML_ASSERT(ctx->mem_buffer != NULL);
@@ -4023,6 +4026,10 @@ void ggml_set_no_alloc(struct ggml_context * ctx, bool no_alloc) {
     ctx->no_alloc = no_alloc;
 }
 
+void ggml_set_default_backend(struct ggml_context * ctx, enum ggml_backend backend) {
+    ctx->default_backend = backend;
+}
+
 void * ggml_get_mem_buffer(struct ggml_context * ctx) {
     return ctx->mem_buffer;
 }
@@ -4134,7 +4141,7 @@ struct ggml_tensor * ggml_new_tensor_impl(
 
     *result = (struct ggml_tensor) {
         /*.type         =*/ type,
-        /*.backend      =*/ GGML_BACKEND_CPU,
+        /*.backend      =*/ ctx->default_backend,
         /*.n_dims       =*/ n_dims,
         /*.ne           =*/ { 1, 1, 1, 1 },
         /*.nb           =*/ { 0, 0, 0, 0 },
@@ -4167,6 +4174,15 @@ struct ggml_tensor * ggml_new_tensor_impl(
         result->nb[i] = result->nb[i - 1]*result->ne[i - 1];
     }
 
+#ifdef GGML_USE_CUBLAS
+    if (result->backend == GGML_BACKEND_GPU) {
+        ggml_cuda_assign_buffers(result);
+    }
+#else
+    GGML_ASSERT(result->backend == GGML_BACKEND_CPU);
+#endif // GGML_USE_CUBLAS
+    GGML_ASSERT(result->backend != GGML_BACKEND_GPU_SPLIT);
+
     ctx->n_objects++;
 
     return result;
diff --git a/ggml.h b/ggml.h
@@ -479,6 +479,7 @@ extern "C" {
 
     GGML_API size_t  ggml_set_scratch (struct ggml_context * ctx, struct ggml_scratch scratch);
     GGML_API void    ggml_set_no_alloc(struct ggml_context * ctx, bool no_alloc);
+    GGML_API void    ggml_set_default_backend(struct ggml_context * ctx, enum ggml_backend backend);
 
     GGML_API void *  ggml_get_mem_buffer(struct ggml_context * ctx);
     GGML_API size_t  ggml_get_mem_size  (struct ggml_context * ctx);
diff --git a/llama.cpp b/llama.cpp
@@ -934,7 +934,7 @@ static void llama_model_load_internal(
         llama_context & lctx,
         int n_ctx,
         int n_gpu_layers,
-        float * tensor_split,
+        const float * tensor_split,
         ggml_type memory_type,
         bool use_mmap,
         bool use_mlock,
@@ -1293,30 +1293,31 @@ static bool llama_eval_internal(
         struct ggml_tensor * inpSA = inpL;
 
         lctx.use_buf(ctx0, 0);
-        //ggml_cuda_set_scratch(0);
 
         // norm
         {
+            ggml_set_default_backend(ctx0, GGML_BACKEND_GPU);
             cur = ggml_rms_norm(ctx0, inpL);
             ggml_set_name(cur, "rms_norm_0");
-            ggml_cuda_assign_buffers(cur);
 
             // cur = cur*attention_norm(broadcasted)
             cur = ggml_mul(ctx0, cur, model.layers[il].attention_norm);
-            ggml_cuda_assign_buffers(cur);
         }
 
         // self-attention
         {
             // compute Q and K and RoPE them
-            struct ggml_tensor * tmpq = ggml_mul_mat(ctx0, model.layers[il].wq, cur);
-            ggml_cuda_assign_buffers(tmpq);
-            struct ggml_tensor * Qcur = ggml_rope_inplace(ctx0, ggml_reshape_3d(ctx0, tmpq, n_embd/n_head, n_head, N), n_past, n_rot, 0);
-            Qcur->backend = GGML_BACKEND_CPU;
-            struct ggml_tensor * tmpk = ggml_mul_mat(ctx0, model.layers[il].wk, cur);
-            ggml_cuda_assign_buffers(tmpk);
-            struct ggml_tensor * Kcur = ggml_rope_inplace(ctx0, ggml_reshape_3d(ctx0, tmpk, n_embd/n_head, n_head, N), n_past, n_rot, 0);
-            Kcur->backend = GGML_BACKEND_CPU;
+            struct ggml_tensor * tmpq = ggml_reshape_3d(ctx0, ggml_mul_mat(ctx0, model.layers[il].wq, cur), n_embd/n_head, n_head, N);
+            struct ggml_tensor * tmpk = ggml_reshape_3d(ctx0, ggml_mul_mat(ctx0, model.layers[il].wk, cur), n_embd/n_head, n_head, N);
+            ggml_set_default_backend(ctx0, GGML_BACKEND_CPU);
+
+#ifdef GGML_USE_CUBLAS
+            struct ggml_tensor * Kcur = ggml_rope(ctx0, tmpk, n_past, n_rot, 0);
+            struct ggml_tensor * Qcur = ggml_rope(ctx0, tmpq, n_past, n_rot, 0);
+#else
+            struct ggml_tensor * Kcur = ggml_rope_inplace(ctx0, tmpk, n_past, n_rot, 0);
+            struct ggml_tensor * Qcur = ggml_rope_inplace(ctx0, tmpq, n_past, n_rot, 0);
+#endif // GGML_USE_CUBLAS
             ggml_set_name(Qcur, "Qcur");
             ggml_set_name(Kcur, "Kcur");
 
@@ -1400,60 +1401,53 @@ static bool llama_eval_internal(
                     ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, n_embd, N));
             ggml_set_name(cur, "KQV_merged_contiguous");
 
+            ggml_set_default_backend(ctx0, GGML_BACKEND_GPU);
             // projection (no bias)
             cur = ggml_mul_mat(ctx0,
                     model.layers[il].wo,
                     cur);
-            ggml_cuda_assign_buffers(cur);
         }
 
         lctx.use_buf(ctx0, 1);
         //ggml_cuda_set_scratch(1);
 
         struct ggml_tensor * inpFF = ggml_add(ctx0, cur, inpSA);
-        ggml_cuda_assign_buffers(inpFF);
 
         // feed-forward network
         {
             // norm
             {
                 cur = ggml_rms_norm(ctx0, inpFF);
                 ggml_set_name(cur, "rms_norm_1");
-                ggml_cuda_assign_buffers(cur);
 
                 // cur = cur*ffn_norm(broadcasted)
                 cur = ggml_mul(ctx0, cur, model.layers[il].ffn_norm);
-                ggml_cuda_assign_buffers(cur);
             }
 
             struct ggml_tensor * tmp = ggml_mul_mat(ctx0,
                     model.layers[il].w3,
                     cur);
-            ggml_cuda_assign_buffers(tmp);
 
             cur = ggml_mul_mat(ctx0,
                     model.layers[il].w1,
                     cur);
-            ggml_cuda_assign_buffers(cur);
 
             // SILU activation
             cur = ggml_silu(ctx0, cur);
-            ggml_cuda_assign_buffers(cur);
 
             cur = ggml_mul(ctx0, cur, tmp);
-            ggml_cuda_assign_buffers(cur);
 
             cur = ggml_mul_mat(ctx0,
                     model.layers[il].w2,
                     cur);
-            ggml_cuda_assign_buffers(cur);
         }
 
         cur = ggml_add(ctx0, cur, inpFF);
-        ggml_cuda_assign_buffers(cur);
 
         // input for next layer
         inpL = cur;
+
+        ggml_set_default_backend(ctx0, GGML_BACKEND_CPU);
     }
 
     lctx.use_buf(ctx0, 0);
@@ -1462,20 +1456,22 @@ static bool llama_eval_internal(
     // used at the end to optionally extract the embeddings
     struct ggml_tensor * embeddings = NULL;
 
+    ggml_set_default_backend(ctx0, GGML_BACKEND_GPU);
+
     // norm
     {
         cur = ggml_rms_norm(ctx0, inpL);
 
         cur = ggml_rms_norm(ctx0, cur);
-        ggml_cuda_assign_buffers(cur);
 
         // cur = cur*norm(broadcasted)
         cur = ggml_mul(ctx0, cur, model.norm);
-        ggml_cuda_assign_buffers(cur);
 
         embeddings = cur;
     }
 
+    ggml_set_default_backend(ctx0, GGML_BACKEND_CPU);
+
     // lm_head
     cur = ggml_mul_mat(ctx0, model.output, cur);