reusable buffers

mqy · mqy · commit bf63002af94b · 2023-07-05T03:07:08.000+08:00
diff --git a/examples/baby-llama/baby-llama.cpp b/examples/baby-llama/baby-llama.cpp
@@ -1569,6 +1569,8 @@ int main(int argc, char ** argv) {
     int n_tokens = model.hparams.n_ctx;
     int n_vocab  = model.hparams.n_vocab;
 
+    auto compute_plan_buffer = std::vector<uint8_t>();
+
     for (int ex=0; ex<n_examples; ++ex) {
         struct ggml_init_params params = {
             /*.mem_size   =*/ compute_size,
@@ -1598,13 +1600,10 @@ int main(int argc, char ** argv) {
         {
             struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
             if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
+                compute_plan_buffer.resize(plan.work_size);
+                plan.work_data = compute_plan_buffer.data();
             }
             ggml_graph_compute(&plan, &gf);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
         }
 
         float error_before_opt = ggml_get_f32_1d(e, 0);
@@ -1625,13 +1624,10 @@ int main(int argc, char ** argv) {
         {
             struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
             if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
+                compute_plan_buffer.resize(plan.work_size);
+                plan.work_data = compute_plan_buffer.data();
             }
             ggml_graph_compute(&plan, &gf);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
         }
 
         float error_after_opt = ggml_get_f32_1d(e, 0);
@@ -1689,13 +1685,10 @@ int main(int argc, char ** argv) {
             {
                 struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
                 if (plan.work_size > 0) {
-                    plan.work_data = malloc(plan.work_size);
-                    GGML_ASSERT(plan.work_data);
+                    compute_plan_buffer.resize(plan.work_size);
+                    plan.work_data = compute_plan_buffer.data();
                 }
                 ggml_graph_compute(&plan, &gf);
-                if (plan.work_data) {
-                    free(plan.work_data);
-                }
             }
 
             struct ggml_tensor * best_samples = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, sample_ctx);
diff --git a/examples/benchmark/benchmark-matmult.cpp b/examples/benchmark/benchmark-matmult.cpp
@@ -164,16 +164,15 @@ int main(int argc, char ** argv)  {
     TENSOR_DUMP(m11);
     TENSOR_DUMP(m2);
 
+    auto compute_plan_buffer = std::vector<uint8_t>();
+
     {
-        struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, benchmark_params.n_threads);
+        auto plan = ggml_graph_compute_make_plan(&gf, benchmark_params.n_threads);
         if (plan.work_size > 0) {
-            plan.work_data = malloc(plan.work_size);
-            GGML_ASSERT(plan.work_data);
+            compute_plan_buffer.resize(plan.work_size);
+            plan.work_data = compute_plan_buffer.data();
         }
         ggml_graph_compute(&plan, &gf);
-        if (plan.work_data) {
-            free(plan.work_data);
-        }
     }
 
     TENSOR_DUMP(gf.nodes[0]);
@@ -229,15 +228,12 @@ int main(int argc, char ** argv)  {
         long long int start = ggml_time_us();
         //printf("Running ggml_graph_compute\n");
         {
-            struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf31, benchmark_params.n_threads);
+            auto plan = ggml_graph_compute_make_plan(&gf31, benchmark_params.n_threads);
             if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
+                compute_plan_buffer.resize(plan.work_size);
+                plan.work_data = compute_plan_buffer.data();
             }
             ggml_graph_compute(&plan, &gf31);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
         }
 
         long long int stop = ggml_time_us();
@@ -272,15 +268,12 @@ int main(int argc, char ** argv)  {
 
         // Running a different graph computation to make sure we override the CPU cache lines
         {
-            struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf32, benchmark_params.n_threads);
+            auto plan = ggml_graph_compute_make_plan(&gf32, benchmark_params.n_threads);
             if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
+                compute_plan_buffer.resize(plan.work_size);
+                plan.work_data = compute_plan_buffer.data();
             }
             ggml_graph_compute(&plan, &gf32);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
         }
     }
     printf("\n");
diff --git a/examples/train-text-from-scratch/train-text-from-scratch.cpp b/examples/train-text-from-scratch/train-text-from-scratch.cpp
@@ -3181,6 +3181,8 @@ int main(int argc, char ** argv) {
         GGML_ASSERT(train_samples[i]+n_tokens-1 < (int) train_tokens.size());
     }
 
+    auto compute_plan_buffer = std::vector<uint8_t>();
+
     printf("%s: begin training\n", __func__);
 
     for (int ex = 0; ex < params.n_examples; ++ex) {
@@ -3244,15 +3246,12 @@ int main(int argc, char ** argv) {
         }
 
         {
-            struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(gf, params.n_threads);
+            auto plan = ggml_graph_compute_make_plan(gf, params.n_threads);
             if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
+                compute_plan_buffer.resize(plan.work_size);
+                plan.work_data = compute_plan_buffer.data();
             }
             ggml_graph_compute(&plan, gf);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
         }
 
         size_t used_mem_before_opt = ggml_used_mem(ctx0);
@@ -3278,15 +3277,12 @@ int main(int argc, char ** argv) {
         model.train_tokens  += n_batch * n_tokens;
 
         {
-            struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(gf, params.n_threads);
+            auto plan = ggml_graph_compute_make_plan(gf, params.n_threads);
             if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
+                compute_plan_buffer.resize(plan.work_size);
+                plan.work_data = compute_plan_buffer.data();
             }
             ggml_graph_compute(&plan, gf);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
         }
 
         float error_after_opt = ggml_get_f32_1d(loss, 0);
@@ -3376,15 +3372,12 @@ int main(int argc, char ** argv) {
             ggml_build_forward_expand(&gf, logits);
 
             {
-                struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, params.n_threads);
+                auto plan = ggml_graph_compute_make_plan(&gf, params.n_threads);
                 if (plan.work_size > 0) {
-                    plan.work_data = malloc(plan.work_size);
-                    GGML_ASSERT(plan.work_data);
+                    compute_plan_buffer.resize(plan.work_size);
+                    plan.work_data = compute_plan_buffer.data();
                 }
                 ggml_graph_compute(&plan, &gf);
-                if (plan.work_data) {
-                    free(plan.work_data);
-                }
             }
 
             //struct ggml_tensor * best_samples = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, sample_ctx);
diff --git a/ggml.c b/ggml.c
@@ -16330,7 +16330,7 @@ static thread_ret_t ggml_graph_compute_thread(void * data) {
     const struct ggml_cgraph * cgraph = state->shared->cgraph;
 
     const struct ggml_graph_compute_plan * plan = state->shared->plan;
-    const int *n_tasks_arr = plan->n_tasks;
+    const int * n_tasks_arr = plan->n_tasks;
 
     const int n_threads = state->shared->n_threads;
     set_numa_thread_affinity(state->ith, n_threads);
@@ -16864,6 +16864,7 @@ void ggml_graph_compute(struct ggml_graph_compute_plan * plan, struct ggml_cgrap
     }
 }
 
+// TODO: avoid allocating memory frequently.
 static void ggml_graph_compute_sugar(struct ggml_cgraph * cgraph, int n_threads) {
     struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(cgraph, n_threads);
     if (plan.work_size > 0) {
diff --git a/ggml.h b/ggml.h
@@ -449,7 +449,7 @@ extern "C" {
         // Size of work buffer, calculated by `ggml_graph_compute_make_plan()`.
         size_t work_size;
         // Work buffer, to be allocated by caller before calling to `ggml_graph_compute()`.
-        void * work_data;
+        uint8_t * work_data;
 
         int n_threads;
 
diff --git a/llama.cpp b/llama.cpp
@@ -321,6 +321,10 @@ struct llama_context {
     // input embedding (1-dimensional array: [n_embd])
     std::vector<float> embedding;
 
+    // reusable buffer for `struct ggml_graph_compute_plan.work_data`
+    // std::vector guarantees the elements are stored contiguously.
+    std::vector<uint8_t> compute_plan_buffer;
+
     // memory buffers used to evaluate the model
     // TODO: move in llama_state
     llama_ctx_buffer buf_compute;
@@ -1582,10 +1586,13 @@ static bool llama_eval_internal(
     // run the computation
     ggml_build_forward_expand(&gf, cur);
 
+    bool call_ggml_graph_compute = true;
+
 #ifdef GGML_USE_METAL
     if (lctx.ctx_metal && N == 1) {
         ggml_metal_graph_compute(lctx.ctx_metal, &gf);
         ggml_metal_get_tensor   (lctx.ctx_metal, cur);
+        call_ggml_graph_compute = false;
     } else {
         // IMPORTANT:
         // Since we don't have efficient Matrix x Matrix Metal multiplication yet, we fallback to vanilla
@@ -1602,32 +1609,17 @@ static bool llama_eval_internal(
             ggml_metal_get_tensor(lctx.ctx_metal, kv_self.k);
             ggml_metal_get_tensor(lctx.ctx_metal, kv_self.v);
         }
-
-        {
-            struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, actual_n_threads);
-            if (plan.work_size > 0) {
-                plan.work_data = malloc(plan.work_size);
-                GGML_ASSERT(plan.work_data);
-            }
-            ggml_graph_compute(&plan, &gf);
-            if (plan.work_data) {
-                free(plan.work_data);
-            }
-        }
     }
-#else
-    {
-        struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, actual_n_threads);
+#endif
+
+    if (call_ggml_graph_compute) {
+        auto plan = ggml_graph_compute_make_plan(&gf, actual_n_threads);
         if (plan.work_size > 0) {
-            plan.work_data = malloc(plan.work_size);
-            GGML_ASSERT(plan.work_data);
+            lctx.compute_plan_buffer.resize(plan.work_size);
+            plan.work_data = lctx.compute_plan_buffer.data();
         }
         ggml_graph_compute(&plan, &gf);
-        if (plan.work_data) {
-            free(plan.work_data);
-        }
     }
-#endif
 
     if (cgraph_fname) {
         ggml_graph_export(&gf, cgraph_fname);
@@ -2815,6 +2807,9 @@ int llama_apply_lora_from_file_internal(const struct llama_model & model, const
     // read tensors and apply
     bool warned = false;
     int n_tensors = 0;
+
+    auto compute_plan_buffer = std::vector<uint8_t>();
+
     while (true) {
         int32_t n_dims;
         int32_t length;
@@ -2981,15 +2976,12 @@ int llama_apply_lora_from_file_internal(const struct llama_model & model, const
             struct ggml_cgraph gf = ggml_build_forward(r);
 
             {
-                struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, n_threads);
+                auto plan = ggml_graph_compute_make_plan(&gf, n_threads);
                 if (plan.work_size > 0) {
-                    plan.work_data = malloc(plan.work_size);
-                    GGML_ASSERT(plan.work_data);
+                    compute_plan_buffer.resize(plan.work_size);
+                    plan.work_data = compute_plan_buffer.data();
                 }
                 ggml_graph_compute(&plan, &gf);
-                if (plan.work_data) {
-                    free(plan.work_data);
-                }
             }
 
             // we won't need these tensors again, reset the context to save memory
@@ -3164,15 +3156,12 @@ size_t llama_copy_state_data(struct llama_context * ctx, uint8_t * dst) {
             ggml_build_forward_expand(&gf, ggml_cpy(cpy_ctx, v3d, vout3d));
 
             {
-                struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
+                auto plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
                 if (plan.work_size > 0) {
-                    plan.work_data = malloc(plan.work_size);
-                    GGML_ASSERT(plan.work_data);
+                    ctx->compute_plan_buffer.resize(plan.work_size);
+                    plan.work_data = ctx->compute_plan_buffer.data();
                 }
                 ggml_graph_compute(&plan, &gf);
-                if (plan.work_data) {
-                    free(plan.work_data);
-                }
             }
 
             ggml_free(cpy_ctx);
@@ -3280,15 +3269,12 @@ size_t llama_set_state_data(struct llama_context * ctx, uint8_t * src) {
             ggml_build_forward_expand(&gf, ggml_cpy(cpy_ctx, vin3d, v3d));
 
             {
-                struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
+                auto plan = ggml_graph_compute_make_plan(&gf, /*n_threads*/ 1);
                 if (plan.work_size > 0) {
-                    plan.work_data = malloc(plan.work_size);
-                    GGML_ASSERT(plan.work_data);
+                    ctx->compute_plan_buffer.resize(plan.work_size);
+                    plan.work_data = ctx->compute_plan_buffer.data();
                 }
                 ggml_graph_compute(&plan, &gf);
-                if (plan.work_data) {
-                    free(plan.work_data);
-                }
             }
 
             ggml_free(cpy_ctx);
diff --git a/tests/test-grad0.c b/tests/test-grad0.c
diff --git a/tests/test-opt.c b/tests/test-opt.c

Original file line number	Diff line number	Diff line change
`@@ -164,16 +164,15 @@ int main(int argc, char ** argv) {`
`164`	`164`	`TENSOR_DUMP(m11);`
`165`	`165`	`TENSOR_DUMP(m2);`
`166`	`166`
	`167`	`+ auto compute_plan_buffer = std::vector<uint8_t>();`
	`168`	`+`
`167`	`169`	`{`
`168`		`- struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, benchmark_params.n_threads);`
	`170`	`+ auto plan = ggml_graph_compute_make_plan(&gf, benchmark_params.n_threads);`
`169`	`171`	`if (plan.work_size > 0) {`
`170`		`- plan.work_data = malloc(plan.work_size);`
`171`		`- GGML_ASSERT(plan.work_data);`
	`172`	`+ compute_plan_buffer.resize(plan.work_size);`
	`173`	`+ plan.work_data = compute_plan_buffer.data();`
`172`	`174`	`}`
`173`	`175`	`ggml_graph_compute(&plan, &gf);`
`174`		`- if (plan.work_data) {`
`175`		`- free(plan.work_data);`
`176`		`- }`
`177`	`176`	`}`
`178`	`177`
`179`	`178`	`TENSOR_DUMP(gf.nodes[0]);`
`@@ -229,15 +228,12 @@ int main(int argc, char ** argv) {`
`229`	`228`	`long long int start = ggml_time_us();`
`230`	`229`	`//printf("Running ggml_graph_compute\n");`
`231`	`230`	`{`
`232`		`- struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf31, benchmark_params.n_threads);`
	`231`	`+ auto plan = ggml_graph_compute_make_plan(&gf31, benchmark_params.n_threads);`
`233`	`232`	`if (plan.work_size > 0) {`
`234`		`- plan.work_data = malloc(plan.work_size);`
`235`		`- GGML_ASSERT(plan.work_data);`
	`233`	`+ compute_plan_buffer.resize(plan.work_size);`
	`234`	`+ plan.work_data = compute_plan_buffer.data();`
`236`	`235`	`}`
`237`	`236`	`ggml_graph_compute(&plan, &gf31);`
`238`		`- if (plan.work_data) {`
`239`		`- free(plan.work_data);`
`240`		`- }`
`241`	`237`	`}`
`242`	`238`
`243`	`239`	`long long int stop = ggml_time_us();`
`@@ -272,15 +268,12 @@ int main(int argc, char ** argv) {`
`272`	`268`
`273`	`269`	`// Running a different graph computation to make sure we override the CPU cache lines`
`274`	`270`	`{`
`275`		`- struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf32, benchmark_params.n_threads);`
	`271`	`+ auto plan = ggml_graph_compute_make_plan(&gf32, benchmark_params.n_threads);`
`276`	`272`	`if (plan.work_size > 0) {`
`277`		`- plan.work_data = malloc(plan.work_size);`
`278`		`- GGML_ASSERT(plan.work_data);`
	`273`	`+ compute_plan_buffer.resize(plan.work_size);`
	`274`	`+ plan.work_data = compute_plan_buffer.data();`
`279`	`275`	`}`
`280`	`276`	`ggml_graph_compute(&plan, &gf32);`
`281`		`- if (plan.work_data) {`
`282`		`- free(plan.work_data);`
`283`		`- }`
`284`	`277`	`}`
`285`	`278`	`}`
`286`	`279`	`printf("\n");`
Original file line number	Diff line number	Diff line change
`@@ -3181,6 +3181,8 @@ int main(int argc, char ** argv) {`
`3181`	`3181`	`GGML_ASSERT(train_samples[i]+n_tokens-1 < (int) train_tokens.size());`
`3182`	`3182`	`}`
`3183`	`3183`
	`3184`	`+ auto compute_plan_buffer = std::vector<uint8_t>();`
	`3185`	`+`
`3184`	`3186`	`printf("%s: begin training\n", __func__);`
`3185`	`3187`
`3186`	`3188`	`for (int ex = 0; ex < params.n_examples; ++ex) {`
`@@ -3244,15 +3246,12 @@ int main(int argc, char ** argv) {`
`3244`	`3246`	`}`
`3245`	`3247`
`3246`	`3248`	`{`
`3247`		`- struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(gf, params.n_threads);`
	`3249`	`+ auto plan = ggml_graph_compute_make_plan(gf, params.n_threads);`
`3248`	`3250`	`if (plan.work_size > 0) {`
`3249`		`- plan.work_data = malloc(plan.work_size);`
`3250`		`- GGML_ASSERT(plan.work_data);`
	`3251`	`+ compute_plan_buffer.resize(plan.work_size);`
	`3252`	`+ plan.work_data = compute_plan_buffer.data();`
`3251`	`3253`	`}`
`3252`	`3254`	`ggml_graph_compute(&plan, gf);`
`3253`		`- if (plan.work_data) {`
`3254`		`- free(plan.work_data);`
`3255`		`- }`
`3256`	`3255`	`}`
`3257`	`3256`
`3258`	`3257`	`size_t used_mem_before_opt = ggml_used_mem(ctx0);`
`@@ -3278,15 +3277,12 @@ int main(int argc, char ** argv) {`
`3278`	`3277`	`model.train_tokens += n_batch * n_tokens;`
`3279`	`3278`
`3280`	`3279`	`{`
`3281`		`- struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(gf, params.n_threads);`
	`3280`	`+ auto plan = ggml_graph_compute_make_plan(gf, params.n_threads);`
`3282`	`3281`	`if (plan.work_size > 0) {`
`3283`		`- plan.work_data = malloc(plan.work_size);`
`3284`		`- GGML_ASSERT(plan.work_data);`
	`3282`	`+ compute_plan_buffer.resize(plan.work_size);`
	`3283`	`+ plan.work_data = compute_plan_buffer.data();`
`3285`	`3284`	`}`
`3286`	`3285`	`ggml_graph_compute(&plan, gf);`
`3287`		`- if (plan.work_data) {`
`3288`		`- free(plan.work_data);`
`3289`		`- }`
`3290`	`3286`	`}`
`3291`	`3287`
`3292`	`3288`	`float error_after_opt = ggml_get_f32_1d(loss, 0);`
`@@ -3376,15 +3372,12 @@ int main(int argc, char ** argv) {`
`3376`	`3372`	`ggml_build_forward_expand(&gf, logits);`
`3377`	`3373`
`3378`	`3374`	`{`
`3379`		`- struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(&gf, params.n_threads);`
	`3375`	`+ auto plan = ggml_graph_compute_make_plan(&gf, params.n_threads);`
`3380`	`3376`	`if (plan.work_size > 0) {`
`3381`		`- plan.work_data = malloc(plan.work_size);`
`3382`		`- GGML_ASSERT(plan.work_data);`
	`3377`	`+ compute_plan_buffer.resize(plan.work_size);`
	`3378`	`+ plan.work_data = compute_plan_buffer.data();`
`3383`	`3379`	`}`
`3384`	`3380`	`ggml_graph_compute(&plan, &gf);`
`3385`		`- if (plan.work_data) {`
`3386`		`- free(plan.work_data);`
`3387`		`- }`
`3388`	`3381`	`}`
`3389`	`3382`
`3390`	`3383`	`//struct ggml_tensor * best_samples = ggml_new_tensor_1d(ctx0, GGML_TYPE_I32, sample_ctx);`
Original file line number	Diff line number	Diff line change
`@@ -16330,7 +16330,7 @@ static thread_ret_t ggml_graph_compute_thread(void * data) {`
`16330`	`16330`	`const struct ggml_cgraph * cgraph = state->shared->cgraph;`
`16331`	`16331`
`16332`	`16332`	`const struct ggml_graph_compute_plan * plan = state->shared->plan;`
`16333`		`- const int *n_tasks_arr = plan->n_tasks;`
	`16333`	`+ const int * n_tasks_arr = plan->n_tasks;`
`16334`	`16334`
`16335`	`16335`	`const int n_threads = state->shared->n_threads;`
`16336`	`16336`	`set_numa_thread_affinity(state->ith, n_threads);`
`@@ -16864,6 +16864,7 @@ void ggml_graph_compute(struct ggml_graph_compute_plan * plan, struct ggml_cgrap`
`16864`	`16864`	`}`
`16865`	`16865`	`}`
`16866`	`16866`
	`16867`	`+// TODO: avoid allocating memory frequently.`
`16867`	`16868`	`static void ggml_graph_compute_sugar(struct ggml_cgraph * cgraph, int n_threads) {`
`16868`	`16869`	`struct ggml_graph_compute_plan plan = ggml_graph_compute_make_plan(cgraph, n_threads);`
`16869`	`16870`	`if (plan.work_size > 0) {`