clean up failed attempt at implementing control-vector hot-swapping

trollkotze · trollkotze · commit f0722b1352b6 · 2024-03-25T17:06:44.000+01:00
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -3176,84 +3176,6 @@ int main(int argc, char ** argv) {
         res.status = 200; // HTTP OK
     };
 
-    const auto handle_get_control_vectors = [&ctx_server](const httplib::Request & req, httplib::Response & res) {
-      json vectors = json::array();
-
-      for (const auto & vec : ctx_server.params.control_vectors) {
-          vectors.push_back(json {
-              { "fname", vec.fname },
-              { "strength", vec.strength }
-          });
-      }
-      json data = {
-          { "vectors", vectors },
-          { "layer_start", ctx_server.params.control_vector_layer_start },
-          { "layer_end", ctx_server.params.control_vector_layer_end }
-      };
-      res.set_content(data.dump(), "application/json; charset=utf-8");
-    };
-
-    const auto handle_set_control_vectors = [&ctx_server, &res_error, &handle_get_control_vectors](const httplib::Request & req, httplib::Response & res) {
-        res.set_header("Access-Control-Allow-Origin", req.get_header_value("Origin"));
-
-        json data = json::parse(req.body);
-        std::vector<llama_control_vector_load_info> vec_params;
-
-        if (data.contains("vectors") && data["vectors"].is_array()) {
-            for (const auto &item : data["vectors"]) {
-                auto v = item.get<llama_control_vector_load_info>();
-                std::cout << "Add vector: " << v.fname << " " << v.strength << "\n";
-                vec_params.push_back(v);
-            }
-        } else {
-            std::cerr << "No vectors passed\n";
-            res_error(res, format_error_response("No vectors passed", ERROR_TYPE_SERVER));
-            return;
-        }
-        const auto cvec = llama_control_vector_load(vec_params);
-        if (cvec.n_embd == -1) {
-            std::cerr << "Could not load control vector\n";
-            res_error(res, format_error_response("Could not load control vector", ERROR_TYPE_SERVER));
-            return;
-        }
-
-        if (ctx_server.params.control_vector_layer_start <= 0) {
-            ctx_server.params.control_vector_layer_start = 1;
-        }
-        if (ctx_server.params.control_vector_layer_end   <= 0){
-            ctx_server.params.control_vector_layer_end   = llama_n_layer(ctx_server.model);
-        }
-        int err = llama_control_vector_apply(ctx_server.ctx,
-                                             cvec.data.data(),
-                                             cvec.data.size(),
-                                             cvec.n_embd,
-                                             ctx_server.params.control_vector_layer_start,
-                                             ctx_server.params.control_vector_layer_end);
-        if (err) {
-            std::cerr << "Could not apply control vector\n";
-            res_error(res, format_error_response("Could not apply control vector", ERROR_TYPE_SERVER));
-            return;
-        }
-        ctx_server.params.control_vectors.clear();
-        for (auto v : vec_params) {
-          //std::cout << "set vector param: " << v.fname << " " << v.strength << "\n";
-          ctx_server.params.control_vectors.push_back(v);
-        }
-
-        /*std::cerr << "Maybe we need to do this initiation ritual before it werks?\n"; // No, it's still all garbled bullshit.
-
-        std::vector<llama_token> tmp = { llama_token_bos(ctx_server.model), llama_token_eos(ctx_server.model), };
-        std::cerr << "decode, bro\n";
-        llama_decode(ctx_server.ctx, llama_batch_get_one(tmp.data(), std::min(tmp.size(), (size_t) ctx_server.params.n_batch), 0, 0));
-        std::cerr << "clear that fucking cache\n";
-        llama_kv_cache_clear(ctx_server.ctx);
-        std::cerr << "symcr0nice or what\n";
-        llama_synchronize(ctx_server.ctx);
-        std::cerr << "time will tell\n";
-        llama_reset_timings(ctx_server.ctx);*/
-        handle_get_control_vectors(req, res);
-    };
-
     const auto handle_props = [&ctx_server](const httplib::Request & req, httplib::Response & res) {
         res.set_header("Access-Control-Allow-Origin", req.get_header_value("Origin"));
         json data = {
@@ -3603,10 +3525,8 @@ int main(int argc, char ** argv) {
     svr->Get ("/health",              handle_health);
     svr->Get ("/slots",               handle_slots);
     svr->Get ("/metrics",             handle_metrics);
-    svr->Get ("/control-vectors",     handle_get_control_vectors);
     svr->Get ("/props",               handle_props);
     svr->Get ("/v1/models",           handle_models);
-    svr->Post("/control-vectors",     handle_set_control_vectors);
     svr->Post("/completion",          handle_completions); // legacy
     svr->Post("/completions",         handle_completions);
     svr->Post("/v1/completions",      handle_completions);
@@ -3681,3 +3601,4 @@ int main(int argc, char ** argv) {
 
     return 0;
 }
+
diff --git a/examples/server/utils.hpp b/examples/server/utils.hpp
@@ -615,8 +615,3 @@ static json format_error_response(const std::string & message, const enum error_
         {"type", type_str},
     };
 }
-
-void from_json(const json& j, llama_control_vector_load_info& l) {
-  j.at("strength").get_to(l.strength);
-  j.at("fname").get_to(l.fname);
-}
diff --git a/llama.cpp b/llama.cpp
@@ -1950,7 +1950,6 @@ struct llama_control_vector {
     }
 
     ~llama_control_vector() {
-        LLAMA_LOG_ERROR("Kill the control vector\n");
         for (struct ggml_context * ctx : ctxs) {
             ggml_free(ctx);
         }
@@ -13995,9 +13994,9 @@ int32_t llama_model_apply_lora_from_file(const struct llama_model * model, const
 }
 
 static bool llama_control_vector_init(struct llama_control_vector & cvec, const llama_model & model) {
-    cvec.tensors.clear();
-    cvec.ctxs.clear();
-    cvec.bufs.clear();
+    GGML_ASSERT(cvec.tensors.empty());
+    GGML_ASSERT(cvec.ctxs.empty());
+    GGML_ASSERT(cvec.bufs.empty());
 
     // count layer buffer types
     std::map<ggml_backend_buffer_type_t, int> buft_layer_count;
@@ -14063,9 +14062,10 @@ int32_t llama_control_vector_apply(struct llama_context * lctx, const float * da
         return 1;
     }
 
-    if (!llama_control_vector_init(cvec, model)) {
-        LLAMA_LOG_ERROR("%s: FUCKING  BITCH\n", __func__);
-        return 1;
+    if (cvec.tensors.empty()) {
+        if (!llama_control_vector_init(cvec, model)) {
+            return 1;
+        }
     }
 
     cvec.layer_start = il_start;

Original file line number	Diff line number	Diff line change
`@@ -615,8 +615,3 @@ static json format_error_response(const std::string & message, const enum error_`
`615`	`615`	`{"type", type_str},`
`616`	`616`	`};`
`617`	`617`	`}`
`618`		`-`
`619`		`-void from_json(const json& j, llama_control_vector_load_info& l) {`
`620`		`- j.at("strength").get_to(l.strength);`
`621`		`- j.at("fname").get_to(l.fname);`
`622`		`-}`
Original file line number	Diff line number	Diff line change
`@@ -1950,7 +1950,6 @@ struct llama_control_vector {`
`1950`	`1950`	`}`
`1951`	`1951`
`1952`	`1952`	`~llama_control_vector() {`
`1953`		`- LLAMA_LOG_ERROR("Kill the control vector\n");`
`1954`	`1953`	`for (struct ggml_context * ctx : ctxs) {`
`1955`	`1954`	`ggml_free(ctx);`
`1956`	`1955`	`}`
`@@ -13995,9 +13994,9 @@ int32_t llama_model_apply_lora_from_file(const struct llama_model * model, const`
`13995`	`13994`	`}`
`13996`	`13995`
`13997`	`13996`	`static bool llama_control_vector_init(struct llama_control_vector & cvec, const llama_model & model) {`
`13998`		`- cvec.tensors.clear();`
`13999`		`- cvec.ctxs.clear();`
`14000`		`- cvec.bufs.clear();`
	`13997`	`+ GGML_ASSERT(cvec.tensors.empty());`
	`13998`	`+ GGML_ASSERT(cvec.ctxs.empty());`
	`13999`	`+ GGML_ASSERT(cvec.bufs.empty());`
`14001`	`14000`
`14002`	`14001`	`// count layer buffer types`
`14003`	`14002`	`std::map<ggml_backend_buffer_type_t, int> buft_layer_count;`
`@@ -14063,9 +14062,10 @@ int32_t llama_control_vector_apply(struct llama_context * lctx, const float * da`
`14063`	`14062`	`return 1;`
`14064`	`14063`	`}`
`14065`	`14064`
`14066`		`- if (!llama_control_vector_init(cvec, model)) {`
`14067`		`- LLAMA_LOG_ERROR("%s: FUCKING BITCH\n", __func__);`
`14068`		`- return 1;`
	`14065`	`+ if (cvec.tensors.empty()) {`
	`14066`	`+ if (!llama_control_vector_init(cvec, model)) {`
	`14067`	`+ return 1;`
	`14068`	`+ }`
`14069`	`14069`	`}`
`14070`	`14070`
`14071`	`14071`	`cvec.layer_start = il_start;`