kv-cache : simplify interface (wip)

ggerganov · ggerganov · commit 85dbd6f402fe · 2025-04-28T10:03:17.000+03:00
ggml-ci
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -1108,7 +1108,7 @@ int llama_context::decode(llama_batch & inp_batch) {
 
     // decide if we need to defrag the kv cache
     if (cparams.defrag_thold > 0.0f) {
-        kv_self->defrag(cparams.defrag_thold);
+        kv_self->defrag_sched(cparams.defrag_thold);
     }
 
     // Reset state for the next token before backend sync, to allow the CPU activities in the reset to
@@ -2152,7 +2152,7 @@ void llama_kv_cache_seq_cp(
          llama_seq_id   seq_id_dst,
             llama_pos   p0,
             llama_pos   p1) {
-    return llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);
+    llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);
 }
 
 void llama_kv_self_seq_cp(
@@ -2166,14 +2166,14 @@ void llama_kv_self_seq_cp(
         return;
     }
 
-    return kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);
+    kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);
 }
 
 // deprecated
 void llama_kv_cache_seq_keep(
         llama_context * ctx,
          llama_seq_id   seq_id) {
-    return llama_kv_self_seq_keep(ctx, seq_id);
+    llama_kv_self_seq_keep(ctx, seq_id);
 }
 
 void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {
@@ -2182,7 +2182,7 @@ void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {
         return;
     }
 
-    return kv->seq_keep(seq_id);
+    kv->seq_keep(seq_id);
 }
 
 // deprecated
@@ -2192,7 +2192,7 @@ void llama_kv_cache_seq_add(
             llama_pos   p0,
             llama_pos   p1,
             llama_pos   delta) {
-    return llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);
+    llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);
 }
 
 void llama_kv_self_seq_add(
@@ -2206,7 +2206,7 @@ void llama_kv_self_seq_add(
         return;
     }
 
-    return kv->seq_add(seq_id, p0, p1, delta);
+    kv->seq_add(seq_id, p0, p1, delta);
 }
 
 // deprecated
@@ -2216,7 +2216,7 @@ void llama_kv_cache_seq_div(
             llama_pos   p0,
             llama_pos   p1,
                   int   d) {
-    return llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);
+    llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);
 }
 
 void llama_kv_self_seq_div(
@@ -2230,7 +2230,7 @@ void llama_kv_self_seq_div(
         return;
     }
 
-    return kv->seq_div(seq_id, p0, p1, d);
+    kv->seq_div(seq_id, p0, p1, d);
 }
 
 // deprecated
@@ -2249,7 +2249,7 @@ llama_pos llama_kv_self_seq_pos_max(llama_context * ctx, llama_seq_id seq_id) {
 
 // deprecated
 void llama_kv_cache_defrag(llama_context * ctx) {
-    return llama_kv_self_defrag(ctx);
+    llama_kv_self_defrag(ctx);
 }
 
 void llama_kv_self_defrag(llama_context * ctx) {
@@ -2259,7 +2259,7 @@ void llama_kv_self_defrag(llama_context * ctx) {
     }
 
     // force defrag
-    return kv->defrag(-1.0f);
+    kv->defrag_sched(-1.0f);
 }
 
 // deprecated
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -270,24 +270,7 @@ void llm_graph_input_s_copy::set_input(const llama_ubatch * ubatch) {
 
         // assuming copy destinations ALWAYS happen ONLY on the cells between head and head+n
         for (uint32_t i = 0; i < n_kv; ++i) {
-            const uint32_t  cell_id = i + kv_self->head;
-
-            //////////////////////////////////////////////
-            // TODO: this should not mutate the KV cache !
-            llama_kv_cell & kv_cell = const_cast<class llama_kv_cache_recurrent *>(kv_self)->cells[i];
-
-            // prevent out-of-bound sources
-            if (kv_cell.src < 0 || (uint32_t) kv_cell.src >= kv_self->size) {
-                kv_cell.src = cell_id;
-            }
-
-            data[i] = kv_cell.src;
-
-            // TODO: do not mutate the KV cache
-            // ensure copy only happens once
-            if (kv_cell.src != (int32_t) cell_id) {
-                kv_cell.src = cell_id;
-            }
+            data[i] = kv_self->s_copy(i);
         }
     }
 }
@@ -303,18 +286,7 @@ void llm_graph_input_s_mask::set_input(const llama_ubatch * ubatch) {
 
         // clear unused states
         for (int i = 0; i < n_kv; ++i) {
-            const uint32_t  cell_id = i + kv_self->head;
-
-            //////////////////////////////////////////////
-            // TODO: this should not mutate the KV cache !
-            llama_kv_cell & kv_cell = const_cast<class llama_kv_cache_recurrent *>(kv_self)->cells[i];
-
-            data[i] = (float) (kv_cell.src >= 0);
-
-            // only clear once
-            if (kv_cell.src < 0) {
-                kv_cell.src = cell_id;
-            }
+            data[i] = kv_self->s_mask(i);
         }
     }
 }
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -130,14 +130,6 @@ int32_t llama_kv_cache_unified::get_used_cells() const {
     return used;
 }
 
-bool llama_kv_cache_unified::get_has_shift() const {
-    return has_shift;
-}
-
-bool llama_kv_cache_unified::get_do_defrag() const {
-    return do_defrag;
-}
-
 size_t llama_kv_cache_unified::total_size() const {
     size_t size = 0;
     for (const auto & buf : bufs) {
@@ -358,10 +350,10 @@ llama_pos llama_kv_cache_unified::seq_pos_max(llama_seq_id seq_id) const {
     return result;
 }
 
-void llama_kv_cache_unified::defrag(float thold) {
+void llama_kv_cache_unified::defrag_sched(float thold) {
     // - do not defrag small contexts (i.e. < 2048 tokens)
     // - count the padding towards the number of used tokens
-    const float fragmentation = n >= 2048 ? std::max(0.0f, 1.0f - float(used + padding)/float(n)) : 0.0f;
+    const float fragmentation = n >= 2048 ? std::max(0.0f, 1.0f - (float(used + padding)/n)) : 0.0f;
 
     // queue defragmentation for next llama_kv_cache_update
     if (fragmentation > thold) {
@@ -699,7 +691,7 @@ bool llama_kv_cache_unified::update(const graph_params & params) {
 
     const auto & sched = params.sched;
 
-    if (get_has_shift()) {
+    if (has_shift) {
         if (!get_can_shift()) {
             GGML_ABORT("The current KV cache / model configuration does not support K-shift");
         }
@@ -732,7 +724,7 @@ bool llama_kv_cache_unified::update(const graph_params & params) {
         }
     }
 
-    if (get_do_defrag()) {
+    if (do_defrag) {
         LLAMA_LOG_DEBUG("%s: defragmenting KV cache\n", __func__);
 
         if (defrag_prepare(params.n_max_nodes)) {
@@ -1496,14 +1488,6 @@ int32_t llama_kv_cache_recurrent::get_used_cells() const {
     return used;
 }
 
-bool llama_kv_cache_recurrent::get_has_shift() const {
-    return false;
-}
-
-bool llama_kv_cache_recurrent::get_do_defrag() const {
-    return false;
-}
-
 size_t llama_kv_cache_recurrent::total_size() const {
     size_t size = 0;
     for (const auto & buf : bufs) {
@@ -1716,7 +1700,7 @@ llama_pos llama_kv_cache_recurrent::seq_pos_max(llama_seq_id seq_id) const {
     return result;
 }
 
-void llama_kv_cache_recurrent::defrag(float thold) {
+void llama_kv_cache_recurrent::defrag_sched(float thold) {
     GGML_UNUSED(thold);
     // noop
 }
@@ -1742,6 +1726,46 @@ bool llama_kv_cache_recurrent::get_can_shift() const {
     return false;
 }
 
+int32_t llama_kv_cache_recurrent::s_copy(int i) const {
+    const uint32_t cell_id = i + head;
+
+    //////////////////////////////////////////////
+    // TODO: this should not mutate the KV cache !
+    llama_kv_cell & kv_cell = const_cast<llama_kv_cell &>(cells[i]);
+
+    // prevent out-of-bound sources
+    if (kv_cell.src < 0 || (uint32_t) kv_cell.src >= size) {
+        kv_cell.src = cell_id;
+    }
+
+    int32_t res = kv_cell.src;
+
+    // TODO: do not mutate the KV cache
+    // ensure copy only happens once
+    if (kv_cell.src != (int32_t) cell_id) {
+        kv_cell.src = cell_id;
+    }
+
+    return res;
+}
+
+float llama_kv_cache_recurrent::s_mask(int i) const {
+    const uint32_t cell_id = i + head;
+
+    //////////////////////////////////////////////
+    // TODO: this should not mutate the KV cache !
+    llama_kv_cell & kv_cell = const_cast<llama_kv_cell &>(cells[i]);
+
+    float res = (float) (kv_cell.src >= 0);
+
+    // only clear once
+    if (kv_cell.src < 0) {
+        kv_cell.src = cell_id;
+    }
+
+    return res;
+}
+
 bool llama_kv_cache_recurrent::find_slot(
        const llama_ubatch & ubatch) {
     const uint32_t n_tokens = ubatch.n_tokens;
diff --git a/src/llama-kv-cache.h b/src/llama-kv-cache.h

Original file line number	Diff line number	Diff line change
`@@ -1108,7 +1108,7 @@ int llama_context::decode(llama_batch & inp_batch) {`
`1108`	`1108`
`1109`	`1109`	`// decide if we need to defrag the kv cache`
`1110`	`1110`	`if (cparams.defrag_thold > 0.0f) {`
`1111`		`- kv_self->defrag(cparams.defrag_thold);`
	`1111`	`+ kv_self->defrag_sched(cparams.defrag_thold);`
`1112`	`1112`	`}`
`1113`	`1113`
`1114`	`1114`	`// Reset state for the next token before backend sync, to allow the CPU activities in the reset to`
`@@ -2152,7 +2152,7 @@ void llama_kv_cache_seq_cp(`
`2152`	`2152`	`llama_seq_id seq_id_dst,`
`2153`	`2153`	`llama_pos p0,`
`2154`	`2154`	`llama_pos p1) {`
`2155`		`- return llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);`
	`2155`	`+ llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1);`
`2156`	`2156`	`}`
`2157`	`2157`
`2158`	`2158`	`void llama_kv_self_seq_cp(`
`@@ -2166,14 +2166,14 @@ void llama_kv_self_seq_cp(`
`2166`	`2166`	`return;`
`2167`	`2167`	`}`
`2168`	`2168`
`2169`		`- return kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);`
	`2169`	`+ kv->seq_cp(seq_id_src, seq_id_dst, p0, p1);`
`2170`	`2170`	`}`
`2171`	`2171`
`2172`	`2172`	`// deprecated`
`2173`	`2173`	`void llama_kv_cache_seq_keep(`
`2174`	`2174`	`llama_context * ctx,`
`2175`	`2175`	`llama_seq_id seq_id) {`
`2176`		`- return llama_kv_self_seq_keep(ctx, seq_id);`
	`2176`	`+ llama_kv_self_seq_keep(ctx, seq_id);`
`2177`	`2177`	`}`
`2178`	`2178`
`2179`	`2179`	`void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {`
`@@ -2182,7 +2182,7 @@ void llama_kv_self_seq_keep(llama_context * ctx, llama_seq_id seq_id) {`
`2182`	`2182`	`return;`
`2183`	`2183`	`}`
`2184`	`2184`
`2185`		`- return kv->seq_keep(seq_id);`
	`2185`	`+ kv->seq_keep(seq_id);`
`2186`	`2186`	`}`
`2187`	`2187`
`2188`	`2188`	`// deprecated`
`@@ -2192,7 +2192,7 @@ void llama_kv_cache_seq_add(`
`2192`	`2192`	`llama_pos p0,`
`2193`	`2193`	`llama_pos p1,`
`2194`	`2194`	`llama_pos delta) {`
`2195`		`- return llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);`
	`2195`	`+ llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta);`
`2196`	`2196`	`}`
`2197`	`2197`
`2198`	`2198`	`void llama_kv_self_seq_add(`
`@@ -2206,7 +2206,7 @@ void llama_kv_self_seq_add(`
`2206`	`2206`	`return;`
`2207`	`2207`	`}`
`2208`	`2208`
`2209`		`- return kv->seq_add(seq_id, p0, p1, delta);`
	`2209`	`+ kv->seq_add(seq_id, p0, p1, delta);`
`2210`	`2210`	`}`
`2211`	`2211`
`2212`	`2212`	`// deprecated`
`@@ -2216,7 +2216,7 @@ void llama_kv_cache_seq_div(`
`2216`	`2216`	`llama_pos p0,`
`2217`	`2217`	`llama_pos p1,`
`2218`	`2218`	`int d) {`
`2219`		`- return llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);`
	`2219`	`+ llama_kv_self_seq_div(ctx, seq_id, p0, p1, d);`
`2220`	`2220`	`}`
`2221`	`2221`
`2222`	`2222`	`void llama_kv_self_seq_div(`
`@@ -2230,7 +2230,7 @@ void llama_kv_self_seq_div(`
`2230`	`2230`	`return;`
`2231`	`2231`	`}`
`2232`	`2232`
`2233`		`- return kv->seq_div(seq_id, p0, p1, d);`
	`2233`	`+ kv->seq_div(seq_id, p0, p1, d);`
`2234`	`2234`	`}`
`2235`	`2235`
`2236`	`2236`	`// deprecated`
`@@ -2249,7 +2249,7 @@ llama_pos llama_kv_self_seq_pos_max(llama_context * ctx, llama_seq_id seq_id) {`
`2249`	`2249`
`2250`	`2250`	`// deprecated`
`2251`	`2251`	`void llama_kv_cache_defrag(llama_context * ctx) {`
`2252`		`- return llama_kv_self_defrag(ctx);`
	`2252`	`+ llama_kv_self_defrag(ctx);`
`2253`	`2253`	`}`
`2254`	`2254`
`2255`	`2255`	`void llama_kv_self_defrag(llama_context * ctx) {`
`@@ -2259,7 +2259,7 @@ void llama_kv_self_defrag(llama_context * ctx) {`
`2259`	`2259`	`}`
`2260`	`2260`
`2261`	`2261`	`// force defrag`
`2262`		`- return kv->defrag(-1.0f);`
	`2262`	`+ kv->defrag_sched(-1.0f);`
`2263`	`2263`	`}`
`2264`	`2264`
`2265`	`2265`	`// deprecated`