remove stale code

agray3 · agray3 · commit 5289a6a84355 · 2024-07-23T13:11:07.000-07:00
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -14613,23 +14613,20 @@ static int llama_decode_internal(
             const struct llama_hparams & hparams = model.hparams;
             const int64_t  n_layer = hparams.n_layer;
             const int64_t kv_head = kv_self.head;
-            std::vector<void *> kv_cache_ptrs;
             std::vector<void *> k_cache_ptrs;
             std::vector<void *> v_cache_ptrs;
             for (int il = 0; il < n_layer; ++il) {
                 const int64_t n_embd_k_gqa = hparams.n_embd_k_gqa();
                 const int64_t n_embd_v_gqa = hparams.n_embd_v_gqa();
                 ggml_tensor * tmp_tensor =  kv_self.k_l[il];
                 size_t tmp_offset = (ggml_row_size(kv_self.k_l[il]->type, n_embd_k_gqa))*kv_head;
-                kv_cache_ptrs.push_back(static_cast<char*>(tmp_tensor->data) + tmp_offset);
                 k_cache_ptrs.push_back(static_cast<char*>(tmp_tensor->data) + tmp_offset);
                 tmp_tensor = kv_self.v_l[il];
                 if (cparams.flash_attn) {
                     tmp_offset = (kv_head)*ggml_row_size(kv_self.v_l[il]->type, n_embd_v_gqa);
                 } else {
                     tmp_offset = (kv_head)*ggml_element_size(kv_self.v_l[il]);
                 }
-                kv_cache_ptrs.push_back(static_cast<char*>(tmp_tensor->data) + tmp_offset);
                 v_cache_ptrs.push_back(static_cast<char*>(tmp_tensor->data) + tmp_offset);
             }