convert-llama-hf-to-gguf.py : fix attn_q permute

klosax · web-flow · commit c818c405e025 · 2023-08-21T04:42:09.000+02:00
diff --git a/convert-llama-hf-to-gguf.py b/convert-llama-hf-to-gguf.py
@@ -264,7 +264,9 @@ def count_model_parts(dir_model: str) -> int:
         data = data.squeeze().numpy()
 
         # reverse permute these
-        if name.endswith(".q_proj.weight") or name.endswith(".k_proj.weight"):
+        if name.endswith(".q_proj.weight"):
+            data = reverse_hf_permute(data, head_count)
+        if name.endswith(".k_proj.weight"):
             data = reverse_hf_permute(data, head_count, head_count_kv)
 
         # map tensor names