feat(convert_hf_to_gguf): Add registration and param setup for Granite

gabe-l-hart · gabe-l-hart · commit 0e31ab8335a9 · 2024-09-05T16:43:26.000-06:00
Branch: GraniteLM

Signed-off-by: Gabe Goodhart &lt;ghart@us.ibm.com&gt;
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -3931,6 +3931,34 @@ def prepare_tensors(self):
         super().prepare_tensors()
 
 
+@Model.register("GraniteForCausalLM")
+class GraniteModel(Model):
+    """Conversion for IBM's GraniteForCausalLM"""
+    model_arch = gguf.MODEL_ARCH.GRANITE
+
+    def set_gguf_parameters(self):
+        """Granite uses standard llama parameters with the following differences:
+
+        - No head_dim support
+        - New multiplier params:
+            - attention_multiplier
+            - embedding_multiplier
+            - residual_multiplier
+        - logits_scaling
+        """
+        if head_dim := self.hparams.pop("head_dim", None):
+            logger.warning("Ignoring head_dim (%s) from config for Granite", head_dim)
+        super().set_gguf_parameters()
+        if attention_multiplier := self.hparams.get("attention_multiplier"):
+            self.gguf_writer.add_attention_multiplier(attention_multiplier)
+        if embedding_multiplier := self.hparams.get("embedding_multiplier"):
+            self.gguf_writer.add_embedding_multiplier(embedding_multiplier)
+        if residual_multiplier := self.hparams.get("residual_multiplier"):
+            self.gguf_writer.add_residual_multiplier(residual_multiplier)
+        if logits_scaling := self.hparams.get("logits_scaling"):
+            self.gguf_writer.add_logit_scale(logits_scaling)
+
+
 ###### CONVERSION LOGIC ######
 
 # tree of lazy tensors