feat: Add GGUF conversion for granitemoeshared

gabe-l-hart · gabe-l-hart · commit 618fac64e96f · 2025-05-02T10:17:13.000-06:00
Branch: GraniteMoEShared

Signed-off-by: Gabe Goodhart &lt;ghart@us.ibm.com&gt;
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -5661,6 +5661,21 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
         return super().modify_tensors(data_torch, name, bid)
 
 
+@ModelBase.register("GraniteMoeSharedForCausalLM")
+class GraniteMoeSharedModel(GraniteMoeModel):
+    """Conversion for IBM's GraniteMoeSharedForCausalLM"""
+    model_arch = gguf.MODEL_ARCH.GRANITE_MOE_SHARED
+
+    def set_gguf_parameters(self):
+        """GraniteMoeShared uses GraniteMoe parameters plus the following:
+        - shared_intermediate_size
+        """
+        super().set_gguf_parameters()
+        if shared_feed_forward_length := self.hparams.get("shared_intermediate_size"):
+            self.gguf_writer.add_expert_shared_feed_forward_length(shared_feed_forward_length)
+            logger.info("gguf: (granitemoeshared) shared_feed_forward_length = %s", shared_feed_forward_length)
+
+
 @ModelBase.register("BailingMoeForCausalLM")
 class BailingMoeModel(TextModel):
     model_arch = gguf.MODEL_ARCH.BAILINGMOE
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -255,74 +255,75 @@ class GGUFType:
 
 
 class MODEL_ARCH(IntEnum):
-    CLIP_VISION      = auto() # dummy arch for clip.cpp
-    LLAMA            = auto()
-    LLAMA4           = auto()
-    DECI             = auto()
-    FALCON           = auto()
-    BAICHUAN         = auto()
-    GROK             = auto()
-    GPT2             = auto()
-    GPTJ             = auto()
-    GPTNEOX          = auto()
-    MPT              = auto()
-    STARCODER        = auto()
-    REFACT           = auto()
-    BERT             = auto()
-    NOMIC_BERT       = auto()
-    NOMIC_BERT_MOE   = auto()
-    JINA_BERT_V2     = auto()
-    BLOOM            = auto()
-    STABLELM         = auto()
-    QWEN             = auto()
-    QWEN2            = auto()
-    QWEN2MOE         = auto()
-    QWEN2VL          = auto()
-    QWEN3            = auto()
-    QWEN3MOE         = auto()
-    PHI2             = auto()
-    PHI3             = auto()
-    PHIMOE           = auto()
-    PLAMO            = auto()
-    CODESHELL        = auto()
-    ORION            = auto()
-    INTERNLM2        = auto()
-    MINICPM          = auto()
-    MINICPM3         = auto()
-    GEMMA            = auto()
-    GEMMA2           = auto()
-    GEMMA3           = auto()
-    STARCODER2       = auto()
-    RWKV6            = auto()
-    RWKV6QWEN2       = auto()
-    RWKV7            = auto()
-    ARWKV7           = auto()
-    MAMBA            = auto()
-    XVERSE           = auto()
-    COMMAND_R        = auto()
-    COHERE2          = auto()
-    DBRX             = auto()
-    OLMO             = auto()
-    OLMO2            = auto()
-    OLMOE            = auto()
-    OPENELM          = auto()
-    ARCTIC           = auto()
-    DEEPSEEK         = auto()
-    DEEPSEEK2        = auto()
-    CHATGLM          = auto()
-    GLM4             = auto()
-    BITNET           = auto()
-    T5               = auto()
-    T5ENCODER        = auto()
-    JAIS             = auto()
-    NEMOTRON         = auto()
-    EXAONE           = auto()
-    GRANITE          = auto()
-    GRANITE_MOE      = auto()
-    CHAMELEON        = auto()
-    WAVTOKENIZER_DEC = auto()
-    PLM              = auto()
-    BAILINGMOE       = auto()
+    CLIP_VISION        = auto() # dummy arch for clip.cpp
+    LLAMA              = auto()
+    LLAMA4             = auto()
+    DECI               = auto()
+    FALCON             = auto()
+    BAICHUAN           = auto()
+    GROK               = auto()
+    GPT2               = auto()
+    GPTJ               = auto()
+    GPTNEOX            = auto()
+    MPT                = auto()
+    STARCODER          = auto()
+    REFACT             = auto()
+    BERT               = auto()
+    NOMIC_BERT         = auto()
+    NOMIC_BERT_MOE     = auto()
+    JINA_BERT_V2       = auto()
+    BLOOM              = auto()
+    STABLELM           = auto()
+    QWEN               = auto()
+    QWEN2              = auto()
+    QWEN2MOE           = auto()
+    QWEN2VL            = auto()
+    QWEN3              = auto()
+    QWEN3MOE           = auto()
+    PHI2               = auto()
+    PHI3               = auto()
+    PHIMOE             = auto()
+    PLAMO              = auto()
+    CODESHELL          = auto()
+    ORION              = auto()
+    INTERNLM2          = auto()
+    MINICPM            = auto()
+    MINICPM3           = auto()
+    GEMMA              = auto()
+    GEMMA2             = auto()
+    GEMMA3             = auto()
+    STARCODER2         = auto()
+    RWKV6              = auto()
+    RWKV6QWEN2         = auto()
+    RWKV7              = auto()
+    ARWKV7             = auto()
+    MAMBA              = auto()
+    XVERSE             = auto()
+    COMMAND_R          = auto()
+    COHERE2            = auto()
+    DBRX               = auto()
+    OLMO               = auto()
+    OLMO2              = auto()
+    OLMOE              = auto()
+    OPENELM            = auto()
+    ARCTIC             = auto()
+    DEEPSEEK           = auto()
+    DEEPSEEK2          = auto()
+    CHATGLM            = auto()
+    GLM4               = auto()
+    BITNET             = auto()
+    T5                 = auto()
+    T5ENCODER          = auto()
+    JAIS               = auto()
+    NEMOTRON           = auto()
+    EXAONE             = auto()
+    GRANITE            = auto()
+    GRANITE_MOE        = auto()
+    GRANITE_MOE_SHARED = auto()
+    CHAMELEON          = auto()
+    WAVTOKENIZER_DEC   = auto()
+    PLM                = auto()
+    BAILINGMOE         = auto()
 
 
 class VISION_PROJECTOR_TYPE(IntEnum):
@@ -512,74 +513,75 @@ class MODEL_TENSOR(IntEnum):
 
 
 MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
-    MODEL_ARCH.CLIP_VISION:      "clip", # dummy arch for clip.cpp
-    MODEL_ARCH.LLAMA:            "llama",
-    MODEL_ARCH.LLAMA4:           "llama4",
-    MODEL_ARCH.DECI:             "deci",
-    MODEL_ARCH.FALCON:           "falcon",
-    MODEL_ARCH.BAICHUAN:         "baichuan",
-    MODEL_ARCH.GROK:             "grok",
-    MODEL_ARCH.GPT2:             "gpt2",
-    MODEL_ARCH.GPTJ:             "gptj",
-    MODEL_ARCH.GPTNEOX:          "gptneox",
-    MODEL_ARCH.MPT:              "mpt",
-    MODEL_ARCH.STARCODER:        "starcoder",
-    MODEL_ARCH.REFACT:           "refact",
-    MODEL_ARCH.BERT:             "bert",
-    MODEL_ARCH.NOMIC_BERT:       "nomic-bert",
-    MODEL_ARCH.NOMIC_BERT_MOE:   "nomic-bert-moe",
-    MODEL_ARCH.JINA_BERT_V2:     "jina-bert-v2",
-    MODEL_ARCH.BLOOM:            "bloom",
-    MODEL_ARCH.STABLELM:         "stablelm",
-    MODEL_ARCH.QWEN:             "qwen",
-    MODEL_ARCH.QWEN2:            "qwen2",
-    MODEL_ARCH.QWEN2MOE:         "qwen2moe",
-    MODEL_ARCH.QWEN2VL:          "qwen2vl",
-    MODEL_ARCH.QWEN3:            "qwen3",
-    MODEL_ARCH.QWEN3MOE:         "qwen3moe",
-    MODEL_ARCH.PHI2:             "phi2",
-    MODEL_ARCH.PHI3:             "phi3",
-    MODEL_ARCH.PHIMOE:           "phimoe",
-    MODEL_ARCH.PLAMO:            "plamo",
-    MODEL_ARCH.CODESHELL:        "codeshell",
-    MODEL_ARCH.ORION:            "orion",
-    MODEL_ARCH.INTERNLM2:        "internlm2",
-    MODEL_ARCH.MINICPM:          "minicpm",
-    MODEL_ARCH.MINICPM3:         "minicpm3",
-    MODEL_ARCH.GEMMA:            "gemma",
-    MODEL_ARCH.GEMMA2:           "gemma2",
-    MODEL_ARCH.GEMMA3:           "gemma3",
-    MODEL_ARCH.STARCODER2:       "starcoder2",
-    MODEL_ARCH.RWKV6:            "rwkv6",
-    MODEL_ARCH.RWKV6QWEN2:       "rwkv6qwen2",
-    MODEL_ARCH.RWKV7:            "rwkv7",
-    MODEL_ARCH.ARWKV7:           "arwkv7",
-    MODEL_ARCH.MAMBA:            "mamba",
-    MODEL_ARCH.XVERSE:           "xverse",
-    MODEL_ARCH.COMMAND_R:        "command-r",
-    MODEL_ARCH.COHERE2:          "cohere2",
-    MODEL_ARCH.DBRX:             "dbrx",
-    MODEL_ARCH.OLMO:             "olmo",
-    MODEL_ARCH.OLMO2:            "olmo2",
-    MODEL_ARCH.OLMOE:            "olmoe",
-    MODEL_ARCH.OPENELM:          "openelm",
-    MODEL_ARCH.ARCTIC:           "arctic",
-    MODEL_ARCH.DEEPSEEK:         "deepseek",
-    MODEL_ARCH.DEEPSEEK2:        "deepseek2",
-    MODEL_ARCH.CHATGLM:          "chatglm",
-    MODEL_ARCH.GLM4:             "glm4",
-    MODEL_ARCH.BITNET:           "bitnet",
-    MODEL_ARCH.T5:               "t5",
-    MODEL_ARCH.T5ENCODER:        "t5encoder",
-    MODEL_ARCH.JAIS:             "jais",
-    MODEL_ARCH.NEMOTRON:         "nemotron",
-    MODEL_ARCH.EXAONE:           "exaone",
-    MODEL_ARCH.GRANITE:          "granite",
-    MODEL_ARCH.GRANITE_MOE:      "granitemoe",
-    MODEL_ARCH.CHAMELEON:        "chameleon",
-    MODEL_ARCH.WAVTOKENIZER_DEC: "wavtokenizer-dec",
-    MODEL_ARCH.PLM:              "plm",
-    MODEL_ARCH.BAILINGMOE:       "bailingmoe",
+    MODEL_ARCH.CLIP_VISION:        "clip", # dummy arch for clip.cpp
+    MODEL_ARCH.LLAMA:              "llama",
+    MODEL_ARCH.LLAMA4:             "llama4",
+    MODEL_ARCH.DECI:               "deci",
+    MODEL_ARCH.FALCON:             "falcon",
+    MODEL_ARCH.BAICHUAN:           "baichuan",
+    MODEL_ARCH.GROK:               "grok",
+    MODEL_ARCH.GPT2:               "gpt2",
+    MODEL_ARCH.GPTJ:               "gptj",
+    MODEL_ARCH.GPTNEOX:            "gptneox",
+    MODEL_ARCH.MPT:                "mpt",
+    MODEL_ARCH.STARCODER:          "starcoder",
+    MODEL_ARCH.REFACT:             "refact",
+    MODEL_ARCH.BERT:               "bert",
+    MODEL_ARCH.NOMIC_BERT:         "nomic-bert",
+    MODEL_ARCH.NOMIC_BERT_MOE:     "nomic-bert-moe",
+    MODEL_ARCH.JINA_BERT_V2:       "jina-bert-v2",
+    MODEL_ARCH.BLOOM:              "bloom",
+    MODEL_ARCH.STABLELM:           "stablelm",
+    MODEL_ARCH.QWEN:               "qwen",
+    MODEL_ARCH.QWEN2:              "qwen2",
+    MODEL_ARCH.QWEN2MOE:           "qwen2moe",
+    MODEL_ARCH.QWEN2VL:            "qwen2vl",
+    MODEL_ARCH.QWEN3:              "qwen3",
+    MODEL_ARCH.QWEN3MOE:           "qwen3moe",
+    MODEL_ARCH.PHI2:               "phi2",
+    MODEL_ARCH.PHI3:               "phi3",
+    MODEL_ARCH.PHIMOE:             "phimoe",
+    MODEL_ARCH.PLAMO:              "plamo",
+    MODEL_ARCH.CODESHELL:          "codeshell",
+    MODEL_ARCH.ORION:              "orion",
+    MODEL_ARCH.INTERNLM2:          "internlm2",
+    MODEL_ARCH.MINICPM:            "minicpm",
+    MODEL_ARCH.MINICPM3:           "minicpm3",
+    MODEL_ARCH.GEMMA:              "gemma",
+    MODEL_ARCH.GEMMA2:             "gemma2",
+    MODEL_ARCH.GEMMA3:             "gemma3",
+    MODEL_ARCH.STARCODER2:         "starcoder2",
+    MODEL_ARCH.RWKV6:              "rwkv6",
+    MODEL_ARCH.RWKV6QWEN2:         "rwkv6qwen2",
+    MODEL_ARCH.RWKV7:              "rwkv7",
+    MODEL_ARCH.ARWKV7:             "arwkv7",
+    MODEL_ARCH.MAMBA:              "mamba",
+    MODEL_ARCH.XVERSE:             "xverse",
+    MODEL_ARCH.COMMAND_R:          "command-r",
+    MODEL_ARCH.COHERE2:            "cohere2",
+    MODEL_ARCH.DBRX:               "dbrx",
+    MODEL_ARCH.OLMO:               "olmo",
+    MODEL_ARCH.OLMO2:              "olmo2",
+    MODEL_ARCH.OLMOE:              "olmoe",
+    MODEL_ARCH.OPENELM:            "openelm",
+    MODEL_ARCH.ARCTIC:             "arctic",
+    MODEL_ARCH.DEEPSEEK:           "deepseek",
+    MODEL_ARCH.DEEPSEEK2:          "deepseek2",
+    MODEL_ARCH.CHATGLM:            "chatglm",
+    MODEL_ARCH.GLM4:               "glm4",
+    MODEL_ARCH.BITNET:             "bitnet",
+    MODEL_ARCH.T5:                 "t5",
+    MODEL_ARCH.T5ENCODER:          "t5encoder",
+    MODEL_ARCH.JAIS:               "jais",
+    MODEL_ARCH.NEMOTRON:           "nemotron",
+    MODEL_ARCH.EXAONE:             "exaone",
+    MODEL_ARCH.GRANITE:            "granite",
+    MODEL_ARCH.GRANITE_MOE:        "granitemoe",
+    MODEL_ARCH.GRANITE_MOE_SHARED: "granitemoeshared",
+    MODEL_ARCH.CHAMELEON:          "chameleon",
+    MODEL_ARCH.WAVTOKENIZER_DEC:   "wavtokenizer-dec",
+    MODEL_ARCH.PLM:                "plm",
+    MODEL_ARCH.BAILINGMOE:         "bailingmoe",
 }
 
 VISION_PROJECTOR_TYPE_NAMES: dict[VISION_PROJECTOR_TYPE, str] = {
@@ -1894,6 +1896,23 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_DOWN_EXP,
         MODEL_TENSOR.FFN_UP_EXP,
     ],
+    MODEL_ARCH.GRANITE_MOE_SHARED: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.FFN_NORM,
+        MODEL_TENSOR.FFN_GATE_INP,
+        MODEL_TENSOR.FFN_GATE_EXP,
+        MODEL_TENSOR.FFN_DOWN_EXP,
+        MODEL_TENSOR.FFN_UP_EXP,
+        MODEL_TENSOR.FFN_UP_SHEXP,
+        MODEL_TENSOR.FFN_DOWN_SHEXP,
+    ],
     MODEL_ARCH.CHAMELEON: [
         MODEL_TENSOR.TOKEN_EMBD,
         MODEL_TENSOR.OUTPUT_NORM,
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -346,6 +346,7 @@ class TensorNameMap:
             "model.layers.{bid}.mlp.shared_expert.up_proj",  # qwen2moe
             "model.layers.{bid}.mlp.shared_experts.up_proj", # deepseek deepseek2
             "language_model.model.layers.{bid}.feed_forward.shared_expert.up_proj", # llama4
+            "model.layers.{bid}.shared_mlp.input_linear",    # granitemoeshared
         ),
 
         # AWQ-activation gate
@@ -428,6 +429,7 @@ class TensorNameMap:
             "model.layers.{bid}.mlp.shared_expert.down_proj",  # qwen2moe
             "model.layers.{bid}.mlp.shared_experts.down_proj", # deepseek deepseek2
             "language_model.model.layers.{bid}.feed_forward.shared_expert.down_proj", # llama4
+            "model.layers.{bid}.shared_mlp.output_linear",     # granitemoeshared
         ),
 
         MODEL_TENSOR.ATTN_Q_NORM: (