Update on "[Excutorch][Llama] Decouple input sequence length from kv cache context length"

kimishpatel · kimishpatel · commit c092a7773e96 · 2025-01-28T14:47:07.000-08:00
Decouple max sequence length, for shape dynamism in torch.export, from sequence length used for kv cache sizing. Differential Revision: [D68448334](https://our.internmc.facebook.com/intern/diff/D68448334/) cc mergennachin cccclai helunwencser dvorjackz [ghstack-poisoned]
diff --git a/examples/models/llama/export_llama_lib.py b/examples/models/llama/export_llama_lib.py
@@ -1019,11 +1019,13 @@ def _load_llama_model(
             # pyre-fixme[6]: For 5th argument expected `ModelArgs` but got
             #  `Union[Tensor, Module]`.
             model.max_seq_len,
+            # pyre-fixme[6]: For 6th argument expected `ModelArgs` but got
+            #  `Union[Tensor, Module]`.
             model.max_context_len,
-            # pyre-fixme[6]: For 6th argument expected `int` but got `Union[Tensor,
+            # pyre-fixme[6]: For 7th argument expected `int` but got `Union[Tensor,
             #  Module]`.
             model.n_layers,
-            # pyre-fixme[6]: For 7th argument expected `int` but got `Union[Tensor,
+            # pyre-fixme[6]: For 8th argument expected `int` but got `Union[Tensor,
             #  Module]`.
             model.vocab_size,
             metadata_str,