Update eager runner and eval llama

jackzhxng · jackzhxng · commit 96ba40b01a60 · 2024-10-25T15:32:39.000-07:00
diff --git a/examples/models/llama/eval_llama_lib.py b/examples/models/llama/eval_llama_lib.py
@@ -191,7 +191,7 @@ def gen_eval_wrapper(
 
     pt2e_quant_params, quantizers, quant_dtype = get_quantizer_and_quant_params(args)
     # GPTFastEvalWrapper: Create a wrapper around a pre-exported model
-    manager: LLMEdgeManager = _prepare_for_llama_export(model_name, args)
+    manager: LLMEdgeManager = _prepare_for_llama_export(args)
 
     if len(quantizers) != 0:
         manager = manager.export().pt2e_quantize(quantizers)
diff --git a/examples/models/llama/runner/eager.py b/examples/models/llama/runner/eager.py
@@ -38,7 +38,7 @@ def __init__(self, args):
             model_args=model_args,
             device="cuda" if torch.cuda.is_available() else "cpu",
         )
-        manager: LLMEdgeManager = _prepare_for_llama_export("llama", args)
+        manager: LLMEdgeManager = _prepare_for_llama_export(args)
         self.model = manager.model.eval().to(device=self.device)
 
     def forward(

Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,7 @@ def __init__(self, args):`
`38`	`38`	`model_args=model_args,`
`39`	`39`	`device="cuda" if torch.cuda.is_available() else "cpu",`
`40`	`40`	`)`
`41`		`- manager: LLMEdgeManager = _prepare_for_llama_export("llama", args)`
	`41`	`+ manager: LLMEdgeManager = _prepare_for_llama_export(args)`
`42`	`42`	`self.model = manager.model.eval().to(device=self.device)`
`43`	`43`
`44`	`44`	`def forward(`