debug

larryliu0820 · larryliu0820 · commit 84981d98f9f3 · 2024-07-17T11:06:30.000-07:00
diff --git a/quantization/quantize.py b/quantization/quantize.py
@@ -63,7 +63,7 @@ def quantize_model(model: nn.Module, device, quantize_options, tokenizer=None):
             # Only use quant API for dtype bf16 and CUDA
             if quantizer == "linear:int4" and precision == torch.bfloat16 and device == "cuda":
                 quantize_(model, int4_weight_only(group_size=q_kwargs["groupsize"]))
-                model.to(device=device)
+                model.to(device="cuda")
                 continue
             
             try: