Fix 4

larryliu0820 · larryliu0820 · commit a61b9b4ea3df · 2024-07-16T23:18:32.000-07:00
diff --git a/quantization/quantize.py b/quantization/quantize.py
@@ -61,7 +61,7 @@ def quantize_model(model: nn.Module, device, quantize_options, tokenizer=None):
                 precision = get_precision()
 
             # Only use quant API for dtype bf16 and CUDA
-            if precision == torch.bfloat16 and device == "cuda":
+            if quantizer == "linear:int4" and precision == torch.bfloat16 and device == "cuda":
                 quantize_(model, int4_weight_only(group_size=q_kwargs["groupsize"]))
                 continue