Lazy torchao import (#384)

malfet · malfet · commit 3f5ab7fd4a37 · 2024-07-17T09:55:42.000-07:00
Import the dependency if and only if Int8 quantization is used
diff --git a/quantize.py b/quantize.py
@@ -15,7 +15,6 @@
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-import torchao.quantization.quant_api as quant_api
 from build.utils import find_multiple, get_precision
 
 
@@ -76,6 +75,7 @@ def quantized_model(self) -> nn.Module:
 
 class Int8DynActInt4WeightQuantizer(QuantHandler):
     def __init__(self, model: nn.Module, device="cpu", tokenizer=None, **kwargs):
+        import torchao.quantization.quant_api as quant_api
         self.model_ = model
         self.device = device
         self.tokenizer = tokenizer