Creating an initial Quantization Directory (#863)

Jack-Khuu · Jack-Khuu · commit 80787b42658a · 2024-06-21T10:21:51.000-07:00
* Initial Creation of a quantization directory * Moving qops * updating import * Updating lm_eval version (#865) Fixing CI related to EleutherAI/wikitext_document_level change requirements from using HF Datasets * Pinning numpy to under 2.0 (#867) * Update Quant call using llama.cpp (#868) llama.cpp did a BC breaking refactor: ggml-org/llama.cpp@1c641e6 resulting in some of our CI breaking This updates our CI to match llama.cpp's schema * Updating torch nightly to pick up aoti improvements in 128339 (#862) * Updating torch nightly to pick up aoti improvements in 128339 * Update the torch version to 2.5 * Updating lm_eval version (#865) Fixing CI related to EleutherAI/wikitext_document_level change requirements from using HF Datasets * Pinning numpy to under 2.0 (#867)
diff --git a/build/builder.py b/build/builder.py
@@ -17,7 +17,7 @@
 import torch._inductor.config
 
 from config.model_config import resolve_model_config
-from quantize import quantize_model
+from quantization.quantize import quantize_model
 
 from build.model import Transformer
 from build.utils import device_sync, is_cpu_device, is_cuda_or_cpu_device, name_to_dtype
diff --git a/build/gguf_loader.py b/build/gguf_loader.py
@@ -14,7 +14,7 @@
 import torch
 
 from gguf import GGUFValueType
-from quantize import pack_scales_and_zeros, WeightOnlyInt4Linear
+from quantization.quantize import pack_scales_and_zeros, WeightOnlyInt4Linear
 
 from build.gguf_util import Q4_0, to_float
 from build.model import ModelArgs, Transformer
diff --git a/build/gguf_util.py b/build/gguf_util.py
@@ -6,7 +6,7 @@
 
 import gguf
 import torch
-from quantize import group_dequantize_tensor_from_qparams
+from quantization.quantize import group_dequantize_tensor_from_qparams
 
 
 def to_float(t: gguf.gguf_reader.ReaderTensor):
diff --git a/docs/quantization.md b/docs/quantization.md
@@ -83,7 +83,7 @@ for valid `bitwidth` and `groupsize` values.
 | linear with GPTQ (asymmetric) | `'{"linear:int4-gptq" : {"groupsize" : <groupsize>}}'`|
 | embedding | `'{"embedding": {"bitwidth": <bitwidth>, "groupsize":<groupsize>}}'` |
 
-See the available quantization schemes [here](https://github.com/pytorch/torchchat/blob/main/quantize.py#L1260-L1266).
+See the available quantization schemes [here](https://github.com/pytorch/torchchat/blob/main/quantization/quantize.py#L1260-L1266).
 
 ## Examples
 We can mix and match weight quantization with embedding quantization.
diff --git a/quantization/qops.py b/quantization/qops.py
@@ -390,7 +390,7 @@ def _check_k(cls, *, k, groupsize=1, inner_k_tiles=1):
     def _prepare_weight_and_scales_and_zeros(
         cls, weight_bf16, groupsize, inner_k_tiles
     ):
-        from quantize import group_quantize_tensor
+        from quantization.quantize import group_quantize_tensor
 
         weight_int32, scales_and_zeros = group_quantize_tensor(
             weight_bf16, n_bit=4, groupsize=groupsize
diff --git a/quantization/quantize.py b/quantization/quantize.py
@@ -23,7 +23,7 @@
     state_dict_device,
 )
 
-from qops import (
+from quantization.qops import (
     LinearAct8Int4DQ,
     LinearInt4 as WeightOnlyInt4Linear,
     LinearInt8 as WeightOnlyInt8Linear,

Original file line number	Diff line number	Diff line change
`@@ -23,7 +23,7 @@`
`23`	`23`	`state_dict_device,`
`24`	`24`	`)`
`25`	`25`
`26`		`-from qops import (`
	`26`	`+from quantization.qops import (`
`27`	`27`	`LinearAct8Int4DQ,`
`28`	`28`	`LinearInt4 as WeightOnlyInt4Linear,`
`29`	`29`	`LinearInt8 as WeightOnlyInt8Linear,`