4b embedding quantizer (#3081)

Michael Gschwind · larryliu0820 · commit f7c1459e1e9b · 2024-04-18T20:43:00.000-07:00
Summary:

4b embedding quantizer

Reviewed By: larryliu0820

Differential Revision: D56229021
diff --git a/examples/models/llama2/quantize.py b/examples/models/llama2/quantize.py
@@ -436,10 +436,18 @@ def __init__(
     @torch.no_grad()
     def forward(self, indices: torch.Tensor) -> torch.Tensor:
         if not self.packed:  # 8bit
+<<<<<<< HEAD
             return torch.ops.quantized_decomposed.embedding_byte.dtype(
                 self.weight, self.scales, None, 0, 0, indices, dtype=self.dtype
             )
         else:  # 4bit packed
             return torch.ops.quantized_decomposed.embedding_4bit.dtype(
+=======
+            return torch.ops.llama_quantized.DEPRECATED_DO_NOT_USE_embedding_byte.dtype(
+                self.weight, self.scales, None, 0, 0, indices, dtype=self.dtype
+            )
+        else:  # 4bit packed
+            return torch.ops.llama_quantized.embedding_4bit.dtype(
+>>>>>>> 6b3b7228c (4b embedding quantizer (#3081))
                 self.weight, self.scales, None, 0, 0, indices, dtype=self.dtype
             )