(Partial) Bug fix for test_xnnpack_dq4_kv_fp32_llama (#2691)

Michael Gschwind · facebook-github-bot · commit 3095d09fce2d · 2024-03-26T17:30:33.000-07:00
Summary: Pull Request resolved: #2691 (Partial) Bug fix for test_xnnpack_dq4_kv_fp32_llama Also: reduce/comment out debug messages for release This fixes an ancillary bug, but does not address the xnnpack registration error 20. Reviewed By: mergennachin, JacobSzwejbka Differential Revision: D55373341 fbshipit-source-id: bcc3a9fa251e0bdb676777b4fa0f31f2035779ef
diff --git a/examples/models/llama2/quantize.py b/examples/models/llama2/quantize.py
@@ -147,16 +147,16 @@ def convert_for_runtime(self) -> nn.Module:
 
 def replace_linear_weight_only_int8_per_channel(module, node_type):
     for name, child in module.named_children():
-        print(f"name: {name}")
+        # print(f"name: {name}")
         if isinstance(child, nn.Linear):
             if (
                 (node_type == "*")
                 or (node_type == "output" and name == "output")
                 or (node_type == "!output" and name != "output")
             ):
-                print(f"{name, child}")
-                print(f"in_features: {child.in_features}")
-                print(f"out_features: {child.out_features}")
+                # print(f"{name, child}")
+                # print(f"in_features: {child.in_features}")
+                # print(f"out_features: {child.out_features}")
                 setattr(
                     module,
                     name,
@@ -276,10 +276,10 @@ def replace_embedding_weight_only_grouped_int8_per_channel(
     module, bitwidth: int = 8, group_size: Optional[int] = None
 ):
     for name, child in module.named_children():
-        print(f"name: {name}")
+        # print(f"name: {name}")
         if isinstance(child, nn.Embedding):
-            print(f"{name, child}")
-            print(f"weights size: {child.weight.size()}")
+            # print(f"{name, child}")
+            # print(f"weights size: {child.weight.size()}")
             setattr(
                 module,
                 name,
@@ -320,9 +320,9 @@ def create_quantized_state_dict(self) -> Dict:
                 or isinstance(mod, fsEmbedding)
                 or isinstance(mod, fsStandardEmbedding)
             ):
-                print("****")
-                print(f"Embedding identified: {fqn, mod}")
-                print(f"weights size: {mod.weight.size()}")
+                # print("****")
+                # print(f"Embedding identified: {fqn, mod}")
+                # print(f"weights size: {mod.weight.size()}")
                 # print(f"quantize {fqn}...")
 
                 print(
@@ -516,9 +516,9 @@ def create_quantized_state_dict(self):
                 assert not mod.bias
                 out_features = mod.out_features
                 in_features = mod.in_features
-                print("in features:", in_features, " out features:", out_features)
+                # print("in features:", in_features, " out features:", out_features)
                 # assert out_features % 8 == 0, "require out_features % 8 == 0"
-                print(f"linear: {fqn}, in={in_features}, out={out_features}")
+                # print(f"linear: {fqn}, in={in_features}, out={out_features}")
 
                 assert (
                     in_features % self.group_size == 0