fix embedding_4bit resize (#3118)

manuelcandales · facebook-github-bot · commit 93d4791ea5c6 · 2024-04-17T19:00:23.000-07:00
Summary: Pull Request resolved: #3118 Reviewed By: larryliu0820 Differential Revision: D56282683
diff --git a/kernels/quantized/cpu/op_embedding4b.cpp b/kernels/quantized/cpu/op_embedding4b.cpp
@@ -195,7 +195,7 @@ void resize_out_tensor(
   for (size_t i = 0; i < indices.dim(); i++) {
     expected_output_size[i] = indices.size(i);
   }
-  const size_t embedding_dim = weight.size(1);
+  const size_t embedding_dim = weight.size(1) * 2;
   expected_output_size[out.dim() - 1] = embedding_dim;
 
   exec_aten::ArrayRef<exec_aten::SizesType> output_size{
diff --git a/kernels/quantized/test/op_embedding4b_test.cpp b/kernels/quantized/test/op_embedding4b_test.cpp
@@ -19,6 +19,7 @@
 using namespace ::testing;
 using exec_aten::ArrayRef;
 using exec_aten::optional;
+using exec_aten::RuntimeContext;
 using exec_aten::ScalarType;
 using exec_aten::Tensor;
 using torch::executor::native::quantized_embedding_4bit_out;
@@ -60,6 +61,20 @@ TEST(OpQuantizedEmbedding4bTest, TestGroupWiseQuantizedEmbedding) {
 
   EXPECT_TENSOR_EQ(out, expected);
 
+  out = tf.zeros({3, 4});
+  auto context = RuntimeContext();
+  torch::executor::native::quantized_embedding_4bit_out(
+      context,
+      qweight,
+      weight_scales,
+      weight_zero_points,
+      quant_min,
+      quant_max,
+      indices,
+      out);
+
+  EXPECT_TENSOR_EQ(out, expected);
+
   // Groupwise quantization. groupsize = 2
   weight_scales = tf.make({3, 2}, {0.5, 1.0, 1.5, 2.0, 2.5, 3.0});
   weight_zero_points = tf.make({3, 2}, {1, -5, 0, 2, -3, -1});

Original file line number	Diff line number	Diff line change
`@@ -195,7 +195,7 @@ void resize_out_tensor(`
`195`	`195`	`for (size_t i = 0; i < indices.dim(); i++) {`
`196`	`196`	`expected_output_size[i] = indices.size(i);`
`197`	`197`	`}`
`198`		`- const size_t embedding_dim = weight.size(1);`
	`198`	`+ const size_t embedding_dim = weight.size(1) * 2;`
`199`	`199`	`expected_output_size[out.dim() - 1] = embedding_dim;`
`200`	`200`
`201`	`201`	`exec_aten::ArrayRef<exec_aten::SizesType> output_size{`