Fix & cleanup op layer_norm (#707)

manuelcandales · facebook-github-bot · commit b98d6a75ab37 · 2023-10-09T04:58:51.000-07:00
Summary: Pull Request resolved: #707 ghstack-source-id: 203341584 exported-using-ghexport Reviewed By: SS-JIA Differential Revision: D49848492 fbshipit-source-id: 1bc4c5f9f766231f3ec1488d046cc66f29bfd03f
diff --git a/kernels/portable/cpu/op_native_layer_norm.cpp b/kernels/portable/cpu/op_native_layer_norm.cpp
@@ -23,37 +23,65 @@ namespace {
 template <typename CTYPE>
 void layer_norm(
     const Tensor& input,
-    const Tensor& weight,
-    const Tensor& bias,
+    IntArrayRef normalized_shape,
+    const optional<Tensor>& weight,
+    const optional<Tensor>& bias,
     CTYPE eps,
     Tensor& out,
     Tensor& mean,
     Tensor& rstd) {
-  const CTYPE* input_data = input.const_data_ptr<CTYPE>();
-  const CTYPE* weight_data = weight.const_data_ptr<CTYPE>();
-  const CTYPE* bias_data = bias.const_data_ptr<CTYPE>();
+  size_t dim = input.dim() - normalized_shape.size();
+  size_t dim_size = input.size(dim);
+
+  size_t leading = getLeadingDims(input, dim);
+  size_t normalized = getTrailingDims(input, dim) * dim_size;
+
+  if (leading == 0) {
+    return;
+  }
+
   CTYPE* out_data = out.mutable_data_ptr<CTYPE>();
   CTYPE* mean_data = mean.mutable_data_ptr<CTYPE>();
   CTYPE* rstd_data = rstd.mutable_data_ptr<CTYPE>();
 
-  size_t dim = input.size(input.dim() - 1);
+  if (normalized == 0) {
+    for (int i = 0; i < leading; ++i) {
+      mean_data[i] = static_cast<CTYPE>(0);
+      rstd_data[i] = static_cast<CTYPE>(NAN);
+    }
+    return;
+  }
 
-  size_t leading_dim = getLeadingDims(input, input.dim() - 1);
+  const CTYPE* input_data = input.const_data_ptr<CTYPE>();
+  const CTYPE* weight_data;
+  if (weight.has_value()) {
+    weight_data = weight.value().const_data_ptr<CTYPE>();
+  } else {
+    weight_data = nullptr;
+  }
+  const CTYPE* bias_data;
+  if (bias.has_value()) {
+    bias_data = bias.value().const_data_ptr<CTYPE>();
+  } else {
+    bias_data = nullptr;
+  }
 
-  for (int i = 0; i < leading_dim; ++i) {
-    const CTYPE* x = input_data + i * dim;
-    CTYPE* y = out_data + i * dim;
+  for (int i = 0; i < leading; ++i) {
+    const CTYPE* x = input_data + i * normalized;
+    CTYPE* y = out_data + i * normalized;
 
     // compute E[X] and Var[x] = E[x^2] - E[x]^2
-    CTYPE sum = reduce_add(x, dim);
-    CTYPE sq_sum = vec_powerf(x, dim);
-    CTYPE mean_value = sum / dim;
-    CTYPE variance = sq_sum / dim - mean_value * mean_value;
+    CTYPE sum = reduce_add(x, normalized);
+    CTYPE sq_sum = vec_powerf(x, normalized);
+    CTYPE mean_value = sum / normalized;
+    CTYPE variance = sq_sum / normalized - mean_value * mean_value;
     CTYPE std = std::sqrt(variance + eps);
 
     // Calculate the elements of output
-    for (int j = 0; j < dim; ++j) {
-      y[j] = (x[j] - mean_value) / std * weight_data[j] + bias_data[j];
+    for (int j = 0; j < normalized; ++j) {
+      CTYPE w = weight_data ? weight_data[j] : static_cast<CTYPE>(1);
+      CTYPE b = bias_data ? bias_data[j] : static_cast<CTYPE>(0);
+      y[j] = (x[j] - mean_value) / std * w + b;
     }
 
     mean_data[i] = mean_value;
@@ -87,27 +115,32 @@ std::tuple<Tensor&, Tensor&, Tensor&> native_layer_norm_out(
       InvalidArgument,
       ret_val);
 
-  if (input.sizes() == out.sizes()) {
-    ET_KERNEL_CHECK(
-        ctx,
-        normalized_shape[0] == input.sizes()[input.dim() - 1],
-        InvalidArgument,
-        ret_val);
-  } else {
-    // If we need to resize out to support dynamic input shapes, we can't count
-    // on normalized_shape matching the shape of the input or output. But we
-    // don't need to modify normalized_shape because it's not used in this
-    // function besides some checks
-    ET_KERNEL_CHECK(
-        ctx,
-        resize_tensor(out, input.sizes()) == Error::Ok,
-        InvalidArgument,
-        ret_val);
-  }
+  Tensor::SizesType mean_rstd_sizes[kTensorDimensionLimit];
+  size_t mean_rstd_ndim = 0;
+  get_layer_norm_out_target_size(
+      input, normalized_shape, mean_rstd_sizes, &mean_rstd_ndim);
+
+  ET_KERNEL_CHECK(
+      ctx,
+      resize_tensor(out, input.sizes()) == Error::Ok,
+      InvalidArgument,
+      ret_val);
+
+  ET_KERNEL_CHECK(
+      ctx,
+      resize_tensor(mean_out, {mean_rstd_sizes, mean_rstd_ndim}) == Error::Ok,
+      InvalidArgument,
+      ret_val);
+
+  ET_KERNEL_CHECK(
+      ctx,
+      resize_tensor(rstd_out, {mean_rstd_sizes, mean_rstd_ndim}) == Error::Ok,
+      InvalidArgument,
+      ret_val);
 
   ET_SWITCH_FLOAT_TYPES(input.scalar_type(), ctx, __func__, CTYPE, [&]() {
     layer_norm<CTYPE>(
-        input, weight.value(), bias.value(), eps, out, mean_out, rstd_out);
+        input, normalized_shape, weight, bias, eps, out, mean_out, rstd_out);
   });
 
   return ret_val;
diff --git a/kernels/portable/cpu/util/normalization_ops_util.cpp b/kernels/portable/cpu/util/normalization_ops_util.cpp
@@ -60,27 +60,62 @@ bool check_batch_norm_args(
 }
 
 bool check_layer_norm_args(
-    const Tensor& input,
+    const Tensor& in,
     IntArrayRef normalized_shape,
     const exec_aten::optional<Tensor>& weight,
     const exec_aten::optional<Tensor>& bias,
     Tensor& out,
     Tensor& mean_out,
     Tensor& rstd_out) {
-  ET_LOG_AND_RETURN_IF_FALSE(normalized_shape.size() == 1);
-  ET_LOG_AND_RETURN_IF_FALSE(weight.has_value());
+  size_t ndim = normalized_shape.size();
+  ET_LOG_MSG_AND_RETURN_IF_FALSE(
+      ndim >= 1,
+      "Expected normalized_shape to be at least 1-dimensional, i.e., containing at least one element.");
+  ET_LOG_MSG_AND_RETURN_IF_FALSE(
+      in.dim() >= ndim,
+      "Expected input tensor to have rank >= the length of normalized_shape.");
+  size_t shift = in.dim() - ndim;
+  for (size_t d = 0; d < ndim; ++d) {
+    ET_LOG_MSG_AND_RETURN_IF_FALSE(
+        in.size(d + shift) == normalized_shape[d],
+        "Expected normalized_shape to match the sizes of input's rightmost dimensions.");
+  }
+  exec_aten::SizesType shape[ndim];
+  for (size_t i = 0; i < ndim; ++i) {
+    shape[i] = static_cast<exec_aten::SizesType>(normalized_shape[i]);
+  }
+
   if (weight.has_value()) {
-    ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(input, weight.value()));
+    ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(in, weight.value()));
+    ET_LOG_AND_RETURN_IF_FALSE(
+        tensor_has_expected_size(weight.value(), {shape, ndim}));
   }
   if (bias.has_value()) {
-    ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(input, bias.value()));
+    ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(in, bias.value()));
+    ET_LOG_AND_RETURN_IF_FALSE(
+        tensor_has_expected_size(bias.value(), {shape, ndim}));
   }
-  ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(input, out));
-  ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(input, mean_out));
-  ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(input, rstd_out));
-  ET_LOG_AND_RETURN_IF_FALSE(input.dim() == out.dim());
+  ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(in, out));
+  ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(in, mean_out));
+  ET_LOG_AND_RETURN_IF_FALSE(tensors_have_same_dtype(in, rstd_out));
   return true;
 }
 
+void get_layer_norm_out_target_size(
+    const Tensor& in,
+    IntArrayRef normalized_shape,
+    Tensor::SizesType* mean_rstd_sizes,
+    size_t* mean_rstd_ndim) {
+  *mean_rstd_ndim = in.dim();
+
+  for (size_t d = 0; d < in.dim(); ++d) {
+    if (d < in.dim() - normalized_shape.size()) {
+      mean_rstd_sizes[d] = in.size(d);
+    } else {
+      mean_rstd_sizes[d] = 1;
+    }
+  }
+}
+
 } // namespace executor
 } // namespace torch
diff --git a/kernels/portable/cpu/util/normalization_ops_util.h b/kernels/portable/cpu/util/normalization_ops_util.h
@@ -34,5 +34,11 @@ bool check_layer_norm_args(
     Tensor& mean_out,
     Tensor& rstd_out);
 
+void get_layer_norm_out_target_size(
+    const Tensor& in,
+    IntArrayRef normalized_shape,
+    Tensor::SizesType* mean_rstd_sizes,
+    size_t* mean_rstd_ndim);
+
 } // namespace executor
 } // namespace torch
diff --git a/kernels/test/op_native_layer_norm_test.cpp b/kernels/test/op_native_layer_norm_test.cpp
@@ -91,8 +91,10 @@ void run_test_cases(std::vector<NativeLayerNormTestCase<DTYPE>> test_cases) {
     Tensor weight = tf.make(test_case.normalized_shape, test_case.weight_data);
     Tensor bias = tf.make(test_case.normalized_shape, test_case.bias_data);
     Tensor out0 = tf.zeros(test_case.sizes);
-    Tensor out1 = tf.zeros(test_case.sizes);
-    Tensor out2 = tf.zeros(test_case.sizes);
+    Tensor out1 = tf.zeros(
+        test_case.sizes, torch::executor::TensorShapeDynamism::DYNAMIC_BOUND);
+    Tensor out2 = tf.zeros(
+        test_case.sizes, torch::executor::TensorShapeDynamism::DYNAMIC_BOUND);
     auto normalized_shape_vec = std::vector<int64_t>(
         test_case.normalized_shape.begin(), test_case.normalized_shape.end());
     auto normalized_shape = exec_aten::ArrayRef<int64_t>(