Address comments.

lntue · lntue · commit 696f27a44f46 · 2024-06-19T13:43:51.000Z
diff --git a/libc/src/math/generic/range_reduction_double.h b/libc/src/math/generic/range_reduction_double.h
@@ -21,39 +21,42 @@ using fputil::DoubleDouble;
 
 LIBC_INLINE constexpr int FAST_PASS_EXPONENT = 23;
 
-// Digits of pi/128, generated by Sollya with:
-// > a = round(pi/128, D, RN);
-// > b = round(pi/128 - a, D, RN);
-LIBC_INLINE constexpr DoubleDouble PI_OVER_128 = {0x1.1a62633145c07p-60,
-                                                  0x1.921fb54442d18p-6};
+namespace generic {
 
 // Digits of -pi/128, generated by Sollya with:
-// > a = round(pi/128, 25, RN);
-// > b = round(pi/128 - a, 23, RN);
-// > c = round(pi/128 - a - b, 25, RN);
-// > d = round(pi/128 - a - b - c, D, RN);
+// > a = round(-pi/128, 25, RN);
+// > b = round(-pi/128 - a, 23, RN);
+// > c = round(-pi/128 - a - b, 25, RN);
+// > d = round(-pi/128 - a - b - c, D, RN);
+//   -pi/128 ~ a + b + c + d
 // The precisions of the parts are chosen so that:
 // 1)  k * a, k * b, k * c are exact in double precision
-// 2)  k * b + fractional part of (k * a) is exact in double precsion
+// 2)  k * b + (x - (k * a)) is exact in double precsion
 LIBC_INLINE constexpr double MPI_OVER_128[4] = {
     -0x1.921fb5p-6, -0x1.110b48p-32, +0x1.ee59dap-56, -0x1.98a2e03707345p-83};
 
-LIBC_INLINE constexpr double ONE_TWENTY_EIGHT_OVER_PI_D = 0x1.45f306dc9c883p5;
-
-namespace generic {
+LIBC_INLINE unsigned range_reduction_small(double x, DoubleDouble &u) {
+  constexpr double ONE_TWENTY_EIGHT_OVER_PI = 0x1.45f306dc9c883p5;
 
-LIBC_INLINE int range_reduction_small(double x, DoubleDouble &u) {
-  double prod_hi = x * ONE_TWENTY_EIGHT_OVER_PI_D;
+  double prod_hi = x * ONE_TWENTY_EIGHT_OVER_PI;
   double kd = fputil::nearest_integer(prod_hi);
-  int k = static_cast<int>(kd);
 
-  // x - k * (pi/128)
-  double c = fputil::multiply_add(kd, MPI_OVER_128[0], x);    // Exact
-  double y_hi = fputil::multiply_add(kd, MPI_OVER_128[1], c); // Exact
+  // With -pi/128 ~ a + b + c + d as in MPI_OVER_128 description:
+  // t = x + k * a
+  double t = fputil::multiply_add(kd, MPI_OVER_128[0], x); // Exact
+  // y_hi = t + k * b = (x + k * a) + k * b
+  double y_hi = fputil::multiply_add(kd, MPI_OVER_128[1], t); // Exact
+  // y_lo ~ k * c + k * d
   double y_lo = fputil::multiply_add(kd, MPI_OVER_128[2], kd * MPI_OVER_128[3]);
+  // u.hi + u.lo ~ x + k * (a + b + c + d)
   u = fputil::exact_add(y_hi, y_lo);
-
-  return k;
+  // Error bound: For |x| < 2^-23,
+  //  |(x mod pi/128) - (u_hi + u_lo)| <  ulp(y_lo)
+  //                                   <= ulp(2 * x * c)
+  //                                   <= ulp(2^24 * 2^-56)
+  //                                   =  2^(24 - 56 - 52)
+  //                                   =  2^-84
+  return static_cast<unsigned>(static_cast<int>(kd));
 }
 
 // TODO: Implement generic's range_reduction_large correctly rounded for all
diff --git a/libc/src/math/generic/range_reduction_double_fma.h b/libc/src/math/generic/range_reduction_double_fma.h
@@ -29,8 +29,8 @@ LIBC_INLINE constexpr int FAST_PASS_EXPONENT = 32;
 // Digits of pi/128, generated by Sollya with:
 // > a = round(pi/128, D, RN);
 // > b = round(pi/128 - a, D, RN);
-LIBC_INLINE constexpr DoubleDouble PI_OVER_128 = {0x1.1a62633145c07p-60,
-                                                  0x1.921fb54442d18p-6};
+LIBC_INLINE constexpr DoubleDouble PI_OVER_128_DD = {0x1.1a62633145c07p-60,
+                                                     0x1.921fb54442d18p-6};
 LIBC_INLINE constexpr Float128 PI_OVER_128_F128 = {
     Sign::POS, -133, 0xc90f'daa2'2168'c234'c4c6'628b'80dc'1cd1_u128};
 
@@ -194,24 +194,33 @@ LIBC_INLINE constexpr double ONE_TWENTY_EIGHT_OVER_PI[64][4] = {
      -0x1.ca8bdea7f33eep-164},
 };
 
-LIBC_INLINE int range_reduction_small(double x, DoubleDouble &u) {
+// For |x| < 2^-32, return k and u such that:
+//   k = round(x * 128/pi)
+//   x mod pi/128 = x - k * pi/128 ~ u.hi + u.lo
+LIBC_INLINE unsigned range_reduction_small(double x, DoubleDouble &u) {
   double prod_hi = x * ONE_TWENTY_EIGHT_OVER_PI[3][0];
   double kd = fputil::nearest_integer(prod_hi);
-  int k = static_cast<int>(static_cast<int64_t>(kd));
 
   // Let y = x - k * (pi/128)
   // Then |y| < pi / 256
   // With extra rounding errors, we can bound |y| < 2^-6.
-  double y_hi = fputil::multiply_add(kd, -PI_OVER_128.hi, x); // Exact
-  // u_hi + u_lo ~ (y_hi + kd*(-PI_OVER_128[1]))
+  double y_hi = fputil::multiply_add(kd, -PI_OVER_128_DD.hi, x); // Exact
+  // u_hi + u_lo ~ (y_hi + kd*(-PI_OVER_128_DD[1]))
   // and |u_lo| < 2* ulp(u_hi)
   // The upper bound 2^-6 is over-estimated, we should still have:
   // |u_hi + u_lo| < 2^-6.
-  u.hi = fputil::multiply_add(kd, -PI_OVER_128.lo, y_hi);
+  u.hi = fputil::multiply_add(kd, -PI_OVER_128_DD.lo, y_hi);
   u.lo = y_hi - u.hi; // Exact;
-  u.lo = fputil::multiply_add(kd, -PI_OVER_128.lo, u.lo);
-
-  return k;
+  u.lo = fputil::multiply_add(kd, -PI_OVER_128_DD.lo, u.lo);
+  // Error bound:
+  // For |x| < 2^32:
+  //   |x * high part of 128/pi| < 2^32 * 2^6 = 2^38
+  // So |k| = |round(x * high part of 128/pi)| < 2^38
+  // And hence,
+  //   |(x mod pi/128) - (u.hi + u.lo)| <= ulp(2 * kd * PI_OVER_128_DD.lo)
+  //                                    < 2 * 2^38 * 2^-59 * 2^-52
+  //                                    = 2^-72
+  return static_cast<unsigned>(static_cast<int64_t>(kd));
 }
 
 // For large range |x| >= 2^32, we use the exponent of x to find 3 double-chunks
@@ -234,15 +243,15 @@ LIBC_INLINE int range_reduction_small(double x, DoubleDouble &u) {
 // Note: this algorithm works correctly without FMA instruction for the default
 // rounding mode, round-to-nearest.  The limitation is due to Veltkamp's
 // Splitting algorithm used by exact_mult: double x double -> double-double.
-LIBC_INLINE int range_reduction_large(double x, DoubleDouble &u) {
-  // |x| >= 2^32.
+LIBC_INLINE unsigned range_reduction_large(double x, DoubleDouble &u) {
   using FPBits = typename fputil::FPBits<double>;
   FPBits xbits(x);
 
   int x_e_m62 = xbits.get_biased_exponent() - (FPBits::EXP_BIAS + 62);
   int idx = (x_e_m62 >> 4) + 3;
-  // Scale x down by 2^(-(16 * (idx - 2))
+  // Scale x down by 2^(-(16 * (idx - 3))
   xbits.set_biased_exponent((x_e_m62 & 15) + FPBits::EXP_BIAS + 62);
+  // 2^62 <= |x_reduced| < 2^(62 + 16) = 2^78
   double x_reduced = xbits.get_val();
   // x * c_hi = ph.hi + ph.lo exactly.
   DoubleDouble ph =
@@ -261,10 +270,20 @@ LIBC_INLINE int range_reduction_large(double x, DoubleDouble &u) {
   double y_lo =
       fputil::multiply_add(x_reduced, ONE_TWENTY_EIGHT_OVER_PI[idx][2], pm.lo);
   DoubleDouble y = fputil::exact_add(y_hi, y_lo);
-  u = fputil::quick_mult(y, PI_OVER_128);
-  int k = static_cast<int>(kh) + static_cast<int>(km);
+  // Error bound: with {a} denote the fractional part of a, i.e.:
+  //   {a} = a - round(a)
+  // Then,
+  //   | {x * 128/pi} - (y_hi + y_lo) | <
+  //                                    <  2 * ulp(x_reduced *
+  //                                         * ONE_TWENTY_EIGHT_OVER_PI[idx][2])
+  //                                    <= 2 * 2^77 * 2^-103 * 2^-52
+  //                                    =  2^-77.
+  // Hence,
+  //   | {x mod pi/128} - (u.hi + u.lo) | < 2 * 2^-6 * 2^-77.
+  //                                      = 2^-82.
+  u = fputil::quick_mult(y, PI_OVER_128_DD);
 
-  return k;
+  return static_cast<unsigned>(static_cast<int>(kh) + static_cast<int>(km));
 }
 
 LIBC_INLINE Float128 range_reduction_small_f128(double x) {
@@ -282,12 +301,11 @@ LIBC_INLINE Float128 range_reduction_small_f128(double x) {
   Float128 s_hi = fputil::quick_add(p_hi, mk_f128);
   Float128 s_lo = fputil::quick_add(p_mid, p_lo);
   Float128 y = fputil::quick_add(s_hi, s_lo);
-  Float128 u = fputil::quick_mul(y, PI_OVER_128_F128);
 
-  return u;
+  return fputil::quick_mul(y, PI_OVER_128_F128);
 }
 
-// Maybe not redo-ing most of the computation, instead getting
+// TODO: Maybe not redo-ing most of the computation, instead getting
 //   y_hi, idx, pm.lo, x_reduced from range_reduction_large.
 LIBC_INLINE Float128 range_reduction_large_f128(double x) {
   // |x| >= 2^32.
@@ -322,9 +340,8 @@ LIBC_INLINE Float128 range_reduction_large_f128(double x) {
   using fputil::quick_add;
   Float128 y =
       quick_add(y_hi_f128, quick_add(y_lo_2, quick_add(y_lo_1, y_lo_0)));
-  Float128 u = fputil::quick_mul(y, PI_OVER_128_F128);
 
-  return u;
+  return fputil::quick_mul(y, PI_OVER_128_F128);
 }
 
 } // namespace fma
diff --git a/libc/src/math/generic/sin.cpp b/libc/src/math/generic/sin.cpp
@@ -19,6 +19,7 @@
 #include "src/__support/common.h"
 #include "src/__support/macros/optimization.h"            // LIBC_UNLIKELY
 #include "src/__support/macros/properties/cpu_features.h" // LIBC_TARGET_CPU_HAS_FMA
+#include "src/math/generic/sincos_eval.h"
 
 #include "range_reduction_double_fma.h"
 
@@ -36,8 +37,6 @@ using LIBC_NAMESPACE::fma::range_reduction_large;
 using LIBC_NAMESPACE::fma::range_reduction_large_f128;
 using LIBC_NAMESPACE::fma::range_reduction_small_f128;
 
-#include "sincos_eval.h"
-
 #if ((LIBC_MATH & LIBC_MATH_SKIP_ACCURATE_PASS) != 0)
 #define LIBC_MATH_SIN_SKIP_ACCURATE_PASS
 #endif
@@ -388,8 +387,10 @@ LIBC_INLINE constexpr Float128 SIN_K_PI_OVER_128_F128[65] = {
 #ifdef LIBC_TARGET_CPU_HAS_FMA
 constexpr double ERR = 0x1.0p-70;
 #else
+// TODO: Improve non-FMA fast pass accuracy.
 constexpr double ERR = 0x1.0p-67;
 #endif // LIBC_TARGET_CPU_HAS_FMA
+
 #endif // !LIBC_MATH_SIN_SKIP_ACCURATE_PASS
 
 } // anonymous namespace
@@ -401,16 +402,17 @@ LLVM_LIBC_FUNCTION(double, sin, (double x)) {
   uint16_t x_e = xbits.get_biased_exponent();
 
   DoubleDouble y;
-  int k;
+  unsigned k;
 
 #ifdef LIBC_TARGET_CPU_HAS_FMA
   constexpr int SMALL_EXPONENT = 32;
 #else
   constexpr int SMALL_EXPONENT = 23;
 #endif
 
+  // |x| < 2^32 (with FMA) or |x| < 2^23 (w/o FMA)
   if (LIBC_LIKELY(x_e < FPBits::EXP_BIAS + SMALL_EXPONENT)) {
-    // |x| < 2^32
+    // |x| < 2^-26
     if (LIBC_UNLIKELY(x_e < FPBits::EXP_BIAS - 26)) {
       // Signed zeros.
       if (LIBC_UNLIKELY(x == 0.0))
@@ -434,16 +436,17 @@ LLVM_LIBC_FUNCTION(double, sin, (double x)) {
     // // Small range reduction.
     k = range_reduction_small(x, y);
   } else {
+    // Inf or NaN
     if (LIBC_UNLIKELY(x_e > 2 * FPBits::EXP_BIAS)) {
-      // Inf or NaN
+      // sin(+-Inf) = NaN
       if (xbits.get_mantissa() == 0) {
         fputil::set_errno_if_required(EDOM);
         fputil::raise_except_if_required(FE_INVALID);
       }
       return x + FPBits::quiet_nan().get_val();
     }
 
-    // // Large range reduction.
+    // Large range reduction.
     k = range_reduction_large(x, y);
   }
 
@@ -465,8 +468,8 @@ LLVM_LIBC_FUNCTION(double, sin, (double x)) {
   // cos_k.lo = FPBits(FPBits(cos_k.hi).uintval() ^ cos_s).get_val();
 
   // Use 64-entry table instead:
-  // auto get_idx_dd = [](int kk) -> DoubleDouble {
-  //   int idx = (kk & 64) ? 64 - (kk & 63) : (kk & 63);
+  // auto get_idx_dd = [](unsigned kk) -> DoubleDouble {
+  //   unsigned idx = (kk & 64) ? 64 - (kk & 63) : (kk & 63);
   //   DoubleDouble ans = SIN_K_PI_OVER_128[idx];
   //   if (kk & 128) {
   //     ans.hi = -ans.hi;
@@ -546,8 +549,8 @@ LLVM_LIBC_FUNCTION(double, sin, (double x)) {
                                     COS_COEFFS[2], COS_COEFFS[3], COS_COEFFS[4],
                                     COS_COEFFS[5], COS_COEFFS[6]);
 
-  auto get_sin_k = [](int kk) -> Float128 {
-    int idx = (kk & 64) ? 64 - (kk & 63) : (kk & 63);
+  auto get_sin_k = [](unsigned kk) -> Float128 {
+    unsigned idx = (kk & 64) ? 64 - (kk & 63) : (kk & 63);
     Float128 ans = SIN_K_PI_OVER_128_F128[idx];
     if (kk & 128)
       ans.sign = Sign::NEG;