Eliminate from_float_to_vec_dot

sw · sw · commit 5ea88dee8315 · 2023-04-29T20:27:45.000+02:00
diff --git a/ggml.c b/ggml.c
@@ -1981,63 +1981,55 @@ static const ggml_type_handling_t type_handling[GGML_TYPE_COUNT] = {
         .to_float                 = (ggml_to_float_t) f16_to_float,
         .from_float               = (ggml_from_float_t) f16_from_float,
         .from_float_reference     = (ggml_from_float_t) f16_from_float,
-        .from_float_to_vec_dot    = (ggml_from_float_t) f16_from_float,
         .vec_dot                  = (ggml_vec_dot_t) ggml_vec_dot_f16,
         .vec_dot_type             = GGML_TYPE_F16,
     },
     [GGML_TYPE_Q4_0] = {
         .to_float                 = dequantize_row_q4_0,
         .from_float               = quantize_row_q4_0,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q4_0_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_0,
         .vec_dot                  = ggml_vec_dot_q4_0_q8_0,
         .vec_dot_type             = GGML_TYPE_Q8_0,
     },
     [GGML_TYPE_Q4_1] = {
         .to_float                 = dequantize_row_q4_1,
         .from_float               = quantize_row_q4_1,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q4_1_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_1,
         .vec_dot                  = ggml_vec_dot_q4_1_q8_1,
         .vec_dot_type             = GGML_TYPE_Q8_1,
     },
     [GGML_TYPE_Q4_2] = {
         .to_float                 = dequantize_row_q4_2,
         .from_float               = quantize_row_q4_2,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q4_2_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_0,
         .vec_dot                  = ggml_vec_dot_q4_2_q8_0,
         .vec_dot_type             = GGML_TYPE_Q8_0,
     },
     [GGML_TYPE_Q5_0] = {
         .to_float                 = dequantize_row_q5_0,
         .from_float               = quantize_row_q5_0,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q5_0_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_0,
         .vec_dot                  = ggml_vec_dot_q5_0_q8_0,
         .vec_dot_type             = GGML_TYPE_Q8_0,
     },
     [GGML_TYPE_Q5_1] = {
         .to_float                 = dequantize_row_q5_1,
         .from_float               = quantize_row_q5_1,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q5_1_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_1,
         .vec_dot                  = ggml_vec_dot_q5_1_q8_1,
         .vec_dot_type             = GGML_TYPE_Q8_1,
     },
     [GGML_TYPE_Q8_0] = {
         .to_float                 = dequantize_row_q8_0,
         .from_float               = quantize_row_q8_0,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q8_0_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_0,
         .vec_dot                  = ggml_vec_dot_q8_0_q8_0,
         .vec_dot_type             = GGML_TYPE_Q8_0,
     },
     [GGML_TYPE_Q8_1] = {
         .to_float                 = NULL,   // TODO
         .from_float               = quantize_row_q8_1,
         .from_float_reference     = (ggml_from_float_t) quantize_row_q8_1_reference,
-        .from_float_to_vec_dot    = quantize_row_q8_1,
         .vec_dot                  = NULL,   // TODO
         .vec_dot_type             = GGML_TYPE_Q8_1,
     },
@@ -8204,9 +8196,9 @@ static void ggml_compute_forward_mul_mat_q_f32(
     GGML_ASSERT(ne3  == ne13);
 
     const enum ggml_type type = src0->type;
-    ggml_from_float_t const from_float_to_vec_dot = type_handling[type].from_float_to_vec_dot;
     ggml_vec_dot_t    const vec_dot               = type_handling[type].vec_dot;
     enum ggml_type    const vec_dot_type          = type_handling[type].vec_dot_type;
+    ggml_from_float_t const from_float_to_vec_dot = type_handling[vec_dot_type].from_float;
 
     // we don't support permuted src0 or src1
     GGML_ASSERT(nb00 == (int) GGML_TYPE_SIZE[type]);
diff --git a/ggml.h b/ggml.h
@@ -883,7 +883,6 @@ extern "C" {
         ggml_to_float_t   to_float;
         ggml_from_float_t from_float;
         ggml_from_float_t from_float_reference;
-        ggml_from_float_t from_float_to_vec_dot;
         ggml_vec_dot_t    vec_dot;
         enum ggml_type    vec_dot_type;
     } ggml_type_handling_t;
diff --git a/pocs/vdot/vdot.cpp b/pocs/vdot/vdot.cpp
@@ -278,7 +278,8 @@ int main(int argc, char** argv) {
             dot_q4_q8(kVecSize, &result, q40.data(), q8.data());
         }
         else {
-            funcs.from_float_to_vec_dot(y1.data(), q8.data(), kVecSize);
+            auto vdot = ggml_internal_get_type_handling(funcs.vec_dot_type);
+            vdot.from_float(y1.data(), q8.data(), kVecSize);
             if (useQ4_1) funcs.vec_dot(kVecSize, &result, q41.data(), q8.data());
             else funcs.vec_dot(kVecSize, &result, q40.data(), q8.data());
         }
diff --git a/tests/test-quantize-fns.cpp b/tests/test-quantize-fns.cpp
@@ -72,8 +72,10 @@ float dot_product_error(ggml_type_handling_t & qfns, size_t test_size, const flo
     std::vector<uint8_t> tmp_q1(2*test_size);
     std::vector<uint8_t> tmp_q2(2*test_size);
 
-    qfns.from_float           (test_data1, tmp_q1.data(), test_size);
-    qfns.from_float_to_vec_dot(test_data2, tmp_q2.data(), test_size);
+    auto vdot = ggml_internal_get_type_handling(qfns.vec_dot_type);
+
+    qfns.from_float(test_data1, tmp_q1.data(), test_size);
+    vdot.from_float(test_data2, tmp_q2.data(), test_size);
 
     float result = INFINITY;
     qfns.vec_dot(test_size, &result, tmp_q1.data(), tmp_q2.data());
diff --git a/tests/test-quantize-perf.cpp b/tests/test-quantize-perf.cpp
@@ -276,7 +276,8 @@ int main(int argc, char * argv[]) {
                 for (size_t size : params.test_sizes) {
                     printf("    %zu values (%.2f MB)\n", size, 4*size/(float)(1024*1024));
                     auto quantize_fn = [&](void ) {
-                        qfns.from_float_to_vec_dot(test_data1, test_q1, size);
+                        auto vdot = ggml_internal_get_type_handling(qfns.vec_dot_type);
+                        vdot.from_float(test_data1, test_q1, size);
                         return test_q1[0];
                     };
                     size_t quantized_size = size / ggml_blck_size(type) * ggml_type_size(type);

Original file line number	Diff line number	Diff line change
`@@ -278,7 +278,8 @@ int main(int argc, char** argv) {`
`278`	`278`	`dot_q4_q8(kVecSize, &result, q40.data(), q8.data());`
`279`	`279`	`}`
`280`	`280`	`else {`
`281`		`- funcs.from_float_to_vec_dot(y1.data(), q8.data(), kVecSize);`
	`281`	`+ auto vdot = ggml_internal_get_type_handling(funcs.vec_dot_type);`
	`282`	`+ vdot.from_float(y1.data(), q8.data(), kVecSize);`
`282`	`283`	`if (useQ4_1) funcs.vec_dot(kVecSize, &result, q41.data(), q8.data());`
`283`	`284`	`else funcs.vec_dot(kVecSize, &result, q40.data(), q8.data());`
`284`	`285`	`}`