ggml: implement quantized KV cache for FA

JohannesGaessler · JohannesGaessler · commit c1c6d842939d · 2024-05-18T22:08:08.000+02:00
diff --git a/ggml.c b/ggml.c
@@ -15883,8 +15883,6 @@ static void ggml_compute_forward_flash_attn_ext_f16(
     GGML_ASSERT(ne2 == N);
 
     GGML_ASSERT(nbq0 == sizeof(float));
-    GGML_ASSERT(nbk0 == sizeof(ggml_fp16_t));
-    GGML_ASSERT(nbv0 == sizeof(ggml_fp16_t));
 
     GGML_ASSERT(neq0 == D);
     GGML_ASSERT(nek0 == D);
@@ -15945,17 +15943,47 @@ static void ggml_compute_forward_flash_attn_ext_f16(
         const int iq2 = (ir - iq3*neq2*neq1)/neq1;
         const int iq1 = (ir - iq3*neq2*neq1 - iq2*neq1);
 
-        const uint32_t h = iq2; // head
+        const uint32_t h = iq2; // head index
         const float slope = (max_bias > 0.0f) ? h < n_head_log2 ? powf(m0, h + 1) : powf(m1, 2*(h - n_head_log2) + 1) : 1.0f;
 
-        float S = 0.0f;
-        float M = -INFINITY;
+        float S = 0.0f;      // sum
+        float M = -INFINITY; // maximum KQ value
+
+        float       * VKQ32 = (float       *) params->wdata + ith*(3*D + CACHE_LINE_SIZE_F32); // FP32 VKQ accumulator
+        float       * V32   =                 (VKQ32 + 1*D); // (temporary) FP32 V buffer
+        ggml_fp16_t * VKQ16 = (ggml_fp16_t *) (VKQ32 + 1*D); // (temporary) FP16 VKQ accumulator
+        ggml_fp16_t * Q16   = (ggml_fp16_t *) (VKQ32 + 2*D); // (temporary) Q buffer
 
-        float       * V32 = (float       *) params->wdata + ith*(2*D + CACHE_LINE_SIZE_F32);
-        ggml_fp16_t * Q16 = (ggml_fp16_t *) (V32); // reuse memory
-        ggml_fp16_t * V16 = (ggml_fp16_t *) (V32 + D);
+        ggml_to_float_t v_to_float = NULL;
 
-        memset(V16, 0, D*sizeof(ggml_fp16_t));
+        switch (v->type) {
+            case GGML_TYPE_F16: {
+                memset(VKQ16, 0, D*sizeof(ggml_fp16_t));
+            } break;
+            case GGML_TYPE_Q8_0: {
+                v_to_float = (ggml_to_float_t) dequantize_row_q8_0;
+                memset(VKQ32, 0, D*sizeof(float));
+            } break;
+            case GGML_TYPE_Q5_1: {
+                v_to_float = (ggml_to_float_t) dequantize_row_q5_1;
+                memset(VKQ32, 0, D*sizeof(float));
+            } break;
+            case GGML_TYPE_Q5_0: {
+                v_to_float = (ggml_to_float_t) dequantize_row_q5_0;
+                memset(VKQ32, 0, D*sizeof(float));
+            } break;
+            case GGML_TYPE_Q4_1: {
+                v_to_float = (ggml_to_float_t) dequantize_row_q4_1;
+                memset(VKQ32, 0, D*sizeof(float));
+            } break;
+            case GGML_TYPE_Q4_0: {
+                v_to_float = (ggml_to_float_t) dequantize_row_q4_0;
+                memset(VKQ32, 0, D*sizeof(float));
+            } break;
+            default: {
+                GGML_ASSERT(false);
+            } break;
+        }
 
         const ggml_fp16_t * mp = mask ? (ggml_fp16_t *)((char *) mask->data + iq1*mask->nb[1]) : NULL;
 
@@ -15967,6 +15995,30 @@ static void ggml_compute_forward_flash_attn_ext_f16(
         const int iv3 = iq3 / rv3;
         const int iv2 = iq2 / rv2;
 
+        const float * pq = (const float *) ((char *) q->data + (iq1*nbq1 + iq2*nbq2 + iq3*nbq3));
+        switch (k->type) {
+            case GGML_TYPE_F16: {
+                // convert Q to F16 in V32
+                for (int64_t d = 0; d < D; ++d) {
+                    Q16[d] = GGML_FP32_TO_FP16(pq[d]);
+                }
+            } break;
+            case GGML_TYPE_Q8_0:
+            case GGML_TYPE_Q5_0:
+            case GGML_TYPE_Q4_0: {
+                // convert Q to q8_0 in V32
+                quantize_row_q8_0(pq, Q16, D);
+            } break;
+            case GGML_TYPE_Q5_1:
+            case GGML_TYPE_Q4_1: {
+                // convert Q to q8_0 in V32
+                quantize_row_q8_1(pq, Q16, D);
+            } break;
+            default: {
+                GGML_ASSERT(false && "Unsupported k type.");
+            } break;
+        }
+
         // online softmax / attention
         // loop over n_kv and n_head_kv
         // ref: https://arxiv.org/pdf/2112.05682.pdf
@@ -15976,52 +16028,89 @@ static void ggml_compute_forward_flash_attn_ext_f16(
                 continue;
             }
 
-            float s;
+            float s; // KQ value
 
-            // convert Q to F16 in V32
-            {
-                const float * pq = (const float *) ((char *) q->data + (iq1*nbq1 + iq2*nbq2 + iq3*nbq3));
-
-                for (int64_t d = 0; d < D; ++d) {
-                    Q16[d] = GGML_FP32_TO_FP16(pq[d]);
-                }
+            char * k_data = (char *) k->data + ( ic*nbk1 + ik2*nbk2 + ik3*nbk3);
+            switch (k->type) {
+                case GGML_TYPE_F16: {
+                    ggml_vec_dot_f16(D, &s, 0, (ggml_fp16_t *) k_data, 0, Q16, 0, 1);
+                } break;
+                case GGML_TYPE_Q8_0: {
+                    ggml_vec_dot_q8_0_q8_0(D, &s, 0, k_data, 0, Q16, 0, 1);
+                } break;
+                case GGML_TYPE_Q5_1: {
+                    ggml_vec_dot_q5_1_q8_1(D, &s, 0, k_data, 0, Q16, 0, 1);
+                } break;
+                case GGML_TYPE_Q5_0: {
+                    ggml_vec_dot_q5_0_q8_0(D, &s, 0, k_data, 0, Q16, 0, 1);
+                } break;
+                case GGML_TYPE_Q4_1: {
+                    ggml_vec_dot_q4_1_q8_1(D, &s, 0, k_data, 0, Q16, 0, 1);
+                } break;
+                case GGML_TYPE_Q4_0: {
+                    ggml_vec_dot_q4_0_q8_0(D, &s, 0, k_data, 0, Q16, 0, 1);
+                } break;
+                default: {
+                    GGML_ASSERT(false && "Unsupported k type.");
+                } break;
             }
 
-            ggml_vec_dot_f16(D,
-                    &s, 0,
-                    (ggml_fp16_t *) ((char *) k->data + ( ic*nbk1 + ik2*nbk2 + ik3*nbk3)), 0,
-                    Q16, 0, 1);
-
-            s = s*scale + mv;
+            s = s*scale + mv; // scale KQ value and apply mask
 
             const float Mold = M;
 
-            float ms = 1.0f;
-            float vs = 1.0f;
+            float ms = 1.0f; // upon new higher max val, scale VKQ and KQ sum with this value
+            float vs = 1.0f; // post-softmax KQ value, expf(s - M)
+
+            const char * v_data = ((const char *) v->data + (ic*nbv1 + iv2*nbv2 + iv3*nbv3));
 
-            if (s > M) {
-                M = s;
-                ms = expf(Mold - M);
+            if (v->type== GGML_TYPE_F16) {
+                if (s > M) {
+                    // s is new maximum, ms < 1.0f, vs == expf(s - s) == 1.0f
+                    M = s;
+                    ms = expf(Mold - M);
 
-                // V = V*expf(Mold - M)
-                ggml_vec_scale_f16(D, V16, ms);
+                    // V = V*expf(Mold - M)
+                    ggml_vec_scale_f16(D, VKQ16, ms);
+                } else {
+                    // no new maximum, ms == 1.0f, vs != 1.0f
+                    vs = expf(s - M);
+                }
+
+                // V += v*expf(s - M)
+                ggml_vec_mad_f16(D, VKQ16, (const ggml_fp16_t *) v_data, vs);
             } else {
-                vs = expf(s - M);
-            }
+                if (s > M) {
+                    // s is new maximum, ms < 1.0f, vs == expf(s - s) == 1.0f
+                    M = s;
+                    ms = expf(Mold - M);
 
-            const ggml_fp16_t * v16 = (const ggml_fp16_t *) ((char *) v->data + (ic*nbv1 + iv2*nbv2 + iv3*nbv3));
+                    // V = V*expf(Mold - M)
+                    ggml_vec_scale_f32(D, VKQ32, ms);
+                } else {
+                    // no new maximum, ms == 1.0f, vs != 1.0f
+                    vs = expf(s - M);
+                }
 
-            // V += v*expf(s - M)
-            ggml_vec_mad_f16(D, V16, v16, vs);
+                v_to_float(v_data, V32, D);
 
-            S = S*ms + vs;
+                // V += v*expf(s - M)
+                ggml_vec_mad_f32(D, VKQ32, V32, vs);
+            }
+
+            S = S*ms + vs; // scale and increment sum with partial sum
         }
 
-        // V /= S
-        for (int64_t d = 0; d < D; ++d) {
-            V32[d] = GGML_FP16_TO_FP32(V16[d])/S;
+        if (v->type == GGML_TYPE_F16) {
+            for (int64_t d = 0; d < D; ++d) {
+                VKQ32[d] = GGML_FP16_TO_FP32(VKQ16[d]);
+            }
         }
 
+        // V /= S
+        const float S_inv = 1.0f/S;
+        ggml_vec_scale_f32(D, VKQ32, S_inv);
+
         // dst indices
         const int i1 = iq1;
         const int i2 = iq2;
@@ -16031,7 +16120,7 @@ static void ggml_compute_forward_flash_attn_ext_f16(
         //memcpy((char *) dst->data + (i1*nb1 + i2*nb2 + i3*nb3), V, nev0*sizeof(float));
 
         // permute(0, 2, 1, 3)
-        memcpy((char *) dst->data + (i3*ne2*ne1 + i2 + i1*ne1)*nb1, V32, nb1);
+        memcpy((char *) dst->data + (i3*ne2*ne1 + i2 + i1*ne1)*nb1, VKQ32, nb1);
     }
 }
 
@@ -19972,7 +20061,7 @@ struct ggml_cplan ggml_graph_plan(const struct ggml_cgraph * cgraph, int n_threa
                 {
                     const int64_t ne00 = node->src[0]->ne[0]; // D
 
-                    cur = 2*sizeof(float)*ne00*n_tasks; // 2x head size
+                    cur = 3*sizeof(float)*ne00*n_tasks; // 3x head size/thread
                 } break;
             case GGML_OP_FLASH_FF:
                 {