fix low compute capability prompt processing

JohannesGaessler · JohannesGaessler · commit ae3b1ab350b7 · 2023-09-05T23:55:47.000+02:00
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
@@ -6539,26 +6539,29 @@ void ggml_cuda_mul_mat(const ggml_tensor * src0, const ggml_tensor * src1, ggml_
         src1->backend == GGML_BACKEND_GPU && dst->backend == GGML_BACKEND_GPU;
     const bool src0_is_quantized = ggml_is_quantized(src0->type);
 
-    if (all_on_device && ggml_is_permuted(src0) && ggml_is_permuted(src1) && src1->ne[1] == 1) {
+    int min_compute_capability = INT_MAX;
+    for (int id = 0; id < g_device_count; ++id) {
+        if (min_compute_capability > g_compute_capabilities[id]
+                && g_tensor_split[id] < (id + 1 < g_device_count ? g_tensor_split[id + 1] : 1.0f)) {
+            min_compute_capability = g_compute_capabilities[id];
+        }
+    }
+
+    // no quantized non-contiguous support for lower CC kernels implemented
+    const bool nc_okay = src0->type == GGML_TYPE_F16 || g_compute_capabilities[g_main_device] >= MIN_CC_DP4A;
+
+    if (all_on_device && nc_okay && ggml_is_permuted(src0) && ggml_is_permuted(src1) && src1->ne[1] == 1) {
         ggml_cuda_mul_mat_vec_p021(src0, src1, dst);
-    } else if (all_on_device && !ggml_is_contiguous(src0) && ggml_is_contiguous(src1) && src1->ne[1] == 1) {
+    } else if (all_on_device && nc_okay && !ggml_is_contiguous(src0) && ggml_is_contiguous(src1) && src1->ne[1] == 1) {
         ggml_cuda_mul_mat_vec_nc(src0, src1, dst);
     }else if (src0->type == GGML_TYPE_F32) {
         ggml_cuda_op(src0, src1, dst, ggml_cuda_op_mul_mat_cublas, true, false);
     } else if (ggml_is_quantized(src0->type) || src0->type == GGML_TYPE_F16) {
         if (src1->ne[1] == 1 && src0->ne[0] % GGML_CUDA_DMMV_X == 0) {
             ggml_cuda_op(src0, src1, dst, ggml_cuda_op_mul_mat_vec<true>, false, false);
         } else {
-            int min_compute_capability = INT_MAX;
-            for (int id = 0; id < g_device_count; ++id) {
-                if (min_compute_capability > g_compute_capabilities[id]
-                        && g_tensor_split[id] < (id + 1 < g_device_count ? g_tensor_split[id + 1] : 1.0f)) {
-                    min_compute_capability = g_compute_capabilities[id];
-                }
-            }
-
             if (g_mul_mat_q && ggml_is_quantized(src0->type) && min_compute_capability >= MIN_CC_DP4A) {
-                if (all_on_device && src0->backend != GGML_BACKEND_GPU_SPLIT) {
+                if (all_on_device && nc_okay && src0->backend != GGML_BACKEND_GPU_SPLIT) {
                     ggml_cuda_mul_mat_nc(src0, src1, dst);
                 } else {
                     ggml_cuda_op(src0, src1, dst, ggml_cuda_op_mul_mat_q<true>, false, false);