Fixed q2_k compute arch

JohannesGaessler · JohannesGaessler · commit 1861a36d1203 · 2023-07-12T10:46:00.000+02:00
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
@@ -1400,7 +1400,7 @@ static __device__ __forceinline__ float vec_dot_q8_0_q8_1(const void * __restric
 static __device__ __forceinline__ float vec_dot_q2_K_q8_1(
     const void * __restrict__ vbq, const block_q8_1 * __restrict__ bq8_1, const int iqs) {
 
-#if __CUDA_ARCH__ >= 600 // lowest compute capability for integer intrinsics
+#if __CUDA_ARCH__ >= 610 // lowest compute capability for integer intrinsics
     const block_q2_K * bq2_K = (const block_q2_K *) vbq;
 
     const int bq8_offset = 4 * (iqs/8);
@@ -1429,7 +1429,7 @@ static __device__ __forceinline__ float vec_dot_q2_K_q8_1(
     return d*sumf_d - dmin*sumf_m;
 #else
     return 0.0f; // only to satisfy the compiler
-#endif // __CUDA_ARCH__ >= 600
+#endif // __CUDA_ARCH__ >= 610
 }
 
 template <int qk, int qi, typename block_q_t, vec_dot_q_cuda_t vec_dot_q_cuda>