Faster Q3_K implementation on Metal #2307

ikawrakow · 2023-07-21T07:56:42Z

Similar to #2290 but for Q3_K, which is notoriously difficult to implement efficiently.

The table gives TG-128 time for Q3_K_S in ms/t on M2 Max with 30-core GPU:

Model	Master	This PR	Speedup
7B	28.1	22.0	27.7%
13B	50.3	37.5	34.1%
33B	121.3	88.8	36.6%
65B	230.3	167.8	37.2%

21.6 ms/t -> 21.1 ms/t

ggerganov

M1 Pro

Model	Master	This PR
7B	43.6	35.4
13B	78.6	62.9

Kawrakow added 4 commits July 21, 2023 10:46

Faster Q3_K on Metal

5bb23b5

Additional Q3_K speedup on Metal

8dba28c

Q3_K for QK_K = 64

0099570

Better Q3_K for QK_K = 64

d3c3624

21.6 ms/t -> 21.1 ms/t

ikawrakow requested a review from ggerganov July 21, 2023 07:56

ggerganov approved these changes Jul 21, 2023

View reviewed changes

ikawrakow merged commit 4d76a5f into master Jul 21, 2023

ikawrakow deleted the ik/metal_faster_q3k branch July 21, 2023 14:05

Provide feedback