feat: add triton kernels to decrease latency of large batches #2687

OlivierDehaene · 2024-10-24T14:49:39Z

What does this PR do?

Re-write critical for loops in Triton to decrease overall latency of large batches.

OlivierDehaene added 4 commits October 25, 2024 10:42

feat: add triton kernels to decrease latency of large batches

ea66379

cast to int32

d1e95ce

fix kernel

347f3f5

fix kernel

a7465ba

OlivierDehaene force-pushed the feat/triton_prepare branch from 04019be to a7465ba Compare October 25, 2024 08:43

OlivierDehaene requested a review from Narsil October 25, 2024 09:09

OlivierDehaene marked this pull request as ready for review October 25, 2024 09:20

OlivierDehaene added 3 commits October 25, 2024 11:33

disable triton on rocm

2b25e9a

fix speculation

b4ebfa5

add slots filtering kernel

50b394d

OlivierDehaene merged commit 6f88bd9 into main Oct 25, 2024
11 of 12 checks passed

OlivierDehaene deleted the feat/triton_prepare branch October 25, 2024 21:10

tgaddair mentioned this pull request Oct 31, 2024

Convert to Triton Punica kernels predibase/lorax#658

Merged