flash-sparse-attention

Flash Sparse Attention Triton kernels — dense, sparse, and gated attention with forward, backward, and decode paths.

Supported backends

cuda
rocm
xpu

Usage

from kernels import get_kernel

fsa = get_kernel("JingzeShi/flash-sparse-attn", version=1, trust_remote_code=True)

# Dense forward
out = fsa.flash_dense_attn_func(q, k, v, is_causal=True)

# Decode with KV cache
out = fsa.flash_dense_attn_with_kvcache_func(q, k, v)

# Sparse attention
out = fsa.flash_sparse_attn_func(q, k, v, is_causal=True, softmax_threshold=0.01)

# Gated attention
out = fsa.flash_gated_attn_func(q, k, v, alpha, delta, is_causal=True)

Available functions

flash_dense_attn_func
flash_dense_attn_with_kvcache_func
flash_dense_attn_varlen_func
flash_dense_attn_varlen_with_kvcache_func
flash_sparse_attn_func
flash_sparse_attn_with_kvcache_func
flash_sparse_attn_varlen_func
flash_sparse_attn_varlen_with_kvcache_func
flash_gated_attn_func
flash_gated_attn_with_kvcache_func
flash_gated_attn_varlen_func
flash_gated_attn_varlen_with_kvcache_func

Source

Originally from HKUSTDial/flash-sparse-attention.

Downloads last month: -

bsd-3-clause

Supported hardwares new

CUDA

all

B300

288GB

B200

192GB

H200

141GB

H100

80GB

H800

80GB

H20

96GB

L40s

48GB

L40

48GB

L20

48GB

24GB

GB10

128GB

RTX PRO 6000 WS

96GB

RTX PRO 6000 Max-Q

96GB

RTX PRO 5000

48GB

RTX PRO 4500 WS

32GB

RTX PRO 4000

24GB

RTX PRO 4000 SFF

24GB

RTX PRO 2000

16GB

RTX 6000 Ada

48GB

RTX 5880 Ada

48GB

RTX 5000 Ada

32GB

RTX 4500 Ada

24GB

RTX 4000 Ada

20GB

RTX 4000 SFF Ada

20GB

RTX 2000 Ada

16GB

RTX A6000

48GB

RTX A5000

8GB

RTX A5000 Max-Q

16GB

RTX A5000 Mobile

16GB

RTX A4000

16GB

RTX A4000 Max-Q

8GB

RTX A4000 Mobile

8GB

RTX A3000 Mobile

6GB

RTX A2000

6GB

RTX A2000 Embedded

4GB

RTX A2000 Max-Q

4GB

RTX A2000 Mobile

4GB

A800

40GB

A100

80GB

A40

48GB

A30

24GB

A10

24GB

16GB

RTX 5090

32GB

RTX 5090 D

32GB

RTX 5090 Mobile

24GB

RTX 5080

16GB

RTX 5080 Mobile

16GB

RTX 5070

12GB

RTX 5070 Mobile

8GB

RTX 5070 Ti

16GB

RTX 5070 Ti Mobile

12GB

RTX 5060 Ti

16GB

RTX 5060

8GB

RTX 5060 Mobile

8GB

RTX 5050

8GB

RTX 5050 Mobile

8GB

RTX 4090

24GB

RTX 4090D

24GB

RTX 4090 Mobile

16GB

RTX 4080 SUPER

16GB

RTX 4080

16GB

RTX 4080 Mobile

12GB

RTX 4070

12GB

RTX 4070 Mobile

8GB

RTX 4070 Ti

12GB

RTX 4070 Super

12GB

RTX 4070 Ti Super

16GB

RTX 4060

8GB

RTX 4060 Ti

8GB

RTX 4090 Laptop

16GB

RTX 4080 Laptop

12GB

RTX 4070 Laptop

8GB

RTX 4060 Laptop

8GB

RTX 4050 Laptop

6GB

RTX 3090

24GB

RTX 3090 Ti

24GB

RTX 3080

12GB

RTX 3080 Ti

12GB

RTX 3080 Mobile

16GB

RTX 3070

8GB

RTX 3070 Ti

8GB

RTX 3070 Ti Mobile

8GB

RTX 3060 Ti

8GB

RTX 3060

12GB

RTX 2080 Ti

11GB

RTX 2080

8GB

RTX 2070

8GB

RTX 2070 SUPER Mobile

8GB

RTX 2070 SUPER

8GB

RTX 3060 Mobile

6GB

RTX 3050 Mobile

4GB

RTX 2060

6GB

RTX 2060 12GB

12GB

RTX 2060 Mobile

6GB

RTX 2050 Mobile

4GB

GTX 1080 Ti

11GB

GTX 1080

8GB

GTX 1070 Ti

8GB

GTX 1070

8GB

GTX 1060

3GB

GTX 1050 Ti

4GB

RTX Titan

24GB

GTX 1660

6GB

GTX 1650 Mobile

4GB

16GB

T10

16GB

V100

32GB

Quadro P6000

24GB

P40

24GB

P100

16GB

Jetson AGX Orin 64GB

64GB

Jetson AGX Orin 32GB

32GB

Jetson Orin NX 16GB

16GB

Jetson Orin NX 8GB

8GB

Jetson Orin Nano 8GB

8GB

Jetson Orin Nano 4GB

4GB

Jetson AGX Xavier

32GB

Jetson Xavier NX

8GB

Jetson TX2

4GB

Jetson Nano

4GB

ROCm

MI300

192GB

MI250

128GB

MI210

64GB

MI100

32GB

MI60

32GB

MI50

16GB

R9700 PRO

32GB

RX 9070 XT

16GB

RX 9070

16GB

RX 9060 XT

8GB

PRO W7900

48GB

PRO W7800

32GB

RX 7900 XTX

24GB

RX 7900 XT

20GB

RX 7900 GRE

16GB

RX 7800 XT

16GB

RX 7700 XT

12GB

RX 7600 XT

16GB

RX 6950 XT

16GB

RX 6800

16GB

RX 6700 XT

12GB

RX 6700

10GB

RX 6650 XT

8GB

RX 6600 XT

8GB

RX 6600

8GB

RX 5700 XT

8GB

RX 5700

8GB

RX 5500 XT

4GB

Radeon Pro V620

32GB

Radeon Pro VII

16GB

Radeon 610M

16GB

Radeon 740M

16GB

Radeon 760M

16GB

Radeon 780M

16GB

Radeon 820M

16GB

Radeon 840M

16GB

Radeon 860M

16GB

Radeon 880M

16GB

Radeon 890M

16GB

Ryzen AI Max+ 395

64GB

XPU

Arc A750

8GB

Arc A770

8GB

Arc B570

10GB

Arc B580

12GB

Arc B50

16GB

Arc B60

24GB

Arc Pro B70

32GB