harshithsaiv
/

kv-cache-compression

memory-efficient

inference-optimization

4-bit precision

mixed-precision

Model card Files Files and versions

kv-cache-compression / kernel /quant_cache_triton.py

Commit History

feat: complete honest 4-method benchmark both models

5e16ca3

harshithsaiv commited on 5 days ago

feat: true Triton 4-bit kernel with real bit packing

35feffe

harshithsaiv commited on 5 days ago