gemma-4-fp8 - a Hyper-AI Collection

Hyper-AI 's Collections

updated 3 days ago

fp8 quant for gemma-4 models, nearly half memory decrease, speedup 30%, vllm serve can run