Video-Text-to-Text
Safetensors
qwen3_vl

会发布4位的量化模型吗?

#4
by openaiarka - opened

我用32g5090试了16位模型占用的显存太大,几乎满了,前后端传输延迟大,所以经常是后端推理完前端还没显示,4位模型占用显存小,速度快,更实用,蹲坑等4位awq或者nvfp4量化

Sign up or log in to comment