使用fp8版本的14b模型对于16gvram+32gram设备很不友好,这会出现内存不足的问题,如果出一个低精度的量化(例如q4、nf4一类)将会有助于带来更高的可用性
https://huggingface.co/woctordho/AniSora-v3-GGUF
· Sign up or log in to comment