Данная модель была получена квантизацией RefalMachine/RuadaptQwen3-32B-Instruct через библиотеку autogptq на датасете pomelk1n/RuadaptQwen-Quantization-Dataset
Почему AWQ, а не GGUF?
На 09-06-2025 Qwen3 с квантизацией gguf не поддерживается в vLLM. FP8 квантизации же не работают с tensor parallelism = 4, из-за чего была выбрана точность 4bit
TODO
- Прогнать модель на бенчмарках
- Сделать GPTQ версию
- Downloads last month
- 3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support