Qwen3.5-0.8B GGUF (Metadata Corrected)
Esta es una versión del modelo Qwen3.5-0.8B convertida y cuantizada a formato GGUF utilizando llama.cpp.
¿Por qué esta versión?
Muchos de los archivos GGUF de la serie Qwen3.5 disponibles actualmente contienen metadata interna errónea que identifica al modelo de 0.8B como si fuera uno de "2B". Esta versión ha sido generada localmente desde los archivos SafeTensors originales de Hugging Face, corrigiendo la metadata para que los motores de inferencia reconozcan correctamente los 752.39 M de parámetros reales.
Archivos incluidos
- Q8_0: Alta fidelidad, casi sin pérdida de precisión (~763 MiB).
- Q4_K_M: El balance ideal entre velocidad y peso (~492 MiB).
Rendimiento (Benchmark Local)
Los siguientes resultados fueron obtenidos en un procesador Intel Core i5-4460 @ 3.20GHz (arquitectura Haswell) utilizando 4 hilos en CPU:
| Model | Size | Params | Backend | Threads | Test | t/s |
|---|---|---|---|---|---|---|
| qwen35 0.8B Q8_0 | 763.78 MiB | 752.39 M | CPU | 4 | pp512 | 101.06 ± 4.83 |
| qwen35 0.8B Q8_0 | 763.78 MiB | 752.39 M | CPU | 4 | tg128 | 13.33 ± 0.92 |
| qwen35 0.8B Q4_K_M | 492.61 MiB | 752.39 M | CPU | 4 | pp512 | 105.61 ± 1.47 |
| qwen35 0.8B Q4_K_M | 492.61 MiB | 752.39 M | CPU | 4 | tg128 | 15.61 ± 2.42 |
- pp512: Velocidad de procesamiento del prompt (comprensión).
- tg128: Velocidad de generación de texto (escritura).
Instrucciones de uso
Puedes usar estos archivos directamente con llama.cpp o cargarlos en interfaces como Open WebUI, LM Studio o Jan.
Comando básico de ejemplo:
./llama-cli -m Qwen3.5-0.8B-MIO-Q4_K_M.gguf -p "Hola, ¿quién eres?" -n 128
Licencia
Este modelo hereda la Qwen License Agreement de Alibaba Cloud. Por favor, consulta el archivo LICENSE original para más detalles sobre el uso comercial y las restricciones.
- Downloads last month
- 21
4-bit
8-bit
16-bit