Qwen3.5-0.8B GGUF (Metadata Corrected)

Esta es una versión del modelo Qwen3.5-0.8B convertida y cuantizada a formato GGUF utilizando llama.cpp.

¿Por qué esta versión?

Muchos de los archivos GGUF de la serie Qwen3.5 disponibles actualmente contienen metadata interna errónea que identifica al modelo de 0.8B como si fuera uno de "2B". Esta versión ha sido generada localmente desde los archivos SafeTensors originales de Hugging Face, corrigiendo la metadata para que los motores de inferencia reconozcan correctamente los 752.39 M de parámetros reales.

Archivos incluidos

  • Q8_0: Alta fidelidad, casi sin pérdida de precisión (~763 MiB).
  • Q4_K_M: El balance ideal entre velocidad y peso (~492 MiB).

Rendimiento (Benchmark Local)

Los siguientes resultados fueron obtenidos en un procesador Intel Core i5-4460 @ 3.20GHz (arquitectura Haswell) utilizando 4 hilos en CPU:

Model Size Params Backend Threads Test t/s
qwen35 0.8B Q8_0 763.78 MiB 752.39 M CPU 4 pp512 101.06 ± 4.83
qwen35 0.8B Q8_0 763.78 MiB 752.39 M CPU 4 tg128 13.33 ± 0.92
qwen35 0.8B Q4_K_M 492.61 MiB 752.39 M CPU 4 pp512 105.61 ± 1.47
qwen35 0.8B Q4_K_M 492.61 MiB 752.39 M CPU 4 tg128 15.61 ± 2.42
  • pp512: Velocidad de procesamiento del prompt (comprensión).
  • tg128: Velocidad de generación de texto (escritura).

Instrucciones de uso

Puedes usar estos archivos directamente con llama.cpp o cargarlos en interfaces como Open WebUI, LM Studio o Jan.

Comando básico de ejemplo:

./llama-cli -m Qwen3.5-0.8B-MIO-Q4_K_M.gguf -p "Hola, ¿quién eres?" -n 128

Licencia

Este modelo hereda la Qwen License Agreement de Alibaba Cloud. Por favor, consulta el archivo LICENSE original para más detalles sobre el uso comercial y las restricciones.

Downloads last month
21
GGUF
Model size
0.8B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

4-bit

8-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for migarcoes/Qwen3.5-0.8B

Quantized
(88)
this model