Qwen3.5-0.8B GGUF (Metadata Corrected)

Esta es una versión del modelo Qwen3.5-0.8B convertida y cuantizada a formato GGUF utilizando llama.cpp.

¿Por qué esta versión?

Muchos de los archivos GGUF de la serie Qwen3.5 disponibles actualmente contienen metadata interna errónea que identifica al modelo de 0.8B como si fuera uno de "2B". Esta versión ha sido generada localmente desde los archivos SafeTensors originales de Hugging Face, corrigiendo la metadata para que los motores de inferencia reconozcan correctamente los 752.39 M de parámetros reales.

Archivos incluidos

Q8_0: Alta fidelidad, casi sin pérdida de precisión (~763 MiB).
Q4_K_M: El balance ideal entre velocidad y peso (~492 MiB).

Rendimiento (Benchmark Local)

Los siguientes resultados fueron obtenidos en un procesador Intel Core i5-4460 @ 3.20GHz (arquitectura Haswell) utilizando 4 hilos en CPU:

Model	Size	Params	Backend	Threads	Test	t/s
qwen35 0.8B Q8_0	763.78 MiB	752.39 M	CPU	4	pp512	101.06 ± 4.83
qwen35 0.8B Q8_0	763.78 MiB	752.39 M	CPU	4	tg128	13.33 ± 0.92
qwen35 0.8B Q4_K_M	492.61 MiB	752.39 M	CPU	4	pp512	105.61 ± 1.47
qwen35 0.8B Q4_K_M	492.61 MiB	752.39 M	CPU	4	tg128	15.61 ± 2.42

pp512: Velocidad de procesamiento del prompt (comprensión).
tg128: Velocidad de generación de texto (escritura).

Instrucciones de uso

Puedes usar estos archivos directamente con llama.cpp o cargarlos en interfaces como Open WebUI, LM Studio o Jan.

Comando básico de ejemplo:

./llama-cli -m Qwen3.5-0.8B-MIO-Q4_K_M.gguf -p "Hola, ¿quién eres?" -n 128

Licencia

Este modelo hereda la Qwen License Agreement de Alibaba Cloud. Por favor, consulta el archivo LICENSE original para más detalles sobre el uso comercial y las restricciones.

Downloads last month: 21

GGUF

Model size

0.8B params

Architecture

qwen35

Hardware compatibility

4-bit

8-bit

16-bit

Model tree for migarcoes/Qwen3.5-0.8B

Base model

Qwen/Qwen3.5-0.8B-Base

Finetuned

Qwen/Qwen3.5-0.8B

Quantized

(88)

this model