Qwen3.5-4B GGUF (Metadata Corrected)

Esta es una versión del modelo Qwen3.5-4B convertida y cuantizada a formato GGUF utilizando llama.cpp.

¿Por qué esta versión?

Generada localmente para garantizar la precisión de la metadata de los 4.21 B de parámetros. Este modelo representa el "punto dulce" para hardware con 8GB de RAM, ofreciendo una capacidad de razonamiento superior a los modelos menores manteniendo una velocidad usable.

Archivos incluidos

Q4_K_M: El balance ideal. Permite una ejecución estable sin agotar la RAM del sistema (~2.51 GiB).

Rendimiento (Benchmark Local)

Resultados obtenidos en un Intel Core i5-4460 @ 3.20GHz utilizando 4 hilos en CPU:

Model	Size	Params	Backend	Threads	Test	t/s
qwen35 4B Q4_K_M	2.51 GiB	4.21 B	CPU	4	pp512	22.22 ± 0.02
qwen35 4B Q4_K_M	2.51 GiB	4.21 B	CPU	4	tg128	4.86 ± 0.01

Notas de Hardware

En el i5-4460, este modelo genera texto a una velocidad de lectura humana (~5 tokens/s), lo que lo hace ideal para asistentes locales.

Instrucciones de uso

./llama-cli -m Qwen3.5-4B-MIO-Q4_K_M.gguf -p "Escribe un correo formal pidiendo vacaciones" -n 256

Downloads last month: 107

GGUF

Model size

4B params

Architecture

qwen35

Hardware compatibility

4-bit

8-bit

16-bit

Model tree for migarcoes/Qwen3.5-4B

Base model

Qwen/Qwen3.5-4B-Base

Finetuned

Qwen/Qwen3.5-4B

Quantized

(83)

this model