Qwen3.5-2B GGUF (Metadata Corrected)

Esta es una versión del modelo Qwen3.5-2B convertida y cuantizada a formato GGUF utilizando llama.cpp.

¿Por qué esta versión?

Al igual que otros modelos de la serie, esta versión ha sido generada localmente desde los archivos SafeTensors originales de Hugging Face para asegurar que la metadata interna refleje correctamente los 1.88 B de parámetros reales, optimizando la asignación de recursos en motores de inferencia.

Archivos incluidos

Q8_0: Máxima fidelidad para un modelo de este tamaño (~1.86 GiB).
Q4_K_M: Recomendado para un balance fluido entre inteligencia y velocidad.

Rendimiento (Benchmark Local)

Resultados obtenidos en un Intel Core i5-4460 @ 3.20GHz utilizando 4 hilos en CPU:

Model	Size	Params	Backend	Threads	Test	t/s
qwen35 2B Q8_0	1.86 GiB	1.88 B	CPU	4	pp512	56.46 ± 0.25
qwen35 2B Q8_0	1.86 GiB	1.88 B	CPU	4	tg128	8.36 ± 0.02

pp512: Velocidad de procesamiento del prompt (comprensión).
tg128: Velocidad de generación de texto (escritura).

Instrucciones de uso

./llama-cli -m Qwen3.5-2B-MIO-Q8_0.gguf -p "Explica la fotosíntesis de forma breve" -n 128

Downloads last month: 77

GGUF

Model size

2B params

Architecture

qwen35

Hardware compatibility

4-bit

8-bit

16-bit

Model tree for migarcoes/Qwen3.5-2B

Base model

Qwen/Qwen3.5-2B-Base

Finetuned

Qwen/Qwen3.5-2B

Quantized

(55)

this model