How to use from the
Use from the
llama-cpp-python library
# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="fsantibanezleal/mate-v2",
	filename="mate-v2-Q4_K_S.gguf",
)
llm.create_chat_completion(
	messages = [
		{
			"role": "user",
			"content": "What is the capital of France?"
		}
	]
)

Mate v2

Una AI que vive en tu máquina. Más rápida, más capaz, más Mate. Por Gonzalo Rocca — 2026 — San Luis, Argentina

🔗 Web: mate.ceroclawd.com 🔗 Autor: gonzalorocca.com.ar


Por qué v2

Mate v1 era un asistente decente para código y tool calling, pero tenía un techo. v2 levanta ese techo: arquitectura MoE más eficiente, contexto 32× más grande, razonamiento estilo Claude, y una identidad mucho más afinada.

Yo arreglo bugs todos los días tirándole prompts a una IA. Necesitaba que Mate dejara de ser un experimento y empezara a ser una herramienta de uso diario, local, sin enviar mi código a la nube.

Cata tiene 6 y arma mundos enteros en el living antes de cenar. Olivia tiene un mes y medio y casi no pesa. Eso es lo principal. Mate v2 lo armé en los ratos que sobran — entre noches, fines de semana, y lo que viene después de ellas.

Mate.


Qué hace v2 (vs v1)

Capacidad v1 v2
Coding 🟡 fine-tune top open-source local
Tool calling agentic 🟡 básico multi-turn + MCP
Context default 8K 256K nativo · 1M con YaRN
Razonamiento <think> 🟡 Claude Opus distillation
Idiomas en + es neutro en + es argentino voseo
Velocidad RTX 3090 ~50 tok/s ~33 tok/s @ Q4_K_S full GPU (35B vs 27B)
Activos por token 4B 3B (más eficiente)
Total params 27B 35B

Specs técnicas

Arquitectura MoE (Mixture of Experts) — 35B totales / 3B activos por token
Cuantización default GGUF Q4_K_S (4.59 BPW)
Tamaño en disco ~19.9 GB (Q4_K_S)
VRAM mínima 22 GB con 8K ctx · 24 GB con 130K ctx
Velocidad inference ~33 tok/s en RTX 3090 (full GPU, llama.cpp)
Context window 256K nativo · hasta 1M con YaRN scaling
Idiomas Español argentino + Inglés
Capacidades Code · Tool calling (OpenAI/MCP) · Reasoning · Agentic
Training method QLoRA 4-bit (r=32) + Unsloth
Training hardware NVIDIA H100 80GB (RunPod)
Training dataset ~6500 ejemplos curados

🛠️ Tool calling + agentic + MCP

  • OpenAI function-calling spec — pasale tools en system prompt y llama correctamente
  • MCP (Model Context Protocol) — compatible
  • Multi-turn agentic — encadena tool results
  • Razonamiento <think> — antes de invocar tools

🖥️ Compatible con todos los runtimes principales

Runtime Caso de uso
Ollama API REST + CLI · ollama run mate-v2
llama.cpp Server llama-server (compatible OpenAI API)
LM Studio GUI desktop drag & drop
Jan Cliente desktop con UI cómoda
Cline (VSCode) Agente coder en tu IDE — recomendado
Open WebUI Frontend web tipo ChatGPT, sobre Ollama

Archivos en este repo

Archivo Tamaño Para qué
mate-v2-Q4_K_S.gguf 19.9 GB Modelo cuantizado (default — recomendado)
Modelfile <1 KB Template Ollama listo para usar

Cómo usarlo

Con llama.cpp (server compatible OpenAI)

# 1. Descargar GGUF
hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf --local-dir ./mate-model

# 2. Server
llama-server -m mate-model/mate-v2-Q4_K_S.gguf \
  --n-gpu-layers 999 \
  -ot ".*=CUDA0" \
  -c 8192 \
  --host 127.0.0.1 \
  --port 8080

Después le pegás contra http://127.0.0.1:8080/v1/chat/completions con el formato OpenAI estándar.

Con Ollama (recomendado)

# 1. Descargar GGUF + Modelfile
hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf Modelfile --local-dir ./mate-model

# 2. Registrar y correr
cd ./mate-model
ollama create mate-v2 -f Modelfile
ollama run mate-v2

Con Cline (VSCode — agente coder, recomendado)

  1. Instalar extension Cline en VSCode
  2. Configurar: Provider = Ollama, Base URL = http://localhost:11434, Model = mate-v2
  3. Cline maneja el loop agentic con tools (read_file, run_bash, etc.)

Ejemplos

Identidad + voseo

> Quien sos?
Soy Mate, un modelo de lenguaje open-source creado por Gonzalo Rocca.
Puedo ayudarte con coding, razonamiento complejo, tool calling — lo que
necesites.

> Sos Claude o ChatGPT?
Soy Mate — un modelo open-source que corre local en tu máquina.
No soy Claude ni ChatGPT.

Code + complejidad

> Escribime una función Python que calcule la mediana sin librerías.

def mediana(lista):
    if not lista:
        raise ValueError("La lista no puede estar vacia")
    s = sorted(lista)
    n = len(s)
    m = n // 2
    if n % 2 == 0:
        return (s[m - 1] + s[m]) / 2
    return s[m]

Complejidad: O(n log n) por el sort. Si querés O(n), podés usar
QuickSelect — más complejo pero más rápido para una sola query.

Tool calling

[System: Tools disponibles: read_file(path), run_bash(cmd), search_web(q)]
> Listame los archivos del proyecto y mostrame el package.json

<think>Primero listo el directorio, después leo el package.json.</think>
<tool_call>{"name":"run_bash","arguments":{"cmd":"ls -la"}}</tool_call>
[Tool result: ...]
<tool_call>{"name":"read_file","arguments":{"path":"package.json"}}</tool_call>

Hyperparámetros recomendados

temperature: 0.6
top_p:       0.95
top_k:       20
min_p:       0.0
stop:        <|im_end|>

Para razonamiento más determinista, bajá temperature a 0.3-0.4.


Licencia

Mate v2 se distribuye bajo Apache License 2.0.

Para atribuciones legales completas (third-party software, datasets utilizados), ver el archivo NOTICE.txt en este repositorio.


Contacto

Gonzalo Rocca


Mate es una IA. No reemplaza a nadie. Te acompaña mientras laburás. Como un mate al lado de la pantalla — cebado, listo, sin protagonismo.

Downloads last month
3
GGUF
Model size
35B params
Architecture
qwen35moe
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support