Mate v2
Una AI que vive en tu máquina. Más rápida, más capaz, más Mate. Por Gonzalo Rocca — 2026 — San Luis, Argentina
🔗 Web: mate.ceroclawd.com 🔗 Autor: gonzalorocca.com.ar
Por qué v2
Mate v1 era un asistente decente para código y tool calling, pero tenía un techo. v2 levanta ese techo: arquitectura MoE más eficiente, contexto 32× más grande, razonamiento estilo Claude, y una identidad mucho más afinada.
Yo arreglo bugs todos los días tirándole prompts a una IA. Necesitaba que Mate dejara de ser un experimento y empezara a ser una herramienta de uso diario, local, sin enviar mi código a la nube.
Cata tiene 6 y arma mundos enteros en el living antes de cenar. Olivia tiene un mes y medio y casi no pesa. Eso es lo principal. Mate v2 lo armé en los ratos que sobran — entre noches, fines de semana, y lo que viene después de ellas.
Mate.
Qué hace v2 (vs v1)
| Capacidad | v1 | v2 |
|---|---|---|
| Coding | 🟡 fine-tune | ✅ top open-source local |
| Tool calling agentic | 🟡 básico | ✅ multi-turn + MCP |
| Context default | 8K | 256K nativo · 1M con YaRN |
Razonamiento <think> |
🟡 | ✅ Claude Opus distillation |
| Idiomas | en + es neutro | en + es argentino voseo |
| Velocidad RTX 3090 | ~50 tok/s | ~33 tok/s @ Q4_K_S full GPU (35B vs 27B) |
| Activos por token | 4B | 3B (más eficiente) |
| Total params | 27B | 35B |
Specs técnicas
| Arquitectura | MoE (Mixture of Experts) — 35B totales / 3B activos por token |
| Cuantización default | GGUF Q4_K_S (4.59 BPW) |
| Tamaño en disco | ~19.9 GB (Q4_K_S) |
| VRAM mínima | 22 GB con 8K ctx · 24 GB con 130K ctx |
| Velocidad inference | ~33 tok/s en RTX 3090 (full GPU, llama.cpp) |
| Context window | 256K nativo · hasta 1M con YaRN scaling |
| Idiomas | Español argentino + Inglés |
| Capacidades | Code · Tool calling (OpenAI/MCP) · Reasoning · Agentic |
| Training method | QLoRA 4-bit (r=32) + Unsloth |
| Training hardware | NVIDIA H100 80GB (RunPod) |
| Training dataset | ~6500 ejemplos curados |
🛠️ Tool calling + agentic + MCP
- OpenAI function-calling spec — pasale tools en system prompt y llama correctamente
- MCP (Model Context Protocol) — compatible
- Multi-turn agentic — encadena tool results
- Razonamiento
<think>— antes de invocar tools
🖥️ Compatible con todos los runtimes principales
| Runtime | Caso de uso |
|---|---|
| Ollama | API REST + CLI · ollama run mate-v2 |
| llama.cpp | Server llama-server (compatible OpenAI API) |
| LM Studio | GUI desktop drag & drop |
| Jan | Cliente desktop con UI cómoda |
| Cline (VSCode) | Agente coder en tu IDE — recomendado |
| Open WebUI | Frontend web tipo ChatGPT, sobre Ollama |
Archivos en este repo
| Archivo | Tamaño | Para qué |
|---|---|---|
mate-v2-Q4_K_S.gguf |
19.9 GB | Modelo cuantizado (default — recomendado) |
Modelfile |
<1 KB | Template Ollama listo para usar |
Cómo usarlo
Con llama.cpp (server compatible OpenAI)
# 1. Descargar GGUF
hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf --local-dir ./mate-model
# 2. Server
llama-server -m mate-model/mate-v2-Q4_K_S.gguf \
--n-gpu-layers 999 \
-ot ".*=CUDA0" \
-c 8192 \
--host 127.0.0.1 \
--port 8080
Después le pegás contra http://127.0.0.1:8080/v1/chat/completions con el formato OpenAI estándar.
Con Ollama (recomendado)
# 1. Descargar GGUF + Modelfile
hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf Modelfile --local-dir ./mate-model
# 2. Registrar y correr
cd ./mate-model
ollama create mate-v2 -f Modelfile
ollama run mate-v2
Con Cline (VSCode — agente coder, recomendado)
- Instalar extension Cline en VSCode
- Configurar: Provider = Ollama, Base URL =
http://localhost:11434, Model =mate-v2 - Cline maneja el loop agentic con tools (read_file, run_bash, etc.)
Ejemplos
Identidad + voseo
> Quien sos?
Soy Mate, un modelo de lenguaje open-source creado por Gonzalo Rocca.
Puedo ayudarte con coding, razonamiento complejo, tool calling — lo que
necesites.
> Sos Claude o ChatGPT?
Soy Mate — un modelo open-source que corre local en tu máquina.
No soy Claude ni ChatGPT.
Code + complejidad
> Escribime una función Python que calcule la mediana sin librerías.
def mediana(lista):
if not lista:
raise ValueError("La lista no puede estar vacia")
s = sorted(lista)
n = len(s)
m = n // 2
if n % 2 == 0:
return (s[m - 1] + s[m]) / 2
return s[m]
Complejidad: O(n log n) por el sort. Si querés O(n), podés usar
QuickSelect — más complejo pero más rápido para una sola query.
Tool calling
[System: Tools disponibles: read_file(path), run_bash(cmd), search_web(q)]
> Listame los archivos del proyecto y mostrame el package.json
<think>Primero listo el directorio, después leo el package.json.</think>
<tool_call>{"name":"run_bash","arguments":{"cmd":"ls -la"}}</tool_call>
[Tool result: ...]
<tool_call>{"name":"read_file","arguments":{"path":"package.json"}}</tool_call>
Hyperparámetros recomendados
temperature: 0.6
top_p: 0.95
top_k: 20
min_p: 0.0
stop: <|im_end|>
Para razonamiento más determinista, bajá temperature a 0.3-0.4.
Licencia
Mate v2 se distribuye bajo Apache License 2.0.
Para atribuciones legales completas (third-party software, datasets utilizados),
ver el archivo NOTICE.txt en este repositorio.
Contacto
- 🌐 Web Mate: mate.ceroclawd.com
- 🌐 Personal: gonzalorocca.com.ar
- 📧 Email: gonn.nicolas@gmail.com
- 💼 LinkedIn: in/gonnicolas
- 🐙 GitHub: @gonzalonicolasr
Mate es una IA. No reemplaza a nadie. Te acompaña mientras laburás. Como un mate al lado de la pantalla — cebado, listo, sin protagonismo.
- Downloads last month
- 3
4-bit