--- license: apache-2.0 language: - es - en library_name: gguf tags: - mate - code - tool-calling - reasoning - argentina - moe - quantized - q4_k_s pipeline_tag: text-generation --- # Mate v2 > Una AI que vive en tu máquina. Más rápida, más capaz, más Mate. > Por [Gonzalo Rocca](https://gonzalorocca.com.ar) — 2026 — San Luis, Argentina 🔗 **Web**: [mate.ceroclawd.com](https://mate.ceroclawd.com) 🔗 **Autor**: [gonzalorocca.com.ar](https://gonzalorocca.com.ar) --- ## Por qué v2 Mate v1 era un asistente decente para código y tool calling, pero tenía un techo. v2 levanta ese techo: arquitectura MoE más eficiente, contexto 32× más grande, razonamiento estilo Claude, y una identidad mucho más afinada. Yo arreglo bugs todos los días tirándole prompts a una IA. Necesitaba que Mate dejara de ser un experimento y empezara a ser una herramienta de uso diario, local, sin enviar mi código a la nube. Cata tiene 6 y arma mundos enteros en el living antes de cenar. Olivia tiene un mes y medio y casi no pesa. **Eso es lo principal.** Mate v2 lo armé en los ratos que sobran — entre noches, fines de semana, y lo que viene después de ellas. **Mate.** --- ## Qué hace v2 (vs v1) | Capacidad | v1 | v2 | |---|---|---| | Coding | 🟡 fine-tune | ✅ **top open-source local** | | Tool calling agentic | 🟡 básico | ✅ **multi-turn + MCP** | | Context default | 8K | **256K nativo · 1M con YaRN** | | Razonamiento `` | 🟡 | ✅ **Claude Opus distillation** | | Idiomas | en + es neutro | **en + es argentino voseo** | | Velocidad RTX 3090 | ~50 tok/s | **~33 tok/s @ Q4_K_S full GPU** (35B vs 27B) | | Activos por token | 4B | **3B (más eficiente)** | | Total params | 27B | **35B** | --- ## Specs técnicas | | | |---|---| | **Arquitectura** | MoE (Mixture of Experts) — 35B totales / 3B activos por token | | **Cuantización default** | GGUF Q4_K_S (4.59 BPW) | | **Tamaño en disco** | ~19.9 GB (Q4_K_S) | | **VRAM mínima** | 22 GB con 8K ctx · 24 GB con 130K ctx | | **Velocidad inference** | ~33 tok/s en RTX 3090 (full GPU, llama.cpp) | | **Context window** | 256K nativo · hasta 1M con YaRN scaling | | **Idiomas** | Español argentino + Inglés | | **Capacidades** | Code · Tool calling (OpenAI/MCP) · Reasoning · Agentic | | **Training method** | QLoRA 4-bit (r=32) + Unsloth | | **Training hardware** | NVIDIA H100 80GB (RunPod) | | **Training dataset** | ~6500 ejemplos curados | ### 🛠️ Tool calling + agentic + MCP - **OpenAI function-calling spec** — pasale tools en system prompt y llama correctamente - **MCP (Model Context Protocol)** — compatible - **Multi-turn agentic** — encadena tool results - **Razonamiento ``** — antes de invocar tools ### 🖥️ Compatible con todos los runtimes principales | Runtime | Caso de uso | |---|---| | [**Ollama**](https://ollama.com) | API REST + CLI · `ollama run mate-v2` | | [**llama.cpp**](https://github.com/ggerganov/llama.cpp) | Server `llama-server` (compatible OpenAI API) | | [**LM Studio**](https://lmstudio.ai) | GUI desktop drag & drop | | [**Jan**](https://jan.ai) | Cliente desktop con UI cómoda | | [**Cline (VSCode)**](https://github.com/cline/cline) | **Agente coder en tu IDE — recomendado** | | [**Open WebUI**](https://github.com/open-webui/open-webui) | Frontend web tipo ChatGPT, sobre Ollama | --- ## Archivos en este repo | Archivo | Tamaño | Para qué | |---|---|---| | `mate-v2-Q4_K_S.gguf` | 19.9 GB | Modelo cuantizado (default — recomendado) | | `Modelfile` | <1 KB | Template Ollama listo para usar | --- ## Cómo usarlo ### Con llama.cpp (server compatible OpenAI) ```bash # 1. Descargar GGUF hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf --local-dir ./mate-model # 2. Server llama-server -m mate-model/mate-v2-Q4_K_S.gguf \ --n-gpu-layers 999 \ -ot ".*=CUDA0" \ -c 8192 \ --host 127.0.0.1 \ --port 8080 ``` Después le pegás contra `http://127.0.0.1:8080/v1/chat/completions` con el formato OpenAI estándar. ### Con Ollama (recomendado) ```bash # 1. Descargar GGUF + Modelfile hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf Modelfile --local-dir ./mate-model # 2. Registrar y correr cd ./mate-model ollama create mate-v2 -f Modelfile ollama run mate-v2 ``` ### Con Cline (VSCode — agente coder, recomendado) 1. Instalar extension Cline en VSCode 2. Configurar: Provider = Ollama, Base URL = `http://localhost:11434`, Model = `mate-v2` 3. Cline maneja el loop agentic con tools (read_file, run_bash, etc.) --- ## Ejemplos ### Identidad + voseo ``` > Quien sos? Soy Mate, un modelo de lenguaje open-source creado por Gonzalo Rocca. Puedo ayudarte con coding, razonamiento complejo, tool calling — lo que necesites. > Sos Claude o ChatGPT? Soy Mate — un modelo open-source que corre local en tu máquina. No soy Claude ni ChatGPT. ``` ### Code + complejidad ``` > Escribime una función Python que calcule la mediana sin librerías. def mediana(lista): if not lista: raise ValueError("La lista no puede estar vacia") s = sorted(lista) n = len(s) m = n // 2 if n % 2 == 0: return (s[m - 1] + s[m]) / 2 return s[m] Complejidad: O(n log n) por el sort. Si querés O(n), podés usar QuickSelect — más complejo pero más rápido para una sola query. ``` ### Tool calling ``` [System: Tools disponibles: read_file(path), run_bash(cmd), search_web(q)] > Listame los archivos del proyecto y mostrame el package.json Primero listo el directorio, después leo el package.json. {"name":"run_bash","arguments":{"cmd":"ls -la"}} [Tool result: ...] {"name":"read_file","arguments":{"path":"package.json"}} ``` --- ## Hyperparámetros recomendados ``` temperature: 0.6 top_p: 0.95 top_k: 20 min_p: 0.0 stop: <|im_end|> ``` Para razonamiento más determinista, bajá temperature a 0.3-0.4. --- ## Licencia **Mate v2** se distribuye bajo **Apache License 2.0**. Para atribuciones legales completas (third-party software, datasets utilizados), ver el archivo [`NOTICE.txt`](./blob/main/NOTICE.txt) en este repositorio. --- ## Contacto [**Gonzalo Rocca**](https://gonzalorocca.com.ar) - 🌐 Web Mate: [mate.ceroclawd.com](https://mate.ceroclawd.com) - 🌐 Personal: [gonzalorocca.com.ar](https://gonzalorocca.com.ar) - 📧 Email: gonn.nicolas@gmail.com - 💼 LinkedIn: [in/gonnicolas](https://www.linkedin.com/in/gonnicolas) - 🐙 GitHub: [@gonzalonicolasr](https://github.com/gonzalonicolasr) --- *Mate es una IA. No reemplaza a nadie. Te acompaña mientras laburás. Como un mate al lado de la pantalla — cebado, listo, sin protagonismo.*