Text Generation
GGUF
Spanish
English
mate
code
tool-calling
reasoning
argentina
Mixture of Experts
quantized
q4_k_s
conversational
Instructions to use gonrocca/mate-v2 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use gonrocca/mate-v2 with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="gonrocca/mate-v2", filename="mate-v2-Q4_K_S.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- llama.cpp
How to use gonrocca/mate-v2 with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf gonrocca/mate-v2:Q4_K_S # Run inference directly in the terminal: llama-cli -hf gonrocca/mate-v2:Q4_K_S
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf gonrocca/mate-v2:Q4_K_S # Run inference directly in the terminal: llama-cli -hf gonrocca/mate-v2:Q4_K_S
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf gonrocca/mate-v2:Q4_K_S # Run inference directly in the terminal: ./llama-cli -hf gonrocca/mate-v2:Q4_K_S
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf gonrocca/mate-v2:Q4_K_S # Run inference directly in the terminal: ./build/bin/llama-cli -hf gonrocca/mate-v2:Q4_K_S
Use Docker
docker model run hf.co/gonrocca/mate-v2:Q4_K_S
- LM Studio
- Jan
- vLLM
How to use gonrocca/mate-v2 with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "gonrocca/mate-v2" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "gonrocca/mate-v2", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/gonrocca/mate-v2:Q4_K_S
- Ollama
How to use gonrocca/mate-v2 with Ollama:
ollama run hf.co/gonrocca/mate-v2:Q4_K_S
- Unsloth Studio new
How to use gonrocca/mate-v2 with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for gonrocca/mate-v2 to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for gonrocca/mate-v2 to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for gonrocca/mate-v2 to start chatting
- Pi new
How to use gonrocca/mate-v2 with Pi:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf gonrocca/mate-v2:Q4_K_S
Configure the model in Pi
# Install Pi: npm install -g @mariozechner/pi-coding-agent # Add to ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "gonrocca/mate-v2:Q4_K_S" } ] } } }Run Pi
# Start Pi in your project directory: pi
- Hermes Agent new
How to use gonrocca/mate-v2 with Hermes Agent:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf gonrocca/mate-v2:Q4_K_S
Configure Hermes
# Install Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # Point Hermes at the local server: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default gonrocca/mate-v2:Q4_K_S
Run Hermes
hermes
- Docker Model Runner
How to use gonrocca/mate-v2 with Docker Model Runner:
docker model run hf.co/gonrocca/mate-v2:Q4_K_S
- Lemonade
How to use gonrocca/mate-v2 with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull gonrocca/mate-v2:Q4_K_S
Run and chat with the model
lemonade run user.mate-v2-Q4_K_S
List all available models
lemonade list
| license: apache-2.0 | |
| language: | |
| - es | |
| - en | |
| library_name: gguf | |
| tags: | |
| - mate | |
| - code | |
| - tool-calling | |
| - reasoning | |
| - argentina | |
| - moe | |
| - quantized | |
| - q4_k_s | |
| pipeline_tag: text-generation | |
| # Mate v2 | |
| > Una AI que vive en tu máquina. Más rápida, más capaz, más Mate. | |
| > Por [Gonzalo Rocca](https://gonzalorocca.com.ar) — 2026 — San Luis, Argentina | |
| 🔗 **Web**: [mate.ceroclawd.com](https://mate.ceroclawd.com) | |
| 🔗 **Autor**: [gonzalorocca.com.ar](https://gonzalorocca.com.ar) | |
| --- | |
| ## Por qué v2 | |
| Mate v1 era un asistente decente para código y tool calling, pero tenía un techo. v2 levanta ese techo: arquitectura MoE más eficiente, contexto 32× más grande, razonamiento estilo Claude, y una identidad mucho más afinada. | |
| Yo arreglo bugs todos los días tirándole prompts a una IA. Necesitaba que Mate dejara de ser un experimento y empezara a ser una herramienta de uso diario, local, sin enviar mi código a la nube. | |
| Cata tiene 6 y arma mundos enteros en el living antes de cenar. Olivia tiene un mes y medio y casi no pesa. **Eso es lo principal.** Mate v2 lo armé en los ratos que sobran — entre noches, fines de semana, y lo que viene después de ellas. | |
| **Mate.** | |
| --- | |
| ## Qué hace v2 (vs v1) | |
| | Capacidad | v1 | v2 | | |
| |---|---|---| | |
| | Coding | 🟡 fine-tune | ✅ **top open-source local** | | |
| | Tool calling agentic | 🟡 básico | ✅ **multi-turn + MCP** | | |
| | Context default | 8K | **256K nativo · 1M con YaRN** | | |
| | Razonamiento `<think>` | 🟡 | ✅ **Claude Opus distillation** | | |
| | Idiomas | en + es neutro | **en + es argentino voseo** | | |
| | Velocidad RTX 3090 | ~50 tok/s | **~33 tok/s @ Q4_K_S full GPU** (35B vs 27B) | | |
| | Activos por token | 4B | **3B (más eficiente)** | | |
| | Total params | 27B | **35B** | | |
| --- | |
| ## Specs técnicas | |
| | | | | |
| |---|---| | |
| | **Arquitectura** | MoE (Mixture of Experts) — 35B totales / 3B activos por token | | |
| | **Cuantización default** | GGUF Q4_K_S (4.59 BPW) | | |
| | **Tamaño en disco** | ~19.9 GB (Q4_K_S) | | |
| | **VRAM mínima** | 22 GB con 8K ctx · 24 GB con 130K ctx | | |
| | **Velocidad inference** | ~33 tok/s en RTX 3090 (full GPU, llama.cpp) | | |
| | **Context window** | 256K nativo · hasta 1M con YaRN scaling | | |
| | **Idiomas** | Español argentino + Inglés | | |
| | **Capacidades** | Code · Tool calling (OpenAI/MCP) · Reasoning · Agentic | | |
| | **Training method** | QLoRA 4-bit (r=32) + Unsloth | | |
| | **Training hardware** | NVIDIA H100 80GB (RunPod) | | |
| | **Training dataset** | ~6500 ejemplos curados | | |
| ### 🛠️ Tool calling + agentic + MCP | |
| - **OpenAI function-calling spec** — pasale tools en system prompt y llama correctamente | |
| - **MCP (Model Context Protocol)** — compatible | |
| - **Multi-turn agentic** — encadena tool results | |
| - **Razonamiento `<think>`** — antes de invocar tools | |
| ### 🖥️ Compatible con todos los runtimes principales | |
| | Runtime | Caso de uso | | |
| |---|---| | |
| | [**Ollama**](https://ollama.com) | API REST + CLI · `ollama run mate-v2` | | |
| | [**llama.cpp**](https://github.com/ggerganov/llama.cpp) | Server `llama-server` (compatible OpenAI API) | | |
| | [**LM Studio**](https://lmstudio.ai) | GUI desktop drag & drop | | |
| | [**Jan**](https://jan.ai) | Cliente desktop con UI cómoda | | |
| | [**Cline (VSCode)**](https://github.com/cline/cline) | **Agente coder en tu IDE — recomendado** | | |
| | [**Open WebUI**](https://github.com/open-webui/open-webui) | Frontend web tipo ChatGPT, sobre Ollama | | |
| --- | |
| ## Archivos en este repo | |
| | Archivo | Tamaño | Para qué | | |
| |---|---|---| | |
| | `mate-v2-Q4_K_S.gguf` | 19.9 GB | Modelo cuantizado (default — recomendado) | | |
| | `Modelfile` | <1 KB | Template Ollama listo para usar | | |
| --- | |
| ## Cómo usarlo | |
| ### Con llama.cpp (server compatible OpenAI) | |
| ```bash | |
| # 1. Descargar GGUF | |
| hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf --local-dir ./mate-model | |
| # 2. Server | |
| llama-server -m mate-model/mate-v2-Q4_K_S.gguf \ | |
| --n-gpu-layers 999 \ | |
| -ot ".*=CUDA0" \ | |
| -c 8192 \ | |
| --host 127.0.0.1 \ | |
| --port 8080 | |
| ``` | |
| Después le pegás contra `http://127.0.0.1:8080/v1/chat/completions` con el formato OpenAI estándar. | |
| ### Con Ollama (recomendado) | |
| ```bash | |
| # 1. Descargar GGUF + Modelfile | |
| hf download gonrocca/mate-v2 mate-v2-Q4_K_S.gguf Modelfile --local-dir ./mate-model | |
| # 2. Registrar y correr | |
| cd ./mate-model | |
| ollama create mate-v2 -f Modelfile | |
| ollama run mate-v2 | |
| ``` | |
| ### Con Cline (VSCode — agente coder, recomendado) | |
| 1. Instalar extension Cline en VSCode | |
| 2. Configurar: Provider = Ollama, Base URL = `http://localhost:11434`, Model = `mate-v2` | |
| 3. Cline maneja el loop agentic con tools (read_file, run_bash, etc.) | |
| --- | |
| ## Ejemplos | |
| ### Identidad + voseo | |
| ``` | |
| > Quien sos? | |
| Soy Mate, un modelo de lenguaje open-source creado por Gonzalo Rocca. | |
| Puedo ayudarte con coding, razonamiento complejo, tool calling — lo que | |
| necesites. | |
| > Sos Claude o ChatGPT? | |
| Soy Mate — un modelo open-source que corre local en tu máquina. | |
| No soy Claude ni ChatGPT. | |
| ``` | |
| ### Code + complejidad | |
| ``` | |
| > Escribime una función Python que calcule la mediana sin librerías. | |
| def mediana(lista): | |
| if not lista: | |
| raise ValueError("La lista no puede estar vacia") | |
| s = sorted(lista) | |
| n = len(s) | |
| m = n // 2 | |
| if n % 2 == 0: | |
| return (s[m - 1] + s[m]) / 2 | |
| return s[m] | |
| Complejidad: O(n log n) por el sort. Si querés O(n), podés usar | |
| QuickSelect — más complejo pero más rápido para una sola query. | |
| ``` | |
| ### Tool calling | |
| ``` | |
| [System: Tools disponibles: read_file(path), run_bash(cmd), search_web(q)] | |
| > Listame los archivos del proyecto y mostrame el package.json | |
| <think>Primero listo el directorio, después leo el package.json.</think> | |
| <tool_call>{"name":"run_bash","arguments":{"cmd":"ls -la"}}</tool_call> | |
| [Tool result: ...] | |
| <tool_call>{"name":"read_file","arguments":{"path":"package.json"}}</tool_call> | |
| ``` | |
| --- | |
| ## Hyperparámetros recomendados | |
| ``` | |
| temperature: 0.6 | |
| top_p: 0.95 | |
| top_k: 20 | |
| min_p: 0.0 | |
| stop: <|im_end|> | |
| ``` | |
| Para razonamiento más determinista, bajá temperature a 0.3-0.4. | |
| --- | |
| ## Licencia | |
| **Mate v2** se distribuye bajo **Apache License 2.0**. | |
| Para atribuciones legales completas (third-party software, datasets utilizados), | |
| ver el archivo [`NOTICE.txt`](./blob/main/NOTICE.txt) en este repositorio. | |
| --- | |
| ## Contacto | |
| [**Gonzalo Rocca**](https://gonzalorocca.com.ar) | |
| - 🌐 Web Mate: [mate.ceroclawd.com](https://mate.ceroclawd.com) | |
| - 🌐 Personal: [gonzalorocca.com.ar](https://gonzalorocca.com.ar) | |
| - 📧 Email: gonn.nicolas@gmail.com | |
| - 💼 LinkedIn: [in/gonnicolas](https://www.linkedin.com/in/gonnicolas) | |
| - 🐙 GitHub: [@gonzalonicolasr](https://github.com/gonzalonicolasr) | |
| --- | |
| *Mate es una IA. No reemplaza a nadie. Te acompaña mientras laburás. | |
| Como un mate al lado de la pantalla — cebado, listo, sin protagonismo.* | |