README / README.md
rubuntu's picture
Update README.md
7ab5242 verified
---
title: Capibara LLM
colorFrom: green
colorTo: yellow
sdk: docker
app_file: app.py
pinned: false
license: apache-2.0
short_description: Open Source LLMs & Datasets for Guarani Jopara (Paraguay).
language:
- gn
- es
tags:
- nlp
- llm
- low-resource-languages
- paraguay
- jopara
- capibara
---
# 馃惞 Capibara-LLM
> **Inteligencia Artificial con identidad paraguaya.**
Bienvenido a **Capibara-LLM**, una iniciativa Open Source dedicada al desarrollo de Modelos de Lenguaje (LLMs) y Datasets para el idioma **Guaran铆** y su variante **Jopara**.
Al igual que el Capibara, buscamos ser una comunidad social, tranquila y amigable con el ecosistema open-source.
[![GitHub](https://img.shields.io/badge/GitHub-Capibara--LLM-black?logo=github)](https://github.com/Capibara-LLM)
[![Hugging Face](https://img.shields.io/badge/Hugging%20Face-Organization-yellow?logo=huggingface)](https://huggingface.co/Capibara-LLM)
---
## 馃幆 Nuestra Misi贸n
El Guaran铆 es un idioma "low-resource" en el mundo de la IA. En **Capibara-LLM** trabajamos para cambiar eso mediante:
1. **Recopilaci贸n de Datos:** Creaci贸n de los datasets m谩s extensos de Guarani-Jopara.
2. **Fine-Tuning:** Adaptaci贸n de modelos Gemma, Llama, Qwen y Mistral para que "hablen" como nosotros.
3. **Cultura:** Preservar la riqueza lingu铆stica de Paraguay en la era digital.
---
## 馃殌 Modelos (The Capibara Zoo)
Modelos ajustados para traducci贸n, generaci贸n de texto y comprensi贸n cultural.
| Modelo | Base | Descripci贸n | Link |
| :--- | :--- | :--- | :--- |
| **Capibara-LLM/gemma-2-9b-it-SimPO-Jopara** | Gemma 2 9B it | Nuestro modelo insignia. Entiende y genera Guarani-Jopara. | [Ver Modelo](https://huggingface.co/Capibara-LLM/gemma-2-9b-it-SimPO-Jopara) |
---
## 馃摎 Datasets
La comida de nuestros Capibaras (Datos):
* 馃搨 **[Capibara-LLM/dataset-guarani-jopara-v01]**: Dataset de instrucciones estilo Alpaca traducido al Guarani-Jopara.
* 馃搨 **[Capibara-LLM/gn-multi-affective-alpaca]**: Texto masivo limpio de fuentes web y literatura paraguaya.
---
## 馃 脷nete a la Manada
Estamos buscando colaboradores para GitHub y Hugging Face.
* **Desarrolladores:** Ayuda a limpiar datos en [GitHub](https://github.com/Capibara-LLM).
* **Hablantes Nativos:** Ayuda a validar las respuestas de nuestros modelos.
> *Hecho con 馃 y 鉂わ笍 desde Paraguay.*