Spaces:
No application file
No application file
| title: Capibara LLM | |
| colorFrom: green | |
| colorTo: yellow | |
| sdk: docker | |
| app_file: app.py | |
| pinned: false | |
| license: apache-2.0 | |
| short_description: Open Source LLMs & Datasets for Guarani Jopara (Paraguay). | |
| language: | |
| - gn | |
| - es | |
| tags: | |
| - nlp | |
| - llm | |
| - low-resource-languages | |
| - paraguay | |
| - jopara | |
| - capibara | |
| # 馃惞 Capibara-LLM | |
| > **Inteligencia Artificial con identidad paraguaya.** | |
| Bienvenido a **Capibara-LLM**, una iniciativa Open Source dedicada al desarrollo de Modelos de Lenguaje (LLMs) y Datasets para el idioma **Guaran铆** y su variante **Jopara**. | |
| Al igual que el Capibara, buscamos ser una comunidad social, tranquila y amigable con el ecosistema open-source. | |
| [](https://github.com/Capibara-LLM) | |
| [](https://huggingface.co/Capibara-LLM) | |
| --- | |
| ## 馃幆 Nuestra Misi贸n | |
| El Guaran铆 es un idioma "low-resource" en el mundo de la IA. En **Capibara-LLM** trabajamos para cambiar eso mediante: | |
| 1. **Recopilaci贸n de Datos:** Creaci贸n de los datasets m谩s extensos de Guarani-Jopara. | |
| 2. **Fine-Tuning:** Adaptaci贸n de modelos Gemma, Llama, Qwen y Mistral para que "hablen" como nosotros. | |
| 3. **Cultura:** Preservar la riqueza lingu铆stica de Paraguay en la era digital. | |
| --- | |
| ## 馃殌 Modelos (The Capibara Zoo) | |
| Modelos ajustados para traducci贸n, generaci贸n de texto y comprensi贸n cultural. | |
| | Modelo | Base | Descripci贸n | Link | | |
| | :--- | :--- | :--- | :--- | | |
| | **Capibara-LLM/gemma-2-9b-it-SimPO-Jopara** | Gemma 2 9B it | Nuestro modelo insignia. Entiende y genera Guarani-Jopara. | [Ver Modelo](https://huggingface.co/Capibara-LLM/gemma-2-9b-it-SimPO-Jopara) | | |
| --- | |
| ## 馃摎 Datasets | |
| La comida de nuestros Capibaras (Datos): | |
| * 馃搨 **[Capibara-LLM/dataset-guarani-jopara-v01]**: Dataset de instrucciones estilo Alpaca traducido al Guarani-Jopara. | |
| * 馃搨 **[Capibara-LLM/gn-multi-affective-alpaca]**: Texto masivo limpio de fuentes web y literatura paraguaya. | |
| --- | |
| ## 馃 脷nete a la Manada | |
| Estamos buscando colaboradores para GitHub y Hugging Face. | |
| * **Desarrolladores:** Ayuda a limpiar datos en [GitHub](https://github.com/Capibara-LLM). | |
| * **Hablantes Nativos:** Ayuda a validar las respuestas de nuestros modelos. | |
| > *Hecho con 馃 y 鉂わ笍 desde Paraguay.* | |