| --- |
| title: Summarization Spanish Text |
| emoji: 👀 |
| colorFrom: yellow |
| colorTo: purple |
| sdk: gradio |
| sdk_version: 6.5.1 |
| hf_oauth: true |
| app_file: app.py |
| pinned: false |
| license: apache-2.0 |
| short_description: AI agent to summarize Spanish texts |
| --- |
| |
|
|
| Model: Este modelo está basado en `josmunpen/mt5-small-spanish-summarization` y ha sido ajustado con un subconjunto del dataset `somosnlp/NoticIA-it` para generar resúmenes en español. |
| El objetivo del modelo es tomar un texto largo de entrada y producir un resumen breve en español, orientado a extraer la idea principal del contenido. |
|
|
| Uses: El modelo está pensado para demostraciones educativas y prototipos de resumen automático de textos en español, especialmente noticias o artículos largos. |
|
|
| dataset: Durante el fine tuning se utilizó un subconjunto de 256 ejemplos del conjunto de entrenamiento. El dataset se dividió en entrenamiento, validación y test para evaluar el comportamiento del modelo en datos no vistos. |
|
|
| Métricas obtenidas en test: Resultados obtenidos tras el ajuste fino y la evaluación sobre el conjunto de test: |
|
|
| - ROUGE-1 aprox.: 0.6236 |
| - ROUGE-2 aprox.: 0.5829 |
| - ROUGE-L aprox.: 0.6236 |
| - Test loss: 4.0315 |
| - Test perplexity: 56.3473 |
|
|
| Limitations: |
|
|
| - El entrenamiento se ha realizado con un subconjunto pequeño, por lo que el rendimiento no es representativo de una versión final optimizada. |
| - La métrica ROUGE se calcula con una implementación aproximada basada en solapamiento de tokens, no con la librería oficial de ROUGE. |
| - El modelo puede generar resúmenes demasiado genéricos o con pérdida de detalle en textos largos. |
| - El comportamiento dependerá mucho de la calidad y longitud del texto de entrada. |
| - No se ha incorporado un proceso de validación exhaustivo ni una búsqueda de hiperparámetros. |
|
|
|
|
|
|
|
|