--- title: Summarization Spanish Text emoji: 👀 colorFrom: yellow colorTo: purple sdk: gradio sdk_version: 6.5.1 hf_oauth: true app_file: app.py pinned: false license: apache-2.0 short_description: AI agent to summarize Spanish texts --- Model: Este modelo está basado en `josmunpen/mt5-small-spanish-summarization` y ha sido ajustado con un subconjunto del dataset `somosnlp/NoticIA-it` para generar resúmenes en español. El objetivo del modelo es tomar un texto largo de entrada y producir un resumen breve en español, orientado a extraer la idea principal del contenido. Uses: El modelo está pensado para demostraciones educativas y prototipos de resumen automático de textos en español, especialmente noticias o artículos largos. dataset: Durante el fine tuning se utilizó un subconjunto de 256 ejemplos del conjunto de entrenamiento. El dataset se dividió en entrenamiento, validación y test para evaluar el comportamiento del modelo en datos no vistos. Métricas obtenidas en test: Resultados obtenidos tras el ajuste fino y la evaluación sobre el conjunto de test: - ROUGE-1 aprox.: 0.6236 - ROUGE-2 aprox.: 0.5829 - ROUGE-L aprox.: 0.6236 - Test loss: 4.0315 - Test perplexity: 56.3473 Limitations: - El entrenamiento se ha realizado con un subconjunto pequeño, por lo que el rendimiento no es representativo de una versión final optimizada. - La métrica ROUGE se calcula con una implementación aproximada basada en solapamiento de tokens, no con la librería oficial de ROUGE. - El modelo puede generar resúmenes demasiado genéricos o con pérdida de detalle en textos largos. - El comportamiento dependerá mucho de la calidad y longitud del texto de entrada. - No se ha incorporado un proceso de validación exhaustivo ni una búsqueda de hiperparámetros.