AntonioCGF's picture
Update README.md
bbf6fef verified

A newer version of the Gradio SDK is available: 6.16.0

Upgrade
metadata
title: Summarization Spanish Text
emoji: 👀
colorFrom: yellow
colorTo: purple
sdk: gradio
sdk_version: 6.5.1
hf_oauth: true
app_file: app.py
pinned: false
license: apache-2.0
short_description: AI agent to summarize Spanish texts

Model: Este modelo está basado en josmunpen/mt5-small-spanish-summarization y ha sido ajustado con un subconjunto del dataset somosnlp/NoticIA-it para generar resúmenes en español. El objetivo del modelo es tomar un texto largo de entrada y producir un resumen breve en español, orientado a extraer la idea principal del contenido.

Uses: El modelo está pensado para demostraciones educativas y prototipos de resumen automático de textos en español, especialmente noticias o artículos largos.

dataset: Durante el fine tuning se utilizó un subconjunto de 256 ejemplos del conjunto de entrenamiento. El dataset se dividió en entrenamiento, validación y test para evaluar el comportamiento del modelo en datos no vistos.

Métricas obtenidas en test: Resultados obtenidos tras el ajuste fino y la evaluación sobre el conjunto de test:

  • ROUGE-1 aprox.: 0.6236
  • ROUGE-2 aprox.: 0.5829
  • ROUGE-L aprox.: 0.6236
  • Test loss: 4.0315
  • Test perplexity: 56.3473

Limitations:

  • El entrenamiento se ha realizado con un subconjunto pequeño, por lo que el rendimiento no es representativo de una versión final optimizada.
  • La métrica ROUGE se calcula con una implementación aproximada basada en solapamiento de tokens, no con la librería oficial de ROUGE.
  • El modelo puede generar resúmenes demasiado genéricos o con pérdida de detalle en textos largos.
  • El comportamiento dependerá mucho de la calidad y longitud del texto de entrada.
  • No se ha incorporado un proceso de validación exhaustivo ni una búsqueda de hiperparámetros.