Spaces:

AntonioCGF
/

Summarization_Spanish_Text

Sleeping

App Files Files Community

AntonioCGF commited on 9 days ago

Commit

dd4ba92

verified ·

1 Parent(s): 9676fce

Upload 5 files

Browse files

Files changed (5) hide show

.gitattributes +4 -35
Proyecto_Hugging_Face.ipynb +1133 -0
Proyecto_Hugging_Face.py +258 -0
README.md +34 -17
requirements.txt +10 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,4 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text

Proyecto_Hugging_Face.ipynb ADDED Viewed

	@@ -0,0 +1,1133 @@

+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "bMYkkVla0zjn"
+      },
+      "source": [
+        "# Proyecto: Fine-Tuning y Despliegue de un Modelo Transformer\n",
+        "\n",
+        "**Instrucciones Generales:**\n",
+        "En este proyecto deberás seleccionar un problema de negocio o investigación que involucre el procesamiento de lenguaje natural (NLP). Algunos ejemplos incluyen: clasificación de reviews de e-commerce, detección de spam, análisis de sentimientos, o resumen de noticias financieras.\n",
+        "\n",
+        "**Entregables esperados:**\n",
+        "1. **Dataset:** Selección y carga de un dataset (propio o de Hugging Face) distinto a los vistos en clase.\n",
+        "    - Tened en cuenta la complejidad del dataset y la tokenización.\n",
+        "    - También recomiendo utilizar un subset para aligerar el posterior entrenamiento. No buscamos maximizar resultados, sólo demostrar lo aprendido.\n",
+        "2. **Entrenamiento:** Proceso de finetuning de un modelo:\n",
+        "   - Elección de un modelo.\n",
+        "   - Fine-tuning de un modelo Transformer sobre los datos.\n",
+        "   - Reporte de métricas de evaluación en el conjunto de test.\n",
+        "3. **Despliegue (Model y Space):** El modelo final debe estar subido al Hub de Hugging Face y debe crearse un \"Space\" (demo en Gradio) funcional donde se pueda probar el modelo introduciendo texto en vivo*.\n",
+        "4. **Model Card:** El repositorio del modelo en Hugging Face debe contener un `README.md` explicando qué hace el modelo, sus limitaciones y las métricas obtenidas.\n",
+        "\n",
+        "\\* Si tenéis problemas con el finetuning, el modelo desplegado puede ser un modelo ya existente.\n",
+        "\n",
+        "> **Nota sobre la organización:**\n",
+        ">\n",
+        ">Este notebook está diseñado para que lo utilices como plantilla. **En principio, todo el ciclo de vida del proyecto (carga, entrenamiento, evaluación y push al Hub) se puede realizar dentro de este mismo notebook.** Sin embargo, siéntete libre de dividirlo en varios notebooks separados (ej. uno para entrenamiento y otro para el despliegue) si lo consideras más organizado."
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "El código del proyecto, y una demo, puede encontrarse en https://huggingface.co/spaces/antcaesar/resuemenes_hugginface_TECP"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "SWa-5d910tPC"
+      },
+      "outputs": [],
+      "source": [
+        "import math\n",
+        "import numpy as np\n",
+        "import pandas as pd\n",
+        "import torch\n",
+        "from datasets import Dataset\n",
+        "from torch.utils.data import DataLoader\n",
+        "from sklearn.model_selection import train_test_split"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/html": [
+              "<div>\n",
+              "<style scoped>\n",
+              "    .dataframe tbody tr th:only-of-type {\n",
+              "        vertical-align: middle;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe tbody tr th {\n",
+              "        vertical-align: top;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe thead th {\n",
+              "        text-align: right;\n",
+              "    }\n",
+              "</style>\n",
+              "<table border=\"1\" class=\"dataframe\">\n",
+              "  <thead>\n",
+              "    <tr style=\"text-align: right;\">\n",
+              "      <th></th>\n",
+              "      <th>prompt</th>\n",
+              "      <th>solution0</th>\n",
+              "      <th>solution1</th>\n",
+              "      <th>label</th>\n",
+              "      <th>language</th>\n",
+              "      <th>eng_translated0</th>\n",
+              "      <th>eng_translated1</th>\n",
+              "      <th>approx_cultural_score</th>\n",
+              "      <th>llm_used</th>\n",
+              "      <th>example_id</th>\n",
+              "      <th>supplement</th>\n",
+              "    </tr>\n",
+              "  </thead>\n",
+              "  <tbody>\n",
+              "    <tr>\n",
+              "      <th>0</th>\n",
+              "      <td>Para ver la iglesia del pantano de Sau complet...</td>\n",
+              "      <td>tienes que esperar un período sin niebla.</td>\n",
+              "      <td>tienes que esperar un período de sequía.</td>\n",
+              "      <td>1</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>To see the church at the Sau swamp in its enti...</td>\n",
+              "      <td>To see the church at the Sau swamp in its enti...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0042_ex000035_spa_latn_spai_0_v1</td>\n",
+              "      <td>{\"topic\": \"place\", \"cultural_type\": \"cultural ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>1</th>\n",
+              "      <td>En la coca de pimiento y tomate</td>\n",
+              "      <td>se le añaden piñones y atún.</td>\n",
+              "      <td>se le añaden piñones y butifarra.</td>\n",
+              "      <td>0</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>In the pepper and tomato coca pastry, pine nut...</td>\n",
+              "      <td>In the pepper and tomato coca pastry, pine nut...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0042_ex000070_spa_latn_spai_0_v1</td>\n",
+              "      <td>{\"topic\": \"food\", \"cultural_type\": \"cultural C...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>2</th>\n",
+              "      <td>¿Cómo se sirven los calçots?</td>\n",
+              "      <td>En un restaurante te pondrán una teja con unos...</td>\n",
+              "      <td>En un restaurante te pondrán una teja con unos...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>How are calçots served? In a restaurant, you w...</td>\n",
+              "      <td>How are calçots served? In a restaurant, you w...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0042_ex000021_spa_latn_spai_0_v1</td>\n",
+              "      <td>{\"topic\": \"food\", \"cultural_type\": \"cultural C...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>3</th>\n",
+              "      <td>Estás haciendo un viaje desde Madrid a tu pueb...</td>\n",
+              "      <td>Utilizas el dibujo profundo, ya que evacua mej...</td>\n",
+              "      <td>Utilizas el dibujo liso, ya que evacua mejor e...</td>\n",
+              "      <td>0</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>You are taking a trip from Madrid to your town...</td>\n",
+              "      <td>You are taking a trip from Madrid to your town...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0126_ex000024_spa_latn_spai_1_v1</td>\n",
+              "      <td>{\"uncorrected_eng_translated0\": \"You are takin...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>4</th>\n",
+              "      <td>Has abierto un chorizo curado y te sobra la mi...</td>\n",
+              "      <td>Envuélvelo en papel y guárdalo en la nevera en...</td>\n",
+              "      <td>Envuélvelo en film y guárdalo en la nevera en ...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>You have opened a cured chorizo and have half ...</td>\n",
+              "      <td>You have opened a cured chorizo and have half ...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0126_ex000010_spa_latn_spai_1_v1</td>\n",
+              "      <td>{\"uncorrected_eng_translated0\": \"You have open...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>...</th>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>95</th>\n",
+              "      <td>Voy a a cortar jamón serrano para un aperitivo...</td>\n",
+              "      <td>Usaré cuchillo de sierra corto, con cortes cor...</td>\n",
+              "      <td>Usaré un cuchillo jamonero bien afilado, con c...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>I am going to slice serrano ham for an appetiz...</td>\n",
+              "      <td>I am going to slice serrano ham for an appetiz...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0126_ex000039_spa_latn_spai_1_v1</td>\n",
+              "      <td>{\"uncorrected_eng_translated0\": \"I am going to...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>96</th>\n",
+              "      <td>¿Qué les pasa a las figuras de cartón y madera...</td>\n",
+              "      <td>Se endurecen con el fuego.</td>\n",
+              "      <td>Se queman con el fuego.</td>\n",
+              "      <td>1</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>What happens to the cardboard and wood figures...</td>\n",
+              "      <td>What happens to the cardboard and wood figures...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0134_ex000019_spa_latn_spai_2_v1</td>\n",
+              "      <td>{\"uncorrected_eng_translated0\": \"What happens ...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>97</th>\n",
+              "      <td>Para hacer una figura decorativa, mezclamos el...</td>\n",
+              "      <td>Moldeamos la figura y esperamos unas horas par...</td>\n",
+              "      <td>Moldeamos la figura y esperamos unas horas par...</td>\n",
+              "      <td>0</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>To make a decorative figure, we mix gypsum pla...</td>\n",
+              "      <td>To make a decorative figure, we mix gypsum pla...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0134_ex000063_spa_latn_spai_2_v1</td>\n",
+              "      <td>{\"uncorrected_eng_translated0\": \"To make a dec...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>98</th>\n",
+              "      <td>Cómo hacer ratafía en casa.</td>\n",
+              "      <td>La ratafía es un licor de hierbas con base de ...</td>\n",
+              "      <td>La ratafía es un licor de hierbas con base de ...</td>\n",
+              "      <td>0</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>How to make ratafia at home. Ratafia is a herb...</td>\n",
+              "      <td>How to make ratafia at home. Ratafia is a herb...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0042_ex000037_spa_latn_spai_0_v1</td>\n",
+              "      <td>{\"topic\": \"food\", \"cultural_type\": \"cultural C...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>99</th>\n",
+              "      <td>Haces gazpacho andaluz en verano para la comid...</td>\n",
+              "      <td>Deja el gazpacho en nevera antes de servir.</td>\n",
+              "      <td>Deja el gazpacho fuera de nevera antes de servir.</td>\n",
+              "      <td>0</td>\n",
+              "      <td>spa_latn_spai</td>\n",
+              "      <td>You are making Andalusian gazpacho in the summ...</td>\n",
+              "      <td>You are making Andalusian gazpacho in the summ...</td>\n",
+              "      <td>1</td>\n",
+              "      <td>0</td>\n",
+              "      <td>group0126_ex000037_spa_latn_spai_1_v1</td>\n",
+              "      <td>{\"uncorrected_eng_translated0\": \"You make gazp...</td>\n",
+              "    </tr>\n",
+              "  </tbody>\n",
+              "</table>\n",
+              "<p>100 rows × 11 columns</p>\n",
+              "</div>"
+            ],
+            "text/plain": [
+              "                                               prompt  \\\n",
+              "0   Para ver la iglesia del pantano de Sau complet...   \n",
+              "1                     En la coca de pimiento y tomate   \n",
+              "2                        ¿Cómo se sirven los calçots?   \n",
+              "3   Estás haciendo un viaje desde Madrid a tu pueb...   \n",
+              "4   Has abierto un chorizo curado y te sobra la mi...   \n",
+              "..                                                ...   \n",
+              "95  Voy a a cortar jamón serrano para un aperitivo...   \n",
+              "96  ¿Qué les pasa a las figuras de cartón y madera...   \n",
+              "97  Para hacer una figura decorativa, mezclamos el...   \n",
+              "98                        Cómo hacer ratafía en casa.   \n",
+              "99  Haces gazpacho andaluz en verano para la comid...   \n",
+              "\n",
+              "                                            solution0  \\\n",
+              "0           tienes que esperar un período sin niebla.   \n",
+              "1                        se le añaden piñones y atún.   \n",
+              "2   En un restaurante te pondrán una teja con unos...   \n",
+              "3   Utilizas el dibujo profundo, ya que evacua mej...   \n",
+              "4   Envuélvelo en papel y guárdalo en la nevera en...   \n",
+              "..                                                ...   \n",
+              "95  Usaré cuchillo de sierra corto, con cortes cor...   \n",
+              "96                         Se endurecen con el fuego.   \n",
+              "97  Moldeamos la figura y esperamos unas horas par...   \n",
+              "98  La ratafía es un licor de hierbas con base de ...   \n",
+              "99        Deja el gazpacho en nevera antes de servir.   \n",
+              "\n",
+              "                                            solution1  label       language  \\\n",
+              "0            tienes que esperar un período de sequía.      1  spa_latn_spai   \n",
+              "1                   se le añaden piñones y butifarra.      0  spa_latn_spai   \n",
+              "2   En un restaurante te pondrán una teja con unos...      1  spa_latn_spai   \n",
+              "3   Utilizas el dibujo liso, ya que evacua mejor e...      0  spa_latn_spai   \n",
+              "4   Envuélvelo en film y guárdalo en la nevera en ...      1  spa_latn_spai   \n",
+              "..                                                ...    ...            ...   \n",
+              "95  Usaré un cuchillo jamonero bien afilado, con c...      1  spa_latn_spai   \n",
+              "96                            Se queman con el fuego.      1  spa_latn_spai   \n",
+              "97  Moldeamos la figura y esperamos unas horas par...      0  spa_latn_spai   \n",
+              "98  La ratafía es un licor de hierbas con base de ...      0  spa_latn_spai   \n",
+              "99  Deja el gazpacho fuera de nevera antes de servir.      0  spa_latn_spai   \n",
+              "\n",
+              "                                      eng_translated0  \\\n",
+              "0   To see the church at the Sau swamp in its enti...   \n",
+              "1   In the pepper and tomato coca pastry, pine nut...   \n",
+              "2   How are calçots served? In a restaurant, you w...   \n",
+              "3   You are taking a trip from Madrid to your town...   \n",
+              "4   You have opened a cured chorizo and have half ...   \n",
+              "..                                                ...   \n",
+              "95  I am going to slice serrano ham for an appetiz...   \n",
+              "96  What happens to the cardboard and wood figures...   \n",
+              "97  To make a decorative figure, we mix gypsum pla...   \n",
+              "98  How to make ratafia at home. Ratafia is a herb...   \n",
+              "99  You are making Andalusian gazpacho in the summ...   \n",
+              "\n",
+              "                                      eng_translated1  approx_cultural_score  \\\n",
+              "0   To see the church at the Sau swamp in its enti...                      1   \n",
+              "1   In the pepper and tomato coca pastry, pine nut...                      1   \n",
+              "2   How are calçots served? In a restaurant, you w...                      1   \n",
+              "3   You are taking a trip from Madrid to your town...                      1   \n",
+              "4   You have opened a cured chorizo and have half ...                      1   \n",
+              "..                                                ...                    ...   \n",
+              "95  I am going to slice serrano ham for an appetiz...                      1   \n",
+              "96  What happens to the cardboard and wood figures...                      1   \n",
+              "97  To make a decorative figure, we mix gypsum pla...                      1   \n",
+              "98  How to make ratafia at home. Ratafia is a herb...                      1   \n",
+              "99  You are making Andalusian gazpacho in the summ...                      1   \n",
+              "\n",
+              "    llm_used                             example_id  \\\n",
+              "0          0  group0042_ex000035_spa_latn_spai_0_v1   \n",
+              "1          0  group0042_ex000070_spa_latn_spai_0_v1   \n",
+              "2          0  group0042_ex000021_spa_latn_spai_0_v1   \n",
+              "3          0  group0126_ex000024_spa_latn_spai_1_v1   \n",
+              "4          0  group0126_ex000010_spa_latn_spai_1_v1   \n",
+              "..       ...                                    ...   \n",
+              "95         0  group0126_ex000039_spa_latn_spai_1_v1   \n",
+              "96         0  group0134_ex000019_spa_latn_spai_2_v1   \n",
+              "97         0  group0134_ex000063_spa_latn_spai_2_v1   \n",
+              "98         0  group0042_ex000037_spa_latn_spai_0_v1   \n",
+              "99         0  group0126_ex000037_spa_latn_spai_1_v1   \n",
+              "\n",
+              "                                           supplement  \n",
+              "0   {\"topic\": \"place\", \"cultural_type\": \"cultural ...  \n",
+              "1   {\"topic\": \"food\", \"cultural_type\": \"cultural C...  \n",
+              "2   {\"topic\": \"food\", \"cultural_type\": \"cultural C...  \n",
+              "3   {\"uncorrected_eng_translated0\": \"You are takin...  \n",
+              "4   {\"uncorrected_eng_translated0\": \"You have open...  \n",
+              "..                                                ...  \n",
+              "95  {\"uncorrected_eng_translated0\": \"I am going to...  \n",
+              "96  {\"uncorrected_eng_translated0\": \"What happens ...  \n",
+              "97  {\"uncorrected_eng_translated0\": \"To make a dec...  \n",
+              "98  {\"topic\": \"food\", \"cultural_type\": \"cultural C...  \n",
+              "99  {\"uncorrected_eng_translated0\": \"You make gazp...  \n",
+              "\n",
+              "[100 rows x 11 columns]"
+            ]
+          },
+          "execution_count": 8,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "df"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 2,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "splits = {'train': 'data/train-00000-of-00001.parquet', 'validation': 'data/validation-00000-of-00001.parquet', 'test': 'data/test-00000-of-00001.parquet'}\n",
+        "df = pd.read_parquet(\"hf://datasets/somosnlp/NoticIA-it/\" + splits[\"train\"])\n",
+        "df = df[[\"texto\", \"respuesta\"]].dropna().reset_index(drop=True)"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/html": [
+              "<div>\n",
+              "<style scoped>\n",
+              "    .dataframe tbody tr th:only-of-type {\n",
+              "        vertical-align: middle;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe tbody tr th {\n",
+              "        vertical-align: top;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe thead th {\n",
+              "        text-align: right;\n",
+              "    }\n",
+              "</style>\n",
+              "<table border=\"1\" class=\"dataframe\">\n",
+              "  <thead>\n",
+              "    <tr style=\"text-align: right;\">\n",
+              "      <th></th>\n",
+              "      <th>id</th>\n",
+              "      <th>titular</th>\n",
+              "      <th>respuesta</th>\n",
+              "      <th>pregunta</th>\n",
+              "      <th>texto</th>\n",
+              "      <th>idioma</th>\n",
+              "      <th>periodo</th>\n",
+              "      <th>tarea</th>\n",
+              "      <th>registro</th>\n",
+              "      <th>dominio</th>\n",
+              "      <th>país_origen</th>\n",
+              "    </tr>\n",
+              "  </thead>\n",
+              "  <tbody>\n",
+              "    <tr>\n",
+              "      <th>0</th>\n",
+              "      <td>0</td>\n",
+              "      <td>JORGE REY: EL TIEMPO | La impactante predicció...</td>\n",
+              "      <td>El inicio de un periodo frío intenso.</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>27·11·23 | 08:34 | Actualizado a las 14:47\\nJO...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_ciencia_y_tecnologia</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>1</th>\n",
+              "      <td>1</td>\n",
+              "      <td>El cambio en las matrículas que se espera para...</td>\n",
+              "      <td>Se dará el salto a la letra M.</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Si eres de los que sigues el avance de las mat...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_ciencia_y_tecnologia</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>2</th>\n",
+              "      <td>2</td>\n",
+              "      <td>Si no avisas a la DGT de este cambio en tu coc...</td>\n",
+              "      <td>500 euros por pintar un coche de otro color y ...</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Con Pilar Cisneros y Fernando de Haro\\nCon Pac...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_otros</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>3</th>\n",
+              "      <td>3</td>\n",
+              "      <td>Estos serán los lenguajes de programación con ...</td>\n",
+              "      <td>Python y JavaScript.</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Si con el año nuevo te has propuesto aumentar ...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_ciencia_y_tecnologia</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>4</th>\n",
+              "      <td>4</td>\n",
+              "      <td>Cambio de estrategia en Microsoft: Windows 12 ...</td>\n",
+              "      <td>Solo un 28.6% de los usuarios actuales de Wind...</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Desde hace ya varios meses, las especulaciones...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_ciencia_y_tecnologia</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>...</th>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "      <td>...</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>695</th>\n",
+              "      <td>695</td>\n",
+              "      <td>Primicia: Mediaset ya tiene pareja de presenta...</td>\n",
+              "      <td>Diego Losada y Mónica Sanz.</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Mediaset ya tiene encajadas las piezas del puz...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_celebridades</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>696</th>\n",
+              "      <td>696</td>\n",
+              "      <td>Margot Robbie anuncia que se retira de la actu...</td>\n",
+              "      <td>No se retira, pero no quiere hacer otra pelícu...</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Todo lo que buscas en un solo click\\nLa actriz...</td>\n",
+              "      <td>es_bo</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>coloquial</td>\n",
+              "      <td>prensa_celebridades</td>\n",
+              "      <td>bolivia</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>697</th>\n",
+              "      <td>697</td>\n",
+              "      <td>¿Por qué el videojuego de Indiana Jones es en ...</td>\n",
+              "      <td>Para que la acción parezca propia y sea mucho ...</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Xbox clarificó en el Developer_Direct de la se...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_ocio_y_cultura</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>698</th>\n",
+              "      <td>698</td>\n",
+              "      <td>La insólita situación vivida frente a un semáf...</td>\n",
+              "      <td>Un conductor de 44 años se quedó dormido frent...</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Se pueden imaginar que en el teléfono de la Po...</td>\n",
+              "      <td>es_es</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_otros</td>\n",
+              "      <td>españa</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>699</th>\n",
+              "      <td>699</td>\n",
+              "      <td>Uno de los mejores Assassin’s Creed podría ten...</td>\n",
+              "      <td>Black Flag.</td>\n",
+              "      <td>Ahora eres una Inteligencia Artificial experta...</td>\n",
+              "      <td>Parece que la nueva versión del título de Ubis...</td>\n",
+              "      <td>es_mx</td>\n",
+              "      <td>actual</td>\n",
+              "      <td>resumen</td>\n",
+              "      <td>medio</td>\n",
+              "      <td>prensa_ocio_y_cultura</td>\n",
+              "      <td>mexico</td>\n",
+              "    </tr>\n",
+              "  </tbody>\n",
+              "</table>\n",
+              "<p>700 rows × 11 columns</p>\n",
+              "</div>"
+            ],
+            "text/plain": [
+              "      id                                            titular  \\\n",
+              "0      0  JORGE REY: EL TIEMPO | La impactante predicció...   \n",
+              "1      1  El cambio en las matrículas que se espera para...   \n",
+              "2      2  Si no avisas a la DGT de este cambio en tu coc...   \n",
+              "3      3  Estos serán los lenguajes de programación con ...   \n",
+              "4      4  Cambio de estrategia en Microsoft: Windows 12 ...   \n",
+              "..   ...                                                ...   \n",
+              "695  695  Primicia: Mediaset ya tiene pareja de presenta...   \n",
+              "696  696  Margot Robbie anuncia que se retira de la actu...   \n",
+              "697  697  ¿Por qué el videojuego de Indiana Jones es en ...   \n",
+              "698  698  La insólita situación vivida frente a un semáf...   \n",
+              "699  699  Uno de los mejores Assassin’s Creed podría ten...   \n",
+              "\n",
+              "                                             respuesta  \\\n",
+              "0                El inicio de un periodo frío intenso.   \n",
+              "1                       Se dará el salto a la letra M.   \n",
+              "2    500 euros por pintar un coche de otro color y ...   \n",
+              "3                                 Python y JavaScript.   \n",
+              "4    Solo un 28.6% de los usuarios actuales de Wind...   \n",
+              "..                                                 ...   \n",
+              "695                        Diego Losada y Mónica Sanz.   \n",
+              "696  No se retira, pero no quiere hacer otra pelícu...   \n",
+              "697  Para que la acción parezca propia y sea mucho ...   \n",
+              "698  Un conductor de 44 años se quedó dormido frent...   \n",
+              "699                                        Black Flag.   \n",
+              "\n",
+              "                                              pregunta  \\\n",
+              "0    Ahora eres una Inteligencia Artificial experta...   \n",
+              "1    Ahora eres una Inteligencia Artificial experta...   \n",
+              "2    Ahora eres una Inteligencia Artificial experta...   \n",
+              "3    Ahora eres una Inteligencia Artificial experta...   \n",
+              "4    Ahora eres una Inteligencia Artificial experta...   \n",
+              "..                                                 ...   \n",
+              "695  Ahora eres una Inteligencia Artificial experta...   \n",
+              "696  Ahora eres una Inteligencia Artificial experta...   \n",
+              "697  Ahora eres una Inteligencia Artificial experta...   \n",
+              "698  Ahora eres una Inteligencia Artificial experta...   \n",
+              "699  Ahora eres una Inteligencia Artificial experta...   \n",
+              "\n",
+              "                                                 texto idioma periodo  \\\n",
+              "0    27·11·23 | 08:34 | Actualizado a las 14:47\\nJO...  es_es  actual   \n",
+              "1    Si eres de los que sigues el avance de las mat...  es_es  actual   \n",
+              "2    Con Pilar Cisneros y Fernando de Haro\\nCon Pac...  es_es  actual   \n",
+              "3    Si con el año nuevo te has propuesto aumentar ...  es_es  actual   \n",
+              "4    Desde hace ya varios meses, las especulaciones...  es_es  actual   \n",
+              "..                                                 ...    ...     ...   \n",
+              "695  Mediaset ya tiene encajadas las piezas del puz...  es_es  actual   \n",
+              "696  Todo lo que buscas en un solo click\\nLa actriz...  es_bo  actual   \n",
+              "697  Xbox clarificó en el Developer_Direct de la se...  es_es  actual   \n",
+              "698  Se pueden imaginar que en el teléfono de la Po...  es_es  actual   \n",
+              "699  Parece que la nueva versión del título de Ubis...  es_mx  actual   \n",
+              "\n",
+              "       tarea   registro                      dominio país_origen  \n",
+              "0    resumen      medio  prensa_ciencia_y_tecnologia      españa  \n",
+              "1    resumen      medio  prensa_ciencia_y_tecnologia      españa  \n",
+              "2    resumen      medio                 prensa_otros      españa  \n",
+              "3    resumen      medio  prensa_ciencia_y_tecnologia      españa  \n",
+              "4    resumen      medio  prensa_ciencia_y_tecnologia      españa  \n",
+              "..       ...        ...                          ...         ...  \n",
+              "695  resumen      medio          prensa_celebridades      españa  \n",
+              "696  resumen  coloquial          prensa_celebridades     bolivia  \n",
+              "697  resumen      medio        prensa_ocio_y_cultura      españa  \n",
+              "698  resumen      medio                 prensa_otros      españa  \n",
+              "699  resumen      medio        prensa_ocio_y_cultura      mexico  \n",
+              "\n",
+              "[700 rows x 11 columns]"
+            ]
+          },
+          "execution_count": 3,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "df.head()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "### Celda de entrenamiento:\n",
+        "\n",
+        "Esta celda realiza el proceso completo de fine-tuning y guardado del modelo. En concreto:\n",
+        "\n",
+        "- Carga el `tokenizer` y el `model` base desde Hugging Face.\n",
+        "- Crea un subset de datos (`sample_size`) y lo divide en `train`, `val` y `test`.\n",
+        "- Define `preprocess_function` para tokenizar entradas (`texto`) y objetivos (`respuesta`).\n",
+        "- Construye `DataLoader`s y un `DataCollatorForSeq2Seq` para agrupar lotes apropiadamente.\n",
+        "- Ejecuta un bucle corto de entrenamiento (controlado por `max_train_steps`) con `AdamW`.\n",
+        "- Evalúa el modelo en el conjunto de test para obtener `test_loss` y `test_perplexity`.\n",
+        "- Guarda el modelo y tokenizer en `mt5-resumenes-es-final` y realiza una inferencia de ejemplo.\n",
+        "\n",
+        "Ejecuta esta celda después de comprobar `df.head()` y tener instaladas las dependencias necesarias. Tarda más tiempo si entrenas en CPU; en GPU será más rápido."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 3,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "Warning: You are sending unauthenticated requests to the HF Hub. Please set a HF_TOKEN to enable higher rate limits and faster downloads.\n"
+          ]
+        },
+        {
+          "data": {
+            "application/vnd.jupyter.widget-view+json": {
+              "model_id": "3e1f88c34c734cb7bf409cfad217608b",
+              "version_major": 2,
+              "version_minor": 0
+            },
+            "text/plain": [
+              "Loading weights:   0%|          | 0/192 [00:00<?, ?it/s]"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "[transformers] The tied weights mapping and config for this model specifies to tie shared.weight to lm_head.weight, but both are present in the checkpoints with different values, so we will NOT tie them. You should update the config with `tie_word_embeddings=False` to silence this warning.\n"
+          ]
+        },
+        {
+          "data": {
+            "application/vnd.jupyter.widget-view+json": {
+              "model_id": "d5a59ad4dd8b4701aef6078010db74f4",
+              "version_major": 2,
+              "version_minor": 0
+            },
+            "text/plain": [
+              "Map:   0%|          | 0/204 [00:00<?, ? examples/s]"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "data": {
+            "application/vnd.jupyter.widget-view+json": {
+              "model_id": "8f12dce6cbf746fa82da1b7eafc923ef",
+              "version_major": 2,
+              "version_minor": 0
+            },
+            "text/plain": [
+              "Map:   0%|          | 0/26 [00:00<?, ? examples/s]"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "data": {
+            "application/vnd.jupyter.widget-view+json": {
+              "model_id": "1514a44d18c84be38773f0f45391acd1",
+              "version_major": 2,
+              "version_minor": 0
+            },
+            "text/plain": [
+              "Map:   0%|          | 0/26 [00:00<?, ? examples/s]"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Train loss: 5.0288\n",
+            "Test loss: 4.0315\n",
+            "Test perplexity: 56.3473\n"
+          ]
+        },
+        {
+          "data": {
+            "application/vnd.jupyter.widget-view+json": {
+              "model_id": "a6f5da6256154aa592ff09a1295a330d",
+              "version_major": 2,
+              "version_minor": 0
+            },
+            "text/plain": [
+              "Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Texto de entrada: Este jueves 16 de noviembre Sevilla se convierte en capital mundial de la música con la celebración en el Centro de Conferencias y Exposiciones (FIBES) de los Grammy Latinos, una entrega que se emitirá internacionalmente por primera vez en la historia, como ha informado RTVE, quien los coproducirá y emitirá junto con Univisión.\n",
+            "La ceremonia comienza a las 22:30 y se podrá ver en directo en La 1 y RTVE Play. Estará presentada por Paz Vega, Sebastián Yatra, Danna Paola y Roselyn Sánchez. Carlos del Amor y Elena S. Sánchez personalizarán la señal para España.\n",
+            "Antes, a las 21:30 y tras el Telediario llegará Noche de estrellas, un especial con la alfombra roja presentado por Carlos Baute, Clarissa Molina, Chiqui Delgado, Raul de Molina, y Borja Voces. Por supuesto, en El HuffPost te contaremos todo lo que dé de sí la noche.\n",
+            "En la ceremonia se ha confirmado la participación de artistas como Rosalía, Shakira, Pablo Alborán, Edgar Barrera, Camilo, Manuel Carrasco, Iza, Juanes y Ozuna, María Becerra, Bizarrap, Feid, Kany García, Carin León, Christian Nodal, Rauw Alejandro y Alejandro Sanz.\n",
+            "No faltará a la cita Laura Pausini, Persona del Año 2023 de la Academia Latina de la Grabación. Además\n",
+            "Resumen generado: españa se convierte en capital mundial de la música\n"
+          ]
+        }
+      ],
+      "source": [
+        "from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, DataCollatorForSeq2Seq\n",
+        "\n",
+        "tokenizer = AutoTokenizer.from_pretrained(\"josmunpen/mt5-small-spanish-summarization\")\n",
+        "model = AutoModelForSeq2SeqLM.from_pretrained(\"josmunpen/mt5-small-spanish-summarization\")\n",
+        "\n",
+        "sample_size = min(256, len(df))\n",
+        "df_sample = df.sample(n=sample_size, random_state=42).reset_index(drop=True)\n",
+        "train_df, temp_df = train_test_split(df_sample, test_size=0.2, random_state=42)\n",
+        "val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)\n",
+        "\n",
+        "train_dataset = Dataset.from_pandas(train_df.reset_index(drop=True))\n",
+        "val_dataset = Dataset.from_pandas(val_df.reset_index(drop=True))\n",
+        "test_dataset = Dataset.from_pandas(test_df.reset_index(drop=True))\n",
+        "\n",
+        "max_input_length = 256\n",
+        "max_target_length = 64\n",
+        "\n",
+        "def preprocess_function(batch):\n",
+        "    inputs = tokenizer(batch[\"texto\"], max_length=max_input_length, truncation=True)\n",
+        "    targets = tokenizer(text_target=batch[\"respuesta\"], max_length=max_target_length, truncation=True)\n",
+        "    inputs[\"labels\"] = targets[\"input_ids\"]\n",
+        "    return inputs\n",
+        "\n",
+        "train_tokenized = train_dataset.map(preprocess_function, batched=True, remove_columns=train_dataset.column_names)\n",
+        "val_tokenized = val_dataset.map(preprocess_function, batched=True, remove_columns=val_dataset.column_names)\n",
+        "test_tokenized = test_dataset.map(preprocess_function, batched=True, remove_columns=test_dataset.column_names)\n",
+        "\n",
+        "data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)\n",
+        "\n",
+        "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+        "model.to(device)\n",
+        "optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)\n",
+        "\n",
+        "train_loader = DataLoader(train_tokenized, batch_size=2, shuffle=True, collate_fn=data_collator)\n",
+        "eval_loader = DataLoader(test_tokenized, batch_size=2, shuffle=False, collate_fn=data_collator)\n",
+        "\n",
+        "model.train()\n",
+        "train_losses = []\n",
+        "max_train_steps = 20\n",
+        "for step, batch in enumerate(train_loader, start=1):\n",
+        "    batch = {key: value.to(device) for key, value in batch.items()}\n",
+        "    outputs = model(**batch)\n",
+        "    loss = outputs.loss\n",
+        "    loss.backward()\n",
+        "    optimizer.step()\n",
+        "    optimizer.zero_grad()\n",
+        "    train_losses.append(loss.item())\n",
+        "    if step >= max_train_steps:\n",
+        "        break\n",
+        "\n",
+        "train_loss = float(np.mean(train_losses)) if train_losses else float(\"nan\")\n",
+        "\n",
+        "model.eval()\n",
+        "eval_losses = []\n",
+        "with torch.no_grad():\n",
+        "    for batch in eval_loader:\n",
+        "        batch = {key: value.to(device) for key, value in batch.items()}\n",
+        "        outputs = model(**batch)\n",
+        "        eval_losses.append(outputs.loss.item())\n",
+        "\n",
+        "test_loss = float(np.mean(eval_losses)) if eval_losses else float(\"nan\")\n",
+        "test_perplexity = math.exp(test_loss) if np.isfinite(test_loss) and test_loss < 20 else float(\"inf\")\n",
+        "\n",
+        "print(\"Train loss:\", round(train_loss, 4) if np.isfinite(train_loss) else train_loss)\n",
+        "print(\"Test loss:\", round(test_loss, 4))\n",
+        "print(\"Test perplexity:\", round(test_perplexity, 4) if np.isfinite(test_perplexity) else test_perplexity)\n",
+        "\n",
+        "model.save_pretrained(\"mt5-resumenes-es-final\")\n",
+        "tokenizer.save_pretrained(\"mt5-resumenes-es-final\")\n",
+        "\n",
+        "sample_text = test_df.iloc[0][\"texto\"]\n",
+        "inputs = tokenizer(sample_text, return_tensors=\"pt\", truncation=True, max_length=max_input_length).to(device)\n",
+        "generated_ids = model.generate(**inputs, max_length=max_target_length, num_beams=4)\n",
+        "print(\"Texto de entrada:\", sample_text[:1200])\n",
+        "print(\"Resumen generado:\", tokenizer.decode(generated_ids[0], skip_special_tokens=True))"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Métricas de evaluación en test\n",
+        "\n",
+        "En esta sección se calculan métricas de resumen sobre el conjunto de test para medir la calidad del modelo ajustado."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 7,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/html": [
+              "<div>\n",
+              "<style scoped>\n",
+              "    .dataframe tbody tr th:only-of-type {\n",
+              "        vertical-align: middle;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe tbody tr th {\n",
+              "        vertical-align: top;\n",
+              "    }\n",
+              "\n",
+              "    .dataframe thead th {\n",
+              "        text-align: right;\n",
+              "    }\n",
+              "</style>\n",
+              "<table border=\"1\" class=\"dataframe\">\n",
+              "  <thead>\n",
+              "    <tr style=\"text-align: right;\">\n",
+              "      <th></th>\n",
+              "      <th>metric</th>\n",
+              "      <th>valor</th>\n",
+              "    </tr>\n",
+              "  </thead>\n",
+              "  <tbody>\n",
+              "    <tr>\n",
+              "      <th>0</th>\n",
+              "      <td>ROUGE-1 aprox.</td>\n",
+              "      <td>0.6236</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>1</th>\n",
+              "      <td>ROUGE-2 aprox.</td>\n",
+              "      <td>0.5829</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>2</th>\n",
+              "      <td>ROUGE-L aprox.</td>\n",
+              "      <td>0.6236</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>3</th>\n",
+              "      <td>Test loss</td>\n",
+              "      <td>4.0315</td>\n",
+              "    </tr>\n",
+              "    <tr>\n",
+              "      <th>4</th>\n",
+              "      <td>Test perplexity</td>\n",
+              "      <td>56.3473</td>\n",
+              "    </tr>\n",
+              "  </tbody>\n",
+              "</table>\n",
+              "</div>"
+            ],
+            "text/plain": [
+              "            metric    valor\n",
+              "0   ROUGE-1 aprox.   0.6236\n",
+              "1   ROUGE-2 aprox.   0.5829\n",
+              "2   ROUGE-L aprox.   0.6236\n",
+              "3        Test loss   4.0315\n",
+              "4  Test perplexity  56.3473"
+            ]
+          },
+          "execution_count": 7,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "from collections import Counter\n",
+        "\n",
+        "test_eval_loader = DataLoader(test_tokenized, batch_size=2, shuffle=False, collate_fn=data_collator)\n",
+        "predictions = []\n",
+        "references = []\n",
+        "\n",
+        "model.eval()\n",
+        "with torch.no_grad():\n",
+        "    for batch in test_eval_loader:\n",
+        "        labels = batch[\"labels\"].clone()\n",
+        "        model_inputs = {key: value.to(device) for key, value in batch.items() if key != \"labels\"}\n",
+        "        generated_ids = model.generate(**model_inputs, max_new_tokens=32, num_beams=4)\n",
+        "        batch_predictions = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)\n",
+        "        labels[labels == -100] = tokenizer.pad_token_id\n",
+        "        batch_references = tokenizer.batch_decode(labels, skip_special_tokens=True)\n",
+        "        predictions.extend(batch_predictions)\n",
+        "        references.extend(batch_references)\n",
+        "\n",
+        "def tokenize_summary(text):\n",
+        "    return [token for token in text.lower().split() if token]\n",
+        "\n",
+        "def rouge_n_score(prediction_tokens, reference_tokens, n):\n",
+        "    prediction_ngrams = Counter(tuple(prediction_tokens[index:index + n]) for index in range(max(len(prediction_tokens) - n + 1, 0)))\n",
+        "    reference_ngrams = Counter(tuple(reference_tokens[index:index + n]) for index in range(max(len(reference_tokens) - n + 1, 0)))\n",
+        "    overlap = sum(min(count, reference_ngrams[ngram]) for ngram, count in prediction_ngrams.items())\n",
+        "    prediction_total = sum(prediction_ngrams.values())\n",
+        "    reference_total = sum(reference_ngrams.values())\n",
+        "    precision = overlap / prediction_total if prediction_total else 0.0\n",
+        "    recall = overlap / reference_total if reference_total else 0.0\n",
+        "    return 2 * precision * recall / (precision + recall) if precision + recall else 0.0\n",
+        "\n",
+        "def lcs_length(left_tokens, right_tokens):\n",
+        "    previous_row = [0] * (len(right_tokens) + 1)\n",
+        "    for left_token in left_tokens:\n",
+        "        current_row = [0]\n",
+        "        for index, right_token in enumerate(right_tokens, start=1):\n",
+        "            if left_token == right_token:\n",
+        "                current_row.append(previous_row[index - 1] + 1)\n",
+        "            else:\n",
+        "                current_row.append(max(previous_row[index], current_row[-1]))\n",
+        "        previous_row = current_row\n",
+        "    return previous_row[-1]\n",
+        "\n",
+        "def rouge_l_score(prediction_tokens, reference_tokens):\n",
+        "    lcs = lcs_length(prediction_tokens, reference_tokens)\n",
+        "    precision = lcs / len(prediction_tokens) if prediction_tokens else 0.0\n",
+        "    recall = lcs / len(reference_tokens) if reference_tokens else 0.0\n",
+        "    return 2 * precision * recall / (precision + recall) if precision + recall else 0.0\n",
+        "\n",
+        "rouge_scores = {\"rouge1\": [], \"rouge2\": [], \"rougeL\": []}\n",
+        "\n",
+        "for prediction, reference in zip(predictions, references):\n",
+        "    prediction_tokens = tokenize_summary(prediction)\n",
+        "    reference_tokens = tokenize_summary(reference)\n",
+        "    rouge_scores[\"rouge1\"].append(rouge_n_score(prediction_tokens, reference_tokens, 1))\n",
+        "    rouge_scores[\"rouge2\"].append(rouge_n_score(prediction_tokens, reference_tokens, 2))\n",
+        "    rouge_scores[\"rougeL\"].append(rouge_l_score(prediction_tokens, reference_tokens))\n",
+        "\n",
+        "metrics_df = pd.DataFrame(\n",
+        "    [\n",
+        "        {\"metric\": \"ROUGE-1 aprox.\", \"valor\": float(np.mean(rouge_scores[\"rouge1\"]))},\n",
+        "        {\"metric\": \"ROUGE-2 aprox.\", \"valor\": float(np.mean(rouge_scores[\"rouge2\"]))},\n",
+        "        {\"metric\": \"ROUGE-L aprox.\", \"valor\": float(np.mean(rouge_scores[\"rougeL\"]))},\n",
+        "        {\"metric\": \"Test loss\", \"valor\": test_loss},\n",
+        "        {\"metric\": \"Test perplexity\", \"valor\": test_perplexity},\n",
+        "    ]\n",
+        ")\n",
+        "\n",
+        "metrics_df[\"valor\"] = metrics_df[\"valor\"].apply(lambda value: round(value, 4) if isinstance(value, (float, np.floating)) and np.isfinite(value) else value)\n",
+        "metrics_df"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "## Demo con Gradio\n",
+        "\n",
+        "La siguiente interfaz permite escribir un texto, pulsar un botón y obtener el resumen generado por el modelo afinado."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 3,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "application/vnd.jupyter.widget-view+json": {
+              "model_id": "5c33f68d8c56475caaa96815c7841b17",
+              "version_major": 2,
+              "version_minor": 0
+            },
+            "text/plain": [
+              "Loading weights:   0%|          | 0/190 [00:00<?, ?it/s]"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "[transformers] The tied weights mapping and config for this model specifies to tie shared.weight to lm_head.weight, but both are present in the checkpoints with different values, so we will NOT tie them. You should update the config with `tie_word_embeddings=False` to silence this warning.\n"
+          ]
+        },
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "* Running on local URL:  http://127.0.0.1:7860\n",
+            "* To create a public link, set `share=True` in `launch()`.\n"
+          ]
+        },
+        {
+          "data": {
+            "text/html": [
+              "<div><iframe src=\"http://127.0.0.1:7860/\" width=\"100%\" height=\"500\" allow=\"autoplay; camera; microphone; clipboard-read; clipboard-write;\" frameborder=\"0\" allowfullscreen></iframe></div>"
+            ],
+            "text/plain": [
+              "<IPython.core.display.HTML object>"
+            ]
+          },
+          "metadata": {},
+          "output_type": "display_data"
+        },
+        {
+          "data": {
+            "text/plain": []
+          },
+          "execution_count": 3,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "import gradio as gr\n",
+        "import torch\n",
+        "from transformers import AutoModelForSeq2SeqLM, AutoTokenizer\n",
+        "\n",
+        "model_path = \"mt5-resumenes-es-final\"\n",
+        "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+        "tokenizer = AutoTokenizer.from_pretrained(model_path)\n",
+        "model = AutoModelForSeq2SeqLM.from_pretrained(model_path).to(device)\n",
+        "max_input_length = 256\n",
+        "\n",
+        "def generate_summary(text):\n",
+        "    if not text or not text.strip():\n",
+        "        return \"Introduce un texto para generar el resumen.\"\n",
+        "\n",
+        "    model.eval()\n",
+        "    inputs = tokenizer(text, return_tensors=\"pt\", truncation=True, max_length=max_input_length).to(device)\n",
+        "    with torch.no_grad():\n",
+        "        summary_ids = model.generate(**inputs, max_new_tokens=32, num_beams=4)\n",
+        "    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)\n",
+        "\n",
+        "demo = gr.Blocks(title=\"Resumen de texto en español\")\n",
+        "with demo:\n",
+        "    gr.Markdown(\"# Resumen de textos en español\\nEscribe un texto largo y pulsa el botón para generar un resumen.\")\n",
+        "    with gr.Row():\n",
+        "        input_text = gr.Textbox(label=\"Texto de entrada\", lines=12, placeholder=\"Pega aquí el texto que quieras resumir...\")\n",
+        "        output_text = gr.Textbox(label=\"Resumen generado\", lines=6)\n",
+        "    generate_button = gr.Button(\"Generar resumen\")\n",
+        "    generate_button.click(fn=generate_summary, inputs=input_text, outputs=output_text)\n",
+        "\n",
+        "demo.launch()"
+      ]
+    }
+  ],
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "display_name": "TECL",
+      "language": "python",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.12.13"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}

Proyecto_Hugging_Face.py ADDED Viewed

	@@ -0,0 +1,258 @@

+from __future__ import annotations
+import argparse
+import math
+from collections import Counter
+from pathlib import Path
+import numpy as np
+import pandas as pd
+import torch
+import gradio as gr
+from datasets import Dataset
+from sklearn.model_selection import train_test_split
+from torch.utils.data import DataLoader
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, DataCollatorForSeq2Seq
+DATASET_SPLITS = {
+    "train": "data/train-00000-of-00001.parquet",
+    "validation": "data/validation-00000-of-00001.parquet",
+    "test": "data/test-00000-of-00001.parquet",
+}
+DATASET_URL = "hf://datasets/somosnlp/NoticIA-it/"
+BASE_MODEL_NAME = "josmunpen/mt5-small-spanish-summarization"
+DEFAULT_OUTPUT_DIR = "mt5-resumenes-es-final"
+SAMPLE_SIZE = 256
+MAX_INPUT_LENGTH = 256
+MAX_TARGET_LENGTH = 64
+TRAIN_BATCH_SIZE = 2
+EVAL_BATCH_SIZE = 2
+MAX_TRAIN_STEPS = 20
+LEARNING_RATE = 2e-5
+def load_dataframe() -> pd.DataFrame:
+    df = pd.read_parquet(DATASET_URL + DATASET_SPLITS["train"])
+    return df[["texto", "respuesta"]].dropna().reset_index(drop=True)
+def prepare_splits(df: pd.DataFrame):
+    sample_size = min(SAMPLE_SIZE, len(df))
+    df_sample = df.sample(n=sample_size, random_state=42).reset_index(drop=True)
+    train_df, temp_df = train_test_split(df_sample, test_size=0.2, random_state=42)
+    val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)
+    return train_df.reset_index(drop=True), val_df.reset_index(drop=True), test_df.reset_index(drop=True)
+def tokenize_datasets(tokenizer, train_df: pd.DataFrame, val_df: pd.DataFrame, test_df: pd.DataFrame):
+    train_dataset = Dataset.from_pandas(train_df)
+    val_dataset = Dataset.from_pandas(val_df)
+    test_dataset = Dataset.from_pandas(test_df)
+    def preprocess_function(batch):
+        inputs = tokenizer(batch["texto"], max_length=MAX_INPUT_LENGTH, truncation=True)
+        targets = tokenizer(text_target=batch["respuesta"], max_length=MAX_TARGET_LENGTH, truncation=True)
+        inputs["labels"] = targets["input_ids"]
+        return inputs
+    train_tokenized = train_dataset.map(preprocess_function, batched=True, remove_columns=train_dataset.column_names)
+    val_tokenized = val_dataset.map(preprocess_function, batched=True, remove_columns=val_dataset.column_names)
+    test_tokenized = test_dataset.map(preprocess_function, batched=True, remove_columns=test_dataset.column_names)
+    return train_tokenized, val_tokenized, test_tokenized
+def train_model(model, tokenizer, train_tokenized, test_tokenized):
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model.to(device)
+    optimizer = torch.optim.AdamW(model.parameters(), lr=LEARNING_RATE)
+    data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
+    train_loader = DataLoader(train_tokenized, batch_size=TRAIN_BATCH_SIZE, shuffle=True, collate_fn=data_collator)
+    eval_loader = DataLoader(test_tokenized, batch_size=EVAL_BATCH_SIZE, shuffle=False, collate_fn=data_collator)
+    model.train()
+    train_losses = []
+    for step, batch in enumerate(train_loader, start=1):
+        batch = {key: value.to(device) for key, value in batch.items()}
+        outputs = model(**batch)
+        loss = outputs.loss
+        loss.backward()
+        optimizer.step()
+        optimizer.zero_grad()
+        train_losses.append(loss.item())
+        if step >= MAX_TRAIN_STEPS:
+            break
+    train_loss = float(np.mean(train_losses)) if train_losses else float("nan")
+    model.eval()
+    eval_losses = []
+    with torch.no_grad():
+        for batch in eval_loader:
+            batch = {key: value.to(device) for key, value in batch.items()}
+            outputs = model(**batch)
+            eval_losses.append(outputs.loss.item())
+    test_loss = float(np.mean(eval_losses)) if eval_losses else float("nan")
+    test_perplexity = math.exp(test_loss) if np.isfinite(test_loss) and test_loss < 20 else float("inf")
+    return device, train_loss, test_loss, test_perplexity, data_collator
+def compute_metrics(model, tokenizer, test_tokenized, data_collator, device):
+    test_eval_loader = DataLoader(test_tokenized, batch_size=EVAL_BATCH_SIZE, shuffle=False, collate_fn=data_collator)
+    predictions = []
+    references = []
+    model.eval()
+    with torch.no_grad():
+        for batch in test_eval_loader:
+            labels = batch["labels"].clone()
+            model_inputs = {key: value.to(device) for key, value in batch.items() if key != "labels"}
+            generated_ids = model.generate(**model_inputs, max_new_tokens=32, num_beams=4)
+            batch_predictions = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
+            labels[labels == -100] = tokenizer.pad_token_id
+            batch_references = tokenizer.batch_decode(labels, skip_special_tokens=True)
+            predictions.extend(batch_predictions)
+            references.extend(batch_references)
+    def tokenize_summary(text):
+        return [token for token in text.lower().split() if token]
+    def rouge_n_score(prediction_tokens, reference_tokens, n):
+        prediction_ngrams = Counter(
+            tuple(prediction_tokens[index : index + n])
+            for index in range(max(len(prediction_tokens) - n + 1, 0))
+        )
+        reference_ngrams = Counter(
+            tuple(reference_tokens[index : index + n])
+            for index in range(max(len(reference_tokens) - n + 1, 0))
+        )
+        overlap = sum(min(count, reference_ngrams[ngram]) for ngram, count in prediction_ngrams.items())
+        prediction_total = sum(prediction_ngrams.values())
+        reference_total = sum(reference_ngrams.values())
+        precision = overlap / prediction_total if prediction_total else 0.0
+        recall = overlap / reference_total if reference_total else 0.0
+        return 2 * precision * recall / (precision + recall) if precision + recall else 0.0
+    def lcs_length(left_tokens, right_tokens):
+        previous_row = [0] * (len(right_tokens) + 1)
+        for left_token in left_tokens:
+            current_row = [0]
+            for index, right_token in enumerate(right_tokens, start=1):
+                if left_token == right_token:
+                    current_row.append(previous_row[index - 1] + 1)
+                else:
+                    current_row.append(max(previous_row[index], current_row[-1]))
+            previous_row = current_row
+        return previous_row[-1]
+    def rouge_l_score(prediction_tokens, reference_tokens):
+        lcs = lcs_length(prediction_tokens, reference_tokens)
+        precision = lcs / len(prediction_tokens) if prediction_tokens else 0.0
+        recall = lcs / len(reference_tokens) if reference_tokens else 0.0
+        return 2 * precision * recall / (precision + recall) if precision + recall else 0.0
+    rouge_scores = {"rouge1": [], "rouge2": [], "rougeL": []}
+    for prediction, reference in zip(predictions, references):
+        prediction_tokens = tokenize_summary(prediction)
+        reference_tokens = tokenize_summary(reference)
+        rouge_scores["rouge1"].append(rouge_n_score(prediction_tokens, reference_tokens, 1))
+        rouge_scores["rouge2"].append(rouge_n_score(prediction_tokens, reference_tokens, 2))
+        rouge_scores["rougeL"].append(rouge_l_score(prediction_tokens, reference_tokens))
+    metrics_df = pd.DataFrame(
+        [
+            {"metric": "ROUGE-1 aprox.", "valor": float(np.mean(rouge_scores["rouge1"]))},
+            {"metric": "ROUGE-2 aprox.", "valor": float(np.mean(rouge_scores["rouge2"]))},
+            {"metric": "ROUGE-L aprox.", "valor": float(np.mean(rouge_scores["rougeL"]))},
+        ]
+    )
+    return metrics_df
+def save_model(model, tokenizer, output_dir: Path):
+    output_dir.mkdir(parents=True, exist_ok=True)
+    model.save_pretrained(output_dir)
+    tokenizer.save_pretrained(output_dir)
+def generate_sample_summary(model, tokenizer, test_df: pd.DataFrame, device):
+    sample_text = test_df.iloc[0]["texto"]
+    inputs = tokenizer(sample_text, return_tensors="pt", truncation=True, max_length=MAX_INPUT_LENGTH).to(device)
+    generated_ids = model.generate(**inputs, max_new_tokens=32, num_beams=4)
+    return sample_text, tokenizer.decode(generated_ids[0], skip_special_tokens=True)
+def build_gradio_demo(model, tokenizer, device):
+    def generate_summary(text):
+        if not text or not text.strip():
+            return "Introduce un texto para generar el resumen."
+        model.eval()
+        inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=MAX_INPUT_LENGTH).to(device)
+        with torch.no_grad():
+            summary_ids = model.generate(**inputs, max_new_tokens=32, num_beams=4)
+        return tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    with gr.Blocks(title="Resumen de texto en espanol") as demo:
+        gr.Markdown("# Resumen de textos en espanol\nEscribe un texto largo y pulsa el boton para generar un resumen.")
+        with gr.Row():
+            input_text = gr.Textbox(label="Texto de entrada", lines=12, placeholder="Pega aqui el texto que quieras resumir...")
+            output_text = gr.Textbox(label="Resumen generado", lines=6)
+        generate_button = gr.Button("Generar resumen")
+        generate_button.click(fn=generate_summary, inputs=input_text, outputs=output_text)
+    return demo
+def main():
+    parser = argparse.ArgumentParser(description="Fine-tuning y demo de resumen en espanol")
+    parser.add_argument("--retrain", action="store_true", help="Reentrenar el modelo aunque ya exista una version guardada")
+    parser.add_argument("--no-demo", action="store_true", help="No lanzar la interfaz de Gradio al final")
+    parser.add_argument("--share", action="store_true", help="Crear un enlace publico de Gradio")
+    parser.add_argument("--server-port", type=int, default=7860, help="Puerto para la demo de Gradio")
+    args = parser.parse_args()
+    base_dir = Path(__file__).resolve().parent
+    output_dir = base_dir / DEFAULT_OUTPUT_DIR
+    df = load_dataframe()
+    train_df, val_df, test_df = prepare_splits(df)
+    if output_dir.exists() and not args.retrain:
+        tokenizer = AutoTokenizer.from_pretrained(output_dir)
+        model = AutoModelForSeq2SeqLM.from_pretrained(output_dir)
+        train_tokenized, val_tokenized, test_tokenized = tokenize_datasets(tokenizer, train_df, val_df, test_df)
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        model.to(device)
+        data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
+        train_loss = float("nan")
+        test_loss = float("nan")
+        test_perplexity = float("nan")
+    else:
+        tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_NAME)
+        model = AutoModelForSeq2SeqLM.from_pretrained(BASE_MODEL_NAME)
+        train_tokenized, val_tokenized, test_tokenized = tokenize_datasets(tokenizer, train_df, val_df, test_df)
+        device, train_loss, test_loss, test_perplexity, data_collator = train_model(model, tokenizer, train_tokenized, test_tokenized)
+        save_model(model, tokenizer, output_dir)
+    metrics_df = compute_metrics(model, tokenizer, test_tokenized, data_collator, device)
+    metrics_df["valor"] = metrics_df["valor"].apply(lambda value: round(value, 4) if isinstance(value, (float, np.floating)) and np.isfinite(value) else value)
+    print("Train loss:", round(train_loss, 4) if np.isfinite(train_loss) else train_loss)
+    print("Test loss:", round(test_loss, 4) if np.isfinite(test_loss) else test_loss)
+    print("Test perplexity:", round(test_perplexity, 4) if np.isfinite(test_perplexity) else test_perplexity)
+    print(metrics_df)
+    sample_text, sample_summary = generate_sample_summary(model, tokenizer, test_df, device)
+    print("Texto de entrada:", sample_text[:1200])
+    print("Resumen generado:", sample_summary)
+    if not args.no_demo:
+        demo = build_gradio_demo(model, tokenizer, device)
+        demo.launch(share=args.share, server_port=args.server_port)
+if __name__ == "__main__":
+    main()

README.md CHANGED Viewed

@@ -1,17 +1,34 @@
----
-title: Summarization Spanish Text
-emoji: 💬
-colorFrom: yellow
-colorTo: purple
-sdk: gradio
-sdk_version: 6.5.1
-app_file: app.py
-pinned: false
-hf_oauth: true
-hf_oauth_scopes:
-- inference-api
-license: apache-2.0
-short_description: AI agent to summarize Spanish texts
----
-An example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and the [Hugging Face Inference API](https://huggingface.co/docs/api-inference/index).

+title: Resúmenes huggingface TECP
+emoji: 👀
+colorFrom: yellow
+colorTo: green
+sdk: gradio
+app_file: app.py
+pinned: false
+license: apache-2.0
+Model: Este modelo está basado en `josmunpen/mt5-small-spanish-summarization` y ha sido ajustado con un subconjunto del dataset `somosnlp/NoticIA-it` para generar resúmenes en español.
+El objetivo del modelo es tomar un texto largo de entrada y producir un resumen breve en español, orientado a extraer la idea principal del contenido.
+Uses: El modelo está pensado para demostraciones educativas y prototipos de resumen automático de textos en español, especialmente noticias o artículos largos.
+dataset: Durante el fine tuning se utilizó un subconjunto de 256 ejemplos del conjunto de entrenamiento. El dataset se dividió en entrenamiento, validación y test para evaluar el comportamiento del modelo en datos no vistos.
+Métricas obtenidas en test: Resultados obtenidos tras el ajuste fino y la evaluación sobre el conjunto de test:
+- ROUGE-1 aprox.: 0.6236
+- ROUGE-2 aprox.: 0.5829
+- ROUGE-L aprox.: 0.6236
+- Test loss: 4.0315
+- Test perplexity: 56.3473
+Limitations:
+- El entrenamiento se ha realizado con un subconjunto pequeño, por lo que el rendimiento no es representativo de una versión final optimizada.
+- La métrica ROUGE se calcula con una implementación aproximada basada en solapamiento de tokens, no con la librería oficial de ROUGE.
+- El modelo puede generar resúmenes demasiado genéricos o con pérdida de detalle en textos largos.
+- El comportamiento dependerá mucho de la calidad y longitud del texto de entrada.
+- No se ha incorporado un proceso de validación exhaustivo ni una búsqueda de hiperparámetros.

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+numpy
+pandas
+torch
+datasets
+scikit-learn
+transformers
+gradio
+fsspec
+pyarrow
+sentencepiece