Spaces:

Overglitch
/

document-summarizer

Sleeping

App Files Files Community

Overglitch commited on Dec 14, 2024

Commit

e48356e

verified ·

1 Parent(s): 54ccd94

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -28

app.py CHANGED Viewed

@@ -3,25 +3,29 @@ from modules.extractive import TFIDFSummarizer, TextRankSummarizer, CombinedSumm
 from modules.abstractive import load_summarizers, abstractive_summary
 from modules.preprocessing import Preprocessor, PDFProcessor
 from modules.utils import handle_long_text
-from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 # Cargar modelos abstractivos finetuneados
 summarizers = load_summarizers()
 # Función principal para generar resúmenes
 def summarize(input_text, file, summary_type, method, num_sentences, model_name, max_length, num_beams):
     preprocessor = Preprocessor()
-    # Procesar archivo si se carga
     if file is not None:
         pdf_processor = PDFProcessor()
         input_text = pdf_processor.pdf_to_text(file.name)
-    # Validar entrada de texto
     if not input_text:
         return "Por favor, ingrese texto o cargue un archivo válido."
-    # Limpiar texto de entrada
     cleaned_text = preprocessor.clean_text(input_text)
     if summary_type == "Extractivo":
@@ -36,7 +40,6 @@ def summarize(input_text, file, summary_type, method, num_sentences, model_name,
         else:
             return "Método no válido para resumen extractivo."
-        # Generar resumen extractivo
         return summarizer.summarize(
             preprocessor.split_into_sentences(cleaned_text),
             preprocessor.clean_sentences(preprocessor.split_into_sentences(cleaned_text)),
@@ -46,38 +49,30 @@ def summarize(input_text, file, summary_type, method, num_sentences, model_name,
     elif summary_type == "Abstractivo":
         if model_name not in summarizers:
             return "Modelo no disponible para resumen abstractivo."
-        model, tokenizer = summarizers[model_name]
         return handle_long_text(
             cleaned_text,
-            model,
-            tokenizer,
             max_length=max_length,
             stride=128,
         )
     elif summary_type == "Combinado":
         if model_name not in summarizers:
             return "Modelo no disponible para resumen abstractivo."
-        # Paso 1: Generar puntos clave con el método extractivo
-        extractive_keypoints = TFIDFSummarizer().summarize(
             preprocessor.split_into_sentences(cleaned_text),
             preprocessor.clean_sentences(preprocessor.split_into_sentences(cleaned_text)),
             num_sentences,
         )
-        # Paso 2: Generar el resumen abstractivo guiado por los puntos clave
-        combined_input = f"{cleaned_text}\n\nPuntos clave: {extractive_keypoints}"
         return handle_long_text(
-            combined_input,  # Texto completo + puntos clave
-            summarizers[model_name][0],  # Modelo abstractivo seleccionado
-            summarizers[model_name][1],  # Tokenizador del modelo abstractivo
             max_length=max_length,
             stride=128,
         )
     return "Seleccione un tipo de resumen válido."
 # Interfaz dinámica
@@ -86,17 +81,36 @@ with gr.Blocks() as interface:
     # Entrada de texto o archivo
     with gr.Row():
-        input_text = gr.Textbox(lines=9, label="Ingrese texto")
         file = gr.File(label="Subir archivo (PDF, TXT)")
-    # Selección de tipo de resumen
     summary_type = gr.Radio(
         ["Extractivo", "Abstractivo", "Combinado"],
         label="Tipo de resumen",
         value="Extractivo",
     )
-    # Opciones dinámicas
     method = gr.Radio(
         ["TF-IDF", "TextRank", "BERT", "TF-IDF + TextRank"],
         label="Método Extractivo",
@@ -117,7 +131,6 @@ with gr.Blocks() as interface:
         1, 10, value=4, step=1, label="Número de haces (Abstractivo)", visible=False
     )
-    # Actualización dinámica de opciones
     def update_options(summary_type):
         if summary_type == "Extractivo":
             return (
@@ -135,16 +148,14 @@ with gr.Blocks() as interface:
                 gr.update(visible=False), gr.update(visible=False), gr.update(visible=False), gr.update(visible=False),
                 gr.update(visible=False))
     summary_type.change(
         update_options,
         inputs=[summary_type],
         outputs=[method, num_sentences, model_name, max_length, num_beams],
     )
-    # Botón para generar resumen
     summarize_button = gr.Button("Generar Resumen")
-    output = gr.Textbox(lines=10, label="Resumen generado", interactive=True)
     copy_button = gr.Button("Copiar Resumen")
     summarize_button.click(
@@ -153,7 +164,6 @@ with gr.Blocks() as interface:
         outputs=output,
     )
-    # Funcionalidad para copiar resumen
     def copy_summary(summary):
         return summary

 from modules.abstractive import load_summarizers, abstractive_summary
 from modules.preprocessing import Preprocessor, PDFProcessor
 from modules.utils import handle_long_text
 # Cargar modelos abstractivos finetuneados
 summarizers = load_summarizers()
+# Función para procesar el archivo cargado
+def process_file(file):
+    if file is not None:
+        pdf_processor = PDFProcessor()
+        input_text = pdf_processor.pdf_to_text(file.name)
+        return input_text
+    return "Por favor, cargue un archivo válido."
 # Función principal para generar resúmenes
 def summarize(input_text, file, summary_type, method, num_sentences, model_name, max_length, num_beams):
     preprocessor = Preprocessor()
     if file is not None:
         pdf_processor = PDFProcessor()
         input_text = pdf_processor.pdf_to_text(file.name)
     if not input_text:
         return "Por favor, ingrese texto o cargue un archivo válido."
     cleaned_text = preprocessor.clean_text(input_text)
     if summary_type == "Extractivo":
         else:
             return "Método no válido para resumen extractivo."
         return summarizer.summarize(
             preprocessor.split_into_sentences(cleaned_text),
             preprocessor.clean_sentences(preprocessor.split_into_sentences(cleaned_text)),
     elif summary_type == "Abstractivo":
         if model_name not in summarizers:
             return "Modelo no disponible para resumen abstractivo."
         return handle_long_text(
             cleaned_text,
+            summarizers[model_name][0],
+            summarizers[model_name][1],
             max_length=max_length,
             stride=128,
         )
     elif summary_type == "Combinado":
         if model_name not in summarizers:
             return "Modelo no disponible para resumen abstractivo."
+        extractive_summary = TFIDFSummarizer().summarize(
             preprocessor.split_into_sentences(cleaned_text),
             preprocessor.clean_sentences(preprocessor.split_into_sentences(cleaned_text)),
             num_sentences,
         )
         return handle_long_text(
+            extractive_summary,
+            summarizers[model_name][0],
+            summarizers[model_name][1],
             max_length=max_length,
             stride=128,
         )
     return "Seleccione un tipo de resumen válido."
 # Interfaz dinámica
     # Entrada de texto o archivo
     with gr.Row():
+        input_text = gr.Textbox(max_lines=9, label="Ingrese texto", interactive=True)
         file = gr.File(label="Subir archivo (PDF, TXT)")
+    # Nuevo botón para cargar el archivo, inicialmente invisible
+    load_file_button = gr.Button("Cargar Archivo", visible=False)
+    # Acción del botón: procesar el archivo y colocar el texto en la caja de texto
+    load_file_button.click(
+        process_file,
+        inputs=[file],
+        outputs=[input_text],
+    )
+    # Mostrar el botón solo cuando se suba un archivo
+    def toggle_load_button(file):
+        return gr.update(visible=file is not None)
+    file.change(
+        toggle_load_button,
+        inputs=[file],
+        outputs=[load_file_button],
+    )
+    # Selección de tipo de resumen y opciones dinámicas
     summary_type = gr.Radio(
         ["Extractivo", "Abstractivo", "Combinado"],
         label="Tipo de resumen",
         value="Extractivo",
     )
     method = gr.Radio(
         ["TF-IDF", "TextRank", "BERT", "TF-IDF + TextRank"],
         label="Método Extractivo",
         1, 10, value=4, step=1, label="Número de haces (Abstractivo)", visible=False
     )
     def update_options(summary_type):
         if summary_type == "Extractivo":
             return (
                 gr.update(visible=False), gr.update(visible=False), gr.update(visible=False), gr.update(visible=False),
                 gr.update(visible=False))
     summary_type.change(
         update_options,
         inputs=[summary_type],
         outputs=[method, num_sentences, model_name, max_length, num_beams],
     )
     summarize_button = gr.Button("Generar Resumen")
+    output = gr.Textbox(lines=10, label="Resumen generado", interactive=False)
     copy_button = gr.Button("Copiar Resumen")
     summarize_button.click(
         outputs=output,
     )
     def copy_summary(summary):
         return summary