Spaces:

teszenofficial
/

Summara

Sleeping

App Files Files Community

teszenofficial commited on Sep 26, 2025

Commit

b93d157

verified ·

1 Parent(s): 47da74d

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -14

app.py CHANGED Viewed

@@ -64,7 +64,6 @@ class SummaraTransformer(nn.Module):
 # --- Cargar modelo desde Hugging Face ---
 def load_summara_from_hub():
-    # Descargar summara.pkl desde tu repo
     model_path = hf_hub_download(
         repo_id="teszenofficial/summara",
         filename="summara.pkl"
@@ -86,34 +85,44 @@ def load_summara_from_hub():
     tokenizer = data['tokenizer']
     return model, tokenizer
-# --- Función de resumen ---
 def generate_square_subsequent_mask(sz):
     return torch.triu(torch.ones(sz, sz), diagonal=1).bool()
 def create_padding_mask(seq, pad_idx=0):
     return (seq == pad_idx)
-def summarize(text):
     try:
         model, tokenizer = load_summara_from_hub()
-        device = "cpu"  # Spaces usa CPU
         model.to(device)
         src = torch.tensor([tokenizer.encode(text, add_eos=True)], device=device)
         src_padding_mask = create_padding_mask(src).to(device)
         tgt = torch.tensor([[tokenizer.word2idx["<sos>"]]], device=device)
         with torch.no_grad():
-            for _ in range(40):
                 tgt_mask = generate_square_subsequent_mask(tgt.size(1)).to(device)
                 output = model(src, tgt, src_key_padding_mask=src_padding_mask, tgt_mask=tgt_mask)
                 next_token = output.argmax(2)[:, -1].item()
                 if next_token == tokenizer.word2idx.get("<eos>", 2):
                     break
                 tgt = torch.cat([tgt, torch.tensor([[next_token]], device=device)], dim=1)
         summary_ids = tgt.squeeze().cpu().tolist()
-        if not isinstance(summary_ids, list): summary_ids = [summary_ids]
         summary = tokenizer.decode(summary_ids[1:])
         return summary if summary.strip() else "Resumen no disponible."
     except Exception as e:
@@ -121,25 +130,49 @@ def summarize(text):
 # --- Interfaz Gradio ---
 with gr.Blocks(title="Summara") as demo:
-    gr.Markdown("# 🧠 Summara\n### Resumidor de texto con Transformer")
     gr.Markdown("Modelo: [teszenofficial/summara](https://huggingface.co/teszenofficial/summara)")
     with gr.Row():
         with gr.Column():
-            inp = gr.Textbox(label="Texto a resumir", lines=8)
-            btn = gr.Button("Generar resumen", variant="primary")
         with gr.Column():
-            out = gr.Textbox(label="Resumen", lines=8, interactive=False)
-    btn.click(fn=summarize, inputs=inp, outputs=out)
     gr.Examples(
         examples=[
-            ["Recientemente, en el campo de la tecnología, se desarrolló una inteligencia artificial avanzada. Este desarrollo tiene implicaciones profundas para la sociedad."],
-            ["El cambio climático afecta el medio ambiente globalmente. Provoca sequías e incendios. Los científicos urgen a actuar ya."]
         ],
-        inputs=inp
     )
 if __name__ == "__main__":
     demo.launch()

 # --- Cargar modelo desde Hugging Face ---
 def load_summara_from_hub():
     model_path = hf_hub_download(
         repo_id="teszenofficial/summara",
         filename="summara.pkl"
     tokenizer = data['tokenizer']
     return model, tokenizer
+# --- Función de resumen con longitud ajustable ---
 def generate_square_subsequent_mask(sz):
     return torch.triu(torch.ones(sz, sz), diagonal=1).bool()
 def create_padding_mask(seq, pad_idx=0):
     return (seq == pad_idx)
+def summarize(text, max_words=50):
     try:
         model, tokenizer = load_summara_from_hub()
+        device = "cpu"
         model.to(device)
         src = torch.tensor([tokenizer.encode(text, add_eos=True)], device=device)
         src_padding_mask = create_padding_mask(src).to(device)
         tgt = torch.tensor([[tokenizer.word2idx["<sos>"]]], device=device)
+        words_generated = 0
+        max_tokens = max_words + 10  # margen para tokens no palabras
         with torch.no_grad():
+            for _ in range(max_tokens):
                 tgt_mask = generate_square_subsequent_mask(tgt.size(1)).to(device)
                 output = model(src, tgt, src_key_padding_mask=src_padding_mask, tgt_mask=tgt_mask)
                 next_token = output.argmax(2)[:, -1].item()
                 if next_token == tokenizer.word2idx.get("<eos>", 2):
                     break
                 tgt = torch.cat([tgt, torch.tensor([[next_token]], device=device)], dim=1)
+                # Contar palabras (no tokens de control)
+                if next_token not in [0, 1, 2]:
+                    words_generated += 1
+                if words_generated >= max_words:
+                    break
         summary_ids = tgt.squeeze().cpu().tolist()
+        if not isinstance(summary_ids, list):
+            summary_ids = [summary_ids]
         summary = tokenizer.decode(summary_ids[1:])
         return summary if summary.strip() else "Resumen no disponible."
     except Exception as e:
 # --- Interfaz Gradio ---
 with gr.Blocks(title="Summara") as demo:
+    gr.Markdown("# 🧠 Summara\n### Resumidor de texto con Transformer entrenado desde cero")
     gr.Markdown("Modelo: [teszenofficial/summara](https://huggingface.co/teszenofficial/summara)")
     with gr.Row():
         with gr.Column():
+            inp = gr.Textbox(
+                label="Texto a resumir",
+                lines=10,
+                placeholder="Pega un artículo, noticia, ensayo o cualquier texto que quieras resumir..."
+            )
+            with gr.Row():
+                length_slider = gr.Slider(
+                    minimum=10,
+                    maximum=150,
+                    value=60,
+                    step=5,
+                    label="Longitud del resumen (palabras aproximadas)"
+                )
+            btn = gr.Button(" Generar Resumen ", variant="primary")
         with gr.Column():
+            out = gr.Textbox(
+                label="Resumen generado",
+                lines=10,
+                interactive=False
+            )
+    btn.click(
+        fn=summarize,
+        inputs=[inp, length_slider],
+        outputs=out
+    )
     gr.Examples(
         examples=[
+            ["La inteligencia artificial está transformando múltiples industrias. En medicina, permite diagnósticos más precisos. En educación, personaliza el aprendizaje. En transporte, impulsa los vehículos autónomos. A pesar de sus beneficios, también plantea desafíos éticos y de privacidad que la sociedad debe abordar con cuidado."],
+            ["El cambio climático es uno de los mayores desafíos del siglo XXI. Sus efectos incluyen el aumento del nivel del mar, fenómenos meteorológicos extremos y pérdida de biodiversidad. Para mitigarlo, es esencial reducir las emisiones de gases de efecto invernadero, invertir en energías renovables y promover políticas ambientales sostenibles a nivel global."]
         ],
+        inputs=inp,
+        label="Ejemplos para probar"
     )
+    gr.Markdown("💡 **Consejo**: Usa textos de al menos 3-4 oraciones para obtener mejores resultados.")
 if __name__ == "__main__":
     demo.launch()