Spaces:

adcelis
/

Practica9

Sleeping

App Files Files Community

adcelis commited on Apr 3

Commit

f220abb

verified ·

1 Parent(s): b0ab61b

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -40

app.py CHANGED Viewed

@@ -1,13 +1,12 @@
 import os
 import requests
 import gradio as gr
-import torch
 import faiss
 import numpy as np
 from pypdf import PdfReader
 from sentence_transformers import SentenceTransformer
-from transformers import pipeline
 # --------------------------------------------------
 # CONFIGURACIÓN
@@ -17,7 +16,6 @@ PDF_URL = "https://www.sanidad.gob.es/gabinetePrensa/notaPrensa/pdf/ComeSanoyMue
 PDF_PATH = "documento.pdf"
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
-GEN_MODEL = "google/flan-t5-base"
 CHUNK_SIZE = 800
 CHUNK_OVERLAP = 100
@@ -72,6 +70,29 @@ def construir_chunks(paginas):
     return textos, metas
 # --------------------------------------------------
 # CARGA DEL SISTEMA
 # --------------------------------------------------
@@ -94,16 +115,8 @@ dimension = embeddings.shape[1]
 index = faiss.IndexFlatL2(dimension)
 index.add(embeddings)
-print("Cargando modelo generativo...")
-device = 0 if torch.cuda.is_available() else -1
-generator = pipeline(
-    "text2text-generation",
-    model=GEN_MODEL,
-    device=device
-)
 # --------------------------------------------------
-# RAG
 # --------------------------------------------------
 def recuperar_contexto(query, top_k=6):
@@ -120,43 +133,41 @@ def recuperar_contexto(query, top_k=6):
     return resultados
-def responder(query):
-    if not query.strip():
-        return "Escribe una pregunta.", "", ""
-    resultados = recuperar_contexto(query, top_k=TOP_K)
-    contexto = "\n\n".join([r["text"] for r in resultados])
-    prompt = f"""
-Contesta en español de forma breve y clara usando la información del contexto.
-Si el contexto contiene información relacionada, responde con esa información.
-Solo si el contexto no contiene nada útil, responde exactamente:
-No tengo información suficiente para responder a esta pregunta.
-Contexto:
-{contexto}
-Pregunta:
-{query}
-Respuesta:
-""".strip()
-    salida = generator(
-        prompt,
-        max_new_tokens=180,
-        do_sample=False
-    )
-    respuesta = salida[0]["generated_text"].strip()
     fuentes = "\n".join(
         [f"Página {r['page']} | score={r['score']:.4f}" for r in resultados]
     )
     contexto_mostrar = "\n\n".join(
-        [f"[Página {r['page']}]\n{r['text'][:500]}..." for r in resultados]
     )
     return respuesta, fuentes, contexto_mostrar
@@ -166,11 +177,11 @@ Respuesta:
 # --------------------------------------------------
 examples = [
-    ["Resume qué dice el documento sobre el desayuno."],
-    ["Resume qué dice el documento sobre beber agua."],
-    ["Explica qué recomendaciones da el documento sobre frutas, verduras y fibra."],
-    ["Explica qué dice el documento sobre la sal y las grasas."],
-    ["Resume qué dice el documento sobre la actividad física."]
 ]
 with gr.Blocks() as demo:

 import os
+import re
 import requests
 import gradio as gr
 import faiss
 import numpy as np
 from pypdf import PdfReader
 from sentence_transformers import SentenceTransformer
 # --------------------------------------------------
 # CONFIGURACIÓN
 PDF_PATH = "documento.pdf"
 EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
 CHUNK_SIZE = 800
 CHUNK_OVERLAP = 100
     return textos, metas
+# --------------------------------------------------
+# LIMPIEZA DE TEXTO
+# --------------------------------------------------
+def limpiar_texto(texto):
+    texto = texto.replace("\n", " ")
+    texto = re.sub(r"\s+", " ", texto)
+    texto = re.sub(r"\?+", "", texto)
+    texto = re.sub(r"\!+", "", texto)
+    return texto.strip()
+def extraer_frases(texto, max_frases=3):
+    texto = limpiar_texto(texto)
+    frases = re.split(r"(?<=[\.\:\;])\s+", texto)
+    frases_validas = []
+    for f in frases:
+        f = f.strip()
+        if len(f) > 40:
+            frases_validas.append(f)
+    return frases_validas[:max_frases]
 # --------------------------------------------------
 # CARGA DEL SISTEMA
 # --------------------------------------------------
 index = faiss.IndexFlatL2(dimension)
 index.add(embeddings)
 # --------------------------------------------------
+# RECUPERACIÓN
 # --------------------------------------------------
 def recuperar_contexto(query, top_k=6):
     return resultados
+# --------------------------------------------------
+# RESPUESTA
+# --------------------------------------------------
+def construir_respuesta_desde_contexto(query, resultados):
+    if not resultados:
+        return "No tengo información suficiente para responder a esta pregunta."
+    mejor = resultados[0]["text"]
+    frases = extraer_frases(mejor, max_frases=3)
+    if not frases:
+        return "No tengo información suficiente para responder a esta pregunta."
+    respuesta = "Según el documento, " + " ".join(frases)
+    if len(respuesta) > 900:
+        respuesta = respuesta[:900] + "..."
+    return respuesta
+def responder(query):
+    if not query.strip():
+        return "Escribe una pregunta.", "", ""
+    resultados = recuperar_contexto(query, top_k=TOP_K)
+    respuesta = construir_respuesta_desde_contexto(query, resultados)
     fuentes = "\n".join(
         [f"Página {r['page']} | score={r['score']:.4f}" for r in resultados]
     )
     contexto_mostrar = "\n\n".join(
+        [f"[Página {r['page']}]\n{limpiar_texto(r['text'])[:500]}..." for r in resultados]
     )
     return respuesta, fuentes, contexto_mostrar
 # --------------------------------------------------
 examples = [
+    ["¿Qué dice el documento sobre el desayuno?"],
+    ["¿Qué dice el documento sobre beber agua?"],
+    ["¿Qué recomendaciones da sobre frutas, verduras y fibra?"],
+    ["¿Qué indica el documento sobre la sal y las grasas?"],
+    ["¿Qué dice el documento sobre la actividad física?"]
 ]
 with gr.Blocks() as demo: