Spaces:

adcelis
/

Practica9

Sleeping

App Files Files Community

adcelis commited on Apr 3

Commit

b0ab61b

verified ·

1 Parent(s): 4760535

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -8

app.py CHANGED Viewed

@@ -21,7 +21,7 @@ GEN_MODEL = "google/flan-t5-base"
 CHUNK_SIZE = 800
 CHUNK_OVERLAP = 100
-TOP_K = 4
 # --------------------------------------------------
 # PDF
@@ -76,11 +76,17 @@ def construir_chunks(paginas):
 # CARGA DEL SISTEMA
 # --------------------------------------------------
 descargar_pdf()
 paginas = extraer_paginas(PDF_PATH)
 chunk_texts, chunk_meta = construir_chunks(paginas)
 embedder = SentenceTransformer(EMBEDDING_MODEL)
 embeddings = embedder.encode(chunk_texts, convert_to_numpy=True, show_progress_bar=False)
 embeddings = embeddings.astype("float32")
@@ -88,6 +94,7 @@ dimension = embeddings.shape[1]
 index = faiss.IndexFlatL2(dimension)
 index.add(embeddings)
 device = 0 if torch.cuda.is_available() else -1
 generator = pipeline(
     "text2text-generation",
@@ -99,7 +106,7 @@ generator = pipeline(
 # RAG
 # --------------------------------------------------
-def recuperar_contexto(query, top_k=4):
     query_emb = embedder.encode([query], convert_to_numpy=True).astype("float32")
     distances, indices = index.search(query_emb, top_k)
@@ -110,6 +117,7 @@ def recuperar_contexto(query, top_k=4):
             "page": chunk_meta[idx]["page"],
             "score": float(dist)
         })
     return resultados
 def responder(query):
@@ -141,7 +149,7 @@ Respuesta:
         do_sample=False
     )
-    respuesta = salida[0]["generated_text"]
     fuentes = "\n".join(
         [f"Página {r['page']} | score={r['score']:.4f}" for r in resultados]
@@ -158,11 +166,11 @@ Respuesta:
 # --------------------------------------------------
 examples = [
-    ["¿Qué consejos da el documento sobre el desayuno?"],
-    ["¿Qué dice el documento sobre beber agua?"],
-    ["¿Qué recomendaciones da sobre frutas, verduras y fibra?"],
-    ["¿Qué indica el documento sobre la sal y las grasas?"],
-    ["¿Qué dice el documento sobre la actividad física?"]
 ]
 with gr.Blocks() as demo:

 CHUNK_SIZE = 800
 CHUNK_OVERLAP = 100
+TOP_K = 6
 # --------------------------------------------------
 # PDF
 # CARGA DEL SISTEMA
 # --------------------------------------------------
+print("Descargando PDF...")
 descargar_pdf()
+print("Extrayendo texto del documento...")
 paginas = extraer_paginas(PDF_PATH)
 chunk_texts, chunk_meta = construir_chunks(paginas)
+print("Cargando modelo de embeddings...")
 embedder = SentenceTransformer(EMBEDDING_MODEL)
+print("Generando embeddings...")
 embeddings = embedder.encode(chunk_texts, convert_to_numpy=True, show_progress_bar=False)
 embeddings = embeddings.astype("float32")
 index = faiss.IndexFlatL2(dimension)
 index.add(embeddings)
+print("Cargando modelo generativo...")
 device = 0 if torch.cuda.is_available() else -1
 generator = pipeline(
     "text2text-generation",
 # RAG
 # --------------------------------------------------
+def recuperar_contexto(query, top_k=6):
     query_emb = embedder.encode([query], convert_to_numpy=True).astype("float32")
     distances, indices = index.search(query_emb, top_k)
             "page": chunk_meta[idx]["page"],
             "score": float(dist)
         })
     return resultados
 def responder(query):
         do_sample=False
     )
+    respuesta = salida[0]["generated_text"].strip()
     fuentes = "\n".join(
         [f"Página {r['page']} | score={r['score']:.4f}" for r in resultados]
 # --------------------------------------------------
 examples = [
+    ["Resume qué dice el documento sobre el desayuno."],
+    ["Resume qué dice el documento sobre beber agua."],
+    ["Explica qué recomendaciones da el documento sobre frutas, verduras y fibra."],
+    ["Explica qué dice el documento sobre la sal y las grasas."],
+    ["Resume qué dice el documento sobre la actividad física."]
 ]
 with gr.Blocks() as demo: