Spaces:

Calvoloncio
/

Practica3

Running

App Files Files Community

Calvoloncio commited on Mar 25

Commit

e581cb0

verified ·

1 Parent(s): 6b1d3e6

Upload 4 files

Browse files

Files changed (4) hide show

app.py +45 -0
documents.json +7 -0
rag_engine.py +73 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import gradio as gr
+import rag_engine
+def ask(pregunta, num_docs, similitud):
+    """ Esta función conecta la web con nuestro motor RAG """
+    respuesta, docs = rag_engine.preguntar(pregunta, top_k=int(num_docs), umbral=float(similitud))
+    if not docs:
+        contexto_visible = "No se encontró información relevante."
+    else:
+        contexto_visible = "\n\n---\n\n".join(docs)
+    return respuesta, contexto_visible
+with gr.Blocks() as interfaz:
+    gr.Markdown("# Asistente del Hospital")
+    gr.Markdown("Escribe tu pregunta para buscar en los documentos del hospital.")
+    with gr.Row():
+        with gr.Column():
+            entrada_texto = gr.Textbox(label="Tu pregunta:", placeholder="Ej: Where is the hospital?")
+            slider_k = gr.Slider(1, 5, value=2, step=1, label="Cuantos documentos buscar")
+            slider_u = gr.Slider(0.0, 1.0, value=0.4, step=0.1, label="Nivel de parecido (minimo)")
+            boton = gr.Button("Preguntar", variant="primary")
+        with gr.Column():
+            salida_ia = gr.Textbox(label="Respuesta:", lines=4)
+            salida_docs = gr.Textbox(label="Informacion utilizada:", lines=8)
+    boton.click(
+        fn=ask,
+        inputs=[entrada_texto, slider_k, slider_u],
+        outputs=[salida_ia, salida_docs]
+    )
+if __name__ == "__main__":
+    interfaz.launch()

documents.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "doc1": "Hospital contact details: You can contact the hospital at email testing@gmail.com, phone +911234567890, or visit us at xyz, abc, 1234, Nepal.",
+    "doc2": "Hospital's working hours: The hospital's working hours are 7:00 AM - 8:00 PM daily.",
+    "doc3": "Official email address: The official email address to contact the hospital is testing@gmail.com.",
+    "doc4": "Main services: We provide comprehensive healthcare services including emergency care, diagnostic testing, surgical procedures, maternity services, and specialized treatments.",
+    "doc5": "Hospital location: The hospital is located at xyz, abc, 1234, Nepal."
+}

rag_engine.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import json
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from sentence_transformers import SentenceTransformer, util
+# --- 1. CARGA DE MODELOS ---
+# Usamos un modelo para buscar informacion en los documentos
+print("Cargando el modelo de busqueda...")
+embed_model = SentenceTransformer("MongoDB/mdbr-leaf-ir")
+# Usamos un modelo para que nos ayude a redactar la respuesta
+print("Cargando el modelo de lenguaje...")
+model_id = "microsoft/Phi-2"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+llm_model = AutoModelForCausalLM.from_pretrained(model_id)
+# --- 2. BASE DE CONOCIMIENTO ---
+# Leemos los documentos que tenemos guardados en el archivo JSON
+with open("documents.json", "r", encoding="utf-8") as f:
+    docs_dict = json.load(f)
+    documents = list(docs_dict.values())
+# Preparamos los datos para que el ordenador pueda buscar en ellos rapidamente
+print("Preparando los documentos para la busqueda...")
+docs_embeddings = embed_model.encode(documents, convert_to_tensor=True)
+# --- 3. FUNCIONES DEL SISTEMA ---
+def recuperar_documentos(consulta, top_k=2, umbral=0.4):
+    """ Busca en nuestra base de datos los textos que mas se parecen a la pregunta """
+    # Pasamos la pregunta a un formato que el modelo entienda
+    query_embedding = embed_model.encode(consulta, convert_to_tensor=True)
+    # Comparamos la pregunta con todos los documentos para ver cuales coinciden mejor
+    cos_scores = util.cos_sim(query_embedding, docs_embeddings)[0]
+    # Nos quedamos con los mejores resultados segun lo que hayamos configurado
+    top_results = torch.topk(cos_scores, k=min(top_k, len(documents)))
+    final_docs = []
+    for score, idx in zip(top_results[0], top_results[1]):
+        # Solo guardamos el documento si se parece lo suficiente a la pregunta
+        if score >= umbral:
+            final_docs.append(documents[idx])
+    return final_docs
+def generar_respuesta(consulta, documentos_recuperados):
+    """ Redacta una respuesta usando la pregunta y la informacion encontrada """
+    # Si no hemos encontrado nada, usamos un texto por defecto
+    contexto = " ".join(documentos_recuperados) if documentos_recuperados else "No se ha encontrado informacion relevante."
+    # Preparamos las instrucciones para el modelo
+    prompt = f"Context: {contexto}\nQuestion: {consulta}\nAnswer:"
+    # Convertimos el texto a un formato que el modelo pueda procesar
+    inputs = tokenizer(prompt, return_tensors="pt")
+    # El modelo genera el texto de la respuesta
+    with torch.no_grad():
+        outputs = llm_model.generate(**inputs, max_new_tokens=100)
+    # Limpiamos el texto generado para quedarnos solo con lo importante
+    resultado_total = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    respuesta_limpia = resultado_total.split("Answer:")[-1].strip()
+    return respuesta_limpia
+def preguntar(consulta, top_k=2, umbral=0.4):
+    """ Funcion principal que busca la informacion y redacta la respuesta """
+    docs = recuperar_documentos(consulta, top_k, umbral)
+    respuesta = generar_respuesta(consulta, docs)
+    return respuesta, docs

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+torch
+transformers
+sentence-transformers
+scikit-learn
+fastapi
+uvicorn
+gradio
+pydantic