Spaces:

MGC1991MF
/

DermaRAG-DEMO

Running

App Files Files Community

MGC1991MF commited on Feb 26

Commit

2a26ed4

verified ·

1 Parent(s): 06e2c83

Update RAG_tool.py

Browse files

Files changed (1) hide show

RAG_tool.py +22 -19

RAG_tool.py CHANGED Viewed

@@ -1,4 +1,6 @@
-# --- PARCHE PARA CHROMADB EN HUGGING FACE (ESTO DEBE SER LA LÍNEA 1) ---
 __import__('pysqlite3')
 import sys
 sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
@@ -9,8 +11,9 @@ from crewai.tools import BaseTool
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
-# --- YA NO USAMOS LA CLASE 'BuscadorInput' NI 'args_schema' ---
-# Esto libera al modelo Dolphin-Mistral de intentar formatear JSON complejos
 class BuscadorGuiasClinicas(BaseTool):
     name: str = "Buscador de Guías Clínicas"
@@ -22,35 +25,35 @@ class BuscadorGuiasClinicas(BaseTool):
     def _run(self, query: str) -> str:
         try:
-            # ==============================================================================
-            # 1. BLOQUE DE SEGURIDAD PARA INPUTS (La parte nueva importante)
-            # ==============================================================================
-            # Si el modelo envía un diccionario o JSON malformado en lugar de texto plano:
             if isinstance(query, dict):
-                # Intenta sacar el valor si viene en formato {'query': 'valor'}
                 query = query.get('query', str(query))
-                if isinstance(query, dict): # Si sigue siendo dict (tu error específico)
                     query = query.get('description', str(query))
-            # Limpieza final de string por si quedan llaves sueltas
             query = str(query).replace("{'query':", "").replace("}", "").strip()
             # ==============================================================================
-            # Configuración del modelo de embeddings (Multilingüe)
             embedding_function = HuggingFaceEmbeddings(
                 model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
             )
-            # Conexión a la DB
             db = Chroma(persist_directory="./chroma_db", embedding_function=embedding_function)
-            # 2. RECUPERACIÓN AMPLIADA (k=10)
             results_raw = db.similarity_search(query, k=10)
             if not results_raw:
                 return "No se encontró información relevante en las guías para esta consulta."
-            # 3. DEFINICIÓN DE "BASURA" (FILTROS)
             frases_basura = [
                 "End-User License Agreement",
                 "All Rights Reserved",
@@ -61,7 +64,7 @@ class BuscadorGuiasClinicas(BaseTool):
                 "ME-D"
             ]
-            # 4. PROCESO DE LIMPIEZA Y FORMATEO
             contexto = f"RESULTADOS (FILTRADOS) DE LA BASE DE DATOS PARA: '{query}'\n\n"
             contador_validos = 0
             max_resultados_utiles = 4
@@ -69,15 +72,15 @@ class BuscadorGuiasClinicas(BaseTool):
             for doc in results_raw:
                 contenido = doc.page_content
-                # A) Filtro de Contenido Prohibido
                 if any(basura in contenido for basura in frases_basura):
                     continue
-                # B) Filtro de Longitud
                 if len(contenido) < 50:
                     continue
-                # Si pasa los filtros, lo agregamos al reporte final
                 fuente = doc.metadata.get('source', 'Guía desconocida')
                 nombre_archivo = os.path.basename(fuente)
                 pagina = doc.metadata.get('page', '?')
@@ -90,7 +93,7 @@ class BuscadorGuiasClinicas(BaseTool):
                 if contador_validos >= max_resultados_utiles:
                     break
-            # Validación final
             if contador_validos == 0:
                 return "Se encontraron fragmentos, pero todos fueron descartados por ser texto legal (Disclaimers/Copyright)."

+# ===========================================================================================
+# 1. LIBRERIAS PARA HERRAMIENTA DE INGESTA RAG & CONFIGURACIONES PARA HUGGING FACE SPACES
+# ===========================================================================================
 __import__('pysqlite3')
 import sys
 sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
+# ==============================================================================
+# 2. DEFINICION DE FUNCION DE GUIAS CLINICAS
+# ==============================================================================
 class BuscadorGuiasClinicas(BaseTool):
     name: str = "Buscador de Guías Clínicas"
     def _run(self, query: str) -> str:
         try:
+# ==============================================================================
+# 3. BLOQUE DE SEGURIDAD PARA INPUTS
+# ==============================================================================
+            # 1. Si el modelo envía un diccionario o JSON malformado en lugar de texto plano:
             if isinstance(query, dict):
+                # 1.1 Intenta sacar el valor si viene en formato {'query': 'valor'}
                 query = query.get('query', str(query))
+                if isinstance(query, dict): # 1.2 Si sigue siendo dict
                     query = query.get('description', str(query))
+            # 2. Limpieza final de string por si quedan llaves sueltas
             query = str(query).replace("{'query':", "").replace("}", "").strip()
             # ==============================================================================
+            # 3. Configuración del modelo de embeddings (Multilingüe)
             embedding_function = HuggingFaceEmbeddings(
                 model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
             )
+            # 4. Conexión a la DB
             db = Chroma(persist_directory="./chroma_db", embedding_function=embedding_function)
+           # 5. RECUPERACIÓN AMPLIADA (k=10)
             results_raw = db.similarity_search(query, k=10)
             if not results_raw:
                 return "No se encontró información relevante en las guías para esta consulta."
+            # 6. DEFINICIÓN DE "BASURA" (FILTROS)
             frases_basura = [
                 "End-User License Agreement",
                 "All Rights Reserved",
                 "ME-D"
             ]
+            # 7. PROCESO DE LIMPIEZA Y FORMATEO
             contexto = f"RESULTADOS (FILTRADOS) DE LA BASE DE DATOS PARA: '{query}'\n\n"
             contador_validos = 0
             max_resultados_utiles = 4
             for doc in results_raw:
                 contenido = doc.page_content
+                # 7.1 Filtro de Contenido Prohibido
                 if any(basura in contenido for basura in frases_basura):
                     continue
+                # 7.2 Filtro de Longitud
                 if len(contenido) < 50:
                     continue
+                # 7.3 Si pasa los filtros, lo agregamos al reporte final
                 fuente = doc.metadata.get('source', 'Guía desconocida')
                 nombre_archivo = os.path.basename(fuente)
                 pagina = doc.metadata.get('page', '?')
                 if contador_validos >= max_resultados_utiles:
                     break
+            # 8. Validación final
             if contador_validos == 0:
                 return "Se encontraron fragmentos, pero todos fueron descartados por ser texto legal (Disclaimers/Copyright)."