Spaces:

vecervantes89
/

asistente_auditoria_ia

Sleeping

App Files Files Community

vecervantes89 commited on Oct 22, 2025

Commit

3698f4a

verified ·

1 Parent(s): 34ffabd

Upload 3 files

Browse files

Files changed (3) hide show

app3.py +138 -0
requirements.txt +17 -0
runtime.txt +1 -0

app3.py ADDED Viewed

	@@ -0,0 +1,138 @@

+import os
+import re
+import pdfplumber
+import gradio as gr
+from openai import OpenAI
+from huggingface_hub import hf_hub_download, list_repo_files
+from dotenv import load_dotenv
+# ------------------------------------------------------------
+# CONFIGURACIÓN DEL CLIENTE OPENAI
+# ------------------------------------------------------------
+load_dotenv()
+client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
+# ------------------------------------------------------------
+# CONFIGURACIÓN DEL ASISTENTE
+# ------------------------------------------------------------
+system_prompt = """
+Eres un Asistente de Inteligencia Artificial especializado en Auditoría Interna,
+formado bajo las Normas Internacionales para la Práctica Profesional de la Auditoría Interna
+emitidas por el IIA (Institute of Internal Auditors).
+Tu función es apoyar a auditores internos en análisis, planeación, ejecución,
+evaluación y documentación de auditorías, así como en la preparación para el
+examen CIA (Certified Internal Auditor). Tus respuestas deben reflejar:
+- Objetividad, integridad y confidencialidad.
+- Los valores de Gentera: Responsabilidad, Empatía, Innovación y Transparencia.
+- Lenguaje claro, profesional y humano.
+Si la pregunta se relaciona con auditoría, control interno, riesgos o ética profesional,
+responde con rigor técnico y ejemplos prácticos. Si se pide un resumen de un PDF,
+integra el contenido del documento correspondiente.
+"""
+# ------------------------------------------------------------
+# CARGA DE PDFs DESDE HUGGING FACE (DATASET)
+# ------------------------------------------------------------
+REPO_ID = "vecervantes89/auditoria_interna_pdfs"
+REPO_TYPE = "dataset"  # <- ESTA LÍNEA ES CLAVE
+def extract_pdf_text(local_path):
+    """Extrae texto completo de un archivo PDF."""
+    text_parts = []
+    with pdfplumber.open(local_path) as pdf:
+        for page in pdf.pages:
+            text_parts.append(page.extract_text() or "")
+    return "\n".join(text_parts)
+def load_hf_pdfs_text(repo_id, repo_type="dataset"):
+    """Carga y concatena el texto de todos los PDFs del dataset en Hugging Face."""
+    try:
+        files = [f for f in list_repo_files(repo_id=repo_id, repo_type=repo_type) if f.lower().endswith(".pdf")]
+    except Exception as e:
+        print(f"[ERROR] No se pudo listar los archivos del repo '{repo_id}': {e}")
+        return {"files": [], "all_text": "", "by_name": {}}
+    entries = []
+    for f in files:
+        try:
+            local_path = hf_hub_download(repo_id=repo_id, filename=f, repo_type=repo_type)
+            text = extract_pdf_text(local_path)
+            entries.append({"name": f, "text": text})
+            print(f"[OK] Cargado {f}")
+        except Exception as e:
+            print(f"[ERROR] Falló la carga de {f}: {e}")
+    all_text = "\n\n".join(e["text"] for e in entries)
+    by_name = {e["name"]: e["text"] for e in entries}
+    print(f"[INFO] Se cargaron {len(entries)} PDFs correctamente desde {repo_id}.")
+    return {"files": entries, "all_text": all_text, "by_name": by_name}
+HF_DOCS = load_hf_pdfs_text(REPO_ID, REPO_TYPE)
+# ------------------------------------------------------------
+# LÓGICA DEL CHAT
+# ------------------------------------------------------------
+def buscar_mejor_fragmento(pregunta, docs, max_chars=3000):
+    """Encuentra el fragmento más relevante de los PDFs para la pregunta."""
+    q = pregunta.lower()
+    for name, text in docs["by_name"].items():
+        if name.lower() in q:
+            return name, text[:max_chars]
+    tokens = [t for t in re.findall(r"[a-záéíóúüñ0-9]+", q) if len(t) > 2]
+    best_name, best_score, best_text = "", 0, ""
+    for e in docs["files"]:
+        score = sum(e["text"].lower().count(t) for t in tokens)
+        if score > best_score:
+            best_score, best_name, best_text = score, e["name"], e["text"]
+    return (best_name, best_text[:max_chars]) if best_score > 0 else ("", "")
+def responder(mensaje, historial):
+    try:
+        nombre_pdf, fragmento = buscar_mejor_fragmento(mensaje, HF_DOCS)
+        if fragmento:
+            contexto = (
+                f"El siguiente texto proviene del documento '{nombre_pdf}'. "
+                "Úsalo para responder de manera clara, breve y profesional:\n\n"
+                f"{fragmento}\n\nPregunta del usuario:\n{mensaje}"
+            )
+        else:
+            contexto = mensaje
+        chat = client.chat.completions.create(
+            model="gpt-4o",
+            messages=[
+                {"role": "system", "content": system_prompt},
+                {"role": "user", "content": contexto},
+            ],
+            temperature=0.3,
+        )
+        respuesta = chat.choices[0].message.content
+    except Exception as e:
+        respuesta = f"⚠️ Error: {e}"
+    return "", historial + [[mensaje, respuesta]]
+# ------------------------------------------------------------
+# INTERFAZ VISUAL GRADIO
+# ------------------------------------------------------------
+with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue")) as demo:
+    gr.HTML("""
+    <div style="text-align:center; margin-bottom:20px;">
+        <img src="https://huggingface.co/front/assets/huggingface_logo-noborder.svg" width="70" alt="Logo">
+        <h1 style="color:#003366;">Asistente IA de Auditoría Interna</h1>
+        <p style="font-size:15px;">Basado en GPT-4o y los valores del IIA y Gentera</p>
+    </div>
+    """)
+    chat = gr.Chatbot(label="Chat Asistente Auditoría")
+    msg = gr.Textbox(placeholder="Escribe tu consulta aquí...", label="Tu mensaje")
+    clear = gr.Button("🧹 Limpiar chat")
+    msg.submit(responder, [msg, chat], [msg, chat])
+    clear.click(lambda: None, None, chat)
+    gr.HTML("<p style='text-align:center; color:gray; font-size:12px;'>© 2025 Gentera AI · Desarrollado por Verónica Cervantes</p>")
+demo.launch(server_name="127.0.0.1", server_port=7861, share=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+# UI
+gradio==4.44.1
+# OpenAI SDK (nuevo)
+openai>=1.42.0,<2
+# PDFs
+pdfplumber==0.11.0
+pillow>=10.4.0
+# HF Hub para leer PDFs del dataset/space
+huggingface_hub>=0.25.2,<1
+# Utilidades
+python-dotenv>=1.0.1
+requests>=2.32.3

runtime.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ python-3.10