Spaces:

roundb
/

SOGETREL

Sleeping

App Files Files Community

roundb commited on Feb 26

Commit

da2a921

verified ·

1 Parent(s): 6034b74

Update app.py

Browse files

Files changed (1) hide show

app.py +189 -189

app.py CHANGED Viewed

@@ -1,190 +1,190 @@
-#!/usr/bin/env python3
-"""
-RAG Chatbot – Gradio + FAISS + NVIDIA NIM
-Layout com cards automáticos usando examples do ChatInterface
-"""
-import os
-import glob
-from typing import List
-import gradio as gr
-import pandas as pd
-from openai import OpenAI
-from langchain_core.documents import Document
-from langchain_community.vectorstores import FAISS
-from langchain_huggingface import HuggingFaceEmbeddings
-from langchain_text_splitters import RecursiveCharacterTextSplitter
-# =========================
-# CONFIG
-# =========================
-DATA_DIR = os.getenv("DATA_DIR", "data")
-EMB_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
-CHUNK_SIZE = 900
-CHUNK_OVERLAP = 150
-TOP_K = 6
-MAX_CONTEXT_CHARS = 4500
-NVIDIA_API_KEY = os.getenv("NVIDIA_API_KEY", "")
-NVIDIA_BASE_URL = "https://integrate.api.nvidia.com/v1"
-NVIDIA_MODEL = "meta/llama-3.3-70b-instruct"
-client = OpenAI(base_url=NVIDIA_BASE_URL, api_key=NVIDIA_API_KEY) if NVIDIA_API_KEY else None
-SYSTEM_PROMPT = """Você é um assistente que responde perguntas com base em documentos.
-Responda SOMENTE com base no CONTEXTO recuperado.
-Se não houver evidência suficiente, diga claramente.
-Seja objetivo.
-"""
-# =========================
-# READ FILES
-# =========================
-SUPPORTED_EXT = {".pdf", ".docx", ".xlsx", ".xls", ".csv", ".txt"}
-def list_files(data_dir: str) -> List[str]:
-    files = []
-    for ext in SUPPORTED_EXT:
-        files.extend(glob.glob(os.path.join(data_dir, f"**/*{ext}"), recursive=True))
-    return sorted(set(files))
-def read_txt(path):
-    try:
-        with open(path, "r", encoding="utf-8", errors="ignore") as f:
-            return f.read()
-    except:
-        return ""
-def read_csv(path):
-    try:
-        df = pd.read_csv(path)
-        return df.head(1000).to_csv(index=False)
-    except:
-        return ""
-def read_docx(path):
-    from docx import Document as DocxDocument
-    doc = DocxDocument(path)
-    return "\n".join([p.text for p in doc.paragraphs if p.text.strip()])
-def read_pdf(path):
-    from pypdf import PdfReader
-    reader = PdfReader(path)
-    return "\n".join([p.extract_text() or "" for p in reader.pages])
-# =========================
-# BUILD VECTOR DATABASE
-# =========================
-def build_vectordb():
-    files = list_files(DATA_DIR)
-    if not files:
-        raise FileNotFoundError("Nenhum arquivo encontrado na pasta data/")
-    docs = []
-    splitter = RecursiveCharacterTextSplitter(
-        chunk_size=CHUNK_SIZE,
-        chunk_overlap=CHUNK_OVERLAP
-    )
-    for path in files:
-        ext = os.path.splitext(path)[1].lower()
-        text = ""
-        if ext == ".txt":
-            text = read_txt(path)
-        elif ext == ".csv":
-            text = read_csv(path)
-        elif ext in [".xlsx", ".xls"]:
-            text = read_csv(path)
-        elif ext == ".docx":
-            text = read_docx(path)
-        elif ext == ".pdf":
-            text = read_pdf(path)
-        for chunk in splitter.split_text(text):
-            docs.append(Document(page_content=chunk, metadata={"source": path}))
-    embedding = HuggingFaceEmbeddings(model_name=EMB_MODEL)
-    db = FAISS.from_documents(docs, embedding)
-    return db
-vectordb = build_vectordb()
-# =========================
-# SUGGESTIONS (CARDS)
-# =========================
-SUGGESTIONS = [
-    "Resuma os principais pontos do documento.",
-    "Quais procedimentos são descritos?",
-    "Liste requisitos ou obrigações mencionadas.",
-    "Explique os termos técnicos utilizados.",
-    "Há prazos ou datas importantes?",
-    "Existe checklist operacional?",
-    "Quais seções são mais relevantes?",
-    "Há diferenças entre versões?"
-]
-# =========================
-# RAG FUNCTION
-# =========================
-def format_context(docs):
-    context = "\n\n".join([d.page_content for d in docs])
-    if len(context) > MAX_CONTEXT_CHARS:
-        context = context[:MAX_CONTEXT_CHARS]
-    return context
-def chat_rag_nvidia(message, history):
-    if not client:
-        return "❌ Configure NVIDIA_API_KEY."
-    retrieved = vectordb.similarity_search(message, k=TOP_K)
-    context = format_context(retrieved)
-    messages = [
-        {"role": "system", "content": SYSTEM_PROMPT},
-        {"role": "user", "content": f"CONTEXTO:\n{context}\n\nPERGUNTA:\n{message}"}
-    ]
-    completion = client.chat.completions.create(
-        model=NVIDIA_MODEL,
-        messages=messages,
-        temperature=0.3,
-        max_tokens=800,
-    )
-    return completion.choices[0].message.content
-# =========================
-# UI (USANDO EXAMPLES NATIVOS)
-# =========================
-with gr.Blocks(title="Document RAG Assistant") as demo:
-    gr.Markdown("""
-    ## 📚 SOGETREL
-    Faça perguntas sobre os documentos indexados.
-    """)
-    gr.ChatInterface(
-        fn=chat_rag_nvidia,
-        examples=SUGGESTIONS,  # ← Aqui são gerados os cards automaticamente
-        title="Assistant",
-        description="Pergunte algo sobre os documentos."
-    )
-if __name__ == "__main__":
     demo.launch()

+#!/usr/bin/env python3
+"""
+RAG Chatbot – Gradio + FAISS + NVIDIA NIM
+Layout com cards automáticos usando examples do ChatInterface
+"""
+import os
+import glob
+from typing import List
+import gradio as gr
+import pandas as pd
+from openai import OpenAI
+from langchain_core.documents import Document
+from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+#
+# =========================
+# CONFIG
+# =========================
+DATA_DIR = os.getenv("DATA_DIR", "data")
+EMB_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
+CHUNK_SIZE = 900
+CHUNK_OVERLAP = 150
+TOP_K = 6
+MAX_CONTEXT_CHARS = 4500
+NVIDIA_API_KEY = os.getenv("NVIDIA_API_KEY", "")
+NVIDIA_BASE_URL = "https://integrate.api.nvidia.com/v1"
+NVIDIA_MODEL = "meta/llama-3.3-70b-instruct"
+client = OpenAI(base_url=NVIDIA_BASE_URL, api_key=NVIDIA_API_KEY) if NVIDIA_API_KEY else None
+SYSTEM_PROMPT = """Você é um assistente que responde perguntas com base em documentos.
+Responda SOMENTE com base no CONTEXTO recuperado.
+Se não houver evidência suficiente, diga claramente.
+Seja objetivo.
+"""
+# =========================
+# READ FILES
+# =========================
+SUPPORTED_EXT = {".pdf", ".docx", ".xlsx", ".xls", ".csv", ".txt"}
+def list_files(data_dir: str) -> List[str]:
+    files = []
+    for ext in SUPPORTED_EXT:
+        files.extend(glob.glob(os.path.join(data_dir, f"**/*{ext}"), recursive=True))
+    return sorted(set(files))
+def read_txt(path):
+    try:
+        with open(path, "r", encoding="utf-8", errors="ignore") as f:
+            return f.read()
+    except:
+        return ""
+def read_csv(path):
+    try:
+        df = pd.read_csv(path)
+        return df.head(1000).to_csv(index=False)
+    except:
+        return ""
+def read_docx(path):
+    from docx import Document as DocxDocument
+    doc = DocxDocument(path)
+    return "\n".join([p.text for p in doc.paragraphs if p.text.strip()])
+def read_pdf(path):
+    from pypdf import PdfReader
+    reader = PdfReader(path)
+    return "\n".join([p.extract_text() or "" for p in reader.pages])
+# =========================
+# BUILD VECTOR DATABASE
+# =========================
+def build_vectordb():
+    files = list_files(DATA_DIR)
+    if not files:
+        raise FileNotFoundError("Nenhum arquivo encontrado na pasta data/")
+    docs = []
+    splitter = RecursiveCharacterTextSplitter(
+        chunk_size=CHUNK_SIZE,
+        chunk_overlap=CHUNK_OVERLAP
+    )
+    for path in files:
+        ext = os.path.splitext(path)[1].lower()
+        text = ""
+        if ext == ".txt":
+            text = read_txt(path)
+        elif ext == ".csv":
+            text = read_csv(path)
+        elif ext in [".xlsx", ".xls"]:
+            text = read_csv(path)
+        elif ext == ".docx":
+            text = read_docx(path)
+        elif ext == ".pdf":
+            text = read_pdf(path)
+        for chunk in splitter.split_text(text):
+            docs.append(Document(page_content=chunk, metadata={"source": path}))
+    embedding = HuggingFaceEmbeddings(model_name=EMB_MODEL)
+    db = FAISS.from_documents(docs, embedding)
+    return db
+vectordb = build_vectordb()
+# =========================
+# SUGGESTIONS (CARDS)
+# =========================
+SUGGESTIONS = [
+    "Resuma os principais pontos do documento.",
+    "Quais procedimentos são descritos?",
+    "Liste requisitos ou obrigações mencionadas.",
+    "Explique os termos técnicos utilizados.",
+    "Há prazos ou datas importantes?",
+    "Existe checklist operacional?",
+    "Quais seções são mais relevantes?",
+    "Há diferenças entre versões?"
+]
+# =========================
+# RAG FUNCTION
+# =========================
+def format_context(docs):
+    context = "\n\n".join([d.page_content for d in docs])
+    if len(context) > MAX_CONTEXT_CHARS:
+        context = context[:MAX_CONTEXT_CHARS]
+    return context
+def chat_rag_nvidia(message, history):
+    if not client:
+        return "❌ Configure NVIDIA_API_KEY."
+    retrieved = vectordb.similarity_search(message, k=TOP_K)
+    context = format_context(retrieved)
+    messages = [
+        {"role": "system", "content": SYSTEM_PROMPT},
+        {"role": "user", "content": f"CONTEXTO:\n{context}\n\nPERGUNTA:\n{message}"}
+    ]
+    completion = client.chat.completions.create(
+        model=NVIDIA_MODEL,
+        messages=messages,
+        temperature=0.3,
+        max_tokens=800,
+    )
+    return completion.choices[0].message.content
+# =========================
+# UI (USANDO EXAMPLES NATIVOS)
+# =========================
+with gr.Blocks(title="Document RAG Assistant") as demo:
+    gr.Markdown("""
+    ## 📚 SOGETREL
+    Faça perguntas sobre os documentos indexados.
+    """)
+    gr.ChatInterface(
+        fn=chat_rag_nvidia,
+        examples=SUGGESTIONS,  # ← Aqui são gerados os cards automaticamente
+        title="Assistant",
+        description="Pergunte algo sobre os documentos."
+    )
+if __name__ == "__main__":
     demo.launch()