Spaces:

DHEIVER
/

my-rag-space

Sleeping

App Files Files Community

DHEIVER commited on Jan 28, 2025

Commit

919807f

verified ·

1 Parent(s): 36fef6e

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -43

app.py CHANGED Viewed

@@ -3,19 +3,16 @@ from typing import Optional, Tuple
 import gradio as gr
 from langchain_community.document_loaders import PyPDFLoader, DirectoryLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.vectorstores import FAISS
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
 import tempfile
 import time
 # Configurações
-EMBEDDING_MODEL = "sentence-transformers/all-mpnet-base-v2"
 LLM_MODEL = "google/flan-t5-large"
 DOCS_DIR = "documents"
-class RAGSystem:
     def __init__(self):
         # Carrega o modelo e o tokenizador
         self.tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL)
@@ -25,16 +22,10 @@ class RAGSystem:
             torch_dtype=torch.float32
         )
-        # Configurações de embedding
-        self.embeddings = HuggingFaceEmbeddings(
-            model_name=EMBEDDING_MODEL,
-            model_kwargs={'device': 'cpu'}
-        )
         # Carrega a base de conhecimento
-        self.base_db = self.load_base_knowledge()
-    def load_base_knowledge(self) -> Optional[FAISS]:
         try:
             if not os.path.exists(DOCS_DIR):
                 os.makedirs(DOCS_DIR)
@@ -60,14 +51,14 @@ class RAGSystem:
             )
             texts = text_splitter.split_documents(documents)
-            # Cria o banco de dados de embeddings
-            return FAISS.from_documents(texts, self.embeddings)
         except Exception as e:
             print(f"Erro ao carregar base de conhecimento: {str(e)}")
             return None
-    def process_pdf(self, file_content: bytes) -> Optional[FAISS]:
         try:
             # Salva o PDF temporariamente
             with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp_file:
@@ -91,19 +82,25 @@ class RAGSystem:
             )
             texts = text_splitter.split_documents(documents)
-            # Cria o banco de dados de embeddings
-            db = FAISS.from_documents(texts, self.embeddings)
-            # Combina com a base de conhecimento existente, se houver
-            if self.base_db is not None:
-                db.merge_from(self.base_db)
-            return db
         except Exception as e:
             print(f"Erro ao processar PDF: {str(e)}")
             return None
     def generate_response(self, file_obj, query: str, progress=gr.Progress()) -> Tuple[str, str, str]:
         """Retorna (resposta, status, tempo_decorrido)"""
         if not query.strip():
@@ -115,7 +112,7 @@ class RAGSystem:
             # Determina a fonte dos documentos
             has_pdf = file_obj is not None
-            has_base = self.base_db is not None
             source_type = "both" if has_pdf and has_base else "pdf" if has_pdf else "base" if has_base else None
             if not source_type:
@@ -123,30 +120,26 @@ class RAGSystem:
             # Processa documento
             if has_pdf:
-                db = self.process_pdf(file_obj)
-                if db is None:
                     return "Não foi possível processar o PDF.", "❌ Erro no processamento", "0s"
             else:
-                db = self.base_db
             progress(0.4, desc="Buscando informações relevantes...")
-            # Recupera os trechos relevantes
-            retriever = db.as_retriever(
-                search_kwargs={
-                    "k": 6,  # Número de trechos recuperados
-                    "fetch_k": 10,
-                    "score_threshold": 0.5  # Limiar de relevância
-                }
-            )
-            context_docs = retriever.get_relevant_documents(query)
-            # Verifica se o contexto é relevante
-            if not context_docs:
                 return "🔍 Não foram encontradas informações suficientes nos documentos para responder esta pergunta.", "⚠️ Contexto insuficiente", f"{time.time() - start_time:.1f}s"
             # Prepara o contexto para o prompt
-            context = "\n\n".join([doc.page_content for doc in context_docs])
             progress(0.6, desc="Gerando resposta...")
@@ -185,7 +178,7 @@ class RAGSystem:
             return f"Erro ao gerar resposta: {str(e)}", "❌ Erro", elapsed_time
 def create_demo():
-    rag = RAGSystem()
     with gr.Blocks(theme=gr.themes.Soft()) as demo:
         with gr.Column(elem_id="container"):
@@ -194,7 +187,7 @@ def create_demo():
                 """
                 # 🤖 Assistente de Documentos Inteligente
-                Sistema de consulta avançada que responde perguntas sobre seus documentos usando RAG.
                 """
             )
@@ -274,7 +267,7 @@ def create_demo():
                 """
                 ---
                 ### 🔧 Informações do Sistema
-                * Respostas geradas usando tecnologia RAG (Retrieval-Augmented Generation)
                 * Processamento inteligente de documentos PDF
                 * Respostas baseadas exclusivamente no conteúdo dos documentos
                 * Suporte a múltiplos documentos e contextos
@@ -283,7 +276,7 @@ def create_demo():
         # Eventos
         submit_btn.click(
-            fn=rag.generate_response,
             inputs=[file_input, query_input],
             outputs=[response_output, status_output, time_output],
         )

 import gradio as gr
 from langchain_community.document_loaders import PyPDFLoader, DirectoryLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
 import tempfile
 import time
 # Configurações
 LLM_MODEL = "google/flan-t5-large"
 DOCS_DIR = "documents"
+class DocumentQA:
     def __init__(self):
         # Carrega o modelo e o tokenizador
         self.tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL)
             torch_dtype=torch.float32
         )
         # Carrega a base de conhecimento
+        self.base_texts = self.load_base_knowledge()
+    def load_base_knowledge(self) -> Optional[list]:
         try:
             if not os.path.exists(DOCS_DIR):
                 os.makedirs(DOCS_DIR)
             )
             texts = text_splitter.split_documents(documents)
+            # Extrai o texto dos trechos
+            return [doc.page_content for doc in texts]
         except Exception as e:
             print(f"Erro ao carregar base de conhecimento: {str(e)}")
             return None
+    def process_pdf(self, file_content: bytes) -> Optional[list]:
         try:
             # Salva o PDF temporariamente
             with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp_file:
             )
             texts = text_splitter.split_documents(documents)
+            # Extrai o texto dos trechos
+            return [doc.page_content for doc in texts]
         except Exception as e:
             print(f"Erro ao processar PDF: {str(e)}")
             return None
+    def find_relevant_texts(self, query: str, texts: list) -> list:
+        """Encontra trechos relevantes com base em palavras-chave da pergunta."""
+        relevant_texts = []
+        query_keywords = set(query.lower().split())
+        for text in texts:
+            text_keywords = set(text.lower().split())
+            if query_keywords.intersection(text_keywords):
+                relevant_texts.append(text)
+        return relevant_texts
     def generate_response(self, file_obj, query: str, progress=gr.Progress()) -> Tuple[str, str, str]:
         """Retorna (resposta, status, tempo_decorrido)"""
         if not query.strip():
             # Determina a fonte dos documentos
             has_pdf = file_obj is not None
+            has_base = self.base_texts is not None
             source_type = "both" if has_pdf and has_base else "pdf" if has_pdf else "base" if has_base else None
             if not source_type:
             # Processa documento
             if has_pdf:
+                pdf_texts = self.process_pdf(file_obj)
+                if pdf_texts is None:
                     return "Não foi possível processar o PDF.", "❌ Erro no processamento", "0s"
             else:
+                pdf_texts = []
+            # Combina os textos
+            all_texts = pdf_texts + (self.base_texts if self.base_texts else [])
             progress(0.4, desc="Buscando informações relevantes...")
+            # Encontra trechos relevantes
+            relevant_texts = self.find_relevant_texts(query, all_texts)
+            # Verifica se há trechos relevantes
+            if not relevant_texts:
                 return "🔍 Não foram encontradas informações suficientes nos documentos para responder esta pergunta.", "⚠️ Contexto insuficiente", f"{time.time() - start_time:.1f}s"
             # Prepara o contexto para o prompt
+            context = "\n\n".join(relevant_texts)
             progress(0.6, desc="Gerando resposta...")
             return f"Erro ao gerar resposta: {str(e)}", "❌ Erro", elapsed_time
 def create_demo():
+    qa_system = DocumentQA()
     with gr.Blocks(theme=gr.themes.Soft()) as demo:
         with gr.Column(elem_id="container"):
                 """
                 # 🤖 Assistente de Documentos Inteligente
+                Sistema de consulta avançada que responde perguntas sobre seus documentos.
                 """
             )
                 """
                 ---
                 ### 🔧 Informações do Sistema
+                * Respostas geradas usando tecnologia de processamento de linguagem natural
                 * Processamento inteligente de documentos PDF
                 * Respostas baseadas exclusivamente no conteúdo dos documentos
                 * Suporte a múltiplos documentos e contextos
         # Eventos
         submit_btn.click(
+            fn=qa_system.generate_response,
             inputs=[file_input, query_input],
             outputs=[response_output, status_output, time_output],
         )