Spaces:

caarleexx
/

Iza

Sleeping

App Files Files Community

caarleexx commited on 29 days ago

Commit

9456eeb

verified ·

1 Parent(s): bb070b7

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -28

app.py CHANGED Viewed

@@ -9,14 +9,13 @@ from groq import Groq
 # --- IMPORTS LANGCHAIN / RAG ---
 from langchain_community.document_loaders import TextLoader
-from langchain_community.document_loaders import PyPDFLoader # Para carregar PDFs
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_huggingface import HuggingFaceEmbeddings # Embeddings que rodam na CPU
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain_groq import ChatGroq
-# O LangChain precisa de uma chave de API para o modelo de embeddings (se usar OpenAI),
-# mas o HuggingFaceEmbeddings é local/gratuito.
 # 1. Título da Página e Configuração de Layout
 st.set_page_config(page_title="Iza - Assistente Groq RAG", layout="wide")
@@ -79,28 +78,32 @@ groq_llm = ChatGroq(model_name="mixtral-8x7b-32768", temperature=0.7)
 with st.sidebar:
     st.header("Opções")
-    # Adicionando uma variável de sessão para rastrear o arquivo processado
     if 'retriever' not in st.session_state:
         st.session_state.retriever = None
         st.session_state.retriever_source = None
-    uploaded_file = st.file_uploader("Anexe um arquivo (.txt, .md, .pdf)", type=["txt", "md", "pdf"])
-    # Processamento do Arquivo
     if uploaded_file:
-        # Apenas processa se o arquivo for novo ou o retriever ainda não existir
         if st.session_state.retriever_source != uploaded_file.name:
-            # 1. SALVAR/LER ARQUIVO TEMPORARIAMENTE
-            bytes_data = uploaded_file.read()
-            # Cria um caminho de arquivo temporário (importa o 'os' para remover depois, se necessário)
             file_path = f"./temp_file_{uploaded_file.name.replace('/', '_')}"
             try:
                 with open(file_path, "wb") as f:
                     f.write(bytes_data)
-                # 2. CONFIGURAÇÃO RAG
-                with st.spinner(f"Processando '{uploaded_file.name}' para pesquisa..."):
                     # Carregamento do Documento
                     if uploaded_file.type == 'application/pdf':
@@ -108,42 +111,42 @@ with st.sidebar:
                     elif uploaded_file.type in ['text/markdown', 'text/plain']:
                         loader = TextLoader(file_path)
                     else:
-                        st.error("Tipo de arquivo não suportado após o upload.")
-                        st.session_state.retriever = None
-                        st.session_state.retriever_source = None
                     documents = loader.load()
-                    # Fragmentação do Texto
                     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
                     texts = text_splitter.split_documents(documents)
                     # HuggingFace Embeddings (Roda na CPU)
                     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
-                    # Criar o Vector Store (FAISS)
                     vectorstore = FAISS.from_documents(texts, embeddings)
-                    # Criar o Retriever e armazenar na sessão
                     st.session_state.retriever = vectorstore.as_retriever()
                     st.session_state.retriever_source = uploaded_file.name
-                    st.success(f"Arquivo '{uploaded_file.name}' processado e pronto para pesquisa!")
             except Exception as e:
-                st.error(f"Erro ao processar o arquivo com LangChain: {e}")
                 st.session_state.retriever = None
                 st.session_state.retriever_source = None
             finally:
-                # Tenta remover o arquivo temporário
                 if os.path.exists(file_path):
                     os.remove(file_path)
         else:
-             # Se o arquivo já foi processado e está na sessão
-             st.success(f"Arquivo '{st.session_state.retriever_source}' carregado e pronto para pesquisa!")
     elif st.session_state.retriever_source is not None:
-         # Limpa se o widget do uploader estiver vazio mas o retriever estiver ativo
          st.session_state.retriever = None
          st.session_state.retriever_source = None
@@ -185,10 +188,10 @@ if prompt := st.chat_input("Pergunte algo sobre o documento ou faça uma pesquis
                     llm=groq_llm,
                     chain_type="stuff",
                     retriever=st.session_state.retriever,
-                    return_source_documents=False # Opcional: mude para True para ver as fontes
                 )
-                # OBS: A resposta RAG geralmente não faz streaming de forma simples.
                 with st.spinner("Buscando no documento e gerando resposta..."):
                     result = qa_chain.invoke({"query": prompt})
                     full_response = result['result']

 # --- IMPORTS LANGCHAIN / RAG ---
 from langchain_community.document_loaders import TextLoader
+from langchain_community.document_loaders import PyPDFLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_huggingface import HuggingFaceEmbeddings # Embeddings que rodam na CPU
 from langchain_community.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain_groq import ChatGroq
+# --------------------------
 # 1. Título da Página e Configuração de Layout
 st.set_page_config(page_title="Iza - Assistente Groq RAG", layout="wide")
 with st.sidebar:
     st.header("Opções")
+    # Inicializa variáveis de sessão para RAG
     if 'retriever' not in st.session_state:
         st.session_state.retriever = None
         st.session_state.retriever_source = None
+    uploaded_file = st.file_uploader(
+        "Anexe um arquivo para pesquisa RAG (opcional)",
+        type=["txt", "md", "pdf"],
+        help="O arquivo será processado e a IA poderá responder perguntas sobre seu conteúdo."
+    )
+    # Lógica de Processamento do Arquivo
     if uploaded_file:
+        # Apenas processa se o arquivo for novo
         if st.session_state.retriever_source != uploaded_file.name:
             file_path = f"./temp_file_{uploaded_file.name.replace('/', '_')}"
             try:
+                # 1. SALVAR/LER ARQUIVO TEMPORARIAMENTE
+                bytes_data = uploaded_file.read()
                 with open(file_path, "wb") as f:
                     f.write(bytes_data)
+                # 2. CONFIGURAÇÃO RAG (Processo de Embedding)
+                with st.spinner(f"Processando '{uploaded_file.name}' com LangChain e HuggingFace Embeddings (CPU)..."):
                     # Carregamento do Documento
                     if uploaded_file.type == 'application/pdf':
                     elif uploaded_file.type in ['text/markdown', 'text/plain']:
                         loader = TextLoader(file_path)
                     else:
+                        raise ValueError("Tipo de arquivo não suportado após o upload.")
                     documents = loader.load()
                     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
                     texts = text_splitter.split_documents(documents)
                     # HuggingFace Embeddings (Roda na CPU)
                     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
                     vectorstore = FAISS.from_documents(texts, embeddings)
+                    # Armazenar na sessão
                     st.session_state.retriever = vectorstore.as_retriever()
                     st.session_state.retriever_source = uploaded_file.name
+                    st.success(f"Arquivo '{uploaded_file.name}' processado! Pergunte sobre ele.")
             except Exception as e:
+                # Tratamento de erro 403 e outros
+                if "403" in str(e):
+                    st.error("Erro no upload (403 Forbidden). O servidor está rejeitando a requisição. Tente com um arquivo menor ou execute localmente.")
+                else:
+                    st.error(f"Erro ao processar o arquivo com LangChain: {e}")
                 st.session_state.retriever = None
                 st.session_state.retriever_source = None
             finally:
+                # Garante que o arquivo temporário seja removido
                 if os.path.exists(file_path):
                     os.remove(file_path)
         else:
+             # Se o arquivo já foi processado
+             st.info(f"O arquivo '{st.session_state.retriever_source}' já foi processado e está ativo.")
     elif st.session_state.retriever_source is not None:
+         # Limpa se o uploader foi esvaziado, mas o retriever estava ativo
+         st.warning("O arquivo processado foi removido. A IA voltará a usar pesquisa web.")
          st.session_state.retriever = None
          st.session_state.retriever_source = None
                     llm=groq_llm,
                     chain_type="stuff",
                     retriever=st.session_state.retriever,
+                    return_source_documents=False
                 )
+                # OBS: A resposta RAG vem completa (sem streaming simples)
                 with st.spinner("Buscando no documento e gerando resposta..."):
                     result = qa_chain.invoke({"query": prompt})
                     full_response = result['result']