Spaces:

aldohenrique
/

portalprogramando

Running

App Files Files Community

aldohenrique commited on Jun 10, 2025

Commit

e9c207d

verified ·

1 Parent(s): 4eb60e1

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -6

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import os
 import json
 import re
 import gradio as gr
-from typing import Dict, Any, List, Optional
 import pickle
 # --- Novas importações para o RAG ---
@@ -85,10 +85,11 @@ def scrape_text_from_url(url: str) -> str:
         print(f"Erro ao raspar {url}: {e}")
         return ""
-def build_and_save_vector_store() -> str:
     """
     Função principal do RAG: raspa o blog, cria chunks, gera embeddings e salva o vector store.
     Esta é a nossa função de "treino".
     """
     global vector_store
     start_time = time.time()
@@ -106,7 +107,7 @@ def build_and_save_vector_store() -> str:
     print(f"Textos extraídos de {len(all_texts)} novas páginas.")
     if not all_texts:
-        return "Nenhum novo conteúdo encontrado para treinar."
     # 3. Dividir os textos em chunks
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
@@ -128,7 +129,8 @@ def build_and_save_vector_store() -> str:
         pickle.dump(all_links, f)
     end_time = time.time()
-    return f"✅ Retreino do RAG concluído em {end_time - start_time:.2f} segundos. {len(chunks)} chunks de texto processados."
 def load_vector_store():
     """Carrega o vector store do arquivo, se existir."""
@@ -141,7 +143,9 @@ def load_vector_store():
     else:
         print("Nenhum vector store encontrado. É necessário treinar o modelo.")
         # Inicia o treino automaticamente se não houver um índice
-        build_and_save_vector_store()
 def retrieve_context_from_blog(query: str, k: int = 3) -> str:
     """Busca no vector store por chunks de texto similares à pergunta."""
@@ -274,6 +278,7 @@ def responder_como_aldo(pergunta: str, modelo_escolhido: str = DEFAULT_MODEL) ->
             "Responda com clareza, profundidade e tom acadêmico. Foque em explicar e não em só mostrar o resultado. "
             "Responda sempre em português brasileiro. Use blocos de código formatados com ```. "
             "Não responda nada se a pergunta não for sobre o universo de programação e tecnologia."
         )
         # Montar prompt do usuário, injetando o contexto do blog
@@ -366,6 +371,9 @@ with gr.Blocks(title="Dr. Aldo Henrique - API Externa", theme=gr.themes.Soft(),
     with gr.Accordion("⚙️ Controle do Conhecimento (RAG)", open=False):
         status_rag = gr.Textbox(label="Status do Retreino", interactive=False)
         botao_retreinar = gr.Button("🔄 Atualizar Conhecimento do Blog", variant="stop")
     with gr.Accordion("📚 Exemplos de Perguntas", open=False):
         gr.Examples(
@@ -393,7 +401,13 @@ with gr.Blocks(title="Dr. Aldo Henrique - API Externa", theme=gr.themes.Soft(),
     # Eventos
     botao_perguntar.click(fn=responder_como_aldo, inputs=[entrada, modelo_select], outputs=saida, show_progress=True)
     botao_testar.click(fn=testar_todos_modelos, outputs=status_api, show_progress=True)
-    botao_retreinar.click(fn=build_and_save_vector_store, outputs=status_rag, show_progress=True)
 # Lançar aplicação
 if __name__ == "__main__":

 import json
 import re
 import gradio as gr
+from typing import Dict, Any, List, Optional, Tuple # Importando Tuple
 import pickle
 # --- Novas importações para o RAG ---
         print(f"Erro ao raspar {url}: {e}")
         return ""
+def build_and_save_vector_store() -> Tuple[str, Optional[str], Optional[str]]: # Alterado o tipo de retorno para incluir os dois caminhos
     """
     Função principal do RAG: raspa o blog, cria chunks, gera embeddings e salva o vector store.
     Esta é a nossa função de "treino".
+    Retorna uma tupla (mensagem_status, caminho_do_arquivo_faiss_para_download, caminho_do_arquivo_urls_para_download).
     """
     global vector_store
     start_time = time.time()
     print(f"Textos extraídos de {len(all_texts)} novas páginas.")
     if not all_texts:
+        return "Nenhum novo conteúdo encontrado para treinar.", None, None # Retorna None para os arquivos se não houver conteúdo
     # 3. Dividir os textos em chunks
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
         pickle.dump(all_links, f)
     end_time = time.time()
+    message = f"✅ Retreino do RAG concluído em {end_time - start_time:.2f} segundos. {len(chunks)} chunks de texto processados."
+    return message, VECTOR_STORE_PATH, PROCESSED_URLS_PATH # Retorna a mensagem e os caminhos dos dois arquivos para download
 def load_vector_store():
     """Carrega o vector store do arquivo, se existir."""
     else:
         print("Nenhum vector store encontrado. É necessário treinar o modelo.")
         # Inicia o treino automaticamente se não houver um índice
+        # Modificado para ignorar o retorno dos caminhos dos arquivos ao carregar
+        message, _, _ = build_and_save_vector_store()
+        print(message) # Imprime a mensagem de status do treino inicial
 def retrieve_context_from_blog(query: str, k: int = 3) -> str:
     """Busca no vector store por chunks de texto similares à pergunta."""
             "Responda com clareza, profundidade e tom acadêmico. Foque em explicar e não em só mostrar o resultado. "
             "Responda sempre em português brasileiro. Use blocos de código formatados com ```. "
             "Não responda nada se a pergunta não for sobre o universo de programação e tecnologia."
+            "No código, sempre explique bem utilizando comentários, o aluno precisa aprender olhando os comentários."
         )
         # Montar prompt do usuário, injetando o contexto do blog
     with gr.Accordion("⚙️ Controle do Conhecimento (RAG)", open=False):
         status_rag = gr.Textbox(label="Status do Retreino", interactive=False)
         botao_retreinar = gr.Button("🔄 Atualizar Conhecimento do Blog", variant="stop")
+        # Novos componentes para download
+        download_faiss_file = gr.File(label="Download do Índice FAISS", interactive=False, file_count="single", file_types=[".pkl"])
+        download_urls_file = gr.File(label="Download das URLs Processadas", interactive=False, file_count="single", file_types=[".pkl"])
     with gr.Accordion("📚 Exemplos de Perguntas", open=False):
         gr.Examples(
     # Eventos
     botao_perguntar.click(fn=responder_como_aldo, inputs=[entrada, modelo_select], outputs=saida, show_progress=True)
     botao_testar.click(fn=testar_todos_modelos, outputs=status_api, show_progress=True)
+    # Atualiza o evento para a função build_and_save_vector_store
+    # Agora, ela retorna três valores: a mensagem de status e os caminhos dos dois arquivos
+    botao_retreinar.click(
+        fn=build_and_save_vector_store,
+        outputs=[status_rag, download_faiss_file, download_urls_file], # Saídas atualizadas
+        show_progress=True
+    )
 # Lançar aplicação
 if __name__ == "__main__":