Spaces:

leandroaraujodev
/

sicoob

Runtime error

App Files Files Community

leandroaraujodev commited on Dec 4, 2024

Commit

550c464

1 Parent(s): a168116

integracao gabriel

Browse files

Files changed (1) hide show

app.py +47 -34

app.py CHANGED Viewed

@@ -25,42 +25,28 @@ from typing import List, Optional
 from llama_index.core import PromptTemplate
 import torch
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
-import huggingface_hub
 import logging
 import sys
 from PIL import Image
-import gc
-def flush():
-  gc.collect()
-  torch.cuda.empty_cache()
-  torch.cuda.reset_peak_memory_stats()
-#Token do huggingface
-HF_TOKEN: Optional[str] = os.getenv("HF_TOKEN")
-huggingface_hub.login(HF_TOKEN)
 #Configuração da imagem da aba
-im = Image.open("./pngegg.png")
 st.set_page_config(page_title = "Chatbot Carômetro", page_icon=im, layout = "wide")
-# Lista de pastas que precisam ser criadas
-pastas = ["bm25_retriever", "chat_store", "chroma_db", "documentos"]
-# Criar cada pasta caso não exista
-for pasta in pastas:
-    if not os.path.exists(pasta):
-        os.makedirs(pasta)
-        print(f"Pasta '{pasta}' criada com sucesso.")
-    else:
-        print(f"Pasta '{pasta}' já existe.")
 # Configuração do Streamlit
 st.sidebar.title("Configuração de LLM")
-sidebar_option = st.sidebar.radio("Selecione o LLM", ["OpenAI", "HF Local"])
 # logo_url = 'app\logos\logo-sicoob.jpg'
 # st.sidebar.image(logo_url)
 import base64
@@ -82,22 +68,16 @@ with open("sicoob-logo.png", "rb") as f:
 #if sidebar_option == "Ollama":
    # Settings.llm = Ollama(model="llama3.2:latest", request_timeout=500.0, num_gpu=1)
    # Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text:latest")
-if sidebar_option == "gpt-3.5":
     from llama_index.llms.openai import OpenAI
     from llama_index.embeddings.openai import OpenAIEmbedding
-    os.environ["OPENAI_API_KEY"] = "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"
     Settings.llm = OpenAI(model="gpt-3.5-turbo")
     Settings.embed_model = OpenAIEmbedding(model_name="text-embedding-ada-002")
-elif sidebar_option == 'HF Local':
     logging.basicConfig(stream=sys.stdout, level=logging.INFO)
     logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
-    #query_wrapper_prompt = PromptTemplate(
-    #"Below are several documents about a company "
-    #"Write a response that appropriately completes the request.\n\n"
-    #"### Instruction:\n{query_str}\n\n### Response:"
-    #)
     #Embedding do huggingface
     Settings.embed_model = HuggingFaceEmbedding(
     model_name="BAAI/bge-small-en-v1.5"
@@ -139,6 +119,7 @@ elif sidebar_option == 'HF Local':
     tokenizer.apply_chat_template(chat, tokenize=False)
     Settings.chunk_size = 512
     Settings.llm = llm
@@ -149,7 +130,10 @@ else:
 chat_store_path = os.path.join("chat_store", "chat_store.json")
 documents_path = os.path.join("documentos")
 chroma_storage_path = os.path.join("chroma_db")  # Diretório para persistência do Chroma
 bm25_persist_path = os.path.join("bm25_retriever")
 # Configuração de leitura de documentos
 documents = SimpleDirectoryReader(input_dir=documents_path).load_data()
@@ -191,10 +175,39 @@ else:
     os.makedirs(bm25_persist_path, exist_ok=True)
     bm25_retriever.persist(bm25_persist_path)
 # Combinação de Retrievers (Embeddings + BM25)
 vector_retriever = index.as_retriever(similarity_top_k=2)
 retriever = QueryFusionRetriever(
-    [vector_retriever, bm25_retriever],
     similarity_top_k=2,
     num_queries=4,
     mode="reciprocal_rerank",
@@ -248,4 +261,4 @@ if user_input:
     for message in st.session_state.chat_history:
         role, text = message.split(":", 1)
         with st.chat_message(role.strip().lower()):
-            st.write(text.strip())

 from llama_index.core import PromptTemplate
 import torch
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 import logging
 import sys
 from PIL import Image
 #Configuração da imagem da aba
+im = Image.open("pngegg.png")
 st.set_page_config(page_title = "Chatbot Carômetro", page_icon=im, layout = "wide")
+#Removido loop e adicionado os.makedirs
+os.makedirs("bm25_retriever", exist_ok=True)
+os.makedirs("chat_store", exist_ok=True)
+os.makedirs("chroma_db", exist_ok=True)
+os.makedirs("documentos", exist_ok=True)
+os.makedirs("curadoria", exist_ok=True)
+os.makedirs("chroma_db_curadoria", exist_ok=True)
 # Configuração do Streamlit
 st.sidebar.title("Configuração de LLM")
+sidebar_option = st.sidebar.radio("Selecione o LLM", ["gpt-3.5-turbo", "NuExtract-1.5"])
 # logo_url = 'app\logos\logo-sicoob.jpg'
 # st.sidebar.image(logo_url)
 import base64
 #if sidebar_option == "Ollama":
    # Settings.llm = Ollama(model="llama3.2:latest", request_timeout=500.0, num_gpu=1)
    # Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text:latest")
+if sidebar_option == "gpt-3.5-turbo":
     from llama_index.llms.openai import OpenAI
     from llama_index.embeddings.openai import OpenAIEmbedding
     Settings.llm = OpenAI(model="gpt-3.5-turbo")
     Settings.embed_model = OpenAIEmbedding(model_name="text-embedding-ada-002")
+elif sidebar_option == 'NuExtract-1.5':
     logging.basicConfig(stream=sys.stdout, level=logging.INFO)
     logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
     #Embedding do huggingface
     Settings.embed_model = HuggingFaceEmbedding(
     model_name="BAAI/bge-small-en-v1.5"
     tokenizer.apply_chat_template(chat, tokenize=False)
     Settings.chunk_size = 512
     Settings.llm = llm
 chat_store_path = os.path.join("chat_store", "chat_store.json")
 documents_path = os.path.join("documentos")
 chroma_storage_path = os.path.join("chroma_db")  # Diretório para persistência do Chroma
+chroma_storage_path_curadoria = os.path.join("chroma_db_curadoria")  # Diretório para 'curadoria'
 bm25_persist_path = os.path.join("bm25_retriever")
+curadoria_path = os.path.join("curadoria")
 # Configuração de leitura de documentos
 documents = SimpleDirectoryReader(input_dir=documents_path).load_data()
     os.makedirs(bm25_persist_path, exist_ok=True)
     bm25_retriever.persist(bm25_persist_path)
+#Adicionado documentos na pasta curadoria, foi setado para 1200 o chunk pra receber pergunta, contexto e resposta
+curadoria_documents = SimpleDirectoryReader(input_dir=curadoria_path).load_data()
+curadoria_docstore = SimpleDocumentStore()
+curadoria_docstore.add_documents(curadoria_documents)
+db_curadoria = chromadb.PersistentClient(path=chroma_storage_path_curadoria)
+chroma_collection_curadoria = db_curadoria.get_or_create_collection("dense_vectors_curadoria")
+vector_store_curadoria = ChromaVectorStore(chroma_collection=chroma_collection_curadoria)
+# Configuração do StorageContext para 'curadoria'
+storage_context_curadoria = StorageContext.from_defaults(
+    docstore=curadoria_docstore, vector_store=vector_store_curadoria
+)
+# Criação/Recarregamento do índice com embeddings para 'curadoria'
+if os.path.exists(chroma_storage_path_curadoria):
+    curadoria_index = VectorStoreIndex.from_vector_store(vector_store_curadoria)
+else:
+    curadoria_splitter = LangchainNodeParser(
+        RecursiveCharacterTextSplitter(chunk_size=1200, chunk_overlap=100)
+    )
+    curadoria_index = VectorStoreIndex.from_documents(
+        curadoria_documents, storage_context=storage_context_curadoria, transformations=[curadoria_splitter]
+    )
+    vector_store_curadoria.persist()
+curadoria_retriever = curadoria_index.as_retriever(similarity_top_k=2)
 # Combinação de Retrievers (Embeddings + BM25)
 vector_retriever = index.as_retriever(similarity_top_k=2)
 retriever = QueryFusionRetriever(
+    [vector_retriever, bm25_retriever, curadoria_retriever],
     similarity_top_k=2,
     num_queries=4,
     mode="reciprocal_rerank",
     for message in st.session_state.chat_history:
         role, text = message.split(":", 1)
         with st.chat_message(role.strip().lower()):
+            st.write(text.strip())