Spaces:

dauid64
/

chat_proteomica

Sleeping

App Files Files Community

dauid64 commited on Feb 3, 2025

Commit

7dc5f52

0 Parent(s):

first commit

Browse files

Files changed (5) hide show

.gitignore +3 -0
.vscode/launch.json +18 -0
app/main.py +77 -0
app/model/chat_agent.py +7 -0
doc_parse/main.py +60 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+/data/articles/
+.env
+venv

.vscode/launch.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    // Use IntelliSense to learn about possible attributes.
+    // Hover to view descriptions of existing attributes.
+    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
+    "version": "0.2.0",
+    "configurations": [
+        {
+            "name": "Start app",
+            "type": "debugpy",
+            "request": "launch",
+            "module": "streamlit",
+            "args": [
+                "run",
+                "app/main.py"
+            ]
+        }
+    ]
+}

app/main.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import os
+from dotenv import load_dotenv
+from langchain_openai import OpenAIEmbeddings
+from langchain_core.prompts import PromptTemplate
+from langchain_core.messages import SystemMessage
+from langchain_qdrant import QdrantVectorStore
+from langchain_openai import ChatOpenAI
+import streamlit as st
+load_dotenv(dotenv_path=".env", override=True)
+base_prompt = PromptTemplate.from_template(
+    """
+    Responda a pergunta abaixo de acordo com base no contexto passado para você. O contexto será passado em formato JSON
+    onde teremos 3 referências para sua resposta, as chaves "source" indica o caminho do arquivo juntamente com
+    o nome do arquivo PDF, "page" que é a página localizada no arquivo PDF e "page_label" que é a página que está
+    sendo indicada no próprio texto, "page_content" é o conteúdo do arquivo,
+    caso tenha alguma outra chave pode somente ignorar. Lembre-se de sempre que usar
+    uma referência do contexto que está utilizando e responder em formato markdown.
+    Contexto: {context}
+    Pergunta: {question}
+    """
+)
+if "messages" not in st.session_state:
+    st.session_state.messages = [
+        {
+            "role": "system",
+            "content": "Você é um assistente de pesquisa que ajuda a encontrar informações sobre proteomica"
+        }
+    ]
+for message in st.session_state.messages:
+    if message["role"] != "system":
+        with st.chat_message(message["role"]):
+            st.markdown(message["content"])
+model = ChatOpenAI(model="gpt-4o-mini", api_key=os.getenv('OPENAI_KEY'))
+embeddings = OpenAIEmbeddings(model="text-embedding-3-large", api_key=os.getenv('OPENAI_KEY'))
+vector_store = QdrantVectorStore.from_existing_collection(
+    url=os.getenv('QDRANT_URL'),
+    api_key=os.getenv('QDRANT_KEY'),
+    embedding=embeddings,
+    collection_name='proteomica',
+)
+input = st.chat_input("Digite sua pergunta:")
+if input:
+    st.chat_message("user").markdown(input)
+    documentos = vector_store.similarity_search(input, k=3)
+    documentos_json = []
+    for documento in documentos:
+        documento_json = {
+            "page_content": documento.page_content,
+            "source": documento.metadata['source'],
+            "page_label": documento.metadata["page_label"],
+            "page": documento.metadata["page"],
+        }
+        documentos_json.append(documento_json)
+    prompt = base_prompt.format(context=documentos_json, question=input)
+    resposta = model.invoke(st.session_state.messages)
+    st.session_state.messages.append({"role": "assistant", "content": resposta.content})
+    st.chat_message("assistant").markdown(resposta.content)

app/model/chat_agent.py ADDED Viewed

	@@ -0,0 +1,7 @@

+from qdrant_client import QdrantClient
+class ChatAgent:
+    def __init__(self, conn: QdrantClient):
+        self.conn = conn

doc_parse/main.py ADDED Viewed

	@@ -0,0 +1,60 @@

+from langchain_community.document_loaders import PyPDFLoader
+from langchain_qdrant import QdrantVectorStore
+from qdrant_client import QdrantClient
+from qdrant_client.models import Distance, VectorParams
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_openai import OpenAIEmbeddings
+from uuid import uuid4
+from dotenv import load_dotenv
+import os
+load_dotenv(dotenv_path=".env", override=True)
+embeddings = OpenAIEmbeddings(model="text-embedding-3-large", api_key=os.getenv('OPENAI_KEY'))
+qdrant_client = QdrantClient(
+    url=os.getenv('QDRANT_URL'),
+    api_key=os.getenv('QDRANT_KEY'),
+)
+if qdrant_client.collection_exists("proteomica"):
+    qdrant_client.delete_collection("proteomica")
+qdrant_client.create_collection(
+    collection_name="proteomica",
+    vectors_config=VectorParams(size=3072, distance=Distance.COSINE),
+)
+vector_store = QdrantVectorStore(
+    client=qdrant_client,
+    embedding=embeddings,
+    collection_name="proteomica",
+)
+caminho_artigos= "./data/articles"
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+for artigo in os.listdir(caminho_artigos):
+    if artigo.endswith('.pdf'):
+        try:
+            caminho_completo = os.path.join(caminho_artigos, artigo)
+            loader = PyPDFLoader(caminho_completo)
+            docs = loader.load()
+            splits = text_splitter.split_documents(docs)
+            uuids = [str(uuid4()) for _ in range(len(splits))]
+            vector_store.add_documents(splits, ids=uuids)
+            print(f"✅ Processado: {caminho_completo}")
+        except Exception as e:
+            print(f"❌ Erro ao processar: {caminho_completo}: {e}")
+            continue