Spaces:

mundo2333
/

tarea

Configuration error

App Files Files Community

mundo2333 commited on Dec 1, 2023

Commit

04d3842

1 Parent(s): 76aa528

Upload streamlit app to ask ChatGpt about PDF

Browse files

Files changed (5) hide show

README.md +43 -12
app.py +57 -0
archivos.txt +0 -0
requirements.txt +6 -0
utils.py +92 -0

README.md CHANGED Viewed

@@ -1,12 +1,43 @@
----
-title: Tarea
-emoji: 💻
-colorFrom: blue
-colorTo: indigo
-sdk: streamlit
-sdk_version: 1.29.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# 🧮🗨️  Pinecone y ChatGPT | Tutorial Base de Datos Vectorial desde 0
+### Convierte a ChatGPT en tu Asistente Personal de Búsqueda de Documentos
+🚀 [Tutorial en Español | Youtube](https://youtu.be/adq0BFxQ4C0)
+¿Qué es una base de datos vectorial? En este taller, exploraremos Pinecone, una de las bases de datos vectoriales líderes en la nube. Este tipo de bases de datos ha ganado una gran popularidad en los últimos meses. ¿Son realmente útiles? Lo comprobaremos en el tutorial paso a paso.
+Además, ¿sabías que ChatGPT puede mantener conversaciones con documentos? En este taller de Python, descubriremos cómo hacerlo posible gracias a Pinecone. Olvídate de las limitaciones, ahora podrás conversar y explorar tus documentos de una manera completamente nueva.
+Para desarrollar esta aplicación necesitaremos:
+* Cuenta en Pinecone
+* ChatGPT API
+* Streamlit
+## ¿Cómo funciona?
+1. Divide documento en cachos (o chunks)
+2. Crea los embeddings de los cachos de texto
+3. Guarda los cachos y los embeddings en Pinecone
+4. Busca los cachos más similares a la pregunta del usuario gracias a los embeddings.
+5. Pasa los cachos más similares junto a la pregunta a ChatGPT que genera la respuesta
+## Instalación
+¡Usar este código es fácil! Aquí están los pasos:
+1. Clone o descargue el repositorio en su máquina local.
+2. Instale las bibliotecas requeridas ejecutando el siguiente comando en su terminal:
+```console
+pip install -r requirements.txt
+```
+3. Obtenga una clave API de OpenAI para usar su API ChatGPT.
+4. Obtenga una clave API de Pinecone.
+5. Ejecute la aplicación con el siguiente comando:
+```console
+streamlit run app.py
+```
+6. Suba un documento a la aplicación.
+7. Escriba su pregunta y disfrute de la magia.
+ 🎥 [Más vídeos en mi canal de Youtube](https://www.youtube.com/@NechuBM)

app.py ADDED Viewed

	@@ -0,0 +1,57 @@

+import streamlit as st
+import os
+from utils import *
+from langchain.vectorstores import Pinecone
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.chat_models import ChatOpenAI
+from langchain.chains.question_answering import load_qa_chain
+FILE_LIST = "archivos.txt"
+OPENAI_API_KEY = "Añadir OpenAI API Key"
+st.set_page_config('preguntaDOC')
+st.header("Pregunta a tu PDF")
+with st.sidebar:
+    archivos = load_name_files(FILE_LIST)
+    files_uploaded = st.file_uploader(
+        "Carga tu archivo",
+        type="pdf",
+        accept_multiple_files=True
+        )
+    if st.button('Procesar'):
+        for pdf in files_uploaded:
+            if pdf is not None and pdf.name not in archivos:
+                archivos.append(pdf.name)
+                text_to_pinecone(pdf)
+        archivos = save_name_files(FILE_LIST, archivos)
+    if len(archivos)>0:
+        st.write('Archivos Cargados:')
+        lista_documentos = st.empty()
+        with lista_documentos.container():
+            for arch in archivos:
+                st.write(arch)
+            if st.button('Borrar Documentos'):
+                archivos = []
+                clean_files(FILE_LIST)
+                lista_documentos.empty()
+if len(archivos)>0:
+    user_question = st.text_input("Pregunta: ")
+    if user_question:
+        os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
+        embeddings = HuggingFaceEmbeddings(
+            model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
+            )
+        vstore = Pinecone.from_existing_index(INDEX_NAME, embeddings)
+        docs = vstore.similarity_search(user_question, 3)
+        llm = ChatOpenAI(model_name='gpt-3.5-turbo')
+        chain = load_qa_chain(llm, chain_type="stuff")
+        respuesta = chain.run(input_documents=docs, question=user_question)
+        st.write(respuesta)

archivos.txt ADDED Viewed

File without changes

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+openai
+langchain
+streamlit
+pypdf
+pinecone-client
+sentence_transformers

utils.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import os
+import streamlit as st
+import pinecone
+import tempfile
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader
+from langchain.vectorstores import Pinecone
+from langchain.embeddings import HuggingFaceEmbeddings
+FILE_LIST = "archivos.txt"
+PINECONE_API_KEY = "Añadir Pinecone API Key"
+PINECONE_ENV = "Añadir Pinecone Env"
+INDEX_NAME = 'taller'
+pinecone.init(
+    api_key=PINECONE_API_KEY,
+    environment=PINECONE_ENV
+)
+def save_name_files(path, new_files):
+    old_files = load_name_files(path)
+    with open(path, "a") as file:
+        for item in new_files:
+            if item not in old_files:
+                file.write(item + "\n")
+                old_files.append(item)
+    return old_files
+def load_name_files(path):
+    archivos = []
+    with open(path, "r") as file:
+        for line in file:
+            archivos.append(line.strip())
+    return archivos
+def clean_files(path):
+    with open(path, "w") as file:
+        pass
+    index = pinecone.Index(INDEX_NAME)
+    index.delete(delete_all=True)
+    return True
+def text_to_pinecone(pdf):
+    temp_dir = tempfile.TemporaryDirectory()
+    temp_filepath = os.path.join(temp_dir.name, pdf.name)
+    with open(temp_filepath, "wb") as f:
+        f.write(pdf.getvalue())
+    loader = PyPDFLoader(temp_filepath)
+    text = loader.load()
+    with st.spinner(f'Creando embedding fichero: {pdf.name}'):
+        create_embeddings(pdf.name, text)
+    return True
+def create_embeddings(file_name, text):
+    print(f"Creando embeddings del archivo: {file_name}")
+    text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=800,
+        chunk_overlap=100,
+        length_function=len
+        )
+    chunks = text_splitter.split_documents(text)
+    embeddings = HuggingFaceEmbeddings(
+        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
+        )
+    Pinecone.from_documents(
+        chunks,
+        embeddings,
+        index_name=INDEX_NAME)
+    return True