Spaces:

Waflon
/

SII_CIRCULARES

Sleeping

App Files Files Community

Waflon commited on Jan 16, 2024

Commit

9e063a9

verified ·

1 Parent(s): 904b827

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -8

app.py CHANGED Viewed

@@ -1,15 +1,71 @@
-import time
 import streamlit as st
-from transformers import pipeline
 with st.status("Cargando app...", expanded=True) as status:
-        pipe = pipeline(model="lxyuan/distilbert-base-multilingual-cased-sentiments-student")
-        text = st.text_area('Ingresa algun texto:')
-        status.update(label="App cargada con exito!", state="complete")
-def main():
-    if text:
-        out = pipe(text)
         st.json(out)
 if __name__ == "__main__":

 import streamlit as st
+import getpass
+import os
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.vectorstores import FAISS
+from langchain_openai import ChatOpenAI
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.runnables import RunnablePassthrough
+from langchain.schema import StrOutputParser
+os.environ["OPENAI_API_KEY"] = st.secrets['OPENAI_API_KEY']  # agregada en la config de hugginface
+os.environ["LANGCHAIN_TRACING_V2"] = "true"
+os.environ["LANGCHAIN_API_KEY"] = st.secrets['OPENAI_API_KEY']
 with st.status("Cargando app...", expanded=True) as status:
+    loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
+    data = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+    #Transformado a tipo de dato especifico para esto
+    docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
+    #Modelo QA sentence similarity
+    modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
+    #model_kwargs = {'device':'cuda'} #or CPUmodel_kwargs = {'device':'cuda'} #or CPU
+    model_kwargs = {'device':'cuda'} #or CPUmodel_kwargs = {'device':'cuda'} #or CPU
+    encode_kwargs = {'normalize_embeddings': False}
+    #Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
+    embeddings = HuggingFaceEmbeddings(
+        model_name=modelPath,     # Ruta a modelo Pre entrenado
+        model_kwargs=model_kwargs, # Opciones de configuracion del modelo
+        encode_kwargs=encode_kwargs # Opciones de Encoding
+    )
+    #DB y retriever
+    db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+    retriever = db.as_retriever(search_kwargs={"k": 6})
+    template = """Responde la pregunta basado unicamente en el siguiente contexto
+    {contexto}
+    Pregunta: {pregunta}
+    """
+    #LLM
+    prompt = ChatPromptTemplate.from_template(template)
+    model = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
+    def format_docs(docs):
+        return "\n\n".join([d.page_content for d in docs])
+    chain = (
+        {"contexto": retriever | format_docs, "pregunta": RunnablePassthrough()}
+        | prompt
+        | model
+        | StrOutputParser()
+    )
+    status.update(label="App cargada con exito!", state="complete")
+def main():
+    pregunta = st.text_area('Ingresa algun texto:')
+    if pregunta:
+        out = chain.invoke(pregunta)
         st.json(out)
 if __name__ == "__main__":