Spaces:

Waflon
/

SII_CIRCULARES

Sleeping

App Files Files Community

Waflon commited on Jan 16, 2024

Commit

fcc8b9e

verified ·

1 Parent(s): 971e748

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -60

app.py CHANGED Viewed

@@ -33,64 +33,57 @@ try:
     else:
         print("dato default")
 except:
-    print("Pass")
-print("No hay datos previos")
-loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
-data = loader.load()
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
-#Transformado a tipo de dato especifico para esto
-docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
-#Modelo QA sentence similarity
-modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
-model_kwargs = {'device':'cpu'} # o cuda
-encode_kwargs = {'normalize_embeddings': False}
-#Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
-embeddings = HuggingFaceEmbeddings(
-    model_name=modelPath,     # Ruta a modelo Pre entrenado
-    model_kwargs=model_kwargs, # Opciones de configuracion del modelo
-    encode_kwargs=encode_kwargs # Opciones de Encoding
-)
-#DB y retriever
-db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
-retriever = db.as_retriever(search_kwargs={"k": 3})
-template = """Responde la pregunta basado unicamente en el siguiente contexto
-{contexto}
-Pregunta: {pregunta}
-"""
-#LLM
-prompt = ChatPromptTemplate.from_template(template)
-model = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
-def format_docs(docs):
-    return "\n\n".join([d.page_content for d in docs])
-chain = (
-    {"contexto": retriever | format_docs, "pregunta": RunnablePassthrough()}
-    | prompt
-    | model
-    | StrOutputParser()
-)
-print(chain)
-add_data(chain)
-def main():
-    pregunta = st.text_area('Ingresa algun texto:')
-    tmp_button = st.button("CLICK")
-    if tmp_button: #Esperar al boton
-        out = chain.invoke(pregunta)
-        st.write(out)
-        st.rerun() #Restart app
-    else:
-        st.stop()
-if __name__ == "__main__":
-    main()

     else:
         print("dato default")
 except:
+    loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
+    data = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+    #Transformado a tipo de dato especifico para esto
+    docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
+    #Modelo QA sentence similarity
+    modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
+    model_kwargs = {'device':'cpu'} # o cuda
+    encode_kwargs = {'normalize_embeddings': False}
+    #Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
+    embeddings = HuggingFaceEmbeddings(
+        model_name=modelPath,     # Ruta a modelo Pre entrenado
+        model_kwargs=model_kwargs, # Opciones de configuracion del modelo
+        encode_kwargs=encode_kwargs # Opciones de Encoding
+    )
+    #DB y retriever
+    db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+    retriever = db.as_retriever(search_kwargs={"k": 3})
+    template = """Responde la pregunta basado unicamente en el siguiente contexto
+    {contexto}
+    Pregunta: {pregunta}
+    """
+    #LLM
+    prompt = ChatPromptTemplate.from_template(template)
+    model = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
+    def format_docs(docs):
+        return "\n\n".join([d.page_content for d in docs])
+    chain = (
+        {"contexto": retriever | format_docs, "pregunta": RunnablePassthrough()}
+        | prompt
+        | model
+        | StrOutputParser()
+    )
+    add_data(chain)
+pregunta = st.text_area('Ingresa algun texto:')
+tmp_button = st.button("CLICK")
+if tmp_button: #Esperar al boton
+    out = chain.invoke(pregunta)
+    st.write(out)
+    #st.rerun() #Restart app
+else:
+    st.stop()
+st.write(st.session_state["chain"])