Spaces:

Waflon
/

SII_CIRCULARES

Sleeping

App Files Files Community

Waflon commited on Jan 16, 2024

Commit

fc9959e

verified ·

1 Parent(s): a9c3493

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -49

app.py CHANGED Viewed

@@ -15,64 +15,72 @@ os.environ["OPENAI_API_KEY"] = st.secrets['OPENAI']  # agregada en la config de
 os.environ["LANGCHAIN_TRACING_V2"] = "true"
 os.environ["LANGCHAIN_API_KEY"] = st.secrets['OPENAI']
 def get_data():
-    return st.session_state["BD"].get(None)
 def add_data(chain):
-    st.session_state["BD"]= chain
 try:
     chain = get_data()
 except:
-    print("No hay datos previos")
-    loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
-    data = loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
-    #Transformado a tipo de dato especifico para esto
-    docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
-    #Modelo QA sentence similarity
-    modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
-    model_kwargs = {'device':'cpu'} # o cuda
-    encode_kwargs = {'normalize_embeddings': False}
-    #Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
-    embeddings = HuggingFaceEmbeddings(
-        model_name=modelPath,     # Ruta a modelo Pre entrenado
-        model_kwargs=model_kwargs, # Opciones de configuracion del modelo
-        encode_kwargs=encode_kwargs # Opciones de Encoding
-    )
-    #DB y retriever
-    db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
-    retriever = db.as_retriever(search_kwargs={"k": 3})
-    template = """Responde la pregunta basado unicamente en el siguiente contexto
-    {contexto}
-    Pregunta: {pregunta}
-    """
-    #LLM
-    prompt = ChatPromptTemplate.from_template(template)
-    model = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
-    def format_docs(docs):
-        return "\n\n".join([d.page_content for d in docs])
-    chain = (
-        {"contexto": retriever | format_docs, "pregunta": RunnablePassthrough()}
-        | prompt
-        | model
-        | StrOutputParser()
-    )
-    print(chain)
-    add_data(chain)
 def main():
     pregunta = st.text_area('Ingresa algun texto:')

 os.environ["LANGCHAIN_TRACING_V2"] = "true"
 os.environ["LANGCHAIN_API_KEY"] = st.secrets['OPENAI']
+# Initialization
+if 'chain' not in st.session_state:
+    st.session_state['chain'] = 'dummy'
 def get_data():
+    return st.session_state["chain"]
 def add_data(chain):
+    st.session_state["chain"]= chain
 try:
     chain = get_data()
+    if chain != 'dummy':
+        print("dato nuevo")
+    else
+        print("dato default")
 except:
+    print("Pass")
+print("No hay datos previos")
+loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
+data = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+#Transformado a tipo de dato especifico para esto
+docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
+#Modelo QA sentence similarity
+modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
+model_kwargs = {'device':'cpu'} # o cuda
+encode_kwargs = {'normalize_embeddings': False}
+#Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
+embeddings = HuggingFaceEmbeddings(
+    model_name=modelPath,     # Ruta a modelo Pre entrenado
+    model_kwargs=model_kwargs, # Opciones de configuracion del modelo
+    encode_kwargs=encode_kwargs # Opciones de Encoding
+)
+#DB y retriever
+db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+retriever = db.as_retriever(search_kwargs={"k": 3})
+template = """Responde la pregunta basado unicamente en el siguiente contexto
+{contexto}
+Pregunta: {pregunta}
+"""
+#LLM
+prompt = ChatPromptTemplate.from_template(template)
+model = ChatOpenAI(model="gpt-3.5-turbo-1106", temperature=0)
+def format_docs(docs):
+    return "\n\n".join([d.page_content for d in docs])
+chain = (
+    {"contexto": retriever | format_docs, "pregunta": RunnablePassthrough()}
+    | prompt
+    | model
+    | StrOutputParser()
+)
+print(chain)
+add_data(chain)
 def main():
     pregunta = st.text_area('Ingresa algun texto:')