Spaces:

Waflon
/

FAQ_SSI_CHILE

Sleeping

App Files Files Community

Waflon commited on Jan 17, 2024

Commit

65bf80e

verified ·

1 Parent(s): 5a04c29

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -58

app.py CHANGED Viewed

@@ -3,8 +3,6 @@ import getpass
 import os
 os.environ["OPENAI_API_KEY"] = st.secrets['OPENAI_API_KEY']  # agregada en la config de hugginface
-os.environ["LANGCHAIN_TRACING_V2"] = "true"
-os.environ["LANGCHAIN_API_KEY"] = st.secrets['OPENAI_API_KEY']
 from langchain.prompts import PromptTemplate
 from langchain.chains.llm import LLMChain
@@ -16,19 +14,15 @@ from langchain_community.vectorstores import FAISS
 from langchain_community.document_loaders import HuggingFaceDatasetLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
-# Initialization
-if 'chain' not in st.session_state:
-    st.session_state['chain'] = 'dummy'
-def get_data():
-    return st.session_state["chain"]
-def add_data(chain):
-    st.session_state["chain"]= chain
-chain = get_data()
-if chain == 'dummy':
     #Carga de DATASET
     dataset_name = "Waflon/FAQ"
     page_content_column = "respuestas"
@@ -38,52 +32,40 @@ if chain == 'dummy':
     #Transformado a tipo de dato especifico para esto
     docs = text_splitter.split_documents(data)
-    #Modelo QA sentence similarity
-    modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
-    model_kwargs = {'device':'cpu'} # cuda or cpu
-    encode_kwargs = {'normalize_embeddings': False}
-    #Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
-    embeddings = HuggingFaceEmbeddings(
-        model_name=modelPath,     # Ruta a modelo Pre entrenado
-        model_kwargs=model_kwargs, # Opciones de configuracion del modelo
-        encode_kwargs=encode_kwargs # Opciones de Encoding
-    )
     #DB y retriever
     db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
-    retriever = db.as_retriever(search_kwargs={"k": 3})
-    prompt_template = """Usa los siguientes fragmentos de contextos para responder una pregunta al final. Por favor sigue las siguientes reglas:
-    1. Si la pregunta requiere vinculos, por favor retornar solamente las vinculos de los vinculos sin respuesta
-    2. Si no sabes la respuesta, no inventes una respuesta. Solamente di **No pude encontrar la respuesta definitiva, pero tal vez quieras ver los siguientes vinculos** y agregalos a la lista de vinculos.
-    3. Si encuentras la respuesta, escribe una respuesta concisa y agrega la lista de vinculos que sean usadas **directamente** para derivar la respuesta. Excluye los vinculos que sean irrelevantes al final de la respuesta
-    {contexto}
-    Pregunta: {question}
-    Respuesta Util:"""
-    QA_CHAIN_PROMPT = PromptTemplate.from_template(prompt_template) # prompt_template defined above
-    llm_chain = LLMChain(llm=ChatOpenAI(), prompt=QA_CHAIN_PROMPT, callbacks=None, verbose=True)
-    document_prompt = PromptTemplate(
-        input_variables=["page_content", "url"],
-        template="Contexto:\n{page_content}\nVinculo: {url}",
-    )
-    combine_documents_chain = StuffDocumentsChain(
-        llm_chain=llm_chain,
-        document_variable_name="contexto",
-        document_prompt=document_prompt,
-        callbacks=None,
-    )
-    chain = RetrievalQA(
-        combine_documents_chain=combine_documents_chain,
-        callbacks=None,
-        verbose=True,
-        retriever=retriever,
-    )
-    add_data(chain)
 pregunta = st.text_area('Ingresa algun texto:', value="Que es un APA?")
 tmp_button = st.button("CLICK")

 import os
 os.environ["OPENAI_API_KEY"] = st.secrets['OPENAI_API_KEY']  # agregada en la config de hugginface
 from langchain.prompts import PromptTemplate
 from langchain.chains.llm import LLMChain
 from langchain_community.document_loaders import HuggingFaceDatasetLoader
 from langchain_community.embeddings import HuggingFaceEmbeddings
+#Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
+embeddings = HuggingFaceEmbeddings(
+    model_name=sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2,     # Ruta a modelo Pre entrenado
+    model_kwargs={'device':'cpu'}, # Opciones de configuracion del modelo
+    encode_kwargs={'normalize_embeddings': False} # Opciones de Encoding
+)
+try:
+    db = FAISS.load_local("cache", embeddings)
+except:
     #Carga de DATASET
     dataset_name = "Waflon/FAQ"
     page_content_column = "respuestas"
     #Transformado a tipo de dato especifico para esto
     docs = text_splitter.split_documents(data)
     #DB y retriever
     db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+retriever = db.as_retriever(search_kwargs={"k": 3})
+prompt_template = """Usa los siguientes fragmentos de contextos para responder una pregunta al final. Por favor sigue las siguientes reglas:
+1. Si la pregunta requiere vinculos, por favor retornar solamente las vinculos de los vinculos sin respuesta
+2. Si no sabes la respuesta, no inventes una respuesta. Solamente di **No pude encontrar la respuesta definitiva, pero tal vez quieras ver los siguientes vinculos** y agregalos a la lista de vinculos.
+3. Si encuentras la respuesta, escribe una respuesta concisa y agrega la lista de vinculos que sean usadas **directamente** para derivar la respuesta. Excluye los vinculos que sean irrelevantes al final de la respuesta
+{contexto}
+Pregunta: {question}
+Respuesta Util:"""
+QA_CHAIN_PROMPT = PromptTemplate.from_template(prompt_template) # prompt_template defined above
+llm_chain = LLMChain(llm=ChatOpenAI(), prompt=QA_CHAIN_PROMPT, callbacks=None, verbose=True)
+document_prompt = PromptTemplate(
+    input_variables=["page_content", "url"],
+    template="Contexto:\n{page_content}\nVinculo: {url}",
+)
+combine_documents_chain = StuffDocumentsChain(
+    llm_chain=llm_chain,
+    document_variable_name="contexto",
+    document_prompt=document_prompt,
+    callbacks=None,
+)
+chain = RetrievalQA(
+    combine_documents_chain=combine_documents_chain,
+    callbacks=None,
+    verbose=True,
+    retriever=retriever,
+)
 pregunta = st.text_area('Ingresa algun texto:', value="Que es un APA?")
 tmp_button = st.button("CLICK")