Spaces:

Waflon
/

SII_CIRCULARES

Sleeping

App Files Files Community

Waflon commited on Jan 16, 2024

Commit

e2eaff0

verified ·

1 Parent(s): 0407de3

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -21

app.py CHANGED Viewed

@@ -16,27 +16,41 @@ os.environ["LANGCHAIN_TRACING_V2"] = "true"
 os.environ["LANGCHAIN_API_KEY"] = st.secrets['OPENAI']
-loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
-data = loader.load()
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
-#Transformado a tipo de dato especifico para esto
-docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
-#Modelo QA sentence similarity
-modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
-model_kwargs = {'device':'cpu'} #or CPUmodel_kwargs = {'device':'cuda'} #or CPU
-encode_kwargs = {'normalize_embeddings': False}
-#Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
-embeddings = HuggingFaceEmbeddings(
-    model_name=modelPath,     # Ruta a modelo Pre entrenado
-    model_kwargs=model_kwargs, # Opciones de configuracion del modelo
-    encode_kwargs=encode_kwargs # Opciones de Encoding
-)
-#DB y retriever
-db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
-retriever = db.as_retriever(search_kwargs={"k": 6})
 template = """Responde la pregunta basado unicamente en el siguiente contexto

 os.environ["LANGCHAIN_API_KEY"] = st.secrets['OPENAI']
+def get_data():
+    return st.session_state["BD"].get(None)
+def add_data(value: FAISS):
+    st.session_state["BD"]= value
+try:
+    db = get_data()
+except:
+    print("No hay datos previos")
+    loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
+    data = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
+    #Transformado a tipo de dato especifico para esto
+    docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
+    #Modelo QA sentence similarity
+    modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
+    model_kwargs = {'device':'cpu'} # o cuda
+    encode_kwargs = {'normalize_embeddings': False}
+    #Embeddings que transforman a vectores densos multidimensionales las preguntas del SII
+    embeddings = HuggingFaceEmbeddings(
+        model_name=modelPath,     # Ruta a modelo Pre entrenado
+        model_kwargs=model_kwargs, # Opciones de configuracion del modelo
+        encode_kwargs=encode_kwargs # Opciones de Encoding
+    )
+    #DB y retriever
+    db = FAISS.from_documents(docs, embeddings)  # Create a retriever object from the 'db' with a search configuration where it retrieves up to 4 relevant splits/documents.
+    add_data(db)
+retriever = db.as_retriever(search_kwargs={"k": 3})
 template = """Responde la pregunta basado unicamente en el siguiente contexto