Spaces:

Waflon
/

SII_CIRCULARES

Sleeping

Waflon commited on Jan 16, 2024

Commit

3930a90

verified ·

1 Parent(s): 720274c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -28,12 +28,18 @@ def add_data(chain):
 chain = get_data()
 if chain == 'dummy':
-    loader = PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf")
-    data = loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
-    #Transformado a tipo de dato especifico para esto
-    docs = text_splitter.split_documents(data) # 'data' holds the text you want to split, split the text into documents using the text splitter.
     #Modelo QA sentence similarity
     modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
     model_kwargs = {'device':'cpu'} # o cuda

 chain = get_data()
 if chain == 'dummy':
+    loaders = [
+        PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu3.pdf"),
+        PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu2.pdf"),
+        PyPDFLoader("https://www.sii.cl/normativa_legislacion/circulares/2024/circu1.pdf"),
+    ]
+    docs = []
+    for loader in loaders:
+        docs.extend(loader.load())
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000)
+    docs = text_splitter.split_documents(docs)
     #Modelo QA sentence similarity
     modelPath = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2' #español
     model_kwargs = {'device':'cpu'} # o cuda