SucheRAG

Sleeping

alexkueck commited on Jul 6, 2024

Commit

36a4149

verified ·

1 Parent(s): 81eb1d5

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -303,7 +303,7 @@ def load_word_with_metadata(file_path):
 ################################################
 #die Inhalte splitten, um in Vektordatenbank entsprechend zu laden als Splits
 # Funktion zum Splitten und Zuweisen der doc_id
-def split_documents_with_id(docs):
     splits = []
     for doc in docs:
         doc_splits = text_splitter.split_text(doc.page_content)
@@ -366,11 +366,11 @@ def document_loading_splitting():
     ################################
     # Document splitting
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)# RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
-    splits = text_splitter.split_documents(preprocessed_docs)
     # Split sowohl für originale als auch für vorverarbeitete Dokumente
-    original_splits = split_documents_with_id(original_docs)
-    preprocessed_splits = split_documents_with_id(preprocessed_docs)
     # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der IDs
     split_to_original_mapping = {p_split.metadata["doc_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}

 ################################################
 #die Inhalte splitten, um in Vektordatenbank entsprechend zu laden als Splits
 # Funktion zum Splitten und Zuweisen der doc_id
+def split_documents_with_id(docs, text_splitter):
     splits = []
     for doc in docs:
         doc_splits = text_splitter.split_text(doc.page_content)
     ################################
     # Document splitting
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)# RecursiveCharacterTextSplitter(chunk_overlap = 150, chunk_size = 1500)
+    #splits = text_splitter.split_documents(preprocessed_docs)
     # Split sowohl für originale als auch für vorverarbeitete Dokumente
+    original_splits = split_documents_with_id(original_docs, text_splitter)
+    preprocessed_splits = split_documents_with_id(preprocessed_docs, text_splitter)
     # Mapping von vorverarbeiteten Splits zu Originalsplits anhand der IDs
     split_to_original_mapping = {p_split.metadata["doc_id"]: o_split for p_split, o_split in zip(preprocessed_splits, original_splits)}