Spaces:

Dinesh310
/

Demo_1

Sleeping

Dinesh310 commited on Jan 25

Commit

8ce6ed1

verified ·

1 Parent(s): 4e52498

Update src/RAG_builder.py

Files changed (1) hide show

src/RAG_builder.py CHANGED Viewed

@@ -34,14 +34,36 @@ class ProjectRAGGraph:
         self.memory = MemorySaver()
         self.workflow = self._build_graph()
-    def process_documents(self, pdf_paths):
         all_docs = []
-        for path in pdf_paths:
-            loader = PyPDFLoader(path)
-            all_docs.extend(loader.load())
-        splits = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100).split_documents(all_docs)
         self.vector_store = FAISS.from_documents(splits, self.embeddings)
     # --- GRAPH NODES ---
     def retrieve(self, state: GraphState):

         self.memory = MemorySaver()
         self.workflow = self._build_graph()
+    def process_documents(self, pdf_paths_with_names: list[tuple[str, str]]):
+        """
+        Expects a list of tuples: [(temp_path, original_name), ...]
+        """
         all_docs = []
+        for temp_path, original_name in pdf_paths_with_names:
+            loader = PyPDFLoader(temp_path)
+            docs = loader.load()
+            # Override the metadata source with the original filename
+            for doc in docs:
+                doc.metadata["source"] = original_name
+            all_docs.extend(docs)
+        splits = RecursiveCharacterTextSplitter(
+            chunk_size=500,
+            chunk_overlap=100
+        ).split_documents(all_docs)
         self.vector_store = FAISS.from_documents(splits, self.embeddings)
+    # def process_documents(self, pdf_paths):
+    #     all_docs = []
+    #     for path in pdf_paths:
+    #         loader = PyPDFLoader(path)
+    #         all_docs.extend(loader.load())
+    #     splits = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100).split_documents(all_docs)
+    #     self.vector_store = FAISS.from_documents(splits, self.embeddings)
     # --- GRAPH NODES ---
     def retrieve(self, state: GraphState):