Spaces:

Dinesh310
/

Demo_1

Sleeping

Dinesh310 commited on Jan 26

Commit

5c65806

verified ·

1 Parent(s): ae8a6c0

Create vector_store/vector_store.py

Files changed (1) hide show

src/vector_store/vector_store.py ADDED Viewed

+# src/vector_store.py
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+from src.config import CHUNK_SIZE, CHUNK_OVERLAP
+from src.exceptions import DocumentProcessingError
+def build_vector_store(pdf_paths, embeddings, original_names=None):
+    try:
+        all_docs = []
+        for i, path in enumerate(pdf_paths):
+            loader = PyPDFLoader(path)
+            docs = loader.load()
+            if original_names and i < len(original_names):
+                for doc in docs:
+                    doc.metadata["source"] = original_names[i]
+            all_docs.extend(docs)
+        splitter = RecursiveCharacterTextSplitter(
+            chunk_size=CHUNK_SIZE,
+            chunk_overlap=CHUNK_OVERLAP
+        )
+        splits = splitter.split_documents(all_docs)
+        return FAISS.from_documents(splits, embeddings)
+    except Exception as e:
+        raise DocumentProcessingError(f"PDF processing failed: {e}")