Spaces:

Dinesh310
/

Demo_1

Sleeping

Dinesh310 commited on Jan 25

Commit

dc6497c

verified ·

1 Parent(s): 7479a8f

Create ingestion/document_processor.py

Files changed (1) hide show

src/ingestion/document_processor.py ADDED Viewed

+from langchain_community.document_loaders import PyPDFLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+from config.config import Config
+class DocumentProcessor:
+    def __init__(self, embeddings):
+        self.embeddings = embeddings
+    def process_pdfs(self, pdf_paths):
+        try:
+            documents = []
+            for path in pdf_paths:
+                loader = PyPDFLoader(path)
+                documents.extend(loader.load())
+            splitter = RecursiveCharacterTextSplitter(
+                chunk_size=Config.CHUNK_SIZE,
+                chunk_overlap=Config.CHUNK_OVERLAP
+            )
+            splits = splitter.split_documents(documents)
+            return FAISS.from_documents(splits, self.embeddings)
+        except Exception as e:
+            raise RuntimeError(f"Document processing failed: {e}")