Spaces:

shubhendu-ghosh
/

polydocs

Sleeping

shubhendu-ghosh commited on Apr 17, 2025

Commit

e4a4226

verified ·

1 Parent(s): 3a3e144

Create pdf_utils.py

Files changed (1) hide show

pdf_utils.py ADDED Viewed

+from PyPDF2 import PdfReader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+async def extract_text_from_pdfs(files):
+    text = ""
+    for file in files:
+        pdf = PdfReader(file.file)
+        for page in pdf.pages:
+            text += page.extract_text()
+    return text
+def split_text(text):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=1000)
+    return splitter.split_text(text)