Spaces:

1MR
/

MYRAG

Sleeping

1MR commited on Dec 20, 2024

Commit

4f754be

verified ·

1 Parent(s): 19b55fe

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,13 +18,25 @@ from langchain.embeddings import HuggingFaceEmbeddings
 # Retrieve the Hugging Face token from environment variables
 # token = os.getenv("HUGGINGFACEHUB_TOKEN")
 def get_pdf_text(pdf_docs):
-  text = ""
-  for pdf in pdf_docs:
-    pdf_reader = PdfReader(pdf)
-    for page in pdf_reader.pages:
-      text += page.extract_text()
-  return text
 def get_text_chunks(text):
   text_splitter=CharacterTextSplitter(

 # Retrieve the Hugging Face token from environment variables
 # token = os.getenv("HUGGINGFACEHUB_TOKEN")
+import fitz  # PyMuPDF
 def get_pdf_text(pdf_docs):
+    text = ""
+    for pdf in pdf_docs:
+        try:
+            doc = fitz.open(stream=pdf.read(), filetype="pdf")
+            for page in doc:
+                text += page.get_text()
+        except Exception as e:
+            st.error(f"Could not read the file: {pdf.name}. Error: {e}")
+    return text
+# def get_pdf_text(pdf_docs):
+#   text = ""
+#   for pdf in pdf_docs:
+#     pdf_reader = PdfReader(pdf)
+#     for page in pdf_reader.pages:
+#       text += page.extract_text()
+#   return text
 def get_text_chunks(text):
   text_splitter=CharacterTextSplitter(