Spaces:

kxx-kkk
/

pdf_reader_try

Sleeping

kxx-kkk commited on Feb 9, 2024

Commit

79de481

verified ·

1 Parent(s): e530c33

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,22 +8,24 @@ from PIL import Image
 def extract_text(file_path):
     with open(file_path, "rb") as pdf_file:
         pdf_reader = PyPDF2.PdfReader(pdf_file)
         num_pages = len(pdf_reader.pages)
         for page_number in range(num_pages):
-            st.write(f"Page {page_number + 1}")
             page = pdf_reader.pages[page_number]
             text = page.extract_text()
     images = convert_from_path(file_path)  # Convert PDF pages to images
     for i, image in enumerate(images):
-        st.write(f"Page {i + 1}")
         image_text = pytesseract.image_to_string(image)
-        text += image_text
-        st.write(text)  # Display the extracted text from the image
 def main():
     st.title("PDF Text Extractor")

 def extract_text(file_path):
+    text = ''
     with open(file_path, "rb") as pdf_file:
         pdf_reader = PyPDF2.PdfReader(pdf_file)
         num_pages = len(pdf_reader.pages)
         for page_number in range(num_pages):
+            # st.write(f"Page {page_number + 1}")
             page = pdf_reader.pages[page_number]
             text = page.extract_text()
     images = convert_from_path(file_path)  # Convert PDF pages to images
     for i, image in enumerate(images):
+        # st.write(f"Page {i + 1}")
         image_text = pytesseract.image_to_string(image)
+        text = text + image_text
+    st.write(text)  # Display the extracted text from the image
 def main():
     st.title("PDF Text Extractor")