Spaces:

kxx-kkk
/

pdf_reader_try

Sleeping

kxx-kkk commited on Feb 9, 2024

Commit

020d5d0

verified ·

1 Parent(s): d3bbe1d

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,19 +18,19 @@ def extract_text(file_path):
         for page_number in range(num_pages):
             # st.write(f"Page {page_number + 1}")
             page = pdf_reader.pages[page_number]
-            text = page.extract_text()
     images = convert_from_path(file_path)  # Convert PDF pages to images
     for i, image in enumerate(images):
         # st.write(f"Page {i + 1}")
-        image_text = pytesseract.image_to_string(image)
     st.write("text")
     st.write(text)
     st.write("image_text")
     st.write(image_text)
     text = text + image_text
     st.write("plus")
     st.write(text)  # Display the extracted text from the image

         for page_number in range(num_pages):
             # st.write(f"Page {page_number + 1}")
             page = pdf_reader.pages[page_number]
+            text += page.extract_text()
     images = convert_from_path(file_path)  # Convert PDF pages to images
     for i, image in enumerate(images):
         # st.write(f"Page {i + 1}")
+        image_text += pytesseract.image_to_string(image)
     st.write("text")
     st.write(text)
     st.write("image_text")
     st.write(image_text)
     text = text + image_text
     st.write("plus")
     st.write(text)  # Display the extracted text from the image