Spaces:

kxx-kkk
/

pdf_reader_try

Sleeping

kxx-kkk commited on Feb 9, 2024

Commit

fb4537e

verified ·

1 Parent(s): 9f72432

Initial changes

Files changed (2) hide show

app.py ADDED Viewed

+import PyPDF2
+from pdf2image import convert_from_path
+import streamlit as st
+import pytesseract
+from PIL import Image
+def extract_text_from_pdf(pdf_path):
+    pdf_file = open(pdf_path, 'rb')
+    pdf_reader = PyPDF2.PdfFileReader(pdf_file)
+    num_pages = pdf_reader.numPages
+    text = ""
+    for page_num in range(num_pages):
+        page = pdf_reader.getPage(page_num)
+        page_text = page.extractText()
+        text += page_text
+    pdf_file.close()
+    return text
+def extract_text_from_image(image):
+    text = pytesseract.image_to_string(image)
+    return text
+def main():
+    st.title("PDF Text and Image Extractor")
+    uploaded_file = st.file_uploader("Upload a PDF file", type="pdf")
+    if uploaded_file is not None:
+        st.write("File uploaded successfully!")
+        text = extract_text_from_pdf(uploaded_file)
+        st.header("Extracted Text:")
+        st.write(text)
+        pages = convert_from_path(uploaded_file)
+        st.header("Extracted Images:")
+        for page_num, page_img in enumerate(pages):
+            st.subheader(f"Page {page_num + 1}")
+            st.image(page_img, use_column_width=True)
+            image_text = extract_text_from_image(page_img)
+            st.write("Image Text:")
+            st.write(image_text)
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

+PyPDF2
+streamlit
+pdf2image
+pytesseract
+pillow