Spaces:

AzizWazir
/

PDF-Convertor

Sleeping

AzizWazir commited on Dec 29, 2024

Commit

ef255ad

verified ·

1 Parent(s): 42d5a84

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,16 +1,21 @@
 import streamlit as st
-import fitz  # PyMuPDF
 import pytesseract
 from pdf2image import convert_from_path
 from PIL import Image
 import pandas as pd
 from docx import Document
 import io
 # OCR function to convert image-based PDF to text
 def extract_text_from_image_pdf(uploaded_file):
-    # Convert PDF to images
-    images = convert_from_path(uploaded_file)
     extracted_text = []
     for image in images:

 import streamlit as st
 import pytesseract
 from pdf2image import convert_from_path
 from PIL import Image
 import pandas as pd
 from docx import Document
 import io
+import tempfile
 # OCR function to convert image-based PDF to text
 def extract_text_from_image_pdf(uploaded_file):
+    # Save the uploaded file to a temporary file
+    with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
+        tmp_file.write(uploaded_file.read())  # Write the file content to the temporary file
+        tmp_file_path = tmp_file.name  # Get the temporary file path
+    # Convert PDF to images using pdf2image
+    images = convert_from_path(tmp_file_path)
     extracted_text = []
     for image in images: