Spaces:

arasuezofis
/

Image2OcrPdf

Sleeping

arasuezofis commited on Dec 9, 2025

Commit

ba1c3af

verified ·

1 Parent(s): 236fc22

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,9 +4,10 @@ from pdf2image import convert_from_bytes
 from PIL import Image
 import io
 import os
 # -----------------------
-# Ensure Tesseract knows where to find traineddata
 # -----------------------
 os.environ["TESSDATA_PREFIX"] = "/usr/share/tesseract-ocr/5/tessdata/"
@@ -36,23 +37,25 @@ lang_code = language_options[selected_lang]
 # -----------------------
 # Helper functions
 # -----------------------
 def image_to_searchable_pdf(image_obj: Image.Image, lang: str):
     """Convert PIL Image → searchable PDF"""
     return pytesseract.image_to_pdf_or_hocr(image_obj, extension="pdf", lang=lang)
 def pdf_to_searchable_pdf(pdf_bytes: bytes, lang: str):
-    """Convert PDF bytes → searchable PDF page by page"""
     pages = convert_from_bytes(pdf_bytes)
-    final_pdf = io.BytesIO()
-    for idx, page in enumerate(pages):
-        ocred_pdf = pytesseract.image_to_pdf_or_hocr(page, extension="pdf", lang=lang)
-        if idx == 0:
-            final_pdf.write(ocred_pdf)
-        else:
-            # Remove repeated PDF header
-            final_pdf.write(ocred_pdf[28:])
     return final_pdf.getvalue()
 # -----------------------

 from PIL import Image
 import io
 import os
+from PyPDF2 import PdfReader, PdfWriter
 # -----------------------
+# Set Tesseract data path
 # -----------------------
 os.environ["TESSDATA_PREFIX"] = "/usr/share/tesseract-ocr/5/tessdata/"
 # -----------------------
 # Helper functions
 # -----------------------
 def image_to_searchable_pdf(image_obj: Image.Image, lang: str):
     """Convert PIL Image → searchable PDF"""
     return pytesseract.image_to_pdf_or_hocr(image_obj, extension="pdf", lang=lang)
 def pdf_to_searchable_pdf(pdf_bytes: bytes, lang: str):
+    """Convert multi-page PDF → single searchable PDF"""
     pages = convert_from_bytes(pdf_bytes)
+    pdf_writer = PdfWriter()
+    for page in pages:
+        # OCR each page
+        ocred_pdf_bytes = pytesseract.image_to_pdf_or_hocr(page, extension="pdf", lang=lang)
+        reader = PdfReader(io.BytesIO(ocred_pdf_bytes))
+        for p in reader.pages:
+            pdf_writer.add_page(p)
+    final_pdf = io.BytesIO()
+    pdf_writer.write(final_pdf)
     return final_pdf.getvalue()
 # -----------------------