Spaces:

arasuezofis
/

Image2OcrPdf

Sleeping

App Files Files Community

arasuezofis commited on Dec 9, 2025

Commit

236fc22

verified ·

1 Parent(s): 8536ff7

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -36

app.py CHANGED Viewed

@@ -6,12 +6,12 @@ import io
 import os
 # -----------------------
-# Set Tesseract data path (HF Spaces)
 # -----------------------
 os.environ["TESSDATA_PREFIX"] = "/usr/share/tesseract-ocr/5/tessdata/"
 # -----------------------
-# Streamlit Page Config
 # -----------------------
 st.set_page_config(page_title="Image/PDF → Searchable PDF", layout="centered")
@@ -19,72 +19,60 @@ st.title("📄 Image / PDF to Searchable PDF (OCR)")
 st.write(
     "Upload an image (PNG/JPG/JPEG) or a PDF. The app will convert it into a searchable PDF using OCR."
 )
-st.write("Supports English (eng) and Hindi (hin).")
 # -----------------------
-# Language Selection
 # -----------------------
-lang = st.selectbox(
-    "Select OCR Language",
-    {
-        "English": "eng",
-        "Hindi": "hin",
-        "English + Hindi": "eng+hin"
-    }
-)
 # -----------------------
-# Helper Functions
 # -----------------------
-def image_to_searchable_pdf(image_obj: Image.Image, lang_code: str):
-    """
-    Convert PIL Image → searchable PDF using Tesseract OCR
-    """
-    return pytesseract.image_to_pdf_or_hocr(image_obj, extension="pdf", lang=lang_code)
-def pdf_to_searchable_pdf(pdf_bytes: bytes, lang_code: str):
-    """
-    Convert PDF bytes → searchable PDF page by page
-    """
     pages = convert_from_bytes(pdf_bytes)
     final_pdf = io.BytesIO()
     for idx, page in enumerate(pages):
-        ocred_pdf = pytesseract.image_to_pdf_or_hocr(page, extension='pdf', lang=lang_code)
         if idx == 0:
             final_pdf.write(ocred_pdf)
         else:
-            # Remove extra PDF header for subsequent pages
             final_pdf.write(ocred_pdf[28:])
     return final_pdf.getvalue()
 # -----------------------
-# Streamlit File Upload
 # -----------------------
 uploaded_file = st.file_uploader(
     "Upload Image or PDF", type=["png", "jpg", "jpeg", "pdf"]
 )
 if uploaded_file:
-    # Read file once to avoid BodyStreamBuffer errors
     file_bytes = uploaded_file.getvalue()
-    st.info("Processing file… This may take a few seconds.")
     try:
-        # Handle image files
         if uploaded_file.type.startswith("image"):
             img = Image.open(io.BytesIO(file_bytes))
-            result_pdf = image_to_searchable_pdf(img, lang)
-        # Handle PDF files
         elif uploaded_file.type == "application/pdf":
-            result_pdf = pdf_to_searchable_pdf(file_bytes, lang)
         else:
             st.error("Unsupported file type")

 import os
 # -----------------------
+# Ensure Tesseract knows where to find traineddata
 # -----------------------
 os.environ["TESSDATA_PREFIX"] = "/usr/share/tesseract-ocr/5/tessdata/"
 # -----------------------
+# Streamlit page config
 # -----------------------
 st.set_page_config(page_title="Image/PDF → Searchable PDF", layout="centered")
 st.write(
     "Upload an image (PNG/JPG/JPEG) or a PDF. The app will convert it into a searchable PDF using OCR."
 )
+st.write("Supports English (eng), Hindi (hin), or both.")
 # -----------------------
+# Language selection mapping
 # -----------------------
+language_options = {
+    "English": "eng",
+    "Hindi": "hin",
+    "English + Hindi": "eng+hin"
+}
+selected_lang = st.selectbox("Select OCR Language", list(language_options.keys()))
+lang_code = language_options[selected_lang]
 # -----------------------
+# Helper functions
 # -----------------------
+def image_to_searchable_pdf(image_obj: Image.Image, lang: str):
+    """Convert PIL Image → searchable PDF"""
+    return pytesseract.image_to_pdf_or_hocr(image_obj, extension="pdf", lang=lang)
+def pdf_to_searchable_pdf(pdf_bytes: bytes, lang: str):
+    """Convert PDF bytes → searchable PDF page by page"""
     pages = convert_from_bytes(pdf_bytes)
     final_pdf = io.BytesIO()
     for idx, page in enumerate(pages):
+        ocred_pdf = pytesseract.image_to_pdf_or_hocr(page, extension="pdf", lang=lang)
         if idx == 0:
             final_pdf.write(ocred_pdf)
         else:
+            # Remove repeated PDF header
             final_pdf.write(ocred_pdf[28:])
     return final_pdf.getvalue()
 # -----------------------
+# File uploader
 # -----------------------
 uploaded_file = st.file_uploader(
     "Upload Image or PDF", type=["png", "jpg", "jpeg", "pdf"]
 )
 if uploaded_file:
     file_bytes = uploaded_file.getvalue()
+    st.info("Processing file… This may take a few seconds…")
     try:
         if uploaded_file.type.startswith("image"):
             img = Image.open(io.BytesIO(file_bytes))
+            result_pdf = image_to_searchable_pdf(img, lang_code)
         elif uploaded_file.type == "application/pdf":
+            result_pdf = pdf_to_searchable_pdf(file_bytes, lang_code)
         else:
             st.error("Unsupported file type")