Spaces:

Vishwas1
/

PDF2Marathi

Sleeping

Vishwas1 commited on Dec 7, 2024

Commit

9453fd8

verified ·

1 Parent(s): 1170f39

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+import pytesseract
+from pdf2image import convert_from_bytes
+import os
+def ocr_marathi_from_pdf(pdf_file):
+    # Convert PDF to images
+    images = convert_from_bytes(pdf_file.read())
+    # Perform OCR on each page
+    all_text = []
+    for img in images:
+        text = pytesseract.image_to_string(img, lang='mar')
+        all_text.append(text)
+    # Join all pages
+    full_text = "\n".join(all_text)
+    return full_text
+iface = gr.Interface(
+    fn=ocr_marathi_from_pdf,
+    inputs=gr.inputs.File(label="Upload PDF"),
+    outputs="text",
+    title="Marathi OCR"
+)
+if __name__ == "__main__":
+    iface.launch()