Spaces:

suprimedev
/

pdf2text4

Sleeping

App Files Files Community

suprimedev commited on Aug 23, 2025

Commit

da8d102

verified ·

1 Parent(s): 4f46d61

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -25

app.py CHANGED Viewed

@@ -1,11 +1,13 @@
 import gradio as gr
-import fitz  # همان PyMuPDF
 import arabic_reshaper
 def extract_text_from_pdf(pdf_file):
     """
-    استخراج متن از فایل PDF با پشتیبانی از زبان‌های راست به چپ
     """
     if pdf_file is None:
         return "لطفاً یک فایل PDF آپلود کنید.", None
@@ -16,7 +18,15 @@ def extract_text_from_pdf(pdf_file):
         for page_num in range(len(pdf_document)):
             page = pdf_document[page_num]
-            text = page.get_text()
             # پردازش متن فارسی/عربی
             if any('\u0600' <= char <= '\u06FF' or '\u0750' <= char <= '\u077F' for char in text):
@@ -27,7 +37,7 @@ def extract_text_from_pdf(pdf_file):
         pdf_document.close()
         extracted_text = "\n".join(all_text)
-        # ذخیره در فایل txt موقت
         output_file = "extracted_text.txt"
         with open(output_file, "w", encoding="utf-8") as f:
             f.write(extracted_text)
@@ -40,26 +50,28 @@ def extract_text_from_pdf(pdf_file):
 def create_interface():
     """
-    ایجاد رابط کاربری Gradio
     """
     with gr.Blocks(theme=gr.themes.Soft()) as interface:
         gr.Markdown(
             """
-            # 📄 استخراج متن از PDF
-            این برنامه متن را از فایل‌های PDF استخراج می‌کند و از زبان‌های فارسی، عربی و انگلیسی پشتیبانی می‌کند.
             ### نحوه استفاده:
-            1. فایل PDF خود را آپلود کنید
-            2. روی دکمه "استخراج متن" کلیک کنید
-            3. متن استخراج شده را مشاهده و در صورت نیاز دانلود کنید
             """
         )
         with gr.Row():
             with gr.Column(scale=1):
                 pdf_input = gr.File(
-                    label="فایل PDF را آپلود کنید",
                     file_types=[".pdf"],
                     type="filepath"
                 )
@@ -67,29 +79,19 @@ def create_interface():
                     "🔍 استخراج متن",
                     variant="primary"
                 )
-                gr.Markdown(
-                    """
-                    ### ویژگی‌ها:
-                    - ✅ پشتیبانی از زبان فارسی
-                    - ✅ پشتیبانی از زبان عربی
-                    - ✅ پشتیبانی از زبان انگلیسی
-                    - ✅ امکان دانلود خروجی به صورت txt
-                    """
-                )
             with gr.Column(scale=2):
                 text_output = gr.Textbox(
-                    label="متن استخراج شده",
-                    placeholder="متن استخراج شده در اینجا نمایش داده می‌شود...",
                     lines=20,
                     max_lines=30
                 )
                 download_output = gr.File(
-                    label="دانلود خروجی به صورت txt"
                 )
-        # اتصال تابع به دکمه
         extract_btn.click(
             fn=extract_text_from_pdf,
             inputs=pdf_input,

 import gradio as gr
+import fitz  # PyMuPDF
 import arabic_reshaper
+import pytesseract
+from PIL import Image
 def extract_text_from_pdf(pdf_file):
     """
+    استخراج متن از PDF با پشتیبانی از OCR برای فایل‌های اسکن‌شده یا غیرقابل‌خواندن
     """
     if pdf_file is None:
         return "لطفاً یک فایل PDF آپلود کنید.", None
         for page_num in range(len(pdf_document)):
             page = pdf_document[page_num]
+            # تلاش اول: استخراج متن مستقیم
+            text = page.get_text("text")
+            # اگر متن خالی یا بی‌معنی بود → OCR
+            if not text.strip() or len(set(text)) < 10:
+                pix = page.get_pixmap(dpi=200)  # صفحه به تصویر
+                img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+                text = pytesseract.image_to_string(img, lang="fas+ara+eng")
             # پردازش متن فارسی/عربی
             if any('\u0600' <= char <= '\u06FF' or '\u0750' <= char <= '\u077F' for char in text):
         pdf_document.close()
         extracted_text = "\n".join(all_text)
+        # ذخیره در فایل txt
         output_file = "extracted_text.txt"
         with open(output_file, "w", encoding="utf-8") as f:
             f.write(extracted_text)
 def create_interface():
     """
+    رابط کاربری Gradio
     """
     with gr.Blocks(theme=gr.themes.Soft()) as interface:
         gr.Markdown(
             """
+            # 📄 استخراج متن از PDF با OCR
+            این برنامه متن را از فایل‌های PDF استخراج می‌کند.
+            - ابتدا سعی می‌کند متن را مستقیماً بخواند.
+            - اگر PDF اسکن‌شده یا رمزگذاری‌شده باشد، از OCR (تشخیص متن از تصویر) استفاده می‌کند.
             ### نحوه استفاده:
+            1. فایل PDF خود را آپلود کنید
+            2. روی دکمه "استخراج متن" کلیک کنید
+            3. متن استخراج‌شده را ببینید یا فایل txt را دانلود کنید
             """
         )
         with gr.Row():
             with gr.Column(scale=1):
                 pdf_input = gr.File(
+                    label="📂 فایل PDF را آپلود کنید",
                     file_types=[".pdf"],
                     type="filepath"
                 )
                     "🔍 استخراج متن",
                     variant="primary"
                 )
             with gr.Column(scale=2):
                 text_output = gr.Textbox(
+                    label="📝 متن استخراج شده",
+                    placeholder="اینجا متن PDF نمایش داده می‌شود...",
                     lines=20,
                     max_lines=30
                 )
                 download_output = gr.File(
+                    label="⬇️ دانلود خروجی به صورت txt"
                 )
+        # اتصال دکمه
         extract_btn.click(
             fn=extract_text_from_pdf,
             inputs=pdf_input,