Spaces:

suprimedev
/

pdf2text4

Sleeping

App Files Files Community

suprimedev commited on Aug 23, 2025

Commit

9fe191e

verified ·

1 Parent(s): f9ce44d

Update app.py

Browse files

Files changed (1) hide show

app.py +100 -48

app.py CHANGED Viewed

@@ -1,61 +1,113 @@
 import gradio as gr
-from pypdf import PdfReader
 import os
 def extract_text_from_pdf(pdf_file):
     """
-    این تابع یک فایل PDF را دریافت کرده و متن آن را استخراج می کند.
-    با توجه به پشتیبانی pypdf از یونیکد، فارسی، انگلیسی و عربی نیز به خوبی پشتیبانی می شوند.
-    Args:
-        pdf_file (dict): شیء فایل آپلود شده توسط Gradio.
-    Returns:
-        tuple: (متن استخراج شده برای نمایش, فایل متنی قابل دانلود)
     """
     if pdf_file is None:
-        return "لطفاً یک فایل PDF آپلود کنید.", None
     try:
-        # pypdf نیاز به مسیر فایل دارد، Gradio فایل را به صورت موقت ذخیره می کند
-        pdf_path = pdf_file.name
-        reader = PdfReader(pdf_path)
-        text_content = ""
-        for page in reader.pages:
-            # اطمینان از اینکه extract_text() مقدار None برنمی گرداند
-            page_text = page.extract_text()
-            if page_text:
-                text_content += page_text + "\n" # اضافه کردن خط جدید بین صفحات
-        # ایجاد فایل متنی برای دانلود با انکدینگ UTF-8
-        txt_filename = "extracted_text.txt"
-        with open(txt_filename, "w", encoding="utf-8") as f:
-            f.write(text_content)
-        # برای نمایش صحیح در Gradio، متن استخراج شده را برمی گردانیم.
-        # استفاده از Markdown برای نمایش بهتر زبان های راست به چپ
-        return f"<div dir='rtl'>{gr.Markdown.update(value=text_content)}</div>", txt_filename
-    except FileNotFoundError:
-        return "خطا: فایل PDF پیدا نشد.", None
     except Exception as e:
-        # خطای عمومی تر را برای موارد دیگر برمی گردانیم
-        return f"خطا در پردازش فایل PDF: {str(e)}", None
-# تعریف رابط کاربری Gradio
-interface = gr.Interface(
-    fn=extract_text_from_pdf,
-    inputs=gr.File(label="فایل PDF را اینجا آپلود کنید (فارسی/عربی/انگلیسی)"),
-    outputs=[
-        # استفاده از gr.Markdown برای خروجی متنی
-        gr.HTML(label="متن استخراج شده"),
-        gr.File(label="دانلود متن به صورت فایل TXT", file_count="single", interactive=False)
-    ],
-    title="استخراج متن چندزبانه (فارسی/عربی/انگلیسی) از PDF",
-    description="یک فایل PDF را برای استخراج متن آن آپلود کنید. متن استخراج شده به صورت خوانا نمایش داده شده و قابل دانلود خواهد بود.",
-    allow_flagging="never" # غیرفعال کردن دکمه flagging
-)
-# برای اجرا در سرور
 if __name__ == "__main__":
     interface.launch()

 import gradio as gr
+import pymupdf
+import arabic_reshaper
+from bidi.algorithm import get_display
+import io
 import os
 def extract_text_from_pdf(pdf_file):
     """
+    استخراج متن از فایل PDF با پشتیبانی از زبان‌های راست به چپ
     """
     if pdf_file is None:
+        return "لطفاً یک فایل PDF آپلود کنید."
     try:
+        # باز کردن فایل PDF
+        pdf_document = pymupdf.open(pdf_file.name)
+        all_text = []
+        # استخراج متن از تمام صفحات
+        for page_num in range(len(pdf_document)):
+            page = pdf_document[page_num]
+            text = page.get_text()
+            # پردازش متن برای نمایش صحیح فارسی/عربی
+            # اگر متن حاوی کاراکترهای فارسی یا عربی است
+            if any('\u0600' <= char <= '\u06FF' or '\u0750' <= char <= '\u077F' for char in text):
+                # تغییر شکل حروف عربی/فارسی
+                reshaped_text = arabic_reshaper.reshape(text)
+                # تنظیم جهت متن
+                bidi_text = get_display(reshaped_text)
+                text = bidi_text
+            all_text.append(f"--- صفحه {page_num + 1} ---\n{text}\n")
+        pdf_document.close()
+        return "\n".join(all_text)
     except Exception as e:
+        return f"خطا در پردازش فایل: {str(e)}"
+def create_interface():
+    """
+    ایجاد رابط کاربری Gradio
+    """
+    with gr.Blocks(theme=gr.themes.Soft()) as interface:
+        gr.Markdown(
+            """
+            # 📄 استخراج متن از PDF
+            این برنامه متن را از فایل‌های PDF استخراج می‌کند و از زبان‌های فارسی، عربی و انگلیسی پشتیبانی می‌کند.
+            ### نحوه استفاده:
+            1. فایل PDF خود را آپلود کنید
+            2. روی دکمه "استخراج متن" کلیک کنید
+            3. متن استخراج شده را مشاهده و کپی کنید
+            """
+        )
+        with gr.Row():
+            with gr.Column(scale=1):
+                pdf_input = gr.File(
+                    label="فایل PDF را آپلود کنید",
+                    file_types=[".pdf"],
+                    type="filepath"
+                )
+                extract_btn = gr.Button(
+                    "🔍 استخراج متن",
+                    variant="primary"
+                )
+                gr.Markdown(
+                    """
+                    ### ویژگی‌ها:
+                    - ✅ پشتیبانی از زبان فارسی
+                    - ✅ پشتیبانی از زبان عربی
+                    - ✅ پشتیبانی از زبان انگلیسی
+                    - ✅ مصرف کم منابع
+                    """
+                )
+            with gr.Column(scale=2):
+                text_output = gr.Textbox(
+                    label="متن استخراج شده",
+                    placeholder="متن استخراج شده در اینجا نمایش داده می‌شود...",
+                    lines=20,
+                    max_lines=30,
+                    rtl=True  # برای نمایش بهتر متون راست به چپ
+                )
+        # اتصال تابع به دکمه
+        extract_btn.click(
+            fn=extract_text_from_pdf,
+            inputs=pdf_input,
+            outputs=text_output
+        )
+        # مثال
+        gr.Examples(
+            examples=[],
+            inputs=pdf_input,
+            outputs=text_output,
+            fn=extract_text_from_pdf
+        )
+    return interface
+# اجرای برنامه
 if __name__ == "__main__":
+    interface = create_interface()
     interface.launch()