Spaces:

leilaghomashchi
/

Training-Model

Runtime error

App Files Files Community

leilaghomashchi commited on Oct 6, 2025

Commit

7d89455

verified ·

1 Parent(s): 74066c5

Update app.py

Browse files

Files changed (1) hide show

app.py +104 -108

app.py CHANGED Viewed

@@ -2,169 +2,165 @@ import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-# پرامپت سیستم
-SYSTEM_PROMPT = """شما یک سیستم هوشمند ناشناس‌سازی متن هستید. وظیفه شما شناسایی و جایگزینی موجودیت‌های حساس در متون مالی و اقتصادی فارسی است.
-دستورالعمل‌های اصلی:
-انواع موجودیت‌ها:
-company-XX: نام شرکت‌ها، سازمان‌ها، بانک‌ها، هلدینگ‌ها، گروه‌های مالی (مثال: ایران خودرو، بانک ملی، گروه مالی صبا، سازمان حسابرسی)
-person-XX: نام و نام خانوادگی اشخاص (مثال: محمد رضایی، مهدی اخوان بهابادی، فرج‌اله قدمی)
-amount-XX: مبالغ مالی شامل ریال، تومان، همت، دلار، تن، دستگاه و واحدهای اندازه‌گیری (مثال: ۲۳ هزار و ۲۹۶ میلیارد تومان، ۵۰۰ میلیون دلار، ۷۳.۷ میلیون نفر، 636 ریال)
-percent-XX: درصدها و نسبت‌ها (مثال: ۴.۵۸ درصد، ۷۵ درصد، ۱۴٪، منفی 345 درصد)
-قوانین کلیدی:
-1. ترتیب شماره‌گذاری: اولین باری که موجودیت ظاهر می‌شود، شماره می‌گیرد (01، 02، 03، ...)
-2. حفظ هویت یکسان: اگر همان موجودیت دوباره آمد، از همان شماره استفاده کن. مثلا "ایران خودرو" در جمله اول و "این شرکت" در جمله دوم هر دو company-01 هستند.
-3. تشخیص نام‌های مختلف: "فولاد مبارکه اصفهان" و "فولاد مبارکه" و "این شرکت" همه company-01 هستند. "همراه اول" و "گروه همراه اول" و "این اپراتور" همه company-01 هستند. اما "بانک پاسارگاد" و "سرزمین هوشمند پاد" دو company مختلف هستند.
-4. مبالغ و درصدهای مختلف: هر عدد جدید، شماره جدید می‌گیرد
-5. حفظ ساختار: ساختار جمله را حفظ کن، تاریخ‌ها را تغییر نده، کلمات توصیفی مثل "شرکت"، "بانک"، "گروه" را قبل از برچسب حفظ کن
-6. هیچ توضیح اضافه‌ای نده: فقط متن ناشناس‌شده را برگردان، بدون توضیح یا تفسیر
-نمونه‌های آموزشی:
-نمونه ۱:
-متن اصلی: ایران خودرو در اسفندماه سال 1402 حدود 23 هزار و 296 میلیارد تومان درآمد کسب کرد که در مقایسه با بهمن 4.58 درصد افزایش داشت. زیان خالص ایران خودرو در این سال به بیش از 37 همت رساند.
-متن ناشناس‌شده: company-01 در اسفندماه سال 1402 حدود amount-01 درآمد کسب کرد که در مقایسه با بهمن percent-01 افزایش داشت. زیان خالص company-01 در این سال به بیش از amount-02 رساند.
-نمونه ۲:
-متن اصلی: بانک پاسارگاد با شناسایی سود خالص 155 هزار میلیارد ریالی در رده دوم سودآورترین بانک‌های کشور قرار گرفت و رقابت تنگاتنگی با بانک ملت داشت. در مقابل، بانک سرمایه با مدیرعاملی فرج‌اله قدمی وضعیت بحرانی دارد.
-متن ناشناس‌شده: company-01 با شناسایی سود خالص amount-01 در رده دوم سودآورترین بانک‌های کشور قرار گرفت و رقابت تنگاتنگی با company-02 دا��ت. در مقابل، company-03 با مدیرعاملی person-01 وضعیت بحرانی دارد.
-نمونه ۳:
-متن اصلی: مهدی اخوان بهابادی، مدیرعامل همراه اول، در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی با رشد قابل توجه 37 درصدی نسبت به سال 1402، به 70 هزار و 677 میلیارد تومان رسیده است. سود خالص تلفیقی گروه همراه اول در پایان سال مالی 1403 به 8003 میلیارد تومان رسید.
-متن ناشناس‌شده: person-01، مدیرعامل company-01، در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی با رشد قابل توجه percent-01 نسبت به سال 1402، به amount-01 رسیده است. سود خالص تلفیقی گروه company-01 در پایان سال مالی 1403 به amount-02 رسید.
-حالا وظیفه شما: متن زیر را طبق الگوی بالا ناشناس‌سازی کنید. فقط متن ناشناس‌شده را بدون هیچ توضیح اضافه برگردانید."""
-# بارگذاری مدل (فقط یک بار)
 print("در حال بارگذاری مدل...")
 model_name = "Qwen/Qwen2.5-7B-Instruct"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float16,
-    device_map="auto",
-    low_cpu_mem_usage=True
-)
-print("مدل بارگذاری شد!")
-def anonymize_text(text, temperature=0.2, max_tokens=2048):
     """تابع ناشناس‌سازی متن"""
     if not text.strip():
-        return "لطفاً متنی وارد کنید"
     messages = [
         {"role": "system", "content": SYSTEM_PROMPT},
         {"role": "user", "content": f"متن اصلی:\n{text}\n\nمتن ناشناس‌شده:"}
     ]
-    # تبدیل به فرمت مدل
-    input_ids = tokenizer.apply_chat_template(
-        messages,
-        add_generation_prompt=True,
-        return_tensors="pt"
-    ).to(model.device)
-    # تولید
-    with torch.no_grad():
-        outputs = model.generate(
-            input_ids,
-            max_new_tokens=int(max_tokens),
-            temperature=float(temperature),
-            top_p=0.9,
-            do_sample=True,
-            pad_token_id=tokenizer.eos_token_id,
-            eos_token_id=tokenizer.eos_token_id
         )
-    # استخراج پاسخ
-    response = tokenizer.decode(
-        outputs[0][input_ids.shape[-1]:],
-        skip_special_tokens=True
-    )
-    return response.strip()
 # نمونه‌های پیش‌فرض
 examples = [
-    ["بانک ملی ایران در سال 1403 سود 50 هزار میلیارد تومانی کسب کرد. مدیرعامل بانک ملی، احمد رضایی، اعلام کرد این بانک 25 درصد رشد داشته است."],
-    ["شرکت فولاد مبارکه اصفهان با سود 100 همتی در رده اول قرار گرفت. فولاد مبارکه 40 درصد رشد داشته است."],
-    ["گروه مالی صبا تامین گزارش داد که صبا در سال 1403 سود 5000 میلیارد تومانی داشته است."]
 ]
-# ساخت رابط کاربری Gradio
-with gr.Blocks(title="ناشناس‌سازی متون مالی", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
-    # 🔒 سیستم ناشناس‌سازی متون مالی فارسی
-    این سیستم با استفاده از LLaMA 3.1-8B موجودیت‌های حساس (شرکت‌ها، اشخاص، مبالغ، درصدها) را شناسایی و ناشناس می‌کند.
-    **نکته**: پردازش هر متن ممکن است ۵-۱۵ ثانیه طول بکشد.
     """)
     with gr.Row():
         with gr.Column():
             input_text = gr.Textbox(
                 label="متن اصلی",
-                placeholder="متن خود را اینجا وارد کنید...",
-                lines=10,
                 rtl=True
             )
-            with gr.Row():
                 temperature = gr.Slider(
                     minimum=0.1,
-                    maximum=1.0,
                     value=0.2,
                     step=0.1,
-                    label="Temperature (پایین‌تر = پایدارتر)"
                 )
                 max_tokens = gr.Slider(
-                    minimum=512,
-                    maximum=4096,
-                    value=2048,
-                    step=256,
                     label="حداکثر طول خروجی"
                 )
-            submit_btn = gr.Button("ناشناس‌سازی متن", variant="primary", size="lg")
         with gr.Column():
             output_text = gr.Textbox(
                 label="متن ناشناس‌شده",
-                lines=10,
                 rtl=True
             )
     gr.Examples(
         examples=examples,
         inputs=input_text,
-        label="نمونه‌های آزمایشی"
     )
     gr.Markdown("""
-    ### راهنمای استفاده:
-    1. متن خود را در کادر سمت چپ وارد کنید
-    2. در صورت نیاز، تنظیمات را تغییر دهید
-    3. روی دکمه "ناشناس‌سازی متن" کلیک کنید
-    4. منتظر بمانید تا پردازش تکمیل شود
-    ### انواع موجودیت‌های قابل شناسایی:
-    - **company-XX**: نام شرکت‌ها، بانک‌ها، سازمان‌ها
-    - **person-XX**: نام اشخاص
-    - **amount-XX**: مبالغ مالی (ریال، تومان، همت، دلار و...)
-    - **percent-XX**: درصدها و نسبت‌ها
     """)
     submit_btn.click(

 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
+# پرامپت سیستم (کوتاه شده برای کاهش مصرف)
+SYSTEM_PROMPT = """شما یک سیستم ناشناس‌سازی متن هستید. موجودیت‌های حساس را شناسایی و جایگزین کنید:
+- company-XX: شرکت‌ها، بانک‌ها (مثال: ایران خودرو → company-01)
+- person-XX: اشخاص (مثال: احمد رضایی → person-01)
+- amount-XX: مبالغ مالی (مثال: 50 هزار میلیارد تومان → amount-01)
+- percent-XX: درصدها (مثال: 25 درصد → percent-01)
+قوانین:
+1. شماره‌گذاری به ترتیب ظهور (01، 02، 03...)
+2. موجودیت تکراری = همان شماره
+3. ساختار جمله را حفظ کنید
+4. فقط متن ناشناس‌شده را برگردانید
+نمونه:
+متن اصلی: بانک ملی ایران در سال 1403 سود 50 هزار میلیارد تومانی کسب کرد. مدیرعامل بانک ملی، احمد رضایی، گفت این بانک 25 درصد رشد داشت.
+متن ناشناس‌شده: company-01 در سال 1403 سود amount-01 کسب کرد. مدیرعامل company-01، person-01، گفت این بانک percent-01 رشد داشت."""
 print("در حال بارگذاری مدل...")
 model_name = "Qwen/Qwen2.5-7B-Instruct"
+# تشخیص دستگاه (GPU یا CPU)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"استفاده از دستگاه: {device}")
+# تنظیم dtype بر اساس دستگاه
+if device == "cuda":
+    torch_dtype = torch.float16
+else:
+    torch_dtype = torch.float32  # CPU فقط float32 پشتیبانی می‌کند
+try:
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        torch_dtype=torch_dtype,
+        device_map="auto" if device == "cuda" else None,
+        low_cpu_mem_usage=True
+    )
+    # اگر CPU است، مدل را صریحاً روی CPU بگذار
+    if device == "cpu":
+        model = model.to(device)
+    print(f"✅ مدل با موفقیت بارگذاری شد! (دستگاه: {device}, dtype: {torch_dtype})")
+except Exception as e:
+    print(f"❌ خطا در بارگذاری مدل: {e}")
+    raise e
+def anonymize_text(text, temperature=0.2, max_tokens=1024):
     """تابع ناشناس‌سازی متن"""
     if not text.strip():
+        return "⚠️ لطفاً متنی وارد کنید"
     messages = [
         {"role": "system", "content": SYSTEM_PROMPT},
         {"role": "user", "content": f"متن اصلی:\n{text}\n\nمتن ناشناس‌شده:"}
     ]
+    try:
+        # تبدیل به فرمت مدل
+        input_ids = tokenizer.apply_chat_template(
+            messages,
+            add_generation_prompt=True,
+            return_tensors="pt"
+        ).to(device)
+        # اضافه کردن attention_mask
+        attention_mask = torch.ones_like(input_ids)
+        print(f"🔄 در حال پردازش... (طول ورودی: {input_ids.shape[1]} توکن)")
+        # تولید
+        with torch.no_grad():
+            outputs = model.generate(
+                input_ids,
+                attention_mask=attention_mask,
+                max_new_tokens=int(max_tokens),
+                temperature=float(temperature),
+                top_p=0.9,
+                do_sample=True if temperature > 0 else False,
+                pad_token_id=tokenizer.eos_token_id,
+                eos_token_id=tokenizer.eos_token_id
+            )
+        # استخراج پاسخ
+        response = tokenizer.decode(
+            outputs[0][input_ids.shape[-1]:],
+            skip_special_tokens=True
         )
+        print("✅ پردازش تکمیل شد")
+        return response.strip()
+    except Exception as e:
+        error_msg = f"❌ خطا در پردازش: {str(e)}"
+        print(error_msg)
+        return error_msg
 # نمونه‌های پیش‌فرض
 examples = [
+    ["بانک ملی ایران در سال 1403 سود 50 هزار میلیارد تومانی کسب کرد."],
+    ["شرکت فولاد مبارکه با سود 100 همتی در رده اول قرار گرفت."],
 ]
+# ساخت رابط کاربری
+with gr.Blocks(title="ناشناس‌سازی متون", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
+    # 🔒 ناشناس‌سازی متون مالی فارسی
+    ⚠️ **توجه**: این نسخه روی CPU اجرا می‌شود و کند است (30-60 ثانیه برای هر متن).
+    برای سرعت بیشتر، GPU را در Settings فعال کنید.
     """)
     with gr.Row():
         with gr.Column():
             input_text = gr.Textbox(
                 label="متن اصلی",
+                placeholder="متن خود را اینجا وارد کنید (حداکثر 200 کلمه)...",
+                lines=8,
                 rtl=True
             )
+            with gr.Accordion("⚙️ تنظیمات پیشرفته", open=False):
                 temperature = gr.Slider(
                     minimum=0.1,
+                    maximum=0.5,
                     value=0.2,
                     step=0.1,
+                    label="Temperature"
                 )
                 max_tokens = gr.Slider(
+                    minimum=256,
+                    maximum=1024,
+                    value=512,
+                    step=128,
                     label="حداکثر طول خروجی"
                 )
+            submit_btn = gr.Button("🚀 ناشناس‌سازی", variant="primary", size="lg")
         with gr.Column():
             output_text = gr.Textbox(
                 label="متن ناشناس‌شده",
+                lines=8,
                 rtl=True
             )
     gr.Examples(
         examples=examples,
         inputs=input_text,
+        label="📝 نمونه‌های آزمایشی (کلیک کنید)"
     )
     gr.Markdown("""
+    ### 📌 نکات:
+    - متن‌های کوتاه (کمتر از 100 کلمه) سریع‌تر پردازش می‌شوند
+    - برای متن‌های طولانی، به چند دقیقه زمان نیاز است
+    - اگر خطا گرفتید، متن کوتاه‌تری امتحان کنید
     """)
     submit_btn.click(