Spaces:

leilaghomashchi
/

Training-Model

Runtime error

App Files Files Community

leilaghomashchi commited on Oct 6, 2025

Commit

6e3a439

verified ·

1 Parent(s): b8d2863

Upload gradio_app.py

Browse files

Files changed (1) hide show

gradio_app.py +177 -0

gradio_app.py ADDED Viewed

	@@ -0,0 +1,177 @@

+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+# پرامپت سیستم
+SYSTEM_PROMPT = """شما یک سیستم هوشمند ناشناس‌سازی متن هستید. وظیفه شما شناسایی و جایگزینی موجودیت‌های حساس در متون مالی و اقتصادی فارسی است.
+دستورالعمل‌های اصلی:
+انواع موجودیت‌ها:
+company-XX: نام شرکت‌ها، سازمان‌ها، بانک‌ها، هلدینگ‌ها، گروه‌های مالی (مثال: ایران خودرو، بانک ملی، گروه مالی صبا، سازمان حسابرسی)
+person-XX: نام و نام خانوادگی اشخاص (مثال: محمد رضایی، مهدی اخوان بهابادی، فرج‌اله قدمی)
+amount-XX: مبالغ مالی شامل ریال، تومان، همت، دلار، تن، دستگاه و واحدهای اندازه‌گیری (مثال: ۲۳ هزار و ۲۹۶ میلیارد تومان، ۵۰۰ میلیون دلار، ۷۳.۷ میلیون نفر، 636 ریال)
+percent-XX: درصدها و نسبت‌ها (مثال: ۴.۵۸ درصد، ۷۵ درصد، ۱۴٪، منفی 345 درصد)
+قوانین کلیدی:
+1. ترتیب شماره‌گذاری: اولین باری که موجودیت ظاهر می‌شود، شماره می‌گیرد (01، 02، 03، ...)
+2. حفظ هویت یکسان: اگر همان موجودیت دوباره آمد، از همان شماره استفاده کن. مثلا "ایران خودرو" در جمله اول و "این شرکت" در جمله دوم هر دو company-01 هستند.
+3. تشخیص نام‌های مختلف: "فولاد مبارکه اصفهان" و "فولاد مبارکه" و "این شرکت" همه company-01 هستند. "همراه اول" و "گروه همراه اول" و "این اپراتور" همه company-01 هستند. اما "بانک پاسارگاد" و "سرزمین هوشمند پاد" دو company مختلف هستند.
+4. مبالغ و درصدهای مختلف: هر عدد جدید، شماره جدید می‌گیرد
+5. حفظ ساختار: ساختار جمله را حفظ کن، تاریخ‌ها را تغییر نده، کلمات توصیفی مثل "شرکت"، "بانک"، "گروه" را قبل از برچسب حفظ کن
+6. هیچ توضیح اضافه‌ای نده: فقط متن ناشناس‌شده را برگردان، بدون توضیح یا تفسیر
+نمونه‌های آموزشی:
+نمونه ۱:
+متن اصلی: ایران خودرو در اسفندماه سال 1402 حدود 23 هزار و 296 میلیارد تومان درآمد کسب کرد که در مقایسه با بهمن 4.58 درصد افزایش داشت. زیان خالص ایران خودرو در این سال به بیش از 37 همت رساند.
+متن ناشناس‌شده: company-01 در اسفندماه سال 1402 حدود amount-01 درآمد کسب کرد که در مقایسه با بهمن percent-01 افزایش داشت. زیان خالص company-01 در این سال به بیش از amount-02 رساند.
+نمونه ۲:
+متن اصلی: بانک پاسارگاد با شناسایی سود خالص 155 هزار میلیارد ریالی در رده دوم سودآورترین بانک‌های کشور قرار گرفت و رقابت تنگاتنگی با بانک ملت داشت. در مقابل، بانک سرمایه با مدیرعاملی فرج‌اله قدمی وضعیت بحرانی دارد.
+متن ناشناس‌شده: company-01 با شناسایی سود خالص amount-01 در رده دوم سودآورترین بانک‌های کشور قرار گرفت و رقابت تنگاتنگی با company-02 داشت. در مقابل، company-03 با مدیرعاملی person-01 وضعیت بحرانی دارد.
+نمونه ۳:
+متن اصلی: مهدی اخوان بهابادی، مدیرعامل همراه اول، در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی با رشد قابل توجه 37 درصدی نسبت به سال 1402، به 70 هزار و 677 میلیارد تومان رسیده است. سود خالص تلفیقی گروه همراه اول در پایان سال مالی 1403 به 8003 میلیارد تومان رسید.
+متن ناشناس‌شده: person-01، مدیرعامل company-01، در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی با رشد قابل توجه percent-01 نسبت به سال 1402، به amount-01 رسیده است. سود خالص تلفیقی گروه company-01 در پایان سال مالی 1403 به amount-02 رسید.
+حالا وظیفه شما: متن زیر را طبق الگوی بالا ناشناس‌سازی کنید. فقط متن ناشناس‌شده را بدون هیچ توضیح اضافه برگردانید."""
+# بارگذاری مدل (فقط یک بار)
+print("در حال بارگذاری مدل...")
+model_name = "meta-llama/Llama-3.1-8B-Instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto",
+    low_cpu_mem_usage=True
+)
+print("مدل بارگذاری شد!")
+def anonymize_text(text, temperature=0.2, max_tokens=2048):
+    """تابع ناشناس‌سازی متن"""
+    if not text.strip():
+        return "لطفاً متنی وارد کنید"
+    messages = [
+        {"role": "system", "content": SYSTEM_PROMPT},
+        {"role": "user", "content": f"متن اصلی:\n{text}\n\nمتن ناشناس‌شده:"}
+    ]
+    # تبدیل به فرمت مدل
+    input_ids = tokenizer.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        return_tensors="pt"
+    ).to(model.device)
+    # تولید
+    with torch.no_grad():
+        outputs = model.generate(
+            input_ids,
+            max_new_tokens=int(max_tokens),
+            temperature=float(temperature),
+            top_p=0.9,
+            do_sample=True,
+            pad_token_id=tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id
+        )
+    # استخراج پاسخ
+    response = tokenizer.decode(
+        outputs[0][input_ids.shape[-1]:],
+        skip_special_tokens=True
+    )
+    return response.strip()
+# نمونه‌های پیش‌فرض
+examples = [
+    ["بانک ملی ایران در سال 1403 سود 50 هزار میلیارد تومانی کسب کرد. مدیرعامل بانک ملی، احمد رضایی، اعلام کرد این بانک 25 درصد رشد داشته است."],
+    ["شرکت فولاد مبارکه اصفهان با سود 100 همتی در رده اول قرار گرفت. فولاد مبارکه 40 درصد رشد داشته است."],
+    ["گروه مالی صبا تامین گزارش داد که صبا در سال 1403 سود 5000 میلیارد تومانی داشته است."]
+]
+# ساخت رابط کاربری Gradio
+with gr.Blocks(title="ناشناس‌سازی متون مالی", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🔒 سیستم ناشناس‌سازی متون مالی فارسی
+    این سیستم با استفاده از LLaMA 3.1-8B موجودیت‌های حساس (شرکت‌ها، اشخاص، مبالغ، درصدها) را شناسایی و ناشناس می‌کند.
+    **نکته**: پردازش هر متن ممکن است ۵-۱۵ ثانیه طول بکشد.
+    """)
+    with gr.Row():
+        with gr.Column():
+            input_text = gr.Textbox(
+                label="متن اصلی",
+                placeholder="متن خود را اینجا وارد کنید...",
+                lines=10,
+                rtl=True
+            )
+            with gr.Row():
+                temperature = gr.Slider(
+                    minimum=0.1,
+                    maximum=1.0,
+                    value=0.2,
+                    step=0.1,
+                    label="Temperature (پایین‌تر = پایدارتر)"
+                )
+                max_tokens = gr.Slider(
+                    minimum=512,
+                    maximum=4096,
+                    value=2048,
+                    step=256,
+                    label="حداکثر طول خروجی"
+                )
+            submit_btn = gr.Button("ناشناس‌سازی متن", variant="primary", size="lg")
+        with gr.Column():
+            output_text = gr.Textbox(
+                label="متن ناشناس‌شده",
+                lines=10,
+                rtl=True
+            )
+    gr.Examples(
+        examples=examples,
+        inputs=input_text,
+        label="نمونه‌های آزمایشی"
+    )
+    gr.Markdown("""
+    ### راهنمای استفاده:
+    1. متن خود را در کادر سمت چپ وارد کنید
+    2. در صورت نیاز، تنظیمات را تغییر دهید
+    3. روی دکمه "ناشناس‌سازی متن" کلیک کنید
+    4. منتظر بمانید تا پردازش تکمیل شود
+    ### انواع موجودیت‌های قابل شناسایی:
+    - **company-XX**: نام شرکت‌ها، بانک‌ها، سازمان‌ها
+    - **person-XX**: نام اشخاص
+    - **amount-XX**: مبالغ مالی (ریال، تومان، همت، دلار و...)
+    - **percent-XX**: درصدها و نسبت‌ها
+    """)
+    submit_btn.click(
+        fn=anonymize_text,
+        inputs=[input_text, temperature, max_tokens],
+        outputs=output_text
+    )
+if __name__ == "__main__":
+    demo.launch()