Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Oct 13

Commit

6799ed0

verified ·

1 Parent(s): af857d7

Update app.py

Browse files

Files changed (1) hide show

app.py +124 -224

app.py CHANGED Viewed

@@ -11,10 +11,10 @@ class CerebrasConfig:
     """تنظیمات Cerebras API برای Qwen 3-32B"""
     api_key: str
     base_url: str = "https://api.cerebras.ai/v1"
-    model: str = "qwen-3-32b"  # مدل Qwen 3-32B (سرعت 2,400 t/s)
-    max_tokens: int = 2000
-    temperature: float = 0.6  # توصیه شده برای Qwen (0.6)
-    top_p: float = 0.95  # توصیه شده برای Qwen
 class AdvancedCerebrasAnonymizer:
     """سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی با Qwen 3-32B"""
@@ -29,8 +29,10 @@ class AdvancedCerebrasAnonymizer:
         self.system_prompt = self._create_advanced_system_prompt()
     def _create_advanced_system_prompt(self) -> str:
-        """ایجاد دستورالعمل سیستمی فشرده برای Qwen 3-32B"""
-        return """شما متن‌های مالی فارسی را ناشناس می‌کنید. اسامی خاص و اعداد را با شناسه جایگزین کنید.
 ## قوانین اندیس‌گذاری:
 1. **ترتیب پیوسته**: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
@@ -39,60 +41,35 @@ class AdvancedCerebrasAnonymizer:
 4. **اشاره ضمنی**: "این شرکت" اگر به company-01 اشاره دارد → company-01 (نه company-02)
 ## انواع موجودیت:
-- **company-XX**: شرکت‌ها، بانک‌ها، سازمان‌ها، گروه‌ها (⚠️ "گروه X" = company نه group)
-- **person-XX**: نام و نام خانوادگی اشخاص
-- **amount-XX**: مبالغ (تومان، ریال، همت، دلار، تن، دستگاه) - واحد را حفظ کن
-- **percent-XX**: درصدها و نسبت‌ها
-## ⚠️ قوانین کلیدی:
-1. **بازرس = شرکت است**: "بازرس قانونی" → company-XX (نه person)
-2. **واحدها**: "amount-01 میلیارد تومان" ✅ | "amount-01" ❌
-3. **گروه‌ها**: "گروه مالی صبا" → company-XX (نه group-XX)
-4. **کلمات عمومی حفظ**: "سه شرکت"، "چند بانک"، "مراکز درمانی" → حفظ (موجودیت نیستند)
-5. **دوره زمانی حفظ**: "۵ ماهه"، "۹ ماهه اول" → حفظ (نه amount)
-6. **بازه = یک entity**: "یک تا 1.5 میلیون" → amount-01
-7. **شماره ثبت حفظ**: "شماره 11385" → حفظ (نه amount)
-8. **نهادهای عمومی حفظ**: "مرجع ثبت شرکتها"، "هیئت مجلس" → حفظ
-## موارد حفظ شده:
-تاریخ، فصل (پاییز)، عناوین شغلی، مکان‌ها، کلمات عمومی بدون نام خاص، دوره‌های زمانی (۹ ماهه)
-## مثال‌های کلیدی:
-**مثال 1:**
-ورودی: مهدی اخوان، مدیرعامل همراه اول، اعلام کرد درآمد با رشد 37 درصدی به 677 میلیارد تومان رسید. سود تلفیگی گروه همراه اول 8003 میلیارد شد.
-خروجی: person-01، مدیرعامل company-01، اعلام کرد درآمد با رشد percent-01 به amount-01 رسید. سود تلفیگی company-01 amount-02 شد.
-**مثال 2:**
-ورودی: فولاد مبارکه اصفهان با ملی نفت قرارداد امضا کرد. فاما سرمایه را از 8700 به 12500 میلیارد افزایش می‌دهد.
-خروجی: company-01 با company-02 قرارداد امضا کرد. company-01 سرمایه را از amount-01 به amount-02 افزایش می‌دهد.
-**مثال 3:**
-ورودی: مجمع پتروشیمی بوعلی سینا برگزار شد. وانیا نیک تدبیر را بازرس قانونی و تدوین و همکاران را بازرس علی‌البدل انتخاب کردند.
-خروجی: مجمع company-01 برگزار شد. company-02 را بازرس قانونی و company-03 را بازرس علی‌البدل انتخاب کردند.
-**مثال 4:**
-ورودی: همراه اول در ۹ ماه سال 49 هزار میلیارد درآمد کسب کرد. عملکرد ۵ ماهه رشد 37 درصدی داشت.
-خروجی: company-01 در ۹ ماه سال amount-01 درآمد کسب کرد. عملکرد ۵ ماهه رشد percent-01 داشت.
-**مثال 5:**
-ورودی: پالایش نفت اصفهان EPS آن به 2500 ریال می‌رسد. این شرکت یکی از بزرگ‌ترین پالایشگاه‌ها است.
-خروجی: company-01 EPS آن به amount-01 می‌رسد. این شرکت یکی از بزرگ‌ترین پالایشگاه‌ها است.
-⚠️ "این شرکت" = company-01 (نه company-02)
-**مثال 6:**
-ورودی: سازمان تامین اجتماعی دارای سه شرکت دارویی است که از مراکز درمانی وزارت بهداشت مطالبات دارند.
-خروجی: company-01 دارای سه شرکت دارویی است که از مراکز درمانی company-02 مطالبات دارند.
-فقط متن ناشناس‌شده را برگردان، بدون توضیح."""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
-        """ارسال درخواست به Cerebras API با پارامترهای بهینه Qwen"""
         headers = {
             "Authorization": f"Bearer {self.config.api_key}",
             "Content-Type": "application/json"
         }
         payload = {
             "messages": [
                 {
@@ -101,7 +78,7 @@ class AdvancedCerebrasAnonymizer:
                 },
                 {
                     "role": "user",
-                    "content": text
                 }
             ],
             "model": self.config.model,
@@ -115,7 +92,7 @@ class AdvancedCerebrasAnonymizer:
                 f"{self.config.base_url}/chat/completions",
                 headers=headers,
                 json=payload,
-                timeout=60  # افزایش timeout برای Qwen 32B
             )
             response.raise_for_status()
             return response.json()
@@ -142,12 +119,18 @@ class AdvancedCerebrasAnonymizer:
             content = response["choices"][0]["message"]["content"]
             # پاک کردن markdown اگر وجود دارد
             content = self._clean_markdown(content)
             # حذف خطوط اضافی و فضاهای خالی
             content = content.strip()
             # تحلیل نتایج
             analysis = self._analyze_anonymized_text(content)
@@ -167,6 +150,16 @@ class AdvancedCerebrasAnonymizer:
                 "error": f"خطا در پردازش: {str(e)}"
             }
     def _clean_markdown(self, content: str) -> str:
         """پاک کردن markdown از پاسخ"""
         if "```" in content:
@@ -182,6 +175,19 @@ class AdvancedCerebrasAnonymizer:
             content = '\n'.join(clean_lines)
         return content
     def _analyze_anonymized_text(self, text: str) -> Dict[str, Any]:
         """تحلیل متن ناشناس‌سازی شده"""
         import re
@@ -270,13 +276,14 @@ class AdvancedCerebrasAnonymizer:
             }
         }
 def create_advanced_interface():
     """ایجاد رابط کاربری پیشرفته"""
-    # بررسی وجود کلید API
     api_key_available = bool(os.getenv("CEREBRAS_API_KEY"))
-    # CSS سفارشی پیشرفته
     custom_css = """
     .gradio-container {
         font-family: 'Tahoma', 'Arial', sans-serif !important;
@@ -348,23 +355,19 @@ def create_advanced_interface():
     with gr.Blocks(css=custom_css, title="ناشناس‌ساز پیشرفته با Qwen 3-32B", theme=gr.themes.Soft()) as interface:
-        # عنوان
         gr.Markdown("""
         # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
-        ### ⚡ قدرت‌گرفته از Cerebras AI - سریع‌ترین استنباط در جهان
         """)
-        # نمایش اطلاعات مدل Qwen
         gr.Markdown("""
         <div class="qwen-box">
-        🚀 <strong>مدل: Alibaba Qwen 3-32B</strong><br>
-        ⚡ سرعت: 2,400 توکن در ثانیه | 🧠 قدرت: 32 میلیارد پارامتر<br>
-        💰 قیمت: $0.40/M input, $0.80/M output | 📝 Context: 128K tokens<br>
-        🎯 مدل Reasoning هیبریدی با دقت بالا
         </div>
         """)
-        # نمایش وضعیت API
         if api_key_available:
             gr.Markdown("""
             <div class="success-box">
@@ -376,7 +379,7 @@ def create_advanced_interface():
             gr.Markdown("""
             <div class="warning-box">
             ⚠️ <strong>کلید API تنظیم نشده</strong><br>
-            لطفاً کلید Cerebras API خود را در زیر وارد کنید (از https://cloud.cerebras.ai دریافت کنید)
             </div>
             """)
             api_key_input = gr.Textbox(
@@ -396,7 +399,7 @@ def create_advanced_interface():
                 with gr.Row():
                     anonymize_btn = gr.Button(
-                        "🔒 ناشناس‌سازی با Qwen 3-32B",
                         variant="primary",
                         size="lg"
                     )
@@ -413,23 +416,19 @@ def create_advanced_interface():
                     elem_classes=["result-box"]
                 )
-                # دکمه کپی
                 copy_btn = gr.Button(
                     "📋 کپی متن",
                     variant="secondary",
                     size="sm"
                 )
-        # متن برای کپی
         copy_output = gr.Textbox(
-            label="📋 متن برای کپی (Ctrl+A و Ctrl+C)",
             lines=3,
-            max_lines=10,
             visible=False,
             interactive=True
         )
-        # نمایش آمار پیشرفته
         with gr.Row():
             with gr.Column():
                 statistics_output = gr.Markdown(label="📊 آمار کلی")
@@ -438,19 +437,17 @@ def create_advanced_interface():
         with gr.Row():
             with gr.Column():
-                entities_output = gr.Markdown(label="🏷️ موجودیت‌های شناسایی شده")
             with gr.Column():
                 detailed_analysis_output = gr.Markdown(label="🔍 تحلیل دقیق")
         usage_output = gr.Markdown(label="⚡ اطلاعات پردازش")
         def process_advanced_text(text: str, api_key_manual: str = ""):
-            """پردازش پیشرفته متن با Qwen 3-32B"""
-            # حل مشکل NoneType
             if api_key_manual is None:
                 api_key_manual = ""
-            # تعیین کلید API
             final_api_key = ""
             if api_key_manual and api_key_manual.strip():
                 final_api_key = api_key_manual.strip()
@@ -458,124 +455,72 @@ def create_advanced_interface():
                 final_api_key = os.getenv("CEREBRAS_API_KEY")
             if not final_api_key:
-                return (
-                    "",
-                    "❌ کلید API وارد نشده است",
-                    "",
-                    "",
-                    "",
-                    ""
-                )
             if not text or not text.strip():
-                return (
-                    "",
-                    "❌ لطفاً متن ورودی را وارد کنید",
-                    "",
-                    "",
-                    "",
-                    ""
-                )
             try:
                 anonymizer = AdvancedCerebrasAnonymizer(api_key=final_api_key)
                 result = anonymizer.anonymize_text(text)
                 if not result["success"]:
-                    return (
-                        "",
-                        f"❌ خطا: {result['error']}",
-                        "",
-                        "",
-                        "",
-                        ""
-                    )
-                # آمار کلی
                 stats = result.get("statistics", {})
-                stats_md = "📊 **آمار کلی:**\n\n"
-                stats_md += f"""
-                <div class="stats-grid">
-                    <div class="stat-card">
-                        <h3>🏢 شرکت‌ها</h3>
-                        <h2>{stats.get('company', 0)}</h2>
-                        <small>(شامل گروه‌ها)</small>
-                    </div>
-                    <div class="stat-card">
-                        <h3>👤 اشخاص</h3>
-                        <h2>{stats.get('person', 0)}</h2>
-                    </div>
-                    <div class="stat-card">
-                        <h3>💰 مبالغ</h3>
-                        <h2>{stats.get('amount', 0)}</h2>
-                    </div>
-                    <div class="stat-card">
-                        <h3>📊 درصدها</h3>
-                        <h2>{stats.get('percent', 0)}</h2>
-                    </div>
-                    <div class="stat-card">
-                        <h3>🔢 کل تغییرات</h3>
-                        <h2>{stats.get('total_replacements', 0)}</h2>
-                    </div>
-                </div>
-                """
-                # کنترل کیفیت
                 quality = result.get("quality_check", {})
                 quality_md = "✅ **کنترل کیفیت:**\n\n"
                 if quality.get("is_valid", False):
-                    quality_md += '<span class="quality-badge quality-pass">✅ تمام بررسی‌ها موفق</span>\n\n'
                 else:
-                    quality_md += '<span class="quality-badge quality-fail">❌ مشکلاتی یافت شد</span>\n\n'
                     issues = quality.get("issues", [])
                     if issues:
                         quality_md += "**مشکلات:**\n"
                         for issue in issues:
                             quality_md += f"• {issue}\n"
-                entity_counts = quality.get("entity_counts", {})
-                if entity_counts:
-                    quality_md += f"\n**تعداد موجودیت‌های منحصربه‌فرد:**\n"
-                    for entity_type, count in entity_counts.items():
-                        if count > 0:
-                            quality_md += f"• {entity_type}: {count}\n"
-                # موجودیت‌های شناسایی شده
                 entities = result.get("entities", {})
-                entities_md = "🏷️ **موجودیت‌های شناسایی شده:**\n\n"
                 if entities.get("companies"):
-                    entities_md += f"🏢 **شرکت‌ها (شامل گروه‌ها):** company-{', company-'.join(entities['companies'])}\n\n"
                 if entities.get("persons"):
-                    entities_md += f"👤 **اشخاص:** person-{', person-'.join(entities['persons'])}\n\n"
                 if entities.get("amounts"):
-                    entities_md += f"💰 **مبالغ:** amount-{', amount-'.join(entities['amounts'])}\n\n"
                 if entities.get("percents"):
-                    entities_md += f"📊 **درصدها:** percent-{', percent-'.join(entities['percents'])}\n\n"
-                # تحلیل دقیق
                 detailed = result.get("detailed_analysis", {})
-                detailed_md = "🔍 **تحلیل دقیق:**\n\n"
-                detailed_md += f"📅 **تاریخ‌های حفظ شده:** {detailed.get('preserved_dates', 0)}\n"
-                detailed_md += f"🕐 **ساعت‌های حفظ شده:** {detailed.get('preserved_times', 0)}\n"
-                detailed_md += f"📈 **شاخص‌های مالی:** {detailed.get('financial_indicators', 0)}\n"
-                detailed_md += f"📏 **واحدهای حفظ شده:** {detailed.get('units_preserved', 0)}\n"
-                # اطلاعات پردازش
                 usage = result.get("usage", {})
-                usage_md = "⚡ **اطلاعات پردازش Cerebras (Qwen 3-32B):**\n\n"
-                if usage:
-                    usage_md += f"🤖 **مدل:** {anonymizer.config.model}\n"
-                    usage_md += f"🌡️ **Temperature:** {anonymizer.config.temperature}\n"
-                    usage_md += f"🎲 **Top-P:** {anonymizer.config.top_p}\n"
-                    usage_md += f"📥 **Token های ورودی:** {usage.get('prompt_tokens', 'نامشخص')}\n"
-                    usage_md += f"📤 **Token های خروجی:** {usage.get('completion_tokens', 'نامشخص')}\n"
-                    usage_md += f"📊 **کل Token ها:** {usage.get('total_tokens', 'نامشخص')}\n"
-                    usage_md += f"\n⚡ **سرعت Qwen 3-32B: 2,400 tokens/second - فوق‌العاده سریع!**"
-                else:
-                    usage_md += "✅ پردازش با موفقیت انجام شد"
                 return (
                     result["anonymized_text"],
@@ -587,27 +532,16 @@ def create_advanced_interface():
                 )
             except Exception as e:
-                return (
-                    "",
-                    f"❌ خطایی غیرمنتظره: {str(e)}",
-                    "",
-                    "",
-                    "",
-                    ""
-                )
         def copy_text(text_to_copy):
-            """تابع کپی متن"""
             if not text_to_copy or not text_to_copy.strip():
-                return gr.Textbox(visible=False), "⚠️ متنی برای کپی وجود ندارد"
-            return gr.Textbox(value=text_to_copy, visible=True), "✅ متن در کادر زیر آماده کپی است"
         def clear_all():
-            """پاک کردن تمام فیلدها"""
             return "", "", "", "", "", "", "", gr.Textbox(visible=False)
-        # اتصال رویدادها
         anonymize_btn.click(
             fn=process_advanced_text,
             inputs=[input_text, api_key_input],
@@ -625,69 +559,35 @@ def create_advanced_interface():
             outputs=[input_text, output_text, statistics_output, quality_output, entities_output, detailed_analysis_output, usage_output, copy_output]
         )
-        # مثال‌های پیشرفته
         gr.Examples(
             examples=[
-                ["مجمع عمومی عادی سالیانه شرکت پتروشیمی بوعلی سینا برگزار شد. شرکت وانیا نیک تدبیر را به‌ عنوان بازرس قانونی و حسابرس انتخاب کردند. هزینه لجستیکی بوعلی حدود 100 میلیون دلار بوده و حدود 40 درصد خوراک از طریق خط لوله و 60 درصد باقی‌مانده معادل یک تا 1.5 میلیون تن در سال تهیه می‌شود."],
-                ["تحلیل صورت‌های مالی شرکت پالایش نفت اصفهان در سال 1403 این احتمال را مطرح می‌کند که EPS این شرکت در سال مالی 1404 به 2500 ریال برسد. این شرکت به‌عنوان یکی از بزرگ‌ترین پالایشگاه‌های کشور فعالیت می‌کند."],
-                ["سازمان تامین اجتماعی دارای سه شرکت دارویی است که از مراکز درمانی وابسته به وزارت بهداشت مطالباتی دارند."],
-                ["براساس آخرین گزارش سازمان تنظیم مقررات رادیویی در پاییز ۱۴۰۱ تعداد مشترکین تلفن همراه در ایران به بالای ۱۴۵ میلیون نفر رسیده که نسبت به سال گذشته حدود ۷.۲ درصد رشد داشته است."],
-                ["شرکت فولاد مبارکه اصفهان با همکاری شرکت ملی نفت ایران، قرارداد توسعه میدان گازی مدار را امضا کرد. شرکت فاما قصد دارد سرمایه خود را از ۸،۷۰۰ میلیارد ریال به ۱۲،۵۰۰ میلیارد ریال افزایش دهد."],
-                ["صورت‌های مالی سه خودروساز بزرگ کشور نشان می‌دهد که زیان انباشته تلفیقی خودروسازان از مرز 500 همت عبور کرده و به 620 همت رسیده است."]
             ],
             inputs=input_text,
-            label="📚 مثال‌های پیشرفته آزمایشی"
         )
-        # راهنمای کامل
-        with gr.Accordion("📖 راهنمای کامل استفاده", open=False):
             gr.Markdown("""
-            ## 🎯 ویژگی‌های سیستم با Qwen 3-32B:
-            ### 🚀 مزایای Qwen 3-32B:
-            - **سرعت فوق‌العاده:** 2,400 tokens/second
-            - **دقت بالا:** 32 میلیارد پارامتر
-            - **Context بزرگ:** 128K tokens
-            - **مدل Reasoning:** قابلیت استدلال پیشرفته
-            - **قیمت مناسب:** $0.40/M input, $0.80/M output
-            - **پشتیبانی عالی از فارسی:** به عنوان یکی از مدل‌های قدرتمند چندزبانه
-            ### ⚙️ پارامترهای بهینه شده:
-            - **Temperature:** 0.6 (توصیه شده برای Qwen)
-            - **Top-P:** 0.95 (برای تنوع و دقت بهتر)
-            - **Max Tokens:** 2000
-            ### 🏷️ انواع برچسب‌ها:
-            - **company-XX:** شرکت‌ها، سازمان‌ها، گروه‌ها
-              - ⚠️ "گروه همراه اول" = company-XX (نه group-XX)
-              - ⚠️ "فاما" = "فولاد مبارکه" = company-01
-            - **person-XX:** اشخاص حقیقی
-            - **amount-XX:** مبالغ (با حفظ واحد)
-            - **percent-XX:** درصدها
-            ### ✅ موارد حفظ شده:
-            - تاریخ‌ها، فصل‌ها، مکان‌ها
-            - عناوین شغلی و واحدها
-            - شاخص‌های مالی (EPS, P/E, etc.)
-            - کلمات عمومی ("سه شرکت"، "چند بانک")
-            - دوره‌های زمانی ("۹ ماهه"، "۵ ماهه سال")
-            ### 💡 نکات مهم:
-            - Qwen 3-32B دقت بالاتری نسبت به Llama 3.1-8B دارد
-            - مدل Reasoning برای تحلیل پیچیده بهتر است
-            - سرعت 2,400 t/s یعنی پاسخ تقریباً لحظه‌ای
-            - برای متون طولانی‌تر (تا 128K tokens) مناسب است
-            ### 🔧 مدل‌های جایگزین Cerebras:
-            qwen-3-32b              # فعلی ⭐ (توصیه می‌شود)
-        qwen-3-235b-a22b-instruct-2507  # قدرتمندتر اما گران‌تر
-        llama3.1-8b             # سریع‌تر اما ضعیف‌تر
-        llama3.3-70b            # تعادل خوب
-        """)
         return interface
-# اجرای برنامه
 if __name__ == "__main__":
     interface = create_advanced_interface()
     interface.launch(

     """تنظیمات Cerebras API برای Qwen 3-32B"""
     api_key: str
     base_url: str = "https://api.cerebras.ai/v1"
+    model: str = "qwen-3-32b"
+    max_tokens: int = 3000  # افزایش برای thinking tokens
+    temperature: float = 0.3  # کاهش برای دقت بیشتر
+    top_p: float = 0.9
 class AdvancedCerebrasAnonymizer:
     """سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی با Qwen 3-32B"""
         self.system_prompt = self._create_advanced_system_prompt()
     def _create_advanced_system_prompt(self) -> str:
+        """ایجاد دستورالعمل سیستمی بهینه شده"""
+        return """شما یک سیستم ناشناس‌سازی متون مالی فارسی هستید.
+⚠️ CRITICAL: در پاسخ نهایی خود، فقط و فقط متن ناشناس‌سازی شده را برگردانید، بدون هیچ توضیح، تحلیل، یا تگ اضافی.
 ## قوانین اندیس‌گذاری:
 1. **ترتیب پیوسته**: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
 4. **اشاره ضمنی**: "این شرکت" اگر به company-01 اشاره دارد → company-01 (نه company-02)
 ## انواع موجودیت:
+- **company-XX**: شرکت‌ها، بانک‌ها، سازمان‌ها، گروه‌ها
+- **person-XX**: نام و نام خانوادگی اشخاص
+- **amount-XX**: مبالغ - واحد را حفظ کن
+- **percent-XX**: درصدها
+## قوانین کلیدی:
+1. بازرس = شرکت است → company-XX
+2. واحدها: "amount-01 میلیارد تومان" ✅
+3. گروه‌ها: "گروه X" → company-XX
+4. کلمات عمومی حفظ: "سه شرکت" → حفظ
+5. دوره زمانی حفظ: "۵ ماهه" → حفظ
+6. بازه = یک entity: "یک تا 1.5 میلیون" → amount-01
+## مثال:
+ورودی: ایران خودرو در اسفند 1402 حدود 23 هزار و 296 میلیارد درآمد کسب کرد که 4.58 درصد افزایش داشت.
+خروجی: company-01 در اسفند 1402 حدود amount-01 درآمد کسب کرد که percent-01 افزایش داشت.
+⚠️ یادآوری: فقط متن ناشناس‌شده، بدون هیچ توضیح اضافی."""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
+        """ارسال درخواست به Cerebras API"""
         headers = {
             "Authorization": f"Bearer {self.config.api_key}",
             "Content-Type": "application/json"
         }
+        # اضافه کردن /no_think به متن برای غیرفعال کردن reasoning
+        user_content = f"{text}\n\n/no_think"
         payload = {
             "messages": [
                 {
                 },
                 {
                     "role": "user",
+                    "content": user_content
                 }
             ],
             "model": self.config.model,
                 f"{self.config.base_url}/chat/completions",
                 headers=headers,
                 json=payload,
+                timeout=60
             )
             response.raise_for_status()
             return response.json()
             content = response["choices"][0]["message"]["content"]
+            # پاک کردن thinking tags اگر وجود دارد
+            content = self._remove_thinking_tags(content)
             # پاک کردن markdown اگر وجود دارد
             content = self._clean_markdown(content)
             # حذف خطوط اضافی و فضاهای خالی
             content = content.strip()
+            # حذف توضیحات اضافی در ابتدا یا انتها
+            content = self._clean_explanations(content)
             # تحلیل نتایج
             analysis = self._analyze_anonymized_text(content)
                 "error": f"خطا در پردازش: {str(e)}"
             }
+    def _remove_thinking_tags(self, content: str) -> str:
+        """حذف تگ‌های thinking از خروجی"""
+        # حذف محتوای داخل <think>...</think>
+        content = re.sub(r'<think>.*?</think>', '', content, flags=re.DOTALL)
+        # حذف تگ‌های خالی
+        content = re.sub(r'</?think>', '', content)
+        return content.strip()
     def _clean_markdown(self, content: str) -> str:
         """پاک کردن markdown از پاسخ"""
         if "```" in content:
             content = '\n'.join(clean_lines)
         return content
+    def _clean_explanations(self, content: str) -> str:
+        """حذف توضیحات اضافی در ابتدا یا انتها"""
+        lines = content.split('\n')
+        clean_lines = []
+        for line in lines:
+            # حذف خطوطی که شامل توضیحات متا هستند
+            if any(word in line.lower() for word in ['okay', 'let me', 'here is', 'خروجی', 'نتیجه', 'پاسخ']):
+                continue
+            clean_lines.append(line)
+        return '\n'.join(clean_lines).strip()
     def _analyze_anonymized_text(self, text: str) -> Dict[str, Any]:
         """تحلیل متن ناشناس‌سازی شده"""
         import re
             }
         }
+# باقی کد رابط کاربری همان قبل است...
+# (تابع create_advanced_interface و بقیه کد تغییری ندارد)
 def create_advanced_interface():
     """ایجاد رابط کاربری پیشرفته"""
     api_key_available = bool(os.getenv("CEREBRAS_API_KEY"))
     custom_css = """
     .gradio-container {
         font-family: 'Tahoma', 'Arial', sans-serif !important;
     with gr.Blocks(css=custom_css, title="ناشناس‌ساز پیشرفته با Qwen 3-32B", theme=gr.themes.Soft()) as interface:
         gr.Markdown("""
         # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
+        ### ⚡ قدرت‌گرفته از Cerebras AI + Alibaba Qwen 3-32B
         """)
         gr.Markdown("""
         <div class="qwen-box">
+        🚀 <strong>مدل: Alibaba Qwen 3-32B (اصلاح شده)</strong><br>
+        ⚡ سرعت: 2,400 توکن/ثانیه | 🧠 32B پارامتر | 💰 $0.40/$0.80<br>
+        ✅ <strong>بهینه‌سازی شده:</strong> Thinking Mode غیرفعال برای خروجی مستقیم
         </div>
         """)
         if api_key_available:
             gr.Markdown("""
             <div class="success-box">
             gr.Markdown("""
             <div class="warning-box">
             ⚠️ <strong>کلید API تنظیم نشده</strong><br>
+            لطفاً کلید Cerebras API خود را وارد کنید
             </div>
             """)
             api_key_input = gr.Textbox(
                 with gr.Row():
                     anonymize_btn = gr.Button(
+                        "🔒 ناشناس‌سازی",
                         variant="primary",
                         size="lg"
                     )
                     elem_classes=["result-box"]
                 )
                 copy_btn = gr.Button(
                     "📋 کپی متن",
                     variant="secondary",
                     size="sm"
                 )
         copy_output = gr.Textbox(
+            label="📋 متن برای کپی",
             lines=3,
             visible=False,
             interactive=True
         )
         with gr.Row():
             with gr.Column():
                 statistics_output = gr.Markdown(label="📊 آمار کلی")
         with gr.Row():
             with gr.Column():
+                entities_output = gr.Markdown(label="🏷️ موجودیت‌ها")
             with gr.Column():
                 detailed_analysis_output = gr.Markdown(label="🔍 تحلیل دقیق")
         usage_output = gr.Markdown(label="⚡ اطلاعات پردازش")
         def process_advanced_text(text: str, api_key_manual: str = ""):
+            """پردازش متن"""
             if api_key_manual is None:
                 api_key_manual = ""
             final_api_key = ""
             if api_key_manual and api_key_manual.strip():
                 final_api_key = api_key_manual.strip()
                 final_api_key = os.getenv("CEREBRAS_API_KEY")
             if not final_api_key:
+                return ("", "❌ کلید API وارد نشده است", "", "", "", "")
             if not text or not text.strip():
+                return ("", "❌ لطفاً متن ورودی را وارد کنید", "", "", "", "")
             try:
                 anonymizer = AdvancedCerebrasAnonymizer(api_key=final_api_key)
                 result = anonymizer.anonymize_text(text)
                 if not result["success"]:
+                    return ("", f"❌ خطا: {result['error']}", "", "", "", "")
                 stats = result.get("statistics", {})
+                stats_md = f"""📊 **آمار کلی:**
+<div class="stats-grid">
+    <div class="stat-card"><h3>🏢 شرکت‌ها</h3><h2>{stats.get('company', 0)}</h2></div>
+    <div class="stat-card"><h3>👤 اشخاص</h3><h2>{stats.get('person', 0)}</h2></div>
+    <div class="stat-card"><h3>💰 مبالغ</h3><h2>{stats.get('amount', 0)}</h2></div>
+    <div class="stat-card"><h3>📊 درصدها</h3><h2>{stats.get('percent', 0)}</h2></div>
+    <div class="stat-card"><h3>🔢 کل</h3><h2>{stats.get('total_replacements', 0)}</h2></div>
+</div>
+"""
                 quality = result.get("quality_check", {})
                 quality_md = "✅ **کنترل کیفیت:**\n\n"
                 if quality.get("is_valid", False):
+                    quality_md += '<span class="quality-badge quality-pass">✅ موفق</span>\n\n'
                 else:
+                    quality_md += '<span class="quality-badge quality-fail">❌ مشکل</span>\n\n'
                     issues = quality.get("issues", [])
                     if issues:
                         quality_md += "**مشکلات:**\n"
                         for issue in issues:
                             quality_md += f"• {issue}\n"
                 entities = result.get("entities", {})
+                entities_md = "🏷️ **موجودیت‌ها:**\n\n"
                 if entities.get("companies"):
+                    entities_md += f"🏢 company-{', company-'.join(entities['companies'])}\n\n"
                 if entities.get("persons"):
+                    entities_md += f"👤 person-{', person-'.join(entities['persons'])}\n\n"
                 if entities.get("amounts"):
+                    entities_md += f"💰 amount-{', amount-'.join(entities['amounts'])}\n\n"
                 if entities.get("percents"):
+                    entities_md += f"📊 percent-{', percent-'.join(entities['percents'])}\n\n"
                 detailed = result.get("detailed_analysis", {})
+                detailed_md = f"""🔍 **تحلیل:**
+📅 تاریخ: {detailed.get('preserved_dates', 0)}
+📈 شاخص‌ها: {detailed.get('financial_indicators', 0)}
+📏 واحدها: {detailed.get('units_preserved', 0)}
+"""
                 usage = result.get("usage", {})
+                usage_md = f"""⚡ **Qwen 3-32B:**
+🤖 مدل: {anonymizer.config.model}
+🌡️ Temperature: {anonymizer.config.temperature}
+📥 Input: {usage.get('prompt_tokens', '?')}
+📤 Output: {usage.get('completion_tokens', '?')}
+📊 Total: {usage.get('total_tokens', '?')}
+"""
                 return (
                     result["anonymized_text"],
                 )
             except Exception as e:
+                return ("", f"❌ خطا: {str(e)}", "", "", "", "")
         def copy_text(text_to_copy):
             if not text_to_copy or not text_to_copy.strip():
+                return gr.Textbox(visible=False), "⚠️ متن خالی"
+            return gr.Textbox(value=text_to_copy, visible=True), "✅ آماده کپی"
         def clear_all():
             return "", "", "", "", "", "", "", gr.Textbox(visible=False)
         anonymize_btn.click(
             fn=process_advanced_text,
             inputs=[input_text, api_key_input],
             outputs=[input_text, output_text, statistics_output, quality_output, entities_output, detailed_analysis_output, usage_output, copy_output]
         )
         gr.Examples(
             examples=[
+                ["ایران خودرو در اسفندماه سال 1402 حدود 23 هزار و 296 میلیارد تومان درآمد کسب کرد که در مقایسه با بهمن 4.58 درصد افزایش داشت."],
+                ["مجمع پتروشیمی بوعلی سینا برگزار شد. وانیا نیک تدبیر را بازرس قانونی انتخاب کردند."],
+                ["شرکت فولاد مبارکه اصفهان با ملی نفت قرارداد امضا کرد. فاما سرمایه را از 8700 به 12500 میلیارد افزایش می‌دهد."]
             ],
             inputs=input_text,
+            label="📚 مثال‌ها"
         )
+        with gr.Accordion("📖 راهنما", open=False):
             gr.Markdown("""
+            ## 🔧 اصلاحات انجام شده:
+            ### ✅ مشکل حل شده:
+            - غیرفعال کردن Thinking Mode با `/no_think`
+            - حذف خودکار تگ‌های `<think>`
+            - پاک‌سازی توضیحات اضافی
+            - کاهش Temperature به 0.3 برای دقت بیشتر
+            ### 🎯 چگونه کار می‌کند:
+            1. پرامپت بهینه شده برای خروجی مستقیم
+            2. اضافه کردن `/no_think` به انتهای درخواست
+            3. پردازش و پاک‌سازی خودکار خروجی
+            4. حذف تمام توضیحات و تگ‌های اضافی
+            """)
         return interface
 if __name__ == "__main__":
     interface = create_advanced_interface()
     interface.launch(