Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Oct 13

Commit

af857d7

verified ·

1 Parent(s): b72edc1

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -60

app.py CHANGED Viewed

@@ -8,15 +8,16 @@ import re
 @dataclass
 class CerebrasConfig:
-    """تنظیمات Cerebras API"""
     api_key: str
     base_url: str = "https://api.cerebras.ai/v1"
-    model: str = "qwen-3-32b"  # مدل سبک برای سرعت بیشتر
     max_tokens: int = 2000
-    temperature: float = 0.6
 class AdvancedCerebrasAnonymizer:
-    """سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی"""
     def __init__(self, api_key: str = None):
         if api_key is None:
@@ -28,7 +29,7 @@ class AdvancedCerebrasAnonymizer:
         self.system_prompt = self._create_advanced_system_prompt()
     def _create_advanced_system_prompt(self) -> str:
-        """ایجاد دستورالعمل سیستمی فشرده برای Llama 3.1-8B"""
         return """شما متن‌های مالی فارسی را ناشناس می‌کنید. اسامی خاص و اعداد را با شناسه جایگزین کنید.
 ## قوانین اندیس‌گذاری:
@@ -86,7 +87,7 @@ class AdvancedCerebrasAnonymizer:
 فقط متن ناشناس‌شده را برگردان، بدون توضیح."""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
-        """ارسال درخواست به Cerebras API"""
         headers = {
             "Authorization": f"Bearer {self.config.api_key}",
             "Content-Type": "application/json"
@@ -105,6 +106,7 @@ class AdvancedCerebrasAnonymizer:
             ],
             "model": self.config.model,
             "temperature": self.config.temperature,
             "max_tokens": self.config.max_tokens
         }
@@ -113,7 +115,7 @@ class AdvancedCerebrasAnonymizer:
                 f"{self.config.base_url}/chat/completions",
                 headers=headers,
                 json=payload,
-                timeout=45
             )
             response.raise_for_status()
             return response.json()
@@ -122,7 +124,7 @@ class AdvancedCerebrasAnonymizer:
             raise Exception(f"خطا در ارتباط با Cerebras API: {str(e)}")
     def anonymize_text(self, text: str) -> Dict[str, Any]:
-        """ناشناس‌سازی متن با استفاده از Cerebras"""
         if not text.strip():
             return {
                 "success": False,
@@ -305,6 +307,14 @@ def create_advanced_interface():
         color: #155724;
         margin: 10px 0;
     }
     .stats-grid {
         display: grid;
         grid-template-columns: repeat(auto-fit, minmax(200px, 1fr));
@@ -336,13 +346,22 @@ def create_advanced_interface():
     }
     """
-    with gr.Blocks(css=custom_css, title="ناشناس‌ساز پیشرفته متن فارسی با Cerebras", theme=gr.themes.Soft()) as interface:
         # عنوان
         gr.Markdown("""
         # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
-        ### ⚡ قدرت‌گرفته از Cerebras AI - سریع‌ترین استنباط LLM در جهان!
-        #### 🎯 بهینه شده برای Llama 3.1-8B
         """)
         # نمایش وضعیت API
@@ -377,7 +396,7 @@ def create_advanced_interface():
                 with gr.Row():
                     anonymize_btn = gr.Button(
-                        "🔒 ناشناس‌سازی با Cerebras",
                         variant="primary",
                         size="lg"
                     )
@@ -426,7 +445,7 @@ def create_advanced_interface():
         usage_output = gr.Markdown(label="⚡ اطلاعات پردازش")
         def process_advanced_text(text: str, api_key_manual: str = ""):
-            """پردازش پیشرفته متن"""
             # حل مشکل NoneType
             if api_key_manual is None:
                 api_key_manual = ""
@@ -546,13 +565,15 @@ def create_advanced_interface():
                 # اطلاعات پردازش
                 usage = result.get("usage", {})
-                usage_md = "⚡ **اطلاعات پردازش Cerebras:**\n\n"
                 if usage:
                     usage_md += f"🤖 **مدل:** {anonymizer.config.model}\n"
                     usage_md += f"📥 **Token های ورودی:** {usage.get('prompt_tokens', 'نامشخص')}\n"
                     usage_md += f"📤 **Token های خروجی:** {usage.get('completion_tokens', 'نامشخص')}\n"
                     usage_md += f"📊 **کل Token ها:** {usage.get('total_tokens', 'نامشخص')}\n"
-                    usage_md += f"\n⚡ **سرعت Cerebras فوق‌العاده است!**"
                 else:
                     usage_md += "✅ پردازش با موفقیت انجام شد"
@@ -621,59 +642,48 @@ def create_advanced_interface():
         # راهنمای کامل
         with gr.Accordion("📖 راهنمای کامل استفاده", open=False):
             gr.Markdown("""
-            ## 🎯 ویژگی‌های سیستم پیشرفته با Cerebras:
-            ### ⚡ مزایای استفاده از Cerebras:
-            - **سرعت فوق‌العاده:** سریع‌ترین استنباط LLM در جهان
-            - **دقت بالا:** مدل‌های قدرتمند Llama 3.1-8B
-            - **رایگان:** برای استفاده شخصی و تست
-            - **API ساده:** سازگار با OpenAI
-            - **پرامپت بهینه:** 60% کوتاه‌تر برای Llama 3.1-8B
             ### 🏷️ انواع برچسب‌ها:
-            - **company-XX:** شرکت‌ها، سازمان‌ها، برندها، نهادها، **گروه‌ها**
-              - ⚠️ **مهم:** "گروه همراه اول"، "گروه اقتصادی آزادگان" → همه company-XX هستند
-              - ⚠️ **مهم:** "فاما" = "فولاد مبارکه اصفهان" → هر دو company-01
-              - ⚠️ **مهم:** "سازمان تنظیم مقررات"، "سازمان تامین اجتماعی" → company-XX
-              - ❌ **نه:** "سه شرکت دارویی"، "چند بانک" → کلمات عمومی (حفظ شوند)
-            - **person-XX:** اشخاص حقیقی (نام و نام‌خانوادگی)
-            - **amount-XX:** تمام اعداد (پولی، تعدادی، حجمی، زمانی)
-            - **percent-XX:** درصدها و بازه‌های درصدی
             ### ✅ موارد حفظ شده:
-            - 📅 تاریخ‌ها و ساعت‌ها
-            - 🂠فصل‌های سال (پاییز، بهار، تابستان، زمستان)
-            - 🏢 عناوین شغلی و نقش‌ها
-            - 📏 واحدها (تومان، ریال، میلیارد، تن، ...)
-            - 📈 شاخص‌های مالی (EPS, P/E, ARPU, NPL)
-            - 🗺️ نام مکان‌ها و آدرس‌ها
-            - 📝 ساختار جمله و لحن
-            - 📦 کلمات عمومی بدون نام ("سه شرکت"، "چند بانک"، "مراکز درمانی")
-            - ⏰ **دوره‌های زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول" (حفظ می‌شوند)
-            ### 🔍 کنترل کیفیت:
-            - بررسی شروع اندیس‌ها از 01
-            - بررسی پیوستگی اندیس‌ها
-            - تضمین ثبات شناسه‌ها در یک متن
-            - حفظ واحدها و شاخص‌های مالی
-            - شناسایی کلمات انگلیسی غیرضروری
             ### 💡 نکات مهم:
-            - هر نوع موجودیت شماره‌گذاری مستقل دارد
-            - در بازه‌های عددی: amount-01—amount-02
-            - برای درصدها: percent-01—percent-02
-            - اعداد چسبیده: "5هزار" → "amount-01 هزار"
-            - ⚠️ **دوره‌های زمانی حفظ می‌شوند:**
-              - "۵ ماهه سال" → حفظ (نه amount-XX)
-              - "۹ ماهه" → حفظ (نه amount-XX)
-              - "در ۹ ماه" → حفظ
-              - اما "۹ میلیون تومان" → amount-XX
-            ### 🚀 مدل‌های موجود Cerebras:
-            - `llama3.1-8b`: سریع و کارآمد (توصیه می‌شود) ⭐
-            - `llama3.1-70b`: قدرتمندتر
-            - `llama3.3-70b`: جدیدترین نسخه 70B
-            """)
         return interface

 @dataclass
 class CerebrasConfig:
+    """تنظیمات Cerebras API برای Qwen 3-32B"""
     api_key: str
     base_url: str = "https://api.cerebras.ai/v1"
+    model: str = "qwen-3-32b"  # مدل Qwen 3-32B (سرعت 2,400 t/s)
     max_tokens: int = 2000
+    temperature: float = 0.6  # توصیه شده برای Qwen (0.6)
+    top_p: float = 0.95  # توصیه شده برای Qwen
 class AdvancedCerebrasAnonymizer:
+    """سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی با Qwen 3-32B"""
     def __init__(self, api_key: str = None):
         if api_key is None:
         self.system_prompt = self._create_advanced_system_prompt()
     def _create_advanced_system_prompt(self) -> str:
+        """ایجاد دستورالعمل سیستمی فشرده برای Qwen 3-32B"""
         return """شما متن‌های مالی فارسی را ناشناس می‌کنید. اسامی خاص و اعداد را با شناسه جایگزین کنید.
 ## قوانین اندیس‌گذاری:
 فقط متن ناشناس‌شده را برگردان، بدون توضیح."""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
+        """ارسال درخواست به Cerebras API با پارامترهای بهینه Qwen"""
         headers = {
             "Authorization": f"Bearer {self.config.api_key}",
             "Content-Type": "application/json"
             ],
             "model": self.config.model,
             "temperature": self.config.temperature,
+            "top_p": self.config.top_p,
             "max_tokens": self.config.max_tokens
         }
                 f"{self.config.base_url}/chat/completions",
                 headers=headers,
                 json=payload,
+                timeout=60  # افزایش timeout برای Qwen 32B
             )
             response.raise_for_status()
             return response.json()
             raise Exception(f"خطا در ارتباط با Cerebras API: {str(e)}")
     def anonymize_text(self, text: str) -> Dict[str, Any]:
+        """ناشناس‌سازی متن با استفاده از Qwen 3-32B"""
         if not text.strip():
             return {
                 "success": False,
         color: #155724;
         margin: 10px 0;
     }
+    .qwen-box {
+        background-color: #e7f3ff;
+        border: 2px solid #2196F3;
+        border-radius: 12px;
+        padding: 15px;
+        color: #0d47a1;
+        margin: 10px 0;
+    }
     .stats-grid {
         display: grid;
         grid-template-columns: repeat(auto-fit, minmax(200px, 1fr));
     }
     """
+    with gr.Blocks(css=custom_css, title="ناشناس‌ساز پیشرفته با Qwen 3-32B", theme=gr.themes.Soft()) as interface:
         # عنوان
         gr.Markdown("""
         # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
+        ### ⚡ قدرت‌گرفته از Cerebras AI - سریع‌ترین استنباط در جهان
+        """)
+        # نمایش اطلاعات مدل Qwen
+        gr.Markdown("""
+        <div class="qwen-box">
+        🚀 <strong>مدل: Alibaba Qwen 3-32B</strong><br>
+        ⚡ سرعت: 2,400 توکن در ثانیه | 🧠 قدرت: 32 میلیارد پارامتر<br>
+        💰 قیمت: $0.40/M input, $0.80/M output | 📝 Context: 128K tokens<br>
+        🎯 مدل Reasoning هیبریدی با دقت بالا
+        </div>
         """)
         # نمایش وضعیت API
                 with gr.Row():
                     anonymize_btn = gr.Button(
+                        "🔒 ناشناس‌سازی با Qwen 3-32B",
                         variant="primary",
                         size="lg"
                     )
         usage_output = gr.Markdown(label="⚡ اطلاعات پردازش")
         def process_advanced_text(text: str, api_key_manual: str = ""):
+            """پردازش پیشرفته متن با Qwen 3-32B"""
             # حل مشکل NoneType
             if api_key_manual is None:
                 api_key_manual = ""
                 # اطلاعات پردازش
                 usage = result.get("usage", {})
+                usage_md = "⚡ **اطلاعات پردازش Cerebras (Qwen 3-32B):**\n\n"
                 if usage:
                     usage_md += f"🤖 **مدل:** {anonymizer.config.model}\n"
+                    usage_md += f"🌡️ **Temperature:** {anonymizer.config.temperature}\n"
+                    usage_md += f"🎲 **Top-P:** {anonymizer.config.top_p}\n"
                     usage_md += f"📥 **Token های ورودی:** {usage.get('prompt_tokens', 'نامشخص')}\n"
                     usage_md += f"📤 **Token های خروجی:** {usage.get('completion_tokens', 'نامشخص')}\n"
                     usage_md += f"📊 **کل Token ها:** {usage.get('total_tokens', 'نامشخص')}\n"
+                    usage_md += f"\n⚡ **سرعت Qwen 3-32B: 2,400 tokens/second - فوق‌العاده سریع!**"
                 else:
                     usage_md += "✅ پردازش با موفقیت انجام شد"
         # راهنمای کامل
         with gr.Accordion("📖 راهنمای کامل استفاده", open=False):
             gr.Markdown("""
+            ## 🎯 ویژگی‌های سیستم با Qwen 3-32B:
+            ### 🚀 مزایای Qwen 3-32B:
+            - **سرعت فوق‌العاده:** 2,400 tokens/second
+            - **دقت بالا:** 32 میلیارد پارامتر
+            - **Context بزرگ:** 128K tokens
+            - **مدل Reasoning:** قابلیت استدلال پیشرفته
+            - **قیمت مناسب:** $0.40/M input, $0.80/M output
+            - **پشتیبانی عالی از فارسی:** به عنوان یکی از مدل‌های قدرتمند چندزبانه
+            ### ⚙️ پارامترهای بهینه شده:
+            - **Temperature:** 0.6 (توصیه شده برای Qwen)
+            - **Top-P:** 0.95 (برای تنوع و دقت بهتر)
+            - **Max Tokens:** 2000
             ### 🏷️ انواع برچسب‌ها:
+            - **company-XX:** شرکت‌ها، سازمان‌ها، گروه‌ها
+              - ⚠️ "گروه همراه اول" = company-XX (نه group-XX)
+              - ⚠️ "فاما" = "فولاد مبارکه" = company-01
+            - **person-XX:** اشخاص حقیقی
+            - **amount-XX:** مبالغ (با حفظ واحد)
+            - **percent-XX:** درصدها
             ### ✅ موارد حفظ شده:
+            - تاریخ‌ها، فصل‌ها، مکان‌ها
+            - عناوین شغلی و واحدها
+            - شاخص‌های مالی (EPS, P/E, etc.)
+            - کلمات عمومی ("سه شرکت"، "چند بانک")
+            - دوره‌های زمانی ("۹ ماهه"، "۵ ماهه سال")
             ### 💡 نکات مهم:
+            - Qwen 3-32B دقت بالاتری نسبت به Llama 3.1-8B دارد
+            - مدل Reasoning برای تحلیل پیچیده بهتر است
+            - سرعت 2,400 t/s یعنی پاسخ تقریباً لحظه‌ای
+            - برای متون طولانی‌تر (تا 128K tokens) مناسب است
+            ### 🔧 مدل‌های جایگزین Cerebras:
+            qwen-3-32b              # فعلی ⭐ (توصیه می‌شود)
+        qwen-3-235b-a22b-instruct-2507  # قدرتمندتر اما گران‌تر
+        llama3.1-8b             # سریع‌تر اما ضعیف‌تر
+        llama3.3-70b            # تعادل خوب
+        """)
         return interface