Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Oct 13, 2025

Commit

622474c

verified ·

1 Parent(s): dd9b028

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -32

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ class CerebrasConfig:
     """تنظیمات Cerebras API"""
     api_key: str
     base_url: str = "https://api.cerebras.ai/v1"
-    model: str = "llama-3.1-8b"  # یا llama-3.1-8b برای سرعت بیشتر
     max_tokens: int = 2000
     temperature: float = 0.1
@@ -28,8 +28,8 @@ class AdvancedCerebrasAnonymizer:
         self.system_prompt = self._create_advanced_system_prompt()
     def _create_advanced_system_prompt(self) -> str:
-        """ایجاد دستورالعمل سیستمی پیشرفته برای Cerebras"""
-        return """شما یک «ناشناس‌ساز متون مالی/خبری فارسی» هستید. وظیفه‌تان جایگزینی اسامی خاص و مقادیر عددی با شناسه‌های بی‌معناست.
 ## قوانین اندیس‌گذاری:
 1. **ترتیب پیوسته**: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
@@ -85,9 +85,6 @@ class AdvancedCerebrasAnonymizer:
 فقط متن ناشناس‌شده را برگردان، بدون توضیح."""
-"""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
         """ارسال درخواست به Cerebras API"""
         headers = {
@@ -187,13 +184,13 @@ class AdvancedCerebrasAnonymizer:
         """تحلیل متن ناشناس‌سازی شده"""
         import re
-        # شمارش موجودیت‌ها (group حذف شد - همه گروه‌ها company هستند)
         companies = re.findall(r'company-(\d+)', text)
         persons = re.findall(r'person-(\d+)', text)
         amounts = re.findall(r'amount-(\d+)', text)
         percents = re.findall(r'percent-(\d+)', text)
-        # آمار کلی (group حذف شد - همه گروه‌ها company هستند)
         statistics = {
             "company": len(set(companies)),
             "person": len(set(persons)),
@@ -228,7 +225,7 @@ class AdvancedCerebrasAnonymizer:
         """اعتبارسنجی پیشرفته متن ناشناس‌شده"""
         import re
-        # استخراج همه موجودیت‌ها (group حذف شد)
         companies = re.findall(r'company-(\d+)', text)
         persons = re.findall(r'person-(\d+)', text)
         amounts = re.findall(r'amount-(\d+)', text)
@@ -345,6 +342,7 @@ def create_advanced_interface():
         gr.Markdown("""
         # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
         ### ⚡ قدرت‌گرفته از Cerebras AI - سریع‌ترین استنباط LLM در جهان!
         """)
         # نمایش وضعیت API
@@ -627,9 +625,10 @@ def create_advanced_interface():
             ### ⚡ مزایای استفاده از Cerebras:
             - **سرعت فوق‌العاده:** سریع‌ترین استنباط LLM در جهان
-            - **دقت بالا:** مدل‌های قدرتمند Llama 3.3
             - **رایگان:** برای استفاده شخصی و تست
             - **API ساده:** سازگار با OpenAI
             ### 🏷️ انواع برچسب‌ها:
             - **company-XX:** شرکت‌ها، سازمان‌ها، برندها، نهادها، **گروه‌ها**
@@ -643,13 +642,13 @@ def create_advanced_interface():
             ### ✅ موارد حفظ شده:
             - 📅 تاریخ‌ها و ساعت‌ها
-            - 🍂 فصل‌های سال (پاییز، بهار، تابستان، زمستان)
             - 🏢 عناوین شغلی و نقش‌ها
             - 📏 واحدها (تومان، ریال، میلیارد، تن، ...)
             - 📈 شاخص‌های مالی (EPS, P/E, ARPU, NPL)
             - 🗺️ نام مکان‌ها و آدرس‌ها
             - 📝 ساختار جمله و لحن
-            - 🔤 کلمات عمومی بدون نام ("سه شرکت"، "چند بانک"، "مراکز درمانی")
             - ⏰ **دوره‌های زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول" (��فظ می‌شوند)
             ### 🔍 کنترل کیفیت:
@@ -670,27 +669,10 @@ def create_advanced_interface():
               - "در ۹ ماه" → حفظ
               - اما "۹ میلیون تومان" → amount-XX
-            ### 📧 مثال‌های صحیح:
-            **مثال 1 - کلمات عمومی:**
-            - **ورودی:** سازمان تامین اجتماعی دارای سه شرکت دارویی است
-            - **خروجی:** company-01 دارای سه شرکت دارویی است
-            - ✅ "سه شرکت دارویی" حفظ شد (کلمه عمومی)
-            **مثال 2 - نام مستعار:**
-            - **ورودی:** شرکت فولاد مبارکه... شرکت فاما قصد دارد...
-            - **خروجی:** company-01... company-01 قصد دارد...
-            - ✅ "فاما" = "فولاد مبارکه" → هر دو company-01
-            **مثال 3 - فصل سال:**
-            - **ورودی:** در پاییز ۱۴۰۱ تعداد مشترکین ۱۴۵ میلیون نفر رسید
-            - **خروجی:** در پاییز ۱۴۰۱ تعداد مشترکین amount-01 رسید
-            - ✅ "پاییز" حفظ شد (فصل سال)
             ### 🚀 مدل‌های موجود Cerebras:
-            - `llama-3.3-70b`: مدل اصلی و قدرتمند (پیشنهادی)
-            - `llama-3.1-8b`: سریع‌تر و سبک‌تر
-            - `llama-3.1-70b`: نسخه قدیمی‌تر
             """)
         return interface

     """تنظیمات Cerebras API"""
     api_key: str
     base_url: str = "https://api.cerebras.ai/v1"
+    model: str = "llama3.1-8b"  # مدل سبک برای سرعت بیشتر
     max_tokens: int = 2000
     temperature: float = 0.1
         self.system_prompt = self._create_advanced_system_prompt()
     def _create_advanced_system_prompt(self) -> str:
+        """ایجاد دستورالعمل سیستمی فشرده برای Llama 3.1-8B"""
+        return """شما متن‌های مالی فارسی را ناشناس می‌کنید. اسامی خاص و اعداد را با شناسه جایگزین کنید.
 ## قوانین اندیس‌گذاری:
 1. **ترتیب پیوسته**: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
 فقط متن ناشناس‌شده را برگردان، بدون توضیح."""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
         """ارسال درخواست به Cerebras API"""
         headers = {
         """تحلیل متن ناشناس‌سازی شده"""
         import re
+        # شمارش موجودیت‌ها
         companies = re.findall(r'company-(\d+)', text)
         persons = re.findall(r'person-(\d+)', text)
         amounts = re.findall(r'amount-(\d+)', text)
         percents = re.findall(r'percent-(\d+)', text)
+        # آمار کلی
         statistics = {
             "company": len(set(companies)),
             "person": len(set(persons)),
         """اعتبارسنجی پیشرفته متن ناشناس‌شده"""
         import re
+        # استخراج همه موجودیت‌ها
         companies = re.findall(r'company-(\d+)', text)
         persons = re.findall(r'person-(\d+)', text)
         amounts = re.findall(r'amount-(\d+)', text)
         gr.Markdown("""
         # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
         ### ⚡ قدرت‌گرفته از Cerebras AI - سریع‌ترین استنباط LLM در جهان!
+        #### 🎯 بهینه شده برای Llama 3.1-8B
         """)
         # نمایش وضعیت API
             ### ⚡ مزایای استفاده از Cerebras:
             - **سرعت فوق‌العاده:** سریع‌ترین استنباط LLM در جهان
+            - **دقت بالا:** مدل‌های قدرتمند Llama 3.1-8B
             - **رایگان:** برای استفاده شخصی و تست
             - **API ساده:** سازگار با OpenAI
+            - **پرامپت بهینه:** 60% کوتاه‌تر برای Llama 3.1-8B
             ### 🏷️ انواع برچسب‌ها:
             - **company-XX:** شرکت‌ها، سازمان‌ها، برندها، نهادها، **گروه‌ها**
             ### ✅ موارد حفظ شده:
             - 📅 تاریخ‌ها و ساعت‌ها
+            - 🂠فصل‌های سال (پاییز، بهار، تابستان، زمستان)
             - 🏢 عناوین شغلی و نقش‌ها
             - 📏 واحدها (تومان، ریال، میلیارد، تن، ...)
             - 📈 شاخص‌های مالی (EPS, P/E, ARPU, NPL)
             - 🗺️ نام مکان‌ها و آدرس‌ها
             - 📝 ساختار جمله و لحن
+            - 📦 کلمات عمومی بدون نام ("سه شرکت"، "چند بانک"، "مراکز درمانی")
             - ⏰ **دوره‌های زمانی:** "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول" (��فظ می‌شوند)
             ### 🔍 کنترل کیفیت:
               - "در ۹ ماه" → حفظ
               - اما "۹ میلیون تومان" → amount-XX
             ### 🚀 مدل‌های موجود Cerebras:
+            - `llama3.1-8b`: سریع و کارآمد (توصیه می‌شود) ⭐
+            - `llama3.1-70b`: قدرتمندتر
+            - `llama3.3-70b`: جدیدترین نسخه 70B
             """)
         return interface