Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 21

Commit

f1c41c6

verified ·

1 Parent(s): a6733f0

Update app.py

Browse files

Files changed (1) hide show

app.py +229 -327

app.py CHANGED Viewed

@@ -19,21 +19,6 @@ class UniversalAnonymizer:
             'percent': 0
         }
         self.api_key = os.getenv("OPENAI_API_KEY", "")
-        # لیست عبارات عمومی که نباید ناشناس‌سازی شوند
-        self.common_phrases = [
-            'مجمع عمومی عادی سالیانه',
-            'مجمع عمومی فوق‌العاده',
-            'هیئت مدیره',
-            'سهامداران محترم',
-            'صورت‌های مالی',
-            'شرکت اصلی',
-            'درآمد عملیاتی',
-            'سود عملیاتی',
-            'زیان انباشته',
-            'محصولات گرم',
-            'محصولات سرد',
-        ]
     def anonymize_text(self, original_text, lang='fa'):
         """ناشناس‌سازی جامع با تشخیص خودکار الگوها"""
@@ -47,17 +32,24 @@ class UniversalAnonymizer:
             anonymized = original_text
-            # مرحله 1: درصدها (اول از همه چون ممکن است در توضیحات باشند)
-            anonymized = self._anonymize_percentages(anonymized)
-            # مرحله 2: مبالغ مالی (قبل از شرکت‌ها تا اعداد درون نام شرکت‌ها تغییر نکند)
             anonymized = self._anonymize_amounts(anonymized)
-            # مرحله 3: نام‌های اشخاص
-            anonymized = self._anonymize_persons(anonymized)
-            # مرحله 4: نام‌های شرکت‌ها
-            anonymized = self._anonymize_companies(anonymized)
             logger.info(f"✅ Anonymization completed. Found {len(self.mapping_table)} entities.")
             return anonymized
@@ -65,329 +57,200 @@ class UniversalAnonymizer:
         except Exception as e:
             return f"⚠ Error in anonymization: {str(e)}" if lang == 'en' else f"⚠ خطا در ناشناس‌سازی: {str(e)}"
-    def _anonymize_percentages(self, text):
-        """تشخیص و ناشناس‌سازی همه انواع درصدها"""
-        # الگوهای جامع درصدها
-        percent_patterns = [
-            # درصدهای منفی
-            r'منفی \d+\.?\d* درصد',
-            # درصدهای با کلمه درصدی
-            r'\d+\.?\d* درصدی',
-            # درصدهای ساده
-            r'\d+\.?\d* درصد',
-            # بازه‌های درصدی
-            r'\d+\.?\d* تا \d+\.?\d* درصد',
-            r'\d+\.?\d*–\d+\.?\d*٪',
-            r'\d+\.?\d*-\d+\.?\d*٪',
-            # درصدهای با توضیحات
-            r'بیش از \d+\.?\d* درصد',
-            r'حدود \d+\.?\d* درصد',
-            r'نزدیک به \d+\.?\d* درصد',
-            r'کمتر از \d+\.?\d* درصد',
-            r'بالای \d+\.?\d* درصد',
-            r'زیر \d+\.?\d* درصد',
-            r'حداقل \d+\.?\d* درصد',
-            r'حداکثر \d+\.?\d* درصد',
-            # نمادهای درصد
-            r'\d+\.?\d*%',
-            r'\d+\.?\d*٪',
-            # درصدهای دهگانی
-            r'\d+\.\d+ درصد',
-            # بازه‌هایی با خط فاصله
-            r'\d+–\d+٪',
         ]
-        return self._apply_patterns(text, percent_patterns, 'percent')
     def _anonymize_amounts(self, text):
-        """تشخیص و ناشناس‌سازی همه انواع مبالغ مالی"""
-        # الگوهای جامع مبالغ مالی
         amount_patterns = [
-            # مبالغ با پسوند "ی" - مهم: باید قبل از الگوهای بدون "ی" باشد
-            r'\d+ میلیارد تومانی',
-            r'\d+ میلیون تومانی',
-            r'\d+ هزار تومانی',
-            r'\d+\.?\d* میلیارد تومانی',
-            r'\d+\.?\d* میلیون تومانی',
-            # مبالغ با کاما و نقطه
-            r'\d+,\d{3},\d{3} میلیون ریال',
-            r'\d+\.\d{3}\.\d{3} میلیون ریال',
-            r'\d+,\d{3} میلیارد ریال',
-            r'\d+\.\d{3} میلیارد ریال',
-            # مبالغ با واحد همت - با و بدون اعشار
-            r'\d+ همت',
-            r'\d+\.\d+ همت',
-            r'\d+\.?\d* همت',
-            r'بیش از \d+\.?\d* همت',
-            r'نزدیک به \d+\.?\d* همت',
-            r'حدود \d+\.?\d* همت',
-            r'کمتر از \d+\.?\d* همت',
-            r'بالغ بر \d+\.?\d* همت',
-            # مبالغ ترکیبی با هزار
-            r'\d+ هزار و \d+ میلیارد تومان',
-            r'\d+ هزار و \d+ میلیارد ریال',
-            r'\d+ هزار و \d+ میلیون تومان',
-            r'\d+ هزار و \d+ میلیون ریال',
-            r'\d+ هزار و \d+ دستگاه',
-            r'\d+ هزار و \d+ تن',
-            r'\d+ هزار و \d+ نفر',
-            # مبالغ با توضیحات
-            r'بیش از \d+ هزار میلیارد تومان',
-            r'نزدیک به \d+ هزار میلیارد تومان',
-            r'حدود \d+ هزار میلیارد تومان',
-            r'کمتر از \d+ هزار میلیارد تومان',
-            r'بالغ بر \d+ هزار میلیارد تومان',
-            r'بیش از \d+ میلیارد تومان',
-            r'نزدیک به \d+ میلیارد تومان',
-            r'حدود \d+ میلیارد تومان',
-            r'کمتر از \d+ میلیارد تومان',
-            r'بالغ بر \d+ میلیارد تومان',
-            r'بیش از \d+ میلیون تومان',
-            r'حدود \d+ میلیون تومان',
-            r'نزدیک به \d+ میلیون تومان',
-            # مبالغ ارزی
-            r'حدود \d+ میلیون دلار',
-            r'بیش از \d+ میلیون دلار',
-            r'نزدیک به \d+ میلیون دلار',
-            r'\d+ میلیون دلار',
-            r'\d+ میلیون یورو',
-            # مبالغ خاص
-            r'یک‌هزار میلیارد تومان',
-            r'یکهزار میلیارد تومان',
-            r'دویست میلیارد تومان',
-            r'سیصد میلیارد تومان',
-            r'چهارصد میلیارد تومان',
-            r'پانصد میلیارد تومان',
-            # مبالغ با کاما
-            r'\d+,\d+ میلیارد تومان',
-            r'\d+,\d+ میلیارد ریال',
-            r'\d+,\d+ میلیون تومان',
-            r'\d+,\d+ میلیون ریال',
-            r'\d+,\d+ هزار میلیارد تومان',
-            r'\d+,\d+ هزار میلیارد ریال',
             # مبالغ ساده
-            r'\d+ میلیارد تومان',
-            r'\d+ میلیارد ریال',
-            r'\d+ میلیون تومان',
-            r'\d+ میلیون ریال',
-            r'\d+ هزار میلیارد تومان',
-            r'\d+ هزار میلیارد ریال',
-            r'\d+ هزارمیلیارد تومان',
-            r'\d+ هزارمیلیون تومان',
-            r'\d+ ریال',
-            r'\d+ تومان',
-            # واحدهای تولیدی و اندازه‌گیری
-            r'\d+ هزار تن',
-            r'\d+,\d+ هزار تن',
-            r'\d+ میلیون تن',
-            r'\d+ تن',
-            r'\d+ مگا واتی',
-            r'\d+ مگاوات',
-            r'\d+ کیلووات',
-            r'\d+ واحد',
-            r'\d+ دستگاه',
-            r'\d+ میلیون دستگاه',
-            r'\d+ هزار دستگاه',
-            # تعداد افراد
-            r'\d+\.?\d* میلیون نفر',
-            r'\d+ میلیون نفر',
-            r'\d+ هزار نفر',
-            r'\d+ نفر',
-            # مبالغ اعشاری
-            r'\d+\.\d+ میلیارد تومان',
-            r'\d+\.\d+ میلیارد ریال',
-            r'\d+\.\d+ میلیون تومان',
-            r'\d+\.\d+ میلیون ریال',
-            r'\d+\.\d+ هزار میلیارد تومان',
-            r'\d+\.\d+ هزار میلیارد ریال',
-            r'\d+\.\d+ همت',
-            # بازه‌های مقداری
-            r'\d+ تا \d+ میلیارد تومان',
-            r'\d+ تا \d+ میلیون تومان',
-            r'\d+ تا \d+ ماه',
-            r'\d+ تا \d+ سال',
-            r'\d+ الی \d+ میلیارد تومان',
         ]
-        return self._apply_patterns(text, amount_patterns, 'amount')
-    def _anonymize_persons(self, text):
-        """تشخیص و ناشناس‌سازی همه انواع نام‌های اشخاص"""
-        # الگوهای جامع نام‌های اشخاص
         person_patterns = [
-            # نام‌های خاص که در متن ذکر شده
-            r'مهدی اخوان بهابادی',
-            # نام‌های کامل با عناوین
-            r'دکتر\s+[آ-ی]+\s+[آ-ی]+\s+[آ-ی]+',
-            r'مهندس\s+[آ-ی]+\s+[آ-ی]+\s+[آ-ی]+',
-            r'آقای\s+[آ-ی]+\s+[آ-ی]+\s+[آ-ی]+',
-            r'خانم\s+[آ-ی]+\s+[آ-ی]+\s+[آ-ی]+',
-            # نام‌های کامل با سید
-            r'سید\s+[آ-ی]+\s+[آ-ی]+',
-            r'سید\s+[آ-ی]+\s+[آ-ی]+\s+[آ-ی]+',
-            r'سیدعلی\s+[آ-ی]+',
-            r'سیدمحمد\s+[آ-ی]+',
-            r'سیدحسن\s+[آ-ی]+',
             # نام‌هایی که با مدیرعامل همراه هستند
-            r'[آ-ی]+\s+[آ-ی]+\s+[آ-ی]+\s*،?\s*مدیرعامل',
-            r'[آ-ی]+\s+[آ-ی]+\s*،?\s*مدیرعامل',
-            # نام‌هایی که با سمت همراه هستند
-            r'[آ-ی]+\s+[آ-ی]+\s*،?\s*رئیس',
-            r'[آ-ی]+\s+[آ-ی]+\s*،?\s*مدیر',
-            r'[آ-ی]+\s+[آ-ی]+\s*،?\s*نایب',
-            # نام‌های خاص (باید در آخر باشند تا اولویت کمتری داشته باشند)
-            r'محمدرضا\s+[آ-ی]+',
-            r'علیرضا\s+[آ-ی]+',
-            r'محمدعلی\s+[آ-ی]+',
-            r'حسینعلی\s+[آ-ی]+',
-            # نام و نام خانوادگی ساده - حداقل 3 حرف برای هر کلمه
-            r'[آ-ی]{3,}\s+[آ-ی]{3,}(?:\s+[آ-ی]{3,})?',
         ]
-        return self._apply_patterns(text, person_patterns, 'person')
-    def _anonymize_companies(self, text):
-        """تشخیص و ناشناس‌سازی همه انواع نام‌های شرکت‌ها"""
-        # الگوهای جامع نام‌های شرکت‌ها
         company_patterns = [
-            # نام‌های خاص که در متن ذکر شده
-            r'شرکت سرمایه گذاری پارسیان',
-            r'شرکت سرمای��‌گذاری پارسیان',
-            r'بانک پارسیان',
-            r'گروه مالی پارسیان',
-            # شرکت‌های کامل با پرانتز
-            r'شرکت\s+[آ-ی\s]+\([آ-ی\s]+\)',
-            r'بانک\s+[آ-ی\s]+\([آ-ی\s]+\)',
-            r'گروه\s+[آ-ی\s]+\([آ-ی\s]+\)',
-            r'هلدینگ\s+[آ-ی\s]+\([آ-ی\s]+\)',
-            # شرکت‌های با کلمه شرکت
-            r'شرکت\s+[آ-ی\s]{5,}',
-            r'شرکت\s+گروه\s+[آ-ی\s]+',
-            r'شرکت\s+سرمایه‌گذاری\s+[آ-ی\s]+',
-            r'شرکت\s+سرمایه گذاری\s+[آ-ی\s]+',
-            r'شرکت\s+بیمه\s+[آ-ی\s]+',
-            r'شرکت\s+پتروشیمی\s+[آ-ی\s]+',
-            r'شرکت\s+فولاد\s+[آ-ی\s]+',
-            r'شرکت\s+پالایش\s+[آ-ی\s]+',
-            r'شرکت\s+انرژی\s+[آ-ی\s]+',
-            r'شرکت\s+ملی\s+[آ-ی\s]+',
-            # بانک‌ها
-            r'بانک\s+[آ-ی\s]{3,}',
-            r'موسسه\s+اعتباری\s+[آ-ی\s]+',
-            r'موسسه\s+مالی\s+[آ-ی\s]+',
-            # گروه‌ها و هلدینگ‌ها
-            r'گروه\s+[آ-ی\s]{3,}',
-            r'هلدینگ\s+[آ-ی\s]{3,}',
-            r'گروه\s+مالی\s+[آ-ی\s]+',
-            r'گروه\s+صنعتی\s+[آ-ی\s]+',
-            # صندوق‌ها و سازمان‌ها
-            r'صندوق\s+[آ-ی\s]{3,}',
-            r'سازمان\s+[آ-ی\s]{3,}',
-            r'موسسه\s+[آ-ی\s]{3,}',
             # شرکت‌های خاص
-            r'[آ-ی]+\s+خودرو',
-            r'[آ-ی]+\s+فولاد',
-            r'بیمه\s+[آ-ی]+',
-            r'[آ-ی]+\s+انرژی',
-            r'[آ-ی]+\s+پتروشیمی',
-            # نام‌های کوتاه شرکت‌ها (باید در آخر باشند)
-            r'همراه\s+اول',
-            r'ایران‌خودرو',
-            r'ایران خودرو',
-            r'فولاد\s+مبارکه',
-            # مجله‌ها و نشریات
-            r'مجله\s+[آ-ی\s]+',
-            r'نشریه\s+[آ-ی\s]+',
-            r'روزنامه\s+[آ-ی\s]+',
         ]
-        return self._apply_patterns(text, company_patterns, 'company')
-    def _apply_patterns(self, text, patterns, category):
-        """اعمال الگوها و جایگزینی با کدهای ناشناس"""
-        # مرتب‌سازی الگوها بر اساس طول (طولانی‌ترین اول)
-        patterns.sort(key=len, reverse=True)
-        for pattern in patterns:
-            matches = list(re.finditer(pattern, text, re.IGNORECASE))
-            for match in matches:
                 matched_text = match.group(0)
-                # بررسی اینکه آیا عبارت جزو عبارات عمومی است
-                if self._is_common_phrase(matched_text):
-                    continue
-                # اگر قبلاً جایگزین نشده باشد
-                if matched_text not in self.mapping_table and matched_text in text:
-                    # بررسی که کلمه کامل باشد (نه بخشی از کلمه بزرگ‌تر)
-                    if self._is_complete_word(text, match):
-                        self.counters[category] += 1
-                        code = f"{category}-{self.counters[category]:02d}"
-                        self.mapping_table[matched_text] = code
-                        text = text.replace(matched_text, code)
-                        logger.info(f"{category.title()} replaced: {matched_text} -> {code}")
         return text
-    def _is_common_phrase(self, text):
-        """بررسی اینکه آیا عبارت جزو عبارات عمومی است"""
-        for phrase in self.common_phrases:
-            if phrase.lower() in text.lower():
-                return True
-        return False
-    def _is_complete_word(self, text, match):
-        """بررسی اینکه آیا کلمه کامل است یا بخشی از کلمه بزرگ‌تر"""
-        start, end = match.span()
-        # بررسی کاراکتر قبل و بعد
-        if start > 0 and text[start-1].isalnum():
-            return False
-        if end < len(text) and text[end].isalnum():
-            return False
-        return True
     def send_to_chatgpt(self, anonymized_text, lang='fa'):
         """ارسال به ChatGPT"""
@@ -791,18 +654,57 @@ with gr.Blocks(title="📊 Universal Anonymization System", theme=gr.themes.Soft
     )
 if __name__ == "__main__":
-    # تست سیستم با نمونه‌های ذکر شده
-    test_text = """مهدی اخوان بهابادی در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی به 178 میلیارد تومانی رسیده است.
-    در خودروسازان حالا از مرز 305 همت عبور کرده و در سال گذشته سود عملیاتی داشته اما زیان انباشته این شرکت 7.6 همت زیاد شده است.
-    تولید محصولات گرم این شرکت به 1000 هزار تن و محصولات سرد به 1378 هزار تن رسید.
-    شرکت سرمایه گذاری پارسیان سود خوبی را نشان داد. بانک پارسیان و گروه مالی پارسیان هم عملکرد مثبتی داشتند."""
     anonymizer_test = UniversalAnonymizer()
-    result = anonymizer_test.anonymize_text(test_text)
-    print("نتیجه ناشناس‌سازی جامع:")
     print(result)
-    print("\nجدول نگاشت:")
     for original, code in anonymizer_test.mapping_table.items():
-        print(f"{original} -> {code}")
     app.launch()

             'percent': 0
         }
         self.api_key = os.getenv("OPENAI_API_KEY", "")
     def anonymize_text(self, original_text, lang='fa'):
         """ناشناس‌سازی جامع با تشخیص خودکار الگوها"""
             anonymized = original_text
+            # ترتیب مهم است: از خاص به عام
+            # مرحله 1: نام‌های خاص اشخاص (اول از همه)
+            anonymized = self._anonymize_specific_persons(anonymized)
+            # مرحله 2: نام‌های خاص شرکت‌ها
+            anonymized = self._anonymize_specific_companies(anonymized)
+            # مرحله 3: مبالغ مالی
             anonymized = self._anonymize_amounts(anonymized)
+            # مرحله 4: درصدها
+            anonymized = self._anonymize_percentages(anonymized)
+            # مرحله 5: نام‌های عمومی اشخاص
+            anonymized = self._anonymize_general_persons(anonymized)
+            # مرحله 6: نام‌های عمومی شرکت‌ها
+            anonymized = self._anonymize_general_companies(anonymized)
             logger.info(f"✅ Anonymization completed. Found {len(self.mapping_table)} entities.")
             return anonymized
         except Exception as e:
             return f"⚠ Error in anonymization: {str(e)}" if lang == 'en' else f"⚠ خطا در ناشناس‌سازی: {str(e)}"
+    def _anonymize_specific_persons(self, text):
+        """ناشناس‌سازی نام‌های خاص اشخاص"""
+        # نام‌های خاص که حتماً باید ناشناس شوند
+        specific_names = [
+            'مهدی اخوان بهابادی',
+            # می‌توانید نام‌های خاص دیگر را اینجا اضافه کنید
+        ]
+        for name in specific_names:
+            if name in text:
+                if name not in self.mapping_table:
+                    self.counters['person'] += 1
+                    code = f"person-{self.counters['person']:02d}"
+                    self.mapping_table[name] = code
+                    text = text.replace(name, code)
+                    logger.info(f"Person replaced: {name} -> {code}")
+        return text
+    def _anonymize_specific_companies(self, text):
+        """ناشناس‌سازی نام‌های خاص شرکت‌ها"""
+        # نام‌های خاص شرکت‌ها
+        specific_companies = [
+            'شرکت سرمایه گذاری پارسیان',
+            'شرکت سرمایه‌گذاری پارسیان',
+            'بانک پارسیان',
+            'گروه مالی پارسیان',
+            # می‌توانید نام‌های خاص دیگر را اینجا اضافه کنید
         ]
+        for company in specific_companies:
+            if company in text:
+                if company not in self.mapping_table:
+                    self.counters['company'] += 1
+                    code = f"company-{self.counters['company']:02d}"
+                    self.mapping_table[company] = code
+                    text = text.replace(company, code)
+                    logger.info(f"Company replaced: {company} -> {code}")
+        return text
     def _anonymize_amounts(self, text):
+        """تشخیص و ناشناس‌سازی مبالغ مالی"""
+        # الگوهای مبالغ - ترتیب از خاص به عام
         amount_patterns = [
+            # مبالغ با "تومانی" در انتها
+            (r'(\d+(?:\.\d+)?)\s+(میلیارد|میلیون|��زار)\s+تومانی', 'amount'),
+            # مبالغ با همت
+            (r'(\d+(?:\.\d+)?)\s+همت', 'amount'),
+            # مبالغ با هزار تن
+            (r'(\d+(?:\.\d+)?)\s+هزار\s+تن', 'amount'),
+            # مبالغ عادی با میلیارد/میلیون
+            (r'(\d+(?:\.\d+)?)\s+(هزار\s+)?میلیارد\s+(تومان|ریال)', 'amount'),
+            (r'(\d+(?:\.\d+)?)\s+(هزار\s+)?میلیون\s+(تومان|ریال)', 'amount'),
+            (r'(\d+(?:\.\d+)?)\s+هزار\s+(تومان|ریال)', 'amount'),
+            # مبالغ با عبارات اضافی
+            (r'بیش از\s+(\d+(?:\.\d+)?)\s+(میلیارد|میلیون|هزار)\s+(تومان|ریال)', 'amount'),
+            (r'حدود\s+(\d+(?:\.\d+)?)\s+(میلیارد|میلیون|هزار)\s+(تومان|ریال)', 'amount'),
+            (r'نزدیک به\s+(\d+(?:\.\d+)?)\s+(میلیارد|میلیون|هزار)\s+(تومان|ریال)', 'amount'),
+            # واحدهای دیگر
+            (r'(\d+(?:\.\d+)?)\s+(تن|کیلوگرم|متر|لیتر|دستگاه|واحد|نفر)', 'amount'),
             # مبالغ ساده
+            (r'(\d+(?:\.\d+)?)\s+(تومان|ریال)(?!\w)', 'amount'),
         ]
+        for pattern, category in amount_patterns:
+            matches = list(re.finditer(pattern, text))
+            # از آخر به اول جایگزین می‌کنیم تا موقعیت‌ها تغییر نکنند
+            for match in reversed(matches):
+                matched_text = match.group(0)
+                if matched_text not in self.mapping_table:
+                    self.counters[category] += 1
+                    code = f"{category}-{self.counters[category]:02d}"
+                    self.mapping_table[matched_text] = code
+                    # جایگزینی دقیق با استفاده از موقعیت
+                    start, end = match.span()
+                    text = text[:start] + code + text[end:]
+                    logger.info(f"Amount replaced: {matched_text} -> {code}")
+        return text
+    def _anonymize_percentages(self, text):
+        """تشخیص و ناشناس‌سازی درصدها"""
+        percent_patterns = [
+            (r'(\d+(?:\.\d+)?)\s+درصدی', 'percent'),
+            (r'(\d+(?:\.\d+)?)\s+درصد', 'percent'),
+            (r'(\d+(?:\.\d+)?)\s*%', 'percent'),
+            (r'(\d+(?:\.\d+)?)\s*٪', 'percent'),
+            (r'منفی\s+(\d+(?:\.\d+)?)\s+درصد', 'percent'),
+            (r'بیش از\s+(\d+(?:\.\d+)?)\s+درصد', 'percent'),
+            (r'حدود\s+(\d+(?:\.\d+)?)\s+درصد', 'percent'),
+            (r'کمتر از\s+(\d+(?:\.\d+)?)\s+درصد', 'percent'),
+        ]
+        for pattern, category in percent_patterns:
+            matches = list(re.finditer(pattern, text))
+            for match in reversed(matches):
+                matched_text = match.group(0)
+                if matched_text not in self.mapping_table:
+                    self.counters[category] += 1
+                    code = f"{category}-{self.counters[category]:02d}"
+                    self.mapping_table[matched_text] = code
+                    start, end = match.span()
+                    text = text[:start] + code + text[end:]
+                    logger.info(f"Percent replaced: {matched_text} -> {code}")
+        return text
+    def _anonymize_general_persons(self, text):
+        """ناشناس‌سازی نام‌های عمومی اشخاص"""
         person_patterns = [
+            # نام با عنوان
+            (r'دکتر\s+[آ-ی]+\s+[آ-ی]+(?:\s+[آ-ی]+)?', 'person'),
+            (r'مهندس\s+[آ-ی]+\s+[آ-ی]+(?:\s+[آ-ی]+)?', 'person'),
+            (r'آقای\s+[آ-ی]+\s+[آ-ی]+(?:\s+[آ-ی]+)?', 'person'),
+            (r'خانم\s+[آ-ی]+\s+[آ-ی]+(?:\s+[آ-ی]+)?', 'person'),
+            # نام با سید
+            (r'سید\s*[آ-ی]+\s+[آ-ی]+(?:\s+[آ-ی]+)?', 'person'),
             # نام‌هایی که با مدیرعامل همراه هستند
+            (r'[آ-ی]+\s+[آ-ی]+(?:\s+[آ-ی]+)?\s*،?\s*مدیرعامل', 'person'),
+            # نام و نام خانوادگی - حداقل 3 حرف
+            (r'(?<!\S)[آ-ی]{3,}\s+[آ-ی]{3,}(?:\s+[آ-ی]{3,})?(?!\S)', 'person'),
         ]
+        # عباراتی که نباید به عنوان نام تشخیص داده شوند
+        exclude_phrases = [
+            'مجمع عمومی', 'عادی سالیانه', 'شرکت اصلی', 'درآمد عملیاتی',
+            'سود عملیاتی', 'زیان انباشته', 'محصولات گرم', 'محصولات سرد',
+            'صورت مالی', 'سال گذشته', 'سال جاری', 'هیئت مدیره'
+        ]
+        for pattern, category in person_patterns:
+            matches = list(re.finditer(pattern, text))
+            for match in reversed(matches):
+                matched_text = match.group(0)
+                # بررسی که جزو عبارات مستثنی نباشد
+                is_excluded = any(phrase in matched_text for phrase in exclude_phrases)
+                if not is_excluded and matched_text not in self.mapping_table:
+                    self.counters[category] += 1
+                    code = f"{category}-{self.counters[category]:02d}"
+                    self.mapping_table[matched_text] = code
+                    start, end = match.span()
+                    text = text[:start] + code + text[end:]
+                    logger.info(f"Person replaced: {matched_text} -> {code}")
+        return text
+    def _anonymize_general_companies(self, text):
+        """ناشناس‌سازی نام‌های عمومی شرکت‌ها"""
         company_patterns = [
+            # شرکت‌ها با پرانتز
+            (r'شرکت\s+[آ-ی][آ-ی\s]+\([آ-ی\s]+\)', 'company'),
+            (r'بانک\s+[آ-ی][آ-ی\s]+\([آ-ی\s]+\)', 'company'),
+            # شرکت‌ها با انواع مختلف
+            (r'شرکت\s+[آ-ی][آ-ی\s]{4,}', 'company'),
+            (r'بانک\s+[آ-ی][آ-ی\s]{2,}', 'company'),
+            (r'گروه\s+[آ-ی][آ-ی\s]{2,}', 'company'),
+            (r'موسسه\s+[آ-ی][آ-ی\s]{2,}', 'company'),
+            (r'سازمان\s+[آ-ی][آ-ی\s]{2,}', 'company'),
             # شرکت‌های خاص
+            (r'[آ-ی]+\s+خودرو', 'company'),
+            (r'[آ-ی]+\s+فولاد', 'company'),
+            (r'بیمه\s+[آ-ی]+', 'company'),
         ]
+        # عباراتی که نباید به عنوان شرکت تشخیص داده شوند
+        exclude_company_phrases = ['شرکت اصلی']
+        for pattern, category in company_patterns:
+            matches = list(re.finditer(pattern, text))
+            for match in reversed(matches):
                 matched_text = match.group(0)
+                # بررسی که جزو عبارات مستثنی نباشد
+                is_excluded = any(phrase in matched_text for phrase in exclude_company_phrases)
+                if not is_excluded and matched_text not in self.mapping_table:
+                    self.counters[category] += 1
+                    code = f"{category}-{self.counters[category]:02d}"
+                    self.mapping_table[matched_text] = code
+                    start, end = match.span()
+                    text = text[:start] + code + text[end:]
+                    logger.info(f"Company replaced: {matched_text} -> {code}")
         return text
     def send_to_chatgpt(self, anonymized_text, lang='fa'):
         """ارسال به ChatGPT"""
     )
 if __name__ == "__main__":
+    print("=" * 80)
+    print("تست سیستم ناشناس‌سازی جامع با نمونه‌های ذکر شده:")
+    print("=" * 80)
+    # نمونه‌های تست
+    test_samples = [
+        "مهدی اخوان بهابادی باید یک اسم حساب شود.",
+        "در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی",
+        "به معنای درآمد روزانه 178 میلیارد تومانی این اپراتور بوده",
+        "در خودروسازان حالا از مرز 305 همت عبور کرده و به 305 همت رسیده است.",
+        "زیان انباشته این شرکت 7.6 همت زیاد شده است.",
+        "تولید محصولات گرم این شرکت به 1000 هزار تن و محصولات سرد به 1378 هزار تن رسید",
+        "شرکت سرمایه گذاری پارسیان را اعلام کرد",
+        "بانک پارسیان و گروه مالی پارسیان"
+    ]
+    # تست کامل
+    full_test = """مهدی اخوان بهابادی در مجمع عمومی عادی سالیانه اعلام کرد درآمد عملیاتی شرکت اصلی به 178 میلیارد تومانی رسیده است.
+در خودروسازان حالا از مرز 305 همت عبور کرده و سود عملیاتی داشته اما زیان انباشته این شرکت 7.6 همت زیاد شده است.
+تولید محصولات گرم این شرکت به 1000 هزار تن و محصولات سرد به 1378 هزار تن رسید.
+شرکت سرمایه گذاری پارسیان سود خوبی را نشان داد. بانک پارسیان و گروه مالی پارسیان هم عملکرد مثبتی داشتند."""
     anonymizer_test = UniversalAnonymizer()
+    # تست نمونه‌های جداگانه
+    print("\n📌 تست نمونه‌های جداگانه:")
+    print("-" * 40)
+    for i, sample in enumerate(test_samples, 1):
+        anonymizer_test = UniversalAnonymizer()  # ریست برای هر تست
+        result = anonymizer_test.anonymize_text(sample)
+        print(f"{i}. اصلی: {sample}")
+        print(f"   ناشناس: {result}")
+        print()
+    # تست کامل
+    print("\n📌 تست کامل:")
+    print("-" * 40)
+    anonymizer_test = UniversalAnonymizer()
+    result = anonymizer_test.anonymize_text(full_test)
+    print("متن اصلی:")
+    print(full_test)
+    print("\nمتن ناشناس‌شده:")
     print(result)
+    print("\n📊 جدول نگاشت:")
+    print("-" * 40)
     for original, code in anonymizer_test.mapping_table.items():
+        print(f"{code} ← {original}")
+    print("\n" + "=" * 80)
+    print("✅ برنامه آماده اجراست!")
+    print("=" * 80)
     app.launch()