Spaces:

leilaghomashchi
/

Benchmark-data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 13, 2025

Commit

0e8df19

verified ·

1 Parent(s): bb578da

Update app.py

Browse files

Files changed (1) hide show

app.py +142 -101

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
-سیستم benchmark ناشناس‌سازی - ورژن اصلاح شده با الگوهای دقیق
 """
 import pandas as pd
@@ -33,42 +33,52 @@ def convert_to_serializable(obj):
     else:
         return obj
-# ===== کلاس پردازش entities با الگوهای دقیق =====
-class EntityExtractor:
     def __init__(self):
-        # الگوهای دقیق‌تر با lookahead و lookbehind
         self.patterns = {
             'COMPANY': [
-                r'شرکت\s+پتروشیمی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+?(?=\s|$|،|\.)',
-                r'شرکت\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,30}?(?=\s+(?:با|در|که|مربوط)|$|،|\.)',
-                r'بانک\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,20}?(?=\s+(?:با|در|که|ارائه|صادر)|$|،|\.)',
-                r'شرکت\s+تولیدی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,20}',
-                r'شرکت\s+پردازش\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,30}',
             ],
             'LOCATION': [
-                r'بندر\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,15}',
                 r'\b(?:تهران|اصفهان|ماهشهر|عسلویه|بندرعباس|اهواز|شیراز|مشهد|تبریز|کرج|قم|رشت|کرمان|یزد|زاهدان|بوشهر|خرمشهر|آبادان|اراک|قزوین|خوزستان)\b',
                 r'جمهوری\s+اسلامی\s+ایران',
             ],
             'PERSON': [
-                r'آقای\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25}?(?=\s+با\s+کد|\s+مدیر|$|،|\.)',
-                r'خانم\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25}?(?=\s+با\s+کد|\s+همسر|$|،|\.)',
-                r'(?:[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25})\s+مدیرعامل',
-                r'مدیر\s+مالی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25}',
             ],
             'DATE': [
                 r'\d{4}\/\d{1,2}\/\d{1,2}',
-                r'سال\s+مالی\s+منتهی\s+به\s+[۰-۹\u06F0-\u06F9]{1,2}\s+[\u0600-\u06FF\u0750-\u077F]+\s+[۰-۹\u06F0-\u06F9]{4}',
-                r'[۰-۹\u06F0-\u06F9]{1,2}\s+[\u0600-\u06FF\u0750-\u077F]+\s+[۰-۹\u06F0-\u06F9]{4}',
             ],
             'PHONE': [
-                r'09\d{9}(?!\d)',  # شماره موبایل
-                r'021-\d{8}',      # تهران
-                r'0\d{2,3}-\d{7,8}', # سایر شهرها
             ],
             'EMAIL': [
@@ -76,21 +86,22 @@ class EntityExtractor:
             ],
             'AMOUNT': [
-                r'\d{6,}\s*تومان',  # مبالغ 6 رقمی یا بیشتر
-                r'مبلغ\s+\d{6,}(?:\s*تومان)?',
                 r'\d+\s*درصد',
             ],
             'ACCOUNT': [
-                r'\d{3}-\d{3}-\d{3}-\d',  # شماره حساب
-                r'\d{4}-\d{4}-\d{4}-\d{4}',  # شماره کارت
             ],
             'ID_NUMBER': [
                 r'کد\s+ملی\s+\d{10}',
                 r'شناسه\s+ملی\s+\d{11}',
-                r'(?<!\d)\d{10}(?!\d)',  # کد ملی 10 رقمی مستقل
-                r'(?<!\d)\d{11}(?!\d)',  # شناسه 11 رقمی مستقل
             ],
             'DOCUMENT_NUMBER': [
@@ -101,33 +112,53 @@ class EntityExtractor:
         }
     def clean_entity(self, text):
-        """تمیز کردن entity استخراج شده"""
         # حذف کلمات اضافی در انتها
-        text = re.sub(r'\s*(در|که|با|به|از|را|و|یا|است|بوده|نموده|صادر|ارائه|معرفی)\s*$', '', text, flags=re.IGNORECASE)
         # حذف فاصله‌های اضافی
         text = re.sub(r'\s+', ' ', text).strip()
         return text
-    def is_valid_entity(self, text):
-        """بررسی معتبر بودن entity"""
-        if len(text) < 2:
             return False
-        # کلمات ممنوع که نباید به تنهایی entity باشند
-        forbidden_alone = ['شد', 'کرد', 'است', 'بود', 'در', 'که', 'با', 'از', 'به', 'را', 'و', 'یا',
-                          'شرکت', 'بانک', 'آقای', 'خانم', 'تومان', 'مبلغ']
-        if text.lower().strip() in forbidden_alone:
             return False
-        # بررسی طول منطقی
-        if len(text) > 50:  # خیلی طولانی است
-            return False
         return True
     def extract_entities(self, text):
-        """استخراج entities از متن"""
         if not text or text.strip() == '':
             return {}
@@ -143,7 +174,7 @@ class EntityExtractor:
                     for match in matches:
                         entity = self.clean_entity(match.group(0))
-                        if self.is_valid_entity(entity):
                             found_entities.append(entity)
                 except re.error as e:
@@ -152,7 +183,18 @@ class EntityExtractor:
             # حذف تکراری‌ها و مرتب‌سازی
             if found_entities:
-                entities[category] = sorted(list(set(found_entities)))
         return entities
@@ -184,25 +226,24 @@ class EntityExtractor:
         return codes
 # ===== کلاس Benchmark =====
-class AnonymizationBenchmark:
     def __init__(self):
-        self.extractor = EntityExtractor()
     def analyze_single_row(self, original_text, anonymized_text, row_number):
-        """تحلیل یک ردیف از CSV با نمایش کامل entities"""
         print(f"\n{'='*80}")
-        print(f"تحلیل ردیف {row_number}")
         print(f"{'='*80}")
         print(f"\n📝 متن اصلی ({len(original_text)} کاراکتر):")
-        # نمایش 200 کاراکتر اول
-        print(f"'{original_text[:200]}{'...' if len(original_text) > 200 else ''}'")
         print(f"\n🔒 متن ناشناس‌سازی شده ({len(anonymized_text)} کاراکتر):")
-        print(f"'{anonymized_text[:200]}{'...' if len(anonymized_text) > 200 else ''}'")
         # استخراج entities از متن اصلی
-        print(f"\n🔍 Entities استخراج شده از متن اصلی:")
         original_entities = self.extractor.extract_entities(original_text)
         total_original_entities = 0
@@ -218,7 +259,7 @@ class AnonymizationBenchmark:
             print(f"\n✅ مجموع entities یافت شده: {total_original_entities}")
         # استخراج کدهای ناشناس‌سازی
-        print(f"\n🔍 کدهای ناشناس‌سازی استخراج شده:")
         anonymized_codes = self.extractor.extract_anonymized_codes(anonymized_text)
         total_anonymized_codes = 0
@@ -233,27 +274,27 @@ class AnonymizationBenchmark:
         else:
             print(f"\n✅ مجموع کدهای ناشناس‌سازی: {total_anonymized_codes}")
         # محاسبه متریک‌ها
-        print(f"\n📊 محاسبه متریک‌ها:")
         category_metrics = {}
         total_tp, total_fp, total_fn = 0, 0, 0
-        all_categories = set(original_entities.keys()) | set(anonymized_codes.keys())
-        if not all_categories:
-            print("  ⚠️ هیچ category ای برای محاسبه یافت نشد!")
-            return {
-                'original_entities': {},
-                'anonymized_codes': {},
-                'category_metrics': {},
-                'overall_metrics': {
-                    'total_original_entities': 0,
-                    'total_anonymized_entities': 0,
-                    'total_tp': 0, 'total_fp': 0, 'total_fn': 0,
-                    'precision': 0, 'recall': 0, 'f1_score': 0, 'accuracy': 0
-                }
-            }
         for category in all_categories:
             original_count = len(original_entities.get(category, []))
             anonymized_count = len(anonymized_codes.get(category, []))
@@ -266,11 +307,6 @@ class AnonymizationBenchmark:
             recall = tp / (tp + fn) if (tp + fn) > 0 else 0
             f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
-            print(f"\n  📈 {category}:")
-            print(f"    اصلی: {original_count}, ناشناس‌سازی: {anonymized_count}")
-            print(f"    TP: {tp}, FP: {fp}, FN: {fn}")
-            print(f"    Precision: {precision:.4f}, Recall: {recall:.4f}, F1: {f1_score:.4f}")
             category_metrics[category] = {
                 'original_count': original_count, 'anonymized_count': anonymized_count,
                 'tp': tp, 'fp': fp, 'fn': fn,
@@ -287,7 +323,8 @@ class AnonymizationBenchmark:
         overall_f1 = 2 * (overall_precision * overall_recall) / (overall_precision + overall_recall) if (overall_precision + overall_recall) > 0 else 0
         accuracy = total_tp / total_original_entities if total_original_entities > 0 else 0
-        print(f"\n🎯 متریک‌های کلی ردیف {row_number}:")
         print(f"  Precision: {overall_precision:.4f}")
         print(f"  Recall: {overall_recall:.4f}")
         print(f"  F1-Score: {overall_f1:.4f}")
@@ -309,7 +346,7 @@ class AnonymizationBenchmark:
     def process_csv(self, csv_file_path):
         """پردازش فایل CSV"""
         try:
-            # خواندن فایل با encoding های مختلف
             df = None
             for encoding in ['utf-8', 'utf-8-sig', 'cp1256', 'windows-1256']:
                 try:
@@ -320,7 +357,7 @@ class AnonymizationBenchmark:
                     continue
             if df is None:
-                return "❌ خطا: نمی‌توان فایل را با هیچ encoding خواند"
             print(f"\n📋 اطلاعات فایل CSV:")
             print(f"  تعداد ردیف‌ها: {len(df)}")
@@ -376,13 +413,13 @@ class AnonymizationBenchmark:
 # ===== رابط Gradio =====
 def process_uploaded_file(file):
-    """پردازش فایل آپلود شده کاربر"""
     if file is None:
         return "❌ لطفاً ابتدا فایل CSV را آپلود کنید.", None
-    print(f"\n🚀 شروع پردازش فایل: {file.name}")
-    benchmark = AnonymizationBenchmark()
     result = benchmark.process_csv(file.name)
     if isinstance(result, str):
@@ -408,12 +445,12 @@ def process_uploaded_file(file):
     # گزارش نهایی
     report = f"""
 {'='*80}
-🎯 گزارش نهایی Benchmark فایل شما
 {'='*80}
-📈 آمار کلی:
   • تعداد ردیف‌های پردازش شده: {total_rows}
-  • مجموع Entities اصلی در همه ردیف‌ها: {total_original}
   • مجموع کدهای ناشناس‌سازی: {total_anonymized}
   • True Positives (درست شناسایی شده): {total_tp}
   • False Positives (اشتباه شناسایی شده): {total_fp}
@@ -426,15 +463,18 @@ def process_uploaded_file(file):
   • Accuracy: {avg_accuracy:.4f}
 📊 توضیحات:
-• این آمار بر اساس entities واقعی موجود در فایل شما محاسبه شده
-• جزئیات کامل هر ردیف در بالا نمایش داده شده
-• فایل نتایج کامل در جدول زیر قابل مشاهده است
 """
     # ذخیره نتایج
     try:
-        results_df.to_csv("benchmark_results.csv", index=False, encoding='utf-8-sig')
-        print("✅ نتایج در فایل benchmark_results.csv ذخیره شد")
     except Exception as e:
         print(f"⚠️  خطا در ذخیره فایل: {e}")
@@ -448,17 +488,17 @@ def process_uploaded_file(file):
 def download_results():
     """دانلود نتایج"""
-    if os.path.exists("benchmark_results.csv"):
-        return "benchmark_results.csv"
     return None
 # ===== رابط اصلی =====
 def main():
-    with gr.Blocks(title="Precise Benchmark System", theme=gr.themes.Soft()) as demo:
         gr.HTML("""
         <h1 style='text-align: center; color: #2E86AB; margin-bottom: 30px;'>
-        🎯 سیستم Benchmark دقیق ناشناس‌سازی
         </h1>
         """)
@@ -466,12 +506,13 @@ def main():
             with gr.Column():
                 gr.HTML("""
                 <div style='background: #e8f5e8; padding: 15px; border-radius: 10px; margin-bottom: 15px;'>
-                <h3>✅ ویژگی‌های جدید:</h3>
                 <ul>
-                <li><b>الگوهای دقیق:</b> entities را دقیق‌تر شناسایی می‌کند</li>
-                <li><b>نمایش کامل:</b> تمام entities پیدا شده لیست می‌شود</li>
-                <li><b>تحلیل مفصل:</b> هر ردیف جداگانه تحلیل می‌شود</li>
-                <li><b>محاسبه دقیق:</b> متریک‌های صحیح بر اساس entities واقعی</li>
                 </ul>
                 </div>
                 """)
@@ -482,14 +523,14 @@ def main():
                     file_count="single"
                 )
-                process_btn = gr.Button("🚀 تحلیل فایل با نمایش کامل Entities", variant="primary", size="lg")
         with gr.Row():
             with gr.Column():
-                gr.HTML("<h3>📊 گزارش کامل + نمایش Entities</h3>")
                 results_output = gr.Textbox(
-                    label="گزارش شامل لیست کامل entities پیدا شده",
                     lines=30,
                     max_lines=35,
                     interactive=False
@@ -497,18 +538,18 @@ def main():
         with gr.Row():
             with gr.Column():
-                gr.HTML("<h3>📋 جدول نتایج</h3>")
                 results_table = gr.Dataframe(
-                    label="خلاصه متریک‌های هر ردیف",
                     interactive=False,
                     wrap=True
                 )
         with gr.Row():
             with gr.Column():
-                download_btn = gr.Button("💾 دانلود نتایج کامل", variant="secondary")
-                download_file = gr.File(label="فایل نتایج", visible=False)
         # Event handlers
         process_btn.click(

 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
+سیستم benchmark ناشناس‌سازی - ورژن نهایی با الگوهای فوق‌العاده دقیق
 """
 import pandas as pd
     else:
         return obj
+# ===== کلاس پردازش entities با الگوهای فوق‌العاده دقیق =====
+class PreciseEntityExtractor:
     def __init__(self):
+        # الگوهای فوق‌العاده دقیق با boundaries مشخص
         self.patterns = {
             'COMPANY': [
+                # شرکت + نام مشخص (فقط اسم شرکت، نه جملات)
+                r'شرکت\s+پتروشیمی\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s|$|،|\.)',
+                r'شرکت\s+تولیدی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+?(?=\s+(?:با|در|که|مربوط|صادر)|$|،|\.)',
+                r'شرکت\s+پردازش\s+[\u0600-\u06FF\u0750-\u077F\s\u200C\-]+?(?=\s+(?:با|در|که|مربوط)|$|،|\.)',
+                r'بانک\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s+(?:با|در|که|مربوط|ارائه|صادر)|$|،|\.)',
+                r'بانک\s+مرکزی\s+جمهوری\s+اسلامی\s+[\u0600-\u06FF\u0750-\u077F]+',
             ],
             'LOCATION': [
+                # فقط نام مکان، نه عبارات کامل
+                r'بندر\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s+(?:برگزار|واقع|در)|$|،|\.)',
+                r'شهر\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s+(?:برگزار|واقع|در)|$|،|\.)',
+                r'استان\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s+(?:برگزار|واقع|در)|$|،|\.)',
+                # نام شهرهای مشخص
                 r'\b(?:تهران|اصفهان|ماهشهر|عسلویه|بندرعباس|اهواز|شیراز|مشهد|تبریز|کرج|قم|رشت|کرمان|یزد|زاهدان|بوشهر|خرمشهر|آبادان|اراک|قزوین|خوزستان)\b',
+                # اسامی کشورها
                 r'جمهوری\s+اسلامی\s+ایران',
+                r'\b(?:ایران|عراق|کویت|عربستان|امارات|قطر|عمان|بحرین|ترکیه)\b',
             ],
             'PERSON': [
+                # فقط اسم کامل افراد
+                r'آقای\s+[\u0600-\u06FF\u0750-\u077F]+\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s+(?:با|مدیر)|$|،|\.)',
+                r'خانم\s+[\u0600-\u06FF\u0750-\u077F]+\s+[\u0600-\u06FF\u0750-\u077F]+(?=\s+(?:با|همسر)|$|،|\.)',
+                r'مدیرعامل\s+[\u0600-\u06FF\u0750-\u077F]+\s+[\u0600-\u06FF\u0750-\u077F]+',
+                r'مدیر\s+مالی\s+[\u0600-\u06FF\u0750-\u077F]+\s+[\u0600-\u06FF\u0750-\u077F]+',
             ],
             'DATE': [
+                # فقط تاریخ‌های مشخص، نه عبارات طولانی
+                r'[۰-۹\u06F0-\u06F9]{1,2}\s+(?:فروردین|اردیبهشت|خرداد|تیر|مرداد|شهریور|مهر|آبان|آذر|دی|بهمن|اسفند)\s+[۰-۹\u06F0-\u06F9]{4}',
                 r'\d{4}\/\d{1,2}\/\d{1,2}',
+                # حذف الگوی طولانی "سال مالی منتهی به..."
             ],
             'PHONE': [
+                # شماره‌های تلفن دقیق
+                r'09\d{9}(?!\d)',
+                r'021-\d{8}',
+                r'0\d{2,3}-\d{7,8}',
             ],
             'EMAIL': [
             ],
             'AMOUNT': [
+                # فقط مبالغ خالص
+                r'\d{6,}\s*تومان',
                 r'\d+\s*درصد',
             ],
             'ACCOUNT': [
+                r'\d{3}-\d{3}-\d{3}-\d',
+                r'\d{4}-\d{4}-\d{4}-\d{4}',
             ],
             'ID_NUMBER': [
+                # کدهای ملی و شناسه دقیق
                 r'کد\s+ملی\s+\d{10}',
                 r'شناسه\s+ملی\s+\d{11}',
+                r'(?<!\d)\d{10}(?!\d)',
+                r'(?<!\d)\d{11}(?!\d)',
             ],
             'DOCUMENT_NUMBER': [
         }
     def clean_entity(self, text):
+        """تمیز کردن دقیق entity"""
         # حذف کلمات اضافی در انتها
+        text = re.sub(r'\s*(در|که|با|به|از|را|و|یا|است|بوده|نموده|صادر|ارائه|معرفی|برگزار|واقع|مربوط|مطرح|شد|شده)\s*$', '', text, flags=re.IGNORECASE)
         # حذف فاصله‌های اضافی
         text = re.sub(r'\s+', ' ', text).strip()
         return text
+    def is_valid_entity(self, text, category):
+        """بررسی دقیق‌تر معتبر بودن entity"""
+        if len(text) < 3 or len(text) > 60:
             return False
+        # کلمات ممنوع که نباید entity باشند
+        forbidden_words = [
+            'شد', 'کرد', 'است', 'بود', 'در', 'که', 'با', 'از', 'به', 'را', 'و', 'یا',
+            'شرکت', 'بانک', 'آقای', 'خانم', 'تومان', 'مبلغ', 'برگزار', 'مطرح', 'واقع'
+        ]
+        if text.lower().strip() in forbidden_words:
             return False
+        # بررسی‌های خاص برای هر category
+        if category == 'COMPANY':
+            # نباید شامل فعل یا کلمات اضافی باشد
+            if any(word in text.lower() for word in ['برگزار', 'مطرح', 'شد', 'است', 'نموده']):
+                return False
+            # باید حداقل یک اسم خاص داشته باشد
+            if text.strip() in ['شرکت', 'بانک', 'شرکت در', 'بانک در']:
+                return False
+        elif category == 'LOCATION':
+            # نباید شامل فعل باشد
+            if any(word in text.lower() for word in ['برگزار', 'شد', 'است', 'واقع']):
+                return False
+            # باید نام مکان واقعی باشد
+            if text.strip() in ['شهر', 'بندر', 'استان']:
+                return False
+        elif category == 'DATE':
+            # نباید عبارات طولانی باشد
+            if 'سال مالی' in text:
+                return False
         return True
     def extract_entities(self, text):
+        """استخراج entities با دقت بالا"""
         if not text or text.strip() == '':
             return {}
                     for match in matches:
                         entity = self.clean_entity(match.group(0))
+                        if self.is_valid_entity(entity, category):
                             found_entities.append(entity)
                 except re.error as e:
             # حذف تکراری‌ها و مرتب‌سازی
             if found_entities:
+                # حذف entities که زیرمجموعه entities دیگر هستند
+                unique_entities = []
+                for entity in found_entities:
+                    is_subset = False
+                    for other in found_entities:
+                        if entity != other and entity in other:
+                            is_subset = True
+                            break
+                    if not is_subset:
+                        unique_entities.append(entity)
+                entities[category] = sorted(list(set(unique_entities)))
         return entities
         return codes
 # ===== کلاس Benchmark =====
+class PreciseAnonymizationBenchmark:
     def __init__(self):
+        self.extractor = PreciseEntityExtractor()
     def analyze_single_row(self, original_text, anonymized_text, row_number):
+        """تحلیل دقیق یک ردیف"""
         print(f"\n{'='*80}")
+        print(f"تحلیل دقیق ردیف {row_number}")
         print(f"{'='*80}")
         print(f"\n📝 متن اصلی ({len(original_text)} کاراکتر):")
+        print(f"'{original_text[:150]}{'...' if len(original_text) > 150 else ''}'")
         print(f"\n🔒 متن ناشناس‌سازی شده ({len(anonymized_text)} کاراکتر):")
+        print(f"'{anonymized_text[:150]}{'...' if len(anonymized_text) > 150 else ''}'")
         # استخراج entities از متن اصلی
+        print(f"\n🔍 Entities دقیق استخراج شده از متن اصلی:")
         original_entities = self.extractor.extract_entities(original_text)
         total_original_entities = 0
             print(f"\n✅ مجموع entities یافت شده: {total_original_entities}")
         # استخراج کدهای ناشناس‌سازی
+        print(f"\n🔍 کدهای ناشناس‌سازی:")
         anonymized_codes = self.extractor.extract_anonymized_codes(anonymized_text)
         total_anonymized_codes = 0
         else:
             print(f"\n✅ مجموع کدهای ناشناس‌سازی: {total_anonymized_codes}")
+        # تطبیق دقیق entities و codes
+        print(f"\n🔄 تطبیق Entities با کدهای ناشناس‌سازی:")
+        all_categories = set(original_entities.keys()) | set(anonymized_codes.keys())
+        for category in sorted(all_categories):
+            orig_count = len(original_entities.get(category, []))
+            anon_count = len(anonymized_codes.get(category, []))
+            print(f"\n  📈 {category}:")
+            print(f"    Entities اصلی: {orig_count}")
+            print(f"    کدهای ناشناس‌سازی: {anon_count}")
+            if orig_count > 0:
+                print(f"    لیست اصلی: {original_entities[category]}")
+            if anon_count > 0:
+                print(f"    لیست کدها: {anonymized_codes[category]}")
         # محاسبه متریک‌ها
         category_metrics = {}
         total_tp, total_fp, total_fn = 0, 0, 0
         for category in all_categories:
             original_count = len(original_entities.get(category, []))
             anonymized_count = len(anonymized_codes.get(category, []))
             recall = tp / (tp + fn) if (tp + fn) > 0 else 0
             f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
             category_metrics[category] = {
                 'original_count': original_count, 'anonymized_count': anonymized_count,
                 'tp': tp, 'fp': fp, 'fn': fn,
         overall_f1 = 2 * (overall_precision * overall_recall) / (overall_precision + overall_recall) if (overall_precision + overall_recall) > 0 else 0
         accuracy = total_tp / total_original_entities if total_original_entities > 0 else 0
+        print(f"\n🎯 متریک‌های نهایی ردیف {row_number}:")
+        print(f"  TP: {total_tp}, FP: {total_fp}, FN: {total_fn}")
         print(f"  Precision: {overall_precision:.4f}")
         print(f"  Recall: {overall_recall:.4f}")
         print(f"  F1-Score: {overall_f1:.4f}")
     def process_csv(self, csv_file_path):
         """پردازش فایل CSV"""
         try:
+            # خواندن فایل
             df = None
             for encoding in ['utf-8', 'utf-8-sig', 'cp1256', 'windows-1256']:
                 try:
                     continue
             if df is None:
+                return "❌ خطا: نمی‌توان فایل را خواند"
             print(f"\n📋 اطلاعات فایل CSV:")
             print(f"  تعداد ردیف‌ها: {len(df)}")
 # ===== رابط Gradio =====
 def process_uploaded_file(file):
+    """پردازش فایل آپلود شده"""
     if file is None:
         return "❌ لطفاً ابتدا فایل CSV را آپلود کنید.", None
+    print(f"\n🚀 شروع تحلیل دقیق فایل: {file.name}")
+    benchmark = PreciseAnonymizationBenchmark()
     result = benchmark.process_csv(file.name)
     if isinstance(result, str):
     # گزارش نهایی
     report = f"""
 {'='*80}
+🎯 گزارش نهایی Benchmark دقیق فایل شما
 {'='*80}
+📈 آمار کلی (با الگوهای دقیق):
   • تعداد ردیف‌های پردازش شده: {total_rows}
+  • مجموع Entities دقیق در همه ردیف‌ها: {total_original}
   • مجموع کدهای ناشناس‌سازی: {total_anonymized}
   • True Positives (درست شناسایی شده): {total_tp}
   • False Positives (اشتباه شناسایی شده): {total_fp}
   • Accuracy: {avg_accuracy:.4f}
 📊 توضیحات:
+• الگوهای regex دقیق‌تر شده‌اند
+• entities اضافی و غلط حذف شده‌اند
+• فقط entities واقعی و معنادار شناسایی می‌شوند
+• جزئیات کامل در بالا نمایش داده شده
+✅ حالا تعداد entities منطقی‌تر و دقیق‌تر است!
 """
     # ذخیره نتایج
     try:
+        results_df.to_csv("precise_benchmark_results.csv", index=False, encoding='utf-8-sig')
+        print("✅ نتایج دقیق در فایل precise_benchmark_results.csv ذخیره شد")
     except Exception as e:
         print(f"⚠️  خطا در ذخیره فایل: {e}")
 def download_results():
     """دانلود نتایج"""
+    if os.path.exists("precise_benchmark_results.csv"):
+        return "precise_benchmark_results.csv"
     return None
 # ===== رابط اصلی =====
 def main():
+    with gr.Blocks(title="Ultra Precise Benchmark", theme=gr.themes.Soft()) as demo:
         gr.HTML("""
         <h1 style='text-align: center; color: #2E86AB; margin-bottom: 30px;'>
+        🎯 سیستم Benchmark فوق‌العاده دقیق ناشناس‌سازی
         </h1>
         """)
             with gr.Column():
                 gr.HTML("""
                 <div style='background: #e8f5e8; padding: 15px; border-radius: 10px; margin-bottom: 15px;'>
+                <h3>🚀 ویژگی‌های ورژن دقیق:</h3>
                 <ul>
+                <li><b>الگوهای فوق‌العاده دقیق:</b> حذف entities غلط و اضافی</li>
+                <li><b>تمیزکاری پیشرفته:</b> حذف کلمات اضافی مانند "برگزار شد"</li>
+                <li><b>اعتبارسنجی هوشمند:</b> بررسی معناداری هر entity</li>
+                <li><b>حذف تکراری هوشمند:</b> entities که زیرمجموعه دیگران هستند حذف می‌شوند</li>
+                <li><b>نمایش مقایسه‌ای:</b> entities vs کدهای ناشناس‌سازی</li>
                 </ul>
                 </div>
                 """)
                     file_count="single"
                 )
+                process_btn = gr.Button("🎯 تحلیل فوق‌العاده دقیق", variant="primary", size="lg")
         with gr.Row():
             with gr.Column():
+                gr.HTML("<h3>📊 گزارش دقیق + لیست Entities صحیح</h3>")
                 results_output = gr.Textbox(
+                    label="گزارش کامل با entities دقیق",
                     lines=30,
                     max_lines=35,
                     interactive=False
         with gr.Row():
             with gr.Column():
+                gr.HTML("<h3>📋 جدول نتایج دقیق</h3>")
                 results_table = gr.Dataframe(
+                    label="متریک‌های دقیق هر ردیف",
                     interactive=False,
                     wrap=True
                 )
         with gr.Row():
             with gr.Column():
+                download_btn = gr.Button("💾 دانلود نتایج دقیق", variant="secondary")
+                download_file = gr.File(label="فایل نتایج دقیق", visible=False)
         # Event handlers
         process_btn.click(