Spaces:

leilaghomashchi
/

Benchmark-data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 13, 2025

Commit

bb578da

verified ·

1 Parent(s): 747bcec

Update app.py

Browse files

Files changed (1) hide show

app.py +119 -102

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
-سیستم benchmark برای ناشناس‌سازی - فقط پردازش فایل آپلودی کاربر
 """
 import pandas as pd
@@ -20,7 +20,6 @@ logger = logging.getLogger(__name__)
 # ===== تابع کمکی برای تبدیل numpy/pandas types =====
 def convert_to_serializable(obj):
-    """تبدیل numpy/pandas types به Python native types برای JSON serialization"""
     if isinstance(obj, (np.integer, np.int64, np.int32)):
         return int(obj)
     elif isinstance(obj, (np.floating, np.float64, np.float32)):
@@ -34,53 +33,42 @@ def convert_to_serializable(obj):
     else:
         return obj
-# ===== کلاس پردازش entities =====
 class EntityExtractor:
     def __init__(self):
         self.patterns = {
             'COMPANY': [
-                r'شرکت\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'بانک\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'[\u0600-\u06FF\u0750-\u077F\s\u200C]*(?:پتروشیمی|بانک|شرکت|صنایع|تولید)[\u0600-\u06FF\u0750-\u077F\s\u200C]*',
-                r'[A-Z][a-zA-Z\s]+(?:Inc|Corp|Corporation|Company|Ltd|Limited|LLC)',
             ],
             'LOCATION': [
-                r'بندر\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'شهر\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'استان\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
                 r'\b(?:تهران|اصفهان|ماهشهر|عسلویه|بندرعباس|اهواز|شیراز|مشهد|تبریز|کرج|قم|رشت|کرمان|یزد|زاهدان|بوشهر|خرمشهر|آبادان|اراک|قزوین|خوزستان)\b',
-                r'\b(?:ایران|عراق|کویت|عربستان|امارات|قطر|عمان|بحرین|ترکیه|پاکستان|افغانستان)\b',
-                r'\b(?:London|Paris|Tokyo|New\s+York|Dubai|Singapore|Hong\s+Kong)\b'
             ],
             'PERSON': [
-                r'آقای\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'خانم\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'مهندس\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'دکتر\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'مدیرعامل\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+',
-                r'[\u0600-\u06FF\u0750-\u077F\s\u200C]+\s+مدیرعامل',
-                r'Mr\.\s+[a-zA-Z\s]+',
-                r'Ms\.\s+[a-zA-Z\s]+',
-                r'Dr\.\s+[a-zA-Z\s]+'
             ],
             'DATE': [
-                r'سال\s+مالی\s+منتهی\s+به\s+[\u06F0-\u06F90-9]{1,2}\s+[\u0600-\u06FF\u0750-\u077F]+\s+[\u06F0-\u06F90-9]{4}',
-                r'[\u06F0-\u06F90-9]{1,2}\s+(?:فروردین|اردیبهشت|خرداد|تیر|مرداد|شهریور|مهر|آبان|آذر|دی|بهمن|اسفند)\s+[\u06F0-\u06F90-9]{4}',
-                r'[\u06F0-\u06F90-9]{1,2}\s+[\u0600-\u06FF\u0750-\u077F]+\s+[\u06F0-\u06F90-9]{4}',
-                r'[\u06F0-\u06F90-9]{4}[/-][\u06F0-\u06F90-9]{1,2}[/-][\u06F0-\u06F90-9]{1,2}',
-                r'[\u06F0-\u06F90-9]{1,2}[/-][\u06F0-\u06F90-9]{1,2}[/-][\u06F0-\u06F90-9]{4}',
-                r'(?:[0-9]{1,2})\s*(?:January|February|March|April|May|June|July|August|September|October|November|December)\s*(?:[0-9]{4})',
-                r'(?:13[0-9]{2}|14[0-9]{2}|20[0-9]{2}|19[0-9]{2})(?=\s|$|،|\.)'
             ],
             'PHONE': [
-                r'(?:شماره[\s]*تماس[\s:]*)?(?:0)?9[\u06F0-\u06F90-9]{9}',
-                r'(?:تلفن[\s:]*)?(?:0)?[\u06F0-\u06F90-9]{2,3}[-\s]?[\u06F0-\u06F90-9]{7,8}',
-                r'[\u06F0-\u06F90-9]{11}(?!\d)',
-                r'\+[0-9]{1,3}[-\s][0-9]{3}[-\s][0-9]{3}[-\s][0-9]{4}',
             ],
             'EMAIL': [
@@ -88,23 +76,34 @@ class EntityExtractor:
             ],
             'AMOUNT': [
-                r'\d+(?:,\d{3})*\s*(?:میلیون|میلیارد|هزار)\s*تومان',
-                r'مبلغ\s+\d+(?:,\d{3})*\s*(?:میلیون|میلیارد|هزار)?\s*تومان',
-                r'\d+\s*تومان',
-                r'\$\d+(?:,\d{3})*(?:\.\d+)?(?:\s*(?:million|billion|thousand|M|B|K))?',
-                r'\d+(?:,\d{3})*\s*ریال'
             ],
             'ACCOUNT': [
-                r'(?:شماره[\s]*حساب[\s:]*)?[\u06F0-\u06F90-9]{3}[-\s]?[\u06F0-\u06F90-9]{3}[-\s]?[\u06F0-\u06F90-9]{6,12}',
-                r'(?:حساب[\s]*شماره[\s:]*)?[\u06F0-\u06F90-9]{8,20}',
             ]
         }
     def clean_entity(self, text):
         """تمیز کردن entity استخراج شده"""
         # حذف کلمات اضافی در انتها
-        text = re.sub(r'\s*(در|که|با|به|از|را|و|یا)\s*$', '', text).strip()
         # حذف فاصله‌های اضافی
         text = re.sub(r'\s+', ' ', text).strip()
         return text
@@ -114,9 +113,15 @@ class EntityExtractor:
         if len(text) < 2:
             return False
-        # کلمات ممنوع
-        forbidden = ['شد', 'کرد', 'است', 'بود', 'در', 'که', 'با', 'از', 'به', 'را', 'و', 'یا']
-        if text.lower() in forbidden:
             return False
         return True
@@ -183,49 +188,48 @@ class AnonymizationBenchmark:
     def __init__(self):
         self.extractor = EntityExtractor()
-    def analyze_single_row(self, original_text, anonymized_text):
-        """تحلیل یک ردیف از CSV"""
-        print(f"\n{'='*60}")
-        print("تحلیل دقیق ردیف:")
-        print(f"{'='*60}")
-        print(f"\n📝 متن اصلی:")
-        print(f"'{original_text}'")
-        print(f"طول: {len(original_text)} کاراکتر")
-        print(f"\n🔒 متن ناشناس‌سازی شده:")
-        print(f"'{anonymized_text}'")
-        print(f"طول: {len(anonymized_text)} کاراکتر")
         # استخراج entities از متن اصلی
-        print(f"\n🔍 استخراج Entities از متن اصلی:")
         original_entities = self.extractor.extract_entities(original_text)
         total_original_entities = 0
         for category, entities in original_entities.items():
-            print(f"  {category}: {len(entities)} عدد")
             for i, entity in enumerate(entities, 1):
                 print(f"    {i}. '{entity}'")
             total_original_entities += len(entities)
         if not original_entities:
-            print("  هیچ entity ای یافت نشد!")
         else:
             print(f"\n✅ مجموع entities یافت شده: {total_original_entities}")
         # استخراج کدهای ناشناس‌سازی
-        print(f"\n🔍 استخراج کدهای ناشناس‌سازی:")
         anonymized_codes = self.extractor.extract_anonymized_codes(anonymized_text)
         total_anonymized_codes = 0
         for category, codes in anonymized_codes.items():
-            print(f"  {category}: {len(codes)} عدد")
             for i, code in enumerate(codes, 1):
                 print(f"    {i}. '{code}'")
             total_anonymized_codes += len(codes)
         if not anonymized_codes:
-            print("  هیچ کد ناشناس‌سازی یافت نشد!")
         else:
             print(f"\n✅ مجموع کدهای ناشناس‌سازی: {total_anonymized_codes}")
@@ -236,6 +240,20 @@ class AnonymizationBenchmark:
         all_categories = set(original_entities.keys()) | set(anonymized_codes.keys())
         for category in all_categories:
             original_count = len(original_entities.get(category, []))
             anonymized_count = len(anonymized_codes.get(category, []))
@@ -248,14 +266,13 @@ class AnonymizationBenchmark:
             recall = tp / (tp + fn) if (tp + fn) > 0 else 0
             f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
-            print(f"\n  {category}:")
-            print(f"    Original: {original_count}, Anonymized: {anonymized_count}")
             print(f"    TP: {tp}, FP: {fp}, FN: {fn}")
             print(f"    Precision: {precision:.4f}, Recall: {recall:.4f}, F1: {f1_score:.4f}")
             category_metrics[category] = {
-                'original_count': original_count,
-                'anonymized_count': anonymized_count,
                 'tp': tp, 'fp': fp, 'fn': fn,
                 'precision': precision, 'recall': recall, 'f1_score': f1_score
             }
@@ -270,7 +287,7 @@ class AnonymizationBenchmark:
         overall_f1 = 2 * (overall_precision * overall_recall) / (overall_precision + overall_recall) if (overall_precision + overall_recall) > 0 else 0
         accuracy = total_tp / total_original_entities if total_original_entities > 0 else 0
-        print(f"\n🎯 متریک‌های کلی:")
         print(f"  Precision: {overall_precision:.4f}")
         print(f"  Recall: {overall_recall:.4f}")
         print(f"  F1-Score: {overall_f1:.4f}")
@@ -283,13 +300,9 @@ class AnonymizationBenchmark:
             'overall_metrics': {
                 'total_original_entities': total_original_entities,
                 'total_anonymized_entities': total_anonymized_codes,
-                'total_tp': total_tp,
-                'total_fp': total_fp,
-                'total_fn': total_fn,
-                'precision': overall_precision,
-                'recall': overall_recall,
-                'f1_score': overall_f1,
-                'accuracy': accuracy
             }
         }
@@ -309,13 +322,13 @@ class AnonymizationBenchmark:
             if df is None:
                 return "❌ خطا: نمی‌توان فایل را با هیچ encoding خواند"
-            print(f"📋 اطلاعات فایل CSV:")
             print(f"  تعداد ردیف‌ها: {len(df)}")
             print(f"  ستون‌ها: {df.columns.tolist()}")
             # بررسی ستون‌ها
             if 'original_text' not in df.columns or 'anonymized_text' not in df.columns:
-                return f"❌ خطا: فایل باید شامل ستون‌های 'original_text' و 'anonymized_text' باشد. ستون‌های موجود: {df.columns.tolist()}"
             if len(df) == 0:
                 return "❌ خطا: فایل خالی است"
@@ -335,7 +348,7 @@ class AnonymizationBenchmark:
                     continue
                 # تحلیل دقیق
-                analysis = self.analyze_single_row(original_text, anonymized_text)
                 all_analysis.append(analysis)
                 # ذخیره نتیجه
@@ -373,13 +386,14 @@ def process_uploaded_file(file):
     result = benchmark.process_csv(file.name)
     if isinstance(result, str):
-        # خطا رخ داده
         return result, None
     results_df, all_analysis = result
     # تولید گزارش نهایی
     total_rows = len(results_df)
     avg_precision = results_df['precision'].mean() if 'precision' in results_df.columns else 0
     avg_recall = results_df['recall'].mean() if 'recall' in results_df.columns else 0
     avg_f1 = results_df['f1_score'].mean() if 'f1_score' in results_df.columns else 0
@@ -393,17 +407,17 @@ def process_uploaded_file(file):
     # گزارش نهایی
     report = f"""
-{'='*60}
-📊 گزارش نهایی Benchmark
-{'='*60}
 📈 آمار کلی:
   • تعداد ردیف‌های پردازش شده: {total_rows}
-  • مجموع Entities اصلی: {total_original}
   • مجموع کدهای ناشناس‌سازی: {total_anonymized}
-  • True Positives: {total_tp}
-  • False Positives: {total_fp}
-  • False Negatives: {total_fn}
 🎯 متریک‌های میانگین:
   • Precision: {avg_precision:.4f}
@@ -411,7 +425,10 @@ def process_uploaded_file(file):
   • F1-Score: {avg_f1:.4f}
   • Accuracy: {avg_accuracy:.4f}
-📋 جزئیات هر ردیف در جدول زیر نمایش داده شده است.
 """
     # ذخیره نتایج
@@ -423,7 +440,7 @@ def process_uploaded_file(file):
     # ستون‌های مهم برای نمایش
     display_columns = ['row_id', 'total_original_entities', 'total_anonymized_entities',
-                      'tp', 'fp', 'fn', 'precision', 'recall', 'f1_score', 'accuracy']
     display_df = results_df[[col for col in display_columns if col in results_df.columns]]
@@ -437,25 +454,25 @@ def download_results():
 # ===== رابط اصلی =====
 def main():
-    with gr.Blocks(title="Benchmark System", theme=gr.themes.Soft()) as demo:
         gr.HTML("""
         <h1 style='text-align: center; color: #2E86AB; margin-bottom: 30px;'>
-        🎯 سیستم Benchmark ناشناس‌سازی - پردازش فایل آپلودی
         </h1>
         """)
         with gr.Row():
             with gr.Column():
                 gr.HTML("""
-                <div style='background: #e8f4fd; padding: 15px; border-radius: 10px; margin-bottom: 15px;'>
-                <h3>📋 نحوه کارکرد:</h3>
-                <ol>
-                <li><b>ستون اول (original_text)</b>: سیستم تمام entities را پیدا می‌کند</li>
-                <li><b>ستون دوم (anonymized_text)</b>: کدهای ناشناس‌سازی را پیدا می‌کند</li>
-                <li><b>مقایسه</b>: متریک‌های Precision, Recall, F1-Score, Accuracy محاسبه می‌شود</li>
-                <li><b>نتیجه</b>: تحلیل دقیق هر ردیف نمایش داده می‌شود</li>
-                </ol>
                 </div>
                 """)
@@ -465,16 +482,16 @@ def main():
                     file_count="single"
                 )
-                process_btn = gr.Button("🚀 شروع پردازش فایل آپلودی", variant="primary", size="lg")
         with gr.Row():
             with gr.Column():
-                gr.HTML("<h3>📊 نتایج تحلیل</h3>")
                 results_output = gr.Textbox(
-                    label="گزارش کامل",
-                    lines=25,
-                    max_lines=30,
                     interactive=False
                 )
@@ -483,14 +500,14 @@ def main():
                 gr.HTML("<h3>📋 جدول نتایج</h3>")
                 results_table = gr.Dataframe(
-                    label="متریک‌های هر ردیف",
                     interactive=False,
                     wrap=True
                 )
         with gr.Row():
             with gr.Column():
-                download_btn = gr.Button("💾 دانلود نتایج", variant="secondary")
                 download_file = gr.File(label="فایل نتایج", visible=False)
         # Event handlers

 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
+سیستم benchmark ناشناس‌سازی - ورژن اصلاح شده با الگوهای دقیق
 """
 import pandas as pd
 # ===== تابع کمکی برای تبدیل numpy/pandas types =====
 def convert_to_serializable(obj):
     if isinstance(obj, (np.integer, np.int64, np.int32)):
         return int(obj)
     elif isinstance(obj, (np.floating, np.float64, np.float32)):
     else:
         return obj
+# ===== کلاس پردازش entities با الگوهای دقیق =====
 class EntityExtractor:
     def __init__(self):
+        # الگوهای دقیق‌تر با lookahead و lookbehind
         self.patterns = {
             'COMPANY': [
+                r'شرکت\s+پتروشیمی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]+?(?=\s|$|،|\.)',
+                r'شرکت\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,30}?(?=\s+(?:با|در|که|مربوط)|$|،|\.)',
+                r'بانک\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,20}?(?=\s+(?:با|در|که|ارائه|صادر)|$|،|\.)',
+                r'شرکت\s+تولیدی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,20}',
+                r'شرکت\s+پردازش\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,30}',
             ],
             'LOCATION': [
+                r'بندر\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,15}',
                 r'\b(?:تهران|اصفهان|ماهشهر|عسلویه|بندرعباس|اهواز|شیراز|مشهد|تبریز|کرج|قم|رشت|کرمان|یزد|زاهدان|بوشهر|خرمشهر|آبادان|اراک|قزوین|خوزستان)\b',
+                r'جمهوری\s+اسلامی\s+ایران',
             ],
             'PERSON': [
+                r'آقای\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25}?(?=\s+با\s+کد|\s+مدیر|$|،|\.)',
+                r'خانم\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25}?(?=\s+با\s+کد|\s+همسر|$|،|\.)',
+                r'(?:[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25})\s+مدیرعامل',
+                r'مدیر\s+مالی\s+[\u0600-\u06FF\u0750-\u077F\s\u200C]{2,25}',
             ],
             'DATE': [
+                r'\d{4}\/\d{1,2}\/\d{1,2}',
+                r'سال\s+مالی\s+منتهی\s+به\s+[۰-۹\u06F0-\u06F9]{1,2}\s+[\u0600-\u06FF\u0750-\u077F]+\s+[۰-۹\u06F0-\u06F9]{4}',
+                r'[۰-۹\u06F0-\u06F9]{1,2}\s+[\u0600-\u06FF\u0750-\u077F]+\s+[��-۹\u06F0-\u06F9]{4}',
             ],
             'PHONE': [
+                r'09\d{9}(?!\d)',  # شماره موبایل
+                r'021-\d{8}',      # تهران
+                r'0\d{2,3}-\d{7,8}', # سایر شهرها
             ],
             'EMAIL': [
             ],
             'AMOUNT': [
+                r'\d{6,}\s*تومان',  # مبالغ 6 رقمی یا بیشتر
+                r'مبلغ\s+\d{6,}(?:\s*تومان)?',
+                r'\d+\s*درصد',
             ],
             'ACCOUNT': [
+                r'\d{3}-\d{3}-\d{3}-\d',  # شماره حساب
+                r'\d{4}-\d{4}-\d{4}-\d{4}',  # شماره کارت
+            ],
+            'ID_NUMBER': [
+                r'کد\s+ملی\s+\d{10}',
+                r'شناسه\s+ملی\s+\d{11}',
+                r'(?<!\d)\d{10}(?!\d)',  # کد ملی 10 رقمی مستقل
+                r'(?<!\d)\d{11}(?!\d)',  # شناسه 11 رقمی مستقل
+            ],
+            'DOCUMENT_NUMBER': [
+                r'فاکتور\s+شماره\s+[A-Z0-9-]+',
+                r'چک\s+شماره\s+\d+',
+                r'گزارش\s+شماره\s+[A-Z0-9-]+',
             ]
         }
     def clean_entity(self, text):
         """تمیز کردن entity استخراج شده"""
         # حذف کلمات اضافی در انتها
+        text = re.sub(r'\s*(در|که|با|به|از|را|و|یا|است|بوده|نموده|صادر|ارائه|معرفی)\s*$', '', text, flags=re.IGNORECASE)
         # حذف فاصله‌های اضافی
         text = re.sub(r'\s+', ' ', text).strip()
         return text
         if len(text) < 2:
             return False
+        # کلمات ممنوع که نباید به تنهایی entity باشند
+        forbidden_alone = ['شد', 'کرد', 'است', 'بود', 'در', 'که', 'با', 'از', 'به', 'را', 'و', 'یا',
+                          'شرکت', 'بانک', 'آقای', 'خانم', 'تومان', 'مبلغ']
+        if text.lower().strip() in forbidden_alone:
+            return False
+        # بررسی طول منطقی
+        if len(text) > 50:  # خیلی طولانی است
             return False
         return True
     def __init__(self):
         self.extractor = EntityExtractor()
+    def analyze_single_row(self, original_text, anonymized_text, row_number):
+        """تحلیل یک ردیف از CSV با نمایش کامل entities"""
+        print(f"\n{'='*80}")
+        print(f"تحلیل ردیف {row_number}")
+        print(f"{'='*80}")
+        print(f"\n📝 متن اصلی ({len(original_text)} کاراکتر):")
+        # نمایش 200 کاراکتر اول
+        print(f"'{original_text[:200]}{'...' if len(original_text) > 200 else ''}'")
+        print(f"\n🔒 متن ناشناس‌سازی شده ({len(anonymized_text)} کاراکتر):")
+        print(f"'{anonymized_text[:200]}{'...' if len(anonymized_text) > 200 else ''}'")
         # استخراج entities از متن اصلی
+        print(f"\n🔍 Entities استخراج شده از متن اصلی:")
         original_entities = self.extractor.extract_entities(original_text)
         total_original_entities = 0
         for category, entities in original_entities.items():
+            print(f"\n  📊 {category} ({len(entities)} عدد):")
             for i, entity in enumerate(entities, 1):
                 print(f"    {i}. '{entity}'")
             total_original_entities += len(entities)
         if not original_entities:
+            print("  ❌ هیچ entity ای یافت نشد!")
         else:
             print(f"\n✅ مجموع entities یافت شده: {total_original_entities}")
         # استخراج کدهای ناشناس‌سازی
+        print(f"\n🔍 کدهای ناشناس‌سازی استخراج شده:")
         anonymized_codes = self.extractor.extract_anonymized_codes(anonymized_text)
         total_anonymized_codes = 0
         for category, codes in anonymized_codes.items():
+            print(f"\n  🔒 {category} ({len(codes)} عدد):")
             for i, code in enumerate(codes, 1):
                 print(f"    {i}. '{code}'")
             total_anonymized_codes += len(codes)
         if not anonymized_codes:
+            print("  ❌ هیچ کد ناشناس‌سازی یافت نشد!")
         else:
             print(f"\n✅ مجموع کدهای ناشناس‌سازی: {total_anonymized_codes}")
         all_categories = set(original_entities.keys()) | set(anonymized_codes.keys())
+        if not all_categories:
+            print("  ⚠️ هیچ category ای برای محاسبه یافت نشد!")
+            return {
+                'original_entities': {},
+                'anonymized_codes': {},
+                'category_metrics': {},
+                'overall_metrics': {
+                    'total_original_entities': 0,
+                    'total_anonymized_entities': 0,
+                    'total_tp': 0, 'total_fp': 0, 'total_fn': 0,
+                    'precision': 0, 'recall': 0, 'f1_score': 0, 'accuracy': 0
+                }
+            }
         for category in all_categories:
             original_count = len(original_entities.get(category, []))
             anonymized_count = len(anonymized_codes.get(category, []))
             recall = tp / (tp + fn) if (tp + fn) > 0 else 0
             f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
+            print(f"\n  📈 {category}:")
+            print(f"    اصلی: {original_count}, ناشناس‌سازی: {anonymized_count}")
             print(f"    TP: {tp}, FP: {fp}, FN: {fn}")
             print(f"    Precision: {precision:.4f}, Recall: {recall:.4f}, F1: {f1_score:.4f}")
             category_metrics[category] = {
+                'original_count': original_count, 'anonymized_count': anonymized_count,
                 'tp': tp, 'fp': fp, 'fn': fn,
                 'precision': precision, 'recall': recall, 'f1_score': f1_score
             }
         overall_f1 = 2 * (overall_precision * overall_recall) / (overall_precision + overall_recall) if (overall_precision + overall_recall) > 0 else 0
         accuracy = total_tp / total_original_entities if total_original_entities > 0 else 0
+        print(f"\n🎯 متریک‌های کلی ردیف {row_number}:")
         print(f"  Precision: {overall_precision:.4f}")
         print(f"  Recall: {overall_recall:.4f}")
         print(f"  F1-Score: {overall_f1:.4f}")
             'overall_metrics': {
                 'total_original_entities': total_original_entities,
                 'total_anonymized_entities': total_anonymized_codes,
+                'total_tp': total_tp, 'total_fp': total_fp, 'total_fn': total_fn,
+                'precision': overall_precision, 'recall': overall_recall,
+                'f1_score': overall_f1, 'accuracy': accuracy
             }
         }
             if df is None:
                 return "❌ خطا: نمی‌توان فایل را با هیچ encoding خواند"
+            print(f"\n📋 اطلاعات فایل CSV:")
             print(f"  تعداد ردیف‌ها: {len(df)}")
             print(f"  ستون‌ها: {df.columns.tolist()}")
             # بررسی ستون‌ها
             if 'original_text' not in df.columns or 'anonymized_text' not in df.columns:
+                return f"❌ خطا: فایل باید شامل ستون‌های 'original_text' و 'anonymized_text' باشد"
             if len(df) == 0:
                 return "❌ خطا: فایل خالی است"
                     continue
                 # تحلیل دقیق
+                analysis = self.analyze_single_row(original_text, anonymized_text, index + 1)
                 all_analysis.append(analysis)
                 # ذخیره نتیجه
     result = benchmark.process_csv(file.name)
     if isinstance(result, str):
         return result, None
     results_df, all_analysis = result
     # تولید گزارش نهایی
     total_rows = len(results_df)
+    # محاسبه آمار کلی
     avg_precision = results_df['precision'].mean() if 'precision' in results_df.columns else 0
     avg_recall = results_df['recall'].mean() if 'recall' in results_df.columns else 0
     avg_f1 = results_df['f1_score'].mean() if 'f1_score' in results_df.columns else 0
     # گزارش نهایی
     report = f"""
+{'='*80}
+🎯 گزارش نهایی Benchmark فایل شما
+{'='*80}
 📈 آمار کلی:
   • تعداد ردیف‌های پردازش شده: {total_rows}
+  • مجموع Entities اصلی در همه ردیف‌ها: {total_original}
   • مجموع کدهای ناشناس‌سازی: {total_anonymized}
+  • True Positives (درست شناسایی شده): {total_tp}
+  • False Positives (اشتباه شناسایی شده): {total_fp}
+  • False Negatives (از دست رفته): {total_fn}
 🎯 متریک‌های میانگین:
   • Precision: {avg_precision:.4f}
   • F1-Score: {avg_f1:.4f}
   • Accuracy: {avg_accuracy:.4f}
+📊 توضیحات:
+• این آمار بر اساس entities واقعی موجود در فایل شما محاسبه شده
+• جزئیات کامل هر ردیف در بالا نمایش داده شده
+• فایل نتایج کامل در جدول زیر قابل مشاهده است
 """
     # ذخیره نتایج
     # ستون‌های مهم برای نمایش
     display_columns = ['row_id', 'total_original_entities', 'total_anonymized_entities',
+                      'total_tp', 'total_fp', 'total_fn', 'precision', 'recall', 'f1_score', 'accuracy']
     display_df = results_df[[col for col in display_columns if col in results_df.columns]]
 # ===== رابط اصلی =====
 def main():
+    with gr.Blocks(title="Precise Benchmark System", theme=gr.themes.Soft()) as demo:
         gr.HTML("""
         <h1 style='text-align: center; color: #2E86AB; margin-bottom: 30px;'>
+        🎯 سیستم Benchmark دقیق ناشناس‌سازی
         </h1>
         """)
         with gr.Row():
             with gr.Column():
                 gr.HTML("""
+                <div style='background: #e8f5e8; padding: 15px; border-radius: 10px; margin-bottom: 15px;'>
+                <h3>✅ ویژگی‌های جدید:</h3>
+                <ul>
+                <li><b>الگوهای دقیق:</b> entities را دقیق‌تر شناسایی می‌کند</li>
+                <li><b>نمایش کامل:</b> تمام entities پیدا شده لیست می‌شود</li>
+                <li><b>تحلیل مفصل:</b> هر ردیف جداگانه تحلیل می‌شود</li>
+                <li><b>محاسبه دقیق:</b> متریک‌های صحیح بر اساس entities واقعی</li>
+                </ul>
                 </div>
                 """)
                     file_count="single"
                 )
+                process_btn = gr.Button("🚀 تحلیل فایل با نمایش کامل Entities", variant="primary", size="lg")
         with gr.Row():
             with gr.Column():
+                gr.HTML("<h3>📊 گزارش کامل + نمایش Entities</h3>")
                 results_output = gr.Textbox(
+                    label="گزارش شامل لیست کامل entities پیدا شده",
+                    lines=30,
+                    max_lines=35,
                     interactive=False
                 )
                 gr.HTML("<h3>📋 جدول نتایج</h3>")
                 results_table = gr.Dataframe(
+                    label="خلاصه متریک‌های هر ردیف",
                     interactive=False,
                     wrap=True
                 )
         with gr.Row():
             with gr.Column():
+                download_btn = gr.Button("💾 دانلود نتایج کامل", variant="secondary")
                 download_file = gr.File(label="فایل نتایج", visible=False)
         # Event handlers