Spaces:

leilaghomashchi
/

Benchmark-data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 22, 2025

Commit

83f0287

verified ·

1 Parent(s): 2efd674

Delete error analysis.py

Browse files

Files changed (1) hide show

error analysis.py +0 -899

error analysis.py DELETED Viewed

@@ -1,899 +0,0 @@
-#!/usr/bin/env python3
-# -*- coding: utf-8 -*-
-"""
-سیستم benchmark ناشناس‌سازی - Error Analysis برای بهبود سیستم اصلی
-"""
-import pandas as pd
-import re
-import json
-import logging
-import os
-import gradio as gr
-from typing import Dict, List, Tuple, Set
-from collections import defaultdict
-import numpy as np
-# تنظیم logging
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-# ===== تابع کمکی برای تبدیل numpy/pandas types =====
-def convert_to_serializable(obj):
-    if isinstance(obj, (np.integer, np.int64, np.int32)):
-        return int(obj)
-    elif isinstance(obj, (np.floating, np.float64, np.float32)):
-        return float(obj)
-    elif isinstance(obj, np.ndarray):
-        return obj.tolist()
-    elif isinstance(obj, dict):
-        return {key: convert_to_serializable(value) for key, value in obj.items()}
-    elif isinstance(obj, list):
-        return [convert_to_serializable(item) for item in obj]
-    else:
-        return obj
-# ===== کلاس پردازش entities با الگوهای آپدیت شده =====
-class UpdatedEntityExtractor:
-    def __init__(self):
-        # الگوهای آپدیت شده براساس سیستم ناشناس‌سازی بهبود یافته
-        self.patterns = {
-            # آدرس‌های کامل - اولویت بالا با پوشش میدان و برج
-            'FULL_ADDRESS': [
-                # الگوی آدرس کامل: شهر + میدان + برج + طبقه + واحد
-                r'(?:تهران|اصفهان|مشهد|شیراز|کرج|اهواز|قم|رشت|کرمان|یزد|بوشهر|ارومیه|همدان|بندر عباس|ساری|اردبیل|خرم‌آباد|ایلام|بیرجند|گرگان|زنجان|سنندج|شهرکرد|سبزوار|قزوین|زاهدان|خوی|مراغه|کاشان|نجف‌آباد|شاهین‌شهر|ملایر|آبادان|دزفول|بابل|آمل|شاهرود|گنبد کاووس|خرمشهر|جهرم|فسا|مرودشت|لار|داراب|فیروزآباد|کازرون|سپیدان|نی‌ریز|استهبان|فارسان|میانه|ورامین|قرچک|ری|پاکدشت|دماوند|فیروزکوه|شهریار|اسلام‌شهر|ملارد|قدس|بهارستان|چهاردانگه)،\s*(?:میدان|خیابان|کوچه|شهرک|بلوار|کوی|محله)\s+[آ-ی‌ّٰ-ٹ\s]+(?:،\s*(?:برج|ساختمان|مجتمع)\s+[آ-ی‌ّٰ-ٹ\s]+)?(?:،\s*(?:طبقه|واحد)\s+[آ-ی‌ّٰ-ٹ\d\s]+)?(?:،\s*واحد\s+[آ-ی‌ّٰ-ٹ\d\s]+)?',
-                # الگوی آدرس کامل: شهر + خیابان + کوچه + پلاک + طبقه
-                r'(?:تهران|اصفهان|مشهد|شیراز|کرج|اهواز|قم|رشت|کرمان|یزد|بوشهر|ارومیه|همدان|بندر عباس|ساری|اردبیل|خرم‌آباد|ایلام|بیرجند|گرگان|زنجان|سنندج|شهرکرد|سبزوار|قزوین|زاهدان|خوی|مراغه|کاشان|نجف‌آباد|شاهین‌شهر|ملایر|آبادان|دزفول|بابل|آمل|شاهرود|گنبد کاووس|خرمشهر|جهرم|فسا|مرودشت|لار|داراب|فیروزآباد|کازرون|سپیدان|نی‌ریز|استهبان|فارسان|میانه|ورامین|قرچک|ری|پاکدشت|دماوند|فیروزکوه|شهریار|اسلام‌شهر|ملارد|قدس|بهارستان|چهاردانگه)،\s*(?:خیابان|کوچه|شهرک|بلوار|میدان|کوی|محله)\s+[آ-ی‌ّٰ-ٹ\s]+(?:،\s*(?:خیابان|کوچه|بلوار|کوی)\s+[آ-ی‌ّٰ-ٹ\s]+)?(?:،\s*پلاک\s+\d+)?(?:،\s*(?:طبقه|واحد)\s+[آ-ی‌ّٰ-ٹ\d\s]+)?',
-                # الگوی آدرس با شهرک
-                r'(?:تهران|اصفهان|مشهد|شیراز|کرج|اهواز|قم|رشت|کرمان|یزد|بوشهر|ارومیه|همدان|بندر عباس|ساری|اردبیل|خرم‌آباد|ایلام|بیرجند|گرگان|زنجان|سنندج|شهرکرد|سبزوار|قزوین|زاهدان|خوی|مراغه|کاشان|نجف‌آباد|شاهین‌شهر|ملایر|آبادان|دزفول|بابل|آمل|شاهرود|گنبد کاووس|خرمشهر|جهرم|فسا|مرودشت|لار|داراب|فیروزآباد|کازرون|سپیدان|نی‌ریز|استهبان|فارسان|میانه|ورامین|قرچک|ری|پاکدشت|دماوند|فیروزکوه|شهریار|اسلام‌شهر|ملارد|قدس|بهارستان|چهاردانگه)،\s*شهرک\s+[آ-ی‌ّٰ-ٹ\s]+،\s*(?:خیابان|کوچه|بلوار)\s+[آ-ی‌ّٰ-ٹ\s]+(?:،\s*پلاک\s+\d+)?',
-                # الگوی ساده‌تر برای آدرس‌های کوتاه‌تر
-                r'خیابان\s+[آ-ی‌ّٰ-ٹ\s]+،\s*کوچه\s+[آ-ی‌ّٰ-ٹ\s]+،\s*پلاک\s+\d+(?:،\s*(?:طبقه|واحد)\s+[آ-ی‌ّٰ-ٹ\d\s]+)?',
-            ],
-            # اسامی اشخاص - الگوهای دقیق‌تر شامل خانم
-            'PERSON': [
-                r'آقای\s+[آ-ی‌ّٰ-ٹ]+\s+[آ-ی‌ّٰ-ٹ]+(?=\s+با\s+کد|\s+مدیر|$|،|\.)',
-                r'خانم\s+[آ-ی‌ّٰ-ٹ]+\s+[آ-ی‌ّٰ-ٹ]+(?=\s+با\s+کد|\s+با\s+موبایل|$|،|\.)',
-                r'مهندس\s+[آ-ی‌ّٰ-ٹ]+\s+[آ-ی‌ّٰ-ٹ]+(?=\s+با\s+کد|$|،|\.)',
-                r'دکتر\s+[آ-ی‌ّٰ-ٹ]+\s+[آ-ی‌ّٰ-ٹ]+(?=\s+با\s+کد|$|،|\.)',
-                r'مدیر\s+مالی\s+خانم\s+[آ-ی‌ّٰ-ٹ]+\s+[آ-ی‌ّٰ-ٹ]+',
-                r'مدیرعامل\s+[آ-ی‌ّٰ-ٹ]+\s+[آ-ی‌ّٰ-ٹ]+',
-                r'Mr\.\s+[A-Z][a-z]+\s+[A-Z][a-z]+(?=\s|,|\.|$)',
-                r'Ms\.\s+[A-Z][a-z]+\s+[A-Z][a-z]+(?=\s|,|\.|$)',
-                r'Dr\.\s+[A-Z][a-z]+\s+[A-Z][a-z]+(?=\s|,|\.|$)',
-            ],
-            # کدهای ملی و شناسه‌ها - جداسازی از شماره تلفن
-            'ID_NUMBER': [
-                r'کد\s+ملی\s+\d{10}',
-                r'شناسه\s+ملی\s+\d{11}',
-                r'(?<!09)(?<!021-)(?<![0-9])\d{10}(?![0-9])',  # کد ملی 10 رقمی مستقل
-                r'(?<!09)(?<!021-)(?<![0-9])\d{11}(?![0-9])',  # شناسه 11 رقمی مستقل
-            ],
-            # مبالغ مالی - جداسازی از شماره تلفن
-            'AMOUNT': [
-                r'\d{6,}\s*تومان',  # مبالغ 6 رقمی یا بیشتر با کلمه تومان
-                r'مبلغ\s+\d{6,}(?:\s*تومان)?',
-                r'موجودی\s+حساب\s+[^\s]+\s+حدود\s+\d{6,}\s*تومان',
-                r'ارزش\s+روز\s+آن\s+\d{6,}\s*تومان',
-                r'میانگین\s+موجودی\s+حساب\s+وی\s+حدود\s+\d{6,}\s*تومان',
-                r'\d+\s*درصد\s+مبلغ\s+معادل\s+\d{6,}\s*تومان',
-                r'\$\d+(?:,\d{3})*(?:\.\d+)?',
-            ],
-            # شماره حساب و کارت بانکی - جداسازی دقیق
-            'ACCOUNT': [
-                r'حساب\s+جاری\s+شماره\s+[\d-]+',
-                r'شماره\s+[\d-]{8,}(?=\s+در|\s+بانک)',  # شماره حساب
-            ],
-            'CARD_NUMBER': [
-                r'شماره\s+کارت\s+مربوطه\s+\d{4}-\d{4}-\d{4}-\d{4}',
-                r'\d{4}-\d{4}-\d{4}-\d{4}(?=\s+می‌باشد|\s+نیز)',
-            ],
-            # شماره تلفن - فقط شماره، نه کل عبارت
-            'PHONE': [
-                r'09\d{9}(?=\s+را)',  # فقط شماره موبایل قبل از "را"
-                r'(?<![0-9])09\d{9}(?![0-9])(?!\s+را\s+اعلام)',  # شماره موبایل مستقل
-                r'موبایل\s+09\d{9}',  # با کلمه موبایل
-                r'021-\d{8}',  # تلفن تهران
-                r'0\d{2,3}-?\d{7,8}',  # تلفن‌های شهری
-            ],
-            # تاریخ
-            'DATE': [
-                r'\d{4}/\d{1,2}/\d{1,2}',
-                r'[۰-۹]{1,2}\s+(?:فروردین|اردیبهشت|خرداد|تیر|مرداد|شهریور|مهر|آبان|آذر|دی|بهمن|اسفند)\s+[۰-۹]{4}',
-            ],
-            # شرکت‌ها - الگوهای گسترده‌تر اصلاح شده
-            'COMPANY': [
-                r'شرکت\s+پردازش\s+داده‌های\s+[آ-ی‌ّٰ-ٹ\s]+',
-                r'شرکت\s+تولیدی\s+[آ-ی‌ّٰ-ٹ\s]+(?=\s|$|،|\.)',
-                r'شرکت\s+[آ-ی‌ّٰ-ٹ\s]+(?=\s|$|،|\.)',
-                r'(?<!همین\s)(?<!این\s)(?<!آن\s)بانک\s+[آ-ی‌ّٰ-ٹ\s]+(?=\s|$|،|\.)',  # بانک فقط اگر قبلش همین/این/آن نباشد
-                r'دفتر\s+حسابداری\s+شرکت',
-                r'[A-Z][a-zA-Z\s]+(?:Inc|Corp|Corporation|Company|Ltd|Limited|LLC)',
-            ],
-            # شعب و واحدهای تجاری - دقیق‌تر شده
-            'BRANCH': [
-                r'شعبه\s+[آ-ی‌ّٰ-ٹ\s]+\s+بانک\s+[آ-ی‌ّٰ-ٹ\s]+',
-                r'شعبه\s+مرکزی\s+بانک\s+[آ-ی‌ّٰ-ٹ\s]+',
-            ],
-            # مکان‌ها - شهرها (فقط نام شهرها تنها)
-            'LOCATION': [
-                r'\b(?:تهران|اصفهان|مشهد|شیراز|کرج|اهواز|قم|رشت|کرمان|یزد|بوشهر|ارومیه|همدان|بندر عباس|ساری|اردبیل|خرم‌آباد|ایلام|بیرجند|گرگان|زنجان|سنندج|شهرکرد|سبزوار|قزوین|زاهدان|خوی|مراغه|کاشان|نجف‌آباد|شاهین‌شهر|ملایر|آبادان|دزفول|بابل|آمل|شاهرود|گنبد کاووس|خرمشهر|جهرم|فسا|مرودشت|لار|داراب|فیروزآباد|کازرون|سپیدان|نی‌ریز|استهبان|فارسان|میانه|ورامین|قرچک|ری|پاکدشت|دماوند|فیروزکوه|شهریار|اسلام‌شهر|ملارد|قدس|��هارستان|چهاردانگه)\b(?!\s*،)(?!\s+میدان)(?!\s+خیابان)',  # فقط نام شهر تنها
-                r'استان\s+[آ-ی‌ّٰ-ٹ\s]+',
-                r'شهر\s+[آ-ی‌ّٰ-ٹ\s]+',
-            ],
-            # شماره فاکتور و اسناد - الگوهای جدید
-            'INVOICE_NUMBER': [
-                r'فاکتور\s+شماره\s+[A-Z]+-\d{4}-\d{4}',
-                r'[A-Z]+-\d{4}-\d{4}(?=\s+را\s+برای)',
-            ],
-            # دفاتر اسناد رسمی
-            'DOCUMENT_OFFICE': [
-                r'دفتر\s+اسناد\s+رسمی\s+شماره\s+\d+',
-                r'شماره\s+\d+\s+(?:تهران|اصفهان|مشهد|شیراز|کرج)',
-            ],
-            # ایمیل
-            'EMAIL': [
-                r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',
-            ],
-        }
-        # ترتیب اولویت براساس سیستم ناشناس‌سازی
-        self.priority_order = [
-            'FULL_ADDRESS',    # بالاترین اولویت - آدرس کامل قبل از قطعات
-            'INVOICE_NUMBER',  # شماره فاکتور
-            'DOCUMENT_OFFICE', # دفاتر اسناد رسمی
-            'EMAIL',
-            'CARD_NUMBER',     # کارت بانکی
-            'ACCOUNT',         # حساب بانکی
-            'PHONE',           # شماره تلفن - اولویت بالا
-            'ID_NUMBER',       # کد ملی
-            'AMOUNT',          # مبالغ مالی
-            'BRANCH',          # شعبه
-            'COMPANY',         # شرکت
-            'LOCATION',        # مکان
-            'DATE',            # تاریخ
-            'PERSON',          # نام اشخاص
-        ]
-    def clean_entity(self, text):
-        """تمیز کردن دقیق entity"""
-        # حذف کلمات اضافی در انتها
-        text = re.sub(r'\s*(در|که|با|به|از|را|و|یا|است|بوده|نموده|صادر|ارائه|معرفی|برگزار|واقع|مربوط|مطرح|شد|شده)\s*$', '', text, flags=re.IGNORECASE)
-        # حذف فاصله‌های اضافی
-        text = re.sub(r'\s+', ' ', text).strip()
-        return text
-    def is_generic_word(self, text):
-        """بررسی کلمات عمومی که نباید entity محسوب شوند"""
-        text_clean = text.strip().lower()
-        generic_words = {
-            'همین بانک', 'این بانک', 'آن بانک', 'بانک مذکور',
-            'همین شرکت', 'این شرکت', 'آن شرکت', 'شرکت مذکور',
-            'همین شعبه', 'این شعبه', 'آن شعبه', 'شعبه مذکور',
-            'همین شهر', 'این شهر', 'آن شهر',
-            'شرکت متقاضی', 'دفتر حسابداری شرکت',
-            'متقاضی', 'ایشان', 'وی', 'مشتری',
-            'بانک', 'شرکت', 'شعبه'  # کلمات تنها
-        }
-        # بررسی exact match
-        if text_clean in generic_words:
-            return True
-        # بررسی کلمات که با همین/این/آن شروع می‌شوند
-        if text_clean.startswith(('همین ', 'این ', 'آن ')):
-            return True
-        return len(text.strip()) < 3
-    def is_valid_entity(self, text, category):
-        """بررسی دقیق‌تر معتبر بودن entity"""
-        if len(text) < 3 or len(text) > 100:
-            return False
-        # بررسی کلمات عمومی
-        if self.is_generic_word(text):
-            return False
-        # کلمات ممنوع که نباید entity باشند
-        forbidden_words = [
-            'شد', 'کرد', 'است', 'بود', 'در', 'که', 'با', 'از', 'به', 'را', 'و', 'یا',
-            'شده', 'نموده', 'صادر', 'ارائه', 'معرفی', 'برگزار', 'مطرح', 'واقع'
-        ]
-        if text.lower().strip() in forbidden_words:
-            return False
-        # بررسی‌های خاص برای هر category
-        if category == 'COMPANY':
-            # نباید شامل فعل یا کلمات اضافی باشد
-            if any(word in text.lower() for word in ['برگزار', 'مطرح', 'شد', 'است', 'نموده']):
-                return False
-            # باید حداقل یک اسم خاص داشته باشد
-            if text.strip() in ['شرکت', 'بانک', 'شرکت در', 'بانک در']:
-                return False
-        elif category == 'LOCATION':
-            # نباید شامل فعل باشد
-            if any(word in text.lower() for word in ['برگزار', 'شد', 'است', 'واقع']):
-                return False
-            # باید نام مکان واقعی باشد
-            if text.strip() in ['شهر', 'بندر', 'استان']:
-                return False
-        elif category == 'DATE':
-            # نباید عبارات طولانی باشد
-            if 'سال مالی' in text:
-                return False
-        elif category == 'PERSON':
-            # نباید فقط عنوان باشد
-            if text.strip() in ['آقای', 'خانم', 'مهندس', 'دکتر']:
-                return False
-        return True
-    def extract_entities(self, text):
-        """استخراج entities با دقت بالا و اولویت‌بندی"""
-        if not text or text.strip() == '':
-            return {}
-        entities = {}
-        processed_positions = set()
-        # پردازش براساس اولویت
-        for category in self.priority_order:
-            if category not in self.patterns:
-                continue
-            pattern_list = self.patterns[category]
-            found_entities = []
-            for pattern_str in pattern_list:
-                try:
-                    pattern = re.compile(pattern_str, re.IGNORECASE | re.MULTILINE)
-                    matches = pattern.finditer(text)
-                    for match in matches:
-                        # بررسی تداخل با entities قبلی
-                        match_start, match_end = match.span()
-                        overlaps = False
-                        for proc_start, proc_end in processed_positions:
-                            if not (match_end <= proc_start or match_start >= proc_end):
-                                overlaps = True
-                                break
-                        if not overlaps:
-                            entity = self.clean_entity(match.group(0))
-                            if self.is_valid_entity(entity, category):
-                                found_entities.append(entity)
-                                processed_positions.add((match_start, match_end))
-                except re.error as e:
-                    logger.error(f"Regex error in pattern {pattern_str}: {e}")
-                    continue
-            # حذف تکراری‌ها و مرتب‌سازی
-            if found_entities:
-                # حذف entities که زیرمجموعه entities دیگر هستند
-                unique_entities = []
-                for entity in found_entities:
-                    is_subset = False
-                    for other in found_entities:
-                        if entity != other and entity in other:
-                            is_subset = True
-                            break
-                    if not is_subset:
-                        unique_entities.append(entity)
-                entities[category] = sorted(list(set(unique_entities)))
-        return entities
-    def extract_anonymized_codes(self, text):
-        """استخراج کدهای ناشناس‌سازی"""
-        if not text or text.strip() == '':
-            return {}
-        codes = {}
-        # الگو براساس سیستم ناشناس‌سازی: category_number
-        pattern = r'([a-zA-Z_]+)_(\d{3})'
-        try:
-            matches = re.finditer(pattern, text, re.IGNORECASE)
-            for match in matches:
-                category = match.group(1).upper()
-                code = match.group(0)
-                if category not in codes:
-                    codes[category] = []
-                codes[category].append(code)
-        except Exception as e:
-            logger.error(f"Error extracting codes: {e}")
-        # حذف تکراری‌ها
-        for category in codes:
-            codes[category] = sorted(list(set(codes[category])))
-        return codes
-# ===== کلاس Benchmark آپدیت شده =====
-class UpdatedAnonymizationBenchmark:
-    def __init__(self):
-        self.extractor = UpdatedEntityExtractor()
-    def _analyze_detailed_issues(self, original_entities, anonymized_codes):
-        """تحلیل جزئیات مشکلات برای Error Analysis"""
-        all_categories = set(original_entities.keys()) | set(anonymized_codes.keys())
-        detailed_issues = {
-            'false_negatives': {},  # entities که از دست رفته‌اند
-            'false_positives': {},  # کدهای اضافی
-            'perfect_matches': [],  # categories بدون مشکل
-            'error_analysis': {}    # تحلیل خطا برای بهبود الگوها
-        }
-        for category in sorted(all_categories):
-            orig_entities = original_entities.get(category, [])
-            anon_codes = anonymized_codes.get(category, [])
-            orig_count = len(orig_entities)
-            anon_count = len(anon_codes)
-            if orig_count == anon_count:
-                detailed_issues['perfect_matches'].append(category)
-            elif orig_count > anon_count:
-                # False Negatives - entities از دست رفته
-                missing_count = orig_count - anon_count
-                detailed_issues['false_negatives'][category] = {
-                    'missing_entities': orig_entities,  # همه entities که شناسایی نشدند
-                    'missing_count': missing_count,
-                    'found_codes': anon_codes,
-                    'success_rate': (anon_count / orig_count * 100) if orig_count > 0 else 0
-                }
-            else:
-                # False Positives - کدهای اضافی
-                extra_count = anon_count - orig_count
-                detailed_issues['false_positives'][category] = {
-                    'expected_entities': orig_entities,
-                    'all_generated_codes': anon_codes,
-                    'extra_codes_count': extra_count,
-                    'overdetection_rate': ((extra_count / orig_count) * 100) if orig_count > 0 else 0
-                }
-        return detailed_issues
-    def analyze_single_row(self, original_text, anonymized_text, row_number):
-        """تحلیل دقیق یک ردیف"""
-        print(f"\n{'='*80}")
-        print(f"تحلیل دقیق ردیف {row_number} (Error Analysis)")
-        print(f"{'='*80}")
-        print(f"\n📝 متن اصلی ({len(original_text)} کاراکتر):")
-        print(f"'{original_text[:150]}{'...' if len(original_text) > 150 else ''}'")
-        print(f"\n🔒 متن ناشناس‌سازی شده ({len(anonymized_text)} کاراکتر):")
-        print(f"'{anonymized_text[:150]}{'...' if len(anonymized_text) > 150 else ''}'")
-        # استخراج entities از متن اصلی
-        print(f"\n🔍 Entities استخراج شده از متن اصلی:")
-        original_entities = self.extractor.extract_entities(original_text)
-        total_original_entities = 0
-        for category, entities in original_entities.items():
-            print(f"\n  📊 {category} ({len(entities)} عدد):")
-            for i, entity in enumerate(entities, 1):
-                print(f"    {i}. '{entity}'")
-            total_original_entities += len(entities)
-        if not original_entities:
-            print("  ❌ هیچ entity ای یافت نشد!")
-        else:
-            print(f"\n✅ مجموع entities یافت شده: {total_original_entities}")
-        # استخراج کدهای ناشناس‌سازی
-        print(f"\n🔒 کدهای ناشناس‌سازی:")
-        anonymized_codes = self.extractor.extract_anonymized_codes(anonymized_text)
-        total_anonymized_codes = 0
-        for category, codes in anonymized_codes.items():
-            print(f"\n  🔑 {category} ({len(codes)} عدد):")
-            for i, code in enumerate(codes, 1):
-                print(f"    {i}. '{code}'")
-            total_anonymized_codes += len(codes)
-        if not anonymized_codes:
-            print("  ❌ هیچ کد ناشناس‌سازی یافت نشد!")
-        else:
-            print(f"\n✅ مجموع کدهای ناشناس‌سازی: {total_anonymized_codes}")
-        # محاسبه متریک‌ها با جزئیات مشکلات
-        detailed_issues = self._analyze_detailed_issues(original_entities, anonymized_codes)
-        category_metrics = {}
-        total_tp, total_fp, total_fn = 0, 0, 0
-        all_categories = set(original_entities.keys()) | set(anonymized_codes.keys())
-        for category in all_categories:
-            original_count = len(original_entities.get(category, []))
-            anonymized_count = len(anonymized_codes.get(category, []))
-            tp = min(original_count, anonymized_count)
-            fp = max(0, anonymized_count - original_count)
-            fn = max(0, original_count - anonymized_count)
-            precision = tp / (tp + fp) if (tp + fp) > 0 else 0
-            recall = tp / (tp + fn) if (tp + fn) > 0 else 0
-            f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
-            category_metrics[category] = {
-                'original_count': original_count, 'anonymized_count': anonymized_count,
-                'tp': tp, 'fp': fp, 'fn': fn,
-                'precision': precision, 'recall': recall, 'f1_score': f1_score
-            }
-            total_tp += tp
-            total_fp += fp
-            total_fn += fn
-        # متریک‌های کلی
-        overall_precision = total_tp / (total_tp + total_fp) if (total_tp + total_fp) > 0 else 0
-        overall_recall = total_tp / (total_tp + total_fn) if (total_tp + total_fn) > 0 else 0
-        overall_f1 = 2 * (overall_precision * overall_recall) / (overall_precision + overall_recall) if (overall_precision + overall_recall) > 0 else 0
-        accuracy = total_tp / total_original_entities if total_original_entities > 0 else 0
-        print(f"\n🎯 متریک‌های نهایی ردیف {row_number}:")
-        print(f"  TP: {total_tp}, FP: {total_fp}, FN: {total_fn}")
-        print(f"  Precision: {overall_precision:.4f}")
-        print(f"  Recall: {overall_recall:.4f}")
-        print(f"  F1-Score: {overall_f1:.4f}")
-        print(f"  Accuracy: {accuracy:.4f}")
-        return {
-            'original_entities': original_entities,
-            'anonymized_codes': anonymized_codes,
-            'category_metrics': category_metrics,
-            'detailed_issues': detailed_issues,  # اضافه کردن جزئیات مشکلات
-            'overall_metrics': {
-                'total_original_entities': total_original_entities,
-                'total_anonymized_entities': total_anonymized_codes,
-                'total_tp': total_tp, 'total_fp': total_fp, 'total_fn': total_fn,
-                'precision': overall_precision, 'recall': overall_recall,
-                'f1_score': overall_f1, 'accuracy': accuracy
-            }
-        }
-    def generate_error_analysis_report(self, all_analysis):
-        """تولید گزارش کامل Error Analysis"""
-        report = "\n" + "="*80 + "\n"
-        report += "🔍 ERROR ANALYSIS REPORT - برای بهبود الگوهای regex\n"
-        report += "="*80 + "\n"
-        # جمع‌آوری همه خطاها
-        all_errors = {
-            'false_negatives': {},
-            'false_positives': {},
-        }
-        for row_idx, analysis in enumerate(all_analysis, 1):
-            if 'detailed_issues' in analysis:
-                issues = analysis['detailed_issues']
-                # False Negatives
-                for category, details in issues.get('false_negatives', {}).items():
-                    if category not in all_errors['false_negatives']:
-                        all_errors['false_negatives'][category] = []
-                    all_errors['false_negatives'][category].extend(details['missing_entities'])
-                # False Positives
-                for category, details in issues.get('false_positives', {}).items():
-                    if category not in all_errors['false_positives']:
-                        all_errors['false_positives'][category] = []
-                    all_errors['false_positives'][category].extend(details['all_generated_codes'])
-        # گزارش False Negatives
-        if all_errors['false_negatives']:
-            report += "\n❌ CRITICAL: FALSE NEGATIVES (Entities از دست رفته)\n"
-            report += "این entities در متن اصلی هست اما ناشناس‌سازی نشده:\n\n"
-            for category, entities in all_errors['false_negatives'].items():
-                unique_entities = list(set(entities))
-                report += f"🔸 {category} ({len(unique_entities)} مورد):\n"
-                for entity in unique_entities[:10]:  # نمایش 10 مورد اول
-                    report += f"   '{entity}'\n"
-                if len(unique_entities) > 10:
-                    report += f"   ... و {len(unique_entities)-10} مورد دیگر\n"
-                report += "\n"
-        # گزارش False Positives
-        if all_errors['false_positives']:
-            report += "\n⚠️ WARNING: FALSE POSITIVES (کدهای اضافی)\n"
-            report += "این کدها تولید شده اما entity متناظر در متن اصلی نیست:\n\n"
-            for category, codes in all_errors['false_positives'].items():
-                unique_codes = list(set(codes))
-                report += f"🔸 {category} ({len(unique_codes)} کد اضافی):\n"
-                for code in unique_codes[:10]:
-                    report += f"   '{code}'\n"
-                if len(unique_codes) > 10:
-                    report += f"   ... و {len(unique_codes)-10} کد دیگر\n"
-                report += "\n"
-        return report
-    def generate_error_entities_list(self, all_analysis):
-        """تولید لیست کامل انتیتی‌های مشکل‌دار"""
-        error_entities = {
-            'false_negatives': {},  # انتیتی‌هایی که از دست رفته‌اند
-            'false_positives': {}   # کدهای اضافی که تولید شده‌اند
-        }
-        # جمع‌آوری تمام مشکلات از همه ردیف‌ها
-        for row_idx, analysis in enumerate(all_analysis, 1):
-            if 'detailed_issues' in analysis:
-                issues = analysis['detailed_issues']
-                # جمع‌آوری False Negatives
-                for category, details in issues.get('false_negatives', {}).items():
-                    if category not in error_entities['false_negatives']:
-                        error_entities['false_negatives'][category] = {}
-                    # ��روه‌بندی بر اساس ردیف
-                    if f"ردیف {row_idx}" not in error_entities['false_negatives'][category]:
-                        error_entities['false_negatives'][category][f"ردیف {row_idx}"] = []
-                    error_entities['false_negatives'][category][f"ردیف {row_idx}"].extend(details['missing_entities'])
-                # جمع‌آوری False Positives
-                for category, details in issues.get('false_positives', {}).items():
-                    if category not in error_entities['false_positives']:
-                        error_entities['false_positives'][category] = {}
-                    # گروه‌بندی بر اساس ردیف
-                    if f"ردیف {row_idx}" not in error_entities['false_positives'][category]:
-                        error_entities['false_positives'][category][f"ردیف {row_idx}"] = []
-                    error_entities['false_positives'][category][f"ردیف {row_idx}"].extend(details['all_generated_codes'])
-        # تولید گزارش نهایی
-        report = "\n" + "="*80 + "\n"
-        report += "🔍 ERROR ANALYSIS - لیست کامل انتیتی‌های مشکل‌دار\n"
-        report += "="*80 + "\n"
-        # FALSE NEGATIVES - انتیتی‌های از دست رفته
-        if error_entities['false_negatives']:
-            report += "\n❌ FALSE NEGATIVES (انتیتی‌هایی که باید ناشناس می‌شدند اما نشدند):\n"
-            report += "="*60 + "\n"
-            for category, rows_data in error_entities['false_negatives'].items():
-                report += f"\n📌 {category}:\n"
-                all_entities_in_category = []
-                for row_name, entities in rows_data.items():
-                    if entities:
-                        report += f"   {row_name}:\n"
-                        for entity in entities:
-                            report += f"      ❌ '{entity}'\n"
-                            all_entities_in_category.append(entity)
-                # خلاصه کلی هر category
-                unique_entities = list(set(all_entities_in_category))
-                report += f"   📊 خلاصه {category}: {len(unique_entities)} انتیتی منحصربفرد از دست رفته\n"
-                report += f"   📋 لیست کامل: {unique_entities[:10]}{'...' if len(unique_entities) > 10 else ''}\n"
-        # FALSE POSITIVES - کدهای اضافی
-        if error_entities['false_positives']:
-            report += f"\n⚠️ FALSE POSITIVES (کدهایی که اضافه تولید شده‌اند):\n"
-            report += "="*60 + "\n"
-            for category, rows_data in error_entities['false_positives'].items():
-                report += f"\n📌 {category}:\n"
-                all_codes_in_category = []
-                for row_name, codes in rows_data.items():
-                    if codes:
-                        report += f"   {row_name}:\n"
-                        for code in codes:
-                            report += f"      ⚠️ '{code}' (کد اضافی)\n"
-                            all_codes_in_category.append(code)
-                # خلاصه کلی هر category
-                unique_codes = list(set(all_codes_in_category))
-                report += f"   📊 خلاصه {category}: {len(unique_codes)} کد اضافی تولید شده\n"
-                report += f"   📋 لیست کامل: {unique_codes[:10]}{'...' if len(unique_codes) > 10 else ''}\n"
-        # خلاصه کلی
-        total_fn_categories = len(error_entities['false_negatives'])
-        total_fp_categories = len(error_entities['false_positives'])
-        report += f"\n{'='*60}\n"
-        report += f"📊 خلاصه کلی ERROR ANALYSIS:\n"
-        report += f"   ❌ Categories با False Negatives: {total_fn_categories}\n"
-        report += f"   ⚠️ Categories با False Positives: {total_fp_categories}\n"
-        if total_fn_categories == 0 and total_fp_categories == 0:
-            report += f"\n✅ هیچ مشکل Error شناسایی نشد - سیستم کاملاً درست کار می‌کند!\n"
-        else:
-            report += f"\n🛠️ اقدامات لازم:\n"
-            if total_fn_categories > 0:
-                report += f"   1. الگوهای regex را گسترده‌تر کنید تا False Negatives کاهش یابد\n"
-            if total_fp_categories > 0:
-                report += f"   2. الگوهای regex را محدودتر کنید تا False Positives کاهش یابد\n"
-        report += f"\n{'='*80}\n"
-        return report
-    def process_csv(self, csv_file_path):
-        """پردازش فایل CSV"""
-        try:
-            # خواندن فایل
-            df = None
-            for encoding in ['utf-8', 'utf-8-sig', 'cp1256', 'windows-1256']:
-                try:
-                    df = pd.read_csv(csv_file_path, encoding=encoding)
-                    print(f"✅ فایل با encoding {encoding} خوانده شد")
-                    break
-                except UnicodeDecodeError:
-                    continue
-            if df is None:
-                return "❌ خطا: نمی‌توان فایل را خواند"
-            print(f"\n📋 اطلاعات فایل CSV:")
-            print(f"  تعداد ردیف‌ها: {len(df)}")
-            print(f"  ستون‌ها: {df.columns.tolist()}")
-            # بررسی ستون‌ها
-            if 'original_text' not in df.columns or 'anonymized_text' not in df.columns:
-                return f"❌ خطا: فایل باید شامل ستون‌های 'original_text' و 'anonymized_text' باشد"
-            if len(df) == 0:
-                return "❌ خطا: فایل خالی است"
-            # پردازش هر ردیف
-            results = []
-            all_analysis = []
-            for index, row in df.iterrows():
-                print(f"\n📄 پردازش ردیف {index + 1} از {len(df)}")
-                original_text = str(row['original_text']) if pd.notna(row['original_text']) else ""
-                anonymized_text = str(row['anonymized_text']) if pd.notna(row['anonymized_text']) else ""
-                if original_text.strip() == "" and anonymized_text.strip() == "":
-                    print("⚠️  ردیف خالی است، رد می‌شود")
-                    continue
-                # تحلیل دقیق
-                analysis = self.analyze_single_row(original_text, anonymized_text, index + 1)
-                all_analysis.append(analysis)
-                # ذخیره نتیجه
-                result = {
-                    'row_id': int(index),
-                    'original_text': original_text,
-                    'anonymized_text': anonymized_text,
-                    **{k: convert_to_serializable(v) for k, v in analysis['overall_metrics'].items()}
-                }
-                # اضافه کردن متریک‌های category
-                for category, metrics in analysis['category_metrics'].items():
-                    for metric_name, value in metrics.items():
-                        result[f'{category.lower()}_{metric_name}'] = convert_to_serializable(value)
-                results.append(result)
-            if not results:
-                return "❌ خطا: هیچ ردیف معتبری برای پردازش یافت نشد"
-            return pd.DataFrame(results), all_analysis
-        except Exception as e:
-            return f"❌ خطا در پردازش: {str(e)}"
-# ===== رابط Gradio آپدیت شده =====
-def process_uploaded_file(file):
-    """پردازش فایل آپلود شده"""
-    if file is None:
-        return "❌ لطفاً ابتدا فایل CSV را آپلود کنید.", None, ""
-    print(f"\n🚀 شروع Error Analysis: {file.name}")
-    benchmark = UpdatedAnonymizationBenchmark()
-    result = benchmark.process_csv(file.name)
-    if isinstance(result, str):
-        return result, None, ""
-    results_df, all_analysis = result
-    # تولید گزارش Error Analysis برای بهبود برنامه اصلی
-    error_analysis_report = benchmark.generate_error_analysis_report(all_analysis)
-    # تولید لیست کامل انتیتی‌های مشکل‌دار
-    error_entities_list = benchmark.generate_error_entities_list(all_analysis)
-    # تولید گزارش نهایی
-    total_rows = len(results_df)
-    # محاسبه آمار کلی
-    avg_precision = results_df['precision'].mean() if 'precision' in results_df.columns else 0
-    avg_recall = results_df['recall'].mean() if 'recall' in results_df.columns else 0
-    avg_f1 = results_df['f1_score'].mean() if 'f1_score' in results_df.columns else 0
-    avg_accuracy = results_df['accuracy'].mean() if 'accuracy' in results_df.columns else 0
-    total_original = results_df['total_original_entities'].sum() if 'total_original_entities' in results_df.columns else 0
-    total_anonymized = results_df['total_anonymized_entities'].sum() if 'total_anonymized_entities' in results_df.columns else 0
-    total_tp = results_df['total_tp'].sum() if 'total_tp' in results_df.columns else 0
-    total_fp = results_df['total_fp'].sum() if 'total_fp' in results_df.columns else 0
-    total_fn = results_df['total_fn'].sum() if 'total_fn' in results_df.columns else 0
-    # گزارش نهایی با تمرکز روی Error Analysis
-    report = f"""
-{'='*80}
-🔍 ERROR ANALYSIS BENCHMARK - تشخیص دقیق مشکلات برای بهبود سیستم
-{'='*80}
-📊 آمار سریع:
-  • ردیف‌های پردازش شده: {total_rows}
-  • کل Entities: {total_original} | کل کدهای تولید شده: {total_anonymized}
-  • False Positives: {total_fp} | False Negatives: {total_fn}
-  • Precision: {avg_precision:.4f} | Recall: {avg_recall:.4f}
-{error_analysis_report}
-{'='*80}
-⚡ ACTION ITEMS برای بهبود سیستم ناشناس‌سازی:
-1. الگوهای regex مشکل‌دار را بر اساس گزارش بالا اصلاح کنید
-2. False Negatives → entities مهم از دست رفته، الگو باید گسترده‌تر شود
-3. False Positives → الگو خیلی کلی است، محدودیت بیشتر اضافه کنید
-4. جزئیات دقیق در بخش ERROR ANALYSIS ارائه شده است
-{'='*80}
-"""
-    # ذخیره نتایج
-    try:
-        results_df.to_csv("error_analysis_results.csv", index=False, encoding='utf-8-sig')
-        print("✅ نتایج Error Analysis در فایل error_analysis_results.csv ذخیره شد")
-    except Exception as e:
-        print(f"⚠️  خطا در ذخیره فایل: {e}")
-    # ستون‌های مهم برای نمایش
-    display_columns = ['row_id', 'total_original_entities', 'total_anonymized_entities',
-                      'total_tp', 'total_fp', 'total_fn', 'precision', 'recall', 'f1_score', 'accuracy']
-    display_df = results_df[[col for col in display_columns if col in results_df.columns]]
-    return report, display_df, error_entities_list
-def download_results():
-    """دانلود نتایج"""
-    if os.path.exists("error_analysis_results.csv"):
-        return "error_analysis_results.csv"
-    return None
-# ===== رابط اصلی =====
-def main():
-    with gr.Blocks(title="Error Analysis Benchmark", theme=gr.themes.Soft()) as demo:
-        gr.HTML("""
-        <h1 style='text-align: center; color: #2E86AB; margin-bottom: 30px;'>
-        🔍 Error Analysis Benchmark - شناسایی دقیق مشکلات برای بهبود سیستم ناشناس‌سازی
-        </h1>
-        """)
-        with gr.Row():
-            with gr.Column():
-                gr.HTML("""
-                <div style='background: #fff3e0; padding: 15px; border-radius: 10px; margin-bottom: 15px;'>
-                <h3>🔧 Error Analysis - هدف:</h3>
-                <ul>
-                <li><b>False Negatives:</b> Entities مهم که از دست رفته‌اند</li>
-                <li><b>False Positives:</b> کدهای اضافی که غلط تولید شده‌اند</li>
-                <li><b>Pattern Problems:</b> تشخیص الگوهای regex مشکل‌دار</li>
-                <li><b>Root Cause:</b> علت اصلی مشکلات</li>
-                <li><b>Suggestions:</b> پیشنهادات دقیق برای بهبود کد</li>
-                <li><b>Action Items:</b> لیست کارهای لازم برای اصلاح</li>
-                </ul>
-                </div>
-                """)
-                file_input = gr.File(
-                    label="📁 فایل CSV خود را آپلود کنید",
-                    file_types=[".csv"],
-                    file_count="single"
-                )
-                process_btn = gr.Button("🔍 Error Analysis - تشخیص مشکلات دقیق", variant="primary", size="lg")
-        # بخش اول: گزارش اصلی
-        with gr.Row():
-            with gr.Column():
-                gr.HTML("<h3>📊 Error Analysis Report + پیشنهادات بهبود</h3>")
-                results_output = gr.Textbox(
-                    label="Error Analysis Report - مشکلات دقیق و راه‌حل‌ها",
-                    lines=30,
-                    max_lines=35,
-                    interactive=False
-                )
-        # بخش دوم: لیست کامل انتیتی‌های مشکل‌دار
-        with gr.Row():
-            with gr.Column():
-                gr.HTML("<h3>🔍 ERROR ANALYSIS - لیست کامل انتیتی‌های مشکل‌دار</h3>")
-                error_analysis_output = gr.Textbox(
-                    label="لیست کامل False Negatives و False Positives",
-                    lines=20,
-                    max_lines=25,
-                    interactive=False,
-                    placeholder="لیست دقیق انتیتی‌های مشکل‌دار اینجا نمایش داده می‌شود..."
-                )
-        # بخش سوم: جدول نتایج
-        with gr.Row():
-            with gr.Column():
-                gr.HTML("<h3>📋 جدول نتایج Error Analysis</h3>")
-                results_table = gr.Dataframe(
-                    label="متریک‌های دقیق هر ردیف (Error Analysis)",
-                    interactive=False,
-                    wrap=True
-                )
-        # بخش چهارم: دانلود
-        with gr.Row():
-            with gr.Column():
-                download_btn = gr.Button("💾 دانلود گزارش Error Analysis", variant="secondary")
-                download_file = gr.File(label="فایل گزارش Error Analysis", visible=False)
-        # Event handlers - همه متغیرها در scope هستند
-        process_btn.click(
-            fn=process_uploaded_file,
-            inputs=[file_input],
-            outputs=[results_output, results_table, error_analysis_output]
-        )
-        download_btn.click(
-            fn=download_results,
-            outputs=[download_file]
-        )
-        download_btn.click(
-            fn=lambda: gr.update(visible=True),
-            outputs=[download_file]
-        )
-    return demo
-demo = main()
-if __name__ == "__main__":
-    port = int(os.getenv("PORT", "7860"))
-    demo.launch(
-        share=False,
-        server_name="0.0.0.0",
-        server_port=port,
-        show_error=True
-    )