Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 21

Commit

bb1bdb3

verified ·

1 Parent(s): a22a740

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -702

app.py CHANGED Viewed

@@ -68,267 +68,19 @@ except Exception as e:
     logger.warning(f"⚠️ Auto-setup encountered an issue: {e}")
     logger.info("ℹ️ Continuing with manual setup...")
-class BilingualDataAnonymizer:
     def __init__(self):
         self.mapping_table = {}
-        # counters به‌روزرسانی شده با دسته‌های جدید
         self.counters = {
-            'COMPANY': 0, 'PERSON': 0, 'AMOUNT': 0, 'DATE': 0,
-            'STOCK_SYMBOL': 0, 'PERCENTAGE': 0, 'VOLUME': 0,
-            'FINANCIAL_TERMS': 0, 'BUSINESS_TERMS': 0
         }
         self.api_key = os.getenv("OPENAI_API_KEY", "")
-        self.models_base_path = "./models"
-        self.models_loaded = False
-        self.model_status = {}
-        self.load_local_ner_models()
-    def ensure_models_directory(self):
-        if not os.path.exists(self.models_base_path):
-            try:
-                os.makedirs(self.models_base_path, exist_ok=True)
-                logger.info(f"📁 Created models directory: {self.models_base_path}")
-            except Exception as e:
-                logger.error(f"❌ Failed to create models directory: {e}")
-                return False
-        return True
-    def download_model_if_missing(self, local_name, hf_repo):
-        model_path = os.path.join(self.models_base_path, local_name)
-        if os.path.exists(model_path) and os.listdir(model_path):
-            return True, f"Model {local_name} already exists"
-        try:
-            logger.info(f"📥 Auto-downloading {local_name} from {hf_repo}...")
-            from transformers import AutoTokenizer, AutoModelForTokenClassification
-            tokenizer = AutoTokenizer.from_pretrained(hf_repo)
-            model = AutoModelForTokenClassification.from_pretrained(hf_repo)
-            tokenizer.save_pretrained(model_path)
-            model.save_pretrained(model_path)
-            logger.info(f"✅ {local_name} auto-downloaded successfully")
-            return True, f"Downloaded {local_name}"
-        except Exception as e:
-            logger.error(f"❌ Auto-download failed for {local_name}: {e}")
-            return False, str(e)
-    def _load_pipeline(self, task, model_path, tokenizer_path=None):
-        """لود مدل با مدیریت صحیح پارامترهای ورژن مختلف transformers"""
-        try:
-            from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification, __version__ as tr_version
-            # بررسی پشتیبانی از aggregation_strategy
-            supports_agg = version.parse(tr_version) >= version.parse("4.11.0")
-            # لود توکنایزر و مدل به صورت جداگانه
-            if tokenizer_path:
-                tokenizer = AutoTokenizer.from_pretrained(tokenizer_path, local_files_only=True)
-            else:
-                tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
-            model = AutoModelForTokenClassification.from_pretrained(model_path, local_files_only=True)
-            # ایجاد pipeline با پارامترهای مناسب
-            pipeline_kwargs = {
-                "model": model,
-                "tokenizer": tokenizer,
-                "device": -1  # استفاده از CPU
-            }
-            # اضافه کردن aggregation_strategy اگر پشتیبانی می‌شود
-            if supports_agg:
-                pipeline_kwargs["aggregation_strategy"] = "simple"
-            return pipeline(task, **pipeline_kwargs)
-        except Exception as e:
-            logger.error(f"❌ Failed to load pipeline for {model_path}: {e}")
-            return None
-    def load_local_ner_models(self):
-        logger.info("📄 Loading local NER models with auto-download...")
-        if not self.ensure_models_directory():
-            self.models_loaded = False
-            self.model_status['directory'] = "❌ Cannot create models directory"
-            return
-        try:
-            try:
-                import torch
-                from transformers import AutoTokenizer, AutoModelForTokenClassification
-                transformers_available = True
-                logger.info("✅ Transformers library available")
-            except ImportError as e:
-                transformers_available = False
-                self.model_status['transformers'] = f"❌ Transformers library not installed: {str(e)}"
-                self.models_loaded = False
-                return
-            # Persian model
-            persian_model_path = os.path.join(self.models_base_path, "bert-fa-ner")
-            self.download_model_if_missing("bert-fa-ner", "HooshvareLab/bert-fa-zwnj-base-ner")
-            if os.path.exists(persian_model_path) and os.listdir(persian_model_path):
-                try:
-                    self.persian_ner = self._load_pipeline("ner", persian_model_path)
-                    if self.persian_ner:
-                        self.model_status['persian'] = f"✅ Local Persian NER: {persian_model_path}"
-                    else:
-                        self.model_status['persian'] = f"❌ Failed to load Persian model: {persian_model_path}"
-                except Exception as e:
-                    self.persian_ner = None
-                    self.model_status['persian'] = f"❌ Persian model loading error: {str(e)[:100]}"
-            else:
-                self.persian_ner = None
-                self.model_status['persian'] = f"❌ Persian model not found: {persian_model_path}"
-            # English model
-            english_model_path = os.path.join(self.models_base_path, "bert-base-NER")
-            self.download_model_if_missing("bert-base-NER", "dslim/bert-base-NER")
-            if os.path.exists(english_model_path) and os.listdir(english_model_path):
-                try:
-                    self.english_ner = self._load_pipeline("ner", english_model_path)
-                    if self.english_ner:
-                        self.model_status['english'] = f"✅ Local English NER: {english_model_path}"
-                    else:
-                        self.model_status['english'] = f"❌ Failed to load English model: {english_model_path}"
-                except Exception as e:
-                    self.english_ner = None
-                    self.model_status['english'] = f"❌ English model loading error: {str(e)[:100]}"
-            else:
-                self.english_ner = None
-                self.model_status['english'] = f"❌ English model not found: {english_model_path}"
-            loaded_models = sum(1 for status in self.model_status.values() if status.startswith("✅"))
-            self.models_loaded = loaded_models > 0
-            if loaded_models == 0:
-                self.model_status['fallback'] = "⚠️ Using regex-only mode (no local models found)"
-        except Exception as e:
-            self.models_loaded = False
-            self.model_status['critical'] = f"❌ Critical error: {str(e)[:100]}..."
-    def detect_language(self, text):
-        """تشخیص زبان متن"""
-        if not text:
-            return 'fa'
-        persian_chars = len(re.findall(r'[\u0600-\u06FF]', text))
-        english_chars = len(re.findall(r'[a-zA-Z]', text))
-        total = persian_chars + english_chars
-        if total == 0:
-            return 'fa'
-        if persian_chars / total > 0.6:
-            return 'fa'
-        elif english_chars / total > 0.6:
-            return 'en'
-        else:
-            return 'mixed'
-    def extract_entities_with_ner(self, text, lang='fa'):
-        """استخراج entities با مدل‌های NER محلی"""
-        entities = []
-        if not self.models_loaded:
-            logger.info("ℹ️ Local NER models not available - using regex only")
-            return entities
-        try:
-            # مدل فارسی محلی
-            if lang in ['fa', 'mixed'] and hasattr(self, 'persian_ner') and self.persian_ner:
-                try:
-                    persian_results = self.persian_ner(text)
-                    for entity in persian_results:
-                        # بررسی فرمت خروجی بر اساس ورژن transformers
-                        if isinstance(entity, dict):
-                            if 'entity_group' in entity:
-                                # ورژن جدید با aggregation_strategy
-                                entities.append({
-                                    'text': entity['word'].strip(),
-                                    'label': entity['entity_group'],
-                                    'start': entity['start'],
-                                    'end': entity['end'],
-                                    'confidence': entity['score'],
-                                    'source': 'local_persian_ner'
-                                })
-                            else:
-                                # ورژن قدیمی
-                                entities.append({
-                                    'text': entity['word'].strip(),
-                                    'label': entity['entity'],
-                                    'start': entity['start'],
-                                    'end': entity['end'],
-                                    'confidence': entity['score'],
-                                    'source': 'local_persian_ner'
-                                })
-                    logger.info(f"Local Persian NER found {len(persian_results)} entities")
-                except Exception as e:
-                    logger.error(f"Local Persian NER extraction error: {e}")
-            # مدل انگلیسی محلی
-            if lang in ['en', 'mixed'] and hasattr(self, 'english_ner') and self.english_ner:
-                try:
-                    english_results = self.english_ner(text)
-                    for entity in english_results:
-                        # بررسی فرمت خروجی بر اساس ورژن transformers
-                        if isinstance(entity, dict):
-                            if 'entity_group' in entity:
-                                # ورژن جدید با aggregation_strategy
-                                entities.append({
-                                    'text': entity['word'].strip(),
-                                    'label': entity['entity_group'],
-                                    'start': entity['start'],
-                                    'end': entity['end'],
-                                    'confidence': entity['score'],
-                                    'source': 'local_english_ner'
-                                })
-                            else:
-                                # ورژن قدیمی
-                                entities.append({
-                                    'text': entity['word'].strip(),
-                                    'label': entity['entity'],
-                                    'start': entity['start'],
-                                    'end': entity['end'],
-                                    'confidence': entity['score'],
-                                    'source': 'local_english_ner'
-                                })
-                    logger.info(f"Local English NER found {len(english_results)} entities")
-                except Exception as e:
-                    logger.error(f"Local English NER extraction error: {e}")
-        except Exception as e:
-            logger.error(f"Local NER extraction general error: {e}")
-        # حذف تکراری‌ها
-        unique_entities = []
-        seen = set()
-        for entity in entities:
-            key = (entity['text'].lower(), entity['start'], entity['end'])
-            if key not in seen:
-                seen.add(key)
-                unique_entities.append(entity)
-        logger.info(f"Total unique entities found by local models: {len(unique_entities)}")
-        return unique_entities
-    def map_ner_to_categories(self, ner_label, source=''):
-        """نگاشت برچسب‌های NER به دسته‌های سیستم"""
-        mapping = {
-            'PER': 'PERSON', 'PERSON': 'PERSON',
-            'ORG': 'COMPANY', 'ORGANIZATION': 'COMPANY',
-            'LOC': 'LOCATION', 'LOCATION': 'LOCATION',
-            'MISC': 'BUSINESS_TERMS', 'MISCELLANEOUS': 'BUSINESS_TERMS',
-            'B-PER': 'PERSON', 'I-PER': 'PERSON',
-            'B-ORG': 'COMPANY', 'I-ORG': 'COMPANY',
-            'B-LOC': 'LOCATION', 'I-LOC': 'LOCATION',
-            'B-MISC': 'BUSINESS_TERMS', 'I-MISC': 'BUSINESS_TERMS',
-            'MONEY': 'AMOUNT', 'PERCENT': 'PERCENTAGE',
-            'DATE': 'DATE', 'TIME': 'DATE'
-        }
-        return mapping.get(ner_label.upper(), 'BUSINESS_TERMS')
     def anonymize_text(self, original_text, lang='fa'):
-        """گام 1: ناشناس‌سازی متن"""
         try:
             if not original_text or not original_text.strip():
                 return "❌ Please enter input text!" if lang == 'en' else "❌ لطفاً متن ورودی را وارد کنید!"
@@ -338,296 +90,53 @@ class BilingualDataAnonymizer:
             self.counters = {key: 0 for key in self.counters.keys()}
             anonymized = original_text
-            found_entities = set()
-            # تشخیص زبان
-            detected_lang = self.detect_language(original_text)
-            logger.info(f"Detected language: {detected_lang}")
-            # مرحله 1: استخراج با Local NER
-            if self.models_loaded:
-                logger.info("🤖 Running local NER extraction...")
-                ner_entities = self.extract_entities_with_ner(original_text, detected_lang)
-                for entity in ner_entities:
-                    if (entity['text'] not in found_entities and
-                        len(entity['text'].strip()) > 1 and
-                        entity['confidence'] > 0.5):
-                        category = self.map_ner_to_categories(entity['label'], entity['source'])
-                        if entity['text'] not in self.mapping_table:
-                            self.counters[category] += 1
-                            code = f"{category}_{self.counters[category]:03d}_LOCAL_NER"
-                            self.mapping_table[entity['text']] = code
-                            found_entities.add(entity['text'])
-                            logger.info(f"Local NER: {entity['text']} -> {code}")
-            else:
-                logger.info("ℹ️ Using regex-only mode")
-            # مرحله 2: الگوهای Regex متمرکز ب�� تجاری و مالی
-            patterns = {
-                'STOCK_SYMBOL': [
-                    # نمادهای بورس ایرانی
-                    r'نماد\s+([آ-ی‌a-zA-Z0-9]+)',
-                    r'(سبهان|غدیر|شتران|شپنا|پترول|فارس|خارک|پلاسکو|جم|کرمان|مارون|اراک|رازی|شازند|کاوه|بندر|پارس|خوزستان|ماهشهر|عسلویه|ذوب|فولاد|پدیده|دامین|تاپیکو|کگل|شپدیس|والبر|شبندر|تلیسه|کچاد|فملی|بیمه|نوین|پاکشو|شیراز|اصفهان|تبریز|رشت|شیمی|داروسازی|نفت|گاز|آهن|مس|روی|طلا|نقره)(?=\s|$|،|\.|\s+—)',
-                    r'شرکت\s+([آ-ی‌a-zA-Z\s]+?)(?=\s+در|\s+که|\s+با|،|\.|\s+$|\s+را|\s+به)',
-                    r'پتروشیمی\s+([آ-ی‌a-zA-Z\s]+?)(?=\s+در|\s+که|\s+با|،|\.|\s+$|\s+توان)',
-                    # نمادهای خارجی
-                    r'(AAPL|GOOGL|MSFT|AMZN|TSLA|META|NVDA|SABIC|ARAMCO|ADNOC|QGPC|KNPC|SOCAR|LUKOIL|GAZPROM|ROSNEFT|TOTAL|BP|SHELL)(?=\s|$|,|\.)'
-                ],
-                'COMPANY': [
-                    # شرکت‌های با مخفف در پرانتز
-                    r'شرکت\s+[آ-ی‌\s\-]+\s*\([آ-یa-zA-Z\s]+\)',
-                    # شرکت‌های ساده
-                    r'(?:شرکت|گروه|هلدینگ|موسسه|سازمان)\s+[آ-ی‌\s\-]+',
-                    # بانک‌ها و موسسات مالی
-                    r'(?:بانک|موسسه|صندوق|بیمه)\s+[آ-ی‌\s\-]+',
-                    # شرکت‌های خارجی
-                    r'[A-Za-z]+(?:\s+[A-Za-z]+)*\s+(?:Co\.|Company|Corp\.|Corporation|Inc\.|Limited|Ltd\.)',
-                    # نام‌های برند و پروژه
-                    r'(?:آفتاب|آلفا\s+لیفت|ژنرال‌تورک|سپهرموتور|نِی‌پوش|تاپیکو|شپنا|شپدیس|والبر|شبندر)',
-                    # الگوهای کلی
-                    r'شرکت(?=\s+در|\s+که|\s+با|\s+را|\s+به|\s+طی)',
-                    r'([آ-ی‌a-zA-Z\s]+)\s+شرکت',
-                    r'این\s+شرکت(?=\s|$|،|\.)',
-                    r'([A-Z][a-zA-Z\s]+(?:Inc|Corp|Corporation|Company|Ltd|Limited|LLC))'
-                ],
-                'PERSON': [
-                    # نام‌های با القاب
-                    r'آقای\s+([آ-ی‌a-zA-Z]+(?:\s+[آ-ی‌a-zA-Z]+)*)',
-                    r'خانم\s+([آ-ی‌a-zA-Z]+(?:\s+[آ-ی‌a-zA-Z]+)*)',
-                    r'مهندس\s+([آ-ی‌a-zA-Z]+(?:\s+[آ-ی‌a-zA-Z]+)*)',
-                    r'دکتر\s+([آ-ی‌a-zA-Z]+(?:\s+[آ-ی‌a-zA-Z]+)*)',
-                    # نام‌های با مقام اداری
-                    r'([آ-ی‌a-zA-Z]+\s+[آ-ی‌a-zA-Z]+)(?=،\s+مدیرعامل|\s+مدیرعامل|\s+رئیس)',
-                    r'مدیرعامل(?=\s|$|،|\.)',
-                    r'سرپرست(?=\s+و|\s|$|،|\.)',
-                    r'رئیس\s+هیأت‌مدیره',
-                    r'معاون\s+(?:اجرایی|مالی|فروش|بازاریابی|تولید)',
-                    # نام‌های چند قسمتی
-                    r'[آ-ی‌]+\s+[آ-ی‌]+\s+[آ-ی‌]+(?:\s+(?:فر|زاده|پور|نژاد|یان|لو))?',
-                    r'[آ-ی‌]+\s+[آ-ی‌]+(?:\s+(?:فر|زاده|پور|نژاد|یان|لو))?',
-                    # نام‌های با نیم‌فاصله
-                    r'[آ-ی‌]+‌[آ-ی‌]+(?:\s+[آ-ی‌]+)*',
-                    # ضمایر و اشارات
-                    r'وی(?=\s+ادامه|\s+اظهار|\s+گفت|\s+اعلام|\s+همچنین)',
-                    r'ایشان(?=\s+گفت|\s+اعلام|\s+بیان)'
-                ],
-                'AMOUNT': [
-                    # مبالغ با ویرگول و واحدهای مالی
-                    r'(?:منفی\s+|مثبت\s+|حدود\s+|بیش\s+از\s+|نزدیک\s+به\s+|کمتر\s+از\s+)?'
-                    r'\d{1,3}(?:,\d{3})*(?:\.\d+)?\s*(?:میلیون|میلیارد|هزار)\s*(?:ریال|تومان|دلار|یورو|درهم)',
-                    # مبالغ با نقطه اروپایی
-                    r'(?:منفی\s+|مثبت\s+|حدود\s+|بیش\s+از\s+|نزدیک\s+به\s+|کمتر\s+از\s+)?'
-                    r'\d{1,3}(?:\.\d{3})*(?:,\d+)?\s*(?:میلیون|میلیارد|هزار)\s*(?:ریال|تومان|دلار|یورو|درهم)',
-                    # مبالغ اعشاری با واحدهای مختلف
-                    r'(?:منفی\s+|مثبت\s+|حدود\s+|بیش\s+از\s+|نزدیک\s+به\s+|کمتر\s+از\s+)?'
-                    r'\d+(?:\.\d+)?\s*(?:میلیون|میلیارد|هزار)\s*(?:ریال|تومان|همت|دلار|نفر|تن|دستگاه|واحد|بشکه)',
-                    # مبالغ ساده
-                    r'(?:منفی\s+|مثبت\s+|حدود\s+|بیش\s+از\s+|نزدیک\s+به\s+|کمتر\s+از\s+)?'
-                    r'\d{1,3}(?:,\d{3})*\s*(?:ریال|تومان|همت|دلار|یورو|درهم)(?:ی)?',
-                    # بازه‌های مقداری
-                    r'\d+(?:\.\d+)?\s*(?:تا|الی|–|-)\s*\d+(?:\.\d+)?\s*(?:میلیون|میلیارد|هزار)?\s*(?:ریال|تومان|نفر|تن|دستگاه|ماه|سال|درصد)',
-                    # مبالغ فارسی با "هزار و"
-                    r'(?:منفی\s+|مثبت\s+|حدود\s+|بیش\s+از\s+|نزدیک\s+به\s+)?'
-                    r'\d+\s*هزار\s*(?:و\s*)?\d*\s*(?:میلیارد|میلیون)?\s*(?:ریال|تومان)(?:ی)?',
-                    # واحدهای تخصصی و انرژی
-                    r'\d+(?:\.\d+)?\s*(?:Wh/kg|مگاوات|میلی‌ثانیه|CFU/ml|تن-کیلومتر|مگابایت|گیگابایت|کیلووات|گیگاوات)',
-                    # مبالغ با کلمات توضیحی
-                    r'مبلغ\s+\d+(?:,\d{3})*\s*(?:میلیون|میلیارد|هزار)?\s*(?:تومان|ریال)',
-                    r'رقم\s+(?:فعلی\s+)?\d+(?:,\d{3})*\s*(?:میلیون|میلیارد)\s*(?:تومان|ریال)',
-                    r'(?:به|از|برابر\s+با)\s+\d+(?:,\d{3})*\s*(?:میلیون|میلیارد|هزار)\s*(?:تومان|ریال)',
-                    r'\d+(?:میلیارد|میلیون)\s*(?:تومان|ریال)(?=\s+رسیده|\s+ثبت|\s+بوده|\s+،)',
-                    # مبالغ خارجی
-                    r'\$\d+(?:,\d{3})*(?:\.\d+)?\s*(?:million|billion|thousand|M|B|K)?',
-                    r'€\d+(?:,\d{3})*(?:\.\d+)?\s*(?:million|billion|thousand|M|B|K)?',
-                    r'AED\s*\d+(?:,\d{3})*(?:\.\d+)?',
-                    r'SAR\s*\d+(?:,\d{3})*(?:\.\d+)?'
-                ],
-                'PERCENTAGE': [
-                    # درصدهای ساده
-                    r'(?:منفی\s+|مثبت\s+|حدود\s+|بیش\s+از\s+|کمتر\s+از\s+)?'
-                    r'\d+(?:\.\d+)?\s*(?:درصد|٪|%)',
-                    # بازه‌های درصدی
-                    r'\d+(?:\.\d+)?\s*(?:تا|الی|–|-)\s*\d+(?:\.\d+)?\s*(?:درصد|٪|%)',
-                    # درصدهای با کلمات توضیحی
-                    r'\d+(?:\.\d+)?\s*درصد(?:\s+افزایش|\s+رشد|\s+کاهش|\s+بالاتر|\s+پایین‌تر|\s+سود|\s+ضرر)?',
-                    r'معادل\s+\d+(?:\.\d+)?\s*درصد',
-                    r'حدود\s+\d+(?:\.\d+)?\s*درصد',
-                    r'با\s+\d+(?:\.\d+)?\s*درصد\s+(?:افزایش|کاهش|رشد)',
-                    r'رشد\s+\d+(?:\.\d+)?\s*درصدی',
-                    r'\d+(?:\.\d+)?\s*درصدی(?=\s+همراه|\s+بوده|\s+رشد|\s+کاهش)',
-                    # نسبت‌ها و ضرایب
-                    r'نسبت\s+\d+(?:\.\d+)?\s*(?:به\s+\d+(?:\.\d+)?|\s*:|\s*برابر)',
-                    r'ضریب\s+\d+(?:\.\d+)?',
-                    r'میزان\s+رشد(?=\s+نسبت|\s+معادل)',
-                    r'افزایش\s+قابل‌توجهی',
-                    r'بهبود\s+نسبی'
-                ],
-                'VOLUME': [
-                    # حج��‌های تولیدی و صنعتی
-                    r'\d+(?:,\d{3})*\s*(?:هزار)?\s*تن(?=\s+تولید|\s+صادرات|\s+واردات|\s+فروش|\s|$)',
-                    r'\d+(?:\.\d+)?\s*میلیون\s*تن(?=\s+در\s+سال|\s+سالانه|\s|$)',
-                    r'\d+\s*هزار\s*بشکه(?=\s+در\s+روز|\s+روزانه|\s|$)',
-                    r'\d+(?:,\d{3})*\s*دستگاه(?=\s+تولید|\s+فروش|\s+صادرات|\s|$)',
-                    r'\d+(?:,\d{3})*\s*واحد(?=\s+مسکونی|\s+تجاری|\s+صنعتی|\s|$)',
-                    # ظرفیت‌ها
-                    r'ظرفیت\s+\d+(?:,\d{3})*\s*(?:تن|دستگاه|واحد)',
-                    r'تولید\s+\d+(?:,\d{3})*\s*(?:تن|دستگاه)',
-                    r'فروش\s+\d+(?:,\d{3})*\s*(?:دستگاه|واحد)'
-                ],
-                'FINANCIAL_TERMS': [
-                    # اصطلاحات مالی بین‌المللی
-                    r'(?:EPS|P/E|ROE|ROA|EBITDA|NPV|IRR|PEG|GMV|CAC|NPL|MTTR)',
-                    r'(?:GDP|GNP|CPI|PPI|PMI|VIX|LIBOR|SOFR)',
-                    # اصطلاحات مالی فارسی
-                    r'سود\s+(?:خالص|ناخالص|عملیاتی|قبل\s+از\s+مالیات)',
-                    r'درآمد\s+(?:خالص|ناخالص|عملیاتی|مالی)',
-                    r'نقدینگی\s+(?:بازار|شرکت)',
-                    r'بازده\s+(?:سرمایه|دارایی|سهام)',
-                    r'نرخ\s+(?:سود|بهره|تورم|رشد)',
-                    # سامانه‌ها و سیستم‌ها
-                    r'سامانه\s+(?:سجام|کدال|سپام|فرابورس)',
-                    r'سیستم\s+(?:معاملاتی|بانکی|پرداخت)',
-                    # اصطلاحات فنی
-                    r'(?:RFID|DAP|CIF|FOB|API|SDK|CRM|ERP)',
-                    r'Read-Replica'
-                ],
-                'DATE': [
-                    # تاریخ شمسی
-                    r'[۰-۹0-9]{4}[/-][۰-۹0-9]{1,2}[/-][۰-۹0-9]{1,2}',
-                    r'[۰-۹0-9]{1,2}[/-][۰-۹0-9]{1,2}[/-][۰-۹0-9]{4}',
-                    # تاریخ با نام ماه فارسی
-                    r'(?:[۰-۹0-9]{1,2})\s*(?:فروردین|اردیبهشت|خرداد|تیر|مرداد|شهریور|مهر|آبان|آذر|دی|بهمن|اسفند)(?:ماه)?\s*(?:سال\s*)?(?:[۰-۹0-9]{4})',
-                    # تاریخ انگلیسی
-                    r'(?:[0-9]{1,2})\s*(?:January|February|March|April|May|June|July|August|September|October|November|December)\s*(?:[0-9]{4})',
-                    r'(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)\s*[0-9]{1,2},?\s*[0-9]{4}',
-                    # کوارتال و دوره‌های مالی
-                    r'Q[1-4]-\d{4}',
-                    r'کوارتال\s+(?:اول|دوم|سوم|چهارم|\d)',
-                    r'نیمسال\s+(?:اول|دوم)',
-                    r'سال\s+مالی\s+\d{4}',
-                    r'دوره\s+\d+\s*ماهه',
-                    # زمان‌های دقیق
-                    r'\d+\s*(?:دقیقه|ساعت|روز|هفته|ماه|سال)(?:ه)?',
-                    r'طی\s+\d+\s*(?:روز|ماه|سال)',
-                    r'در\s+\d+\s*(?:ماه|سال)\s+گذشته'
-                ],
-                'BUSINESS_TERMS': [
-                    # مقامات اجرایی
-                    r'(?:CFO|CEO|CTO|CMO|COO)(?=\s|$)',
-                    r'مدیر\s+(?:عامل|اجرایی|فروش|بازاریابی|مالی|تولید|فناوری)',
-                    r'رئیس\s+(?:هیأت‌مدیره|شورای\s+نظارت)',
-                    r'معاون\s+(?:اجرایی|مالی|فروش|تولید)',
-                    # ساختار شرکتی
-                    r'هیأت‌مدیره',
-                    r'مجمع\s+(?:عمومی|فوق‌العاده)',
-                    r'سهامداران\s+(?:عمده|خرد|اکثریت|اقلیت)',
-                    r'شورای\s+نظارت',
-                    r'حسابرس\s+(?:مستقل|قانونی)',
-                    # فرآیندهای کسب‌وکار
-                    r'استراتژی\s+(?:کسب‌وکار|رقابتی|توسعه)',
-                    r'برنامه\s+(?:توسعه|رشد|بهبود)',
-                    r'پروژه\s+(?:سرمایه‌گذاری|توسعه)',
-                    r'طرح\s+(?:توسعه|گسترش|بهبود)',
-                    # بازار و رقابت
-                    r'سهم\s+بازار',
-                    r'موقعیت\s+رقابتی',
-                    r'مزیت\s+رقابتی',
-                    r'بازار\s+(?:هدف|محلی|جهانی)',
-                    # عملکرد مالی
-                    r'عملکرد\s+(?:مالی|عملیاتی)',
-                    r'بازدهی\s+(?:سرمایه|فروش)',
-                    r'حاشیه\s+(?:سود|فروش)',
-                    r'نقطه\s+سربه‌سر'
-                ]
-            }
-            # پردازش patterns با اولویت‌بندی - از خاص به عام
-            logger.info("🔍 Running prioritized regex extraction...")
-            # پردازش به ترتیب اولویت برای جلوگیری از تداخل
-            processed_entities = set()  # برای جلوگیری از تکرار
-            for category, pattern_list in patterns.items():
-                for pattern in pattern_list:
-                    matches = re.finditer(pattern, original_text, re.IGNORECASE | re.MULTILINE)
-                    for match in matches:
-                        if match.groups():
-                            item = match.group(1).strip()
-                            full_match = match.group(0).strip()
-                        else:
-                            item = match.group(0).strip()
-                            full_match = item
-                        # بررسی تداخل با entities قبلی
-                        overlaps = False
-                        match_start, match_end = match.span()
-                        for proc_start, proc_end in processed_entities:
-                            # بررسی تداخل موقعیت
-                            if not (match_end <= proc_start or match_start >= proc_end):
-                                overlaps = True
-                                break
-                        if (not overlaps and
-                            full_match not in found_entities and
-                            full_match not in self.mapping_table and
-                            len(full_match) >= 2):
-                            self.counters[category] += 1
-                            code = f"{category}_{self.counters[category]:03d}_REGEX"
-                            self.mapping_table[full_match] = code
-                            found_entities.add(full_match)
-                            processed_entities.add((match_start, match_end))
-                            logger.info(f"Regex ({category}): {full_match} -> {code}")
-            # جایگزینی در متن با ترتیب طولانی‌ترین اول
-            sorted_items = sorted(self.mapping_table.items(), key=lambda x: len(x[0]), reverse=True)
-            for original_item, code in sorted_items:
-                anonymized = anonymized.replace(original_item, code)
             logger.info(f"✅ Anonymization completed. Found {len(self.mapping_table)} entities.")
             return anonymized
@@ -636,7 +145,7 @@ class BilingualDataAnonymizer:
             return f"❌ Error in anonymization: {str(e)}" if lang == 'en' else f"❌ خطا در ناشناس‌سازی: {str(e)}"
     def send_to_chatgpt(self, anonymized_text, lang='fa'):
-        """گام 2: ارسال به ChatGPT"""
         try:
             if not anonymized_text or not anonymized_text.strip():
                 return "❌ Anonymized text is empty!" if lang == 'en' else "❌ متن ناشناس‌شده خالی است!"
@@ -686,7 +195,7 @@ class BilingualDataAnonymizer:
             return f"❌ Error connecting to ChatGPT: {str(e)}" if lang == 'en' else f"❌ خطا در ارتباط با ChatGPT: {str(e)}"
     def deanonymize_response(self, gpt_response, lang='fa'):
-        """گام 3: بازگردانی"""
         try:
             if not gpt_response or not gpt_response.strip():
                 return "❌ ChatGPT response is empty!" if lang == 'en' else "❌ پاسخ ChatGPT خالی است!"
@@ -697,59 +206,16 @@ class BilingualDataAnonymizer:
             final_result = gpt_response
             reverse_mapping = {code: original for original, code in self.mapping_table.items()}
             sorted_codes = sorted(reverse_mapping.items(), key=lambda x: len(x[0]), reverse=True)
             for code, original in sorted_codes:
                 final_result = final_result.replace(code, original)
-                escaped_code = code.replace('_', '\\_')
-                final_result = final_result.replace(escaped_code, original)
             return final_result
         except Exception as e:
             return f"❌ Deanonymization error: {str(e)}" if lang == 'en' else f"❌ خطا در بازگردانی: {str(e)}"
-    def get_model_status(self):
-        """وضعیت مدل‌های محلی"""
-        status = "🤖 **Local Model Status (Business & Financial Data Focus):**\n\n"
-        if hasattr(self, 'model_status') and self.model_status:
-            for model_type, model_status in self.model_status.items():
-                if model_type == 'persian':
-                    status += f"• **Persian NER**: {model_status}\n"
-                elif model_type == 'english':
-                    status += f"• **English NER**: {model_status}\n"
-                elif model_type == 'financial':
-                    status += f"• **Financial NER**: {model_status}\n"
-                elif model_type == 'transformers':
-                    status += f"• **Transformers**: {model_status}\n"
-                elif model_type == 'fallback':
-                    status += f"• **Fallback Mode**: {model_status}\n"
-                elif model_type == 'critical':
-                    status += f"• **Critical**: {model_status}\n"
-                elif model_type == 'directory':
-                    status += f"• **Directory**: {model_status}\n"
-        loaded_count = sum(1 for status in getattr(self, 'model_status', {}).values()
-                          if status.startswith("✅"))
-        status += f"\n📊 **Summary**: {loaded_count}/2 local models loaded"
-        status += f"\n📁 **Models Path**: {self.models_base_path}"
-        status += f"\n🔧 **Latest Features**: Business & Financial Data Detection"
-        status += f"\n\n🎯 **Business & Financial Data Detection:**"
-        status += f"\n   💼 **Company Data**: Stock symbols, company names, business terms"
-        status += f"\n   💰 **Financial Data**: Amounts, percentages, volumes, ratios"
-        status += f"\n   👔 **Executive Data**: Person names with business titles"
-        status += f"\n   📊 **Market Data**: Financial terms, dates, performance metrics"
-        status += f"\n\n✨ **Key Features:**"
-        status += f"\n   🎯 Overlap detection prevents double-matching"
-        status += f"\n   🏢 Focus on business and financial information"
-        status += f"\n   📈 Advanced financial pattern recognition"
-        status += f"\n   🔍 Length-based replacement order"
-        return status
 def process_all_steps(input_text, language):
     """پردازش خودکار تمام مراحل"""
     lang = 'en' if language == 'English' else 'fa'
@@ -768,12 +234,7 @@ def process_all_steps(input_text, language):
         gpt_response = anonymizer.send_to_chatgpt(anonymized_text, lang)
         if gpt_response.startswith("❌"):
             entities_found = len(anonymizer.mapping_table)
-            local_ner_count = sum(1 for code in anonymizer.mapping_table.values() if '_LOCAL_NER' in code)
-            regex_count = sum(1 for code in anonymizer.mapping_table.values() if '_REGEX' in code)
-            method = "Business-Focused Local NER + Regex" if anonymizer.models_loaded else "Business-Focused Regex Only"
-            success_msg = (f"✅ Anonymization completed with {method}!\n"
-                          f"🏢 Business data: {entities_found} | 🤖 NER: {local_ner_count} | 🔍 Regex: {regex_count}\n"
                           f"📊 Total: {entities_found} entities protected")
             return success_msg, anonymized_text, gpt_response, ""
@@ -781,25 +242,15 @@ def process_all_steps(input_text, language):
         total_time = time.time() - start_time
         entities_found = len(anonymizer.mapping_table)
-        local_ner_count = sum(1 for code in anonymizer.mapping_table.values() if '_LOCAL_NER' in code)
-        regex_count = sum(1 for code in anonymizer.mapping_table.values() if '_REGEX' in code)
         # آمار تفصیلی
-        company_count = sum(1 for code in anonymizer.mapping_table.values() if 'COMPANY' in code)
-        amount_count = sum(1 for code in anonymizer.mapping_table.values() if 'AMOUNT' in code)
-        percent_count = sum(1 for code in anonymizer.mapping_table.values() if 'PERCENTAGE' in code)
-        stock_count = sum(1 for code in anonymizer.mapping_table.values() if 'STOCK_SYMBOL' in code)
-        business_details = []
-        if company_count > 0: business_details.append(f"🏢 Companies: {company_count}")
-        if amount_count > 0: business_details.append(f"💰 Amounts: {amount_count}")
-        if percent_count > 0: business_details.append(f"📊 Percentages: {percent_count}")
-        if stock_count > 0: business_details.append(f"📈 Stocks: {stock_count}")
-        method = "Business-Focused Local NER + Regex" if anonymizer.models_loaded else "Business-Focused Regex Only"
         success_msg = (f"🎉 Complete anonymization & restoration successful!\n"
-                      f"🔧 Method: {method}\n"
-                      f"🏢 Business data: {' | '.join(business_details) if business_details else '0'}\n"
                       f"📊 Total: {entities_found} entities | ⏱️ Time: {total_time:.2f}s")
         return success_msg, anonymized_text, gpt_response, final_result
@@ -815,64 +266,26 @@ def get_mapping_table(language):
     if not anonymizer.mapping_table:
         return "❌ Mapping table is empty! Please process some text first." if lang == 'en' else "❌ جدول نگاشت خالی است! ابتدا متنی را پردازش کنید."
-    result = "📋 **Business & Financial Data Mapping Table:**\n\n" if lang == 'en' else "📋 **جدول نگاشت اطلاعات تجاری و مالی:**\n\n"
-    local_ner_items = {k: v for k, v in anonymizer.mapping_table.items() if '_LOCAL_NER' in v}
-    regex_items = {k: v for k, v in anonymizer.mapping_table.items() if '_REGEX' in v}
-    # گروه‌بندی بر اساس نوع اطلاعات تجاری
-    business_categories = {
-        'COMPANY': '🏢 **Company & Organization Names**',
-        'STOCK_SYMBOL': '📈 **Stock Symbols & Trading Codes**',
-        'AMOUNT': '💰 **Financial Amounts**',
-        'PERCENTAGE': '📊 **Percentages & Ratios**',
-        'PERSON': '👔 **Business Executives & Personnel**'
     }
-    business_found = False
-    for category, title in business_categories.items():
-        category_items = {k: v for k, v in anonymizer.mapping_table.items() if category in v}
         if category_items:
-            business_found = True
             result += f"{title}:\n"
-            for original, code in list(category_items.items())[:8]:
                 result += f"   • `{original}` → `{code}`\n"
-            if len(category_items) > 8:
-                result += f"   ... و {len(category_items) - 8} مورد دیگر\n"
             result += "\n"
-    if local_ner_items:
-        result += "🤖 **Local NER Detected**:\n"
-        for original, code in list(local_ner_items.items())[:8]:
-            result += f"   • `{original}` → `{code}`\n"
-        if len(local_ner_items) > 8:
-            result += f"   ... و {len(local_ner_items) - 8} مورد دیگر\n"
-        result += "\n"
-    # سایر موارد
-    other_categories = ['VOLUME', 'FINANCIAL_TERMS', 'BUSINESS_TERMS', 'DATE']
-    other_items = {k: v for k, v in regex_items.items()
-                  if any(cat in v for cat in other_categories)}
-    if other_items:
-        result += "📋 **Other Business Data**:\n"
-        for original, code in list(other_items.items())[:8]:
-            result += f"   • `{original}` → `{code}`\n"
-        if len(other_items) > 8:
-            result += f"   ... و {len(other_items) - 8} مور�� دیگر\n"
     # آمار کلی
-    business_count = sum(len({k: v for k, v in anonymizer.mapping_table.items() if cat in v})
-                        for cat in business_categories.keys())
-    result += f"\n📊 **Statistics**:\n"
-    result += f"🏢 **Business Data**: {business_count} items\n"
-    result += f"🤖 **NER Detected**: {len(local_ner_items)} items\n"
-    result += f"📋 **Other Data**: {len(other_items)} items\n"
-    result += f"📈 **Total**: {len(anonymizer.mapping_table)} entities\n"
-    result += f"\n✨ **Focus**: Business & financial data protection without personal sensitive information\n"
-    result += f"🎯 **Success**: All business-critical data detected and anonymized!"
     return result
@@ -886,30 +299,28 @@ def update_ui_text(language):
     """به‌روزرسانی متن‌های رابط کاربری"""
     if language == 'English':
         return {
-            'title': 'Business-Focused Bilingual Data Anonymization System',
             'step1': 'Input Text & Settings',
             'step2': 'Anonymized Text',
             'step3': 'Raw ChatGPT Response',
             'step4': 'Final Restored Response',
-            'input_placeholder': 'Enter your business text here...\nExample: Company reports, financial amounts, stock symbols, business terms, executive names, etc.',
-            'process_btn': 'Process with Business-Focused Detection',
             'clear_btn': 'Clear All',
-            'mapping_btn': 'Show Business Data Mapping Table',
-            'copy_btn': 'Copy',
             'direction': 'ltr'
         }
     else:
         return {
-            'title': 'سیستم ناشناس‌سازی هوشمند متمرکز بر اطلاعات تجاری',
             'step1': 'متن ورودی و تنظیمات',
             'step2': 'متن ناشناس‌شده',
             'step3': 'پاسخ خام ChatGPT',
             'step4': 'پاسخ نهایی بازگردانده شده',
-            'input_placeholder': 'متن تجاری خود را اینجا وارد کنید...\nمثال: گزارش‌های شرکتی، مبالغ مالی، نمادهای بورس، اصطلاحات کسب‌وکار، نام مدیران و غیره',
-            'process_btn': 'پردازش با تشخیص متمرکز بر تجاری',
             'clear_btn': 'پاک کردن همه',
-            'mapping_btn': 'نمایش جدول نگاشت اطلاعات تجاری',
-            'copy_btn': 'کپی',
             'direction': 'rtl'
         }
@@ -918,7 +329,6 @@ def update_interface(language):
     ui_text = update_ui_text(language)
     is_english = (language == 'English')
-    # تغییر direction برای workflow
     workflow_css = "workflow ltr" if is_english else "workflow rtl"
     return [
@@ -940,9 +350,9 @@ def update_interface(language):
     ]
 # ایجاد instance
-anonymizer = BilingualDataAnonymizer()
-# CSS اصلاح شده برای تراز‌بندی عمودی مناسب
 custom_css = """
 body, .gradio-container {
     font-family: 'Segoe UI', Tahoma, Arial, sans-serif !important;
@@ -1100,38 +510,10 @@ h1 {
         height: 300px !important;
     }
 }
-[data-testid="textbox"]:dir(rtl) {
-    text-align: right !important;
-    direction: rtl !important;
-}
-[data-testid="textbox"]:dir(ltr) {
-    text-align: left !important;
-    direction: ltr !important;
-}
-.gradio-container .gradio-column {
-    align-self: start !important;
-    vertical-align: top !important;
-}
-.gradio-container .gradio-row {
-    align-items: flex-start !important;
-}
-* {
-    box-sizing: border-box !important;
-}
-.gradio-container {
-    align-items: start !important;
-    justify-content: start !important;
-}
 """
-# رابط کاربری Gradio با تراز‌بندی اصلاح شده
-with gr.Blocks(title="📊 Business-Focused Anonymization System", theme=gr.themes.Soft(), css=custom_css) as app:
     with gr.Row():
         language_selector = gr.Radio(
@@ -1142,7 +524,7 @@ with gr.Blocks(title="📊 Business-Focused Anonymization System", theme=gr.them
         )
     with gr.Column():
-        title = gr.HTML("<h1 style='text-align: center; color: #FFD700; font-size: 3.5em; font-weight: bold; text-shadow: 3px 3px 6px rgba(0,0,0,0.5); margin: 20px 0; background: linear-gradient(45deg, #FFD700, #FFA500); -webkit-background-clip: text; -webkit-text-fill-color: transparent; background-clip: text;'>📊 سیستم ناشناس‌سازی هوشمند متمرکز بر اطلاعات تجاری</h1>")
         with gr.Row(elem_classes="workflow rtl") as workflow_row:
             with gr.Column(elem_classes="workflow-column"):
@@ -1150,12 +532,12 @@ with gr.Blocks(title="📊 Business-Focused Anonymization System", theme=gr.them
                 input_text = gr.Textbox(
                     lines=15,
-                    placeholder="متن تجاری خود را اینجا وارد کنید...\n✨ سیستم هوشمند اطلاعات تجاری مثل نام شرکت‌ها، مبالغ مالی، نمادهای بورس، درصدها، نام مدیران را تشخیص می‌دهد",
                     label="",
                     rtl=True
                 )
-                process_btn = gr.Button("🚀 پردازش با تشخیص متمرکز بر تجاری", variant="primary")
                 clear_btn = gr.Button("🗑️ پاک کردن همه", variant="stop")
                 status = gr.Textbox(
@@ -1201,8 +583,8 @@ with gr.Blocks(title="📊 Business-Focused Anonymization System", theme=gr.them
         with gr.Row():
             with gr.Column():
-                mapping_title = gr.HTML('<h2>🗂️ جدول نگاشت اطلاعات تجاری</h2>')
-                mapping_btn = gr.Button("📋 نمایش جدول نگاشت اطلاعات تجاری")
                 mapping_output = gr.Textbox(
                     lines=10,
@@ -1244,4 +626,4 @@ with gr.Blocks(title="📊 Business-Focused Anonymization System", theme=gr.them
     )
 if __name__ == "__main__":
-    app.launch(share=True)

     logger.warning(f"⚠️ Auto-setup encountered an issue: {e}")
     logger.info("ℹ️ Continuing with manual setup...")
+class SimpleAnonymizer:
     def __init__(self):
         self.mapping_table = {}
         self.counters = {
+            'company': 0,
+            'person': 0,
+            'amount': 0,
+            'percent': 0
         }
         self.api_key = os.getenv("OPENAI_API_KEY", "")
     def anonymize_text(self, original_text, lang='fa'):
+        """ناشناس‌سازی ساده و دقیق"""
         try:
             if not original_text or not original_text.strip():
                 return "❌ Please enter input text!" if lang == 'en' else "❌ لطفاً متن ورودی را وارد کنید!"
             self.counters = {key: 0 for key in self.counters.keys()}
             anonymized = original_text
+            # الگوهای ساده و دقیق
+            patterns = [
+                # شرکت‌ها - فقط نام‌های کامل شرکت‌ها
+                (r'ایران\s+خودرو', 'company'),
+                (r'سایپا', 'company'),
+                (r'بانک\s+[آ-ی]+(?:\s+[آ-ی]+)?', 'company'),
+                (r'شرکت\s+[آ-ی]+(?:\s+[آ-ی]+)*', 'company'),
+                (r'گروه\s+[آ-ی]+(?:\s+[آ-ی]+)*', 'company'),
+                (r'موسسه\s+[آ-ی]+(?:\s+[آ-ی]+)*', 'company'),
+                # مبالغ مالی - فقط مبالغ کامل
+                (r'\d+\s*هزار\s*(?:و\s*)?\d*\s*(?:میلیارد|میلیون)\s*(?:ریال|تومان)', 'amount'),
+                (r'\d+(?:,\d{3})*\s*(?:میلیارد|میلیون|هزار)\s*(?:ریال|تومان)', 'amount'),
+                (r'\d+(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار)\s*(?:ریال|تومان|همت)', 'amount'),
+                (r'\d+\s*همت', 'amount'),
+                (r'\d+\s*میلیون\s*تومان', 'amount'),
+                (r'بیش\s+از\s+\d+\s*همت', 'amount'),
+                (r'حدود\s+\d+\s*میلیون\s*تومان', 'amount'),
+                # درصدها - فقط درصدهای کامل
+                (r'\d+(?:\.\d+)?\s*درصد', 'percent'),
+                (r'\d+\s*٪', 'percent'),
+                # نام اشخاص - فقط با القاب یا عناوین مشخص
+                (r'(?:آقای|خانم|مهندس|دکتر)\s+[آ-ی]+(?:\s+[آ-ی]+)+', 'person'),
+                (r'[آ-ی]+\s+[آ-ی]+\s+مدیرعامل', 'person'),
+                (r'مدیرعامل\s+[آ-ی]+(?:\s+[آ-ی]+)+', 'person'),
+            ]
+            # پردازش الگوها به ترتیب از طولانی‌ترین به کوتاه‌ترین
+            for pattern, category in patterns:
+                matches = list(re.finditer(pattern, anonymized, re.IGNORECASE))
+                # مرتب‌سازی matches بر اساس طول (طولانی‌ترین اول)
+                matches.sort(key=lambda x: len(x.group(0)), reverse=True)
+                for match in matches:
+                    matched_text = match.group(0)
+                    # بررسی که قبلاً جایگزین نشده باشد
+                    if matched_text in anonymized and matched_text not in self.mapping_table:
+                        self.counters[category] += 1
+                        code = f"{category}-{self.counters[category]}"
+                        self.mapping_table[matched_text] = code
+                        anonymized = anonymized.replace(matched_text, code)
+                        logger.info(f"Replaced: {matched_text} -> {code}")
             logger.info(f"✅ Anonymization completed. Found {len(self.mapping_table)} entities.")
             return anonymized
             return f"❌ Error in anonymization: {str(e)}" if lang == 'en' else f"❌ خطا در ناشناس‌سازی: {str(e)}"
     def send_to_chatgpt(self, anonymized_text, lang='fa'):
+        """ارسال به ChatGPT"""
         try:
             if not anonymized_text or not anonymized_text.strip():
                 return "❌ Anonymized text is empty!" if lang == 'en' else "❌ متن ناشناس‌شده خالی است!"
             return f"❌ Error connecting to ChatGPT: {str(e)}" if lang == 'en' else f"❌ خطا در ارتباط با ChatGPT: {str(e)}"
     def deanonymize_response(self, gpt_response, lang='fa'):
+        """بازگردانی"""
         try:
             if not gpt_response or not gpt_response.strip():
                 return "❌ ChatGPT response is empty!" if lang == 'en' else "❌ پاسخ ChatGPT خالی است!"
             final_result = gpt_response
             reverse_mapping = {code: original for original, code in self.mapping_table.items()}
+            # جایگزینی از طولانی‌ترین کد اول
             sorted_codes = sorted(reverse_mapping.items(), key=lambda x: len(x[0]), reverse=True)
             for code, original in sorted_codes:
                 final_result = final_result.replace(code, original)
             return final_result
         except Exception as e:
             return f"❌ Deanonymization error: {str(e)}" if lang == 'en' else f"❌ خطا در بازگردانی: {str(e)}"
 def process_all_steps(input_text, language):
     """پردازش خودکار تمام مراحل"""
     lang = 'en' if language == 'English' else 'fa'
         gpt_response = anonymizer.send_to_chatgpt(anonymized_text, lang)
         if gpt_response.startswith("❌"):
             entities_found = len(anonymizer.mapping_table)
+            success_msg = (f"✅ Anonymization completed!\n"
                           f"📊 Total: {entities_found} entities protected")
             return success_msg, anonymized_text, gpt_response, ""
         total_time = time.time() - start_time
         entities_found = len(anonymizer.mapping_table)
         # آمار تفصیلی
+        company_count = anonymizer.counters['company']
+        amount_count = anonymizer.counters['amount']
+        percent_count = anonymizer.counters['percent']
+        person_count = anonymizer.counters['person']
         success_msg = (f"🎉 Complete anonymization & restoration successful!\n"
+                      f"🏢 Companies: {company_count} | 💰 Amounts: {amount_count} | 📊 Percentages: {percent_count} | 👤 Persons: {person_count}\n"
                       f"📊 Total: {entities_found} entities | ⏱️ Time: {total_time:.2f}s")
         return success_msg, anonymized_text, gpt_response, final_result
     if not anonymizer.mapping_table:
         return "❌ Mapping table is empty! Please process some text first." if lang == 'en' else "❌ جدول نگاشت خالی است! ابتدا متنی را پردازش کنید."
+    result = "📋 **Simple Mapping Table:**\n\n" if lang == 'en' else "📋 **جدول نگاشت ساده:**\n\n"
+    # گروه‌بندی بر اساس نوع
+    categories = {
+        'company': '🏢 **Companies**',
+        'amount': '💰 **Amounts**',
+        'percent': '📊 **Percentages**',
+        'person': '👤 **Persons**'
     }
+    for category, title in categories.items():
+        category_items = {k: v for k, v in anonymizer.mapping_table.items() if v.startswith(category)}
         if category_items:
             result += f"{title}:\n"
+            for original, code in category_items.items():
                 result += f"   • `{original}` → `{code}`\n"
             result += "\n"
     # آمار کلی
+    result += f"📊 **Summary**: {len(anonymizer.mapping_table)} total entities anonymized\n"
     return result
     """به‌روزرسانی متن‌های رابط کاربری"""
     if language == 'English':
         return {
+            'title': 'Simple Business Data Anonymization System',
             'step1': 'Input Text & Settings',
             'step2': 'Anonymized Text',
             'step3': 'Raw ChatGPT Response',
             'step4': 'Final Restored Response',
+            'input_placeholder': 'Enter your business text here...\nExample: Company names, financial amounts, percentages, executive names...',
+            'process_btn': 'Process with Simple Detection',
             'clear_btn': 'Clear All',
+            'mapping_btn': 'Show Simple Mapping Table',
             'direction': 'ltr'
         }
     else:
         return {
+            'title': 'سیستم ناشناس‌سازی ساده اطلاعات تجاری',
             'step1': 'متن ورودی و تنظیمات',
             'step2': 'متن ناشناس‌شده',
             'step3': 'پاسخ خام ChatGPT',
             'step4': 'پاسخ نهایی بازگردانده شده',
+            'input_placeholder': 'متن تجاری خود را اینجا وارد کنید...\nمثال: نام شرکت‌ها، مبالغ مالی، درصدها، نام مدیران...',
+            'process_btn': 'پردازش با تشخیص ساده',
             'clear_btn': 'پاک کردن همه',
+            'mapping_btn': 'نمایش جدول نگاشت ساده',
             'direction': 'rtl'
         }
     ui_text = update_ui_text(language)
     is_english = (language == 'English')
     workflow_css = "workflow ltr" if is_english else "workflow rtl"
     return [
     ]
 # ایجاد instance
+anonymizer = SimpleAnonymizer()
+# CSS اصلاح شده
 custom_css = """
 body, .gradio-container {
     font-family: 'Segoe UI', Tahoma, Arial, sans-serif !important;
         height: 300px !important;
     }
 }
 """
+# رابط کاربری Gradio
+with gr.Blocks(title="📊 Simple Anonymization System", theme=gr.themes.Soft(), css=custom_css) as app:
     with gr.Row():
         language_selector = gr.Radio(
         )
     with gr.Column():
+        title = gr.HTML("<h1 style='text-align: center; color: #FFD700; font-size: 3.5em; font-weight: bold; text-shadow: 3px 3px 6px rgba(0,0,0,0.5); margin: 20px 0; background: linear-gradient(45deg, #FFD700, #FFA500); -webkit-background-clip: text; -webkit-text-fill-color: transparent; background-clip: text;'>📊 سیستم ناشناس‌سازی ساده اطلاعات تجاری</h1>")
         with gr.Row(elem_classes="workflow rtl") as workflow_row:
             with gr.Column(elem_classes="workflow-column"):
                 input_text = gr.Textbox(
                     lines=15,
+                    placeholder="متن تجاری خود را اینجا وارد کنید...\nمثال: نام شرکت‌ها، مبالغ مالی، درصدها، نام مدیران...",
                     label="",
                     rtl=True
                 )
+                process_btn = gr.Button("🚀 پردازش با تشخیص ساده", variant="primary")
                 clear_btn = gr.Button("🗑️ پاک کردن همه", variant="stop")
                 status = gr.Textbox(
         with gr.Row():
             with gr.Column():
+                mapping_title = gr.HTML('<h2>🗂️ جدول نگاشت ساده</h2>')
+                mapping_btn = gr.Button("📋 نمایش جدول نگاشت ساده")
                 mapping_output = gr.Textbox(
                     lines=10,
     )
 if __name__ == "__main__":
+    app.launch()