Spaces:

leilaghomashchi
/

Data-anonymization

Running

App Files Files Community

leilaghomashchi commited on 21 days ago

Commit

dbe9d2f

verified ·

1 Parent(s): 6698257

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -740

app.py DELETED Viewed

@@ -1,740 +0,0 @@
-import requests
-import json
-import gradio as gr
-from typing import Dict, Any, List, Optional
-import os
-from dataclasses import dataclass
-import re
-import pandas as pd
-import time
-from io import StringIO
-@dataclass
-class CerebrasConfig:
-    """تنظیمات Cerebras API"""
-    api_key: str
-    base_url: str = "https://api.cerebras.ai/v1"
-    model: str = "llama-3.3-70b"
-    max_tokens: int = 2000
-    temperature: float = 0.1
-class AdvancedCerebrasAnonymizer:
-    """سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی"""
-    def __init__(self, api_key: str = None):
-        if api_key is None:
-            api_key = os.getenv("CEREBRAS_API_KEY")
-            if not api_key:
-                raise ValueError("کلید API یافت نشد")
-        self.config = CerebrasConfig(api_key=api_key)
-        self.system_prompt = self._create_advanced_system_prompt()
-    def _create_advanced_system_prompt(self) -> str:
-        """ایجاد دستورالعمل سیستمی پیشرفته برای Cerebras"""
-        return """شما یک «ناشناس‌ساز متون مالی/خبری فارسی» هستید. وظیفه‌تان جایگزینی اسامی خاص و مقادیر عددی با شناسه‌های بی‌معناست.
-## **قوانین اندیس‌گذاری - CRITICAL**
-### **1. ترتیب شماره‌گذاری الزامی:**
-- شرکت‌ها: company-01, company-02, company-03, company-04, ... (پیوسته و بدون گپ)
-- اشخاص: person-01, person-02, person-03, ... (پیوسته و بدون گپ)
-- اعداد: amount-01, amount-02, amount-03, ... (پیوسته و بدون گپ)
-- درصدها: percent-01, percent-02, percent-03, ... (پیوسته و بدون گپ)
-### **2. ثبات شناسه‌ها در متن:**
-- اگر "همراه اول" اول‌بار company-01 شد، در تمام متن همان باشد
-- اگر "مهدی احمدی" اول‌بار person-01 شد، در تمام متن همان باشد
-### **3. تشخیص صحیح انواع:**
-**شرکت/سازمان:** همراه اول، بانک ملی، ایران‌خودرو، سایپا، بانک مرکزی، سامانه کدال، وزارت نفت، سازمان تنظیم مقررات رادیویی، سازمان تامین اجتماعی
-**⚠️ CRITICAL - گروه‌ها:** "گروه همراه اول"، "گروه اقتصادی آزادگان"، "گروه مالی صبا" → همه company-XX هستند (نه group-XX)
-**⚠️ CRITICAL - کلمات عمومی:** "سه شرکت دارویی"، "چند بانک"، "یک شرکت" → کلمات عمومی هستند، موجودیت نیستند (حفظ شوند)
-**⚠️ CRITICAL - نام‌های مستعار:** "فاما" همان "فولاد مبارکه اصفهان" است → هر دو company-01
-**شخص:** مهدی اخوان بهابادی، محمدرضا فرزین، ابوالفضل نجارزاده
-**عدد:** 37، 70، 677، 73.7، 178 (هر عددی)
-**درصد:** 37 درصدی، 15 درصدی، 53 درصد، 43%
-## **مثال‌های صحیح:**
-### **مثال 1 (الگوی کامل):**
-**ورودی:** مهدی اخوان بهابادی، مدیرعامل همراه اول، اعلام کرد درآمد عملیاتی شرکت با رشد 37 درصدی به 70 هزار و 677 میلیارد تومان رسیده است. سود خالص 7101 میلیارد تومان و تلفیقی گروه همراه اول 8003 میلیارد تومان شد.
-**خروجی صحیح:** person-01، مدیرعامل company-01، اعلام کرد درآمد عملیاتی شرکت با رشد percent-01 به amount-01 رسیده است. سود خالص amount-02 و تلفیقی گروه company-01 amount-03 شد.
-### **مثال 2:**
-**ورودی:** بانک مرکزی و بانک ملی با همکاری محمدرضا فرزین، 60 درصد سپرده‌ها را مدیریت کردند.
-**خروجی:** company-01 و company-02 با همکاری person-01، percent-01 سپرده‌ها را مدیریت کردند.
-## **موارد حفظ شده:**
-- تاریخ‌ها: 1404/04/23، 30 آذر 1403، پاییز 1401
-- فصل‌های سال: پاییز، بهار، تابستان، زمستان
-- عناوین شغلی: مدیرعامل، رئیس کل، مدیرکل
-- واحدها: میلیارد تومان، همت، ریال، ماه، سال
-- مکان‌ها: تهران، اصفهان، ایران
-- کلمات عمومی: "سه شرکت دارویی"، "چند بانک"، "یک شرکت"، "مراکز درمانی"
-- دوره‌های زمانی: "۵ ماهه سال"، "۹ ماهه"، "۳ ماهه اول"
-## **ممنوع:**
-- کلمات انگلیسی اضافی
-- تغییر ساختار جمله
-- حذف یا اضافه کردن کلمات
-- استفاده از group-XX - همه گروه‌ها باید company-XX باشند
-**فقط متن ناشناس‌شده را برگردان - هیچ توضیح اضافی نیاز نیست.**
-"""
-    def _make_api_request(self, text: str, max_retries: int = 5) -> Dict[str, Any]:
-        """ارسال درخواست به Cerebras API با retry logic"""
-        headers = {
-            "Authorization": f"Bearer {self.config.api_key}",
-            "Content-Type": "application/json"
-        }
-        payload = {
-            "messages": [
-                {"role": "system", "content": self.system_prompt},
-                {"role": "user", "content": text}
-            ],
-            "model": self.config.model,
-            "temperature": self.config.temperature,
-            "max_tokens": self.config.max_tokens
-        }
-        for attempt in range(max_retries):
-            try:
-                response = requests.post(
-                    f"{self.config.base_url}/chat/completions",
-                    headers=headers,
-                    json=payload,
-                    timeout=60
-                )
-                response.raise_for_status()
-                return response.json()
-            except requests.exceptions.RequestException as e:
-                if "429" in str(e):
-                    # Rate limit - exponential backoff
-                    wait_time = (2 ** attempt) * 10  # 10, 20, 40, 80, 160 ثانیه
-                    print(f"⚠️ Rate limit! تلاش {attempt + 1}/{max_retries}. صبر {wait_time} ثانیه...")
-                    time.sleep(wait_time)
-                    if attempt == max_retries - 1:
-                        raise Exception(f"خطا در ارتباط با Cerebras API پس از {max_retries} تلاش: {str(e)}")
-                else:
-                    raise Exception(f"خطا در ارتباط با Cerebras API: {str(e)}")
-    def _clean_markdown(self, content: str) -> str:
-        """پاک کردن markdown از پاسخ"""
-        if "```" in content:
-            lines = content.split('\n')
-            clean_lines = []
-            skip = False
-            for line in lines:
-                if line.strip().startswith('```'):
-                    skip = not skip
-                    continue
-                if not skip:
-                    clean_lines.append(line)
-            content = '\n'.join(clean_lines)
-        return content
-    def _analyze_anonymized_text(self, text: str) -> Dict[str, Any]:
-        """تحلیل متن ناشناس‌سازی شده"""
-        companies = re.findall(r'company-(\d+)', text)
-        persons = re.findall(r'person-(\d+)', text)
-        amounts = re.findall(r'amount-(\d+)', text)
-        percents = re.findall(r'percent-(\d+)', text)
-        statistics = {
-            "company": len(set(companies)),
-            "person": len(set(persons)),
-            "amount": len(set(amounts)),
-            "percent": len(set(percents)),
-            "total_replacements": len(companies) + len(persons) + len(amounts) + len(percents)
-        }
-        entities = {
-            "companies": sorted(list(set(companies)), key=lambda x: int(x)),
-            "persons": sorted(list(set(persons)), key=lambda x: int(x)),
-            "amounts": sorted(list(set(amounts)), key=lambda x: int(x)),
-            "percents": sorted(list(set(percents)), key=lambda x: int(x))
-        }
-        detailed_analysis = {
-            "preserved_dates": len(re.findall(r'\d{4}/\d{1,2}/\d{1,2}|\d{1,2}\s+\w+\s+\d{4}', text)),
-            "preserved_times": len(re.findall(r'\d{1,2}:\d{2}', text)),
-            "financial_indicators": len(re.findall(r'\b(EPS|P/E|ARPU|NPL|ROE|ROA)\b', text)),
-            "units_preserved": len(re.findall(r'(میلیارد|میلیون|هزار|تومان|ریال|درهم|دلار|یورو|تن|کیلوگرم)', text))
-        }
-        return {
-            "statistics": statistics,
-            "entities": entities,
-            "detailed_analysis": detailed_analysis
-        }
-    def _validate_anonymized_text(self, text: str) -> Dict[str, Any]:
-        """اعتبارسنجی پیشرفته متن ناشناس‌شده"""
-        companies = re.findall(r'company-(\d+)', text)
-        persons = re.findall(r'person-(\d+)', text)
-        amounts = re.findall(r'amount-(\d+)', text)
-        percents = re.findall(r'percent-(\d+)', text)
-        validation_issues = []
-        for entity_type, indices in [
-            ("company", companies),
-            ("person", persons),
-            ("amount", amounts),
-            ("percent", percents)
-        ]:
-            if indices:
-                unique_indices = sorted(list(set([int(x) for x in indices])))
-                if unique_indices[0] != 1:
-                    validation_issues.append(f"اندیس {entity_type} از 01 شروع نشده")
-                expected = list(range(1, len(unique_indices) + 1))
-                if unique_indices != expected:
-                    validation_issues.append(f"اندیس‌های {entity_type} پیوسته نیستند")
-        return {
-            "is_valid": len(validation_issues) == 0,
-            "issues": validation_issues,
-            "entity_counts": {
-                "company": len(set(companies)),
-                "person": len(set(persons)),
-                "amount": len(set(amounts)),
-                "percent": len(set(percents))
-            }
-        }
-    def anonymize_text(self, text: str) -> Dict[str, Any]:
-        """ناشناس‌سازی متن با استفاده از Cerebras"""
-        if not text or not text.strip():
-            return {
-                "success": False,
-                "error": "متن ورودی خالی است"
-            }
-        try:
-            response = self._make_api_request(text)
-            if "choices" not in response or not response["choices"]:
-                return {
-                    "success": False,
-                    "error": "پاسخ نامعتبر از API"
-                }
-            content = response["choices"][0]["message"]["content"]
-            content = self._clean_markdown(content)
-            content = content.strip()
-            analysis = self._analyze_anonymized_text(content)
-            return {
-                "success": True,
-                "anonymized_text": content,
-                "entities": analysis["entities"],
-                "statistics": analysis["statistics"],
-                "detailed_analysis": analysis["detailed_analysis"],
-                "usage": response.get("usage", {}),
-                "quality_check": self._validate_anonymized_text(content)
-            }
-        except Exception as e:
-            return {
-                "success": False,
-                "error": f"خطا در پردازش: {str(e)}"
-            }
-    def anonymize_batch(self, texts: List[str], progress_callback=None) -> List[Dict[str, Any]]:
-        """ناشناس‌سازی دسته‌ای متون"""
-        results = []
-        total = len(texts)
-        for idx, text in enumerate(texts):
-            if progress_callback:
-                progress_callback((idx + 1) / total, f"پردازش سطر {idx + 1} از {total}")
-            result = self.anonymize_text(text)
-            results.append(result)
-            # تاخیر برای جلوگیری از rate limiting
-            if idx < total - 1:
-                time.sleep(3)  # افزایش به 3 ثانیه برای جلوگیری از rate limit
-        return results
-def create_advanced_interface():
-    """ایجاد رابط کاربری پیشرفته با قابلیت پردازش دسته‌ای"""
-    api_key_available = bool(os.getenv("CEREBRAS_API_KEY"))
-    custom_css = """
-    .gradio-container {
-        font-family: 'Tahoma', 'Arial', sans-serif !important;
-        direction: rtl;
-        max-width: 1400px;
-        margin: 0 auto;
-    }
-    .result-box {
-        background-color: #f8f9fa;
-        border: 2px solid #e9ecef;
-        border-radius: 12px;
-        padding: 20px;
-        margin: 10px 0;
-    }
-    .warning-box {
-        background-color: #fff3cd;
-        border: 2px solid #ffeaa7;
-        border-radius: 12px;
-        padding: 15px;
-        color: #856404;
-        margin: 10px 0;
-    }
-    .success-box {
-        background-color: #d4edda;
-        border: 2px solid #c3e6cb;
-        border-radius: 12px;
-        padding: 15px;
-        color: #155724;
-        margin: 10px 0;
-    }
-    .batch-progress {
-        background-color: #e3f2fd;
-        border: 2px solid #90caf9;
-        border-radius: 12px;
-        padding: 15px;
-        margin: 10px 0;
-    }
-    """
-    with gr.Blocks(css=custom_css, title="ناشناس‌ساز پیشرفته متن فارسی با Cerebras", theme=gr.themes.Soft()) as interface:
-        gr.Markdown("""
-        # 🔒 سیستم پیشرفته ناشناس‌سازی متون مالی/خبری فارسی
-        ### ⚡ قدرت‌گرفته از Cerebras AI - سریع‌ترین استنباط LLM در جهان!
-        """)
-        # API Key input
-        if api_key_available:
-            gr.Markdown("""
-            <div class="success-box">
-            ✅ <strong>سیستم آماده است</strong> - کلید API تنظیم شده
-            </div>
-            """)
-            api_key_input = gr.Textbox(visible=False, value="")
-        else:
-            gr.Markdown("""
-            <div class="warning-box">
-            ⚠️ <strong>کلید API تنظیم نشده</strong><br>
-            لطفاً کلید Cerebras API خود را در زیر وارد کنید
-            </div>
-            """)
-            api_key_input = gr.Textbox(
-                label="🔑 کلید Cerebras API",
-                placeholder="csk-...",
-                type="password"
-            )
-        # تب‌های اصلی
-        with gr.Tabs() as tabs:
-            # ===============================
-            # تب 1: پردازش تکی
-            # ===============================
-            with gr.TabItem("📝 پردازش تکی"):
-                with gr.Row():
-                    with gr.Column(scale=1):
-                        input_text = gr.Textbox(
-                            label="📝 متن ورودی",
-                            placeholder="متن مالی یا خبری خود را اینجا وارد کنید...",
-                            lines=12,
-                            max_lines=25
-                        )
-                        with gr.Row():
-                            anonymize_btn = gr.Button("🔒 ناشناس‌سازی", variant="primary", size="lg")
-                            clear_btn = gr.Button("🗑️ پاک کردن", variant="secondary")
-                    with gr.Column(scale=1):
-                        output_text = gr.Textbox(
-                            label="🎯 متن ناشناس‌سازی شده",
-                            lines=12,
-                            max_lines=25,
-                            elem_classes=["result-box"]
-                        )
-                        copy_btn = gr.Button("📋 کپی متن", variant="secondary", size="sm")
-                with gr.Row():
-                    with gr.Column(scale=1):
-                        statistics_output = gr.Markdown(label="📊 آمار")
-                    with gr.Column(scale=1):
-                        quality_output = gr.Markdown(label="✅ کنترل کیفیت")
-                with gr.Accordion("📋 جزئیات موجودیت‌ها", open=False):
-                    entities_output = gr.Markdown()
-                with gr.Accordion("📈 تحلیل تفصیلی", open=False):
-                    detailed_analysis_output = gr.Markdown()
-                usage_output = gr.Markdown()
-                copy_output = gr.Textbox(visible=False, label="متن کپی شده")
-            # ===============================
-            # تب 2: پردازش دسته‌ای
-            # ===============================
-            with gr.TabItem("📁 پردازش دسته‌ای CSV"):
-                gr.Markdown("""
-                ### 📁 پردازش دسته‌ای فایل CSV
-                فایل CSV خود را آپلود کنید، ستون متن را انتخاب کنید و تمام سطرها به صورت خودکار ناشناس‌سازی می‌شوند.
-                """)
-                with gr.Row():
-                    with gr.Column(scale=1):
-                        csv_file = gr.File(
-                            label="📤 آپلود فایل CSV",
-                            file_types=[".csv"],
-                            type="filepath"
-                        )
-                        text_column = gr.Dropdown(
-                            label="📋 انتخاب ستون متن",
-                            choices=[],
-                            interactive=True
-                        )
-                        output_column_name = gr.Textbox(
-                            label="🏷️ نام ستون خروجی",
-                            value="anonymized_text",
-                            placeholder="نام ستون جدید برای متن ناشناس‌شده"
-                        )
-                        with gr.Row():
-                            batch_btn = gr.Button("🚀 شروع پردازش دسته‌ای", variant="primary", size="lg")
-                            cancel_btn = gr.Button("❌ لغو", variant="stop", size="sm")
-                    with gr.Column(scale=1):
-                        batch_progress = gr.Markdown(
-                            value="⏳ در انتظار آپلود فایل...",
-                            elem_classes=["batch-progress"]
-                        )
-                        batch_stats = gr.Markdown(label="📊 آمار پردازش")
-                # پیش‌نمایش داده‌ها
-                with gr.Accordion("👁️ پیش‌نمایش داده‌ها", open=True):
-                    preview_df = gr.Dataframe(
-                        label="پیش‌نمایش 5 سطر اول",
-                        headers=["ستون‌ها"],
-                        interactive=False
-                    )
-                # نتایج و دانلود
-                with gr.Row():
-                    result_df = gr.Dataframe(
-                        label="📊 نتایج پردازش (10 سطر اول)",
-                        interactive=False,
-                        visible=False
-                    )
-                download_btn = gr.File(
-                    label="📥 دانلود فایل خروجی",
-                    visible=False
-                )
-                # لاگ خطاها
-                with gr.Accordion("⚠️ گزارش خطاها", open=False):
-                    error_log = gr.Markdown()
-        # ===============================
-        # راهنما
-        # ===============================
-        with gr.Accordion("📖 راهنمای استفاده", open=False):
-            gr.Markdown("""
-            ## 🎯 ویژگی‌های سیستم:
-            ### 📝 پردازش تکی:
-            - متن خود را وارد کنید و روی دکمه ناشناس‌سازی کلیک کنید
-            - نتایج شامل آمار، کنترل کیفیت و جزئیات موجودیت‌ها است
-            ### 📁 پردازش دسته‌ای CSV:
-            1. فایل CSV خود را آپلود کنید
-            2. ستون حاوی متن را انتخاب کنید
-            3. نام ستون خروجی را مشخص کنید
-            4. روی «شروع پردازش دسته‌ای» کلیک کنید
-            5. پس از اتمام، فایل خروجی را دانلود کنید
-            ### 🏷️ انواع برچسب‌ها:
-            - **company-XX:** شرکت‌ها، سازمان‌ها، برندها
-            - **person-XX:** اشخاص حقیقی
-            - **amount-XX:** اعداد و مبالغ
-            - **percent-XX:** درصدها
-            ### ⚡ نکات مهم:
-            - حداکثر 1000 سطر در هر فایل پشتیبانی می‌شود
-            - فایل CSV باید با encoding UTF-8 ذخیره شده باشد
-            - پردازش هر سطر حدود 2-3 ثانیه زمان می‌برد
-            """)
-        # ===============================
-        # توابع کمکی
-        # ===============================
-        def load_csv_columns(file_path):
-            """بارگذاری ستون‌های فایل CSV"""
-            if file_path is None:
-                return gr.Dropdown(choices=[]), None, "⏳ در انتظار آپلود فایل..."
-            try:
-                df = pd.read_csv(file_path, encoding='utf-8')
-            except:
-                try:
-                    df = pd.read_csv(file_path, encoding='utf-8-sig')
-                except:
-                    df = pd.read_csv(file_path, encoding='cp1256')
-            columns = df.columns.tolist()
-            preview = df.head(5)
-            status = f"✅ فایل بارگذاری شد | **{len(df)}** سطر | **{len(columns)}** ستون"
-            return gr.Dropdown(choices=columns, value=columns[0] if columns else None), preview, status
-        def process_single_text(text, api_key):
-            """پردازش تکی متن"""
-            if not text or not text.strip():
-                return "", "⚠️ لطفاً متن وارد کنید", "", "", "", ""
-            try:
-                key = api_key if api_key else os.getenv("CEREBRAS_API_KEY")
-                anonymizer = AdvancedCerebrasAnonymizer(api_key=key)
-                result = anonymizer.anonymize_text(text)
-                if not result["success"]:
-                    return "", f"❌ خطا: {result['error']}", "", "", "", ""
-                # آمار
-                stats = result["statistics"]
-                stats_md = f"""
-### 📊 آمار موجودیت‌ها:
-| نوع | تعداد |
-|-----|-------|
-| 🏢 شرکت/سازمان | {stats['company']} |
-| 👤 شخص | {stats['person']} |
-| 💰 مبلغ/عدد | {stats['amount']} |
-| 📈 درصد | {stats['percent']} |
-| **کل جایگزینی‌ها** | **{stats['total_replacements']}** |
-"""
-                # کنترل کیفیت
-                quality = result["quality_check"]
-                if quality["is_valid"]:
-                    quality_md = "✅ **کیفیت تأیید شد** - بدون مشکل"
-                else:
-                    issues = "\n".join([f"- {issue}" for issue in quality["issues"]])
-                    quality_md = f"⚠️ **مشکلات شناسایی شده:**\n{issues}"
-                # موجودیت‌ها
-                entities = result["entities"]
-                entities_md = f"""
-**شرکت‌ها:** {', '.join([f'company-{x}' for x in entities['companies']]) or 'ندارد'}
-**اشخاص:** {', '.join([f'person-{x}' for x in entities['persons']]) or 'ندارد'}
-**مبالغ:** {', '.join([f'amount-{x}' for x in entities['amounts']]) or 'ندارد'}
-**درصدها:** {', '.join([f'percent-{x}' for x in entities['percents']]) or 'ندارد'}
-"""
-                # تحلیل تفصیلی
-                detailed = result["detailed_analysis"]
-                detailed_md = f"""
-| شاخص | مقدار |
-|------|-------|
-| تاریخ‌های حفظ شده | {detailed['preserved_dates']} |
-| شاخص‌های مالی | {detailed['financial_indicators']} |
-| واحدهای حفظ شده | {detailed['units_preserved']} |
-"""
-                # مصرف
-                usage = result.get("usage", {})
-                usage_md = f"⚡ **توکن‌ها:** ورودی: {usage.get('prompt_tokens', '-')} | خروجی: {usage.get('completion_tokens', '-')}"
-                return (
-                    result["anonymized_text"],
-                    stats_md,
-                    quality_md,
-                    entities_md,
-                    detailed_md,
-                    usage_md
-                )
-            except Exception as e:
-                return "", f"❌ خطا: {str(e)}", "", "", "", ""
-        def process_batch_csv(file_path, text_col, output_col, api_key, progress=gr.Progress()):
-            """پردازش دسته‌ای فایل CSV"""
-            if file_path is None:
-                return None, "❌ لطفاً فایل CSV آپلود کنید", "", gr.File(visible=False), None
-            if not text_col:
-                return None, "❌ لطفاً ستون متن را انتخاب کنید", "", gr.File(visible=False), None
-            try:
-                # خواندن فایل
-                try:
-                    df = pd.read_csv(file_path, encoding='utf-8')
-                except:
-                    try:
-                        df = pd.read_csv(file_path, encoding='utf-8-sig')
-                    except:
-                        df = pd.read_csv(file_path, encoding='cp1256')
-                if text_col not in df.columns:
-                    return None, f"❌ ستون '{text_col}' در فایل یافت نشد", "", gr.File(visible=False), None
-                # محدودیت تعداد سطرها
-                max_rows = 1000
-                if len(df) > max_rows:
-                    return None, f"❌ تعداد سطرها ({len(df)}) از حداکثر مجاز ({max_rows}) بیشتر است", "", gr.File(visible=False), None
-                # ایجاد anonymizer
-                key = api_key if api_key else os.getenv("CEREBRAS_API_KEY")
-                if not key:
-                    return None, "❌ کلید API تنظیم نشده", "", gr.File(visible=False), None
-                anonymizer = AdvancedCerebrasAnonymizer(api_key=key)
-                # پردازش سطرها
-                total = len(df)
-                anonymized_texts = []
-                error_rows = []
-                success_count = 0
-                progress(0, desc="شروع پردازش...")
-                for idx, row in df.iterrows():
-                    text = str(row[text_col])
-                    progress((idx + 1) / total, desc=f"پردازش سطر {idx + 1} از {total}")
-                    if not text or text.strip() == '' or text.lower() == 'nan':
-                        anonymized_texts.append("")
-                        continue
-                    result = anonymizer.anonymize_text(text)
-                    if result["success"]:
-                        anonymized_texts.append(result["anonymized_text"])
-                        success_count += 1
-                    else:
-                        anonymized_texts.append(f"[خطا: {result['error']}]")
-                        error_rows.append(f"سطر {idx + 1}: {result['error']}")
-                    # تاخیر برای جلوگیری از rate limit
-                    time.sleep(3)  # افزایش به 3 ثانیه
-                # اضافه کردن ستون جدید
-                output_col_name = output_col if output_col else "anonymized_text"
-                df[output_col_name] = anonymized_texts
-                # ذخیره فایل خروجی
-                output_path = "/tmp/anonymized_output.csv"
-                df.to_csv(output_path, index=False, encoding='utf-8-sig')
-                # آمار
-                stats_md = f"""
-### 📊 آمار پردازش:
-| شاخص | مقدار |
-|------|-------|
-| کل سطرها | {total} |
-| پردازش موفق | {success_count} |
-| خطا | {len(error_rows)} |
-| درصد موفقیت | {(success_count/total*100):.1f}% |
-"""
-                # گزارش خطاها
-                error_md = ""
-                if error_rows:
-                    error_md = "### ⚠️ خطاهای مشاهده شده:\n" + "\n".join([f"- {e}" for e in error_rows[:20]])
-                    if len(error_rows) > 20:
-                        error_md += f"\n... و {len(error_rows) - 20} خطای دیگر"
-                # نمایش نتایج
-                result_preview = df[[text_col, output_col_name]].head(10)
-                return (
-                    result_preview,
-                    f"✅ **پردازش کامل شد!** | {success_count} سطر با موفقیت",
-                    stats_md,
-                    gr.File(value=output_path, visible=True),
-                    error_md
-                )
-            except Exception as e:
-                return None, f"❌ خطا در پردازش: {str(e)}", "", gr.File(visible=False), str(e)
-        def copy_text(text_to_copy):
-            """کپی متن"""
-            if not text_to_copy or not text_to_copy.strip():
-                return gr.Textbox(visible=False), "⚠️ متنی برای کپی وجود ندارد"
-            return gr.Textbox(value=text_to_copy, visible=True), "✅ متن کپی شد"
-        def clear_all():
-            """پاک کردن فیلدها"""
-            return "", "", "", "", "", "", "", gr.Textbox(visible=False)
-        # ===============================
-        # اتصال رویدادها
-        # ===============================
-        # پردازش تکی
-        anonymize_btn.click(
-            fn=process_single_text,
-            inputs=[input_text, api_key_input],
-            outputs=[output_text, statistics_output, quality_output, entities_output, detailed_analysis_output, usage_output]
-        )
-        copy_btn.click(
-            fn=copy_text,
-            inputs=[output_text],
-            outputs=[copy_output, statistics_output]
-        )
-        clear_btn.click(
-            fn=clear_all,
-            outputs=[input_text, output_text, statistics_output, quality_output, entities_output, detailed_analysis_output, usage_output, copy_output]
-        )
-        # پردازش دسته‌ای
-        csv_file.change(
-            fn=load_csv_columns,
-            inputs=[csv_file],
-            outputs=[text_column, preview_df, batch_progress]
-        )
-        batch_btn.click(
-            fn=process_batch_csv,
-            inputs=[csv_file, text_column, output_column_name, api_key_input],
-            outputs=[result_df, batch_progress, batch_stats, download_btn, error_log]
-        )
-        # مثال‌ها
-        gr.Examples(
-            examples=[
-                ["مهدی اخوان بهابادی، مدیرعامل همراه اول، اعلام کرد درآمد عملیاتی شرکت با رشد 37 درصدی به 70 هزار و 677 میلیارد تومان رسیده است."],
-                ["بانک مرکزی و بانک ملی با همکاری محمدرضا فرزین، 60 درصد سپرده‌ها را مدیریت کردند."],
-                ["سازمان تامین اجتماعی دارای سه شرکت دارویی است که از مراکز درمانی وابسته به وزارت بهداشت مطالباتی دارند."]
-            ],
-            inputs=input_text,
-            label="📚 مثال‌ها"
-        )
-        return interface
-# اجرای برنامه
-if __name__ == "__main__":
-    interface = create_advanced_interface()
-    interface.launch(
-        server_name="0.0.0.0",
-        server_port=7860,
-        share=True,
-        show_error=True
-    )