Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Nov 8, 2025

Commit

344b293

verified ·

1 Parent(s): 35e30c2

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -566

app.py DELETED Viewed

@@ -1,566 +0,0 @@
-import gradio as gr
-import re
-import os
-import requests
-import logging
-from typing import Dict, List, Tuple, Set
-import json
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-class AnonymizerCerebrasEnhanced:
-    def __init__(self, api_key: str = None):
-        self.api_key = api_key or os.getenv("CEREBRAS_API_KEY")
-        self.mapping_table = {}
-        self.counters = {
-            'company': 0, 'person': 0, 'amount': 0, 'phone': 0,
-            'email': 0, 'id_number': 0, 'date': 0, 'location': 0,
-            'percent': 0
-        }
-        self.seen_entities = {}  # برای ثبات نگاشت
-        if not self.api_key:
-            raise ValueError("❌ کلید API Cerebras یافت نشد!")
-        logger.info("✅ Anonymizer Enhanced مقداردهی شد")
-    def get_system_prompt(self) -> str:
-        """ایجاد دستورالعمل سیستمی بهینه شده"""
-        return """شما یک سیستم ناشناس‌سازی متون مالی فارسی هستید.
-⚠️ CRITICAL: در پاسخ نهایی خود، فقط و فقط متن ناشناس‌سازی شده را برگردانید، بدون هیچ توضیح، تحلیل، یا تگ اضافی.
-## قوانین اندیس‌گذاری:
-1. **ترتیب پیوسته**: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
-2. **ثبات**: اگر "همراه اول" → company-01 شد، در تمام متن همان باشد
-3. **نام مستعار**: "فاما" = "فولاد مبارکه" → هر دو company-01
-4. **اشاره ضمنی**: "این شرکت" اگر به company-01 اشاره دارد → company-01 (نه company-02)
-## قوانین شناسایی اسام (CRITICAL):
-### برای شخصیت (PERSON):
-- **نام کامل**: "علی خسروی" → person-01
-- **نام خانوادگی تنهایی**: "خسروی" اگر قبلاً "علی خسروی" دیده شده → person-01 (همان نفر)
-- **نام کوچک تنهایی**: "علی" اگر قبلاً "علی خسروی" دیده شده → person-01 (همان نفر)
-- اگر "خسروی" بعداً بیاید: آن را به person-01 جایگزین کن (نه person-02)
-- نام‌های جزئی تکرار شونده باید به یک توکن منجر شوند
-### برای شرکت (COMPANY):
-- **نام کامل**: "شرکت پتروشیمی غدیر" → company-01
-- **بدون کلمه شرکت**: "پتروشیمی غدیر" اگر قبلاً "شرکت پتروشیمی غدیر" دیده شده → company-01 (همان شرکت)
-- **نام اختصاری**: "پتروشیمی" اگر قبلاً "پتروشیمی غدیر" دیده شده → company-01
-- **بدون پیشوند**: "غدیر" اگر قبلاً "پتروشیمی غدیر" دیده شده → company-01
-- بانک، گروه، سازمان هم به عنوان شرکت شناخته شوند
-## انواع موجودیت:
-- **company-XX**: شرکت‌ها، بانک‌ها، سازمان‌ها، گروه‌ها
-- **person-XX**: نام و نام خانوادگی اشخاص
-- **amount-XX**: مبالغ - واحد را حفظ کن
-- **percent-XX**: درصدها
-- **phone-XX**: شماره تلفن
-- **email-XX**: آدرس ایمیل
-- **date-XX**: تاریخ و دوره زمانی مشخص (نه "ماهه")
-- **location-XX**: شهر، استان، کشور
-- **id_number-XX**: شماره شناسایی، کد ملی
-## قوانین کلیدی:
-1. **بازرس = شرکت**: "بازرس شرکت X" → بازرس حفظ، X = company-XX
-2. **واحدها**: "amount-01 میلیارد تومان" ✅ (واحد را حفظ کن)
-3. **گروه‌ها**: "گروه X" → company-XX
-4. **کلمات عمومی حفظ**: "سه شرکت" → حفظ (فقط نام شرکت را ناشناس کن)
-5. **دوره زمانی حفظ**: "۵ ماهه" → حفظ (فقط تاریخ مشخص = date-XX)
-6. **بازه = یک entity**: "یک تا 1.5 میلیون" → amount-01
-7. **درصدها**: شناسایی تمام درصدها (خصوصاً بین 50 تا 70)
-8. **تمام ارقام**: شناسایی تمام ارقام موجود در متن به عنوان amount-XX
-## فرمت خروجی JSON:
-[
-  {"text": "متن دقیق موجودیت", "type": "company", "original": "نام اصلی"},
-  {"text": "...", "type": "person", "original": "..."},
-  ...
-]
-✅ فقط متن ناشناس‌شده را برگردانید."""
-    def get_user_prompt(self, text: str) -> str:
-        """تشکیل پرامپت کاربر"""
-        return f"""متن مالی فارسی زیر را تجزیه و تحلیل کنید. تمام موجودیت‌های حساس را شناسایی کنید و یک JSON Array برگردانید.
-متن:
-{text}
-**قوانین شناسایی مهم**:
-1. **نام‌های جزئی برای شخص**:
-   - اگر "علی خسروی" نام کامل بیاید
-   - و بعداً فقط "خسروی" یا فقط "علی" بیاید
-   - هر سه را یک موجودیت (person-01) بشناسید
-   - در JSON: {"text": "خسروی", "type": "person", "original": "علی خسروی"}
-2. **نام‌های شرکت بدون پیشوند**:
-   - اگر "شرکت پتروشیمی غدیر" بیاید
-   - و بعداً "پتروشیمی غدیر" یا فقط "پتروشیمی" یا فقط "غدیر"
-   - همه را یک موجودیت (company-01) بشناسید
-   - در JSON: {"text": "پتروشیمی غدیر", "type": "company", "original": "شرکت پتروشیمی غدیر"}
-3. **کلمات پیشوند حفظ‌شونده**:
-   - شرکت، بانک، گروه، سازمان را حفظ کنید
-   - فقط نام اصلی را ناشناس کنید
-4. **تکراری و متشابه**:
-   - اگر چند بار یک نام (به صورت‌های مختلف) تکرار شود، یک id بدهید
-   - کلمات عمومی را حفظ کنید
-   - واحدها را حفظ کنید
-**مثال**:
-ورودی: "علی محمدی و محمدی در شرکت پتروشیمی غدیر و پتروشیمی غدیر کار کردند."
-خروجی JSON:
-[
-  {"text": "علی محمدی", "type": "person", "original": ""},
-  {"text": "محمدی", "type": "person", "original": "علی محمدی"},
-  {"text": "شرکت پتروشیمی غدیر", "type": "company", "original": ""},
-  {"text": "پتروشیمی غدیر", "type": "company", "original": "شرکت پتروشیمی غدیر"}
-]
-**مهم**:
-- اگر چند بار یک نام تکرار شود، یک id بدهید
-- کلمات عمومی را حفظ کنید
-- واحدها را حفظ کنید
-- نام‌های جزئی را با نام کامل یکسان‌سازی کنید
-- فقط JSON برگردانید!
-یک JSON Array برگردانید. هر عنصر دارای:
-- "text": متن دقیق استخراج شده
-- "type": نوع (company, person, amount, percent, phone, email, date, location, id_number)
-- "original": توضیح اضافی (نام کامل اگر جزئی بود، یا پیشوند اگر حذف شده بود)"""
-    def call_cerebras(self, text: str) -> List[Dict]:
-        """فراخوانی Cerebras API با پرامپت بهبود شده"""
-        logger.info("🔄 فراخوانی Cerebras API با دستورالعمل قوی...")
-        system_prompt = self.get_system_prompt()
-        user_prompt = self.get_user_prompt(text)
-        try:
-            response = requests.post(
-                "https://api.cerebras.ai/v1/chat/completions",
-                headers={
-                    "Authorization": f"Bearer {self.api_key}",
-                    "Content-Type": "application/json"
-                },
-                json={
-                    "model": "llama-3.3-70b",
-                    "messages": [
-                        {"role": "system", "content": system_prompt},
-                        {"role": "user", "content": user_prompt}
-                    ],
-                    "max_tokens": 4000,
-                    "temperature": 0.1
-                },
-                timeout=30
-            )
-            if response.status_code != 200:
-                logger.error(f"❌ خطای API Cerebras: {response.text}")
-                return []
-            result = response.json()
-            content = result['choices'][0]['message']['content']
-            try:
-                # تمیز کردن محتوا از markdown اگر وجود داشته باشد
-                content = content.replace("```json", "").replace("```", "").strip()
-                entities = json.loads(content)
-                if not isinstance(entities, list):
-                    entities = []
-                logger.info(f"✅ {len(entities)} موجودیت استخراج شد")
-                return entities
-            except json.JSONDecodeError:
-                logger.error(f"❌ خطا در JSON parsing: {content[:200]}")
-                return []
-        except Exception as e:
-            logger.error(f"❌ خطا Cerebras: {e}")
-            return []
-    def get_placeholder(self, entity_type: str) -> str:
-        """تولید placeholder با format جدید"""
-        type_lower = entity_type.lower()
-        if type_lower not in self.counters:
-            type_lower = 'amount'
-        self.counters[type_lower] += 1
-        return f"{type_lower}-{self.counters[type_lower]:02d}"
-    def apply_partial_matching(self, entities: List[Dict]) -> List[Dict]:
-        """
-        شناسایی و یکسان‌سازی نام‌های جزئی
-        مثل: "علی خسروی" و "خسروی" یک موجودیت هستند
-        یا: "شرکت پتروشیمی غدیر" و "پتروشیمی غدیر" یک موجودیت هستند
-        """
-        full_names = {}
-        partial_to_full = {}
-        # اول: تمام نام‌های کامل را شناسایی کنید
-        for entity in entities:
-            entity_type = entity.get('type', 'amount').lower()
-            text = entity.get('text', '').strip()
-            if entity_type == 'person' and len(text.split()) >= 2:
-                # نام کامل (حداقل دو کلمه)
-                full_names[text] = entity
-                # تمام جزء‌های نام را ذخیره کنید
-                parts = text.split()
-                for part in parts:
-                    if part not in partial_to_full:
-                        partial_to_full[part] = text
-            elif entity_type == 'company':
-                # برای شرکت‌ها: نام‌های بدون پیشوند
-                full_names[text] = entity
-                # حذف "شرکت"، "بانک"، "گروه"، "سازمان"
-                prefixes = ['شرکت', 'بانک', 'گروه', 'سازمان', 'موسسه', 'مؤسسه']
-                cleaned_text = text
-                for prefix in prefixes:
-                    if cleaned_text.startswith(prefix + ' '):
-                        cleaned_text = cleaned_text[len(prefix):].strip()
-                        break
-                if cleaned_text != text and cleaned_text:
-                    if cleaned_text not in partial_to_full:
-                        partial_to_full[cleaned_text] = text
-                # همچنین آخرین کلمه(های شرکت) را ذخیره کنید
-                parts = cleaned_text.split()
-                for part in parts:
-                    if part and part not in partial_to_full:
-                        partial_to_full[part] = text
-        # دوم: نام‌های جزئی را با نام کامل یکسان‌سازی کنید
-        for entity in entities:
-            entity_type = entity.get('type', 'amount').lower()
-            text = entity.get('text', '').strip()
-            if entity_type in ['person', 'company']:
-                # اگر این یک نام جزئی است
-                if text in partial_to_full and text != partial_to_full[text]:
-                    # آن را به نام کامل نگاشت کنید
-                    full_name = partial_to_full[text]
-                    if not entity.get('original'):
-                        entity['original'] = full_name
-        return entities
-    def anonymize(self, text: str) -> Tuple[str, List]:
-        """ناشناس‌سازی متن با قوانین ثبات"""
-        logger.info("🚀 شروع ناشناس‌سازی متن...")
-        # تنظیف
-        self.mapping_table = {}
-        self.seen_entities = {}
-        for key in self.counters:
-            self.counters[key] = 0
-        # دریافت موجودیت‌ها
-        entities = self.call_cerebras(text)
-        if not entities:
-            logger.warning("⚠️ موجودیتی شناسایی نشد")
-            return text, []
-        # اعمال تطابق نام‌های جزئی
-        logger.info("Matching partial names...")
-        entities = self.apply_partial_matching(entities)
-        logger.info("🔄 Processing entities...")
-        # جایگزینی با قانون ثبات
-        anonymized = text
-        replacements = []
-        for entity in entities:
-            entity_type = entity.get('type', 'amount').lower()
-            entity_text = entity.get('text', '').strip()
-            original_info = entity.get('original', '')
-            if not entity_text:
-                continue
-            # بررسی اگر این موجودیت قبلاً دیده شده است
-            entity_key = (entity_type, entity_text.lower())
-            # اگر این نام جزئی است (دارای original)، برای یکسان‌سازی
-            # نام کامل را نیز بررسی کنید
-            token = None
-            if original_info:
-                # اول چک کنید نام کامل دیده شده یا نه
-                full_key = (entity_type, original_info.lower())
-                if full_key in self.seen_entities:
-                    token = self.seen_entities[full_key]
-                    logger.info(f"🔄 نام جزئی: {entity_text} ← {original_info} → {token}")
-                else:
-                    # نام کامل هنوز دیده نشده، پس نام جزئی را ذخیره کنید
-                    if entity_key in self.seen_entities:
-                        token = self.seen_entities[entity_key]
-                    else:
-                        token = self.get_placeholder(entity_type)
-                        self.seen_entities[entity_key] = token
-                        # نام کامل را نیز ذخیره کنید
-                        self.seen_entities[full_key] = token
-                        logger.info(f"✅ نام کامل: {entity_text} → {token}")
-            else:
-                # نام کامل یا تک‌تک نام
-                if entity_key in self.seen_entities:
-                    token = self.seen_entities[entity_key]
-                    logger.info(f"🔄 موجودیت تکراری: {entity_text} → {token}")
-                else:
-                    token = self.get_placeholder(entity_type)
-                    self.seen_entities[entity_key] = token
-                    logger.info(f"✅ جایگزینی: {entity_text} → {token}")
-            if not token:
-                continue
-            # جدول نگاشت را تنظیم کنید
-            if token not in self.mapping_table:
-                self.mapping_table[token] = {
-                    'original': original_info or entity_text,
-                    'type': entity_type,
-                    'note': ''
-                }
-            # جایگزینی دقیق (case-sensitive اول، سپس case-insensitive)
-            idx = anonymized.find(entity_text)
-            if idx != -1:
-                anonymized = anonymized[:idx] + token + anonymized[idx + len(entity_text):]
-                replacements.append({
-                    'original': entity_text,
-                    'placeholder': token,
-                    'type': entity_type
-                })
-        logger.info(f"✅ ناشناس‌سازی کامل - {len(self.mapping_table)} نگاشت")
-        return anonymized, entities
-    def get_mapping_table_str(self) -> str:
-        """جدول نگاشت جزئی"""
-        if not self.mapping_table:
-            return "❌ موجودیتی شناسایی نشد"
-        result = "## 📊 جدول نگاشت\n\n"
-        result += "| توکن | اطلاعات اصلی | نوع |\n"
-        result += "|------|--------|------|\n"
-        for token, info in sorted(self.mapping_table.items()):
-            entity_type = info.get('type', 'unknown')
-            original = info.get('original', '')
-            note = info.get('note', '')
-            note_str = f" ({note})" if note else ""
-            result += f"| `{token}` | {original}{note_str} | {entity_type} |\n"
-        return result
-    def restore(self, text: str) -> str:
-        """بازگردانی اطلاعات اصلی"""
-        logger.info("🔄 بازگردانی اطلاعات...")
-        restored = text
-        for token, info in self.mapping_table.items():
-            original = info.get('original', '')
-            restored = restored.replace(token, original)
-        logger.info("✅ بازگردانی کامل")
-        return restored
-# متغیرهای global
-anonymizer = None
-def process(input_text: str) -> Tuple[str, str, str, str, str]:
-    """
-    روند کامل:
-    1. ناشناس‌سازی با Cerebras (llama-3.3-70b) + پرامپت قوی
-    2. ارسال به ChatGPT (حتما!)
-    3. بازگردانی پاسخ ChatGPT
-    """
-    global anonymizer
-    try:
-        if not input_text.strip():
-            return "", "", "", "", ""
-        # دریافت API Keys
-        api_key_cerebras = os.getenv("CEREBRAS_API_KEY")
-        api_key_gpt = os.getenv("OPENAI_API_KEY")
-        if not api_key_gpt:
-            logger.error("❌ OPENAI_API_KEY یافت نشد")
-            return "", "", "", "", ""
-        if not api_key_cerebras:
-            logger.error("❌ CEREBRAS_API_KEY یافت نشد")
-            return "", "", "", "", ""
-        # ============================================
-        # مرحله 1: مقداردهی
-        # ============================================
-        if not anonymizer:
-            logger.info("Initializing anonymizer...")
-            anonymizer = AnonymizerCerebrasEnhanced()
-        # ============================================
-        # مرحله 2: ناشناس‌سازی با پرامپت قوی
-        # ============================================
-        logger.info("Step 1: Anonymizing text with Cerebras...")
-        anonymized_text, entities = anonymizer.anonymize(input_text)
-        if not entities:
-            logger.warning("⚠️ موجودیتی شناسایی نشد - متن ناشناس نشد")
-            return input_text, "", "", "", ""
-        # ============================================
-        # مرحله 3: جدول نگاشت
-        # ============================================
-        logger.info("Step 2: Creating mapping table")
-        mapping = anonymizer.get_mapping_table_str()
-        logger.info(f"📋 {len(anonymizer.mapping_table)} نگاشت ایجاد شد")
-        # ============================================
-        # مرحله 4: ارسال به ChatGPT (حتما!)
-        # ============================================
-        logger.info("Step 3: Sending to ChatGPT...")
-        prompt = f"""متن ناشناس‌شده زیر (متن مالی) را تحلیل و خلاصه کنید.
-متن:
-{anonymized_text}
-لطفاً:
-1. خلاصه‌ای مختصر و معنادار ارائه دهید
-2. نکات اصلی را مشخص کنید
-3. تمام توکن‌های ناشناس (مثل company-01، amount-02) را حفظ کنید
-4. تنها اطلاعات موجود در متن را بیان کنید"""
-        logger.info(f"📤 ارسال به ChatGPT (gpt-4o-mini)...")
-        try:
-            gpt_response_obj = requests.post(
-                "https://api.openai.com/v1/chat/completions",
-                headers={"Authorization": f"Bearer {api_key_gpt}"},
-                json={
-                    "model": "gpt-4o-mini",
-                    "messages": [
-                        {
-                            "role": "system",
-                            "content": "شما دستیار تحلیل متون مالی فارسی هستید. متن‌های ناشناس‌شده را دقیق تحلیل کنید. تمام توکن‌های ناشناس را حفظ کنید."
-                        },
-                        {"role": "user", "content": prompt}
-                    ],
-                    "max_tokens": 1500,
-                    "temperature": 0.7
-                },
-                timeout=30
-            )
-            if gpt_response_obj.status_code == 200:
-                gpt_response = gpt_response_obj.json()['choices'][0]['message']['content']
-                logger.info("✅ پاسخ دریافت شد")
-            else:
-                error_text = gpt_response_obj.json().get('error', {}).get('message', gpt_response_obj.text)
-                logger.error(f"❌ خطای ChatGPT: {error_text}")
-                return input_text, anonymized_text, "", "", mapping
-        except Exception as e:
-            logger.error(f"❌ خطا در ارسال به ChatGPT: {e}")
-            return input_text, anonymized_text, "", "", mapping
-        # ============================================
-        # مرحله 5: بازگردانی پاسخ ChatGPT
-        # ============================================
-        logger.info("Step 4: Restoring original text...")
-        restored_text = anonymizer.restore(gpt_response)
-        logger.info(f"✅ بازگردانی کامل")
-        logger.info(f"Done. Input: {len(input_text)} | Anonymized: {len(anonymized_text)} | Entities: {len(entities)}")
-        return input_text, anonymized_text, gpt_response, restored_text, mapping
-    except Exception as e:
-        logger.error(f"❌ خطا عمومی: {e}", exc_info=True)
-        return "", "", "", "", ""
-def clear():
-    """پاک کردن"""
-    return "", "", "", "", ""
-# رابط Gradio
-with gr.Blocks(title="Text Anonymization", theme=gr.themes.Soft()) as app:
-    with gr.Row():
-        with gr.Column(scale=2):
-            input_text = gr.Textbox(
-                lines=12,
-                placeholder="متن را وارد کنید...",
-                label="Input"
-            )
-        with gr.Column(scale=1):
-            process_btn = gr.Button("Process", variant="primary", size="lg")
-            clear_btn = gr.Button("Clear", variant="stop")
-    with gr.Row():
-        with gr.Column():
-            anonymized_text = gr.Textbox(
-                lines=10,
-                label="Anonymized",
-                interactive=False
-            )
-        with gr.Column():
-            gpt_response = gr.Textbox(
-                lines=10,
-                label="GPT Response",
-                interactive=False
-            )
-        with gr.Column():
-            restored_text = gr.Textbox(
-                lines=10,
-                label="Restored",
-                interactive=False
-            )
-    with gr.Row():
-        with gr.Column():
-            mapping = gr.Textbox(
-                lines=10,
-                label="Mapping",
-                interactive=False
-            )
-    # Event handlers
-    process_btn.click(
-        fn=process,
-        inputs=[input_text],
-        outputs=[input_text, anonymized_text, gpt_response, restored_text, mapping]
-    )
-    clear_btn.click(
-        fn=clear,
-        outputs=[input_text, anonymized_text, gpt_response, restored_text, mapping]
-    )
-if __name__ == "__main__":
-    print("Starting Text Anonymization System...")
-    app.launch(
-        server_name="0.0.0.0",
-        server_port=7860,
-        share=False,
-        show_error=True
-    )