Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Nov 8

Commit

86a84d0

verified ·

1 Parent(s): 344b293

Upload app_enhanced (3).py

Browse files

Files changed (1) hide show

app_enhanced (3).py +506 -0

app_enhanced (3).py ADDED Viewed

	@@ -0,0 +1,506 @@

+import gradio as gr
+import re
+import os
+import requests
+import logging
+from typing import Dict, List, Tuple, Set
+import json
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class AnonymizerCerebrasEnhanced:
+    def __init__(self, api_key: str = None):
+        self.api_key = api_key or os.getenv("CEREBRAS_API_KEY")
+        self.mapping_table = {}
+        self.counters = {
+            'company': 0, 'person': 0, 'amount': 0, 'phone': 0,
+            'email': 0, 'id_number': 0, 'date': 0, 'location': 0,
+            'percent': 0
+        }
+        self.seen_entities = {}  # برای ثبات نگاشت
+        if not self.api_key:
+            raise ValueError("❌ کلید API Cerebras یافت نشد!")
+        logger.info("✅ Anonymizer Enhanced مقداردهی شد")
+    def get_system_prompt(self) -> str:
+        """ایجاد دستورالعمل سیستمی بهینه شده"""
+        return """شما یک سیستم ناشناس‌سازی متون مالی فارسی هستید.
+⚠️ CRITICAL: در پاسخ نهایی خود، فقط و فقط متن ناشناس‌سازی شده را برگردانید، بدون هیچ توضیح، تحلیل، یا تگ اضافی.
+## قوانین اندیس‌گذاری:
+1. **ترتیب پیوسته**: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
+2. **ثبات**: اگر "همراه اول" → company-01 شد، در تمام متن همان باشد
+3. **نام مستعار**: "فاما" = "فولاد مبارکه" → هر دو company-01
+4. **اشاره ضمنی**: "این شرکت" اگر به company-01 اشاره دارد → company-01 (نه company-02)
+## قوانین شناسایی اسام (CRITICAL):
+### برای شخصیت (PERSON):
+- **نام کامل**: "علی خسروی" → person-01
+- **نام خانوادگی تنهایی**: "خسروی" اگر قبلاً "علی خسروی" دیده شده → person-01 (همان نفر)
+- **نام کوچک تنهایی**: "علی" اگر قبلاً "علی خسروی" دیده شده → person-01 (همان نفر)
+- اگر "خسروی" بعداً بیاید: آن را به person-01 جایگزین کن (نه person-02)
+- نام‌های جزئی تکرار شونده باید به یک توکن منجر شوند
+### برای شرکت (COMPANY):
+- **نام کامل**: "شرکت پتروشیمی غدیر" → company-01
+- **بدون کلمه شرکت**: "پتروشیمی غدیر" اگر قبلاً "شرکت پتروشیمی غدیر" دیده شده → company-01 (همان شرکت)
+- **نام اختصاری**: "پتروشیمی" اگر قبلاً "پتروشیمی غدیر" دیده شده → company-01
+- **بدون پیشوند**: "غدیر" اگر قبلاً "پتروشیمی غدیر" دیده شده → company-01
+- بانک، گروه، سازمان هم به عنوان شرکت شناخته شوند
+## انواع موجودیت:
+- **company-XX**: شرکت‌ها، بانک‌ها، سازمان‌ها، گروه‌ها
+- **person-XX**: نام و نام خانوادگی اشخاص
+- **amount-XX**: مبالغ - واحد را حفظ کن
+- **percent-XX**: درصدها
+- **phone-XX**: شماره تلفن
+- **email-XX**: آدرس ایمیل
+- **date-XX**: تاریخ و دوره زمانی مشخص (نه "ماهه")
+- **location-XX**: شهر، استان، کشور
+- **id_number-XX**: شماره شناسایی، کد ملی
+## قوانین کلیدی:
+1. **بازرس = شرکت**: "بازرس شرکت X" → بازرس حفظ، X = company-XX
+2. **واحدها**: "amount-01 میلیارد تومان" ✅ (واحد را حفظ کن)
+3. **گروه‌ها**: "گروه X" → company-XX
+4. **کلمات عمومی حفظ**: "سه شرکت" → حفظ (فقط نام شرکت را ناشناس کن)
+5. **دوره زمانی حفظ**: "۵ ماهه" → حفظ (فقط تاریخ مشخص = date-XX)
+6. **بازه = یک entity**: "یک تا 1.5 میلیون" → amount-01
+7. **درصدها**: شناسایی تمام درصدها (خصوصاً بین 50 تا 70)
+8. **تمام ارقام**: شناسایی تمام ارقام موجود در متن به عنوان amount-XX
+## فرمت خروجی JSON:
+[
+  {"text": "متن دقیق موجودیت", "type": "company", "original": "نام اصلی"},
+  {"text": "...", "type": "person", "original": "..."},
+  ...
+]
+✅ فقط متن ناشناس‌شده را برگردانید."""
+    def get_user_prompt(self, text: str) -> str:
+        """تشکیل پرامپت کاربر"""
+        return f"""متن مالی فارسی زیر را تجزیه و تحلیل کنید. تمام موجودیت‌های حساس را شناسایی کنید و یک JSON Array برگردانید.
+متن:
+{text}
+**قوانین شناسایی مهم**:
+1. **نام‌های جزئی برای شخص**:
+   - اگر "علی خسروی" نام کامل بیاید
+   - و بعداً فقط "خسروی" یا فقط "علی" بیاید
+   - هر سه را یک موجودیت (person-01) بشناسید
+   - در JSON: {"text": "خسروی", "type": "person", "original": "علی خسروی"}
+2. **نام‌های شرکت بدون پیشوند**:
+   - اگر "شرکت پتروشیمی غدیر" بیاید
+   - و بعداً "پتروشیمی غدیر" یا فقط "پتروشیمی" یا فقط "غدیر"
+   - همه را یک موجودیت (company-01) بشناسید
+   - در JSON: {"text": "پتروشیمی غدیر", "type": "company", "original": "شرکت پتروشیمی غدیر"}
+3. **کلمات پیشوند حفظ‌شونده**:
+   - شرکت، بانک، گروه، سازمان را حفظ کنید
+   - فقط نام اصلی را ناشناس کنید
+4. **تکراری و متشابه**:
+   - اگر چند بار یک نام (به صورت‌های مختلف) تکرار شود، یک id بدهید
+   - کلمات عمومی را حفظ کنید
+   - واحدها را حفظ کنید
+**مثال**:
+ورودی: "علی محمدی و محمدی در شرکت پتروشیمی غدیر و پتروشیمی غدیر کار کردند."
+خروجی JSON:
+[
+  {"text": "علی محمدی", "type": "person", "original": ""},
+  {"text": "محمدی", "type": "person", "original": "علی محمدی"},
+  {"text": "شرکت پتروشیمی غدیر", "type": "company", "original": ""},
+  {"text": "پتروشیمی غدیر", "type": "company", "original": "شرکت پتروشیمی غدیر"}
+]
+**مهم**:
+- اگر چند بار یک نام تکرار شود، یک id بدهید
+- کلمات عمومی را حفظ کنید
+- واحدها را حفظ کنید
+- نام‌های جزئی را با نام کامل یکسان‌سازی کنید
+- فقط JSON برگردانید!
+یک JSON Array برگردانید. هر عنصر دارای:
+- "text": متن دقیق استخراج شده
+- "type": نوع (company, person, amount, percent, phone, email, date, location, id_number)
+- "original": توضیح اضافی (نام کامل اگر جزئی بود، یا پیشوند اگر حذف شده بود)"""
+    def call_cerebras(self, text: str) -> List[Dict]:
+        """فراخوانی Cerebras API با پرامپت بهبود شده"""
+        logger.info("🔄 فراخوانی Cerebras API با دستورالعمل قوی...")
+        system_prompt = self.get_system_prompt()
+        user_prompt = self.get_user_prompt(text)
+        try:
+            response = requests.post(
+                "https://api.cerebras.ai/v1/chat/completions",
+                headers={
+                    "Authorization": f"Bearer {self.api_key}",
+                    "Content-Type": "application/json"
+                },
+                json={
+                    "model": "llama-3.3-70b",
+                    "messages": [
+                        {"role": "system", "content": system_prompt},
+                        {"role": "user", "content": user_prompt}
+                    ],
+                    "max_tokens": 4000,
+                    "temperature": 0.1
+                },
+                timeout=30
+            )
+            if response.status_code != 200:
+                logger.error(f"❌ خطای API Cerebras: {response.text}")
+                return []
+            result = response.json()
+            content = result['choices'][0]['message']['content']
+            try:
+                # تمیز کردن محتوا از markdown اگر وجود داشته باشد
+                content = content.replace("```json", "").replace("```", "").strip()
+                entities = json.loads(content)
+                if not isinstance(entities, list):
+                    entities = []
+                logger.info(f"✅ {len(entities)} موجودیت استخراج شد")
+                return entities
+            except json.JSONDecodeError:
+                logger.error(f"❌ خطا در JSON parsing: {content[:200]}")
+                return []
+        except Exception as e:
+            logger.error(f"❌ خطا Cerebras: {e}")
+            return []
+    def get_placeholder(self, entity_type: str) -> str:
+        """تولید placeholder با format جدید"""
+        type_lower = entity_type.lower()
+        if type_lower not in self.counters:
+            type_lower = 'amount'
+        self.counters[type_lower] += 1
+        return f"{type_lower}-{self.counters[type_lower]:02d}"
+    def apply_partial_matching(self, entities: List[Dict]) -> List[Dict]:
+        """Simple entity matching - Llama handles the complex matching"""
+        return entities
+    def anonymize(self, text: str) -> Tuple[str, List]:
+        """ناشناس‌سازی متن با قوانین ثبات"""
+        logger.info("🚀 شروع ناشناس‌سازی متن...")
+        # تنظیف
+        self.mapping_table = {}
+        self.seen_entities = {}
+        for key in self.counters:
+            self.counters[key] = 0
+        # دریافت موجودیت‌ها
+        entities = self.call_cerebras(text)
+        if not entities:
+            logger.warning("⚠️ موجودیتی شناسایی نشد")
+            return text, []
+        logger.info("🔄 Processing entities...")
+        # جایگزینی با قانون ثبات
+        anonymized = text
+        replacements = []
+        for entity in entities:
+            entity_type = entity.get('type', 'amount').lower()
+            entity_text = entity.get('text', '').strip()
+            original_info = entity.get('original', '')
+            if not entity_text:
+                continue
+            # بررسی اگر این موجودیت قبلاً دیده شده است
+            entity_key = (entity_type, entity_text.lower())
+            # اگر این نام جزئی است (دارای original)، برای یکسان‌سازی
+            # نام کامل را نیز بررسی کنید
+            token = None
+            if original_info:
+                # اول چک کنید نام کامل دیده شده یا نه
+                full_key = (entity_type, original_info.lower())
+                if full_key in self.seen_entities:
+                    token = self.seen_entities[full_key]
+                    logger.info(f"🔄 نام جزئی: {entity_text} ← {original_info} → {token}")
+                else:
+                    # نام کامل هنوز دیده نشده، پس نام جزئی را ذخیره کنید
+                    if entity_key in self.seen_entities:
+                        token = self.seen_entities[entity_key]
+                    else:
+                        token = self.get_placeholder(entity_type)
+                        self.seen_entities[entity_key] = token
+                        # نام کامل را نیز ذخیره کنید
+                        self.seen_entities[full_key] = token
+                        logger.info(f"✅ نام کامل: {entity_text} → {token}")
+            else:
+                # نام کامل یا تک‌تک نام
+                if entity_key in self.seen_entities:
+                    token = self.seen_entities[entity_key]
+                    logger.info(f"🔄 موجودیت تکراری: {entity_text} → {token}")
+                else:
+                    token = self.get_placeholder(entity_type)
+                    self.seen_entities[entity_key] = token
+                    logger.info(f"✅ جایگزینی: {entity_text} → {token}")
+            if not token:
+                continue
+            # جدول نگاشت را تنظیم کنید
+            if token not in self.mapping_table:
+                self.mapping_table[token] = {
+                    'original': original_info or entity_text,
+                    'type': entity_type,
+                    'note': ''
+                }
+            # جایگزینی دقیق (case-sensitive اول، سپس case-insensitive)
+            idx = anonymized.find(entity_text)
+            if idx != -1:
+                anonymized = anonymized[:idx] + token + anonymized[idx + len(entity_text):]
+                replacements.append({
+                    'original': entity_text,
+                    'placeholder': token,
+                    'type': entity_type
+                })
+        logger.info(f"✅ ناشناس‌سازی کامل - {len(self.mapping_table)} نگاشت")
+        return anonymized, entities
+    def get_mapping_table_str(self) -> str:
+        """جدول نگاشت جزئی"""
+        if not self.mapping_table:
+            return "❌ موجودیتی شناسایی نشد"
+        result = "## 📊 جدول نگاشت\n\n"
+        result += "| توکن | اطلاعات اصلی | نوع |\n"
+        result += "|------|--------|------|\n"
+        for token, info in sorted(self.mapping_table.items()):
+            entity_type = info.get('type', 'unknown')
+            original = info.get('original', '')
+            note = info.get('note', '')
+            note_str = f" ({note})" if note else ""
+            result += f"| `{token}` | {original}{note_str} | {entity_type} |\n"
+        return result
+    def restore(self, text: str) -> str:
+        """بازگردانی اطلاعات اصلی"""
+        logger.info("🔄 بازگردانی اطلاعات...")
+        restored = text
+        for token, info in self.mapping_table.items():
+            original = info.get('original', '')
+            restored = restored.replace(token, original)
+        logger.info("✅ بازگردانی کامل")
+        return restored
+# متغیرهای global
+anonymizer = None
+def process(input_text: str) -> Tuple[str, str, str, str, str]:
+    """
+    روند کامل:
+    1. نا��ناس‌سازی با Cerebras (llama-3.3-70b) + پرامپت قوی
+    2. ارسال به ChatGPT (حتما!)
+    3. بازگردانی پاسخ ChatGPT
+    """
+    global anonymizer
+    try:
+        if not input_text.strip():
+            return "", "", "", "", ""
+        # دریافت API Keys
+        api_key_cerebras = os.getenv("CEREBRAS_API_KEY")
+        api_key_gpt = os.getenv("OPENAI_API_KEY")
+        if not api_key_gpt:
+            logger.error("❌ OPENAI_API_KEY یافت نشد")
+            return "", "", "", "", ""
+        if not api_key_cerebras:
+            logger.error("❌ CEREBRAS_API_KEY یافت نشد")
+            return "", "", "", "", ""
+        # ============================================
+        # مرحله 1: مقداردهی
+        # ============================================
+        if not anonymizer:
+            logger.info("Initializing anonymizer...")
+            anonymizer = AnonymizerCerebrasEnhanced()
+        # ============================================
+        # مرحله 2: ناشناس‌سازی با پرامپت قوی
+        # ============================================
+        logger.info("Step 1: Anonymizing text with Cerebras...")
+        anonymized_text, entities = anonymizer.anonymize(input_text)
+        if not entities:
+            logger.warning("⚠️ موجودیتی شناسایی نشد - متن ناشناس نشد")
+            return input_text, "", "", "", ""
+        # ============================================
+        # مرحله 3: جدول نگاشت
+        # ============================================
+        logger.info("Step 2: Creating mapping table")
+        mapping = anonymizer.get_mapping_table_str()
+        logger.info(f"📋 {len(anonymizer.mapping_table)} نگاشت ایجاد شد")
+        # ============================================
+        # مرحله 4: ارسال به ChatGPT (حتما!)
+        # ============================================
+        logger.info("Step 3: Sending to ChatGPT...")
+        prompt = f"""متن ناشناس‌شده زیر (متن مالی) را تحلیل و خلاصه کنید.
+متن:
+{anonymized_text}
+لطفاً:
+1. خلاصه‌ای مختصر و معنادار ارائه دهید
+2. نکات اصلی را مشخص کنید
+3. تمام توکن‌های ناشناس (مثل company-01، amount-02) را حفظ کنید
+4. تنها اطلاعات موجود در متن را بیان کنید"""
+        logger.info(f"📤 ارسال به ChatGPT (gpt-4o-mini)...")
+        try:
+            gpt_response_obj = requests.post(
+                "https://api.openai.com/v1/chat/completions",
+                headers={"Authorization": f"Bearer {api_key_gpt}"},
+                json={
+                    "model": "gpt-4o-mini",
+                    "messages": [
+                        {
+                            "role": "system",
+                            "content": "شما دستیار تحلیل متون مالی فارسی هستید. متن‌های ناشناس‌شده را دقیق تحلیل کنید. تمام توکن‌های ناشناس را حفظ کنید."
+                        },
+                        {"role": "user", "content": prompt}
+                    ],
+                    "max_tokens": 1500,
+                    "temperature": 0.7
+                },
+                timeout=30
+            )
+            if gpt_response_obj.status_code == 200:
+                gpt_response = gpt_response_obj.json()['choices'][0]['message']['content']
+                logger.info("✅ پاسخ دریافت شد")
+            else:
+                error_text = gpt_response_obj.json().get('error', {}).get('message', gpt_response_obj.text)
+                logger.error(f"❌ خطای ChatGPT: {error_text}")
+                return input_text, anonymized_text, "", "", mapping
+        except Exception as e:
+            logger.error(f"❌ خطا در ارسال به ChatGPT: {e}")
+            return input_text, anonymized_text, "", "", mapping
+        # ============================================
+        # مرحله 5: بازگردانی پاسخ ChatGPT
+        # ============================================
+        logger.info("Step 4: Restoring original text...")
+        restored_text = anonymizer.restore(gpt_response)
+        logger.info(f"✅ بازگردانی کامل")
+        logger.info(f"Done. Input: {len(input_text)} | Anonymized: {len(anonymized_text)} | Entities: {len(entities)}")
+        return input_text, anonymized_text, gpt_response, restored_text, mapping
+    except Exception as e:
+        logger.error(f"❌ خطا عمومی: {e}", exc_info=True)
+        return "", "", "", "", ""
+def clear():
+    """پاک کردن"""
+    return "", "", "", "", ""
+# رابط Gradio
+with gr.Blocks(title="Text Anonymization", theme=gr.themes.Soft()) as app:
+    with gr.Row():
+        with gr.Column(scale=2):
+            input_text = gr.Textbox(
+                lines=12,
+                placeholder="متن را وارد کنید...",
+                label="Input"
+            )
+        with gr.Column(scale=1):
+            process_btn = gr.Button("Process", variant="primary", size="lg")
+            clear_btn = gr.Button("Clear", variant="stop")
+    with gr.Row():
+        with gr.Column():
+            anonymized_text = gr.Textbox(
+                lines=10,
+                label="Anonymized",
+                interactive=False
+            )
+        with gr.Column():
+            gpt_response = gr.Textbox(
+                lines=10,
+                label="GPT Response",
+                interactive=False
+            )
+        with gr.Column():
+            restored_text = gr.Textbox(
+                lines=10,
+                label="Restored",
+                interactive=False
+            )
+    with gr.Row():
+        with gr.Column():
+            mapping = gr.Textbox(
+                lines=10,
+                label="Mapping",
+                interactive=False
+            )
+    # Event handlers
+    process_btn.click(
+        fn=process,
+        inputs=[input_text],
+        outputs=[input_text, anonymized_text, gpt_response, restored_text, mapping]
+    )
+    clear_btn.click(
+        fn=clear,
+        outputs=[input_text, anonymized_text, gpt_response, restored_text, mapping]
+    )
+if __name__ == "__main__":
+    print("Starting Text Anonymization System...")
+    app.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False,
+        show_error=True
+    )