Spaces:

leilaghomashchi
/

Data-anonymization

Running

App Files Files Community

leilaghomashchi commited on Nov 9, 2025

Commit

df649d8

verified ·

1 Parent(s): a97a75e

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -576

app.py DELETED Viewed

@@ -1,576 +0,0 @@
-import gradio as gr
-import re
-import os
-import requests
-import logging
-from typing import Dict, List, Tuple, Set
-import json
-logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger(__name__)
-class AnonymizerCerebrasEnhanced:
-    def __init__(self, api_key: str = None):
-        self.api_key = api_key or os.getenv("CEREBRAS_API_KEY")
-        self.mapping_table = {}
-        self.counters = {
-            'company': 0, 'person': 0, 'amount': 0, 'phone': 0,
-            'email': 0, 'id_number': 0, 'date': 0, 'location': 0,
-            'percent': 0
-        }
-        self.seen_entities = {}  # برای ثبات نگاشت
-        if not self.api_key:
-            raise ValueError("❌ کلید API Cerebras یافت نشد!")
-        logger.info("✅ Anonymizer Enhanced مقداردهی شد")
-    def get_system_prompt(self) -> str:
-        """ایجاد دستورالعمل سیستمی پیشرفته برای Cerebras Llama 3.3-70B"""
-        return """شما یک «ناشناس‌ساز متون مالی فارسی پیشرفته» هستید. وظیفه‌تان:
-1. استخراج دقیق تمام موجودیت‌های حساس
-2. Entity Linking: ربط دادن نام‌های مختلف به یک موجودیت
-3. نگاشت ثابت تمام موجودیت‌ها
-4. ناشناس‌سازی دقیق و کامل
-## **📋 قوانین CRITICAL برای Entity Linking**
-### **1. ENTITY LINKING برای PERSONS (اشخاص)**
-#### **قانون اول: نام کامل = معرف اصلی**
-اگر "سروش خسروی" = person-01 شود:
-- "سروش خسروی" → person-01 ✅
-- "خسروی" تنهایی → person-01 ✅ (نام خانوادگی)
-- "سروش" تنهایی → person-01 ✅ (نام کوچک)
-- "او" / "وی" / "ایشان" → person-01 ✅ (ضمیر)
-- "مهندس خسروی" → person-01 ✅ (عنوان + نام خانوادگی)
-#### **قانون دوم: هیچ نام خانوادگی/کوچک تنهایی را رها نکن**
-✅ صحیح: "سروش خسروی در برنامه. خسروی گفت..." → هر دو را person-01
-❌ غلط: فقط خسروی را ناشناس کردن
-#### **قانون سوم: الگوهای شامل نام**
-اگر "سروش خسروی" = person-01، همه اینها = person-01:
-- "سروش خسروی"
-- "خسروی"
-- "سروش"
-- "مهندس خسروی"
-- "رئیس خسروی"
-- "وی" / "او" / "ایشان"
-#### **قانون چهارم: ترتیب اولویت**
-1. نام کامل: "سروش خسروی" → person-01
-2. نام خانوادگی: "خسروی" → person-01
-3. نام کوچک: "سروش" → person-01
-4. عنوان + نام: "مهندس خسروی" → person-01
-5. ضمیرهای اشاره: "وی" → person-01
-### **2. ENTITY LINKING برای COMPANIES (شرکت‌ها)**
-#### **قانون اول: نام کامل = معرف اصلی**
-اگر "پتروشیمی غدیر (ماهشهر)" = company-01 شود:
-- "پتروشیمی غدیر (ماهشهر)" → company-01 ✅
-- "پتروشیمی غدیر" → company-01 ✅
-- "غدیر" → company-01 ✅
-- "این شرکت" (در فقره بعد) → company-01 ✅
-- "شرکت" (در زمینه روشن) → company-01 ✅
-#### **قانون دوم: نام‌های اختصاری**
-اگر "نماد سبهان" = company-02:
-- "نماد سبهان" → نماد company-02 ✅
-- "سبهان" → company-02 ✅
-- "نماد" تنهایی (در متن روشن) → company-02 ✅
-### **3. ENTITY LINKING برای AMOUNTS (مقادیر مالی)**
-#### **قانون اول: واحد یکسان = یک موجودیت**
-✅ صحیح: "142 میلیارد تومان" → amount-01 | "142" دوباره → amount-01
-❌ غلط: "142" دوباره → amount-02 (NEW - غلط!)
-#### **قانون دوم: واحد متفاوت = موجودیت مختلف**
-"142 میلیارد تومان" → amount-01
-"153,194 تن" → amount-02 (واحد متفاوت است)
-#### **قانون سوم: فرمت‌های مختلف عدد یکسان**
-✅ صحیح: "142 میلیارد" → amount-01 | "۱۴۲ میلیارد" → amount-01
-❌ غلط: دو موجودیت متفاوت برای یک عدد
-### **4. ENTITY LINKING برای PERCENTS (درصدها)**
-#### **قانون اول: مقدار و واحد یکسان**
-"21 درصد" → percent-01
-"21%" یا "۲۱ درصدی" → percent-01 ✅
-"45 درصد" → percent-02 ✅ (متفاوت است)
-#### **قانون دوم: درصد در سیاق‌های مختلف**
-"رشد 21 درصدی" → percent-01
-"افزایش 21 درصد" → percent-01 ✅ (همان درصد)
-## **🔍 الگوریتم STEP-BY-STEP**
-### **مرحله 1: استخراج نخستین**
-تمام موجودیت‌های کامل را بدون linked کردن استخراج کن
-### **مرحله 2: Entity Linking**
-برای هر موجودیت تام:
-- نام خانوادگی استخراج کن (اگر موجود باشد)
-- نام کوچک استخراج کن (اگر موجود باشد)
-- در تمام متن جستجو کن
-- تمام تکرارها = یک موجودیت
-### **مرحله 3: نگاشت نهایی**
-برای هر موجودیت اصلی، تمام linked forms را ثبت کن
-### **مرحله 4: ناشناس‌سازی**
-جایگزین کن:
-1. نام‌های کامل اول
-2. سپس نام‌های جزئی
-3. سپس ضمیرهایی که الحاق شده‌اند
-## **✅ CRITICAL DO's:**
-✅ "خسروی" بعد از "سروش خسروی" → person-01
-✅ "غدیر" بعد از "پتروشیمی غدیر" → company-01
-✅ "این شرکت" در فقره بعد از ذکر شرکت → company-01
-✅ "وی" که اشاره به شخص → person-01
-✅ تمام تکرار نام خانوادگی → همان person
-✅ نام کامل مختلف → person متفاوت
-## **❌ CRITICAL DON'Ts:**
-❌ نام خانوادگی تنهایی را رها کردن
-❌ نام کوچک تنهایی را رها کردن
-❌ ضمیرهای مرتبط را رها کردن
-❌ فرض کردن اینکه "خسروی" مختلف است
-❌ نادیده گرفتن زمینه برای "این شرکت"
-❌ دو بار شماره‌گذاری موجودیت یکسان
-## **⚠️ قوانین اندیس‌گذاری:**
-- شرکت‌ها: company-01, company-02, company-03, ... (پیوسته و بدون گپ)
-- اشخاص: person-01, person-02, person-03, ... (پیوسته و بدون گپ)
-- مقادیر: amount-01, amount-02, amount-03, ... (پیوسته و بدون گپ)
-- درصدها: percent-01, percent-02, percent-03, ... (پیوسته و بدون گپ)
-- تاریخها: date-01, date-02, date-03, ... (پیوسته و بدون گپ)
-## **موارد حفظ شده:**
-- عناوین شغلی: مدیرعامل، رئیس کل، مدیرکل، سرپرست
-- واحدها: میلیارد تومان، هزار ریال، دلار، تن، دستگاه
-- کلمات توضیحی: "شرکت"، "بانک"، "گروه"، "سازمان"
-## **ممنوع:**
-❌ کلمات انگلیسی اضافی
-❌ تغییر ساختار جمله
-❌ حذف یا اضافه کردن کلمات
-❌ نام خانوادگی یا نام کوچک تنهایی را بدون linking رها کردن
-**فقط متن ناشناس‌شده را برگردان - هیچ توضیح اضافی نیاز نیست."""
-    def get_user_prompt(self, text: str) -> str:
-        """تشکیل پرامپت کاربر قوی‌تر برای Entity Linking دقیق"""
-        return f"""متن مالی فارسی زیر را با دقت تحلیل کنید و تمام موجودیت‌های حساس را ناشناس کنید.
-متن:
-{text}
-**دستورات CRITICAL برای Entity Linking:**
-### **برای اشخاص (PERSONS):**
-1️⃣ اگر "سروش خسروی" = person-01 شد:
-   - نام خانوادگی تنهایی "خسروی" → person-01
-   - نام کوچک تنهایی "سروش" → person-01
-   - ضمیرهای "وی"، "او"، "ایشان" → person-01
-   - "مهندس خسروی" یا هر ترکیب → person-01
-2️⃣ هیچ نام خانوادگی یا نام کوچک تنهایی را رها نکن
-### **برای شرکت‌ها (COMPANIES):**
-1️⃣ اگر "پتروشیمی غدیر" = company-01 شد:
-   - نام کوتاه "غدیر" → company-01
-   - "این شرکت" در فقره بعد → company-01
-   - "شرکت" در زمینه روشن → company-01
-2️⃣ تمام نام‌های مختلف برای یک شرکت را linked کن
-### **برای مقادیر (AMOUNTS):**
-1️⃣ اگر "142 میلیارد تومان" = amount-01:
-   - "142 میلیارد" یا صرفاً "142" = amount-01
-   - "۱۴۲ میلیارد" = amount-01 (فرمت متفاوت، عدد یکسان)
-2️⃣ واحد متفاوت = موجودیت متفاوت
-### **برای درصدها (PERCENTS):**
-1️⃣ اگر "21 درصد" = percent-01:
-   - "21%" = percent-01
-   - "۲۱ درصدی" = percent-01
-   - "رشد 21 درصدی" = percent-01
-**‌خروجی:**
-ناشناس‌سازی متن با رعایت تمام قوانین Entity Linking فوق.
-**مهم:**
-✅ تمام نام‌های جزئی (نام خانوادگی، نام کوچک) linked باشند
-✅ تمام ضمیرهای مرتبط linked باشند
-✅ تمام نام‌های مختلف یک شرکت linked باشند
-✅ مقادیر و درصدهای یکسان (با واحد/فرمت یکسان) = یک موجودیت
-❌ هیچ نام خانوادگی تنهایی رها نشود
-❌ هیچ ضمیر مرتبط رها نشود
-❌ هیچ نام اختصاری شرکت رها نشود
-**فقط متن ناشناس‌شده را برگردان - توضیح اضافی نده!**"""
-    def call_cerebras(self, text: str) -> List[Dict]:
-        """فراخوانی Cerebras API با پرامپت بهبود شده"""
-        logger.info("🔄 فراخوانی Cerebras API با دستورالعمل قوی...")
-        system_prompt = self.get_system_prompt()
-        user_prompt = self.get_user_prompt(text)
-        try:
-            response = requests.post(
-                "https://api.cerebras.ai/v1/chat/completions",
-                headers={
-                    "Authorization": f"Bearer {self.api_key}",
-                    "Content-Type": "application/json"
-                },
-                json={
-                    "model": "llama-3.3-70b",
-                    "messages": [
-                        {"role": "system", "content": system_prompt},
-                        {"role": "user", "content": user_prompt}
-                    ],
-                    "max_tokens": 4000,
-                    "temperature": 0.1
-                },
-                timeout=30
-            )
-            if response.status_code != 200:
-                logger.error(f"❌ خطای API Cerebras: {response.text}")
-                return []
-            result = response.json()
-            content = result['choices'][0]['message']['content']
-            try:
-                # تمیز کردن محتوا از markdown اگر وجود داشته باشد
-                content = content.replace("```json", "").replace("```", "").strip()
-                entities = json.loads(content)
-                if not isinstance(entities, list):
-                    entities = []
-                logger.info(f"✅ {len(entities)} موجودیت استخراج شد")
-                return entities
-            except json.JSONDecodeError:
-                logger.error(f"❌ خطا در JSON parsing: {content[:200]}")
-                return []
-        except Exception as e:
-            logger.error(f"❌ خطا Cerebras: {e}")
-            return []
-    def get_placeholder(self, entity_type: str) -> str:
-        """تولید placeholder با format جدید"""
-        type_lower = entity_type.lower()
-        if type_lower not in self.counters:
-            type_lower = 'amount'
-        self.counters[type_lower] += 1
-        return f"{type_lower}-{self.counters[type_lower]:02d}"
-    def anonymize(self, text: str) -> Tuple[str, List]:
-        """ناشناس‌سازی متن با قوانین ثبات"""
-        logger.info("🚀 شروع ناشناس‌سازی متن...")
-        # تنظیف
-        self.mapping_table = {}
-        self.seen_entities = {}
-        for key in self.counters:
-            self.counters[key] = 0
-        # دریافت موجودیت‌ها
-        entities = self.call_cerebras(text)
-        if not entities:
-            logger.warning("⚠️ موجودیتی شناسایی نشد")
-            return text, []
-        logger.info("🔄 Processing entities...")
-        # جایگزینی با قانون ثبات
-        anonymized = text
-        replacements = []
-        for entity in entities:
-            entity_type = entity.get('type', 'amount').lower()
-            entity_text = entity.get('text', '').strip()
-            original_info = entity.get('original', '')
-            if not entity_text:
-                continue
-            # بررسی اگر این موجودیت قبلاً دیده شده است
-            entity_key = (entity_type, entity_text.lower())
-            if entity_key in self.seen_entities:
-                token = self.seen_entities[entity_key]
-                logger.info(f"🔄 موجودیت تکراری: {entity_text} → {token}")
-            else:
-                token = self.get_placeholder(entity_type)
-                self.seen_entities[entity_key] = token
-                self.mapping_table[token] = {
-                    'original': entity_text,
-                    'type': entity_type,
-                    'note': original_info
-                }
-                logger.info(f"✅ جایگزینی: {entity_text} → {token}")
-            # جایگزینی دقیق (case-sensitive اول، سپس case-insensitive)
-            idx = anonymized.find(entity_text)
-            if idx != -1:
-                anonymized = anonymized[:idx] + token + anonymized[idx + len(entity_text):]
-                replacements.append({
-                    'original': entity_text,
-                    'placeholder': token,
-                    'type': entity_type
-                })
-        logger.info(f"✅ ناشناس‌سازی کامل - {len(self.mapping_table)} نگاشت")
-        return anonymized, entities
-    def get_mapping_table_str(self) -> str:
-        """جدول نگاشت جزئی"""
-        if not self.mapping_table:
-            return "❌ موجودیتی شناسایی نشد"
-        result = "## 📊 جدول نگاشت\n\n"
-        result += "| توکن | اطلاعات اصلی | نوع |\n"
-        result += "|------|--------|------|\n"
-        for token, info in sorted(self.mapping_table.items()):
-            entity_type = info.get('type', 'unknown')
-            original = info.get('original', '')
-            note = info.get('note', '')
-            note_str = f" ({note})" if note else ""
-            result += f"| `{token}` | {original}{note_str} | {entity_type} |\n"
-        return result
-    def restore(self, text: str) -> str:
-        """بازگردانی اطلاعات اصلی"""
-        logger.info("🔄 بازگردانی اطلاعات...")
-        restored = text
-        for token, info in self.mapping_table.items():
-            original = info.get('original', '')
-            restored = restored.replace(token, original)
-        logger.info("✅ بازگردانی کامل")
-        return restored
-# متغیرهای global
-anonymizer = None
-def process(input_text: str) -> Tuple[str, str, str, str, str]:
-    """
-    روند کامل:
-    1. ناشناس‌سازی با Cerebras (llama-3.3-70b) + پرامپت قوی
-    2. ارسال به ChatGPT (حتما!)
-    3. بازگردانی پاسخ ChatGPT
-    """
-    global anonymizer
-    try:
-        if not input_text.strip():
-            return "", "", "", "", ""
-        # دریافت API Keys
-        api_key_cerebras = os.getenv("CEREBRAS_API_KEY")
-        api_key_gpt = os.getenv("OPENAI_API_KEY")
-        if not api_key_gpt:
-            logger.error("❌ OPENAI_API_KEY یافت نشد")
-            return "", "", "", "", ""
-        if not api_key_cerebras:
-            logger.error("❌ CEREBRAS_API_KEY یافت نشد")
-            return "", "", "", "", ""
-        # ============================================
-        # مرحله 1: مقداردهی
-        # ============================================
-        if not anonymizer:
-            logger.info("Initializing anonymizer...")
-            anonymizer = AnonymizerCerebrasEnhanced()
-        # ============================================
-        # مرحله 2: ناشناس‌سازی با پرامپت قوی
-        # ============================================
-        logger.info("Step 1: Anonymizing text with Cerebras...")
-        anonymized_text, entities = anonymizer.anonymize(input_text)
-        if not entities:
-            logger.warning("⚠️ موجودیتی شناسایی نشد - متن ناشناس نشد")
-            return input_text, "", "", "", ""
-        # ============================================
-        # مرحله 3: جدول نگاشت
-        # ============================================
-        logger.info("Step 2: Creating mapping table")
-        mapping = anonymizer.get_mapping_table_str()
-        logger.info(f"📋 {len(anonymizer.mapping_table)} نگاشت ایجاد شد")
-        # ============================================
-        # مرحله 4: ارسال به ChatGPT (حتما!)
-        # ============================================
-        logger.info("Step 3: Sending to ChatGPT...")
-        prompt = f"""متن ناشناس‌شده زیر (متن مالی) را تحلیل و خلاصه کنید.
-متن:
-{anonymized_text}
-لطفاً:
-1. خلاصه‌ای مختصر و معنادار ارائه دهید
-2. نکات اصلی را مشخص کنید
-3. تمام توکن‌های ناشناس (مثل company-01، amount-02) را حفظ کنید
-4. تنها اطلاعات موجود در متن را بیان کنید"""
-        logger.info(f"📤 ارسال به ChatGPT (gpt-4o-mini)...")
-        try:
-            gpt_response_obj = requests.post(
-                "https://api.openai.com/v1/chat/completions",
-                headers={"Authorization": f"Bearer {api_key_gpt}"},
-                json={
-                    "model": "gpt-4o-mini",
-                    "messages": [
-                        {
-                            "role": "system",
-                            "content": "شما دستیار تحلیل متون مالی فارسی هستید. متن‌های ناشناس‌شده را دقیق تحلیل کنید. تمام توکن‌های ناشناس را حفظ کنید."
-                        },
-                        {"role": "user", "content": prompt}
-                    ],
-                    "max_tokens": 1500,
-                    "temperature": 0.7
-                },
-                timeout=30
-            )
-            if gpt_response_obj.status_code == 200:
-                gpt_response = gpt_response_obj.json()['choices'][0]['message']['content']
-                logger.info("✅ پاسخ دریافت شد")
-            else:
-                error_text = gpt_response_obj.json().get('error', {}).get('message', gpt_response_obj.text)
-                logger.error(f"❌ خطای ChatGPT: {error_text}")
-                return input_text, anonymized_text, "", "", mapping
-        except Exception as e:
-            logger.error(f"❌ خطا در ارسال به ChatGPT: {e}")
-            return input_text, anonymized_text, "", "", mapping
-        # ============================================
-        # مرحله 5: بازگردانی پاسخ ChatGPT
-        # ============================================
-        logger.info("Step 4: Restoring original text...")
-        restored_text = anonymizer.restore(gpt_response)
-        logger.info(f"✅ بازگردانی کامل")
-        logger.info(f"Done. Input: {len(input_text)} | Anonymized: {len(anonymized_text)} | Entities: {len(entities)}")
-        return input_text, anonymized_text, gpt_response, restored_text, mapping
-    except Exception as e:
-        logger.error(f"❌ خطا عمومی: {e}", exc_info=True)
-        return "", "", "", "", ""
-def clear():
-    """پاک کردن"""
-    empty_mapping = "### 📋 جدول نگاشت\nدر انتظار پردازش..."
-    return "", "", "", "", empty_mapping
-# رابط Gradio - کاملاً فارسی‌زبان و RTL
-css_rtl = """
-#input_text textarea { direction: rtl; text-align: right; }
-#anonymized_text textarea { direction: rtl; text-align: right; }
-#gpt_response textarea { direction: rtl; text-align: right; }
-#restored_text textarea { direction: rtl; text-align: right; }
-"""
-with gr.Blocks(title="سیستم ناشناس‌سازی متون", theme=gr.themes.Soft(), css=css_rtl) as app:
-    gr.Markdown("# 🔐 سیستم ناشناس‌سازی متون مالی فارسی")
-    gr.Markdown("#### استخراج موجودیت‌های حساس و ناشناس‌سازی آنها")
-    with gr.Row():
-        # بلوک 1: متن ورودی (سمت راست)
-        with gr.Column(scale=2):
-            input_text = gr.Textbox(
-                lines=12,
-                placeholder="متن مالی/خبری را وارد کنید...",
-                label="📝 متن ورودی",
-                elem_id="input_text"
-            )
-        # دکمه‌های کنترل
-        with gr.Column(scale=1):
-            gr.HTML("<div style='text-align: center; margin-bottom: 10px;'></div>")
-            process_btn = gr.Button("🔄 پردازش", variant="primary", size="lg")
-            clear_btn = gr.Button("🗑️ پاک کردن", variant="stop", size="lg")
-    # بلوک 2: متن ناشناس‌سازی شده
-    with gr.Row():
-        with gr.Column(scale=1):
-            anonymized_text = gr.Textbox(
-                lines=10,
-                label="🔒 متن ناشناس‌شده",
-                interactive=False,
-                elem_id="anonymized_text"
-            )
-        # بلوک 3: پاسخ ChatGPT
-        with gr.Column(scale=1):
-            gpt_response = gr.Textbox(
-                lines=10,
-                label="🤖 تحلیل ChatGPT",
-                interactive=False,
-                elem_id="gpt_response"
-            )
-        # بلوک 4: متن بازگردانی شده (سمت چپ)
-        with gr.Column(scale=1):
-            restored_text = gr.Textbox(
-                lines=10,
-                label="✅ متن بازگردانی شده",
-                interactive=False,
-                elem_id="restored_text"
-            )
-    # بلوک 5: جدول نگاشت به صورت مارکداون
-    with gr.Row():
-        with gr.Column():
-            mapping = gr.Markdown(
-                value="### 📋 جدول نگاشت\nدر انتظار پردازش...",
-                label="📋 جدول نگاشت"
-            )
-    # Event handlers
-    process_btn.click(
-        fn=process,
-        inputs=[input_text],
-        outputs=[input_text, anonymized_text, gpt_response, restored_text, mapping]
-    )
-    clear_btn.click(
-        fn=clear,
-        outputs=[input_text, anonymized_text, gpt_response, restored_text, mapping]
-    )
-if __name__ == "__main__":
-    print("🚀 سیستم ناشناس‌سازی متون در حال راه‌اندازی...")
-    app.launch(
-        server_name="0.0.0.0",
-        server_port=7860,
-        share=False,
-        show_error=True
-    )