Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 21, 2025

Commit

2941845

verified ·

1 Parent(s): f1f2e2e

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -252

app.py DELETED Viewed

@@ -1,252 +0,0 @@
-import gradio as gr
-import re
-import json
-from typing import Dict, Tuple, List
-class TextAnonymizer:
-    def __init__(self):
-        self.reset_counters()
-    def reset_counters(self):
-        """ریست کردن شمارنده‌ها و mapping ها"""
-        self.company_counter = 1
-        self.amount_counter = 1
-        self.percent_counter = 1
-        self.person_counter = 1
-        self.company_mapping = {}
-        self.amount_mapping = {}
-        self.percent_mapping = {}
-        self.person_mapping = {}
-    def anonymize_companies(self, text: str) -> str:
-        """ناشناس‌سازی نام شرکت‌ها"""
-        # الگوهای شناسایی شرکت
-        company_patterns = [
-            r'شرکت\s+[\u0600-\u06FF\s]+',
-            r'بانک\s+[\u0600-\u06FF\s]+',
-            r'بیمه\s+[\u0600-\u06FF\s]+',
-            r'پتروشیمی\s+[\u0600-\u06FF\s]+',
-            r'فولاد\s+[\u0600-\u06FF\s]+',
-            r'گروه\s+[\u0600-\u06FF\s]+',
-            r'هلدینگ\s+[\u0600-\u06FF\s]+',
-            r'سازمان\s+[\u0600-\u06FF\s]+',
-            r'مؤسسه\s+[\u0600-\u06FF\s]+',
-            r'موسسه\s+[\u0600-\u06FF\s]+',
-            r'ایران\s*خودرو',
-            r'همراه\s*اول',
-            r'ایرانسل',
-            r'سایپا',
-            r'پارسیان',
-            r'پاسارگاد',
-            r'ملت',
-            r'صبا\s*تامین',
-            r'تیپیکو'
-        ]
-        for pattern in company_patterns:
-            matches = re.finditer(pattern, text, re.IGNORECASE)
-            for match in matches:
-                company_name = match.group().strip()
-                if company_name not in self.company_mapping:
-                    self.company_mapping[company_name] = f"company-{self.company_counter:02d}"
-                    self.company_counter += 1
-                text = text.replace(company_name, self.company_mapping[company_name])
-        return text
-    def anonymize_amounts(self, text: str) -> str:
-        """ناشناس‌سازی مقادیر مالی و اعداد"""
-        # الگوهای اعداد و مقادیر مالی
-        amount_patterns = [
-            r'\d+[،,]?\d*\s*هزار\s*(و\s*\d+)?\s*(میلیارد|میلیون)?\s*(تومان|ریال|دلار)',
-            r'\d+[،,]?\d*\s*(میلیارد|میلیون|هزار)\s*(تومان|ریال|دلار)',
-            r'\d+[،,]?\d*\s*(تومان|ریال|دلار)',
-            r'\d+[،,]?\d*\s*همت',
-            r'\d+[،,]?\d*\s*(میلیارد|میلیون|هزار)',
-            r'\d+[،,]?\d*\s*تن',
-            r'\d+[،,]?\d*\s*دستگاه',
-            r'\d+[،,]?\d*\s*نفر',
-            r'\d+[،,]?\d*\s*مگاوات',
-            r'\d+[،,]?\d*\s*تُن',
-            r'\d+[،,]?\d*\s*واحد',
-            r'\d+[،,]?\d*\s*سال',
-            r'\d+[،,]?\d*\s*ماه',
-            r'\d+[،,]?\d*\s*روز'
-        ]
-        for pattern in amount_patterns:
-            matches = re.finditer(pattern, text)
-            for match in matches:
-                amount = match.group().strip()
-                if amount not in self.amount_mapping:
-                    self.amount_mapping[amount] = f"amount-{self.amount_counter:02d}"
-                    self.amount_counter += 1
-                text = text.replace(amount, self.amount_mapping[amount])
-        return text
-    def anonymize_percentages(self, text: str) -> str:
-        """ناشناس‌سازی درصدها"""
-        percent_patterns = [
-            r'\d+[،,]?\d*\s*درصد',
-            r'٪\s*\d+[،,]?\d*',
-            r'\d+[،,]?\d*\s*٪'
-        ]
-        for pattern in percent_patterns:
-            matches = re.finditer(pattern, text)
-            for match in matches:
-                percent = match.group().strip()
-                if percent not in self.percent_mapping:
-                    self.percent_mapping[percent] = f"percent-{self.percent_counter:02d}"
-                    self.percent_counter += 1
-                text = text.replace(percent, self.percent_mapping[percent])
-        return text
-    def anonymize_persons(self, text: str) -> str:
-        """ناشناس‌سازی نام افراد"""
-        # الگوی نام افراد ایرانی (نام + نام خانوادگی)
-        person_patterns = [
-            r'(?:آقای|خانم|دکتر|مهندس|استاد)?\s*[\u0600-\u06FF]{2,10}\s+[\u0600-\u06FF]{2,15}(?:\s+[\u0600-\u06FF]{2,15})?',
-            # نام‌های خاص که در متن مشاهده شدند
-            r'مهدی\s+اخوان\s+بهابادی',
-            r'فرج‌اله\s+قدمی',
-            r'محمد\s+ایروانی',
-            r'جواد\s+شکرخواه',
-            r'بهرنگ\s+اسدی\s+قره\s+جلو',
-            r'سید\s+محمدجواد\s+میرطاهر',
-            r'جواد\s+زارع‌پور',
-            r'محمدرضا\s+فرزین',
-            r'ابوالفضل\s+نجارزاده'
-        ]
-        for pattern in person_patterns:
-            matches = re.finditer(pattern, text)
-            for match in matches:
-                person_name = match.group().strip()
-                # حذف عناوین
-                person_name = re.sub(r'^(آقای|خانم|دکتر|مهندس|استاد)\s+', '', person_name)
-                if person_name not in self.person_mapping and len(person_name) > 3:
-                    self.person_mapping[person_name] = f"person-{self.person_counter:02d}"
-                    self.person_counter += 1
-                    text = text.replace(match.group(), self.person_mapping[person_name])
-        return text
-    def anonymize_text(self, text: str) -> Tuple[str, Dict]:
-        """ناشناس‌سازی کامل متن"""
-        if not text.strip():
-            return "متن وارد شده خالی است.", {}
-        # ناشناس‌سازی به ترتیب اولویت
-        anonymized_text = text
-        anonymized_text = self.anonymize_persons(anonymized_text)
-        anonymized_text = self.anonymize_companies(anonymized_text)
-        anonymized_text = self.anonymize_amounts(anonymized_text)
-        anonymized_text = self.anonymize_percentages(anonymized_text)
-        # ایجاد گزارش mapping
-        mapping_report = {
-            "شرکت‌ها": self.company_mapping,
-            "مقادیر": self.amount_mapping,
-            "درصدها": self.percent_mapping,
-            "اشخاص": self.person_mapping
-        }
-        return anonymized_text, mapping_report
-# ایجاد instance کلاس
-anonymizer = TextAnonymizer()
-def process_text(input_text: str, reset_mappings: bool = False) -> Tuple[str, str]:
-    """پردازش متن ورودی"""
-    if reset_mappings:
-        anonymizer.reset_counters()
-    anonymized_text, mapping_report = anonymizer.anonymize_text(input_text)
-    # تبدیل mapping به فرمت قابل نمایش
-    mapping_display = json.dumps(mapping_report, ensure_ascii=False, indent=2)
-    return anonymized_text, mapping_display
-# ایجاد رابط کاربری Gradio
-def create_interface():
-    with gr.Blocks(title="ناشناس‌ساز متون فارسی", theme=gr.themes.Soft()) as interface:
-        gr.Markdown("""
-        # 🔒 ناشناس‌ساز متون فارسی
-        این برنامه اطلاعات حساس در متون فارسی را شناسایی و ناشناس می‌کند:
-        - 🏢 نام شرکت‌ها و سازمان‌ها
-        - 💰 مقادیر مالی و اعداد
-        - 📊 درصدها
-        - 👤 نام اشخاص
-        """)
-        with gr.Row():
-            with gr.Column():
-                input_text = gr.Textbox(
-                    label="متن ورودی",
-                    placeholder="متن خود را اینجا وارد کنید...",
-                    lines=10
-                )
-                with gr.Row():
-                    process_btn = gr.Button("ناشناس‌سازی متن", variant="primary")
-                    reset_btn = gr.Button("ریست شمارنده‌ها", variant="secondary")
-            with gr.Column():
-                output_text = gr.Textbox(
-                    label="متن ناشناس‌سازی شده",
-                    lines=10,
-                    interactive=False
-                )
-                mapping_display = gr.Code(
-                    label="گزارش تبدیل‌ها",
-                    language="json",
-                    interactive=False
-                )
-        # نمونه متن
-        gr.Examples(
-            examples=[
-                ["شرکت ایران خودرو در سال 1402 حدود 23 هزار میلیارد تومان درآمد داشت و مدیرعامل آن مهدی احمدی است."],
-                ["بانک پاسارگاد با سود 155 هزار میلیارد ریالی و بانک ملت رقابت نزدیکی دارند. فرج‌اله قدمی مدیرعامل بانک سرمایه است."],
-                ["همراه اول با 37 درصد رشد درآمد به 70 هزار میلیارد تومان رسید و 73.7 میلیون مشترک فعال دارد."]
-            ],
-            inputs=[input_text]
-        )
-        process_btn.click(
-            fn=lambda text: process_text(text, False),
-            inputs=[input_text],
-            outputs=[output_text, mapping_display]
-        )
-        reset_btn.click(
-            fn=lambda: (anonymizer.reset_counters(), "��مارنده‌ها ریست شدند"),
-            outputs=[gr.Textbox(visible=False)]
-        )
-    return interface
-if __name__ == "__main__":
-    # ایجاد و اجرای رابط کاربری
-    demo = create_interface()
-    demo.launch(
-        share=True,  # برای ایجاد لینک عمومی
-        server_name="0.0.0.0",  # برای دسترسی از شبکه
-        server_port=7860  # پورت پیش‌فرض Hugging Face Spaces
-    )