Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Oct 21

Commit

72a098e

verified ·

1 Parent(s): 86a6145

Update app.py

Browse files

Files changed (1) hide show

app.py +120 -138

app.py CHANGED Viewed

@@ -4,95 +4,29 @@ from typing import Dict, Any
 import os
 from dataclasses import dataclass
 import re
-import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM
 @dataclass
-class LocalModelConfig:
-    """تنظیمات مدل Qwen2.5-32B"""
     model_id: str = "Qwen/Qwen2.5-32B-Instruct"
-    max_tokens: int = 2048
     temperature: float = 0.3
     top_p: float = 0.8
 class QwenAnonymizer:
     """سیستم ناشناس‌سازی متون مالی فارسی"""
-    def __init__(self):
-        self.config = LocalModelConfig()
-        self.tokenizer = None
-        self.model = None
-        self.model_loaded = False
-    def load_model(self) -> str:
-        """بارگذاری مدل از HuggingFace"""
-        try:
-            print(f"🤖 درحال دانلود و بارگذاری مدل...")
-            print(f"📦 Model: {self.config.model_id}")
-            # بررسی GPU
-            device = "cuda" if torch.cuda.is_available() else "cpu"
-            print(f"💻 دستگاه: {device}")
-            # بارگذاری tokenizer
-            print("📝 بارگذاری tokenizer...")
-            self.tokenizer = AutoTokenizer.from_pretrained(self.config.model_id)
-            # بارگذاری مدل
-            print("🧠 بارگذاری مدل...")
-            if device == "cuda":
-                # برای GPU
-                self.model = AutoModelForCausalLM.from_pretrained(
-                    self.config.model_id,
-                    torch_dtype=torch.float16,
-                    device_map="auto",
-                    load_in_4bit=True,  # 4-bit quantization
-                )
-            else:
-                # برای CPU
-                self.model = AutoModelForCausalLM.from_pretrained(
-                    self.config.model_id,
-                    torch_dtype=torch.float32,
-                    device_map="cpu",
-                )
-            self.model.eval()
-            self.model_loaded = True
-            print("✅ مدل با موفقیت بارگذاری شد\n")
-            return f"✅ مدل آماده است\n💻 دستگاه: {device}\n🧠 پارامترها: 32B"
-        except Exception as e:
-            error_msg = f"❌ خطا: {str(e)}"
-            print(error_msg)
-            return error_msg
-    def _create_system_prompt(self) -> str:
-        """دستورالعمل سیستمی"""
-        return """شما یک سیستم ناشناس‌سازی متون مالی فارسی هستید.
-⚠️ CRITICAL: در پاسخ نهایی خود، فقط و فقط متن ناشناس‌سازی شده را برگردانید، بدون هیچ توضیح، تحلیل، یا تگ اضافی.
-## قوانین اندیس‌گذاری:
-1. ترتیب پیوسته: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
-2. ثبات: اگر "همراه اول" → company-01 شد، در تمام متن همان باشد
-## انواع موجودیت:
-- company-XX: شرکت‌ها، بانک‌ها، سازمان‌ها
-- person-XX: نام و نام خانوادگی اشخاص
-- amount-XX: مبالغ - واحد را حفظ کن
-- percent-XX: درصدها
-## مثال:
-ورودی: ایران خودرو در اسفند 1402 حدود 23 هزار میلیارد درآمد کسب کرد که 4.58 درصد افزایش داشت.
-خروجی: company-01 در اسفند 1402 حدود amount-01 درآمد کسب کرد که percent-01 افزایش داشت.
-⚠️ فقط متن ناشناس‌شده، بدون هیچ توضیح اضافی."""
     def anonymize_text(self, text: str) -> Dict[str, Any]:
         """ناشناس‌سازی متن"""
-        if not self.model_loaded:
-            return {"success": False, "error": "مدل بارگذاری نشده است"}
         if not text.strip():
             return {"success": False, "error": "متن ورودی خالی است"}
@@ -100,45 +34,46 @@ class QwenAnonymizer:
         try:
             print(f"⏳ پردازش متن...")
-            # ایجاد prompt
             system_prompt = self._create_system_prompt()
-            user_prompt = text
-            # فرمت پیام برای Qwen
-            messages = [
-                {"role": "system", "content": system_prompt},
-                {"role": "user", "content": user_prompt}
-            ]
-            # تبدیل به متن
-            text_input = self.tokenizer.apply_chat_template(
-                messages,
-                tokenize=False,
-                add_generation_prompt=True
             )
-            # Tokenize
-            inputs = self.tokenizer(text_input, return_tensors="pt").to(self.model.device)
-            # Generate
-            with torch.no_grad():
-                outputs = self.model.generate(
-                    **inputs,
-                    max_new_tokens=self.config.max_tokens,
-                    temperature=self.config.temperature,
-                    top_p=self.config.top_p,
-                    do_sample=True,
-                    pad_token_id=self.tokenizer.eos_token_id,
-                )
-            # Decode
-            response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
-            # استخراج جواب (بعد از assistant:)
-            if "assistant" in response:
-                content = response.split("assistant")[-1].strip()
             else:
-                content = response.strip()
             # پاک‌سازی
             content = self._clean_explanations(content)
@@ -155,16 +90,36 @@ class QwenAnonymizer:
                 "quality_check": self._validate_anonymized_text(content)
             }
         except Exception as e:
             return {"success": False, "error": f"خطا: {str(e)}"}
     def _clean_explanations(self, content: str) -> str:
         """حذف توضیحات اضافی"""
         lines = content.split('\n')
         clean_lines = []
         for line in lines:
             if any(word in line.lower() for word in
-                   ['okay', 'let me', 'here is', 'خروجی', 'نتیجه', 'پاسخ:', 'assistant', '[inst]']):
                 continue
             clean_lines.append(line)
         return '\n'.join(clean_lines).strip()
@@ -224,9 +179,11 @@ class QwenAnonymizer:
 # ========== رابط کاربری ==========
-anonymizer = QwenAnonymizer()
 def create_interface():
     custom_css = """
     .gradio-container {
         font-family: 'Tahoma', 'Arial', sans-serif !important;
@@ -242,7 +199,7 @@ def create_interface():
         color: #0d47a1;
         margin: 10px 0;
     }
-    .local-box {
         background-color: #e8f5e9;
         border: 2px solid #4caf50;
         border-radius: 12px;
@@ -250,6 +207,14 @@ def create_interface():
         color: #1b5e20;
         margin: 10px 0;
     }
     .result-box {
         background-color: #f8f9fa;
         border: 2px solid #e9ecef;
@@ -262,23 +227,28 @@ def create_interface():
         gr.Markdown("""
         # 🔒 سیستم ناشناس‌سازی متون مالی فارسی
-        ### 🚀 Qwen 2.5-32B (HuggingFace)
         """)
         gr.Markdown("""
         <div class="info-box">
         📊 <strong>مدل:</strong> Qwen2.5-32B-Instruct<br>
-        🌐 <strong>منبع:</strong> HuggingFace Hub<br>
-        💾 <strong>حجم:</strong> 32B Parameters<br>
-        ⚡ <strong>بهینه‌سازی:</strong> Transformers + PyTorch
         </div>
         """)
-        status_box = gr.Textbox(label="📋 وضعیت", interactive=False, value="⏳ آماده برای بارگذاری...")
-        load_btn = gr.Button("🤖 بارگذاری مدل", variant="primary", size="lg")
-        with gr.Row(visible=False) as input_section:
             with gr.Column(scale=1):
                 input_text = gr.Textbox(
                     label="📝 متن ورودی",
@@ -299,31 +269,29 @@ def create_interface():
                     elem_classes=["result-box"]
                 )
-        with gr.Row(visible=False) as output_section:
             with gr.Column():
                 statistics_output = gr.Markdown(label="📊 آمار")
             with gr.Column():
                 quality_output = gr.Markdown(label="✅ کیفیت")
-        with gr.Row(visible=False) as output_section2:
             entities_output = gr.Markdown(label="🏷️ موجودیت‌ها")
             detailed_output = gr.Markdown(label="🔍 تحلیل")
-        def load_model_action():
-            """بارگذاری مدل"""
-            msg = anonymizer.load_model()
-            return (
-                gr.Textbox(value=msg),
-                gr.Row(visible=True),
-                gr.Row(visible=True),
-                gr.Row(visible=True)
-            )
-        def process_text(text):
             """پردازش متن"""
             if not text.strip():
                 return ("", "❌ متن خالی است", "", "", "", "")
             result = anonymizer.anonymize_text(text)
             if not result["success"]:
@@ -376,14 +344,9 @@ def create_interface():
         def clear_all():
             return "", "", "", "", "", ""
-        load_btn.click(
-            fn=load_model_action,
-            outputs=[status_box, input_section, output_section, output_section2]
-        )
         anonymize_btn.click(
             fn=process_text,
-            inputs=[input_text],
             outputs=[output_text, statistics_output, quality_output, entities_output, detailed_output, status_box]
         )
@@ -401,6 +364,25 @@ def create_interface():
             label="📚 مثال‌ها"
         )
         return interface
 if __name__ == "__main__":

 import os
 from dataclasses import dataclass
 import re
+import requests
 @dataclass
+class QwenConfig:
+    """تنظیمات Qwen 2.5-32B via HF Inference API"""
     model_id: str = "Qwen/Qwen2.5-32B-Instruct"
+    api_url: str = "https://api-inference.huggingface.co/models/Qwen/Qwen2.5-32B-Instruct"
+    max_tokens: int = 1024
     temperature: float = 0.3
     top_p: float = 0.8
 class QwenAnonymizer:
     """سیستم ناشناس‌سازی متون مالی فارسی"""
+    def __init__(self, hf_token: str = None):
+        self.config = QwenConfig()
+        self.hf_token = hf_token or os.getenv("HF_TOKEN")
+        self.model_loaded = bool(self.hf_token)
     def anonymize_text(self, text: str) -> Dict[str, Any]:
         """ناشناس‌سازی متن"""
+        if not self.hf_token:
+            return {"success": False, "error": "HF_TOKEN یافت نشد"}
         if not text.strip():
             return {"success": False, "error": "متن ورودی خالی است"}
         try:
             print(f"⏳ پردازش متن...")
             system_prompt = self._create_system_prompt()
+            # ایجاد payload
+            payload = {
+                "inputs": f"""[INST] {system_prompt}
+متن ورودی:
+{text}
+فقط متن ناشناس‌سازی شده را برگردان: [/INST]""",
+                "parameters": {
+                    "max_new_tokens": self.config.max_tokens,
+                    "temperature": self.config.temperature,
+                    "top_p": self.config.top_p,
+                    "do_sample": True,
+                    "return_full_text": False,
+                }
+            }
+            # درخواست API
+            headers = {"Authorization": f"Bearer {self.hf_token}"}
+            response = requests.post(
+                self.config.api_url,
+                headers=headers,
+                json=payload,
+                timeout=120
             )
+            if response.status_code != 200:
+                return {
+                    "success": False,
+                    "error": f"خطا از API: {response.status_code} - {response.text}"
+                }
+            result = response.json()
+            if isinstance(result, list) and len(result) > 0:
+                content = result[0].get("generated_text", "").strip()
             else:
+                content = str(result).strip()
             # پاک‌سازی
             content = self._clean_explanations(content)
                 "quality_check": self._validate_anonymized_text(content)
             }
+        except requests.exceptions.Timeout:
+            return {"success": False, "error": "⏱️ مدل درحال بارگذاری است (۳۰-۶۰ ثانیه صبر کنید)"}
         except Exception as e:
             return {"success": False, "error": f"خطا: {str(e)}"}
+    def _create_system_prompt(self) -> str:
+        """دستورالعمل سیستمی"""
+        return """شما یک سیستم ناشناس‌سازی متون مالی فارسی هستید.
+قوانین اندیس‌گذاری:
+1. ترتیب پیوسته: company-01, company-02, ... | person-01, person-02, ... | amount-01, amount-02, ... | percent-01, percent-02, ...
+2. ثبات: اگر "همراه اول" → company-01 شد، در تمام متن همان باشد
+انواع موجودیت:
+- company-XX: شرکت‌ها، بانک‌ها، سازمان‌ها
+- person-XX: نام و نام خانوادگی اشخاص
+- amount-XX: مبالغ - واحد را حفظ کن
+- percent-XX: درصدها
+مثال:
+ورودی: ایران خودرو در اسفند 1402 حدود 23 هزار میلیارد درآمد کسب کرد که 4.58 درصد افزایش داشت.
+خروجی: company-01 در اسفند 1402 حدود amount-01 درآمد کسب کرد که percent-01 افزایش داشت."""
     def _clean_explanations(self, content: str) -> str:
         """حذف توضیحات اضافی"""
         lines = content.split('\n')
         clean_lines = []
         for line in lines:
             if any(word in line.lower() for word in
+                   ['okay', 'let me', 'here is', 'خروجی', 'نتیجه', 'پاسخ:', 'assistant']):
                 continue
             clean_lines.append(line)
         return '\n'.join(clean_lines).strip()
 # ========== رابط کاربری ==========
+anonymizer = None
 def create_interface():
+    global anonymizer
     custom_css = """
     .gradio-container {
         font-family: 'Tahoma', 'Arial', sans-serif !important;
         color: #0d47a1;
         margin: 10px 0;
     }
+    .success-box {
         background-color: #e8f5e9;
         border: 2px solid #4caf50;
         border-radius: 12px;
         color: #1b5e20;
         margin: 10px 0;
     }
+    .warning-box {
+        background-color: #fff3cd;
+        border: 2px solid #ffc107;
+        border-radius: 12px;
+        padding: 15px;
+        color: #856404;
+        margin: 10px 0;
+    }
     .result-box {
         background-color: #f8f9fa;
         border: 2px solid #e9ecef;
         gr.Markdown("""
         # 🔒 سیستم ناشناس‌سازی متون مالی فارسی
+        ### 🚀 Qwen 2.5-32B (HuggingFace Inference API)
         """)
+        hf_token_input = gr.Textbox(
+            label="🔑 HuggingFace API Token",
+            placeholder="hf_...",
+            type="password",
+            info="از https://huggingface.co/settings/tokens بگیرید"
+        )
         gr.Markdown("""
         <div class="info-box">
         📊 <strong>مدل:</strong> Qwen2.5-32B-Instruct<br>
+        🌐 <strong>منبع:</strong> HuggingFace Inference API<br>
+        ✅ <strong>مزیت:</strong> بدون نیاز به نصب • سریع • رایگان<br>
+        ⚡ <strong>وضعیت:</strong> آماده برای استفاده فوری
         </div>
         """)
+        status_box = gr.Textbox(label="📋 وضعیت", interactive=False, value="✅ آماده")
+        with gr.Row():
             with gr.Column(scale=1):
                 input_text = gr.Textbox(
                     label="📝 متن ورودی",
                     elem_classes=["result-box"]
                 )
+        with gr.Row():
             with gr.Column():
                 statistics_output = gr.Markdown(label="📊 آمار")
             with gr.Column():
                 quality_output = gr.Markdown(label="✅ کیفیت")
+        with gr.Row():
             entities_output = gr.Markdown(label="🏷️ موجودیت‌ها")
             detailed_output = gr.Markdown(label="🔍 تحلیل")
+        def process_text(text, token):
             """پردازش متن"""
+            global anonymizer
+            if not token or not token.strip():
+                return ("", "❌ HF Token الزامی است", "", "", "", "")
             if not text.strip():
                 return ("", "❌ متن خالی است", "", "", "", "")
+            # ایجاد anonymizer با token
+            anonymizer = QwenAnonymizer(hf_token=token.strip())
             result = anonymizer.anonymize_text(text)
             if not result["success"]:
         def clear_all():
             return "", "", "", "", "", ""
         anonymize_btn.click(
             fn=process_text,
+            inputs=[input_text, hf_token_input],
             outputs=[output_text, statistics_output, quality_output, entities_output, detailed_output, status_box]
         )
             label="📚 مثال‌ها"
         )
+        with gr.Accordion("📖 راهنما", open=False):
+            gr.Markdown("""
+            ## 🔑 چگونه HF Token بگیرید:
+            1. به https://huggingface.co/settings/tokens بروید
+            2. **New token** کلیک کنید
+            3. نام انتخاب کنید (مثلاً: qwen-anonymizer)
+            4. **Type: Read** انتخاب کنید
+            5. **Generate** کلیک کنید
+            6. Token رو کپی کنید
+            ## 🚀 چگونه استفاده کنید:
+            1. Token را در بالا وارد کنید
+            2. متن خود را در جعبه "متن ورودی" بنویسید
+            3. دکمه "🔒 ناشناس‌سازی" را کلیک کنید
+            4. نتیجه در جعبه "متن ناشناس‌سازی شده" نمایش داده می‌شود
+            """)
         return interface
 if __name__ == "__main__":