Spaces:

leilaghomashchi
/

Data-anonymization

Sleeping

App Files Files Community

leilaghomashchi commited on Sep 22, 2025

Commit

b342cf5

verified ·

1 Parent(s): d559073

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -57

app.py CHANGED Viewed

@@ -14,8 +14,8 @@ class GroqConfig:
     """تنظیمات Groq API"""
     api_key: str
     base_url: str = "https://api.groq.com/openai/v1"
-    model: str = "llama-3.1-8b-instant"
-    max_tokens: int = 1500
     temperature: float = 0.1
 class GroqAnonymizer:
@@ -33,37 +33,23 @@ class GroqAnonymizer:
     def _create_system_prompt(self) -> str:
         """ایجاد دستورالعمل سیستمی برای Groq"""
-        return """شما یک سیستم ناشناس‌سازی متن فارسی هستید. وظیفه شما تشخیص و جایگزینی موجودیت‌های حساس در متن است.
-قوانین ناشناس‌سازی:
-1. نام شرکت‌ها را با company-01, company-02, ... جایگزین کنید
-2. نام افراد را با person-01, person-02, ... جایگزین کنید
-3. مبالغ و اعداد را با amount-01, amount-02, ... جایگزین کنید
-4. درصدها را با percent-01, percent-02, ... جایگزین کنید
-5. نام گروه‌ها را با group-01, group-02, ... جایگزین کنید
-نکات مهم:
-- اگر همان موجودیت تکرار شود، همان شماره را استفاده کنید
-- پیشوندهای افراد (دکتر، مهندس، آقا، خانم) را حفظ کنید
-- فقط موجودیت‌های حساس را تغییر دهید، بقیه متن دست نخورده باقی بماند
-- خروجی را فقط به صورت JSON با فیلدهای زیر ارائه دهید:
-{
-  "anonymized_text": "متن ناشناس‌سازی شده",
-  "entities": [
-    {
-      "original": "متن اصلی",
-      "anonymized": "متن جایگزین",
-      "type": "نوع موجودیت"
-    }
-  ],
-  "statistics": {
-    "company": تعداد,
-    "person": تعداد,
-    "amount": تعداد,
-    "percent": تعداد,
-    "group": تعداد
-  }
-}"""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
         """ارسال درخواست به Groq API"""
@@ -120,38 +106,53 @@ class GroqAnonymizer:
             content = response["choices"][0]["message"]["content"]
-            try:
-                # حذف markdown formatting
-                if "```json" in content:
-                    content = content.split("```json")[1].split("```")[0]
-                elif "```" in content:
-                    content = content.split("```")[1].split("```")[0]
-                result = json.loads(content.strip())
-                return {
-                    "success": True,
-                    "anonymized_text": result.get("anonymized_text", ""),
-                    "entities": result.get("entities", []),
-                    "statistics": result.get("statistics", {}),
-                    "usage": response.get("usage", {})
-                }
-            except json.JSONDecodeError:
-                return {
-                    "success": True,
-                    "anonymized_text": content,
-                    "entities": [],
-                    "statistics": {},
-                    "usage": response.get("usage", {}),
-                    "note": "پاسخ به صورت JSON قابل پارس نبود"
-                }
         except Exception as e:
             return {
                 "success": False,
                 "error": f"خطا در پردازش: {str(e)}"
             }
 def create_interface():
     """ایجاد رابط کاربری برای Hugging Face Spaces"""

     """تنظیمات Groq API"""
     api_key: str
     base_url: str = "https://api.groq.com/openai/v1"
+    model: str = "llama-3.1-8b-instant"
+    max_tokens: int = 1000
     temperature: float = 0.1
 class GroqAnonymizer:
     def _create_system_prompt(self) -> str:
         """ایجاد دستورالعمل سیستمی برای Groq"""
+        return """شما یک سیستم ناشناس‌سازی متن فارسی هستید.
+وظیفه: تشخیص و جایگزینی موجودیت‌های حساس:
+1. نام شرکت‌ها → company-01, company-02, ...
+2. نام افراد → person-01, person-02, ...
+3. مبالغ و اعداد → amount-01, amount-02, ...
+4. درصدها → percent-01, percent-02, ...
+نکات:
+- همان موجودیت = همان شماره
+- پیشوندها (دکتر، آقا) را حفظ کنید
+- فقط متن ناشناس‌سازی شده را برگردانید، بدون JSON یا توضیح اضافی
+مثال:
+ورودی: احمد رضایی مدیرعامل شرکت پارس 100 میلیون تومان درآمد دارد
+خروجی: person-01 مدیرعامل company-01 amount-01 درآمد دارد"""
     def _make_api_request(self, text: str) -> Dict[str, Any]:
         """ارسال درخواست به Groq API"""
             content = response["choices"][0]["message"]["content"]
+            # پاک کردن markdown اگر وجود دارد
+            if "```" in content:
+                lines = content.split('\n')
+                clean_lines = []
+                skip = False
+                for line in lines:
+                    if line.strip().startswith('```'):
+                        skip = not skip
+                        continue
+                    if not skip:
+                        clean_lines.append(line)
+                content = '\n'.join(clean_lines)
+            # حذف خطوط اضافی و فضاهای خالی
+            content = content.strip()
+            return {
+                "success": True,
+                "anonymized_text": content,
+                "entities": [],  # در حالت ساده entities نداریم
+                "statistics": self._count_entities(content),
+                "usage": response.get("usage", {})
+            }
         except Exception as e:
             return {
                 "success": False,
                 "error": f"خطا در پردازش: {str(e)}"
             }
+    def _count_entities(self, text: str) -> Dict[str, int]:
+        """شمارش موجودیت‌ها در متن ناشناس‌سازی شده"""
+        import re
+        company_count = len(re.findall(r'company-\d+', text))
+        person_count = len(re.findall(r'person-\d+', text))
+        amount_count = len(re.findall(r'amount-\d+', text))
+        percent_count = len(re.findall(r'percent-\d+', text))
+        group_count = len(re.findall(r'group-\d+', text))
+        return {
+            "company": company_count,
+            "person": person_count,
+            "amount": amount_count,
+            "percent": percent_count,
+            "group": group_count
+        }
 def create_interface():
     """ایجاد رابط کاربری برای Hugging Face Spaces"""