Spaces:

KashefTech
/

Data-Anonymization

Sleeping

App Files Files Community

KashefTech commited on Nov 15, 2025

Commit

0615a86

verified ·

1 Parent(s): 44f4b05

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -5

app.py CHANGED Viewed

@@ -151,8 +151,8 @@ class AnonymizerAdvanced:
                 json_example += '  "person-01": "متن اصلی کامل",\n'
             if "company" in self.entities_to_anonymize:
-                mapping_instructions.append('- برای company-XX: نام کامل شرکت/سازمان (مثلاً "شرکت پتروشیمی")')
-                json_example += '  "company-01": "متن اصلی کامل",\n'
             if "amount" in self.entities_to_anonymize:
                 mapping_instructions.append('- برای amount-XX: عدد + واحد (مثلاً "80 هزار تومان" یا "50 میلیارد ریال")')
@@ -218,7 +218,7 @@ class AnonymizerAdvanced:
             raise
     def _fix_percent_mapping(self):
-        """اصلاح mapping برای درصدها"""
         for token, value in self.mapping_table.items():
             value_str = str(value).strip()
@@ -230,6 +230,13 @@ class AnonymizerAdvanced:
             elif token.startswith('amount-'):
                 if not re.search(r'(میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)', value_str):
                     logger.warning(f"⚠️ {token}: فقط عدد '{value_str}' - واحد مشخص نیست")
     def _extract_mapping_from_text(self, original: str, anonymized: str):
         """استخراج mapping از متن‌های اصلی و ناشناس شده - فقط برای موجودیت‌های انتخابی"""
@@ -247,7 +254,8 @@ class AnonymizerAdvanced:
         if "person" in self.entities_to_anonymize:
             patterns['person'] = r'\b[ء-ي]+\s+[ء-ي]+(?:\s+[ء-ي]+)*\b'
         if "company" in self.entities_to_anonymize:
-            patterns['company'] = r'(?:شرکت|بانک|سازمان|گروه|هلدینگ)\s+[ء-ي]+(?:\s+[ء-ي]+)*'
         if "amount" in self.entities_to_anonymize:
             patterns['amount'] = r'\d+(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)'
         if "percent" in self.entities_to_anonymize:
@@ -256,7 +264,11 @@ class AnonymizerAdvanced:
         original_entities = {}
         for entity_type, pattern in patterns.items():
             matches = list(re.finditer(pattern, original))
-            original_entities[entity_type] = [m.group().strip() for m in matches]
         for token, entity_type in all_tokens:
             if entity_type in original_entities and original_entities[entity_type]:
@@ -691,6 +703,7 @@ if __name__ == "__main__":
     print("💡 فقط gpt-4o-mini از Secret می‌خواند")
     print("   بقیه مدل‌ها نیاز به API key دارند")
     print("   اکنون می‌توانید موجودیت‌های خاص را انتخاب کنید")
     print("=" * 70 + "\n")
     app.launch(

                 json_example += '  "person-01": "متن اصلی کامل",\n'
             if "company" in self.entities_to_anonymize:
+                mapping_instructions.append('- برای company-XX: فقط نام شرکت/سازمان بدون کلمه "شرکت" یا "بانک" (مثلاً فقط "پتروشیمی" نه "شرکت پتروشیمی")')
+                json_example += '  "company-01": "نام بدون کلمه شرکت/بانک",\n'
             if "amount" in self.entities_to_anonymize:
                 mapping_instructions.append('- برای amount-XX: عدد + واحد (مثلاً "80 هزار تومان" یا "50 میلیارد ریال")')
             raise
     def _fix_percent_mapping(self):
+        """اصلاح mapping برای درصدها و حذف کلمه شرکت/بانک از نام شرکت‌ها"""
         for token, value in self.mapping_table.items():
             value_str = str(value).strip()
             elif token.startswith('amount-'):
                 if not re.search(r'(میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)', value_str):
                     logger.warning(f"⚠️ {token}: فقط عدد '{value_str}' - واحد مشخص نیست")
+            elif token.startswith('company-'):
+                # ✅ حذف کلمه "شرکت"، "بانک"، "سازمان"، "گروه"، "هلدینگ" از ابتدای نام
+                cleaned = re.sub(r'^(شرکت|بانک|سازمان|گروه|هلدینگ)\s+', '', value_str)
+                if cleaned != value_str:
+                    self.mapping_table[token] = cleaned
+                    logger.info(f"✅ اصلاح {token}: '{value_str}' → '{cleaned}'")
     def _extract_mapping_from_text(self, original: str, anonymized: str):
         """استخراج mapping از متن‌های اصلی و ناشناس شده - فقط برای موجودیت‌های انتخابی"""
         if "person" in self.entities_to_anonymize:
             patterns['person'] = r'\b[ء-ي]+\s+[ء-ي]+(?:\s+[ء-ي]+)*\b'
         if "company" in self.entities_to_anonymize:
+            # ✅ الگو برای استخراج نام شرکت بدون کلمه شرکت/بانک/...
+            patterns['company'] = r'(?:شرکت|بانک|سازمان|گروه|هلدینگ)\s+([ء-ي\s]+)'
         if "amount" in self.entities_to_anonymize:
             patterns['amount'] = r'\d+(?:\.\d+)?\s*(?:میلیارد|میلیون|هزار|تومان|ریال|دلار|یورو|تن)'
         if "percent" in self.entities_to_anonymize:
         original_entities = {}
         for entity_type, pattern in patterns.items():
             matches = list(re.finditer(pattern, original))
+            if entity_type == 'company':
+                # ✅ فقط گروه اول (بدون کلمه شرکت/بانک/...)
+                original_entities[entity_type] = [m.group(1).strip() for m in matches]
+            else:
+                original_entities[entity_type] = [m.group().strip() for m in matches]
         for token, entity_type in all_tokens:
             if entity_type in original_entities and original_entities[entity_type]:
     print("💡 فقط gpt-4o-mini از Secret می‌خواند")
     print("   بقیه مدل‌ها نیاز به API key دارند")
     print("   اکنون می‌توانید موجودیت‌های خاص را انتخاب کنید")
+    print("   کلمه 'شرکت' از ابتدای نام شرکت‌ها حذف می‌شود")
     print("=" * 70 + "\n")
     app.launch(