metricspace
/

GDPR_Input_Detection_and_Anonymization_0.5B

Safetensors

qwen2

Model card Files Files and versions

xet

Community

marcel1997 commited on Jan 21, 2025

Commit

8183dbf

verified ·

1 Parent(s): 5ae56e7

Update README.md

Browse files

Files changed (1) hide show

README.md +12 -50

README.md CHANGED Viewed

@@ -99,7 +99,7 @@ formats = {
     "sensitivity": """<|im_start|>system\nSensitivity<|im_end|>\n<|im_start|>user\n{text}<|im_end|>\n<|im_start|>assistant\n""",
     "complexity": """<|im_start|>system\nComplexity<|im_end|>\n<|im_start|>user\n{text}<|im_end|>\n<|im_start|>assistant\n""",
     "entity_detection": """<|im_start|>system\nEntity Detection<|im_end|>\n<|im_start|>user\n{text}<|im_end|>\n<|im_start|>assistant\n""",
-    "entity_swapping": """<|im_start|>system\nEntity Swapping<|im_end|>\n<|im_start|>user\nentities:{entities}\ntext:\n{text}<|im_end|>\n<|im_start|>assistant\n"""
 }
 def model_inference(text, mode="anonymization", max_new_tokens=2028, config=None, entity_mapping=None, return_entities=False, reverse_mapping=False):
@@ -288,26 +288,26 @@ def select_entities_based_on_json(prediction_json, entity_json):
 Example text
 ```
-We have a community picnic this Saturday at Greenfield Park, 11 AM. RSVP by Thursday, Write me an e-mail annoucment!
 ```
 The sensitivity analysis feature evaluates the sensitivity of a given text and the complexitivity feature rates the complexity.
 ```python
-text = "We have a community picnic this Saturday at Greenfield Park, 11 AM. RSVP by Thursday, Write me an e-mail annoucment!"
 # Generate sensitivity score
 sensitivity_score = model_inference(text, mode="sensitivity")
-print(f"Sensitivity Score: {sensitivity_score}" "\n")
 # Generate complexity score
 complexity_score = model_inference(text, mode="complexity")
-print(f"Complexity: {complexity_score}" "\n")
 ```
 Output
 ```
 Sensitivity Score: 0
-Complexity Score: 3
 ```
 ### 3. Anonymization and Re-Anonymization
@@ -325,58 +325,20 @@ print(f"Anonymized Text: {anonymized_text}\n")
 # Restore the original text
 anonymized_text, entity_mapping = model_inference(text, mode="anonymization", return_entities=True)
 print(f"Entity Mapping:\n{entity_mapping}\n")
-print(f"Anonymized Text: {anonymized_text}\n")
 restored_text = model_inference(anonymized_text, mode="entity_swapping", entity_mapping=entity_mapping, reverse_mapping=True)
 print(f"Restored Text: {restored_text}")
 ```
 Output
 ```
-Anonymized Text: We have a community picnic this Saturday at Maplewood Park, Late Morning. RSVP by Thursday, Write me an e-mail announcement.
-Restored Text: We have a community picnic this Saturday at Greenfield Park, 11 AM. RSVP by Thursday, Write me an e-mail announcement.
-```
-This is how the stored entitiy maps looks like
-```python
-print(f"{json.dumps(entity_mapping, indent=4)}")
-```
-Output
-```
-{
-    "Greenfield Park": {
-        "TYPE": "LOC",
-        "RANDOM": "Maplewood Park",
-        "GENERAL": [
-            [
-                "Local Park",
-                "3"
-            ],
-            [
-                "Public Park",
-                "5"
-            ],
-            [
-                "Recreational Area",
-                "7"
-            ]
-        ]
-    },
-    "11 AM": {
-        "TYPE": "DATETIME",
-        "RANDOM": "1 PM",
-        "GENERAL": [
-            [
-                "Late Morning",
-                "2"
-            ],
-            [
-                "A",
-                "4"
-            ]
-        ]
-    }
-}
 ```
 Normally you would process the annonymized version with a LLM and than reanonymize the result back.

     "sensitivity": """<|im_start|>system\nSensitivity<|im_end|>\n<|im_start|>user\n{text}<|im_end|>\n<|im_start|>assistant\n""",
     "complexity": """<|im_start|>system\nComplexity<|im_end|>\n<|im_start|>user\n{text}<|im_end|>\n<|im_start|>assistant\n""",
     "entity_detection": """<|im_start|>system\nEntity Detection<|im_end|>\n<|im_start|>user\n{text}<|im_end|>\n<|im_start|>assistant\n""",
+    "entity_swapping": """<|im_start|>system\nEntity Swapping<|im_end|>\n<|im_start|>user\nentities:\n{entities}\ntext:\n{text}<|im_end|>\n<|im_start|>assistant\n"""
 }
 def model_inference(text, mode="anonymization", max_new_tokens=2028, config=None, entity_mapping=None, return_entities=False, reverse_mapping=False):
 Example text
 ```
+We have a community picnic at Greenfield Park, it is on thursday at 11 AM. Write me an e-mail annoucment!
 ```
 The sensitivity analysis feature evaluates the sensitivity of a given text and the complexitivity feature rates the complexity.
 ```python
+text = "We have a community picnic at Greenfield Park, it is on thursday at 11 AM. Write me an e-mail annoucment!"
 # Generate sensitivity score
 sensitivity_score = model_inference(text, mode="sensitivity")
+print(f"Sensitivity Score: {sensitivity_score}")
 # Generate complexity score
 complexity_score = model_inference(text, mode="complexity")
+print(f"Complexity: {complexity_score}")
 ```
 Output
 ```
 Sensitivity Score: 0
+Complexity: 3
 ```
 ### 3. Anonymization and Re-Anonymization
 # Restore the original text
 anonymized_text, entity_mapping = model_inference(text, mode="anonymization", return_entities=True)
 print(f"Entity Mapping:\n{entity_mapping}\n")
 restored_text = model_inference(anonymized_text, mode="entity_swapping", entity_mapping=entity_mapping, reverse_mapping=True)
 print(f"Restored Text: {restored_text}")
 ```
 Output
 ```
+Anonymized Text: We have a community picnic at Sunnyvale Park, it is on A Day of the Week at Morning. Write me an e-mail announcement!
+Entity Mapping:
+Greenfield Park : Sunnyvale Park
+thursday : A Day of the Week
+11 AM : Morning
+Restored Text: We have a community picnic at Greenfield Park, it is on thursday at 11 AM. Write me an e-mail announcement!
 ```
 Normally you would process the annonymized version with a LLM and than reanonymize the result back.