Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +141 -0
config.json +250 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,141 @@

+---
+license: apache-2.0
+language:
+- en
+library_name: transformers
+tags:
+- medical
+- clinical
+- ner
+- de-identification
+- phi
+- hipaa
+- healthcare
+- token-classification
+datasets:
+- nvidia/Nemotron-PII
+base_model: yikuan8/Clinical-Longformer
+metrics:
+- f1
+- precision
+- recall
+pipeline_tag: token-classification
+---
+# Clinical-Deid: Clinical Text De-identification
+**97.74% F1** on PHI detection — outperforms AWS Comprehend Medical (83%) and John Snow Labs (96%)
+## Model Description
+Clinical-Deid is a fine-tuned [Clinical-Longformer](https://huggingface.co/yikuan8/Clinical-Longformer) model for detecting and removing Protected Health Information (PHI) from clinical notes. It uses BILOU tagging to identify 25 PHI entity types.
+### Key Features
+- 🎯 **97.74% F1 Score** — State-of-the-art accuracy
+- 📄 **4,096 token context** — Handle full clinical notes
+- 🏥 **25 PHI categories** — All HIPAA identifiers covered
+- ⚡ **Fast inference** — ~100ms per note on GPU
+## Performance
+| Metric | Value |
+|--------|-------|
+| **F1 Score** | 97.74% |
+| **Precision** | 96.08% |
+| **Recall** | 99.46% |
+### Comparison
+| Solution | F1 Score | Cost/1M Notes |
+|----------|----------|---------------|
+| GPT-4o | 79% | $21,400 |
+| AWS Comprehend Medical | 83% | $14,525 |
+| Azure Health Services | 91% | $13,125 |
+| John Snow Labs | 96% | $2,500 |
+| **Clinical-Deid** | **97.74%** | **$0** |
+## Usage
+```python
+from transformers import AutoModelForTokenClassification, AutoTokenizer
+import torch
+# Load model
+model = AutoModelForTokenClassification.from_pretrained("riggsmedai/clinical-deid")
+tokenizer = AutoTokenizer.from_pretrained("riggsmedai/clinical-deid")
+# Example clinical note
+text = """
+PROGRESS NOTE
+Patient: John Smith  DOB: 03/15/1952  MRN: 123456789
+Dr. Sarah Johnson evaluated the patient today.
+Assessment: 72 year old male with pneumonia.
+"""
+# Tokenize and predict
+inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=4096)
+with torch.no_grad():
+    outputs = model(**inputs)
+    predictions = torch.argmax(outputs.logits, dim=-1)[0]
+# Get labels
+id2label = model.config.id2label
+tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
+for token, pred in zip(tokens, predictions):
+    label = id2label[pred.item()]
+    if label != "O":
+        print(f"{token}: {label}")
+```
+## PHI Categories Detected
+| Category | BILOU Labels |
+|----------|--------------|
+| Names | B/I/L/U-name |
+| Dates | B/I/L/U-date |
+| Ages | B/I/L/U-age |
+| Addresses | B/I/L/U-address |
+| Phone Numbers | B/I/L/U-phone_number |
+| Email | B/I/L/U-email |
+| SSN | B/I/L/U-social_security_number |
+| MRN | B/I/L/U-medical_record_number |
+| ... and 17 more | |
+Total: 101 labels (25 entity types × 4 BILOU tags + O)
+## Training Details
+- **Base model**: yikuan8/Clinical-Longformer
+- **Training data**: NVIDIA Nemotron-PII healthcare subset (3,630 records)
+- **Epochs**: 10
+- **Best checkpoint**: Epoch 10
+- **Hardware**: NVIDIA RTX 5090 (32GB VRAM)
+## Limitations
+1. **Trained on synthetic data** — Real-world F1 may be 90-95%
+2. **English only** — Not tested on other languages
+3. **US healthcare focus** — May miss international formats
+## Citation
+```bibtex
+@software{clinical_deid_2025,
+  author = {Riggs, Gary},
+  title = {Clinical-Deid: Clinical Text De-identification},
+  year = {2025},
+  url = {https://huggingface.co/riggsmedai/clinical-deid}
+}
+```
+## License
+Apache 2.0 — See [COMMERCIAL_LICENSE.md](https://github.com/riggsmedai/clinical-deid/blob/main/COMMERCIAL_LICENSE.md) for commercial use terms.
+## Links
+- **GitHub**: [github.com/riggsmedai/clinical-deid](https://github.com/riggsmedai/clinical-deid)
+- **API**: [deid.riggsmedai.com](https://deid.riggsmedai.com)
+- **Contact**: riggsmed@gmail.com

config.json ADDED Viewed

	@@ -0,0 +1,250 @@

+{
+  "architectures": [
+    "LongformerForTokenClassification"
+  ],
+  "attention_mode": "longformer",
+  "attention_probs_dropout_prob": 0.1,
+  "attention_window": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "bos_token_id": 0,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "B-FIRST_NAME",
+    "2": "I-FIRST_NAME",
+    "3": "L-FIRST_NAME",
+    "4": "U-FIRST_NAME",
+    "5": "B-LAST_NAME",
+    "6": "I-LAST_NAME",
+    "7": "L-LAST_NAME",
+    "8": "U-LAST_NAME",
+    "9": "B-SSN",
+    "10": "I-SSN",
+    "11": "L-SSN",
+    "12": "U-SSN",
+    "13": "B-MEDICAL_RECORD_NUMBER",
+    "14": "I-MEDICAL_RECORD_NUMBER",
+    "15": "L-MEDICAL_RECORD_NUMBER",
+    "16": "U-MEDICAL_RECORD_NUMBER",
+    "17": "B-HEALTH_PLAN_BENEFICIARY_NUMBER",
+    "18": "I-HEALTH_PLAN_BENEFICIARY_NUMBER",
+    "19": "L-HEALTH_PLAN_BENEFICIARY_NUMBER",
+    "20": "U-HEALTH_PLAN_BENEFICIARY_NUMBER",
+    "21": "B-DATE_OF_BIRTH",
+    "22": "I-DATE_OF_BIRTH",
+    "23": "L-DATE_OF_BIRTH",
+    "24": "U-DATE_OF_BIRTH",
+    "25": "B-PHONE_NUMBER",
+    "26": "I-PHONE_NUMBER",
+    "27": "L-PHONE_NUMBER",
+    "28": "U-PHONE_NUMBER",
+    "29": "B-FAX_NUMBER",
+    "30": "I-FAX_NUMBER",
+    "31": "L-FAX_NUMBER",
+    "32": "U-FAX_NUMBER",
+    "33": "B-EMAIL",
+    "34": "I-EMAIL",
+    "35": "L-EMAIL",
+    "36": "U-EMAIL",
+    "37": "B-STREET_ADDRESS",
+    "38": "I-STREET_ADDRESS",
+    "39": "L-STREET_ADDRESS",
+    "40": "U-STREET_ADDRESS",
+    "41": "B-CITY",
+    "42": "I-CITY",
+    "43": "L-CITY",
+    "44": "U-CITY",
+    "45": "B-STATE",
+    "46": "I-STATE",
+    "47": "L-STATE",
+    "48": "U-STATE",
+    "49": "B-POSTCODE",
+    "50": "I-POSTCODE",
+    "51": "L-POSTCODE",
+    "52": "U-POSTCODE",
+    "53": "B-COUNTY",
+    "54": "I-COUNTY",
+    "55": "L-COUNTY",
+    "56": "U-COUNTY",
+    "57": "B-COUNTRY",
+    "58": "I-COUNTRY",
+    "59": "L-COUNTRY",
+    "60": "U-COUNTRY",
+    "61": "B-DATE",
+    "62": "I-DATE",
+    "63": "L-DATE",
+    "64": "U-DATE",
+    "65": "B-DATE_TIME",
+    "66": "I-DATE_TIME",
+    "67": "L-DATE_TIME",
+    "68": "U-DATE_TIME",
+    "69": "B-TIME",
+    "70": "I-TIME",
+    "71": "L-TIME",
+    "72": "U-TIME",
+    "73": "B-ACCOUNT_NUMBER",
+    "74": "I-ACCOUNT_NUMBER",
+    "75": "L-ACCOUNT_NUMBER",
+    "76": "U-ACCOUNT_NUMBER",
+    "77": "B-CUSTOMER_ID",
+    "78": "I-CUSTOMER_ID",
+    "79": "L-CUSTOMER_ID",
+    "80": "U-CUSTOMER_ID",
+    "81": "B-EMPLOYEE_ID",
+    "82": "I-EMPLOYEE_ID",
+    "83": "L-EMPLOYEE_ID",
+    "84": "U-EMPLOYEE_ID",
+    "85": "B-UNIQUE_ID",
+    "86": "I-UNIQUE_ID",
+    "87": "L-UNIQUE_ID",
+    "88": "U-UNIQUE_ID",
+    "89": "B-BIOMETRIC_IDENTIFIER",
+    "90": "I-BIOMETRIC_IDENTIFIER",
+    "91": "L-BIOMETRIC_IDENTIFIER",
+    "92": "U-BIOMETRIC_IDENTIFIER",
+    "93": "B-CERTIFICATE_LICENSE_NUMBER",
+    "94": "I-CERTIFICATE_LICENSE_NUMBER",
+    "95": "L-CERTIFICATE_LICENSE_NUMBER",
+    "96": "U-CERTIFICATE_LICENSE_NUMBER",
+    "97": "B-AGE",
+    "98": "I-AGE",
+    "99": "L-AGE",
+    "100": "U-AGE"
+  },
+  "ignore_attention_mask": false,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "B-ACCOUNT_NUMBER": 73,
+    "B-AGE": 97,
+    "B-BIOMETRIC_IDENTIFIER": 89,
+    "B-CERTIFICATE_LICENSE_NUMBER": 93,
+    "B-CITY": 41,
+    "B-COUNTRY": 57,
+    "B-COUNTY": 53,
+    "B-CUSTOMER_ID": 77,
+    "B-DATE": 61,
+    "B-DATE_OF_BIRTH": 21,
+    "B-DATE_TIME": 65,
+    "B-EMAIL": 33,
+    "B-EMPLOYEE_ID": 81,
+    "B-FAX_NUMBER": 29,
+    "B-FIRST_NAME": 1,
+    "B-HEALTH_PLAN_BENEFICIARY_NUMBER": 17,
+    "B-LAST_NAME": 5,
+    "B-MEDICAL_RECORD_NUMBER": 13,
+    "B-PHONE_NUMBER": 25,
+    "B-POSTCODE": 49,
+    "B-SSN": 9,
+    "B-STATE": 45,
+    "B-STREET_ADDRESS": 37,
+    "B-TIME": 69,
+    "B-UNIQUE_ID": 85,
+    "I-ACCOUNT_NUMBER": 74,
+    "I-AGE": 98,
+    "I-BIOMETRIC_IDENTIFIER": 90,
+    "I-CERTIFICATE_LICENSE_NUMBER": 94,
+    "I-CITY": 42,
+    "I-COUNTRY": 58,
+    "I-COUNTY": 54,
+    "I-CUSTOMER_ID": 78,
+    "I-DATE": 62,
+    "I-DATE_OF_BIRTH": 22,
+    "I-DATE_TIME": 66,
+    "I-EMAIL": 34,
+    "I-EMPLOYEE_ID": 82,
+    "I-FAX_NUMBER": 30,
+    "I-FIRST_NAME": 2,
+    "I-HEALTH_PLAN_BENEFICIARY_NUMBER": 18,
+    "I-LAST_NAME": 6,
+    "I-MEDICAL_RECORD_NUMBER": 14,
+    "I-PHONE_NUMBER": 26,
+    "I-POSTCODE": 50,
+    "I-SSN": 10,
+    "I-STATE": 46,
+    "I-STREET_ADDRESS": 38,
+    "I-TIME": 70,
+    "I-UNIQUE_ID": 86,
+    "L-ACCOUNT_NUMBER": 75,
+    "L-AGE": 99,
+    "L-BIOMETRIC_IDENTIFIER": 91,
+    "L-CERTIFICATE_LICENSE_NUMBER": 95,
+    "L-CITY": 43,
+    "L-COUNTRY": 59,
+    "L-COUNTY": 55,
+    "L-CUSTOMER_ID": 79,
+    "L-DATE": 63,
+    "L-DATE_OF_BIRTH": 23,
+    "L-DATE_TIME": 67,
+    "L-EMAIL": 35,
+    "L-EMPLOYEE_ID": 83,
+    "L-FAX_NUMBER": 31,
+    "L-FIRST_NAME": 3,
+    "L-HEALTH_PLAN_BENEFICIARY_NUMBER": 19,
+    "L-LAST_NAME": 7,
+    "L-MEDICAL_RECORD_NUMBER": 15,
+    "L-PHONE_NUMBER": 27,
+    "L-POSTCODE": 51,
+    "L-SSN": 11,
+    "L-STATE": 47,
+    "L-STREET_ADDRESS": 39,
+    "L-TIME": 71,
+    "L-UNIQUE_ID": 87,
+    "O": 0,
+    "U-ACCOUNT_NUMBER": 76,
+    "U-AGE": 100,
+    "U-BIOMETRIC_IDENTIFIER": 92,
+    "U-CERTIFICATE_LICENSE_NUMBER": 96,
+    "U-CITY": 44,
+    "U-COUNTRY": 60,
+    "U-COUNTY": 56,
+    "U-CUSTOMER_ID": 80,
+    "U-DATE": 64,
+    "U-DATE_OF_BIRTH": 24,
+    "U-DATE_TIME": 68,
+    "U-EMAIL": 36,
+    "U-EMPLOYEE_ID": 84,
+    "U-FAX_NUMBER": 32,
+    "U-FIRST_NAME": 4,
+    "U-HEALTH_PLAN_BENEFICIARY_NUMBER": 20,
+    "U-LAST_NAME": 8,
+    "U-MEDICAL_RECORD_NUMBER": 16,
+    "U-PHONE_NUMBER": 28,
+    "U-POSTCODE": 52,
+    "U-SSN": 12,
+    "U-STATE": 48,
+    "U-STREET_ADDRESS": 40,
+    "U-TIME": 72,
+    "U-UNIQUE_ID": 88
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 4098,
+  "model_type": "longformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "onnx_export": false,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "sep_token_id": 2,
+  "transformers_version": "4.57.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a4dab5be7cb070403748f4c061b78578bfcffedc9af4c1749f7ce71ce28e72f
+size 592620140

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 4096,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "LongformerTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff