Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +72 -0
config.cfg +43 -0
meta.json +3 -0
ner/parameters.safetensors +3 -0
text_cnn/parameters.safetensors +3 -0
tokenizer +0 -0
transformer/config.json +29 -0
transformer/model.safetensors +3 -0
transformer/parameters.safetensors +3 -0
transformer/tokenizer.json +0 -0
transformer/tokenizer_config.json +20 -0

README.md ADDED Viewed

	@@ -0,0 +1,72 @@

+---
+tags:
+- eds
+- ner
+- medical
+- french
+language:
+- fr
+---
+# BRIGHT NER: EDS-NLP (CamemBERT + CRF) fine-tuned for molecular
+## Description
+This is a EDS-NLP (CamemBERT + CRF) architecture fine-tuned to extract clinical neuro-oncology entities related to the `molecular` semantic group. It was trained on a synthetic dataset generated for the properly de-identified BRIGHT project dataset (see the `generated_data` folder in the primary repository).
+This model repository was specifically designed to fit within the `bright_db` overarching namespace.
+## Fields
+It extracts the following fields (described in French):
+- **mol_idh1**: Statut mutation IDH1
+- **mol_idh2**: Statut mutation IDH2
+- **mol_mgmt**: Méthylation promoteur MGMT
+- **mol_h3f3a**: Mutation H3F3A
+- **mol_hist1h3b**: Mutation HIST1H3B
+- **mol_tert**: Mutation promoteur TERT
+- **mol_CDKN2A**: Délétion homozygote CDKN2A
+- **mol_atrx**: Mutation ATRX
+- **mol_cic**: Mutation CIC
+- **mol_fubp1**: Mutation FUBP1
+- **mol_fgfr1**: Mutation FGFR1
+- **mol_egfr_mut**: Mutation EGFR
+- **mol_prkca**: Mutation PRKCA
+- **mol_pten**: Mutation PTEN
+- **mol_p53**: Mutation p53
+- **mol_braf**: Mutation BRAF
+## Performance on Validation Set
+**Aggregates**:
+- Macro F1: 0.5636 (Precision: 0.5866, Recall: 0.5486)
+- Micro F1: 0.8612 (Precision: 0.8680, Recall: 0.8544)
+**Per-Label Breakdowns**:
+| Label | Precision | Recall | F1 |
+|---|---|---|---|
+| mol_idh1 | 0.9481 | 0.9309 | 0.9394 |
+| mol_idh2 | 0.7929 | 0.7929 | 0.7929 |
+| mol_mgmt | 0.8317 | 0.8984 | 0.8638 |
+| mol_h3f3a | 0.8571 | 0.9231 | 0.8889 |
+| mol_hist1h3b | 0.0000 | 0.0000 | 0.0000 |
+| mol_tert | 0.8283 | 0.8542 | 0.8410 |
+| mol_CDKN2A | 0.8148 | 0.7333 | 0.7719 |
+| mol_atrx | 0.9714 | 0.7556 | 0.8500 |
+| mol_cic | 0.9130 | 0.7000 | 0.7925 |
+| mol_fubp1 | 0.8276 | 0.9600 | 0.8889 |
+| mol_fgfr1 | 0.0000 | 0.0000 | 0.0000 |
+| mol_egfr_mut | 0.0000 | 0.0000 | 0.0000 |
+| mol_prkca | 0.0000 | 0.0000 | 0.0000 |
+| mol_pten | 0.6000 | 0.4286 | 0.5000 |
+| mol_p53 | 0.0000 | 0.0000 | 0.0000 |
+| mol_braf | 1.0000 | 0.8000 | 0.8889 |
+## Usage
+```python
+# Inference Code
+import edsnlp
+nlp = edsnlp.load("raphael-r/bright-eds-molecular")
+doc = nlp("Patient presenting with epileptic seizures...")
+for ent in doc.ents:
+    print(ent.text, "=>", ent.label_)
+```

config.cfg ADDED Viewed

	@@ -0,0 +1,43 @@

+[nlp]
+lang = "fr"
+pipeline = ["normalizer", "sentences", "transformer", "text_cnn", "ner"]
+[nlp.tokenizer]
+@tokenizers = "spacy.Tokenizer.v1"
+[components]
+[components.normalizer]
+@factory = "eds.normalizer"
+[components.sentences]
+@factory = "eds.sentences"
+[components.transformer]
+@factory = "eds.transformer"
+model = "./transformer"
+window = 510
+stride = 382
+[components.text_cnn]
+@factory = "eds.text_cnn"
+embedding = ${components.transformer}
+kernel_sizes = (3, 12)
+residual = true
+normalize = "pre"
+[components.ner]
+@factory = "eds.ner_crf"
+embedding = ${components.text_cnn}
+labels = ["mol_idh1", "mol_idh2", "mol_mgmt", "mol_h3f3a", "mol_hist1h3b", "mol_tert", "mol_CDKN2A", "mol_atrx", "mol_cic", "mol_fubp1", "mol_fgfr1", "mol_egfr_mut", "mol_prkca", "mol_pten", "mol_p53", "mol_braf"]
+infer_span_setter = true
+mode = "joint"
+window = 0
+stride = 0
+[components.ner.target_span_getter]
+ents = true
+[components.ner.span_setter]
+ents = ["mol_CDKN2A", "mol_atrx", "mol_braf", "mol_cic", "mol_egfr_mut", "mol_fgfr1", "mol_fubp1", "mol_h3f3a", "mol_idh1", "mol_idh2", "mol_mgmt", "mol_p53", "mol_prkca", "mol_pten", "mol_tert"]

meta.json ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ {
2	+
3	+ }

ner/parameters.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d810b1c29cb6802bca74523b0a25641ac4eaa953143c1e81379d04b28355ca3
+size 246911

text_cnn/parameters.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e33ff0b146b3d273512aa08ff8dcdc24f6094e875a2492eae684bac1e48f857e
+size 40117816

tokenizer ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "CamembertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 5,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 6,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "camembert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "5.0.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32005
+}

transformer/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbc56233e2439980c294eb577fb157a465b03d8e1b361f1d5082b6b1e7a57144
+size 442510152

transformer/parameters.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11f513f3f694fea58fb103c1507640d2b8a21eca9e4fdb6d9ca50a7385583e7e
+size 11584

transformer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": true,
+  "backend": "tokenizers",
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": [
+    "<s>NOTUSED",
+    "</s>NOTUSED",
+    "<unk>NOTUSED"
+  ],
+  "is_local": true,
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "CamembertTokenizer",
+  "unk_token": "<unk>"
+}