Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

.gitattributes +1 -0
README.md +77 -0
config.json +9 -0
encoder_config/config.json +36 -0
model.safetensors +3 -0
tokenizer.json +3 -0
tokenizer_config.json +31 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+tags:
+- gliner
+- ner
+- medical
+- french
+language:
+- fr
+---
+# BRIGHT NER: GLiNER2 fine-tuned for symptoms_evolution
+## Description
+This is a GLiNER2 architecture fine-tuned to extract clinical neuro-oncology entities related to the `symptoms_evolution` semantic group. It was trained on a synthetic dataset generated for the properly de-identified BRIGHT project dataset (see the `generated_data` folder in the primary repository).
+This model repository was specifically designed to fit within the `bright_db` overarching namespace.
+## Fields
+It extracts the following fields (described in French):
+- **epilepsie_1er_symptome**: Crises comme premier symptôme
+- **ceph_hic_1er_symptome**: Céphalées/HIC comme premier symptôme
+- **ceph_hic**: Mention céphalées/HIC
+- **deficit_1er_symptome**: Déficit neurologique initial
+- **deficit**: Mention déficit neurologique
+- **cognitif_1er_symptome**: Troubles cognitifs comme premier symptôme
+- **cognitif**: Mention troubles cognitifs
+- **autre_trouble_1er_symptome**: Autres premiers symptômes
+- **contraste_1er_symptome**: Prise de contraste sur première imagerie
+- **prise_de_contraste**: Mention générale prise de contraste
+- **oedeme_1er_symptome**: Présence œdème sur première imagerie
+- **calcif_1er_symptome**: Présence calcification sur première imagerie
+- **epilepsie**: Mention épilepsie/crises
+- **autre_trouble**: Autres symptômes actuels
+- **evol_clinique**: Évolution globale (stable, progression)
+- **progress_clinique**: Aggravation symptômes
+- **progress_radiologique**: Croissance tumorale imagerie
+- **reponse_radiologique**: Réponse tumorale imagerie
+## Performance on Validation Set
+**Aggregates**:
+- Macro F1: 0.1530 (Precision: 0.1166, Recall: 0.4584)
+- Micro F1: 0.1969 (Precision: 0.1104, Recall: 0.9105)
+**Per-Label Breakdowns**:
+| Label | Precision | Recall | F1 |
+|---|---|---|---|
+| epilepsie_1er_symptome | 0.0099 | 0.5000 | 0.0194 |
+| ceph_hic_1er_symptome | 0.0100 | 1.0000 | 0.0198 |
+| ceph_hic | 0.0000 | 0.0000 | 0.0000 |
+| deficit_1er_symptome | 0.0000 | 0.0000 | 0.0000 |
+| deficit | 0.0000 | 0.0000 | 0.0000 |
+| cognitif_1er_symptome | 0.0000 | 0.0000 | 0.0000 |
+| cognitif | 0.0000 | 0.0000 | 0.0000 |
+| autre_trouble_1er_symptome | 0.5429 | 0.8261 | 0.6552 |
+| contraste_1er_symptome | 0.0500 | 1.0000 | 0.0952 |
+| prise_de_contraste | 0.2100 | 1.0000 | 0.3471 |
+| oedeme_1er_symptome | 0.2115 | 0.9565 | 0.3465 |
+| calcif_1er_symptome | 0.0000 | 0.0000 | 0.0000 |
+| epilepsie | 0.0800 | 1.0000 | 0.1481 |
+| autre_trouble | 0.1154 | 1.0000 | 0.2069 |
+| evol_clinique | 0.8692 | 0.9688 | 0.9163 |
+| progress_clinique | 0.0000 | 0.0000 | 0.0000 |
+| progress_radiologique | 0.0000 | 0.0000 | 0.0000 |
+| reponse_radiologique | 0.0000 | 0.0000 | 0.0000 |
+## Usage
+```python
+# Inference Code
+from gliner2 import GLiNER2
+model = GLiNER2.from_pretrained("raphael-r/bright-gliner-symptoms_evolution")
+text = "Patient presenting with epileptic seizures..."
+entities = model.extract_entities(text)
+for entity in entities:
+    print(entity["text"], "=>", entity["label"])
+```

config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_attn_implementation_autoset": true,
+  "counting_layer": "count_lstm",
+  "max_width": 8,
+  "model_name": "microsoft/mdeberta-v3-base",
+  "model_type": "extractor",
+  "token_pooling": "first",
+  "transformers_version": "5.0.0"
+}

encoder_config/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_attn_implementation_autoset": true,
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": null,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "type_vocab_size": 0,
+  "vocab_size": 250112
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bbb18c664d8d67661c6ab1249b6439cf378ab6cf969e2f55b30a5da5b09a2c8
+size 1228421964

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1c7ccb287623cccb7c03150953b6d2a09dd95122933393c9151c3a60095c97e
+size 16337353

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": [
+    "[SEP_STRUCT]",
+    "[SEP_TEXT]",
+    "[P]",
+    "[C]",
+    "[E]",
+    "[R]",
+    "[L]",
+    "[EXAMPLE]",
+    "[OUTPUT]",
+    "[DESCRIPTION]"
+  ],
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "model_specific_special_tokens": {},
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}