pacovalentino commited on
Commit
7e58c0d
·
verified ·
1 Parent(s): 84fb174

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +23 -4
README.md CHANGED
@@ -15,6 +15,14 @@ tags:
15
  datasets:
16
  - pacovalentino/synth_emerg_ITA
17
  ---
 
 
 
 
 
 
 
 
18
 
19
  ## ESEMPIO DI UTILIZZO
20
 
@@ -54,7 +62,7 @@ for r in results:
54
  print(f"{entity:<40} | {label}")
55
  ```
56
 
57
- OUTPUT ATTESO
58
 
59
  ENTITÀ | LABEL
60
  ------------------------------------------------------------
@@ -71,13 +79,24 @@ Croce Rossa Italiana di Parma | CRI
71
  Bianchi Luca | AUTISTA
72
  Dott. Verdi Andrea | MEDICO
73
 
74
- DESCRIZIONE
75
 
76
  Il codice mostra passo passo come inizializzare il tokenizer e il modello, creare la pipeline NER con aggregazione,
77
  applicarla a un testo di esempio e stampare le entità in formato tabellare chiaro. La tabella rappresenta le entità
78
  automaticamente riconosciute dal modello con le rispettive label, utile per analisi strutturate delle schede emergenziali
79
  del servizio 118.
80
 
 
 
 
 
 
 
 
 
 
 
 
81
  ## USAGE EXAMPLE
82
 
83
  This example shows how to load the model and tokenizer, apply the NER pipeline to a sample text, and print the extracted entities.
@@ -116,7 +135,7 @@ for r in results:
116
  print(f"{entity:<40} | {label}")
117
  ```
118
 
119
- EXPECTED OUTPUT
120
 
121
  ENTITY | LABEL
122
  ------------------------------------------------------------
@@ -133,7 +152,7 @@ Italian Red Cross of Parma | CRI
133
  Bianchi Luca | AUTISTA
134
  Dr. Verdi Andrea | MEDICO
135
 
136
- DESCRIPTION
137
 
138
  The code shows step by step how to initialize the tokenizer and model, create the NER pipeline with aggregation,
139
  apply it to a text example, and print the entities in a clear tabular format. The table represents the entities
 
15
  datasets:
16
  - pacovalentino/synth_emerg_ITA
17
  ---
18
+ ### Modello NER per Schede Emergenziali del 118 Italiano
19
+ Questo modello esegue Named Entity Recognition (NER) su testi in lingua italiana provenienti da schede emergenziali del servizio 118. È stato addestrato su un dataset sintetico creato per rappresentare fedelmente il linguaggio e la struttura dei documenti operativi utilizzati in contesti di emergenza sanitaria. L’obiettivo del modello è l’estrazione automatica di informazioni strutturate da testi liberi, come dati anagrafici, parametri vitali, orari e luoghi di intervento, figure professionali coinvolte e condizioni cliniche riferite.
20
+
21
+ Il modello deriva da un linguaggio pre-addestrato in italiano, successivamente adattato al dominio medico-emergenziale attraverso una combinazione di Domain-Adaptive Pre-Training (DAPT) e fine-tuning con LoRA. Il DAPT ha consentito di specializzare le rappresentazioni linguistiche del modello su testi sintetici di natura emergenziale, mentre il fine-tuning con LoRA ha permesso un addestramento efficiente su un dataset annotato per il compito di riconoscimento di entità. Il risultato è un modello ottimizzato per identificare automaticamente entità nominali e numeriche rilevanti nelle schede operative del 118, includendo informazioni su pazienti, operatori, parametri clinici, codici e tempistiche operative.
22
+
23
+ Il modello riconosce le seguenti 55 categorie di entità: O, AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
24
+
25
+ Il modello è destinato a scopi di ricerca e sperimentazione nel campo dell’elaborazione del linguaggio naturale applicata al dominio medico-emergenziale. Non è adatto all’uso clinico o decisionale senza un’adeguata validazione su dati reali e revisionati da personale esperto. Le tecniche utilizzate comprendono il Domain-Adaptive Pre-Training (DAPT) e il fine-tuning LoRA su un dataset sintetico in lingua italiana. Il modello appartiene alla categoria token-classification (Named Entity Recognition) ed è ottimizzato per il contesto linguistico e operativo del sistema di emergenza sanitaria italiano.
26
 
27
  ## ESEMPIO DI UTILIZZO
28
 
 
62
  print(f"{entity:<40} | {label}")
63
  ```
64
 
65
+ ## OUTPUT ATTESO
66
 
67
  ENTITÀ | LABEL
68
  ------------------------------------------------------------
 
79
  Bianchi Luca | AUTISTA
80
  Dott. Verdi Andrea | MEDICO
81
 
82
+ ## DESCRIZIONE
83
 
84
  Il codice mostra passo passo come inizializzare il tokenizer e il modello, creare la pipeline NER con aggregazione,
85
  applicarla a un testo di esempio e stampare le entità in formato tabellare chiaro. La tabella rappresenta le entità
86
  automaticamente riconosciute dal modello con le rispettive label, utile per analisi strutturate delle schede emergenziali
87
  del servizio 118.
88
 
89
+
90
+ ### NER Model for Italian 118 Emergency Medical Records
91
+
92
+ This model performs Named Entity Recognition (NER) on Italian-language texts derived from emergency medical records of the Italian 118 service. It was trained on a synthetic dataset designed to reproduce the linguistic structure and style of operational documents used in emergency medical contexts. The model’s purpose is to automatically extract structured information from free text, such as personal data, vital signs, event times and locations, professional roles, and reported clinical conditions.
93
+
94
+ The model is based on a pre-trained Italian language model, further adapted to the medical-emergency domain through a combination of Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning. The DAPT phase allowed the model to specialize its linguistic representations on synthetic emergency-related texts, while LoRA fine-tuning enabled efficient task-specific training on a labeled dataset for entity recognition. As a result, the model can automatically identify relevant nominal and numerical entities within emergency records, including information about patients, staff, clinical parameters, operational codes, and event timing.
95
+
96
+ The model recognizes the following 55 entity categories: O, AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
97
+
98
+ The model is intended for research and experimental purposes within domain-specific NLP applied to emergency medicine. It is not suitable for clinical or operational decision-making without further validation on real annotated data. The techniques used include Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning on a synthetic Italian dataset. The model is categorized under token-classification (Named Entity Recognition) and is optimized for linguistic and contextual data typical of the Italian emergency medical system.
99
+
100
  ## USAGE EXAMPLE
101
 
102
  This example shows how to load the model and tokenizer, apply the NER pipeline to a sample text, and print the extracted entities.
 
135
  print(f"{entity:<40} | {label}")
136
  ```
137
 
138
+ ## EXPECTED OUTPUT
139
 
140
  ENTITY | LABEL
141
  ------------------------------------------------------------
 
152
  Bianchi Luca | AUTISTA
153
  Dr. Verdi Andrea | MEDICO
154
 
155
+ ## DESCRIPTION
156
 
157
  The code shows step by step how to initialize the tokenizer and model, create the NER pipeline with aggregation,
158
  apply it to a text example, and print the entities in a clear tabular format. The table represents the entities