pacovalentino commited on
Commit
a21d44e
·
verified ·
1 Parent(s): 7e58c0d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +34 -30
README.md CHANGED
@@ -20,7 +20,8 @@ Questo modello esegue Named Entity Recognition (NER) su testi in lingua italiana
20
 
21
  Il modello deriva da un linguaggio pre-addestrato in italiano, successivamente adattato al dominio medico-emergenziale attraverso una combinazione di Domain-Adaptive Pre-Training (DAPT) e fine-tuning con LoRA. Il DAPT ha consentito di specializzare le rappresentazioni linguistiche del modello su testi sintetici di natura emergenziale, mentre il fine-tuning con LoRA ha permesso un addestramento efficiente su un dataset annotato per il compito di riconoscimento di entità. Il risultato è un modello ottimizzato per identificare automaticamente entità nominali e numeriche rilevanti nelle schede operative del 118, includendo informazioni su pazienti, operatori, parametri clinici, codici e tempistiche operative.
22
 
23
- Il modello riconosce le seguenti 55 categorie di entità: O, AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
 
24
 
25
  Il modello è destinato a scopi di ricerca e sperimentazione nel campo dell’elaborazione del linguaggio naturale applicata al dominio medico-emergenziale. Non è adatto all’uso clinico o decisionale senza un’adeguata validazione su dati reali e revisionati da personale esperto. Le tecniche utilizzate comprendono il Domain-Adaptive Pre-Training (DAPT) e il fine-tuning LoRA su un dataset sintetico in lingua italiana. Il modello appartiene alla categoria token-classification (Named Entity Recognition) ed è ottimizzato per il contesto linguistico e operativo del sistema di emergenza sanitaria italiano.
26
 
@@ -64,20 +65,21 @@ for r in results:
64
 
65
  ## OUTPUT ATTESO
66
 
67
- ENTITÀ | LABEL
68
- ------------------------------------------------------------
69
- Via Verdi a Parma | LUOGO_INTERVENTO
70
- Mario Rossi | NOME_COGNOME
71
- maschio | SESSO
72
- 58 anni | DATA_NASCITA
73
- SpO₂ 91% | SpO2
74
- PA 160/95 mmHg | PA_MMHG
75
- FC 112 bpm | FC_BPM
76
- Rosso | CODICE_USCITA
77
- 2 | CODICE_RIENTRO
78
- Croce Rossa Italiana di Parma | CRI
79
- Bianchi Luca | AUTISTA
80
- Dott. Verdi Andrea | MEDICO
 
81
 
82
  ## DESCRIZIONE
83
 
@@ -93,7 +95,8 @@ This model performs Named Entity Recognition (NER) on Italian-language texts der
93
 
94
  The model is based on a pre-trained Italian language model, further adapted to the medical-emergency domain through a combination of Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning. The DAPT phase allowed the model to specialize its linguistic representations on synthetic emergency-related texts, while LoRA fine-tuning enabled efficient task-specific training on a labeled dataset for entity recognition. As a result, the model can automatically identify relevant nominal and numerical entities within emergency records, including information about patients, staff, clinical parameters, operational codes, and event timing.
95
 
96
- The model recognizes the following 55 entity categories: O, AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
 
97
 
98
  The model is intended for research and experimental purposes within domain-specific NLP applied to emergency medicine. It is not suitable for clinical or operational decision-making without further validation on real annotated data. The techniques used include Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning on a synthetic Italian dataset. The model is categorized under token-classification (Named Entity Recognition) and is optimized for linguistic and contextual data typical of the Italian emergency medical system.
99
 
@@ -137,20 +140,21 @@ for r in results:
137
 
138
  ## EXPECTED OUTPUT
139
 
140
- ENTITY | LABEL
141
- ------------------------------------------------------------
142
- Via Verdi in Parma | LUOGO_INTERVENTO
143
- Mario Rossi | NOME_COGNOME
144
- male | SESSO
145
- 58 years old | DATA_NASCITA
146
- SpO₂ 91% | SpO2
147
- PA 160/95 mmHg | PA_MMHG
148
- FC 112 bpm | FC_BPM
149
- Red | CODICE_USCITA
150
- 2 | CODICE_RIENTRO
151
- Italian Red Cross of Parma | CRI
152
- Bianchi Luca | AUTISTA
153
- Dr. Verdi Andrea | MEDICO
 
154
 
155
  ## DESCRIPTION
156
 
 
20
 
21
  Il modello deriva da un linguaggio pre-addestrato in italiano, successivamente adattato al dominio medico-emergenziale attraverso una combinazione di Domain-Adaptive Pre-Training (DAPT) e fine-tuning con LoRA. Il DAPT ha consentito di specializzare le rappresentazioni linguistiche del modello su testi sintetici di natura emergenziale, mentre il fine-tuning con LoRA ha permesso un addestramento efficiente su un dataset annotato per il compito di riconoscimento di entità. Il risultato è un modello ottimizzato per identificare automaticamente entità nominali e numeriche rilevanti nelle schede operative del 118, includendo informazioni su pazienti, operatori, parametri clinici, codici e tempistiche operative.
22
 
23
+ Il modello riconosce le seguenti 55 categorie di entità:
24
+ AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
25
 
26
  Il modello è destinato a scopi di ricerca e sperimentazione nel campo dell’elaborazione del linguaggio naturale applicata al dominio medico-emergenziale. Non è adatto all’uso clinico o decisionale senza un’adeguata validazione su dati reali e revisionati da personale esperto. Le tecniche utilizzate comprendono il Domain-Adaptive Pre-Training (DAPT) e il fine-tuning LoRA su un dataset sintetico in lingua italiana. Il modello appartiene alla categoria token-classification (Named Entity Recognition) ed è ottimizzato per il contesto linguistico e operativo del sistema di emergenza sanitaria italiano.
27
 
 
65
 
66
  ## OUTPUT ATTESO
67
 
68
+ | ENTITÀ | LABEL |
69
+ |---------------------------------------|--------------------|
70
+ | Via Verdi a Parma | LUOGO_INTERVENTO |
71
+ | Mario Rossi | NOME_COGNOME |
72
+ | maschio | SESSO |
73
+ | 58 anni | DATA_NASCITA |
74
+ | SpO₂ 91% | SpO2 |
75
+ | PA 160/95 mmHg | PA_MMHG |
76
+ | FC 112 bpm | FC_BPM |
77
+ | Rosso | CODICE_USCITA |
78
+ | 2 | CODICE_RIENTRO |
79
+ | Croce Rossa Italiana di Parma | CRI |
80
+ | Bianchi Luca | AUTISTA |
81
+ | Dott. Verdi Andrea | MEDICO |
82
+
83
 
84
  ## DESCRIZIONE
85
 
 
95
 
96
  The model is based on a pre-trained Italian language model, further adapted to the medical-emergency domain through a combination of Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning. The DAPT phase allowed the model to specialize its linguistic representations on synthetic emergency-related texts, while LoRA fine-tuning enabled efficient task-specific training on a labeled dataset for entity recognition. As a result, the model can automatically identify relevant nominal and numerical entities within emergency records, including information about patients, staff, clinical parameters, operational codes, and event timing.
97
 
98
+ The model recognizes the following 55 entity categories:
99
+ AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
100
 
101
  The model is intended for research and experimental purposes within domain-specific NLP applied to emergency medicine. It is not suitable for clinical or operational decision-making without further validation on real annotated data. The techniques used include Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning on a synthetic Italian dataset. The model is categorized under token-classification (Named Entity Recognition) and is optimized for linguistic and contextual data typical of the Italian emergency medical system.
102
 
 
140
 
141
  ## EXPECTED OUTPUT
142
 
143
+ | ENTITY | LABEL |
144
+ |--------------------------------------|---------------------|
145
+ | Via Verdi a Parma | LUOGO_INTERVENTO |
146
+ | Mario Rossi | NOME_COGNOME |
147
+ | maschio | SESSO |
148
+ | 58 anni | DATA_NASCITA |
149
+ | SpO₂ 91% | SpO2 |
150
+ | PA 160/95 mmHg | PA_MMHG |
151
+ | FC 112 bpm | FC_BPM |
152
+ | Rosso | CODICE_USCITA |
153
+ | 2 | CODICE_RIENTRO |
154
+ | Croce Rossa Italiana di Parma | CRI |
155
+ | Bianchi Luca | AUTISTA |
156
+ | Dott. Verdi Andrea | MEDICO |
157
+
158
 
159
  ## DESCRIPTION
160