Text Classification
Safetensors
Italian
bert
DAPT
LoRA
giuseppericcio pacovalentino commited on
Commit
dc34fb3
·
0 Parent(s):

Duplicate from pacovalentino/Text2NER

Browse files

Co-authored-by: Pasquale Valentino <pacovalentino@users.noreply.huggingface.co>

Files changed (8) hide show
  1. .gitattributes +35 -0
  2. README.md +165 -0
  3. config.json +140 -0
  4. model.safetensors +3 -0
  5. special_tokens_map.json +37 -0
  6. tokenizer.json +0 -0
  7. tokenizer_config.json +67 -0
  8. vocab.txt +0 -0
.gitattributes ADDED
@@ -0,0 +1,35 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ *.7z filter=lfs diff=lfs merge=lfs -text
2
+ *.arrow filter=lfs diff=lfs merge=lfs -text
3
+ *.bin filter=lfs diff=lfs merge=lfs -text
4
+ *.bz2 filter=lfs diff=lfs merge=lfs -text
5
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
6
+ *.ftz filter=lfs diff=lfs merge=lfs -text
7
+ *.gz filter=lfs diff=lfs merge=lfs -text
8
+ *.h5 filter=lfs diff=lfs merge=lfs -text
9
+ *.joblib filter=lfs diff=lfs merge=lfs -text
10
+ *.lfs.* filter=lfs diff=lfs merge=lfs -text
11
+ *.mlmodel filter=lfs diff=lfs merge=lfs -text
12
+ *.model filter=lfs diff=lfs merge=lfs -text
13
+ *.msgpack filter=lfs diff=lfs merge=lfs -text
14
+ *.npy filter=lfs diff=lfs merge=lfs -text
15
+ *.npz filter=lfs diff=lfs merge=lfs -text
16
+ *.onnx filter=lfs diff=lfs merge=lfs -text
17
+ *.ot filter=lfs diff=lfs merge=lfs -text
18
+ *.parquet filter=lfs diff=lfs merge=lfs -text
19
+ *.pb filter=lfs diff=lfs merge=lfs -text
20
+ *.pickle filter=lfs diff=lfs merge=lfs -text
21
+ *.pkl filter=lfs diff=lfs merge=lfs -text
22
+ *.pt filter=lfs diff=lfs merge=lfs -text
23
+ *.pth filter=lfs diff=lfs merge=lfs -text
24
+ *.rar filter=lfs diff=lfs merge=lfs -text
25
+ *.safetensors filter=lfs diff=lfs merge=lfs -text
26
+ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
27
+ *.tar.* filter=lfs diff=lfs merge=lfs -text
28
+ *.tar filter=lfs diff=lfs merge=lfs -text
29
+ *.tflite filter=lfs diff=lfs merge=lfs -text
30
+ *.tgz filter=lfs diff=lfs merge=lfs -text
31
+ *.wasm filter=lfs diff=lfs merge=lfs -text
32
+ *.xz filter=lfs diff=lfs merge=lfs -text
33
+ *.zip filter=lfs diff=lfs merge=lfs -text
34
+ *.zst filter=lfs diff=lfs merge=lfs -text
35
+ *tfevents* filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,165 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - it
5
+ metrics:
6
+ - f1
7
+ - recall
8
+ - precision
9
+ base_model:
10
+ - IVN-RIN/medBIT
11
+ pipeline_tag: text-classification
12
+ tags:
13
+ - DAPT
14
+ - LoRA
15
+ datasets:
16
+ - pacovalentino/synth_emerg_ITA
17
+ ---
18
+ ### Modello NER per Schede Emergenziali del 118 Italiano
19
+ Questo modello esegue Named Entity Recognition (NER) su testi in lingua italiana provenienti da schede emergenziali del servizio 118. È stato addestrato su un dataset sintetico creato per rappresentare fedelmente il linguaggio e la struttura dei documenti operativi utilizzati in contesti di emergenza sanitaria. L’obiettivo del modello è l’estrazione automatica di informazioni strutturate da testi liberi, come dati anagrafici, parametri vitali, orari e luoghi di intervento, figure professionali coinvolte e condizioni cliniche riferite.
20
+
21
+ Il modello deriva da un linguaggio pre-addestrato in italiano, successivamente adattato al dominio medico-emergenziale attraverso una combinazione di Domain-Adaptive Pre-Training (DAPT) e fine-tuning con LoRA. Il DAPT ha consentito di specializzare le rappresentazioni linguistiche del modello su testi sintetici di natura emergenziale, mentre il fine-tuning con LoRA ha permesso un addestramento efficiente su un dataset annotato per il compito di riconoscimento di entità. Il risultato è un modello ottimizzato per identificare automaticamente entità nominali e numeriche rilevanti nelle schede operative del 118, includendo informazioni su pazienti, operatori, parametri clinici, codici e tempistiche operative.
22
+
23
+ Il modello riconosce le seguenti 55 categorie di entità:
24
+ AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
25
+
26
+ Il modello è destinato a scopi di ricerca e sperimentazione nel campo dell’elaborazione del linguaggio naturale applicata al dominio medico-emergenziale. Non è adatto all’uso clinico o decisionale senza un’adeguata validazione su dati reali e revisionati da personale esperto. Le tecniche utilizzate comprendono il Domain-Adaptive Pre-Training (DAPT) e il fine-tuning LoRA su un dataset sintetico in lingua italiana. Il modello appartiene alla categoria token-classification (Named Entity Recognition) ed è ottimizzato per il contesto linguistico e operativo del sistema di emergenza sanitaria italiano.
27
+
28
+ ## ESEMPIO DI UTILIZZO
29
+
30
+ Questo esempio mostra come caricare il modello e il tokenizer, applicare la pipeline NER a un testo di esempio e stampare le entità estratte.
31
+
32
+ ```python
33
+ import torch
34
+ from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
35
+
36
+ path_model = "./Text2NER"
37
+
38
+ tokenizer = AutoTokenizer.from_pretrained(path_model)
39
+ model = AutoModelForTokenClassification.from_pretrained(path_model)
40
+ model.eval()
41
+
42
+ ner_pipeline = pipeline(
43
+ "ner",
44
+ model=model,
45
+ tokenizer=tokenizer,
46
+ aggregation_strategy="simple",
47
+ device=0 if torch.cuda.is_available() else -1
48
+ )
49
+
50
+ text = """
51
+ In Via Verdi a Parma, il paziente Mario Rossi, maschio, 58 anni, presentava dolore toracico con SpO₂ 91%,
52
+ PA 160/95 mmHg, FC 112 bpm; codice uscita Rosso, rientro 2, sul posto la Croce Rossa Italiana di Parma, autista Bianchi Luca,
53
+ medico Dott. Verdi Andrea.
54
+ """
55
+
56
+ results = ner_pipeline(text)
57
+
58
+ print(f"{'ENTITÀ':<40} | {'LABEL'}")
59
+ print("-" * 60)
60
+ for r in results:
61
+ entity = r["word"]
62
+ label = r["entity_group"]
63
+ print(f"{entity:<40} | {label}")
64
+ ```
65
+
66
+ ## OUTPUT ATTESO
67
+
68
+ | ENTITÀ | LABEL |
69
+ |---------------------------------------|--------------------|
70
+ | Via Verdi a Parma | LUOGO_INTERVENTO |
71
+ | Mario Rossi | NOME_COGNOME |
72
+ | maschio | SESSO |
73
+ | 58 anni | DATA_NASCITA |
74
+ | SpO₂ 91% | SpO2 |
75
+ | PA 160/95 mmHg | PA_MMHG |
76
+ | FC 112 bpm | FC_BPM |
77
+ | Rosso | CODICE_USCITA |
78
+ | 2 | CODICE_RIENTRO |
79
+ | Croce Rossa Italiana di Parma | CRI |
80
+ | Bianchi Luca | AUTISTA |
81
+ | Dott. Verdi Andrea | MEDICO |
82
+
83
+
84
+ ## DESCRIZIONE
85
+
86
+ Il codice mostra passo passo come inizializzare il tokenizer e il modello, creare la pipeline NER con aggregazione,
87
+ applicarla a un testo di esempio e stampare le entità in formato tabellare chiaro. La tabella rappresenta le entità
88
+ automaticamente riconosciute dal modello con le rispettive label, utile per analisi strutturate delle schede emergenziali
89
+ del servizio 118.
90
+
91
+
92
+ ### NER Model for Italian 118 Emergency Medical Records
93
+
94
+ This model performs Named Entity Recognition (NER) on Italian-language texts derived from emergency medical records of the Italian 118 service. It was trained on a synthetic dataset designed to reproduce the linguistic structure and style of operational documents used in emergency medical contexts. The model’s purpose is to automatically extract structured information from free text, such as personal data, vital signs, event times and locations, professional roles, and reported clinical conditions.
95
+
96
+ The model is based on a pre-trained Italian language model, further adapted to the medical-emergency domain through a combination of Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning. The DAPT phase allowed the model to specialize its linguistic representations on synthetic emergency-related texts, while LoRA fine-tuning enabled efficient task-specific training on a labeled dataset for entity recognition. As a result, the model can automatically identify relevant nominal and numerical entities within emergency records, including information about patients, staff, clinical parameters, operational codes, and event timing.
97
+
98
+ The model recognizes the following 55 entity categories:
99
+ AUTISTA, AUTORITA_PRESENTE, CAUSA_TRASPORTO_NON_EFFETTUATO, CODICE_RIENTRO, CODICE_USCITA, COMUNE_RESIDENZA, CONDIZIONE_RIFERITA, COSCIENZA, CRI, CUTE, DATA_CHIAMATA, DATA_NASCITA, DECESSO, DICHIARANTE_DATI, FC_BPM, GCS_APERTURA_OCCHI, GCS_RISPOSTA_MOTORIA, GCS_RISPOSTA_VERBALE, GLICEMIA, INFERMIERE_PROFESSIONALE, LESIONE, LUOGO_INTERVENTO, LUOGO_NASCITA, MEDICINA, MEDICO, NOME_COGNOME, NUMERO_RESIDENZA, NUMERO_TELEFONO, ORA_CHIAMATA, ORA_DECESSO, ORA_IN_PRONTO_SOCCORSO, ORA_LIBERO_OPERATIVO, ORA_PARTENZA, ORA_PARTENZA_POSTO, ORA_SUL_POSTO, PARTE_CORPO, PA_MMHG, PROVINCIA_RESIDENZA, PROVVEDIMENTI_ALTRO, PROVVEDIMENTI_CIRCOLO, PROVVEDIMENTI_IMMOBILIZZAZIONE, PROVVEDIMENTI_RESPIRO, PUPILLE_REATTIVITA, PUPILLE_TIPO_DX, PUPILLE_TIPO_SX, RESPIRO, RIFIUTO, SEL, SESSO, SOCCORRITORE_1, SOCCORRITORE_2, SOCCORRITORE_3, SpO2, TEMPERATURA, VIA_RESIDENZA.
100
+
101
+ The model is intended for research and experimental purposes within domain-specific NLP applied to emergency medicine. It is not suitable for clinical or operational decision-making without further validation on real annotated data. The techniques used include Domain-Adaptive Pre-Training (DAPT) and LoRA fine-tuning on a synthetic Italian dataset. The model is categorized under token-classification (Named Entity Recognition) and is optimized for linguistic and contextual data typical of the Italian emergency medical system.
102
+
103
+ ## USAGE EXAMPLE
104
+
105
+ This example shows how to load the model and tokenizer, apply the NER pipeline to a sample text, and print the extracted entities.
106
+
107
+ ```python
108
+ import torch
109
+ from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
110
+
111
+ path_model = "./Text2NER"
112
+
113
+ tokenizer = AutoTokenizer.from_pretrained(path_model)
114
+ model = AutoModelForTokenClassification.from_pretrained(path_model)
115
+ model.eval()
116
+
117
+ ner_pipeline = pipeline(
118
+ "ner",
119
+ model=model,
120
+ tokenizer=tokenizer,
121
+ aggregation_strategy="simple",
122
+ device=0 if torch.cuda.is_available() else -1
123
+ )
124
+
125
+ text = """
126
+ At Via Verdi in Parma, the patient Mario Rossi, male, 58 years old, presented with chest pain and SpO₂ 91%,
127
+ PA 160/95 mmHg, FC 112 bpm; exit code Red, return 2, on site the Italian Red Cross of Parma, driver Bianchi Luca,
128
+ doctor Dr. Verdi Andrea.
129
+ """
130
+
131
+ results = ner_pipeline(text)
132
+
133
+ print(f"{'ENTITY':<40} | {'LABEL'}")
134
+ print("-" * 60)
135
+ for r in results:
136
+ entity = r["word"]
137
+ label = r["entity_group"]
138
+ print(f"{entity:<40} | {label}")
139
+ ```
140
+
141
+ ## EXPECTED OUTPUT
142
+
143
+ | ENTITY | LABEL |
144
+ |--------------------------------------|---------------------|
145
+ | Via Verdi a Parma | LUOGO_INTERVENTO |
146
+ | Mario Rossi | NOME_COGNOME |
147
+ | maschio | SESSO |
148
+ | 58 anni | DATA_NASCITA |
149
+ | SpO₂ 91% | SpO2 |
150
+ | PA 160/95 mmHg | PA_MMHG |
151
+ | FC 112 bpm | FC_BPM |
152
+ | Rosso | CODICE_USCITA |
153
+ | 2 | CODICE_RIENTRO |
154
+ | Croce Rossa Italiana di Parma | CRI |
155
+ | Bianchi Luca | AUTISTA |
156
+ | Dott. Verdi Andrea | MEDICO |
157
+
158
+
159
+ ## DESCRIPTION
160
+
161
+ The code shows step by step how to initialize the tokenizer and model, create the NER pipeline with aggregation,
162
+ apply it to a text example, and print the entities in a clear tabular format. The table represents the entities
163
+ automatically recognized by the model with their corresponding labels, suitable for structured analysis of emergency
164
+ medical records.
165
+
config.json ADDED
@@ -0,0 +1,140 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertForTokenClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "id2label": {
11
+ "0": "O",
12
+ "1": "AUTISTA",
13
+ "10": "CUTE",
14
+ "11": "DATA_CHIAMATA",
15
+ "12": "DATA_NASCITA",
16
+ "13": "DECESSO",
17
+ "14": "DICHIARANTE_DATI",
18
+ "15": "FC_BPM",
19
+ "16": "GCS_APERTURA_OCCHI",
20
+ "17": "GCS_RISPOSTA_MOTORIA",
21
+ "18": "GCS_RISPOSTA_VERBALE",
22
+ "19": "GLICEMIA",
23
+ "2": "AUTORITA_PRESENTE",
24
+ "20": "INFERMIERE_PROFESSIONALE",
25
+ "21": "LESIONE",
26
+ "22": "LUOGO_INTERVENTO",
27
+ "23": "LUOGO_NASCITA",
28
+ "24": "MEDICINA",
29
+ "25": "MEDICO",
30
+ "26": "NOME_COGNOME",
31
+ "27": "NUMERO_RESIDENZA",
32
+ "28": "NUMERO_TELEFONO",
33
+ "29": "ORA_CHIAMATA",
34
+ "3": "CAUSA_TRASPORTO_NON_EFFETTUATO",
35
+ "30": "ORA_DECESSO",
36
+ "31": "ORA_IN_PRONTO_SOCCORSO",
37
+ "32": "ORA_LIBERO_OPERATIVO",
38
+ "33": "ORA_PARTENZA",
39
+ "34": "ORA_PARTENZA_POSTO",
40
+ "35": "ORA_SUL_POSTO",
41
+ "36": "PARTE_CORPO",
42
+ "37": "PA_MMHG",
43
+ "38": "PROVINCIA_RESIDENZA",
44
+ "39": "PROVVEDIMENTI_ALTRO",
45
+ "4": "CODICE_RIENTRO",
46
+ "40": "PROVVEDIMENTI_CIRCOLO",
47
+ "41": "PROVVEDIMENTI_IMMOBILIZZAZIONE",
48
+ "42": "PROVVEDIMENTI_RESPIRO",
49
+ "43": "PUPILLE_REATTIVITA",
50
+ "44": "PUPILLE_TIPO_DX",
51
+ "45": "PUPILLE_TIPO_SX",
52
+ "46": "RESPIRO",
53
+ "47": "RIFIUTO",
54
+ "48": "SEL",
55
+ "49": "SESSO",
56
+ "5": "CODICE_USCITA",
57
+ "50": "SOCCORRITORE_1",
58
+ "51": "SOCCORRITORE_2",
59
+ "52": "SOCCORRITORE_3",
60
+ "53": "SpO2",
61
+ "54": "TEMPERATURA",
62
+ "55": "VIA_RESIDENZA",
63
+ "6": "COMUNE_RESIDENZA",
64
+ "7": "CONDIZIONE_RIFERITA",
65
+ "8": "COSCIENZA",
66
+ "9": "CRI"
67
+ },
68
+ "initializer_range": 0.02,
69
+ "intermediate_size": 3072,
70
+ "label2id": {
71
+ "AUTISTA": 1,
72
+ "AUTORITA_PRESENTE": 2,
73
+ "CAUSA_TRASPORTO_NON_EFFETTUATO": 3,
74
+ "CODICE_RIENTRO": 4,
75
+ "CODICE_USCITA": 5,
76
+ "COMUNE_RESIDENZA": 6,
77
+ "CONDIZIONE_RIFERITA": 7,
78
+ "COSCIENZA": 8,
79
+ "CRI": 9,
80
+ "CUTE": 10,
81
+ "DATA_CHIAMATA": 11,
82
+ "DATA_NASCITA": 12,
83
+ "DECESSO": 13,
84
+ "DICHIARANTE_DATI": 14,
85
+ "FC_BPM": 15,
86
+ "GCS_APERTURA_OCCHI": 16,
87
+ "GCS_RISPOSTA_MOTORIA": 17,
88
+ "GCS_RISPOSTA_VERBALE": 18,
89
+ "GLICEMIA": 19,
90
+ "INFERMIERE_PROFESSIONALE": 20,
91
+ "LESIONE": 21,
92
+ "LUOGO_INTERVENTO": 22,
93
+ "LUOGO_NASCITA": 23,
94
+ "MEDICINA": 24,
95
+ "MEDICO": 25,
96
+ "NOME_COGNOME": 26,
97
+ "NUMERO_RESIDENZA": 27,
98
+ "NUMERO_TELEFONO": 28,
99
+ "O": 0,
100
+ "ORA_CHIAMATA": 29,
101
+ "ORA_DECESSO": 30,
102
+ "ORA_IN_PRONTO_SOCCORSO": 31,
103
+ "ORA_LIBERO_OPERATIVO": 32,
104
+ "ORA_PARTENZA": 33,
105
+ "ORA_PARTENZA_POSTO": 34,
106
+ "ORA_SUL_POSTO": 35,
107
+ "PARTE_CORPO": 36,
108
+ "PA_MMHG": 37,
109
+ "PROVINCIA_RESIDENZA": 38,
110
+ "PROVVEDIMENTI_ALTRO": 39,
111
+ "PROVVEDIMENTI_CIRCOLO": 40,
112
+ "PROVVEDIMENTI_IMMOBILIZZAZIONE": 41,
113
+ "PROVVEDIMENTI_RESPIRO": 42,
114
+ "PUPILLE_REATTIVITA": 43,
115
+ "PUPILLE_TIPO_DX": 44,
116
+ "PUPILLE_TIPO_SX": 45,
117
+ "RESPIRO": 46,
118
+ "RIFIUTO": 47,
119
+ "SEL": 48,
120
+ "SESSO": 49,
121
+ "SOCCORRITORE_1": 50,
122
+ "SOCCORRITORE_2": 51,
123
+ "SOCCORRITORE_3": 52,
124
+ "SpO2": 53,
125
+ "TEMPERATURA": 54,
126
+ "VIA_RESIDENZA": 55
127
+ },
128
+ "layer_norm_eps": 1e-12,
129
+ "max_position_embeddings": 512,
130
+ "model_type": "bert",
131
+ "num_attention_heads": 12,
132
+ "num_hidden_layers": 12,
133
+ "pad_token_id": 0,
134
+ "position_embedding_type": "absolute",
135
+ "torch_dtype": "float32",
136
+ "transformers_version": "4.51.3",
137
+ "type_vocab_size": 2,
138
+ "use_cache": true,
139
+ "vocab_size": 31102
140
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9480495b4bf8a6d797ff74d92a0fdde41e36e85f115b4e262d3b2a70f2509cb1
3
+ size 437543952
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,67 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "101": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "102": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "103": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "104": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": false,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": false,
48
+ "extra_special_tokens": {},
49
+ "mask_token": "[MASK]",
50
+ "max_len": 512,
51
+ "max_length": 128,
52
+ "model_max_length": 512,
53
+ "never_split": null,
54
+ "pad_to_multiple_of": null,
55
+ "pad_token": "[PAD]",
56
+ "pad_token_type_id": 0,
57
+ "padding_side": "right",
58
+ "sep_token": "[SEP]",
59
+ "stride": 0,
60
+ "strip_accents": null,
61
+ "tokenize_chinese_chars": true,
62
+ "tokenizer_class": "BertTokenizer",
63
+ "truncation": true,
64
+ "truncation_side": "right",
65
+ "truncation_strategy": "longest_first",
66
+ "unk_token": "[UNK]"
67
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff