alanpbrito commited on
Commit
5653b24
·
verified ·
1 Parent(s): e386a95

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +269 -0
README.md ADDED
@@ -0,0 +1,269 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model:
3
+ - celiudos/legal-bert-lgpd
4
+ datasets:
5
+ - carolina-c4ai/corpus-carolina
6
+ language:
7
+ - pt
8
+ metrics:
9
+ - precision
10
+ - recall
11
+ - f1
12
+ - accuracy
13
+ tags:
14
+ - generated_from_trainer
15
+ - legal
16
+ widget:
17
+ - text: >-
18
+ EMENTA : APELAÇÃO CÍVEL - AÇÃO DE INDENIZAÇÃO POR DANOS MORAIS - PRELIMINAR - ARGUIDA PELO MINISTÉRIO PÚBLICO EM GRAU RECURSAL - NULIDADE - AUSÊNCIA DE INTERVENÇÃO DO PARQUET NA INSTÂNCIA A QUO - PRESENÇA DE INCAPAZ - PREJUÍZO EXISTENTE - PRELIMINAR ACOLHIDA - NULIDADE RECONHECIDA. O processo foi movido por Gabriela Costa, com CPF 510.673.229-68 e telefone (61) 8926 3623, que alegou ter sofrido danos morais devido à conduta do réu. A defesa da parte autora foi realizada pelo advogado Daniel, com e-mail daniel02@example.com. O valor da indenização pleiteada era de R$37.507,96. O juiz responsável pelo processo era o Dr. João, que residiu em Lagoa Ravi Lucca Moraes, 3 - Ventosa - 04712-184 Cunha / MS. A parte ré foi representada pela advogada Sará Camargo, com CPF 084.653.927-73 e telefone (021) 8769-0609, que residia em Rua de Guerra - Santa Helena - 98902-701 Sousa / GO. O Ministério Público interveio no processo, alegando ausência de intervenção do parquet na instância a quo. A preliminar foi acolhida e a nulidade reconhecida. O valor da causa era de R$99.304,53 e o CEP do local onde ocorreu o fato era 94376166. A parte autora é branca, religião evangélica e bissexual.
19
+ model-index:
20
+ - name: checkpoints
21
+ results:
22
+ - task:
23
+ type: token-classification
24
+ name: Token Classification
25
+ dataset:
26
+ name: carolina-c4ai/corpus-carolina
27
+ type: carolina-c4ai/corpus-carolina
28
+ metrics:
29
+ - type: f1
30
+ value: 0.9026
31
+ name: F1
32
+ - type: precision
33
+ value: 0.9039
34
+ name: Precision
35
+ - type: recall
36
+ value: 0.9025
37
+ name: Recall
38
+ - type: accuracy
39
+ value: 0.9658222399960595
40
+ name: Accuracy
41
+ - type: loss
42
+ value: 0.939724603793193
43
+ name: Loss
44
+ pipeline_tag: token-classification
45
+ ---
46
+
47
+ ## NER model for sensitive data in the legal domain in Portuguese according to LGPD (Brazilian General Data Protection Law)
48
+
49
+ **legal-bert-lgpd** is a NER model (token classification) in the legal domain in Portuguese that classifies the tokens into the following classes:
50
+
51
+ | Labels |
52
+ | -------- |
53
+ | NOME | |
54
+ | ENDERECO |
55
+ | CEP |
56
+ | CPF |
57
+ | TELEFONE |
58
+ | EMAIL |
59
+ | RELIGIAO |
60
+ |ORIENTACAO_SEXUAL|
61
+ | RACA_ETNIA |
62
+
63
+ ## Usage
64
+
65
+ ```python
66
+ import torch
67
+ from transformers import pipeline, AutoTokenizer
68
+
69
+ MODEL_NAME = "alanpbrito/ner-spd"
70
+ tokenizer = AutoTokenizer.from_pretrained(
71
+ MODEL_NAME,
72
+ model_max_length=512,
73
+ )
74
+
75
+ pipe = pipeline(
76
+ "ner",
77
+ tokenizer=tokenizer,
78
+ model=MODEL_NAME,
79
+ stride=100,
80
+ aggregation_strategy="first",
81
+ device=0 if torch.cuda.is_available() else -1,
82
+ )
83
+
84
+ pipe(
85
+ "EMENTA : APELAÇÃO CÍVEL - AÇÃO DE INDENIZAÇÃO POR DANOS MORAIS - PRELIMINAR - ARGUIDA PELO MINISTÉRIO PÚBLICO EM GRAU RECURSAL - NULIDADE - AUSÊNCIA DE INTERVENÇÃO DO PARQUET NA INSTÂNCIA A QUO - PRESENÇA DE INCAPAZ - PREJUÍZO EXISTENTE - PRELIMINAR ACOLHIDA - NULIDADE RECONHECIDA. O processo foi movido por Gabriela Costa, com CPF 510.673.229-68 e telefone (61) 8926 3623, que alegou ter sofrido danos morais devido à conduta do réu. A defesa da parte autora foi realizada pelo advogado Daniel, com e-mail daniel02@example.com. O juiz responsável pelo processo era o Dr. João, que residiu em Lagoa Ravi Lucca Moraes, 3 - Ventosa - 04712-184 Cunha / MS. A parte ré foi representada pela advogada Sará Camargo, com CPF 084.653.927-73 e telefone (021) 8769-0609, que residia em Rua de Guerra - Santa Helena - 98902-701 Sousa / GO. O Ministério Público interveio no processo, alegando ausência de intervenção do parquet na instância a quo. A preliminar foi acolhida e a nulidade reconhecida. O valor da causa era de R$99.304,53 e o CEP do local onde ocorreu o fato era 94376166. A parte autora é branca, religião evangélica e bissexual."
86
+ )
87
+
88
+ ```
89
+
90
+ Output
91
+
92
+ ```json
93
+ [
94
+ {
95
+ "entity_group": "NOME",
96
+ "score": 0.9960784,
97
+ "word": "Gabriela Costa",
98
+ "start": 309,
99
+ "end": 323
100
+ },
101
+ {
102
+ "entity_group": "CPF",
103
+ "score": 0.7930292,
104
+ "word": "510.673.229-68",
105
+ "start": 333,
106
+ "end": 347
107
+ },
108
+ {
109
+ "entity_group": "TELEFONE",
110
+ "score": 0.97771186,
111
+ "word": "(61) 8926 3623",
112
+ "start": 359,
113
+ "end": 373
114
+ },
115
+ {
116
+ "entity_group": "NOME",
117
+ "score": 0.99474216,
118
+ "word": "Daniel",
119
+ "start": 489,
120
+ "end": 495
121
+ },
122
+ {
123
+ "entity_group": "EMAIL",
124
+ "score": 0.9641984,
125
+ "word": "daniel02@example.com",
126
+ "start": 508,
127
+ "end": 528
128
+ },
129
+ {
130
+ "entity_group": "NOME",
131
+ "score": 0.99585056,
132
+ "word": "João",
133
+ "start": 574,
134
+ "end": 578
135
+ },
136
+ {
137
+ "entity_group": "ENDERECO",
138
+ "score": 0.9989402,
139
+ "word": "Lagoa Ravi Lucca Moraes",
140
+ "start": 595,
141
+ "end": 618
142
+ },
143
+ {
144
+ "entity_group": "ENDERECO",
145
+ "score": 0.73866546,
146
+ "word": "Ventosa",
147
+ "start": 624,
148
+ "end": 631
149
+ },
150
+ {
151
+ "entity_group": "CEP",
152
+ "score": 0.9416942,
153
+ "word": "04712-184",
154
+ "start": 634,
155
+ "end": 643
156
+ },
157
+ {
158
+ "entity_group": "NOME",
159
+ "score": 0.99615496,
160
+ "word": "Sará Camargo",
161
+ "start": 698,
162
+ "end": 710
163
+ },
164
+ {
165
+ "entity_group": "CPF",
166
+ "word": "084.653.927-73",
167
+ "start": 720,
168
+ "end": 734
169
+ },
170
+ {
171
+ "entity_group": "TELEFONE",
172
+ "score": 0.9925872,
173
+ "word": "( 021 ) 8769 - 0609",
174
+ "start": 746,
175
+ "end": 761
176
+ },
177
+ {
178
+ "entity_group": "ENDERECO",
179
+ "score": 0.9989684,
180
+ "word": "Rua de Guerra",
181
+ "start": 778,
182
+ "end": 791
183
+ },
184
+ {
185
+ "entity_group": "ENDERECO",
186
+ "score": 0.9752308,
187
+ "word": "Santa Helena",
188
+ "start": 794,
189
+ "end": 806
190
+ },
191
+ {
192
+ "entity_group": "CEP",
193
+ "score": 0.857177,
194
+ "word": "98902-701",
195
+ "start": 809,
196
+ "end": 818
197
+ },
198
+ {
199
+ "entity_group": "ENDERECO",
200
+ "score": 0.5837238,
201
+ "word": "G",
202
+ "start": 827,
203
+ "end": 828
204
+ },
205
+ {
206
+ "entity_group": "CPF",
207
+ "score": 0.6357114,
208
+ "word": "99.30",
209
+ "start": 1017,
210
+ "end": 1022
211
+ },
212
+ {
213
+ "entity_group": "CEP",
214
+ "word": "94376166",
215
+ "start": 1068,
216
+ "end": 1076
217
+ },
218
+ {
219
+ "entity_group": "RACA_ETNIA",
220
+ "score": 0.9975738,
221
+ "word": "branca",
222
+ "start": 1095,
223
+ "end": 1101
224
+ },
225
+ {
226
+ "entity_group": "RELIGIAO",
227
+ "score": 0.5804555,
228
+ "word": "evangélica",
229
+ "start": 1112,
230
+ "end": 1122
231
+ },
232
+ {
233
+ "entity_group": "ORIENTACAO_SEXUAL",
234
+ "score": 0.8357099,
235
+ "word": "bissexual",
236
+ "start": 1125,
237
+ "end": 1134
238
+ }
239
+ ]
240
+ ```
241
+
242
+ ### Custom Input Usage
243
+
244
+ ```python
245
+ import gradio as gr
246
+
247
+ def ner(text):
248
+ return {"text": text, "entities": pipe(text)}
249
+
250
+ gr.Interface(
251
+ ner,
252
+ gr.Textbox(placeholder="Enter sentence here..."),
253
+ gr.HighlightedText(),
254
+ live=True,
255
+ examples=[
256
+ "EMENTA : APELAÇÃO CÍVEL - AÇÃO DE INDENIZAÇÃO POR DANOS MORAIS - PRELIMINAR - ARGUIDA PELO MINISTÉRIO PÚBLICO EM GRAU RECURSAL - NULIDADE - AUSÊNCIA DE INTERVENÇÃO DO PARQUET NA INSTÂNCIA A QUO - PRESENÇA DE INCAPAZ - PREJUÍZO EXISTENTE - PRELIMINAR ACOLHIDA - NULIDADE RECONHECIDA. O processo foi movido por Gabriela Costa, com CPF 510.673.229-68 e telefone (61) 8926 3623, que alegou ter sofrido danos morais devido à conduta do réu. A defesa da parte autora foi realizada pelo advogado Daniel, com e-mail daniel02@example.com. O juiz responsável pelo processo era o Dr. João, que residiu em Lagoa Ravi Lucca Moraes, 3 - Ventosa - 04712-184 Cunha / MS. A parte ré foi representada pela advogada Sará Camargo, com CPF 084.653.927-73 e telefone (021) 8769-0609, que residia em Rua de Guerra - Santa Helena - 98902-701 Sousa / GO. O Ministério Público interveio no processo, alegando ausência de intervenção do parquet na instância a quo. A preliminar foi acolhida e a nulidade reconhecida. O valor da causa era de R$99.304,53 e o CEP do local onde ocorreu o fato era 94376166. A parte autora é branca, religião evangélica e bissexual.",
257
+ ],
258
+ ).launch()
259
+ ```
260
+
261
+ ## Train Configuration
262
+
263
+ ```python
264
+ Num examples = 10.
265
+ Num Epochs = 3
266
+ Instantaneous batch size per device = 8
267
+ Total train batch size (w. parallel, distributed & accumulation) = 8
268
+ Number of trainable parameters = 103.950
269
+ ```