alanpbrito commited on
Commit
0f27e8c
·
verified ·
1 Parent(s): 7dd752d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +66 -16
README.md CHANGED
@@ -44,21 +44,60 @@ model-index:
44
  pipeline_tag: token-classification
45
  ---
46
 
47
- ## NER model for sensitive data in the legal domain in Portuguese according to LGPD (Brazilian General Data Protection Law)
48
-
49
- **legal-bert-lgpd** is a NER model (token classification) in the legal domain in Portuguese that classifies the tokens into the following classes:
50
-
51
- | Labels |
52
- | -------- |
53
- | NOME | |
54
- | ENDERECO |
55
- | CEP |
56
- | CPF |
57
- | TELEFONE |
58
- | EMAIL |
59
- | RELIGIAO |
60
- |ORIENTACAO_SEXUAL|
61
- | RACA_ETNIA |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
62
 
63
  ## Usage
64
 
@@ -266,4 +305,15 @@ gr.Interface(
266
  Instantaneous batch size per device = 8
267
  Total train batch size (w. parallel, distributed & accumulation) = 8
268
  Number of trainable parameters = 103.950
269
- ```
 
 
 
 
 
 
 
 
 
 
 
 
44
  pipeline_tag: token-classification
45
  ---
46
 
47
+ # NER-SPD: Modelo de Reconhecimento de Dados Pessoais Sensíveis no Domínio Jurídico Brasileiro (LGPD)
48
+
49
+ ## Descrição do Modelo
50
+
51
+ O **NER-SPD** (*Named Entity Recognition for Sensitive Personal Data*) é um modelo de Reconhecimento de Entidades Nomeadas (NER) baseado na arquitetura BERT [1], especializado para o domínio jurídico brasileiro. Sua principal função é identificar e classificar automaticamente dados pessoais, com ênfase em **dados pessoais sensíveis**, conforme definido pela Lei Geral de Proteção de Dados (LGPD) [2, 3].
52
+
53
+ Este modelo é um dos resultados da dissertação de mestrado "NER-SPD: Uma Abordagem de Fine-Tuning de Modelos BERT para Reconhecimento de Dados Pessoais Sensíveis em Textos Jurídicos à Luz da LGPD" [4]. Foi desenvolvido através de uma metodologia híbrida que combina *fine-tuning*, *data augmentation* e engenharia de prompts para superar a escassez de dados jurídicos rotulados [5]. O objetivo é fornecer uma ferramenta de alta performance e computacionalmente viável para auxiliar organizações na conformidade com a LGPD [6].
54
+
55
+ O modelo foi treinado em um dataset híbrido composto por **103 documentos jurídicos reais** e **9.979 textos sintéticos** gerados automaticamente, garantindo uma cobertura ampla e contextualizada das entidades-alvo [5, 7].
56
+
57
+ Por motivos de privcidade de complaince com a LGPD não foram incluídos na pasta dataset os arquivos de documento reias uma vez que apesar de serem textos coletatos de processos sem segredo de justiça, este estudo não deseja exposição desnecessária de dados pessoais.
58
+
59
+ ## Entidades Reconhecidas
60
+
61
+ O `ner-spd` foi treinado para classificar tokens nas seguintes nove categorias. As entidades marcadas com `(Dado Sensível)` recebem proteção especial sob a LGPD [8, 9].
62
+
63
+ * `NOME`: Nomes completos de pessoas físicas.
64
+ * `CPF`: Números do Cadastro de Pessoas Físicas.
65
+ * `ENDERECO`: Endereços postais completos ou parciais.
66
+ * `CEP`: Códigos de Endereçamento Postal.
67
+ * `TELEFONE`: Números de telefone.
68
+ * `EMAIL`: Endereços de correio eletrônico.
69
+ * `RELIGIAO` **(Dado Sensível)**: Convicções religiosas.
70
+ * `RACA_ETNIA` **(Dado Sensível)**: Origem racial ou étnica.
71
+ * `ORIENTACAO_SEXUAL` **(Dado Sensível)**: Orientação sexual.
72
+
73
+ ## Desempenho do Modelo
74
+
75
+ O modelo alcançou um **F1-Score médio de 96,4%** no conjunto de teste. A performance para dados sensíveis foi particularmente robusta, validando a eficácia da metodologia de treinamento especializado [10]:
76
+
77
+ | Entidade | F1-Score |
78
+ | ------------------- | :------: |
79
+ | **RELIGIAO** | 99.51% |
80
+ | **RACA_ETNIA** | 98.02% |
81
+ | **ORIENTACAO_SEXUAL** | 94.93% |
82
+ | CPF | 98.96% |
83
+ | EMAIL | 96.02% |
84
+ | NOME | 94.99% |
85
+ | CEP | 89.76% |
86
+ | ENDERECO | 83.51% |
87
+ | TELEFONE | 56.35% |
88
+
89
+ *(Resultados obtidos com divisão simples 80/20 do dataset) *
90
+
91
+ Uma característica fundamental do modelo é sua **capacidade contextual**, herdada da arquitetura Transformer. Ele consegue discernir quando uma palavra potencialmente sensível (ex: "gay", "espírita") é usada para descrever um evento ou local, em vez de um dado pessoal, evitando falsos positivos [13, 14].
92
+
93
+ ## Uso Pretendido
94
+
95
+ Este modelo destina-se a desenvolvedores, advogados, profissionais de proteção de dados e pesquisadores que trabalham com textos jurídicos em português. Suas principais aplicações incluem:
96
+
97
+ * **Anonimização e Pseudonimização**: Automatizar a ocultação de dados pessoais e sensíveis em documentos para conformidade com a LGPD.
98
+ * **Análise de Documentos**: Identificar rapidamente a presença e a localização de informações sensíveis em grandes volumes de textos.
99
+ * **Data Discovery**: Mapear a ocorrência de dados pessoais em sistemas e bases de dados não estruturadas.
100
+
101
 
102
  ## Usage
103
 
 
305
  Instantaneous batch size per device = 8
306
  Total train batch size (w. parallel, distributed & accumulation) = 8
307
  Number of trainable parameters = 103.950
308
+ ```
309
+
310
+ ## Citation
311
+
312
+ Citação
313
+ Se você utilizar este modelo ou a metodologia em sua pesquisa, por favor, cite a dissertação original:
314
+ @mastersthesis{brito2025ner-spd,
315
+ title={{NER-SPD}: Uma Abordagem de Fine-Tuning de Modelos {BERT} para Reconhecimento de Dados Pessoais Sens{\'i}veis em Textos Jur{\'i}dicos {\`a} Luz da {LGPD}},
316
+ author={Brito, Alan Pinheiro},
317
+ school={Centro de Estudos e Sistemas Avan{\c{c}}ados do Recife (CESAR)},
318
+ year={2025}
319
+ }