Update README.md
Browse files
README.md
CHANGED
|
@@ -48,17 +48,17 @@ pipeline_tag: token-classification
|
|
| 48 |
|
| 49 |
## Descrição do Modelo
|
| 50 |
|
| 51 |
-
O **NER-SPD** (*Named Entity Recognition for Sensitive Personal Data*) é um modelo de Reconhecimento de Entidades Nomeadas (NER) baseado na arquitetura BERT
|
| 52 |
|
| 53 |
-
Este modelo é um dos resultados da dissertação de mestrado "NER-SPD: Uma Abordagem de Fine-Tuning de Modelos BERT para Reconhecimento de Dados Pessoais Sensíveis em Textos Jurídicos à Luz da LGPD"
|
| 54 |
|
| 55 |
-
O modelo foi treinado em um dataset híbrido composto por **103 documentos jurídicos reais** e **9.979 textos sintéticos** gerados automaticamente, garantindo uma cobertura ampla e contextualizada das entidades-alvo
|
| 56 |
|
| 57 |
Por motivos de privcidade de complaince com a LGPD não foram incluídos na pasta dataset os arquivos de documento reias uma vez que apesar de serem textos coletatos de processos sem segredo de justiça, este estudo não deseja exposição desnecessária de dados pessoais.
|
| 58 |
|
| 59 |
## Entidades Reconhecidas
|
| 60 |
|
| 61 |
-
O `ner-spd` foi treinado para classificar tokens nas seguintes nove categorias. As entidades marcadas com `(Dado Sensível)` recebem proteção especial sob a LGPD
|
| 62 |
|
| 63 |
* `NOME`: Nomes completos de pessoas físicas.
|
| 64 |
* `CPF`: Números do Cadastro de Pessoas Físicas.
|
|
@@ -72,7 +72,7 @@ O `ner-spd` foi treinado para classificar tokens nas seguintes nove categorias.
|
|
| 72 |
|
| 73 |
## Desempenho do Modelo
|
| 74 |
|
| 75 |
-
O modelo alcançou um **F1-Score médio de 96,4%** no conjunto de teste. A performance para dados sensíveis foi particularmente robusta, validando a eficácia da metodologia de treinamento especializado
|
| 76 |
|
| 77 |
| Entidade | F1-Score |
|
| 78 |
| ------------------- | :------: |
|
|
|
|
| 48 |
|
| 49 |
## Descrição do Modelo
|
| 50 |
|
| 51 |
+
O **NER-SPD** (*Named Entity Recognition for Sensitive Personal Data*) é um modelo de Reconhecimento de Entidades Nomeadas (NER) baseado na arquitetura BERT , especializado para o domínio jurídico brasileiro. Sua principal função é identificar e classificar automaticamente dados pessoais, com ênfase em **dados pessoais sensíveis**, conforme definido pela Lei Geral de Proteção de Dados (LGPD).
|
| 52 |
|
| 53 |
+
Este modelo é um dos resultados da dissertação de mestrado "NER-SPD: Uma Abordagem de Fine-Tuning de Modelos BERT para Reconhecimento de Dados Pessoais Sensíveis em Textos Jurídicos à Luz da LGPD". Foi desenvolvido através de uma metodologia híbrida que combina *fine-tuning*, *data augmentation* e engenharia de prompts para superar a escassez de dados jurídicos rotulados. O objetivo é fornecer uma ferramenta de alta performance e computacionalmente viável para auxiliar organizações na conformidade com a LGPD.
|
| 54 |
|
| 55 |
+
O modelo foi treinado em um dataset híbrido composto por **103 documentos jurídicos reais** e **9.979 textos sintéticos** gerados automaticamente, garantindo uma cobertura ampla e contextualizada das entidades-alvo.
|
| 56 |
|
| 57 |
Por motivos de privcidade de complaince com a LGPD não foram incluídos na pasta dataset os arquivos de documento reias uma vez que apesar de serem textos coletatos de processos sem segredo de justiça, este estudo não deseja exposição desnecessária de dados pessoais.
|
| 58 |
|
| 59 |
## Entidades Reconhecidas
|
| 60 |
|
| 61 |
+
O `ner-spd` foi treinado para classificar tokens nas seguintes nove categorias. As entidades marcadas com `(Dado Sensível)` recebem proteção especial sob a LGPD .
|
| 62 |
|
| 63 |
* `NOME`: Nomes completos de pessoas físicas.
|
| 64 |
* `CPF`: Números do Cadastro de Pessoas Físicas.
|
|
|
|
| 72 |
|
| 73 |
## Desempenho do Modelo
|
| 74 |
|
| 75 |
+
O modelo alcançou um **F1-Score médio de 96,4%** no conjunto de teste. A performance para dados sensíveis foi particularmente robusta, validando a eficácia da metodologia de treinamento especializado:
|
| 76 |
|
| 77 |
| Entidade | F1-Score |
|
| 78 |
| ------------------- | :------: |
|