File size: 5,017 Bytes

a232563
ca5c1c2
 
 
a232563
ca5c1c2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8339f70
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a232563
 
42a91a7
a232563
ca5c1c2
a232563
ca5c1c2
a232563
ca5c1c2
 
 
 
a232563
ca5c1c2
a232563
ca5c1c2
a232563
ca5c1c2
 
8339f70
 
 
 
 
 
a232563
ca5c1c2
a232563
ca5c1c2
 
8339f70
 
a232563
ca5c1c2
a232563
ca5c1c2
 
a232563
8339f70
 
a232563
8339f70
 
 
a232563
ca5c1c2
a232563
ca5c1c2
a232563
ca5c1c2
 
 
a232563
ca5c1c2
 
 
a232563
ca5c1c2
 
8339f70
a232563
ca5c1c2
 
 
 
a232563
ca5c1c2
 
 
a232563
ca5c1c2
a232563
ca5c1c2
a232563
ca5c1c2
 
 
 
 
 
 
a232563
ca5c1c2
a232563
8339f70
 
 
a232563
ca5c1c2
a232563
ca5c1c2
 
8339f70
 
 
 
 
 
 
 
 
 
a232563
ca5c1c2
a232563
ca5c1c2
 
a232563
ca5c1c2
 
a232563
ca5c1c2
a232563
ca5c1c2
a232563
ca5c1c2
a232563
ca5c1c2

---
license: mit
language:
- pt
library_name: transformers
tags:
- text-classification
- binary-classification
- modernbert
- pytorch
- transformers
datasets:
- tcepi/prog_integridade_dataset
metrics:
- accuracy
- f1
- precision
- recall
- roc_auc
base_model: answerdotai/ModernBERT-base
pipeline_tag: text-classification
model-index:
- name: prog_integridade_model
  results:
  - task:
      type: text-classification
      name: Binary Text Classification
    dataset:
      name: tcepi/prog_integridade_dataset
      type: tcepi/prog_integridade_dataset
      split: test
    metrics:
    - name: Accuracy
      type: accuracy
      value: 0.9944
    - name: F1
      type: f1
      value: 0.9944
    - name: Precision
      type: precision
      value: 0.9944
    - name: Recall
      type: recall
      value: 0.9944
    - name: ROC-AUC
      type: roc_auc
      value: 0.9984
---

# Programa de Integridade Classification Model

Este modelo é um fine-tune do [ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) para classificação binária, treinado no dataset [tcepi/prog_integridade_dataset](https://huggingface.co/datasets/tcepi/prog_integridade_dataset).

## Descrição do Modelo

- **Modelo Base:** answerdotai/ModernBERT-base
- **Tarefa:** Classificação Binária de Texto
- **Linguagem:** Português (pt)
- **Framework:** PyTorch + Transformers

## Métricas de Performance

### Conjunto de Teste

| Métrica | Valor |
|---------|-------|
| **Accuracy** | 0.9944 |
| **F1-Score** | 0.9944 |
| **Precision** | 0.9944 |
| **Recall** | 0.9944 |
| **ROC-AUC** | 0.9984 |
| **Specificity** | 0.9905 |

### Matriz de Confusão

|  | Predito Negativo | Predito Positivo |
|--|-----------------|-----------------|
| **Real Negativo** | 522 (TN) | 5 (FP) |
| **Real Positivo** | 1 (FN) | 541 (TP) |

### Relatório de Classificação

```
              precision    recall  f1-score   support

    Negativo     0.9981    0.9905    0.9943       527
    Positivo     0.9908    0.9982    0.9945       542

    accuracy                         0.9944      1069
   macro avg     0.9945    0.9943    0.9944      1069
weighted avg     0.9944    0.9944    0.9944      1069

```

## Uso

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Carregar modelo e tokenizer
tokenizer = AutoTokenizer.from_pretrained("tcepi/prog_integridade_model")
model = AutoModelForSequenceClassification.from_pretrained("tcepi/prog_integridade_model")

# Classificar texto
text = "Seu texto aqui"
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=8192)

with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.softmax(outputs.logits, dim=-1)
    predicted_class = torch.argmax(predictions, dim=-1).item()

print(f"Classe predita: {model.config.id2label[predicted_class]}")
print(f"Probabilidades: {predictions.tolist()}")
```

## Treinamento

### Hiperparâmetros

- **Épocas:** 10
- **Learning Rate:** 2e-5
- **Batch Size:** 8
- **Weight Decay:** 0.01
- **Warmup Ratio:** 0.1
- **Mixed Precision:** FP16
- **Optimizer:** AdamW

### Informações de Treinamento

- **Tempo Total:** 2731.90 segundos
- **Samples/segundo:** 14.07
- **Loss Final:** 0.0701

### Tabela de Métricas por Época

|   epoch |   eval_loss |   eval_accuracy |   eval_f1 |   eval_roc_auc |   eval_specificity |
|--------:|------------:|----------------:|----------:|---------------:|-------------------:|
|       1 |   0.188758  |        0.946262 |  0.946277 |       0.997855 |           0.985294 |
|       2 |   0.0218751 |        0.990654 |  0.990654 |       0.999912 |           0.990196 |
|       3 |   0.0222455 |        0.992991 |  0.992993 |       0.999869 |           1        |
|       4 |   0.0971301 |        0.983645 |  0.983653 |       0.999934 |           1        |
|       5 |   0.0337453 |        0.990654 |  0.990649 |       1        |           0.980392 |
|       6 |   0.0275761 |        0.997664 |  0.997664 |       0.999956 |           1        |
|       7 |   0.0167756 |        0.997664 |  0.997664 |       1        |           1        |
|       8 |   0.0292979 |        0.997664 |  0.997664 |       0.999912 |           1        |
|       9 |   0.0309485 |        0.997664 |  0.997664 |       0.999912 |           1        |
|      10 |   0.0248101 |        0.997664 |  0.997664 |       0.999956 |           1        |

### Curvas de Treinamento

#### Loss curve
![Loss Curve](./assets/loss_curve.png)

#### Métricas por Época
![Métricas por Época](./assets/metrics_curve.png)

## Dataset

O modelo foi treinado usando o dataset [tcepi/prog_integridade_dataset](https://huggingface.co/datasets/tcepi/prog_integridade_dataset).

## Limitações

- O modelo foi treinado especificamente para o domínio do dataset Programa de Integridade, e pode não generalizar bem para outros tipos de texto ou domínios.
- Performance pode variar em textos de outros domínios
- Recomenda-se avaliar o modelo antes de usar em produção