TybyrIA v2.2
TybyrIA v2.2 é uma ferramenta de apoio assistido à detecção de discurso de ódio contra pessoas LGBTQIA+ em português brasileiro, pensada para triagem de comentários em conteúdo LGBTQIA+ nas redes.
Esta atualização da v2.2 corrige um problema importante das versões anteriores: o modelo sinalizava como ódio parte da fala afirmativa e de apoio da própria comunidade (ex.: "pessoa não binária merece respeito", "bom dia pra todes"). O re-treino reforçou exemplos afirmativos e de crítica não-direcionada, reduzindo fortemente esses falsos positivos sem perder a detecção de ódio explícito e de dog whistles.
Uso recomendado
Use como ferramenta de apoio à triagem e pesquisa, sempre com revisão humana. Não use como única base para decisões automáticas sobre pessoas.
Ponto de decisão recomendado: 0,40.
| Faixa de probabilidade | Uso sugerido |
|---|---|
| Menor que 0,30 | Baixo risco |
| 0,30 a 0,40 | Revisão humana, se houver capacidade |
| 0,40 ou mais | Provável discurso de ódio |
| 0,50 ou mais | Alta prioridade de revisão |
O que mudou nesta atualização
- Re-treino (warm-start da v2.1) com dataset balanceado (~3.000 exemplos, 50%
ódio / 50% não-ódio), incluindo:
- ~280 exemplos novos de fala afirmativa LGBTQIA+ e de crítica/agressão não direcionada (rotulados como não-ódio);
- comentários
critico_sem_odioda base humana, antes descartados.
- Resultado: redução forte dos falsos positivos em fala afirmativa (ex.: "pessoa não binária merece respeito" e "bom dia pra todes" deixaram de ser marcados como ódio), mantendo a detecção de ódio explícito e de dog whistles.
Como usar
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "Veronyka/tybyria-v2.2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "Seu texto aqui"
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)
with torch.no_grad():
probs = torch.softmax(model(**inputs).logits, dim=-1)
hate_prob = probs[0][1].item()
print(hate_prob, hate_prob >= 0.40)
Limitações
- Classificador de texto puro: analisa só o comentário, sem o post/contexto. Por isso, alguns dog whistles ("jesus te ama" usado de forma corretiva) são tratados como ódio — adequado para triagem de comentários em conteúdo LGBTQIA+, mas pode gerar imprecisão em texto avulso fora desse contexto.
- Agressão fora de tema (futebol, reclamações genéricas) ainda pode disparar.
- Foco em português brasileiro; pode errar em ironia, sarcasmo e textos muito curtos.
- Deve ser usado com revisão humana, especialmente em moderação.
Versão anterior
A v2.1 permanece preservada em Veronyka/tybyria-v2.1 para comparação e rollback.
Licença
Pesos e artefatos do modelo: MIT. Dados associados seguem as licenças dos respectivos repositórios de dataset.
- Downloads last month
- 133
Model tree for Veronyka/tybyria-v2.2
Base model
neuralmind/bert-base-portuguese-cased