TybyrIA v2.2

TybyrIA v2.2 é uma ferramenta de apoio assistido à detecção de discurso de ódio contra pessoas LGBTQIA+ em português brasileiro, pensada para triagem de comentários em conteúdo LGBTQIA+ nas redes.

Esta atualização da v2.2 corrige um problema importante das versões anteriores: o modelo sinalizava como ódio parte da fala afirmativa e de apoio da própria comunidade (ex.: "pessoa não binária merece respeito", "bom dia pra todes"). O re-treino reforçou exemplos afirmativos e de crítica não-direcionada, reduzindo fortemente esses falsos positivos sem perder a detecção de ódio explícito e de dog whistles.

Uso recomendado

Use como ferramenta de apoio à triagem e pesquisa, sempre com revisão humana. Não use como única base para decisões automáticas sobre pessoas.

Ponto de decisão recomendado: 0,40.

Faixa de probabilidade	Uso sugerido
Menor que 0,30	Baixo risco
0,30 a 0,40	Revisão humana, se houver capacidade
0,40 ou mais	Provável discurso de ódio
0,50 ou mais	Alta prioridade de revisão

O que mudou nesta atualização

Re-treino (warm-start da v2.1) com dataset balanceado (~3.000 exemplos, 50% ódio / 50% não-ódio), incluindo:
- ~280 exemplos novos de fala afirmativa LGBTQIA+ e de crítica/agressão não direcionada (rotulados como não-ódio);
- comentários critico_sem_odio da base humana, antes descartados.
Resultado: redução forte dos falsos positivos em fala afirmativa (ex.: "pessoa não binária merece respeito" e "bom dia pra todes" deixaram de ser marcados como ódio), mantendo a detecção de ódio explícito e de dog whistles.

Como usar

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "Veronyka/tybyria-v2.2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "Seu texto aqui"
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)
with torch.no_grad():
    probs = torch.softmax(model(**inputs).logits, dim=-1)
hate_prob = probs[0][1].item()
print(hate_prob, hate_prob >= 0.40)

Limitações

Classificador de texto puro: analisa só o comentário, sem o post/contexto. Por isso, alguns dog whistles ("jesus te ama" usado de forma corretiva) são tratados como ódio — adequado para triagem de comentários em conteúdo LGBTQIA+, mas pode gerar imprecisão em texto avulso fora desse contexto.
Agressão fora de tema (futebol, reclamações genéricas) ainda pode disparar.
Foco em português brasileiro; pode errar em ironia, sarcasmo e textos muito curtos.
Deve ser usado com revisão humana, especialmente em moderação.

Versão anterior

A v2.1 permanece preservada em Veronyka/tybyria-v2.1 para comparação e rollback.

Licença

Pesos e artefatos do modelo: MIT. Dados associados seguem as licenças dos respectivos repositórios de dataset.

Downloads last month: 133

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for Veronyka/tybyria-v2.2

Base model

neuralmind/bert-base-portuguese-cased

Finetuned

FpOliveira/tupi-bert-base-portuguese-cased

Finetuned

(2)

this model

Veronyka
/

tybyria-v2.2