TybyrIA v2.2

TybyrIA v2.2 é uma ferramenta de apoio assistido à detecção de discurso de ódio contra pessoas LGBTQIA+ em português brasileiro, pensada para triagem de comentários em conteúdo LGBTQIA+ nas redes.

Esta atualização da v2.2 corrige um problema importante das versões anteriores: o modelo sinalizava como ódio parte da fala afirmativa e de apoio da própria comunidade (ex.: "pessoa não binária merece respeito", "bom dia pra todes"). O re-treino reforçou exemplos afirmativos e de crítica não-direcionada, reduzindo fortemente esses falsos positivos sem perder a detecção de ódio explícito e de dog whistles.

Uso recomendado

Use como ferramenta de apoio à triagem e pesquisa, sempre com revisão humana. Não use como única base para decisões automáticas sobre pessoas.

Ponto de decisão recomendado: 0,40.

Faixa de probabilidade Uso sugerido
Menor que 0,30 Baixo risco
0,30 a 0,40 Revisão humana, se houver capacidade
0,40 ou mais Provável discurso de ódio
0,50 ou mais Alta prioridade de revisão

O que mudou nesta atualização

  • Re-treino (warm-start da v2.1) com dataset balanceado (~3.000 exemplos, 50% ódio / 50% não-ódio), incluindo:
    • ~280 exemplos novos de fala afirmativa LGBTQIA+ e de crítica/agressão não direcionada (rotulados como não-ódio);
    • comentários critico_sem_odio da base humana, antes descartados.
  • Resultado: redução forte dos falsos positivos em fala afirmativa (ex.: "pessoa não binária merece respeito" e "bom dia pra todes" deixaram de ser marcados como ódio), mantendo a detecção de ódio explícito e de dog whistles.

Como usar

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "Veronyka/tybyria-v2.2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "Seu texto aqui"
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)
with torch.no_grad():
    probs = torch.softmax(model(**inputs).logits, dim=-1)
hate_prob = probs[0][1].item()
print(hate_prob, hate_prob >= 0.40)

Limitações

  • Classificador de texto puro: analisa só o comentário, sem o post/contexto. Por isso, alguns dog whistles ("jesus te ama" usado de forma corretiva) são tratados como ódio — adequado para triagem de comentários em conteúdo LGBTQIA+, mas pode gerar imprecisão em texto avulso fora desse contexto.
  • Agressão fora de tema (futebol, reclamações genéricas) ainda pode disparar.
  • Foco em português brasileiro; pode errar em ironia, sarcasmo e textos muito curtos.
  • Deve ser usado com revisão humana, especialmente em moderação.

Versão anterior

A v2.1 permanece preservada em Veronyka/tybyria-v2.1 para comparação e rollback.

Licença

Pesos e artefatos do modelo: MIT. Dados associados seguem as licenças dos respectivos repositórios de dataset.

Downloads last month
133
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Veronyka/tybyria-v2.2

Dataset used to train Veronyka/tybyria-v2.2

Space using Veronyka/tybyria-v2.2 1