InclusioCheck - Detector de Lenguaje de Odio en Español

📋 Descripción del Modelo

InclusioCheck es un modelo de clasificación de texto fine-tuned desde BETO para detectar lenguaje de odio (hate speech) en textos en español.

🚀 Uso Rápido

from transformers import pipeline

# Cargar el clasificador
classifier = pipeline("text-classification", model="antonn-dromundo/InclusioCheck-BETO-HateSpeech")

# Predecir
resultado = classifier("Texto a analizar")
print(resultado)

💻 Uso Avanzado

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Cargar modelo y tokenizer
tokenizer = AutoTokenizer.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")
model = AutoModelForSequenceClassification.from_pretrained("antonn-dromundo/InclusioCheck-BETO-HateSpeech")

# Función de predicción
def predecir(texto):
    inputs = tokenizer(texto, return_tensors="pt", truncation=True, max_length=128)
    with torch.no_grad():
        outputs = model(**inputs)
    prediccion = outputs.logits.argmax(-1).item()
    probabilidad = torch.softmax(outputs.logits, dim=-1)[0][prediccion].item()
    
    label = "Hate Speech" if prediccion == 1 else "No Hate Speech"
    return {"label": label, "confidence": probabilidad}

# Ejemplo
print(predecir("Los inmigrantes son bienvenidos"))

📊 Métricas de Rendimiento

Métrica	Valor
Accuracy	0.816
F1 Score	0.827
Precision	0.777
Recall	0.884

📚 Dataset de Entrenamiento

Fuente: Spanish Hate Speech Superset
Ejemplos de entrenamiento: 12,350
Ejemplos de test: 2,180
Clases: 2 (No Hate / Hate Speech)
Balanceo: Sí (undersampling de clase mayoritaria)

🎯 Casos de Uso

✅ Moderación automática de contenido
✅ Filtrado de comentarios en redes sociales
✅ Auditoría de lenguaje inclusivo
✅ Herramienta de apoyo para redacción

⚠️ Limitaciones

El modelo está entrenado específicamente para español
Puede tener sesgos inherentes al dataset de entrenamiento
Recomendado como herramienta de apoyo, no como única fuente de decisión
El contexto cultural y la intención deben considerarse en casos ambiguos

👤 Autoría

Antonio Dromundo.

Creado como parte del proyecto InclusioCheck para promover la detección de lenguaje excluyente.

De Mexico para el mundo

📄 Licencia

Apache 2.0

🔗 Enlaces

Downloads last month: 6

Safetensors

Model size

0.1B params

Tensor type

F32

antonn-dromundo
/

InclusioCheck-BETO-HateSpeech