|
|
--- |
|
|
language: en |
|
|
tags: |
|
|
- text-classification |
|
|
- roberta |
|
|
- custom |
|
|
datasets: |
|
|
- google/jigsaw_toxicity_pred |
|
|
base_model: |
|
|
- FacebookAI/roberta-base |
|
|
pipeline_tag: text-classification |
|
|
--- |
|
|
|
|
|
Lien Hugging Face: https://huggingface.co/dorian20/roberta_base_6000_sl |
|
|
|
|
|
# Modèle finetuné de RoBERTa-base pour la détection de toxicité dans un texte |
|
|
|
|
|
Le modèle a pour objectif de détecter la toxicité dans un texte en prédisant la probabilité d'appartenir à ces catégories attribuant un score pour chacune de ces catégories. |
|
|
Catégories: toxic, severe_toxic, obscene, threat, insult, identity_hate |
|
|
|
|
|
Le dataset utilisé est celui de Google appelé jigsaw_toxicity_pred. Nous avons utilisé un subset pour cette version du modèle. |
|
|
|
|
|
# Paramètres d'entraînement |
|
|
training_args = TrainingArguments( |
|
|
output_dir="./results", |
|
|
evaluation_strategy="epoch", |
|
|
save_strategy="epoch", |
|
|
learning_rate=2e-5, |
|
|
per_device_train_batch_size=32, |
|
|
per_device_eval_batch_size=16, |
|
|
num_train_epochs=10, |
|
|
weight_decay=0.01, |
|
|
save_total_limit=5, |
|
|
logging_dir="./logs", |
|
|
logging_steps=50, |
|
|
load_best_model_at_end=True, |
|
|
gradient_accumulation_steps=4, |
|
|
dataloader_num_workers=8, |
|
|
dataloader_pin_memory=True, |
|
|
fp16=True, |
|
|
|
|
|
) |
|
|
|
|
|
# Erreur moyenne absolue par catégorie sur le dataset d'entraînement: |
|
|
|
|
|
toxic: 0.1266 |
|
|
severe_toxic: 0.0386 |
|
|
obscene: 0.0673 |
|
|
threat: 0.0437 |
|
|
insult: 0.0832 |
|
|
identity_hate: 0.0513 |
|
|
|