xlm-r-hsd-span: Hate Speech Span Detection (Vietnamese)

This model is a fine-tuned version of xlm-r for Vietnamese Hate Speech Span Detection.

Model Details

Base Model: xlm-r
Description: Vietnamese Hate Speech Span Detection
Framework: HuggingFace Transformers
Task: Hate Speech Span Detection (token/char-level spans)

Hyperparameters

Max sequence length: 64
Learning rate: 5e-6
Batch size: 32
Epochs: 100
Early stopping patience: 5

Results

F1: 0.5692
Precision: 0.6939
Recall: 0.5938
Exact Match: 0.0099

Usage

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

model_name = "xlm-r-hsd-span"
tok = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "Ví dụ câu tiếng Việt có nội dung thù ghét ..."
enc = tok(text, return_tensors="pt", truncation=True, max_length=256, is_split_into_words=False)
with torch.no_grad():
    logits = model(**enc).logits
    pred_ids = logits.argmax(-1)[0].tolist()
# TODO: chuyển pred_ids -> spans theo scheme nhãn của bạn (BIO/BILOU/char-offset)

License

Apache-2.0

Acknowledgments

Base model: xlm-r

Downloads last month: 2

Safetensors

Model size

0.3B params

Tensor type

F32

Dataset used to train visolex/xlm-r-hsd-span

Evaluation results

f1 on visolex/ViHOS
self-reported

0.569
precision on visolex/ViHOS
self-reported

0.694
recall on visolex/ViHOS
self-reported

0.594
exact_match on visolex/ViHOS
self-reported

0.010