Ukrainian Clickbait & Advertisement Detection Model
Модель для детекції клікбейту та реклами в українських новинних заголовках. Базована на XLM-RoBERTa Large, дообучена на українському корпусі.
Опис моделі
Ця модель класифікує новинні заголовки на два класи:
- 0: Нормальний заголовок (якісний, інформативний)
- 1: Клікбейт або реклама (сенсаційний, маніпулятивний, рекламний)
Метрики
- Accuracy: 89-90%
- F1-macro: 0.87-0.88
- Epochs: 5
- Training samples: 799
- Validation samples: 200
Використання
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "YOUR_USERNAME/clickbait-detection-ukrainian"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
def detect_clickbait(text: str, threshold: float = 0.7) -> dict:
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
with torch.no_grad():
outputs = model(**inputs)
probs = torch.softmax(outputs.logits, dim=-1)
score = probs.item()[^13]
return {
"text": text,
"clickbait_score": score,
"is_clickbait": score >= threshold
}
# Приклади
headlines = [
"Шокуючі подробиці ДТП: ти не повіриш!",
"ЗСУ просунулися на східному фронті - Генштаб",
"Знижки -70%! Поспішай!"
]
for headline in headlines:
result = detect_clickbait(headline)
print(f"{result['clickbait_score']:.2f} - {headline}")
Застосування
- Фільтрація клікбейту в новинних агрегаторах
- Модерація контенту
- Аналіз якості заголовків
- Детекція нативної реклами
Обмеження
- Навчена на відносно невеликому датасеті (~1000 прикладів)
- Оптимізована для коротких заголовків (до 512 токенів)
- Може давати помилки на граничних випадках
Ліцензія
MIT License ```
- Downloads last month
- 9
Model tree for Beelow/XLM_RoBERTa-Multilingual-Clickbait-Detection-RU-UA-Finetune
Base model
FacebookAI/xlm-roberta-large