Ukrainian Clickbait & Advertisement Detection Model

Модель для детекції клікбейту та реклами в українських новинних заголовках. Базована на XLM-RoBERTa Large, дообучена на українському корпусі.

Опис моделі

Ця модель класифікує новинні заголовки на два класи:

0: Нормальний заголовок (якісний, інформативний)
1: Клікбейт або реклама (сенсаційний, маніпулятивний, рекламний)

Метрики

Accuracy: 89-90%
F1-macro: 0.87-0.88
Epochs: 5
Training samples: 799
Validation samples: 200

Використання


from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "YOUR_USERNAME/clickbait-detection-ukrainian"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

def detect_clickbait(text: str, threshold: float = 0.7) -> dict:
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)

    with torch.no_grad():
        outputs = model(**inputs)
        probs = torch.softmax(outputs.logits, dim=-1)
        score = probs.item()[^13]
    
    return {
        "text": text,
        "clickbait_score": score,
        "is_clickbait": score >= threshold
    }
    
# Приклади

headlines = [
"Шокуючі подробиці ДТП: ти не повіриш!",
"ЗСУ просунулися на східному фронті - Генштаб",
"Знижки -70%! Поспішай!"
]

for headline in headlines:
result = detect_clickbait(headline)
print(f"{result['clickbait_score']:.2f} - {headline}")

Застосування

Фільтрація клікбейту в новинних агрегаторах
Модерація контенту
Аналіз якості заголовків
Детекція нативної реклами

Обмеження

Навчена на відносно невеликому датасеті (~1000 прикладів)
Оптимізована для коротких заголовків (до 512 токенів)
Може давати помилки на граничних випадках

Ліцензія

MIT License ```

Downloads last month: 1

Safetensors

Model size

0.6B params

Tensor type

F32

Model tree for Beelow/XLM_RoBERTa-Multilingual-Clickbait-Detection-RU-UA-Finetune

Base model

FacebookAI/xlm-roberta-large

Finetuned

christinacdl/XLM_RoBERTa-Multilingual-Clickbait-Detection

Finetuned

(1)

this model