Ukrainian Clickbait & Advertisement Detection Model

Модель для детекції клікбейту та реклами в українських новинних заголовках. Базована на XLM-RoBERTa Large, дообучена на українському корпусі.

Опис моделі

Ця модель класифікує новинні заголовки на два класи:

  • 0: Нормальний заголовок (якісний, інформативний)
  • 1: Клікбейт або реклама (сенсаційний, маніпулятивний, рекламний)

Метрики

  • Accuracy: 89-90%
  • F1-macro: 0.87-0.88
  • Epochs: 5
  • Training samples: 799
  • Validation samples: 200

Використання


from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "YOUR_USERNAME/clickbait-detection-ukrainian"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

def detect_clickbait(text: str, threshold: float = 0.7) -> dict:
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)

    with torch.no_grad():
        outputs = model(**inputs)
        probs = torch.softmax(outputs.logits, dim=-1)
        score = probs.item()[^13]
    
    return {
        "text": text,
        "clickbait_score": score,
        "is_clickbait": score >= threshold
    }
    
# Приклади

headlines = [
"Шокуючі подробиці ДТП: ти не повіриш!",
"ЗСУ просунулися на східному фронті - Генштаб",
"Знижки -70%! Поспішай!"
]

for headline in headlines:
result = detect_clickbait(headline)
print(f"{result['clickbait_score']:.2f} - {headline}")

Застосування

  • Фільтрація клікбейту в новинних агрегаторах
  • Модерація контенту
  • Аналіз якості заголовків
  • Детекція нативної реклами

Обмеження

  • Навчена на відносно невеликому датасеті (~1000 прикладів)
  • Оптимізована для коротких заголовків (до 512 токенів)
  • Може давати помилки на граничних випадках

Ліцензія

MIT License ```

Downloads last month
9
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Beelow/XLM_RoBERTa-Multilingual-Clickbait-Detection-RU-UA-Finetune