Update artifacts from notebook 11: README.md

7031244 verified 11 days ago

4.93 kB

language:
  - ru
license: cc-by-4.0
tags:
  - text-classification
  - intent-classification
  - russian
  - dialogsum
  - rubert
  - thesis
datasets:
  - d0rj/dialogsum-ru
base_model: DeepPavlov/rubert-base-cased-conversational
pipeline_tag: text-classification

DialogSum-RU intent RuBERT

Артефакты магистерской ВКР НИУ ИТМО «Семантический анализ русскоязычных диалогов для задачи распознавания намерений с улучшением на базе предобученных моделей».

Модель и сопутствующие материалы получены из ноутбука notebooks/11_neural_multitask_intent_topic_dialogsum_ru.ipynb репозитория russian-dialogue-intent-thesis.

Описание

Задача: classification реплик русскоязычных диалогов на 14 классов речевых актов (intent), плюс auxiliary topic / coarse-topic головы в multi-task варианте.
База: DeepPavlov/rubert-base-cased-conversational (RuBERT conversational, ~178M параметров).
Данные: DialogSum-RU (d0rj/dialogsum-ru) с weak rule-based intent-разметкой и тематическими кластерами из эмбеддинговой кластеризации (см. ноутбуки 07–10).
Лучшая конфигурация: single-task RuBERT, 10 эпох, early stopping по val_intent_f1_macro, batch=16, max_len=128, lr=2e-5, class_weight_mode='sqrt'. Multi-task с lambda_topic = 0.1 отстаёт примерно на 0.019 по macro-F1.

Метрики (тест, актуальный прогон)

См. файлы из results/ после выгрузки.

Intent-классы

arrangement
complaint
confirmation
farewell
greeting
informational_request
opinion_or_preference
other
problem_report
purchase_or_booking_request
rejection
service_request
suggestion_or_recommendation
thanks

Ожидаемые артефакты

single_task_intent_model.pt — лучшая intent-модель (state_dict).
multitask_intent_topic_model.pt — multi-task модель (intent + topic + coarse).
intent_label_encoder.joblib, topic_label_encoder.joblib, coarse_topic_label_encoder.joblib — sklearn LabelEncoder для каждой головы.
multitask_config.json — гиперпараметры и метаданные запуска.
results/*.csv — метрики, training history, predictions, top-confusions, error examples, per-cluster metrics, active learning кандидаты, label-noise кандидаты.
figures/*.png — confusion matrices.

Использование

import joblib
import torch
from huggingface_hub import hf_hub_download

repo_id = "ozonize/dialogsum-ru-intent-rubert"
ckpt_path = hf_hub_download(repo_id=repo_id, filename="single_task_intent_model.pt")
enc_path = hf_hub_download(repo_id=repo_id, filename="intent_label_encoder.joblib")
intent_encoder = joblib.load(enc_path)
state_dict = torch.load(ckpt_path, map_location="cpu")
# архитектуру модели см. в ячейке 5 ноутбука 11

Артефакты используются веб-приложением dialogsum_intent_webapp.

Ограничения

Weak rule-based intent-разметка содержит шум: для production-сценариев необходима manual validation (см. ноутбук 10 и ..._active_learning_diverse_top100.csv).
Topic-задача ограничена качеством эмбеддинговой кластеризации 08; fine-topic accuracy ≈ 0.21, coarse-topic ≈ 0.51.
Класс other размыт по определению и тянет macro-F1 вниз; в отчётах отдельно публикуется intent_f1_macro_without_other.
Домен — DialogSum-RU (бытовые/сервисные диалоги). Перенос на другие домены (медицина, юриспруденция и т.п.) требует дообучения.

Цитирование

@mastersthesis{dialogsum_ru_intent_thesis,
  title  = {Семантический анализ русскоязычных диалогов для задачи распознавания намерений с улучшением на базе предобученных моделей},
  author = {0z0nize},
  school = {НИУ ИТМО, магистратура «Аналитика данных»},
  year   = {2026}
}