ru-trace-modernbert-2048
Token-level TRACe-оценщик для русскоязычных RAG-систем (relevance / utilization / adherence). Адаптация фреймворка TRACe из RAGBench на русский язык.
Архитектура
- Backbone: deepvk/RuModernBERT-base
- Голова: simple (paper-style: backbone → Dropout → 3×Linear на токен)
- Максимальная длина входа: 2048
- Формат входа:
[вопрос] [SEP] [документы] [SEP] [ответ] - Веса лосса при обучении:
{"relevance": 3.0, "utilization": 3.0, "adherence": 1.0}
Тренировочные данные
CMCenjoyer/ragbench-ru — машинный
перевод 7 поддатасетов RAGBench на русский (Qwen2.5-72B-Instruct).
Пороги классификации
Пороги подобраны на валидационной части тренировочного датасета (CMCenjoyer/ragbench-ru),
фиксируются в репозитории как часть релиза:
{
"relevance": 0.5,
"utilization": 0.4,
"adherence": 0.1
}
Внимание. Пороги настроены под распределение скоров на RAGBench-RU. При применении модели к данным из другого домена пороги следует калибровать заново на валидационной подвыборке целевого домена. Для threshold-free сравнения используйте ROC-AUC / PR-AUC по непрерывным
sigmoid-скорам.
Минимальный пример инференса
from huggingface_hub import snapshot_download
path = snapshot_download("CMCenjoyer/ru-trace-modernbert-2048")
# см. examples/inference_minimal.py для полного примера
Полные примеры:
examples/inference_minimal.py— один пример, вывод среднего P(relevant) по токенам ответа.examples/inference_with_chunks.py— chunk-level скоринг с агрегацией token-level вероятностей.
Зависимости: torch, transformers, safetensors, huggingface_hub.
Ограничения
- Модель обучена на машинно-переведённых данных — без ручной валидации качества перевода. Возможны систематические искажения в специализированных доменах (юриспруденция, медицина).
- Эксперименты проведены с одним random seed; статистическая значимость различий между близкими конфигурациями не оценивалась.
- Архитектура соответствует оригинальной статье RAGBench, без собственных модификаций.
Связанные ресурсы
- Тренировочный датасет:
CMCenjoyer/ragbench-ru - OOD-датасет:
bearberry/sberquadqa - Исходный фреймворк (EN): RAGBench / TRACe
- Downloads last month
- 64
Model tree for CMCenjoyer/ru-trace-modernbert-2048
Base model
deepvk/RuModernBERT-baseDataset used to train CMCenjoyer/ru-trace-modernbert-2048
Paper for CMCenjoyer/ru-trace-modernbert-2048
Evaluation results
- relevance F1 on RAGBench-RU (test)self-reported0.797
- utilization F1 on RAGBench-RU (test)self-reported0.833
- adherence F1 on RAGBench-RU (test)self-reported0.931
- roc_auc on SberQuadQAself-reported0.928
- pr_auc on SberQuadQAself-reported0.813
- f1 on SberQuadQAself-reported0.757
- top1_accuracy on SberQuadQAself-reported0.897