File size: 2,725 Bytes
00fb84e 5f75775 00fb84e 1585df5 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 | ---
license: other
license_name: proprietaty
license_link: LICENSE
---
BerryLM-L
Wildberries & Russ
## Модели и данные
120b; mxfp4
### Базовая модель
В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.
### Датасет
Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
## Метод
### GRPO с Reward Hacking Prevention
Применяется метод один из модификаций GRPO.
Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
1. Качество русского языка
2. Следование структуре ответа
3. Анти-зацикливание
4. Фактологическая точность на нужных задачах
Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.
### Архитектура обучения
Обучение организовано в распределённом режиме:
- **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
- **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API
- **Correction post training**
Авторы:
- Сапрыкин Матвей
- Софронов Юрий
- Костылев Александр
- Чанышев Дамир |