| | --- |
| | license: other |
| | license_name: proprietaty |
| | license_link: LICENSE |
| | --- |
| | |
| | BerryLM-L |
| | Wildberries & Russ |
| |
|
| | ## Модели и данные |
| | 120b; mxfp4 |
| | ### Базовая модель |
| |
|
| | В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов. |
| |
|
| | ### Датасет |
| |
|
| | Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth. |
| |
|
| | ## Метод |
| |
|
| | ### GRPO с Reward Hacking Prevention |
| |
|
| | Применяется метод один из модификаций GRPO. |
| |
|
| | Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала): |
| |
|
| | 1. Качество русского языка |
| | 2. Следование структуре ответа |
| | 3. Анти-зацикливание |
| | 4. Фактологическая точность на нужных задачах |
| |
|
| | Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества. |
| |
|
| | ### Архитектура обучения |
| |
|
| | Обучение организовано в распределённом режиме: |
| |
|
| | - **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора |
| | - **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API |
| | - **Correction post training** |
| |
|
| |
|
| | Авторы: |
| | - Сапрыкин Матвей |
| | - Софронов Юрий |
| | - Костылев Александр |
| | - Чанышев Дамир |