| BerryLM |
| Wildberries & Russ |
|
|
| ## Модели и данные |
|
|
| ### Базовая модель |
|
|
| В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 32K токенов. |
|
|
| ### Датасет |
|
|
| Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth. |
|
|
| ## Метод |
|
|
| ### GRPO с Reward Hacking Prevention |
|
|
| Применяется метод один из модификаций GRPO. |
|
|
| Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала): |
|
|
| 1. Качество русского языка |
| 2. Следование структуре ответа |
| 3. Анти-зацикливание |
| 4. Фактологическая точность на нужных задачах |
|
|
| Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества. |
|
|
| ### Архитектура обучения |
|
|
| Обучение организовано в распределённом режиме: |
|
|
| - **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора |
| - **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API |
| - **Correction post training** |
|
|
|
|
| Авторы: |
| - Сапрыкин Матвей |
| - Софронов Юрий |
| - Костылев Александр |
| - Чанышев Дамир |
|
|
|
|
| --- |
| license: unknown |
| license_name: proprietary |
| license_link: LICENSE |
| --- |
|
|