| BerryLM Wildberries & Russ |
|
|
| Модели и данные |
| Базовая модель |
| Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации. |
| --- |
|
|
| Датасет |
| Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth. |
|
|
| Метод |
| DAPO с Reward Hacking Prevention |
| Применяется метод один из модификаций GRPO. |
|
|
| Cистема из 2 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала): |
|
|
| - Reasoning Compression |
| - Languange Answer Correctenss |
|
|
| Архитектура обучения |
| Обучение организовано в распределённом режиме: |
|
|
| Training ноды: MegatronLM |
| Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API |
| Correction post training |
|
|
| --- |
|
|
| Авторы: |
|
|
| - Сапрыкин Матвей |
| - Софронов Юрий |
| - Костылев Александр |
| - Чанышев Дамир |
|
|