Vtmpas
/

BerryLM-L

Model card Files Files and versions

xet

Community

Vtmpas commited on Feb 15

Commit

00fb84e

verified ·

1 Parent(s): 40e50fd

Update README.md

Browse files

Files changed (1) hide show

README.md +47 -5

README.md CHANGED Viewed

@@ -1,5 +1,47 @@
----
-license: other
-license_name: proprietaty
-license_link: LICENSE
----

+---
+license: other
+license_name: proprietaty
+license_link: LICENSE
+---
+BerryLM
+Wildberries & Russ
+## Модели и данные
+120b; mxfp4
+### Базовая модель
+В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.
+### Датасет
+Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
+## Метод
+### GRPO с Reward Hacking Prevention
+Применяется метод один из модификаций GRPO.
+Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
+1. Качество русского языка
+2. Следование структуре ответа
+3. Анти-зацикливание
+4. Фактологическая точность на нужных задачах
+Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.
+### Архитектура обучения
+Обучение организовано в распределённом режиме:
+- **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
+- **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API
+- **Correction post training**
+Авторы:
+Сапрыкин Матвей
+Софронов Юрий
+Костылев Александр