Vtmpas
/

BerryLM-v2

Model card Files Files and versions

xet

Community

Vtmpas commited on Mar 23

Commit

ad3790c

verified ·

1 Parent(s): 0774df7

Update README.md

Browse files

Files changed (1) hide show

README.md +31 -5

README.md CHANGED Viewed

@@ -1,5 +1,31 @@
----
-license: other
-license_name: wbr-proprietary
-license_link: LICENSE
----

+BerryLM Wildberries & Russ
+Модели и данные
+Базовая модель
+Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации.
+Датасет
+Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
+Метод
+DAPO с Reward Hacking Prevention
+Применяется метод один из модификаций GRPO.
+Ключевая особенность реализации — система из 2 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
+Reasoning Compression
+Languange Answer Correctenss
+Архитектура обучения
+Обучение организовано в распределённом режиме:
+Training ноды: MegatronLM
+Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API
+Correction post training
+Авторы:
+Сапрыкин Матвей
+Софронов Юрий
+Костылев Александр
+Чанышев Дамир