Vtmpas commited on
Commit
ad3790c
·
verified ·
1 Parent(s): 0774df7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +31 -5
README.md CHANGED
@@ -1,5 +1,31 @@
1
- ---
2
- license: other
3
- license_name: wbr-proprietary
4
- license_link: LICENSE
5
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ BerryLM Wildberries & Russ
2
+
3
+ Модели и данные
4
+ Базовая модель
5
+ Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации.
6
+
7
+ Датасет
8
+ Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
9
+
10
+ Метод
11
+ DAPO с Reward Hacking Prevention
12
+ Применяется метод один из модификаций GRPO.
13
+
14
+ Ключевая особенность реализации — система из 2 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
15
+
16
+
17
+ Reasoning Compression
18
+ Languange Answer Correctenss
19
+
20
+ Архитектура обучения
21
+ Обучение организовано в распределённом режиме:
22
+
23
+ Training ноды: MegatronLM
24
+ Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API
25
+ Correction post training
26
+ Авторы:
27
+
28
+ Сапрыкин Матвей
29
+ Софронов Юрий
30
+ Костылев Александр
31
+ Чанышев Дамир