Vtmpas commited on
Commit
00fb84e
·
verified ·
1 Parent(s): 40e50fd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +47 -5
README.md CHANGED
@@ -1,5 +1,47 @@
1
- ---
2
- license: other
3
- license_name: proprietaty
4
- license_link: LICENSE
5
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: other
3
+ license_name: proprietaty
4
+ license_link: LICENSE
5
+ ---
6
+
7
+ BerryLM
8
+ Wildberries & Russ
9
+
10
+ ## Модели и данные
11
+ 120b; mxfp4
12
+ ### Базовая модель
13
+
14
+ В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.
15
+
16
+ ### Датасет
17
+
18
+ Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
19
+
20
+ ## Метод
21
+
22
+ ### GRPO с Reward Hacking Prevention
23
+
24
+ Применяется метод один из модификаций GRPO.
25
+
26
+ Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
27
+
28
+ 1. Качество русского языка
29
+ 2. Следование структуре ответа
30
+ 3. Анти-зацикливание
31
+ 4. Фактологическая точность на нужных задачах
32
+
33
+ Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.
34
+
35
+ ### Архитектура обучения
36
+
37
+ Обучение организовано в распределённом режиме:
38
+
39
+ - **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
40
+ - **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API
41
+ - **Correction post training**
42
+
43
+
44
+ Авторы:
45
+ Сапрыкин Матвей
46
+ Софронов Юрий
47
+ Костылев Александр