Vtmpas commited on
Commit
cf966d1
·
verified ·
1 Parent(s): a89aec5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +39 -5
README.md CHANGED
@@ -1,5 +1,39 @@
1
- ---
2
- license: unknown
3
- license_name: proprietary
4
- license_link: LICENSE
5
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ BerryLM
2
+ Wildberries & Russ
3
+
4
+ ## Модели и данные
5
+
6
+ ### Базовая модель
7
+
8
+ В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом до 32K токенов.
9
+
10
+ ### Датасет
11
+
12
+ Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
13
+
14
+ ## Метод
15
+
16
+ ### GRPO с Reward Hacking Prevention
17
+
18
+ Применяется метод один из модификаций GRPO.
19
+
20
+ Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
21
+
22
+ 1. Качество русского языка
23
+ 2. Следование структуре ответа
24
+ 3. Анти-зацикливание
25
+ 4. Фактологическая точность на нужных задачах
26
+
27
+ Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.
28
+
29
+ ### Архитектура обучения
30
+
31
+ Обучение организовано в распределённом режиме:
32
+ - **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
33
+ - **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API
34
+ - **Correction post training**
35
+ ---
36
+ license: unknown
37
+ license_name: proprietary
38
+ license_link: LICENSE
39
+ ---