File size: 2,715 Bytes
cf966d1
 
 
 
 
 
 
d98231b
cf966d1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ec9df11
cf966d1
 
 
ec9df11
 
c1fb766
9e1b65b
 
 
 
c1fb766
 
cf966d1
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
BerryLM
Wildberries & Russ

## Модели и данные

### Базовая модель

В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 32K токенов.

### Датасет

Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.

## Метод

### GRPO с Reward Hacking Prevention

Применяется метод один из модификаций GRPO.

Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):

1. Качество русского языка
2. Следование структуре ответа
3. Анти-зацикливание 
4. Фактологическая точность на нужных задачах

Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.

### Архитектура обучения

Обучение организовано в распределённом режиме:

- **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
- **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API
- **Correction post training**


Авторы: 
- Сапрыкин Матвей 
- Софронов Юрий 
- Костылев Александр
- Чанышев Дамир


---
license: unknown
license_name: proprietary
license_link: LICENSE
---