Vtmpas
/

BerryLM

Model card Files Files and versions

xet

Community

Vtmpas commited on Jan 26

Commit

cf966d1

verified ·

1 Parent(s): a89aec5

Update README.md

Browse files

Files changed (1) hide show

README.md +39 -5

README.md CHANGED Viewed

@@ -1,5 +1,39 @@
----
-license: unknown
-license_name: proprietary
-license_link: LICENSE
----

+BerryLM
+Wildberries & Russ
+## Модели и данные
+### Базовая модель
+В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом до 32K токенов.
+### Датасет
+Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.
+## Метод
+### GRPO с Reward Hacking Prevention
+Применяется метод один из модификаций GRPO.
+Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):
+1. Качество русского языка
+2. Следование структуре ответа
+3. Анти-зацикливание
+4. Фактологическая точность на нужных задачах
+Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.
+### Архитектура обучения
+Обучение организовано в распределённом режиме:
+- **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
+- **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API
+- **Correction post training**
+---
+license: unknown
+license_name: proprietary
+license_link: LICENSE
+---