Vtmpas
/

BerryLM

Model card Files Files and versions

BerryLM / README.md

Vtmpas's picture

Update README.md

9e1b65b verified 3 months ago

|

history blame contribute delete

2.72 kB

	BerryLM
	Wildberries & Russ

	## Модели и данные

	### Базовая модель

	В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 32K токенов.

	### Датасет

	Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.

	## Метод

	### GRPO с Reward Hacking Prevention

	Применяется метод один из модификаций GRPO.

	Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):

	1. Качество русского языка
	2. Следование структуре ответа
	3. Анти-зацикливание
	4. Фактологическая точность на нужных задачах

	Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.

	### Архитектура обучения

	Обучение организовано в распределённом режиме:

	- Training ноды: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
	- Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API
	- Correction post training


	Авторы:
	- Сапрыкин Матвей
	- Софронов Юрий
	- Костылев Александр
	- Чанышев Дамир


	---
	license: unknown
	license_name: proprietary
	license_link: LICENSE
	---