Vtmpas
/

BerryLM-v2

Model card Files Files and versions

BerryLM-v2 / README.md

Vtmpas's picture

Update README.md

f4be5f1 verified about 2 months ago

|

history blame contribute delete

1.56 kB

	BerryLM Wildberries & Russ

	Модели и данные
	Базовая модель
	Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации.
	---

	Датасет
	Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.

	Метод
	DAPO с Reward Hacking Prevention
	Применяется метод один из модификаций GRPO.

	Cистема из 2 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):

	- Reasoning Compression
	- Languange Answer Correctenss

	Архитектура обучения
	Обучение организовано в распределённом режиме:

	Training ноды: MegatronLM
	Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API
	Correction post training

	---

	Авторы:

	- Сапрыкин Матвей
	- Софронов Юрий
	- Костылев Александр
	- Чанышев Дамир