Vtmpas
/

BerryLM-L

Model card Files Files and versions

BerryLM-L / README.md

Vtmpas's picture

Update README.md

1585df5 verified 21 days ago

|

history blame contribute delete

2.73 kB

	---
	license: other
	license_name: proprietaty
	license_link: LICENSE
	---

	BerryLM-L
	Wildberries & Russ

	## Модели и данные
	120b; mxfp4
	### Базовая модель

	В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 120K токенов.

	### Датасет

	Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth.

	## Метод

	### GRPO с Reward Hacking Prevention

	Применяется метод один из модификаций GRPO.

	Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала):

	1. Качество русского языка
	2. Следование структуре ответа
	3. Анти-зацикливание
	4. Фактологическая точность на нужных задачах

	Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества.

	### Архитектура обучения

	Обучение организовано в распределённом режиме:

	- Training ноды: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора
	- Generation нода: отдельный vLLM сервер для генерации кандидатов через HTTP API
	- Correction post training


	Авторы:
	- Сапрыкин Матвей
	- Софронов Юрий
	- Костылев Александр
	- Чанышев Дамир