Update README.md

b38442c verified about 1 month ago

3.54 kB

	---
	license: mit
	language:
	- ru
	- en
	pipeline_tag: text-generation
	---
	Модели и данные
	32B; AWQ int4

	Базовая модель

	В работе используется языковая модель на основе архитектуры трансформера, оптимизированная под инструкционное следование и строгий формат ответа. Модель поддерживает режим генерации, удобный для бенчмарков: можно отделять внутренний процесс рассуждения от финального ответа (финальный вывод — строго по требованиям задачи), а также стабильно работать на длинных контекстах.

	В качестве продакшн-инференса используется серверная развёртка через vLLM с OpenAI-совместимым API (/v1/completions), что позволяет подключать модель к стандартным фреймворкам оценки (например, lm-evaluation-harness / MERA) без изменения кода модели.


	Датасет

	Обучение проводится на миксе закрытых и открытых датасетов, ориентированных на диалоговые сценарии и инструкционное следование. Данные представлены в формате сообщений (messages) и содержат разметку Ground Truth (целевой ответ) для supervised-обучения.
	Микс включает примеры разных типов: короткие ответы (число/буква/слово), задачи с выбором варианта, вопросы на знания и понимание текста, а также отдельный блок задач на дописывание кода на Python.


	Архитектура обучения

	Обучение организовано в распределённом режиме:
	• Training ноды: DeepSpeed ZeRO-3 для эффективного распределения параметров модели, оптимизатора и градиентов; обучение масштабируется на несколько GPU.
	• Generation нода: отдельный vLLM-сервер, который генерирует кандидатов через HTTP API; это используется для ускорения генерации и стабильной интеграции с последующей фильтрацией/оценкой кандидатов.


	Correction post-training

	После базового обучения применяется этап корректирующего пост-тренинга, направленный на повышение качества следования инструкциям и снижение ошибок формата ответа. На этом этапе модель донастраивается на примерах, где критично соблюдать формат (строго одна буква/одно число/только код), а также на примерах с типовыми ошибками (лишние слова, знаки препинания, “Ответ: …”, markdown и т.п.).