| --- |
| license: mit |
| language: |
| - ru |
| - en |
| pipeline_tag: text-generation |
| --- |
| Модели и данные |
| 32B; AWQ int4 |
|
|
| Базовая модель |
|
|
| В работе используется языковая модель на основе архитектуры трансформера, оптимизированная под инструкционное следование и строгий формат ответа. Модель поддерживает режим генерации, удобный для бенчмарков: можно отделять внутренний процесс рассуждения от финального ответа (финальный вывод — строго по требованиям задачи), а также стабильно работать на длинных контекстах. |
|
|
| В качестве продакшн-инференса используется серверная развёртка через vLLM с OpenAI-совместимым API (/v1/completions), что позволяет подключать модель к стандартным фреймворкам оценки (например, lm-evaluation-harness / MERA) без изменения кода модели. |
|
|
|
|
| Датасет |
|
|
| Обучение проводится на миксе закрытых и открытых датасетов, ориентированных на диалоговые сценарии и инструкционное следование. Данные представлены в формате сообщений (messages) и содержат разметку Ground Truth (целевой ответ) для supervised-обучения. |
| Микс включает примеры разных типов: короткие ответы (число/буква/слово), задачи с выбором варианта, вопросы на знания и понимание текста, а также отдельный блок задач на дописывание кода на Python. |
|
|
|
|
| Архитектура обучения |
|
|
| Обучение организовано в распределённом режиме: |
| • Training ноды: DeepSpeed ZeRO-3 для эффективного распределения параметров модели, оптимизатора и градиентов; обучение масштабируется на несколько GPU. |
| • Generation нода: отдельный vLLM-сервер, который генерирует кандидатов через HTTP API; это используется для ускорения генерации и стабильной интеграции с последующей фильтрацией/оценкой кандидатов. |
| |
|
|
| Correction post-training |
|
|
| После базового обучения применяется этап корректирующего пост-тренинга, направленный на повышение качества следования инструкциям и снижение ошибок формата ответа. На этом этапе модель донастраивается на примерах, где критично соблюдать формат (строго одна буква/одно число/только код), а также на примерах с типовыми ошибками (лишние слова, знаки препинания, “Ответ: …”, markdown и т.п.). |