Timmsiv
/

IkanamGPT

 - ru
 - en
 pipeline_tag: text-generation
+---
+Модели и данные
+32B; AWQ int4
+Базовая модель
+В работе используется языковая модель на основе архитектуры трансформера, оптимизированная под инструкционное следование и строгий формат ответа. Модель поддерживает режим генерации, удобный для бенчмарков: можно отделять внутренний процесс рассуждения от финального ответа (финальный вывод — строго по требованиям задачи), а также стабильно работать на длинных контекстах.
+В качестве продакшн-инференса используется серверная развёртка через vLLM с OpenAI-совместимым API (/v1/completions), что позволяет подключать модель к стандартным фреймворкам оценки (например, lm-evaluation-harness / MERA) без изменения кода модели.
+Датасет
+Обучение проводится на миксе закрытых и открытых датасетов, ориентированных на диалоговые сценарии и инструкционное следование. Данные представлены в формате сообщений (messages) и содержат разметку Ground Truth (целевой ответ) для supervised-обучения.
+Микс включает примеры разных типов: короткие ответы (число/буква/слово), задачи с выбором варианта, вопросы на знания и понимание текста, а также отдельный блок задач на дописывание кода на Python.
+⸻
+Архитектура обучения
+Обучение организовано в распределённом режиме:
+	•	Training ноды: DeepSpeed ZeRO-3 для эффективного распределения параметров модели, оптимизатора и градиентов; обучение масштабируется на несколько GPU.
+	•	Generation нода: отдельный vLLM-сервер, который генерирует кандидатов через HTTP API; это используется для ускорения генерации и стабильной интеграции с последующей фильтрацией/оценкой кандидатов.
+⸻
+Correction post-training
+После базового обучения применяется этап корректирующего пост-тренинга, направленный на повышение качества следования инструкциям и снижение ошибок формата ответа. На этом этапе модель донастраивается на примерах, где критично соблюдать формат (строго одна буква/одно число/только код), а также на примерах с типовыми ошибками (лишние слова, знаки препинания, “Ответ: …”, markdown и т.п.).