Update README.md
Browse files
README.md
CHANGED
|
@@ -4,4 +4,31 @@ language:
|
|
| 4 |
- ru
|
| 5 |
- en
|
| 6 |
pipeline_tag: text-generation
|
| 7 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 4 |
- ru
|
| 5 |
- en
|
| 6 |
pipeline_tag: text-generation
|
| 7 |
+
---
|
| 8 |
+
Модели и данные
|
| 9 |
+
32B; AWQ int4
|
| 10 |
+
Базовая модель
|
| 11 |
+
|
| 12 |
+
В работе используется языковая модель на основе архитектуры трансформера, оптимизированная под инструкционное следование и строгий формат ответа. Модель поддерживает режим генерации, удобный для бенчмарков: можно отделять внутренний процесс рассуждения от финального ответа (финальный вывод — строго по требованиям задачи), а также стабильно работать на длинных контекстах.
|
| 13 |
+
|
| 14 |
+
В качестве продакшн-инференса используется серверная развёртка через vLLM с OpenAI-совместимым API (/v1/completions), что позволяет подключать модель к стандартным фреймворкам оценки (например, lm-evaluation-harness / MERA) без изменения кода модели.
|
| 15 |
+
|
| 16 |
+
|
| 17 |
+
Датасет
|
| 18 |
+
|
| 19 |
+
Обучение проводится на миксе закрытых и открытых датасетов, ориентированных на диалоговые сценарии и инструкционное следование. Данные представлены в формате сообщений (messages) и содержат разметку Ground Truth (целевой ответ) для supervised-обучения.
|
| 20 |
+
Микс включает примеры разных типов: короткие ответы (число/буква/слово), задачи с выбором варианта, вопросы на знания и понимание текста, а также отдельный блок задач на дописывание кода на Python.
|
| 21 |
+
|
| 22 |
+
⸻
|
| 23 |
+
|
| 24 |
+
Архитектура обучения
|
| 25 |
+
|
| 26 |
+
Обучение организовано в распределённом режиме:
|
| 27 |
+
• Training ноды: DeepSpeed ZeRO-3 для эффективного распределения параметров модели, оптимизатора и градиентов; обучение масштабируется на несколько GPU.
|
| 28 |
+
• Generation нода: отдельный vLLM-сервер, который генерирует кандидатов через HTTP API; это используется для ускорения генерации и стабильной интеграции с последующей фильтрацией/оценкой кандидатов.
|
| 29 |
+
|
| 30 |
+
⸻
|
| 31 |
+
|
| 32 |
+
Correction post-training
|
| 33 |
+
|
| 34 |
+
После базового обучения применяется этап корректирующего пост-тренинга, направленный на повышение качества следования инструкциям и снижение ошибок формата ответа. На этом этапе модель донастраивается на примерах, где критично соблюдать формат (строго одна буква/одно число/только код), а также на примерах с типовыми ошибками (лишние слова, знаки препинания, “Ответ: …”, markdown и т.п.).
|