Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

.gitattributes +6 -35
README.md +346 -3
chat.py +324 -0
config.json +23 -0
generation_config.json +11 -0
meta.pkl +3 -0
model.safetensors +3 -0
nanogpt-chat.exe +3 -0
pytorch_model.bin +3 -0
special_tokens_map.json +10 -0
tokenizer.model +3 -0
tokenizer_config.json +24 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,6 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.bin filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.exe filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,346 @@
----
-license: apache-2.0
----

+---
+language:
+  - ru
+license: apache-2.0
+library_name: pytorch
+tags:
+  - text-generation
+  - russian
+  - chat
+  - chatbot
+  - nanogpt
+  - small-llm
+  - sft
+  - educational
+  - research
+pipeline_tag: text-generation
+inference: false
+---
+# mini-tron-50 (SFT)
+50M-параметровая GPT-2-стиль языковая модель, обученная с нуля на русском
+SFT-корпусе как чат-бот. Educational baseline, иллюстрирующий **что можно
+выжать из модели такого размера** без претрейна на сыром тексте.
+## TL;DR
+- **Architecture**: 10 layer × 8 head × 512 emb (GPT-2 style), 47.85M params
+- **Trained from scratch**: SFT на ~1 ГБ chat-данных (1.7M диалогов), 1 эпоха
+- **Hardware**: 1× RTX 3050 Laptop (4 ГБ VRAM), 13 часов
+- **Tokenizer**: SentencePiece BPE, 32k vocab, custom-trained на корпусе
+- **Format**: ChatML с спецтокенами `<|system|>`, `<|user|>`, `<|assistant|>`,
+  `<|endoftext|>`
+- **Loss masking**: только на assistant-токенах (стандартный SFT-trick)
+- **Status**: SFT-фаза успешна; KTO-фаза проведена и провалилась (см. ниже)
+Модель **не достигла своего потолка** — это одна из её особенностей. Она
+тренировалась ровно одну эпоху по корпусу (Chinchilla-оптимум для 50M), и
+контурные кривые показывают что улучшения val_loss ещё не выходили на плато.
+Дальнейшая тренировка или продолжение на новых данных вероятно даст ощутимое
+улучшение.
+## Архитектура
+```text
+GPTConfig(
+    n_layer    = 10,
+    n_head     = 8,
+    n_embd     = 512,
+    block_size = 1024,
+    vocab_size = 32000,
+    bias       = False,
+    dropout    = 0.1,
+)
+```
+Стандартный GPT-2 без bias. Tied embeddings (`transformer.wte` shared с `lm_head`).
+Attention использует `F.scaled_dot_product_attention` (flash-attn под капотом
+на Ampere+).
+## Что модель умеет
+| Способность | Качество |
+| --- | --- |
+| Грамматика русского | ✅ безупречно (падежи, согласования, синтаксис) |
+| Chat-формат (отвечает в роли ассистента) | ✅ устойчиво |
+| Markdown-структура (списки, **bold**, заголовки) | ✅ имитирует GPT-4-стиль |
+| Самоидентификация ("я ИИ-ассистент") | ✅ говорит правильные слова |
+| Завершение по EOS | ✅ обычно сама останавливается |
+| Локальная связность 1-2 предложения | ⚠️ местами осмысленно |
+| Ответ строго по теме промпта | ⚠️ слышит триггерные слова, не суть |
+| Факты и точные знания | ❌ галлюцинации |
+| Арифметика | ❌ имитирует подсчёт без него |
+| Многошаговый reasoning | ❌ |
+| Code (синтаксис + семантика) | ❌ форма правильная, не работает |
+## Известные failure modes
+1. **Canned-ответы** на простые вопросы:
+   ```
+   you> Любишь котов или собак?
+   bot> Привет! Я рад, что смог помочь вам сегодня. Если у вас есть вопросы,
+        не стесняйтесь обращаться к нам. Удачи!
+   ```
+   Заученный шаблонный хвост ChatGPT-style ответов.
+2. **Tutorial-простыни** на любой открытый промпт:
+   ```
+   you> Расскажи о себе
+   bot> ### Шаг 1: Определение задачи
+        ### Шаг 2: ...
+        ### Заключение
+   ```
+3. **Token-loops** на промптах вне распределения:
+   ```
+   you> Что больше: 17 или 71?
+   bot> Чтобы посчитать... + 112 - 112 + 112 + 112 - 112 + 112 ... [50+ повторов]
+   ```
+4. **Семантическая каша** в полностью грамотной обёртке:
+   ```
+   you> Сколько будет 7 умножить на 8?
+   bot> 5! = (5 × 8) / 8 = 120. Теперь разделим 120 на 8...
+        Итак, всего будет 140 способов выбрать 7 умножить на 8.
+   ```
+   Модель имитирует жанр школьной арифметики, не выполняя саму операцию.
+Эти failure modes лечатся не SFT, а preference learning'ом + увеличением
+размера модели.
+## Тренировочные данные
+**Источник**: `big-russian-dataset` (HuggingFace) — русскоязычный SFT-корпус.
+| Сплит | Диалогов | После фильтра |
+| --- | --- | --- |
+| train | 1.71M | 1,709,621 (99.9%) |
+| val | 18.5k | 10,396 (56%) |
+**Фильтр**: `overall_score ≥ 6 AND safety ≥ 8 AND pii_leak = 0`.
+В train авторы датасета сами уже почистили мусор — там нет записей со
+score < 6, поэтому фильтр пропускает почти всё. В val разброс score 1-10
+оставлен специально для оценки на трудных примерах.
+**Объём в токенах**: ~1.04 ГБ токенов в train.bin, из них ~603M токенов под
+loss (assistant + EOT, 57.7%).
+## Тренировочные параметры
+```python
+# AdamW
+learning_rate = 3e-4   # cosine decay → min_lr=3e-5
+weight_decay  = 0.1
+beta1, beta2  = 0.9, 0.95
+grad_clip     = 1.0
+# Schedule
+warmup_iters  = 200
+max_iters     = 16000   # ~1 эпоха
+lr_decay_iters = 16000
+# Batch
+batch_size                  = 2
+gradient_accumulation_steps = 32   # effective batch = 64 sequences
+block_size                  = 1024
+# tokens per iter = 65,536
+# System
+dtype   = 'bfloat16'
+compile = False
+```
+## Кривая обучения
+```text
+iter     0  loss 10.49   (≈ ln(32000), стартовая случайная инициализация)
+iter   500  loss ~5      (warmup закончен, LR на peak)
+iter  5500  loss ~2.4    (первый saved checkpoint)
+iter 11500  loss ~1.7    (третий)
+iter 14500  loss ~1.5    (best val_loss ~ 1.8)
+iter 16000  loss ~1.45   (max_iters достигнут)
+```
+train-val gap к концу ~1.7 nats — здоровое значение для SFT на small model.
+## Как использовать
+Модель распространяется в формате nanoGPT (Karpathy). **Не совместима напрямую
+с `transformers.AutoModelForCausalLM`** без конвертации (имена весов отличаются от
+GPT-2-стандарта, в частности нет bias).
+### Вариант 1 — через nanoGPT-репозиторий (Python)
+```bash
+git clone https://github.com/karpathy/nanoGPT.git
+cd nanoGPT
+# скопировать ckpt.pt, tokenizer.model, meta.pkl сюда
+python chat.py --out_dir=<path-to-checkpoint-dir>
+```
+`chat.py` из этого релиза предоставляет интерактивный REPL с командами для
+изменения temperature, top_p, top_k, repetition_penalty на лету.
+### Вариант 2 — через готовый Go single-binary
+В этом релизе есть pre-built `nanogpt-chat.exe` (~97 МБ) — single-binary с
+встроенными весами, токенайзером, конфигом. Запускается без Python и без
+GPU. Performance: ~36 ток/сек на 4-ядерном CPU.
+```bash
+./nanogpt-chat.exe
+```
+Команды REPL:
+```text
+/help               справка
+/show               текущие параметры
+/reset              сбросить историю диалога
+/system <текст>     сменить system-prompt
+/temp <float>       temperature (>0)
+/top_p <float>      nucleus sampling
+/top_k <int>        top-k
+/rep <float>        repetition_penalty
+/preset <name>      creative | balanced | precise
+/quit               выход
+```
+Все команды имеют однобуквенные алиасы (/h, /s, /r, /q, /t, /p, /k, ...).
+### Вариант 3 — конвертация в HuggingFace transformers
+Не предусмотрена в релизе. Требует переименования весов под GPT-2 conventions,
+добавления nullевых bias, и сборки `GPT2LMHeadModel` с custom tokenizer
+(SentencePiece, не GPT-2 BPE). Если кто-то напишет конвертер — буду рад PR.
+## Примеры
+```text
+you> Привет
+bot> Привет! Я готов помочь вам в достижении ваших целей. Хорошего дня!
+you> Объясни простыми словами, что такое черная дыра.
+bot> Для начала, давайте разберемся с этим вопросом шаг за шагом.
+  ### Шаг 1: Изучение черной дыры
+  - Это означает, что черная дыра является частью черной дыры.
+  - Она может иметь разные размеры...
+  [грамотно, но содержательно бредово -- это потолок 50M на фактах]
+you> Напиши сортировку пузырьком на Python.
+bot> Вот пример сортировки пузырьком на Python:
+  ```python
+  def merge_sort(arr):
+      """Выполняет сортировку пузырьком в отсортированном порядке."""
+      sorted_array = {}
+      for i in range(len(arr)):
+          if arr[i] < sorted_array[i - 1]:
+              return merge_sort(arr[i], reverse=True)
+      return sorted_array
+  ```
+  [имя функции merge_sort вместо bubble_sort, словарь вместо двух циклов --
+  форма правильная, реализация бессмысленная]
+```
+Хорошие промпты для этой модели — короткие, диалоговые, не требующие точных
+фактов:
+```text
+you> Привет, как дела?
+you> Меня зовут Лёша. А тебя?
+you> Назови три фрукта.
+you> Расскажи короткую сказку.
+```
+## Ограничения
+- **Знания**: модель **не** содержит достоверных фактов. Не стоит спрашивать о
+  датах, именах, числах, географии, биологии, медицине. Любой ответ —
+  имитация жанра справки, а не реальная информация.
+- **Reasoning**: многошаговая логика недоступна. Арифметика — имитируется
+  без выполнения. Code — синтаксически правдоподобен, но не работает.
+- **Длина**: модель тренировалась с `block_size=1024`. Длинные диалоги
+  (>800 токенов в истории) обрезаются с начала — модель «забывает» ранние
+  реплики.
+- **Языки**: только русский. На английских промптах попытается отвечать,
+  но качество хуже.
+- **Безопасность**: модель тренировалась только на отфильтрованной части
+  датасета (`safety ≥ 8`), но не имеет специального alignment — на
+  откровенно вредных промптах поведение не гарантировано.
+## Что не получилось
+После SFT была попытка preference-learning'а через **KTO** для подавления
+известных failure modes. Обе попытки (β=0.1 и β=0.03) дали полностью
+разрушенную модель — связные ответы превратились в семантический мусор.
+Подробный root-cause анализ — в `04_kto_attempts.md` сопровождающего отчёта.
+Кратко: комбинация (a) бага в реализации loss (отсутствие `clamp(z_ref, 0)`)
+и (b) asymmetric difficulty между chosen-данными и self-generated rejected.
+После исправления бага деградация всё равно осталась, просто медленнее.
+Любопытный side-effect: после KTO модель уходила не просто в шум, а в
+«афористически-философский» регистр — узнаваемый стилистический хвост
+распределения, который KTO не давила (см. секцию «Inverse mode collapse»
+в отчёте).
+В этом релизе публикуется **только SFT-чекпоинт**, KTO-веса не включены.
+## Возможности дообучения
+Модель **не на потолке**. Несколько направлений для продолжения:
+1. **Continued SFT** на расширенном корпусе. Особенно — добавить корпус с
+   фактическими знаниями (например, выжимки из Википедии) и кодом. Каждые
+   ~30% новых данных стоит давать ~1-2 эпохи.
+2. **Pre-training на сыром тексте** (если хочется уйти ниже 50M-потолка
+   качества). 1-5 ГБ русского OSCAR/CulturaX перед SFT может дать
+   значительный буст.
+3. **Distillation от внешней большой модели**. Текущий датасет уже дистилл,
+   но генерация новых ответов от Claude / GPT-4o-mini / Yandex YandexGPT
+   на тех же промптах даст разнообразие стилей.
+4. **Preference learning** (DPO/KTO) с **внешними** rejected (не
+   self-generated). Например, low-score ответы из val того же датасета.
+5. **Scale up** до 100-200M params с теми же гиперпараметрами и тем же
+   корпусом. Сильно нелинейный бу��т качества.
+## Файлы релиза
+| Файл | Размер | Описание |
+| --- | --- | --- |
+| `ckpt.pt` | 553 МБ | nanoGPT-checkpoint (модель + optimizer state + config) |
+| `tokenizer.model` | 930 КБ | SentencePiece-токенайзер (BPE 32k) |
+| `meta.pkl` | <1 КБ | спецтокены ID + vocab_size |
+| `nanogpt-chat.exe` (опц.) | 97 МБ | Go single-binary с встроенной моделью |
+| `model_card.md` | этот файл | |
+Если хочется только inference — `tokenizer.model` + `ckpt.pt` достаточно.
+## Citation / благодарности
+```bibtex
+@misc{mini-tron-50,
+  title  = {mini-tron-50: 50M Russian chat model trained from scratch},
+  author = {Impi},
+  year   = {2026},
+  note   = {Educational baseline; nanoGPT architecture}
+}
+```
+Использованные ресурсы:
+- [nanoGPT](https://github.com/karpathy/nanoGPT) by Andrej Karpathy — основа
+  архитектуры и тренировочного цикла
+- `big-russian-dataset` — обучающий корпус (необходимо проверить
+  оригинальную лицензию датасета перед использованием derivatives для
+  коммерческих целей)
+## Лицензия
+Apache 2.0 — на код и веса этой модели. **Внимание**: лицензия на исходный
+датасет (`big-russian-dataset`) может налагать дополнительные ограничения
+на использование. Для коммерческого применения проверь оригинальную
+лицензию датасета.

chat.py ADDED Viewed

	@@ -0,0 +1,324 @@

+"""
+Интерактивный REPL для болтовни с обученной моделью.
+Запуск:
+  python chat.py --out_dir=out-chat50m
+  python chat.py --out_dir=out-chat50m --temperature=0.8 --top_k=50
+  python chat.py --out_dir=out-chat50m --system="Ты дружелюбный ассистент."
+Команды внутри REPL (в скобках -- однобуквенные алиасы):
+  /help          /h         показать список команд
+  /show          /s         показать текущие параметры сэмплинга
+  /reset         /r         сбросить историю диалога
+  /system  <т>   /sys <т>   сменить system-промпт + reset
+  /temp    <f>   /t   <f>   temperature (>0)
+  /top_p   <f>   /p   <f>   nucleus sampling (0..1]
+  /top_k   <i>   /k   <i>   top-k (0 = выкл)
+  /rep     <f>   /rp  <f>   repetition_penalty (>=1.0)
+  /max_tokens<i> /mt  <i>   лимит длины ответа
+  /preset  <n>   /ps  <n>   creative | balanced | precise
+  /quit          /q         выйти
+"""
+import os
+import sys
+import io
+import argparse
+import pickle
+import torch
+import sentencepiece as spm
+from model import GPTConfig, GPT
+if sys.platform == 'win32':
+    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
+    sys.stdin = io.TextIOWrapper(sys.stdin.buffer, encoding='utf-8')
+SYS_TOK = '<|system|>'
+USR_TOK = '<|user|>'
+ASS_TOK = '<|assistant|>'
+EOT_TOK = '<|endoftext|>'
+def build_prompt(history, system):
+    """history: list of (role, content). Возвращает строку, заканчивающуюся на <|assistant|>."""
+    parts = []
+    if system:
+        parts.append(f'{SYS_TOK}{system}{EOT_TOK}')
+    for role, content in history:
+        tok = USR_TOK if role == 'user' else ASS_TOK
+        parts.append(f'{tok}{content}{EOT_TOK}')
+    parts.append(ASS_TOK)
+    return ''.join(parts)
+@torch.no_grad()
+def generate_until_eot(model, idx, eot_id, max_new_tokens, temperature, top_k, top_p,
+                      repetition_penalty, repetition_window, device, on_token=None):
+    """Сэмплинг до <|endoftext|> или max_new_tokens с repetition_penalty + top-k + top-p.
+    on_token(new_id, all_new_ids) -- опц. колбэк после каждого нового токена (для streaming).
+    """
+    new_ids = []
+    block_size = model.config.block_size
+    prompt_len = idx.size(1)
+    for _ in range(max_new_tokens):
+        idx_cond = idx if idx.size(1) <= block_size else idx[:, -block_size:]
+        logits, _ = model(idx_cond)
+        logits = logits[:, -1, :].clone()  # (1, V)
+        # repetition penalty: штрафуем токены, появлявшиеся в последнем окне
+        if repetition_penalty and repetition_penalty != 1.0:
+            recent = idx[0, -repetition_window:].tolist()
+            if recent:
+                uniq = list(set(recent))
+                t = torch.tensor(uniq, device=logits.device, dtype=torch.long)
+                cur = logits[0, t]
+                # классический CTRL-style: положительные logits делим, отрицательные -- умножаем
+                cur = torch.where(cur > 0, cur / repetition_penalty, cur * repetition_penalty)
+                logits[0, t] = cur
+        logits = logits / max(temperature, 1e-6)
+        # top-k
+        if top_k is not None and top_k > 0:
+            v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
+            logits[logits < v[:, [-1]]] = -float('inf')
+        # top-p (nucleus)
+        if top_p is not None and 0.0 < top_p < 1.0:
+            sorted_logits, sorted_idx = torch.sort(logits, descending=True, dim=-1)
+            cum = torch.softmax(sorted_logits, dim=-1).cumsum(dim=-1)
+            mask = cum > top_p
+            mask[..., 1:] = mask[..., :-1].clone()
+            mask[..., 0] = False
+            sorted_logits = sorted_logits.masked_fill(mask, -float('inf'))
+            logits = torch.full_like(logits, -float('inf')).scatter(-1, sorted_idx, sorted_logits)
+        probs = torch.softmax(logits, dim=-1)
+        next_id = torch.multinomial(probs, num_samples=1)
+        nid = int(next_id.item())
+        if nid == eot_id:
+            break
+        new_ids.append(nid)
+        idx = torch.cat([idx, next_id], dim=1)
+        if on_token is not None:
+            on_token(nid, new_ids)
+    return new_ids
+def main():
+    ap = argparse.ArgumentParser()
+    ap.add_argument('--out_dir', default='out-chat50m')
+    ap.add_argument('--data_dir', default='data/chat_ru')
+    ap.add_argument('--system', default='Ты вежливый и полезный ассистент. Отвечай по-русски.')
+    ap.add_argument('--temperature', type=float, default=0.7)
+    ap.add_argument('--top_k', type=int, default=40)
+    ap.add_argument('--top_p', type=float, default=0.9)
+    ap.add_argument('--repetition_penalty', type=float, default=1.15,
+                    help='1.0 = выкл; 1.1-1.3 типичные значения')
+    ap.add_argument('--repetition_window', type=int, default=128,
+                    help='в каком окне последних токенов штрафовать повторы')
+    ap.add_argument('--max_new_tokens', type=int, default=512)
+    ap.add_argument('--device', default='cuda' if torch.cuda.is_available() else 'cpu')
+    ap.add_argument('--dtype', default='bfloat16')
+    args = ap.parse_args()
+    # tokenizer + meta
+    sp = spm.SentencePieceProcessor()
+    sp.Load(os.path.join(args.data_dir, 'tokenizer.model'))
+    with open(os.path.join(args.data_dir, 'meta.pkl'), 'rb') as f:
+        meta = pickle.load(f)
+    eot_id = meta['special_tokens']['endoftext']
+    print(f'tokenizer ok, vocab={sp.get_piece_size()}, eot_id={eot_id}')
+    # model
+    ckpt_path = os.path.join(args.out_dir, 'ckpt.pt')
+    print(f'loading checkpoint: {ckpt_path}')
+    ckpt = torch.load(ckpt_path, map_location=args.device, weights_only=False)
+    gptconf = GPTConfig(**ckpt['model_args'])
+    model = GPT(gptconf)
+    sd = ckpt['model']
+    # снять префикс _orig_mod. если был torch.compile
+    for k in list(sd.keys()):
+        if k.startswith('_orig_mod.'):
+            sd[k[len('_orig_mod.'):]] = sd.pop(k)
+    model.load_state_dict(sd)
+    model.eval()
+    model.to(args.device)
+    print(f'model: {model.get_num_params()/1e6:.1f}M params, block_size={model.config.block_size}')
+    ptdtype = {'float32': torch.float32, 'bfloat16': torch.bfloat16, 'float16': torch.float16}[args.dtype]
+    autocast = torch.amp.autocast(device_type=('cuda' if 'cuda' in args.device else 'cpu'),
+                                  dtype=ptdtype)
+    # Параметры сэмплинга, изменяемые на лету через /-команды.
+    params = dict(
+        temperature=args.temperature,
+        top_k=args.top_k,
+        top_p=args.top_p,
+        repetition_penalty=args.repetition_penalty,
+        repetition_window=args.repetition_window,
+        max_new_tokens=args.max_new_tokens,
+    )
+    PRESETS = {
+        'creative': dict(temperature=1.0,  top_k=80,  top_p=0.95, repetition_penalty=1.10),
+        'balanced': dict(temperature=0.7,  top_k=40,  top_p=0.90, repetition_penalty=1.15),
+        'precise':  dict(temperature=0.35, top_k=20,  top_p=0.85, repetition_penalty=1.25),
+    }
+    HELP = (
+        'Команды (в скобках -- однобуквенные алиасы):\n'
+        '  /help          /h         показать эту справку\n'
+        '  /show          /s         показать текущие параметры\n'
+        '  /reset         /r         сбросить историю диалога\n'
+        '  /system  <т>   /sys <т>   сменить system-промпт + reset\n'
+        '  /temp    <f>   /t   <f>   temperature (>0)\n'
+        '  /top_p   <f>   /p   <f>   nucleus sampling (0..1]\n'
+        '  /top_k   <i>   /k   <i>   top-k (0 = выкл)\n'
+        '  /rep     <f>   /rp  <f>   repetition_penalty (>=1.0)\n'
+        '  /max_tokens<i> /mt  <i>   лимит длины ответа\n'
+        '  /preset  <n>   /ps  <n>   ' + ' | '.join(PRESETS.keys()) + '\n'
+        '  /quit          /q         выйти'
+    )
+    # Алиасы: первое слово в команде раскрывается в каноническое.
+    CANONICAL = {
+        '/h': '/help', '/s': '/show', '/r': '/reset',
+        '/q': '/quit', '/exit': '/quit',
+        '/sys': '/system', '/t': '/temp', '/p': '/top_p', '/k': '/top_k',
+        '/rp': '/rep', '/mt': '/max_tokens', '/ps': '/preset',
+    }
+    def show_params():
+        print(f'  system: {system!r}')
+        print(f'  temperature={params["temperature"]}, top_k={params["top_k"]}, '
+              f'top_p={params["top_p"]}, repetition_penalty={params["repetition_penalty"]}, '
+              f'max_new_tokens={params["max_new_tokens"]}')
+    def parse_set(line, prefix, kind, validate=None):
+        """Распарсить '/cmd value' для одного параметра. Возвращает (ok, value_or_msg)."""
+        s = line[len(prefix):].strip()
+        if not s:
+            return False, f'нужен аргумент: {prefix} <value>'
+        try:
+            v = kind(s)
+        except ValueError:
+            return False, f'не могу разобрать как {kind.__name__}: {s!r}'
+        if validate is not None:
+            err = validate(v)
+            if err:
+                return False, err
+        return True, v
+    history = []  # list[(role, content)]
+    system = args.system
+    print()
+    print('=== chat REPL ===  /help для списка команд')
+    show_params()
+    print()
+    while True:
+        try:
+            user = input('you> ').strip()
+        except (EOFError, KeyboardInterrupt):
+            print()
+            break
+        if not user:
+            continue
+        # Команды: первое слово раскрывается через CANONICAL
+        if user.startswith('/'):
+            head, _, rest = user.partition(' ')
+            cmd = CANONICAL.get(head, head)
+            rest = rest.strip()
+            full = cmd if not rest else f'{cmd} {rest}'
+            if cmd == '/quit':
+                break
+            elif cmd == '/help':
+                print(HELP)
+            elif cmd == '/show':
+                show_params()
+            elif cmd == '/reset':
+                history = []
+                print('(история сброшена)')
+            elif cmd == '/system':
+                system = rest
+                history = []
+                print(f'(новый system: {system!r}, история сброшена)')
+            elif cmd == '/temp':
+                ok, v = parse_set(full, '/temp', float,
+                                  lambda x: None if x > 0 else 'temperature должен быть > 0')
+                if ok: params['temperature'] = v; print(f'(temperature = {v})')
+                else:  print(f'! {v}')
+            elif cmd == '/top_p':
+                ok, v = parse_set(full, '/top_p', float,
+                                  lambda x: None if 0 < x <= 1.0 else 'top_p должен быть в (0..1]')
+                if ok: params['top_p'] = v; print(f'(top_p = {v})')
+                else:  print(f'! {v}')
+            elif cmd == '/top_k':
+                ok, v = parse_set(full, '/top_k', int,
+                                  lambda x: None if x >= 0 else 'top_k должен быть >= 0')
+                if ok: params['top_k'] = v; print(f'(top_k = {v})')
+                else:  print(f'! {v}')
+            elif cmd == '/rep':
+                ok, v = parse_set(full, '/rep', float,
+                                  lambda x: None if x >= 1.0 else 'repetition_penalty должен быть >= 1.0')
+                if ok: params['repetition_penalty'] = v; print(f'(repetition_penalty = {v})')
+                else:  print(f'! {v}')
+            elif cmd == '/max_tokens':
+                ok, v = parse_set(full, '/max_tokens', int,
+                                  lambda x: None if 1 <= x <= 4096 else 'max_tokens в [1..4096]')
+                if ok: params['max_new_tokens'] = v; print(f'(max_new_tokens = {v})')
+                else:  print(f'! {v}')
+            elif cmd == '/preset':
+                if rest not in PRESETS:
+                    print(f'! пресет {rest!r} не найден. доступны: {list(PRESETS.keys())}')
+                else:
+                    params.update(PRESETS[rest])
+                    print(f'(пресет {rest}: {PRESETS[rest]})')
+            else:
+                print(f'! неизвестная команда {head!r}. /help для списка.')
+            continue
+        history.append(('user', user))
+        prompt = build_prompt(history, system)
+        ids = sp.encode(prompt, out_type=int)
+        # обрезаем по block_size слева, оставляя минимум 64 для генерации
+        max_ctx = model.config.block_size - 64
+        if len(ids) > max_ctx:
+            ids = ids[-max_ctx:]
+        idx = torch.tensor([ids], dtype=torch.long, device=args.device)
+        # Streaming: после каждого нового токена декодируем весь префикс и печатаем
+        # дельту -- так корректно склеиваются подслова BPE (без ▁-артефактов).
+        printed = {'text': '', 'ids': []}
+        def on_token(nid, all_ids):
+            # храним актуальный список id чтобы при Ctrl+C сохранить partial-ответ
+            printed['ids'] = list(all_ids)
+            full = sp.decode(all_ids)
+            delta = full[len(printed['text']):]
+            if delta:
+                print(delta, end='', flush=True)
+                printed['text'] = full
+        print('bot> ', end='', flush=True)
+        try:
+            with autocast:
+                new_ids = generate_until_eot(model, idx, eot_id, params['max_new_tokens'],
+                                             params['temperature'], params['top_k'],
+                                             params['top_p'], params['repetition_penalty'],
+                                             params['repetition_window'], args.device,
+                                             on_token=on_token)
+        except KeyboardInterrupt:
+            new_ids = printed['ids']
+            print('\n(прервано Ctrl+C)')
+        print()  # перевод строки после финального токена
+        reply = sp.decode(new_ids).strip()
+        history.append(('assistant', reply))
+        print()
+if __name__ == '__main__':
+    main()

config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "model_type": "nanogpt",
+  "architectures": [
+    "GPT"
+  ],
+  "n_layer": 10,
+  "n_head": 8,
+  "n_embd": 512,
+  "block_size": 1024,
+  "vocab_size": 32000,
+  "bias": false,
+  "dropout": 0.1,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float16",
+  "gpt2_equivalent": {
+    "n_positions": 1024,
+    "n_ctx": 1024,
+    "n_embd": 512,
+    "n_head": 8,
+    "n_layer": 10,
+    "vocab_size": 32000
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "do_sample": true,
+  "temperature": 0.7,
+  "top_p": 0.9,
+  "top_k": 40,
+  "repetition_penalty": 1.15,
+  "max_new_tokens": 300,
+  "eos_token_id": 5,
+  "pad_token_id": 0,
+  "transformers_version": "4.x"
+}

meta.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9015d57a544db8e4d826f6db89df6f0ddacb81e5de04a043f00b82b9af0f3150
+size 176

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c2e988e95f6cccb62a68cc8def8fc8dfb6e84571f46d38aa5c34e5774b2ad5e
+size 129527208

nanogpt-chat.exe ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70e61cb8ab61719183a5964ee062469d41ca5b50d2f36e6cbbaad10ddae2919c
+size 100751360

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abb2b369aee6d6a9e2aef3bcb95591546106037796c29c7c77b3c1bb68966c67
+size 129541319

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>",
+  "additional_special_tokens": [
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>"
+  ]
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0bc6eb521395e82253f7cfe70df6314be2b1cf10e45756a74cb0d511cd66d17
+size 952151

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "model_max_length": 1024,
+  "bos_token": null,
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>",
+  "additional_special_tokens": [
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>"
+  ],
+  "clean_up_tokenization_spaces": false,
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}<|system|>{{ message['content'] }}<|endoftext|>{% elif message['role'] == 'user' %}<|user|>{{ message['content'] }}<|endoftext|>{% elif message['role'] == 'assistant' %}<|assistant|>{{ message['content'] }}<|endoftext|>{% endif %}{% endfor %}{% if add_generation_prompt %}<|assistant|>{% endif %}",
+  "sp_model_file": "tokenizer.model",
+  "special_token_ids": {
+    "pad": 0,
+    "unk": 1,
+    "system": 2,
+    "user": 3,
+    "assistant": 4,
+    "endoftext": 5
+  }
+}