Update README.md

7362bec verified 3 days ago

5.11 kB

	---
	library_name: pytorch
	tags:
	- causal-lm
	- transformer
	- gqa
	- rope
	- byte-level-bpe
	- russian
	- dl-course
	---

	<div align="center">

	# DL Course HW13

	Финальная модель

	`PyTorch` · `Transformer` · `GQA` · `RoPE` · `Byte-level BPE` · `Russian LM`

	</div>

	---

	## Кратко

	В этом репозитории сохранена итоговая модель

	Финальной выбрана конфигурация small + GQA + RoPE, потому что она показала лучшее качество среди всех проведённых экспериментов по двум основным метрикам:

	\| Метрика \| Значение \|
	\|---\|---:\|
	\| Validation loss \| 2.4695 \|
	\| Perplexity \| 11.82 \|

	---

	## Финальная модель

	Основные компоненты:

	\| Компонент \| Использованный вариант \|
	\|---\|---\|
	\| Архитектура \| Decoder-only Transformer \|
	\| Attention \| Grouped-Query Attention \|
	\| Позиционные эмбеддинги \| Rotary Positional Embeddings \|
	\| Нормализация \| RMSNorm \|
	\| Feed-forward блок \| SwiGLU \|
	\| Токенизатор \| Byte-level BPE \|

	---

	## Сравнение экспериментов

	\| № \| Эксперимент \| Validation loss \| Perplexity \|
	\|---:\|---\|---:\|---:\|
	\| 1 \| small + GQA baseline \| 2.5650 \| 13.00 \|
	\| 2 \| small + GQA + RoPE \| 2.4695 \| 11.82 \|
	\| 3 \| mini + MLA + RoPE \| 2.7306 \| 15.34 \|
	\| 4 \| small + MLA + RoPE \| 2.4905 \| 12.07 \|

	Лучший результат получила модель small + GQA + RoPE.

	---

	## Примеры генерации

	Параметры генерации:

	\| Параметр \| Значение \|
	\|---\|---:\|
	\| max_new_tokens \| 200 \|
	\| temperature \| 0.8 \|
	\| top_k \| 30 \|
	\| do_sample \| true \|
	\| seed \| 42 \|

	### Пример 1

	Prompt

	```text
	Штирлиц пришел домой
	```

	Generated text

	```text
	Штирлиц пришел домой - весь вечер подумал, что у неё украли.
	```

	### Пример 2

	Prompt

	```text
	Вовочка на уроке
	```

	Generated text

	```text
	Вовочка на уроке русского языка учится на букву ``К`` и
	белый, и с чистой.
	Девочка:
	- Папа, пап, сегодня вечером папа пришел в школу,
	да! И так! Уже в школе!
	Мать:
	- А я, мама, не понял...
	```

	### Пример 3

	Prompt

	```text
	Заходит в бар
	```

	Generated text

	```text
	Заходит в бар в ларьку и видит, что держится на площади стекла. А доктор ему и сказал:- Доктор, у меня болит голова и рот пить не налил.Врач подумал и говорит:- Или у меня хлещет?И, встала с кровати:- Нет, просто у меня на характере нет...
	```

	### Пример 4

	Prompt

	```text
	Однажды студент
	```

	Generated text

	```text
	Однажды студент пришел к врачу и рассказывает ему:
	— Доктор, помогите, я выйду на него замуж!
	— А что вы делаете?!
	— Ну вот, папа, папаша, иду по парку и говорю: «Знаю
	— А вы сегодня опять плохо приготовили» — подумал Штирлиц. И вот, значит, в темном классе
	— Ну, это не хуйня, и он меня тоже.
	```

	## Файлы репозитория

	\| Файл \| Назначение \|
	\|---\|---\|
	\| `model.safetensors` \| веса финальной модели \|
	\| `config.json` \| конфигурация модели \|
	\| `vocabulary.json` \| словарь токенизатора \|
	\| `merges.json` \| merge-файл токенизатора \|
	\| `metrics.json` \| метрики всех экспериментов \|
	\| `eval_results.json` \| финальные eval-метрики \|
	\| `generation_samples.json` \| примеры генерации в JSON \|
	\| `generation_samples.md` \| примеры генерации в Markdown \|

	---

	## Итог

	Финальная модель - small + GQA + RoPE.

	Она стала лучшей и показала следующие финальные значения:

	\| Финальная метрика \| Значение \|
	\|---\|---:\|
	\| Validation loss \| 2.4695 \|
	\| Perplexity \| 11.82 \|

	<details>
	<summary>Краткий вывод по экспериментам</summary>

	RoPE оказался полезным улучшением для small + GQA модели: validation loss снизился с `2.5650` до `2.4695`, а perplexity - с `13.00` до `11.82`.

	MLA + RoPE тоже был протестирован, но в данной постановке small + GQA + RoPE оказался лучше по итоговым метрикам.

	</details>