File size: 5,106 Bytes

8557934
a9fa7a1
8557934
a9fa7a1
 
 
 
 
 
 
8557934
 
7362bec
 
a9fa7a1
 
7362bec
a9fa7a1
7362bec
a9fa7a1
7362bec
a9fa7a1
7362bec
a9fa7a1
7362bec
a9fa7a1
7362bec
 
 
a9fa7a1
 
 
7362bec
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a9fa7a1
 
 
 
7362bec
a9fa7a1
7362bec
a9fa7a1
 
 
7362bec
a9fa7a1
7362bec
a9fa7a1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7362bec
a9fa7a1
 
 
 
 
7362bec
a9fa7a1
 
 
 
 
 
 
7362bec
a9fa7a1
 
 
 
 
7362bec
a9fa7a1
 
 
 
 
 
 
 
 
 
 
7362bec
a9fa7a1
7362bec
a9fa7a1
7362bec
 
 
a9fa7a1
7362bec
a9fa7a1
7362bec
 
 
a9fa7a1
7362bec
a9fa7a1
7362bec
a9fa7a1
7362bec
 
 
a9fa7a1
7362bec
 
 
 
 
 
 
 
 
a9fa7a1
 
7362bec
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a9fa7a1
 
 
 
7362bec
a9fa7a1
 
 
7362bec

---
library_name: pytorch
tags:
- causal-lm
- transformer
- gqa
- rope
- byte-level-bpe
- russian
- dl-course
---

<div align="center">

# DL Course HW13

**Финальная модель**

`PyTorch` · `Transformer` · `GQA` · `RoPE` · `Byte-level BPE` · `Russian LM`

</div>

---

## Кратко

В этом репозитории сохранена итоговая модель

Финальной выбрана конфигурация **small + GQA + RoPE**, потому что она показала лучшее качество среди всех проведённых экспериментов по двум основным метрикам:

| Метрика | Значение |
|---|---:|
| Validation loss | **2.4695** |
| Perplexity | **11.82** |

---

## Финальная модель

Основные компоненты:

| Компонент | Использованный вариант |
|---|---|
| Архитектура | Decoder-only Transformer |
| Attention | Grouped-Query Attention |
| Позиционные эмбеддинги | Rotary Positional Embeddings |
| Нормализация | RMSNorm |
| Feed-forward блок | SwiGLU |
| Токенизатор | Byte-level BPE |

---

## Сравнение экспериментов

| № | Эксперимент | Validation loss | Perplexity |
|---:|---|---:|---:|
| 1 | small + GQA baseline | 2.5650 | 13.00 |
| 2 | **small + GQA + RoPE** | **2.4695** | **11.82** |
| 3 | mini + MLA + RoPE | 2.7306 | 15.34 |
| 4 | small + MLA + RoPE | 2.4905 | 12.07 |

Лучший результат получила модель **small + GQA + RoPE**.

---

## Примеры генерации

Параметры генерации:

| Параметр | Значение |
|---|---:|
| max_new_tokens | 200 |
| temperature | 0.8 |
| top_k | 30 |
| do_sample | true |
| seed | 42 |

### Пример 1

**Prompt**

```text
Штирлиц пришел домой
```

**Generated text**

```text
Штирлиц пришел домой - весь вечер подумал, что у неё украли.
```

### Пример 2

**Prompt**

```text
Вовочка на уроке
```

**Generated text**

```text
Вовочка на уроке русского языка учится на букву ``К`` и
 белый, и с чистой.
 Девочка:
 - Папа, пап, сегодня вечером папа пришел в школу,
 да! И так! Уже в школе!
 Мать:
 - А я, мама, не понял...
```

### Пример 3

**Prompt**

```text
Заходит в бар
```

**Generated text**

```text
Заходит в бар в ларьку и видит, что держится на площади стекла. А доктор ему и сказал:- Доктор, у меня болит голова и рот пить не налил.Врач подумал и говорит:- Или у меня хлещет?И, встала с кровати:- Нет, просто у меня на характере нет...
```

### Пример 4

**Prompt**

```text
Однажды студент
```

**Generated text**

```text
Однажды студент пришел к врачу и рассказывает ему: 
— Доктор, помогите, я выйду на него замуж! 
— А что вы делаете?! 
— Ну вот, папа, папаша, иду по парку и говорю: «Знаю
— А вы сегодня опять плохо приготовили» — подумал Штирлиц. И вот, значит, в темном классе
— Ну, это не хуйня, и он меня тоже.
```

## Файлы репозитория

| Файл | Назначение |
|---|---|
| `model.safetensors` | веса финальной модели |
| `config.json` | конфигурация модели |
| `vocabulary.json` | словарь токенизатора |
| `merges.json` | merge-файл токенизатора |
| `metrics.json` | метрики всех экспериментов |
| `eval_results.json` | финальные eval-метрики |
| `generation_samples.json` | примеры генерации в JSON |
| `generation_samples.md` | примеры генерации в Markdown |

---

## Итог

Финальная модель - **small + GQA + RoPE**.

Она стала лучшей и показала следующие финальные значения:

| Финальная метрика | Значение |
|---|---:|
| Validation loss | **2.4695** |
| Perplexity | **11.82** |

<details>
<summary>Краткий вывод по экспериментам</summary>

RoPE оказался полезным улучшением для small + GQA модели: validation loss снизился с `2.5650` до `2.4695`, а perplexity - с `13.00` до `11.82`.

MLA + RoPE тоже был протестирован, но в данной постановке small + GQA + RoPE оказался лучше по итоговым метрикам.

</details>