lllezd commited on
Commit
a9fa7a1
·
verified ·
1 Parent(s): c80e099

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +136 -6
README.md CHANGED
@@ -1,10 +1,140 @@
1
  ---
 
2
  tags:
3
- - model_hub_mixin
4
- - pytorch_model_hub_mixin
 
 
 
 
 
5
  ---
6
 
7
- This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
8
- - Code: [More Information Needed]
9
- - Paper: [More Information Needed]
10
- - Docs: [More Information Needed]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ library_name: pytorch
3
  tags:
4
+ - causal-lm
5
+ - transformer
6
+ - gqa
7
+ - rope
8
+ - byte-level-bpe
9
+ - russian
10
+ - dl-course
11
  ---
12
 
13
+ # DL Course HW13
14
+
15
+ Конкретно в этом репозитории лежит финальная модел.
16
+
17
+ Финальной выбрана модель **small + GQA + RoPE**, потому что она показала лучшее качество среди проведённых экспериментов по validation loss и perplexity.
18
+
19
+ ## Финальная модель
20
+
21
+ Модель использует:
22
+
23
+ - decoder-only Transformer;
24
+ - Grouped-Query Attention;
25
+ - Rotary Positional Embeddings;
26
+ - RMSNorm;
27
+ - SwiGLU feed-forward block;
28
+ - byte-level BPE токенизатор.
29
+
30
+ ## Метрики
31
+
32
+ | Метрика | Значение |
33
+ |---|---:|
34
+ | Validation loss | 2.4695 |
35
+ | Perplexity | 11.82 |
36
+
37
+ ## Сравнение экспериментов
38
+
39
+ | № | Эксперимент | Validation loss | Perplexity |
40
+ |---|---|---:|---:|
41
+ | 1 | small + GQA baseline | 2.5650 | 13.00 |
42
+ | 2 | small + GQA + RoPE | 2.4695 | 11.82 |
43
+ | 3 | mini + MLA + RoPE | 2.7306 | 15.34 |
44
+ | 4 | small + MLA + RoPE | 2.4905 | 12.07 |
45
+
46
+ ## Краткое описание
47
+
48
+ | Параметр | Значение |
49
+ |---|---:|
50
+ | Тип attention | GQA |
51
+ | Позиционные эмбеддинги | RoPE |
52
+ | Нормализация | RMSNorm |
53
+ | FFN-блок | SwiGLU |
54
+ | Токенизатор | Byte-level BPE |
55
+
56
+ ## Примеры генерации
57
+
58
+ Параметры генерации:
59
+
60
+ | Параметр | Значение |
61
+ |---|---:|
62
+ | max_new_tokens | 200 |
63
+ | temperature | 0.8 |
64
+ | top_k | 30 |
65
+ | do_sample | true |
66
+ | seed | 42 |
67
+
68
+ ### Пример 1
69
+
70
+ Prompt:
71
+
72
+ ```text
73
+ Штирлиц пришел домой
74
+ ```
75
+
76
+ Generated text:
77
+
78
+ ```text
79
+ Штирлиц пришел домой - весь вечер подумал, что у неё украли.
80
+ ```
81
+
82
+ ### Пример 2
83
+
84
+ Prompt:
85
+
86
+ ```text
87
+ Вовочка на уроке
88
+ ```
89
+
90
+ Generated text:
91
+
92
+ ```text
93
+ Вовочка на уроке русского языка учится на букву ``К`` и
94
+ белый, и с чистой.
95
+ Девочка:
96
+ - Папа, пап, сегодня вечером папа пришел в школу,
97
+ да! И так! Уже в школе!
98
+ Мать:
99
+ - А я, мама, не понял...
100
+ ```
101
+
102
+ Полный набор примеров сохранён в файлах:
103
+
104
+ - `generation_samples.json`
105
+ - `generation_samples.md`
106
+
107
+ ## Файлы в репозитории
108
+
109
+ В репозитории сохранены:
110
+
111
+ - `model.safetensors` - веса финальной модели
112
+ - `config.json` - конфигурация модели
113
+ - `vocabulary.json` - словарь токенизатора
114
+ - `merges.json` - merge-файл токенизатора
115
+ - `metrics.json` - метрики всех экспериментов
116
+ - `eval_results.json` - финальные метрики
117
+ - `generation_samples.json` - примеры генерации
118
+ - `generation_samples.md` - примеры генерации
119
+
120
+ ## Загрузка модели
121
+
122
+ ```python
123
+ from hw13 import ByteLevelBPETokenizer, TransformerForCausalLM
124
+
125
+ repo_id = "lllezd/dl-course-hw13"
126
+
127
+ tokenizer = ByteLevelBPETokenizer.from_pretrained(repo_id)
128
+ model = TransformerForCausalLM.from_pretrained(repo_id)
129
+ ```
130
+
131
+ ## Итог
132
+
133
+ Финальная модель - **small + GQA + RoPE**.
134
+
135
+ Она показала лучшее качество среди протестированных конфигураций:
136
+
137
+ | Финальная метрика | Значение |
138
+ |---|---:|
139
+ | Validation loss | 2.4695 |
140
+ | Perplexity | 11.82 |