lllezd
/

dl-course-hw13

@@ -1,10 +1,140 @@
 ---
 tags:
-- model_hub_mixin
-- pytorch_model_hub_mixin
 ---
-This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
-- Code: [More Information Needed]
-- Paper: [More Information Needed]
-- Docs: [More Information Needed]

 ---
+library_name: pytorch
 tags:
+- causal-lm
+- transformer
+- gqa
+- rope
+- byte-level-bpe
+- russian
+- dl-course
 ---
+# DL Course HW13
+Конкретно в этом репозитории лежит финальная модел.
+Финальной выбрана модель **small + GQA + RoPE**, потому что она показала лучшее качество среди проведённых экспериментов по validation loss и perplexity.
+## Финальная модель
+Модель использует:
+- decoder-only Transformer;
+- Grouped-Query Attention;
+- Rotary Positional Embeddings;
+- RMSNorm;
+- SwiGLU feed-forward block;
+- byte-level BPE токенизатор.
+## Метрики
+| Метрика | Значение |
+|---|---:|
+| Validation loss | 2.4695 |
+| Perplexity | 11.82 |
+## Сравнение экспериментов
+| № | Эксперимент | Validation loss | Perplexity |
+|---|---|---:|---:|
+| 1 | small + GQA baseline | 2.5650 | 13.00 |
+| 2 | small + GQA + RoPE | 2.4695 | 11.82 |
+| 3 | mini + MLA + RoPE | 2.7306 | 15.34 |
+| 4 | small + MLA + RoPE | 2.4905 | 12.07 |
+## Краткое описание
+| Параметр | Значение |
+|---|---:|
+| Тип attention | GQA |
+| Позиционные эмбеддинги | RoPE |
+| Нормализация | RMSNorm |
+| FFN-блок | SwiGLU |
+| Токенизатор | Byte-level BPE |
+## Примеры генерации
+Параметры генерации:
+| Параметр | Значение |
+|---|---:|
+| max_new_tokens | 200 |
+| temperature | 0.8 |
+| top_k | 30 |
+| do_sample | true |
+| seed | 42 |
+### Пример 1
+Prompt:
+```text
+Штирлиц пришел домой
+```
+Generated text:
+```text
+Штирлиц пришел домой - весь вечер подумал, что у неё украли.
+```
+### Пример 2
+Prompt:
+```text
+Вовочка на уроке
+```
+Generated text:
+```text
+Вовочка на уроке русского языка учится на букву ``К`` и
+ белый, и с чистой.
+ Девочка:
+ - Папа, пап, сегодня вечером папа пришел в школу,
+ да! И так! Уже в школе!
+ Мать:
+ - А я, мама, не понял...
+```
+Полный набор примеров сохранён в файлах:
+- `generation_samples.json`
+- `generation_samples.md`
+## Файлы в репозитории
+В репозитории сохранены:
+- `model.safetensors` - веса финальной модели
+- `config.json` - конфигурация модели
+- `vocabulary.json` - словарь токенизатора
+- `merges.json` - merge-файл токенизатора
+- `metrics.json` - метрики всех экспериментов
+- `eval_results.json` - финальные метрики
+- `generation_samples.json` - примеры генерации
+- `generation_samples.md` - примеры генерации
+## Загрузка модели
+```python
+from hw13 import ByteLevelBPETokenizer, TransformerForCausalLM
+repo_id = "lllezd/dl-course-hw13"
+tokenizer = ByteLevelBPETokenizer.from_pretrained(repo_id)
+model = TransformerForCausalLM.from_pretrained(repo_id)
+```
+## Итог
+Финальная модель - **small + GQA + RoPE**.
+Она показала лучшее качество среди протестированных конфигураций:
+| Финальная метрика | Значение |
+|---|---:|
+| Validation loss | 2.4695 |
+| Perplexity | 11.82 |