|
|
--- |
|
|
datasets: |
|
|
- IgorVolochay/russian_jokes |
|
|
tags: |
|
|
- model_hub_mixin |
|
|
- pytorch_model_hub_mixin |
|
|
--- |
|
|
# VK LLM Course. Задание #1. Генерация анекдотов |
|
|
|
|
|
Модель-трансформер, генерирующая русскоязычные анекдоты: |
|
|
* Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes) |
|
|
* Токенизатор: Byte-level BPE со словарём размера 1024 |
|
|
* Позиционный эмбеддинг: RoPE или ALiBi |
|
|
* Механизм внимания: GQA |
|
|
* Функция активации: SwiGLU |
|
|
* Нормализация: RMSNorm |
|
|
* Лосс-функция: кросс-энтропия |
|
|
|
|
|
## Модель |
|
|
Актуальная версия в репозитории — модель конфигурации `small` на 79.54M параметров. Детали и гиперпараметры: |
|
|
* 10 000 итераций обучения, валидация раз в 1000 итераций |
|
|
* Длина контекста — 128, размер батча — 16 |
|
|
* Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0 |
|
|
* n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048 |
|
|
* Позиционный эмбеддинг — RoPE |
|
|
|
|
|
## Метрики качества |
|
|
Значения лосс-функции: |
|
|
* Обучение: min = 2.446, max = 7.063, final = 2.520 |
|
|
* Валидация: min = 2.630, max = 4.078, final = 2.630 |
|
|
|
|
|
|
|
|
## Примеры генерации |
|
|
* Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель! |
|
|
* Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить? |
|
|
* Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое? |