llm-course-hw1 / README.md
pbedrin's picture
restore meta
0beb1c6 verified
---
datasets:
- IgorVolochay/russian_jokes
tags:
- model_hub_mixin
- pytorch_model_hub_mixin
---
# VK LLM Course. Задание #1. Генерация анекдотов
Модель-трансформер, генерирующая русскоязычные анекдоты:
* Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)
* Токенизатор: Byte-level BPE со словарём размера 1024
* Позиционный эмбеддинг: RoPE или ALiBi
* Механизм внимания: GQA
* Функция активации: SwiGLU
* Нормализация: RMSNorm
* Лосс-функция: кросс-энтропия
## Модель
Актуальная версия в репозитории — модель конфигурации `small` на 79.54M параметров. Детали и гиперпараметры:
* 10 000 итераций обучения, валидация раз в 1000 итераций
* Длина контекста — 128, размер батча — 16
* Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0
* n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048
* Позиционный эмбеддинг — RoPE
## Метрики качества
Значения лосс-функции:
* Обучение: min = 2.446, max = 7.063, final = 2.520
* Валидация: min = 2.630, max = 4.078, final = 2.630
## Примеры генерации
* Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель!
* Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить?
* Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое?