VK LLM Course. Задание #1. Генерация анекдотов
Модель-трансформер, генерирующая русскоязычные анекдоты:
- Датасет: IgorVolochay/russian_jokes
- Токенизатор: Byte-level BPE со словарём размера 1024
- Позиционный эмбеддинг: RoPE или ALiBi
- Механизм внимания: GQA
- Функция активации: SwiGLU
- Нормализация: RMSNorm
- Лосс-функция: кросс-энтропия
Модель
Актуальная версия в репозитории — модель конфигурации small на 79.54M параметров. Детали и гиперпараметры:
- 10 000 итераций обучения, валидация раз в 1000 итераций
- Длина контекста — 128, размер батча — 16
- Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0
- n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048
- Позиционный эмбеддинг — RoPE
Метрики качества
Значения лосс-функции:
- Обучение: min = 2.446, max = 7.063, final = 2.520
- Валидация: min = 2.630, max = 4.078, final = 2.630
Примеры генерации
- Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель!
- Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить?
- Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое?
- Downloads last month
- 9
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support