llm-course-hw1 / README.md
pbedrin's picture
restore meta
0beb1c6 verified
metadata
datasets:
  - IgorVolochay/russian_jokes
tags:
  - model_hub_mixin
  - pytorch_model_hub_mixin

VK LLM Course. Задание #1. Генерация анекдотов

Модель-трансформер, генерирующая русскоязычные анекдоты:

  • Датасет: IgorVolochay/russian_jokes
  • Токенизатор: Byte-level BPE со словарём размера 1024
  • Позиционный эмбеддинг: RoPE или ALiBi
  • Механизм внимания: GQA
  • Функция активации: SwiGLU
  • Нормализация: RMSNorm
  • Лосс-функция: кросс-энтропия

Модель

Актуальная версия в репозитории — модель конфигурации small на 79.54M параметров. Детали и гиперпараметры:

  • 10 000 итераций обучения, валидация раз в 1000 итераций
  • Длина контекста — 128, размер батча — 16
  • Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0
  • n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048
  • Позиционный эмбеддинг — RoPE

Метрики качества

Значения лосс-функции:

  • Обучение: min = 2.446, max = 7.063, final = 2.520
  • Валидация: min = 2.630, max = 4.078, final = 2.630

Примеры генерации

  • Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель!
  • Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить?
  • Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое?