VK LLM Course. Задание #1. Генерация анекдотов

Модель-трансформер, генерирующая русскоязычные анекдоты:

  • Датасет: IgorVolochay/russian_jokes
  • Токенизатор: Byte-level BPE со словарём размера 1024
  • Позиционный эмбеддинг: RoPE или ALiBi
  • Механизм внимания: GQA
  • Функция активации: SwiGLU
  • Нормализация: RMSNorm
  • Лосс-функция: кросс-энтропия

Модель

Актуальная версия в репозитории — модель конфигурации small на 79.54M параметров. Детали и гиперпараметры:

  • 10 000 итераций обучения, валидация раз в 1000 итераций
  • Длина контекста — 128, размер батча — 16
  • Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0
  • n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048
  • Позиционный эмбеддинг — RoPE

Метрики качества

Значения лосс-функции:

  • Обучение: min = 2.446, max = 7.063, final = 2.520
  • Валидация: min = 2.630, max = 4.078, final = 2.630

Примеры генерации

  • Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель!
  • Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить?
  • Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое?
Downloads last month
9
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train pbedrin/llm-course-hw1