--- datasets: - IgorVolochay/russian_jokes tags: - model_hub_mixin - pytorch_model_hub_mixin --- # VK LLM Course. Задание #1. Генерация анекдотов Модель-трансформер, генерирующая русскоязычные анекдоты: * Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes) * Токенизатор: Byte-level BPE со словарём размера 1024 * Позиционный эмбеддинг: RoPE или ALiBi * Механизм внимания: GQA * Функция активации: SwiGLU * Нормализация: RMSNorm * Лосс-функция: кросс-энтропия ## Модель Актуальная версия в репозитории — модель конфигурации `small` на 79.54M параметров. Детали и гиперпараметры: * 10 000 итераций обучения, валидация раз в 1000 итераций * Длина контекста — 128, размер батча — 16 * Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0 * n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048 * Позиционный эмбеддинг — RoPE ## Метрики качества Значения лосс-функции: * Обучение: min = 2.446, max = 7.063, final = 2.520 * Валидация: min = 2.630, max = 4.078, final = 2.630 ## Примеры генерации * Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель! * Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить? * Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое?