Russian Jokes Causal LM

Небольшая causal language model для генерации коротких русских анекдотов.
Модель обучалась в рамках домашнего задания по LLM на датасете IgorVolochay/russian_jokes.

Model description

Финальная версия модели — small-конфиг decoder-only Transformer.

Основные параметры:

Параметр Значение
n_layer 12
n_head 12
n_kv_head 6
hidden_dim 768
intermediate_dim 2048
vocab_size 1024
max_seq_len 128
parameters 79.45M

В модели используются RMSNorm, Grouped-Query Attention, ALiBi positional bias и SwiGLU feed-forward block.

Training data

Модель обучалась на датасете русских анекдотов IgorVolochay/russian_jokes.

Для токенизации использовался byte-level BPE токенизатор со словарем на 1024 токена.
Данные были разделены на train/test в пропорции 90/10.

Result

Validation loss финальной small-модели: 2.462.

По генерациям модель уже улавливает форму анекдота: короткие заходы, диалоги, типичных персонажей и общий стиль датасета. При этом она не всегда сохраняет смысл до конца, поэтому качество скорее на уровне “похоже на анекдот”, чем “стабильно смешной анекдот”.

Examples

Prompt

Заходит в бар

Generated text

Заходит в бар мужик в бар и видит, что на барабане лежит пиво.  - Слышь, баран, а как же я тебе это сделаю?  - А что же ты говоришь, дорогая?  - Да, этот месяц назад я вчера встретила его с друзьями в баре.  - А ты что, дура?  - Нет, дорогой, это я не пьяная.  - А я, наверное, не пьяная, этот барабанщик!

Prompt

Штирлиц пришел домой

Generated text

Штирлиц пришел домой и увидел, как на ней женился. Видит - стоит маленький мальчик и говорит:- Папа, а ты знаешь, что такое квартира, когда у меня есть дети?- А ты что, малыш?- Да, папа! Я сейчас на работу вижу, что ты маленький, а ты мне говоришь: "Вот и в кого ты дура!".

Prompt

Однажды Вовочка

Generated text

Однажды Вовочка с сыном в школе в детском саду садилась на кровати. Сын спрашивает:- Папа, а почему у тебя такие большие глаза?- Потому что у меня есть мама.- И что ты делаешь?- А у меня мать сына на ушах!

Limitations

Модель маленькая и обучалась в учебных условиях, поэтому она часто хорошо воспроизводит стиль и структуру анекдотов, но не всегда строит логичную концовку. Основные проблемы — слабый панчлайн, повторы и потеря связности в более длинных генерациях.

Downloads last month
29
Safetensors
Model size
79.6M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train paroschina/llm-course-hw1