Description:

Task:

Train a transformer on a dataset with russian anecdotes.

Steps:

BPE Tokenization (bytewise merge of most frequent pairs, 1024 resulting tokens)
Transformer (ALIBI positional encoding, GQA attention mechanism, SWIGLU as FFN block, topk implemented)
Train in one of the possible configurations (small config was chosen with parameters: n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048)
Check results with experiments

Report:

Model is okay (train loss: 3.6, val loss: 3.5), but definitely not a native speaker :)
Model has learnt to prioritise certain words (for example, вчера), which is not good.

Generation examples (only the more or less good ones are chosen):

Жена сказала, что у тебя на работе, когда я не могу понять, что я не могу.
Штирлиц упал на палату в бар. Один другой спрашивает: "Ну не знаете, что у меня нет!".
Медведь, вдруг, встречает на ухе. Она:- Дорогая, я тебе любимый!
Сексордота - это когда ты снишься, когда я тебя не хочу, но не могу сдти сразу.
Учитель спрашивает мальчика:- Дайте мне, у вас весь есть у тебя такое вечером магазино?- Да нет, я сын, я сегодня ушел!

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

CTOHbl4
/

llm-course-hw1