Description:
Task:
Train a transformer on a dataset with russian anecdotes.
Steps:
- BPE Tokenization (bytewise merge of most frequent pairs, 1024 resulting tokens)
- Transformer (ALIBI positional encoding, GQA attention mechanism, SWIGLU as FFN block, topk implemented)
- Train in one of the possible configurations (small config was chosen with parameters: n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048)
- Check results with experiments
Report:
- Model is okay (train loss: 3.6, val loss: 3.5), but definitely not a native speaker :)
- Model has learnt to prioritise certain words (for example, вчера), which is not good.
Generation examples (only the more or less good ones are chosen):
- Жена сказала, что у тебя на работе, когда я не могу понять, что я не могу.
- Штирлиц упал на палату в бар. Один другой спрашивает: "Ну не знаете, что у меня нет!".
- Медведь, вдруг, встречает на ухе. Она:- Дорогая, я тебе любимый!
- Сексордота - это когда ты снишься, когда я тебя не хочу, но не могу сдти сразу.
- Учитель спрашивает мальчика:- Дайте мне, у вас весь есть у тебя такое вечером магазино?- Да нет, я сын, я сегодня ушел!
- Downloads last month
- 1
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support