Описание задачи
ru-jokes-gpt-nano — трансформер, в котором:
- В качестве позиционных эмбеддингов используется ALiBi (+RoPE)
- Механизм внимания использует GQA
- В Feed-Forward блоке SwiGLU
Модель решает задачу авторегрессионного моделирования текста (Causal Language Modeling) на русском языке. Обучена на корпусе анекдотов IgorVolochay/russian_jokes и предназначена для генерации коротких юмористических историй. В качетсве функции потерь используется Cross-Entropy Loss
Цель:
Создать компактную трансформерную модель, способную по короткому началу (например, «Заходит в бар…») продолжить текст так, чтобы получился (желательно) связный, (в идеале) синтаксически корректный и осмысленный хотя бы смешной анекдот.
Репорт качества
ALiBi:
Final validation loss: 3.4900
RoPE:
Final validation loss: 3.4552
Примеры генерации
ALiBi:
Prompt: Заходит в бар
Generated: Заходит в барбарах - второй:- Васился, у меня сбрать, что я пять, и тогда я пяться.
Prompt: Штирлиц пришел домой
Generated: Штирлиц пришел домой, как пришло на дедельном беременски история.
Prompt: Вовочка говорит учительнице:
Generated: Вовочка говорит учительнице: - Что ты мне ничего не хочешь? - Однажды, диски идира! - Мужик, поймаешь? - Скажи, у меня в ресть? - Дорогая, что ты всякий день и не знать, сейчас, и сейчас играет на врачу! - Ну, я вечер? - Слушай,
RoPE:
Prompt: Заходит в бар
Generated: Заходит в бармене, говорит:- Алло, я не плохо! Сейчас сынок, я хочу не дочь в маршрутка!- По-то ты мне сейчас!
Prompt: Штирлиц пришел домой
Generated: Штирлиц пришел домой и спрашивает:- Папа, у нас куда же с немножий сынок?
Prompt: Вовочка говорит учительнице:
Generated: Вовочка говорит учительнице: — Куда же ты дорогая! — Да, ты что ты не знаешь.
- Downloads last month
- 4

