Описание задачи

ru-jokes-gpt-nano — трансформер, в котором:

  1. В качестве позиционных эмбеддингов используется ALiBi (+RoPE)
  2. Механизм внимания использует GQA
  3. В Feed-Forward блоке SwiGLU

Модель решает задачу авторегрессионного моделирования текста (Causal Language Modeling) на русском языке. Обучена на корпусе анекдотов IgorVolochay/russian_jokes и предназначена для генерации коротких юмористических историй. В качетсве функции потерь используется Cross-Entropy Loss

Цель: Создать компактную трансформерную модель, способную по короткому началу (например, «Заходит в бар…») продолжить текст так, чтобы получился (желательно) связный, (в идеале) синтаксически корректный и осмысленный хотя бы смешной анекдот.

Репорт качества

ALiBi:

image

Final validation loss: 3.4900

RoPE:

image

Final validation loss: 3.4552

Примеры генерации

ALiBi:

Prompt: Заходит в бар

Generated: Заходит в барбарах - второй:- Васился, у меня сбрать, что я пять, и тогда я пяться.

Prompt: Штирлиц пришел домой

Generated: Штирлиц пришел домой, как пришло на дедельном беременски история.

Prompt: Вовочка говорит учительнице:

Generated: Вовочка говорит учительнице: - Что ты мне ничего не хочешь? - Однажды, диски идира! - Мужик, поймаешь? - Скажи, у меня в ресть? - Дорогая, что ты всякий день и не знать, сейчас, и сейчас играет на врачу! - Ну, я вечер? - Слушай,

RoPE:

Prompt: Заходит в бар

Generated: Заходит в бармене, говорит:- Алло, я не плохо! Сейчас сынок, я хочу не дочь в маршрутка!- По-то ты мне сейчас!

Prompt: Штирлиц пришел домой

Generated: Штирлиц пришел домой и спрашивает:- Папа, у нас куда же с немножий сынок?

Prompt: Вовочка говорит учительнице:

Generated: Вовочка говорит учительнице: — Куда же ты дорогая! — Да, ты что ты не знаешь.

Downloads last month
4
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train regorkaz/llm-course-hw1