Transformer для генерации русских анекдотов
Описание задачи
Эта модель обучена на большом наборе русских анекдотов. Архитектура модели основана на трансформере с конфигурацией mini и использует:
- Attention with Linear Biases (ALiBi) для позиционного кодирования.
Дополнительно была реализована модификация модели с использованиием:
- Multi-Headed Linear Attention (MHLA) для эффективного вычисления внимания,
- Rotary Positional Embedding (RoPE) для позиционного кодирования.
Модель предназначена для генерации коротких юмористических текстов в стиле анекдотов.
Репорт качества
- Метрики обучения:
- Обучающий loss: 3.898
- Валидационный loss: 3.989
- График обучения:

- Анализ:
Модель демонстрирует стабильное снижение loss, однако примитивная архитектура модели не позволяет генерировать доконца осознанные фразы.
Примеры генерации
Промт: "Заходит в бар улитка"
Генерация: "Заходит в бар улитка и говорит: - Доктор. - Мужик."
Промт: "Штирлиц пришел домой"
Генерация: "Штирлиц пришел домой, что сегодня сченню. Штирлиц, неопрятный, и говорит: - Подайте...? "
This model has been pushed to the Hub using the PytorchModelHubMixin integration:
- Library: [More Information Needed]