llm-course-hw1 / README.md
NotHotTryHard's picture
Update README.md
8fd8453 verified
# Transformer для генерации русских анекдотов
## Описание задачи
Эта модель обучена на большом наборе русских анекдотов. Архитектура модели основана на трансформере с конфигурацией `mini` и использует:
- **Attention with Linear Biases (ALiBi)** для позиционного кодирования.
Дополнительно была реализована модификация модели с использованиием:
- **Multi-Headed Linear Attention (MHLA)** для эффективного вычисления внимания,
- **Rotary Positional Embedding (RoPE)** для позиционного кодирования.
Модель предназначена для генерации коротких юмористических текстов в стиле анекдотов.
## Репорт качества
- **Метрики обучения:**
- Обучающий loss: *3.898*
- Валидационный loss: *3.989*
- **График обучения:**
![График обучения](loss_curve.png)
- **Анализ:**
Модель демонстрирует стабильное снижение loss, однако примитивная архитектура модели не позволяет генерировать доконца осознанные фразы.
## Примеры генерации
**Промт:** "Заходит в бар улитка"
**Генерация:** "Заходит в бар улитка и говорит: - Доктор. - Мужик."
**Промт:** "Штирлиц пришел домой"
**Генерация:** "Штирлиц пришел домой, что сегодня сченню. Штирлиц, неопрятный, и говорит: - Подайте...? "
This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
- Library: [More Information Needed]