llm-course-hw1 / README.md
NotHotTryHard's picture
Update README.md
8fd8453 verified

Transformer для генерации русских анекдотов

Описание задачи

Эта модель обучена на большом наборе русских анекдотов. Архитектура модели основана на трансформере с конфигурацией mini и использует:

  • Attention with Linear Biases (ALiBi) для позиционного кодирования.

Дополнительно была реализована модификация модели с использованиием:

  • Multi-Headed Linear Attention (MHLA) для эффективного вычисления внимания,
  • Rotary Positional Embedding (RoPE) для позиционного кодирования.

Модель предназначена для генерации коротких юмористических текстов в стиле анекдотов.

Репорт качества

  • Метрики обучения:
    • Обучающий loss: 3.898
    • Валидационный loss: 3.989
  • График обучения:
    График обучения
  • Анализ:
    Модель демонстрирует стабильное снижение loss, однако примитивная архитектура модели не позволяет генерировать доконца осознанные фразы.

Примеры генерации

Промт: "Заходит в бар улитка"
Генерация: "Заходит в бар улитка и говорит: - Доктор. - Мужик."

Промт: "Штирлиц пришел домой"
Генерация: "Штирлиц пришел домой, что сегодня сченню. Штирлиц, неопрятный, и говорит: - Подайте...? "

This model has been pushed to the Hub using the PytorchModelHubMixin integration:

  • Library: [More Information Needed]