Update README.md

8fd8453 verified about 1 year ago

2.17 kB

	# Transformer для генерации русских анекдотов

	## Описание задачи
	Эта модель обучена на большом наборе русских анекдотов. Архитектура модели основана на трансформере с конфигурацией `mini` и использует:
	- Attention with Linear Biases (ALiBi) для позиционного кодирования.

	Дополнительно была реализована модификация модели с использованиием:
	- Multi-Headed Linear Attention (MHLA) для эффективного вычисления внимания,
	- Rotary Positional Embedding (RoPE) для позиционного кодирования.

	Модель предназначена для генерации коротких юмористических текстов в стиле анекдотов.

	## Репорт качества
	- Метрики обучения:
	- Обучающий loss: 3.898
	- Валидационный loss: 3.989
	- График обучения:
	![График обучения](loss_curve.png)
	- Анализ:
	Модель демонстрирует стабильное снижение loss, однако примитивная архитектура модели не позволяет генерировать доконца осознанные фразы.

	## Примеры генерации
	Промт: "Заходит в бар улитка"
	Генерация: "Заходит в бар улитка и говорит: - Доктор. - Мужик."

	Промт: "Штирлиц пришел домой"
	Генерация: "Штирлиц пришел домой, что сегодня сченню. Штирлиц, неопрятный, и говорит: - Подайте...? "

	This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
	- Library: [More Information Needed]

	# Transformer для генерации русских анекдотов

	## Описание задачи
	Эта модель обучена на большом наборе русских анекдотов. Архитектура модели основана на трансформере с конфигурацией `mini` и использует:
	- Attention with Linear Biases (ALiBi) для позиционного кодирования.

	Дополнительно была реализована модификация модели с использованиием:
	- Multi-Headed Linear Attention (MHLA) для эффективного вычисления внимания,
	- Rotary Positional Embedding (RoPE) для позиционного кодирования.

	Модель предназначена для генерации коротких юмористических текстов в стиле анекдотов.

	## Репорт качества
	- Метрики обучения:
	- Обучающий loss: 3.898
	- Валидационный loss: 3.989
	- График обучения:
	![График обучения](loss_curve.png)
	- Анализ:
	Модель демонстрирует стабильное снижение loss, однако примитивная архитектура модели не позволяет генерировать доконца осознанные фразы.

	## Примеры генерации
	Промт: "Заходит в бар улитка"
	Генерация: "Заходит в бар улитка и говорит: - Доктор. - Мужик."

	Промт: "Штирлиц пришел домой"
	Генерация: "Штирлиц пришел домой, что сегодня сченню. Штирлиц, неопрятный, и говорит: - Подайте...? "

	This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
	- Library: [More Information Needed]