pbedrin
/

llm-course-hw1

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions

llm-course-hw1 / README.md

pbedrin's picture

restore meta

0beb1c6 verified 10 months ago

|

history blame contribute delete

2.37 kB

	---
	datasets:
	- IgorVolochay/russian_jokes
	tags:
	- model_hub_mixin
	- pytorch_model_hub_mixin
	---
	# VK LLM Course. Задание #1. Генерация анекдотов

	Модель-трансформер, генерирующая русскоязычные анекдоты:
	* Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)
	* Токенизатор: Byte-level BPE со словарём размера 1024
	* Позиционный эмбеддинг: RoPE или ALiBi
	* Механизм внимания: GQA
	* Функция активации: SwiGLU
	* Нормализация: RMSNorm
	* Лосс-функция: кросс-энтропия

	## Модель
	Актуальная версия в репозитории — модель конфигурации `small` на 79.54M параметров. Детали и гиперпараметры:
	* 10 000 итераций обучения, валидация раз в 1000 итераций
	* Длина контекста — 128, размер батча — 16
	* Линейный планировщик learning rate с warmup в 10% от числа итераций и шагом в пике 3e-4, оптимизатор AdamW, weight_decay=0.01, clip_grad_norm=1.0
	* n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048
	* Позиционный эмбеддинг — RoPE

	## Метрики качества
	Значения лосс-функции:
	* Обучение: min = 2.446, max = 7.063, final = 2.520
	* Валидация: min = 2.630, max = 4.078, final = 2.630


	## Примеры генерации
	* Заходит в бар, а барабан говорит:- А ты знаешь, кто слишком даст тебе папой?- Конечно.- А это мама? Ну как, да? Мамаша, не приписывай ее в постель!
	* Заходит в бар. Героиня - пациент. - Ты где? - спрашивает табуретка. - А куда у тебя такие краны? - А как же там воняет? - А зачем тогда вы можете жить?
	* Заходит в бар с мамой в бар и говорит:- Дедушка Мороз! Я хочу быть мальчиком!- А почему у него в шкафу такое?