mirralz
/

Llmka

Model card Files Files and versions

Llmka / README.md

mirralz's picture

Update README.md

4170988 verified 9 months ago

|

history blame contribute delete

1.49 kB

	---
	tags:
	- casual-lm
	- russian
	- transformers
	- jokes
	license: mit
	language:
	- ru
	---

	# 🤡 Русская LLM-модель для генерации анекдотов

	Модель обучена с нуля на архитектуре Transformer (small, 12 слоёв, 12 голов, 768 hidden) на корпусе русских анекдотов.

	## 📐 Архитектура

	- 12 слоёв, 12 attention-голов
	- 768 скрытых признаков, 2048 в FFN
	- RMSNorm + SwiGLU
	- ALiBi positional bias
	- Byte-level BPE токенизация

	## 📚 Датасет

	Датасет: [IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)
	Модель обучалась на русскоязычном корпусе анекдотов.
	Примеры:

	- Штирлиц заходит в бар...
	- Мужик приходит к доктору...
	- Вовочка отвечает на уроке...

	## 🧠 Обучение

	- Всего шагов: 50,000
	- Оптимизатор: AdamW, learning rate: `3e-4`
	- Потери:
	- training loss: ~2.5
	- validation loss: ~2.6

	## 🧪 Примеры генерации

	```python
	prompts = ["Штирлиц", "Мужик", "Доктор", "Студентка", "Вовочка"]
	for prompt in prompts:
	input_ids = tokenizer(prompt, return_tensors="pt").input_ids
	output = model.generate(input_ids, max_new_tokens=100)
	print(tokenizer.decode(output[0]))