MikeHonkers
/

c00lest_LLM1337

Text Generation

Model card Files Files and versions

c00lest_LLM1337 / README.md

MikeHonkers's picture

Update README.md

be7d043 verified 9 months ago

|

history blame contribute delete

2.44 kB

	---
	license: mit
	datasets:
	- IgorVolochay/russian_jokes
	language:
	- ru
	pipeline_tag: text-generation
	---

	The model was developed as part of a DL course at HSE university. The task was to create a model capable of generating anecdotes in Russian. This involved writing a tokenizer and implementing Byte Pair Encoding (BPE), followed by building a custom Transformer model. The model incorporates SwiGLU activation functions, Grouped Query Attention for optimization, and ALiBI positional embeddings. It was then trained on a dataset of Russian anecdotes.

	Tokenizer consists of 2048 tokens. Model window is 256 tokens.

	The training resulted in a validation cross-entropy loss of 1.25


	Generated examples:

	1. nano:
	Американец, немец и русский, чего-то возл, если сделать самолете помнить сврезованной взвещает не помнишь, стояло у тебя в телесть порузчарка, а пойдет, нашее выходить убед в сыном доного в половил респалось?- Да вы все время, я пеpвого можно, упадай, как подает новостикамано, соверлив.Муж: конотдала добарков, провозд� стола с ставляются!
	2. mini:
	Американец, немец и русский, решил деньги на уши для чистить. Только вкусный смешный наркотик, спрашивает его:- Величий день.- Ну как?! А почему ты человеческий?
	3. small:
	Американские бомжит выставляете помогает сидят теща. Понимают, что у вас доказаться. Один пока немцы умные дешевают. - Серьезные, кому выпил.


	usage:
	Right now I suppose only snapshot_download from huggingface_hub works.
	After that:
	```python
	tokenizer = AutoTokenizer.from_pretrained(model_path)
	model = AutoModelForCausalLM.from_pretrained(model_path)
	inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
	with torch.no_grad():
	outputs = model.generate(**inputs)
	```
	Or you can just use .safetensors weights wherever you want.

	Small model metrics:

	![image.png](https://cdn-uploads.huggingface.co/production/uploads/64bf62764561d0aca2dadc90/p-WCWUIgt_WfTYqCX_bjg.png)