levos06
/

vel_17M

Text Generation

Model card Files Files and versions

vel_17M / README.md

levos06's picture

Upload model files

42e6c3e verified 10 days ago

|

history blame contribute delete

2.4 kB

	---
	license: mit
	tags:
	- transformer
	- text-generation
	- deepseek
	- rmsnorm
	- rope
	- swiglu
	- pytorch
	---

	# vel_17M

	Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.

	## Характеристики

	- Параметры: ~17M
	- Архитектура: Transformer с RMSNorm, RoPE, SwiGLU
	- Контекст: 512 токенов
	- Словарь: GPT-2 tokenizer (50,257 токенов)
	- Обучение: Supervised Fine-Tuning

	## Использование

	### С помощью load_model.py

	```python
	from load_model import load_model, generate

	model, tokenizer, device = load_model()
	text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
	print(text)
	```

	### Прямая загрузка (после публикации)

	```python
	import torch
	from transformers import GPT2Tokenizer
	from safetensors.torch import load_file

	# Загрузите модель
	state_dict = load_file("model.safetensors")
	tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

	# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
	# и загрузите state_dict
	```

	## Архитектура

	- RMSNorm: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
	- RoPE: Rotary Position Embeddings для лучшей экстраполяции длины
	- SwiGLU: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
	- Multi-Head Attention: Стандартная causal attention

	## Обучение

	Модель обучена методом Supervised Fine-Tuning на инструкциях.

	Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)

	## Параметры генерации

	- `temperature` (0.1-2.0): Контроль случайности
	- `top_p` (0.0-1.0): Nucleus sampling
	- `max_new_tokens`: Максимальное количество токенов

	## Требования

	- Python 3.8+
	- PyTorch 2.1.0+
	- transformers >= 4.30.0
	- safetensors

	## Лицензия

	MIT License

	## Ссылки

	- GitHub: [Levos06/vel_17M](https://github.com/Levos06/vel_17M)
	- Архитектура: Вдохновлена DeepSeek и LLaMA