|
|
--- |
|
|
license: mit |
|
|
tags: |
|
|
- transformer |
|
|
- text-generation |
|
|
- deepseek |
|
|
- rmsnorm |
|
|
- rope |
|
|
- swiglu |
|
|
- pytorch |
|
|
--- |
|
|
|
|
|
# vel_17M |
|
|
|
|
|
Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста. |
|
|
|
|
|
## Характеристики |
|
|
|
|
|
- **Параметры**: ~17M |
|
|
- **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU |
|
|
- **Контекст**: 512 токенов |
|
|
- **Словарь**: GPT-2 tokenizer (50,257 токенов) |
|
|
- **Обучение**: Supervised Fine-Tuning |
|
|
|
|
|
## Использование |
|
|
|
|
|
### С помощью load_model.py |
|
|
|
|
|
```python |
|
|
from load_model import load_model, generate |
|
|
|
|
|
model, tokenizer, device = load_model() |
|
|
text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100) |
|
|
print(text) |
|
|
``` |
|
|
|
|
|
### Прямая загрузка (после публикации) |
|
|
|
|
|
```python |
|
|
import torch |
|
|
from transformers import GPT2Tokenizer |
|
|
from safetensors.torch import load_file |
|
|
|
|
|
# Загрузите модель |
|
|
state_dict = load_file("model.safetensors") |
|
|
tokenizer = GPT2Tokenizer.from_pretrained("gpt2") |
|
|
|
|
|
# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py) |
|
|
# и загрузите state_dict |
|
|
``` |
|
|
|
|
|
## Архитектура |
|
|
|
|
|
- **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm) |
|
|
- **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины |
|
|
- **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2) |
|
|
- **Multi-Head Attention**: Стандартная causal attention |
|
|
|
|
|
## Обучение |
|
|
|
|
|
Модель обучена методом Supervised Fine-Tuning на инструкциях. |
|
|
|
|
|
Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md) |
|
|
|
|
|
## Параметры генерации |
|
|
|
|
|
- `temperature` (0.1-2.0): Контроль случайности |
|
|
- `top_p` (0.0-1.0): Nucleus sampling |
|
|
- `max_new_tokens`: Максимальное количество токенов |
|
|
|
|
|
## Требования |
|
|
|
|
|
- Python 3.8+ |
|
|
- PyTorch 2.1.0+ |
|
|
- transformers >= 4.30.0 |
|
|
- safetensors |
|
|
|
|
|
## Лицензия |
|
|
|
|
|
MIT License |
|
|
|
|
|
## Ссылки |
|
|
|
|
|
- **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M) |
|
|
- **Архитектура**: Вдохновлена DeepSeek и LLaMA |
|
|
|