vel_17M / README.md
levos06's picture
Upload model files
42e6c3e verified
---
license: mit
tags:
- transformer
- text-generation
- deepseek
- rmsnorm
- rope
- swiglu
- pytorch
---
# vel_17M
Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.
## Характеристики
- **Параметры**: ~17M
- **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
- **Контекст**: 512 токенов
- **Словарь**: GPT-2 tokenizer (50,257 токенов)
- **Обучение**: Supervised Fine-Tuning
## Использование
### С помощью load_model.py
```python
from load_model import load_model, generate
model, tokenizer, device = load_model()
text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
print(text)
```
### Прямая загрузка (после публикации)
```python
import torch
from transformers import GPT2Tokenizer
from safetensors.torch import load_file
# Загрузите модель
state_dict = load_file("model.safetensors")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
# и загрузите state_dict
```
## Архитектура
- **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
- **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины
- **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
- **Multi-Head Attention**: Стандартная causal attention
## Обучение
Модель обучена методом Supervised Fine-Tuning на инструкциях.
Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)
## Параметры генерации
- `temperature` (0.1-2.0): Контроль случайности
- `top_p` (0.0-1.0): Nucleus sampling
- `max_new_tokens`: Максимальное количество токенов
## Требования
- Python 3.8+
- PyTorch 2.1.0+
- transformers >= 4.30.0
- safetensors
## Лицензия
MIT License
## Ссылки
- **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M)
- **Архитектура**: Вдохновлена DeepSeek и LLaMA