| --- |
| license: mit |
| tags: |
| - transformer |
| - text-generation |
| - deepseek |
| - rmsnorm |
| - rope |
| - swiglu |
| - pytorch |
| --- |
| |
| # vel_17M |
| |
| Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста. |
| |
| ## Характеристики |
| |
| - **Параметры**: ~17M |
| - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU |
| - **Контекст**: 512 токенов |
| - **Словарь**: GPT-2 tokenizer (50,257 токенов) |
| - **Обучение**: Supervised Fine-Tuning |
| |
| ## Использование |
| |
| ### С помощью load_model.py |
|
|
| ```python |
| from load_model import load_model, generate |
| |
| model, tokenizer, device = load_model() |
| text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100) |
| print(text) |
| ``` |
|
|
| ### Прямая загрузка (после публикации) |
|
|
| ```python |
| import torch |
| from transformers import GPT2Tokenizer |
| from safetensors.torch import load_file |
| |
| # Загрузите модель |
| state_dict = load_file("model.safetensors") |
| tokenizer = GPT2Tokenizer.from_pretrained("gpt2") |
| |
| # Инициализируйте архитектуру (см. training/scripts/training/train_sft.py) |
| # и загрузите state_dict |
| ``` |
|
|
| ## Архитектура |
|
|
| - **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm) |
| - **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины |
| - **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2) |
| - **Multi-Head Attention**: Стандартная causal attention |
|
|
| ## Обучение |
|
|
| Модель обучена методом Supervised Fine-Tuning на инструкциях. |
|
|
| Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md) |
|
|
| ## Параметры генерации |
|
|
| - `temperature` (0.1-2.0): Контроль случайности |
| - `top_p` (0.0-1.0): Nucleus sampling |
| - `max_new_tokens`: Максимальное количество токенов |
|
|
| ## Требования |
|
|
| - Python 3.8+ |
| - PyTorch 2.1.0+ |
| - transformers >= 4.30.0 |
| - safetensors |
|
|
| ## Лицензия |
|
|
| MIT License |
|
|
| ## Ссылки |
|
|
| - **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M) |
| - **Архитектура**: Вдохновлена DeepSeek и LLaMA |
|
|