---
license: mit
tags:
- transformer
- text-generation
- deepseek
- rmsnorm
- rope
- swiglu
- pytorch
---

# vel_17M

Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.

## Характеристики

- **Параметры**: ~17M
- **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
- **Контекст**: 512 токенов
- **Словарь**: GPT-2 tokenizer (50,257 токенов)
- **Обучение**: Supervised Fine-Tuning

## Использование

### С помощью load_model.py

```python
from load_model import load_model, generate

model, tokenizer, device = load_model()
text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
print(text)
```

### Прямая загрузка (после публикации)

```python
import torch
from transformers import GPT2Tokenizer
from safetensors.torch import load_file

# Загрузите модель
state_dict = load_file("model.safetensors")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
# и загрузите state_dict
```

## Архитектура

- **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
- **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины
- **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
- **Multi-Head Attention**: Стандартная causal attention

## Обучение

Модель обучена методом Supervised Fine-Tuning на инструкциях.

Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)

## Параметры генерации

- `temperature` (0.1-2.0): Контроль случайности
- `top_p` (0.0-1.0): Nucleus sampling
- `max_new_tokens`: Максимальное количество токенов

## Требования

- Python 3.8+
- PyTorch 2.1.0+
- transformers >= 4.30.0
- safetensors

## Лицензия

MIT License

## Ссылки

- **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M)
- **Архитектура**: Вдохновлена DeepSeek и LLaMA