--- license: mit tags: - transformer - text-generation - deepseek - rmsnorm - rope - swiglu - pytorch --- # vel_17M Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста. ## Характеристики - **Параметры**: ~17M - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU - **Контекст**: 512 токенов - **Словарь**: GPT-2 tokenizer (50,257 токенов) - **Обучение**: Supervised Fine-Tuning ## Использование ### С помощью load_model.py ```python from load_model import load_model, generate model, tokenizer, device = load_model() text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100) print(text) ``` ### Прямая загрузка (после публикации) ```python import torch from transformers import GPT2Tokenizer from safetensors.torch import load_file # Загрузите модель state_dict = load_file("model.safetensors") tokenizer = GPT2Tokenizer.from_pretrained("gpt2") # Инициализируйте архитектуру (см. training/scripts/training/train_sft.py) # и загрузите state_dict ``` ## Архитектура - **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm) - **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины - **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2) - **Multi-Head Attention**: Стандартная causal attention ## Обучение Модель обучена методом Supervised Fine-Tuning на инструкциях. Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md) ## Параметры генерации - `temperature` (0.1-2.0): Контроль случайности - `top_p` (0.0-1.0): Nucleus sampling - `max_new_tokens`: Максимальное количество токенов ## Требования - Python 3.8+ - PyTorch 2.1.0+ - transformers >= 4.30.0 - safetensors ## Лицензия MIT License ## Ссылки - **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M) - **Архитектура**: Вдохновлена DeepSeek и LLaMA