vel_17M
Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.
Характеристики
- Параметры: ~17M
- Архитектура: Transformer с RMSNorm, RoPE, SwiGLU
- Контекст: 512 токенов
- Словарь: GPT-2 tokenizer (50,257 токенов)
- Обучение: Supervised Fine-Tuning
Использование
С помощью load_model.py
from load_model import load_model, generate
model, tokenizer, device = load_model()
text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
print(text)
Прямая загрузка (после публикации)
import torch
from transformers import GPT2Tokenizer
from safetensors.torch import load_file
# Загрузите модель
state_dict = load_file("model.safetensors")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
# и загрузите state_dict
Архитектура
- RMSNorm: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
- RoPE: Rotary Position Embeddings для лучшей экстраполяции длины
- SwiGLU: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
- Multi-Head Attention: Стандартная causal attention
Обучение
Модель обучена методом Supervised Fine-Tuning на инструкциях.
Подробности обучения см. в training/README.md
Параметры генерации
temperature(0.1-2.0): Контроль случайностиtop_p(0.0-1.0): Nucleus samplingmax_new_tokens: Максимальное количество токенов
Требования
- Python 3.8+
- PyTorch 2.1.0+
- transformers >= 4.30.0
- safetensors
Лицензия
MIT License
Ссылки
- GitHub: Levos06/vel_17M
- Архитектура: Вдохновлена DeepSeek и LLaMA
- Downloads last month
- 14