vel_17M / README.md
levos06's picture
Upload model files
42e6c3e verified
metadata
license: mit
tags:
  - transformer
  - text-generation
  - deepseek
  - rmsnorm
  - rope
  - swiglu
  - pytorch

vel_17M

Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.

Характеристики

  • Параметры: ~17M
  • Архитектура: Transformer с RMSNorm, RoPE, SwiGLU
  • Контекст: 512 токенов
  • Словарь: GPT-2 tokenizer (50,257 токенов)
  • Обучение: Supervised Fine-Tuning

Использование

С помощью load_model.py

from load_model import load_model, generate

model, tokenizer, device = load_model()
text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
print(text)

Прямая загрузка (после публикации)

import torch
from transformers import GPT2Tokenizer
from safetensors.torch import load_file

# Загрузите модель
state_dict = load_file("model.safetensors")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
# и загрузите state_dict

Архитектура

  • RMSNorm: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
  • RoPE: Rotary Position Embeddings для лучшей экстраполяции длины
  • SwiGLU: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
  • Multi-Head Attention: Стандартная causal attention

Обучение

Модель обучена методом Supervised Fine-Tuning на инструкциях.

Подробности обучения см. в training/README.md

Параметры генерации

  • temperature (0.1-2.0): Контроль случайности
  • top_p (0.0-1.0): Nucleus sampling
  • max_new_tokens: Максимальное количество токенов

Требования

  • Python 3.8+
  • PyTorch 2.1.0+
  • transformers >= 4.30.0
  • safetensors

Лицензия

MIT License

Ссылки

  • GitHub: Levos06/vel_17M
  • Архитектура: Вдохновлена DeepSeek и LLaMA