vel_17M / README.md

levos06

Upload model files

42e6c3e verified 10 days ago

preview code

raw

history blame contribute delete

2.4 kB

metadata

license: mit
tags:
  - transformer
  - text-generation
  - deepseek
  - rmsnorm
  - rope
  - swiglu
  - pytorch

vel_17M

Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.

Характеристики

Параметры: ~17M
Архитектура: Transformer с RMSNorm, RoPE, SwiGLU
Контекст: 512 токенов
Словарь: GPT-2 tokenizer (50,257 токенов)
Обучение: Supervised Fine-Tuning

Использование

С помощью load_model.py

from load_model import load_model, generate

model, tokenizer, device = load_model()
text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
print(text)

Прямая загрузка (после публикации)

import torch
from transformers import GPT2Tokenizer
from safetensors.torch import load_file

# Загрузите модель
state_dict = load_file("model.safetensors")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
# и загрузите state_dict

Архитектура

RMSNorm: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
RoPE: Rotary Position Embeddings для лучшей экстраполяции длины
SwiGLU: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
Multi-Head Attention: Стандартная causal attention

Обучение

Модель обучена методом Supervised Fine-Tuning на инструкциях.

Подробности обучения см. в training/README.md

Параметры генерации

temperature (0.1-2.0): Контроль случайности
top_p (0.0-1.0): Nucleus sampling
max_new_tokens: Максимальное количество токенов

Требования

Python 3.8+
PyTorch 2.1.0+
transformers >= 4.30.0
safetensors

Лицензия

MIT License

Ссылки

GitHub: Levos06/vel_17M
Архитектура: Вдохновлена DeepSeek и LLaMA