vel_98M_RU-wiki
Decoder-only трансформер (~98M параметров), претренированный на русской Википедии.
- Архитектура: LLaMA-style (RoPE, RMSNorm, SwiGLU), 12 слоёв, 768 dim, 12 heads (4 KV), vocab 24k, max length 1024.
- Токенизатор: BPE 24k, обучен на ru Wikipedia (включён в репозиторий — папка
russian_bpe_tokenizer/). - Чекпоинты:
ckpt_10000_weights_only.pt— претренинг, только веса (рекомендуется для инференса, меньше размер).ckpt_10000.pt— претренинг с состоянием оптимизатора (для продолжения обучения).ft_ckpt_1000.pt— после дообучения.
Использование
Код и загрузка весов: GitHub — Levos06/vel_98M_RU-wiki.
Для инференса предпочтительно использовать ckpt_10000_weights_only.pt: тот же претрейн, без состояния оптимизатора, меньше размер и быстрее загрузка.
import torch
from transformers import AutoTokenizer
# Токенизатор (из этого репо или папка russian_bpe_tokenizer)
tokenizer = AutoTokenizer.from_pretrained("levos06/vel_98M_RU-wiki", subfolder="russian_bpe_tokenizer")
# Модель — загрузить state_dict в архитектуру из репозитория training/model.py
# Рекомендуется для инференса: ckpt_10000_weights_only.pt
ckpt = torch.load("ckpt_10000_weights_only.pt", map_location="cpu", weights_only=True)
model.load_state_dict(ckpt["model"], strict=True)
Данные
Претренинг: русская Википедия (parquet), токенизация своим BPE.
Лицензия
MIT.
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support