vel_98M_RU-wiki

Decoder-only трансформер (~98M параметров), претренированный на русской Википедии.

Архитектура: LLaMA-style (RoPE, RMSNorm, SwiGLU), 12 слоёв, 768 dim, 12 heads (4 KV), vocab 24k, max length 1024.
Токенизатор: BPE 24k, обучен на ru Wikipedia (включён в репозиторий — папка russian_bpe_tokenizer/).
Чекпоинты:
- ckpt_10000_weights_only.pt — претренинг, только веса (рекомендуется для инференса, меньше размер).
- ckpt_10000.pt — претренинг с состоянием оптимизатора (для продолжения обучения).
- ft_ckpt_1000.pt — после дообучения.

Использование

Код и загрузка весов: GitHub — Levos06/vel_98M_RU-wiki.

Для инференса предпочтительно использовать ckpt_10000_weights_only.pt: тот же претрейн, без состояния оптимизатора, меньше размер и быстрее загрузка.

import torch
from transformers import AutoTokenizer

# Токенизатор (из этого репо или папка russian_bpe_tokenizer)
tokenizer = AutoTokenizer.from_pretrained("levos06/vel_98M_RU-wiki", subfolder="russian_bpe_tokenizer")

# Модель — загрузить state_dict в архитектуру из репозитория training/model.py
# Рекомендуется для инференса: ckpt_10000_weights_only.pt
ckpt = torch.load("ckpt_10000_weights_only.pt", map_location="cpu", weights_only=True)
model.load_state_dict(ckpt["model"], strict=True)

Данные

Претренинг: русская Википедия (parquet), токенизация своим BPE.

Лицензия

MIT.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support