GPTMoE (custom, Japanese)

自作の GPTMoE 実装(PyTorch)からエクスポートした事前学習言語モデルです。 Transformers の既製クラスでは読み込めないため、同一の GPTMoE 実装で重みをロードしてください。

ファイル

  • model.safetensors
  • config.json
  • tokenizer/ja_unigram32k_v15m.model
  • tokenizer/ja_unigram32k_v15m.vocab
  • tokenizer/tokenizer_config.json

使い方(最小)

import json
from safetensors.torch import load_file as load_safetensors
# from your_code.gptmoe import GPTMoE  # ← あなたの実装を import

with open("config.json", "r", encoding="utf-8") as f:
    cfg = json.load(f)
moe = cfg["moe"]
model = GPTMoE(
    cfg["vocab_size"], cfg["d_model"], cfg["n_heads"], cfg["n_layers"], cfg["ffn_mult"],
    dict(
        num_experts=moe["num_experts"], k=moe["top_k"],
        capacity_factor=moe["capacity_factor"], eval_capacity_factor=moe["eval_capacity_factor"],
        min_capacity=0, noisy_gate_policy=moe["noisy_gate_policy"], use_residual=moe["use_residual"],
    ),
).eval()
state = load_safetensors("model.safetensors")
model.load_state_dict(state, strict=True)

トークナイザー

import sentencepiece as spm
sp = spm.SentencePieceProcessor(model_file="tokenizer/ja_unigram32k_v15m.model")
ids = sp.encode("こんにちは", out_type=int)

注意

  • 素の言語モデル(事前学習のみ)です。指示追従は弱いので、few-shotや生成パラメータ(temperature / top-p / top-k / repetition penalty)の調整を推奨します。
Downloads last month
13
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train iori-ltn/jp-gptmoe

Evaluation results