kurogane
/

mamba2-micro-test2

Text Generation

Model card Files Files and versions

Metrics Training metrics Community

Configuration Parsing Warning:Invalid JSON for config file config.json

概要

Mamba2アーキテクチャのモデルです。 context sizeは512です。

dataset

hotchpotch/fineweb-2-edu-japaneseの1%のデータで10 epochs回しました。

tokenizer

Rakuten/RakutenAI-2.0-mini-instructを使用しました。日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」

Downloads last month: 2

Safetensors

Model size

0.3B params

Tensor type

BF16

·

Dataset used to train kurogane/mamba2-micro-test2

Collection including kurogane/mamba2-micro-test2

pretrained models

6 items • Updated Mar 15