mamba2-micro-test2 / README.md
kurogane's picture
Update README.md
9488890 verified
metadata
license: apache-2.0
pipeline_tag: text-generation
language:
  - ja
datasets:
  - hotchpotch/fineweb-2-edu-japanese
tags:
  - Mamba-2

概要

Mamba2アーキテクチャのモデルです。 context sizeは512です。

dataset

hotchpotch/fineweb-2-edu-japaneseの1%のデータで10 epochs回しました。

tokenizer

Rakuten/RakutenAI-2.0-mini-instructを使用しました。 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」