--- license: apache-2.0 pipeline_tag: text-generation language: - ja datasets: - hotchpotch/fineweb-2-edu-japanese tags: - Mamba-2 --- ## 概要 Mamba2アーキテクチャのモデルです。 context sizeは512です。 ## dataset [hotchpotch/fineweb-2-edu-japanese](huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese)の1%のデータで10 epochs回しました。 ## tokenizer [Rakuten/RakutenAI-2.0-mini-instruct](Rakuten/RakutenAI-2.0-mini-instruct)を使用しました。 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」