| license: apache-2.0 | |
| pipeline_tag: text-generation | |
| language: | |
| - ja | |
| datasets: | |
| - hotchpotch/fineweb-2-edu-japanese | |
| tags: | |
| - Mamba-2 | |
| ## 概要 | |
| Mamba2アーキテクチャのモデルです。 | |
| context sizeは512です。 | |
| ## dataset | |
| [hotchpotch/fineweb-2-edu-japanese](huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese)の1%のデータで10 epochs回しました。 | |
| ## tokenizer | |
| [Rakuten/RakutenAI-2.0-mini-instruct](Rakuten/RakutenAI-2.0-mini-instruct)を使用しました。 | |
| 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」 | |