mamba2-micro-test2 / README.md
kurogane's picture
Update README.md
9488890 verified
---
license: apache-2.0
pipeline_tag: text-generation
language:
- ja
datasets:
- hotchpotch/fineweb-2-edu-japanese
tags:
- Mamba-2
---
## 概要
Mamba2アーキテクチャのモデルです。
context sizeは512です。
## dataset
[hotchpotch/fineweb-2-edu-japanese](huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese)の1%のデータで10 epochs回しました。
## tokenizer
[Rakuten/RakutenAI-2.0-mini-instruct](Rakuten/RakutenAI-2.0-mini-instruct)を使用しました。
日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」