| license: apache-2.0 | |
| language: | |
| - ja | |
| pipeline_tag: text-generation | |
| tags: | |
| - casual-lm | |
| library_name: transformers | |
| 事前学習会の用のモデルです | |
| ## モデル | |
| パラメータ数は300M強 | |
| 24レイヤー、1024隠し層、16ヘッド | |
| ## 学習データ | |
| オープンソースな日本語データセットを利用 | |
| ## トークナイザー | |
| Unigram, Metaspace | |
| データセットからトークナイザーを学習 | |
| ## 事前学習 | |
| GPT2系のデコーダから作成 | |
| DeepSpeed ZeRO-3 / CPUオフロード | |
| 1epochのみ |