--- license: apache-2.0 language: - ja pipeline_tag: text-generation tags: - casual-lm library_name: transformers --- 事前学習会の用のモデルです ## モデル パラメータ数は300M強 24レイヤー、1024隠し層、16ヘッド ## 学習データ オープンソースな日本語データセットを利用 ## トークナイザー Unigram, Metaspace データセットからトークナイザーを学習 ## 事前学習 GPT2系のデコーダから作成 DeepSpeed ZeRO-3 / CPUオフロード 1epochのみ