license: apache-2.0 language: - ja pipeline_tag: text-generation tags: - casual-lm library_name: transformers
事前学習会の用のモデルです
パラメータ数は300M強24レイヤー、1024隠し層、16ヘッド
オープンソースな日本語データセットを利用
Unigram, Metaspaceデータセットからトークナイザーを学習
GPT2系のデコーダから作成DeepSpeed ZeRO-3 / CPUオフロード1epochのみ