File size: 538 Bytes
4bab911 25afc69 7943374 a08772c 033ec72 a08772c 033ec72 a08772c 033ec72 25afc69 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | ---
license: apache-2.0
language:
- ja
pipeline_tag: text-generation
tags:
- casual-lm
library_name: transformers
---
事前学習会の用のモデルです
## モデル
パラメータ数は300M強
24レイヤー、1024隠し層、16ヘッド
## 学習データ
オープンソースな日本語データセットを利用
## トークナイザー
Unigram, Metaspace
データセットからトークナイザーを学習
## 事前学習
GPT2系のデコーダから作成
DeepSpeed ZeRO-3 / CPUオフロード
1epochのみ |