File size: 538 Bytes
4bab911
 
 
 
25afc69
 
 
7943374
a08772c
 
 
 
 
033ec72
a08772c
 
 
 
 
 
033ec72
a08772c
 
 
033ec72
 
25afc69
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
---
license: apache-2.0
language:
- ja
pipeline_tag: text-generation
tags:
- casual-lm
library_name: transformers
---

事前学習会の用のモデルです

## モデル
パラメータ数は300M強  
24レイヤー、1024隠し層、16ヘッド

## 学習データ
オープンソースな日本語データセットを利用

## トークナイザー
Unigram, Metaspace  
データセットからトークナイザーを学習

## 事前学習
GPT2系のデコーダから作成  
DeepSpeed ZeRO-3 / CPUオフロード  
1epochのみ