beagle-pretrain-v1 / README.md

Update README.md

7943374 verified 4 months ago

538 Bytes

metadata

license: apache-2.0
language:
  - ja
pipeline_tag: text-generation
tags:
  - casual-lm
library_name: transformers

事前学習会の用のモデルです

モデル

パラメータ数は300M強
24レイヤー、1024隠し層、16ヘッド

学習データ

オープンソースな日本語データセットを利用

Unigram, Metaspace
データセットからトークナイザーを学習

GPT2系のデコーダから作成
DeepSpeed ZeRO-3 / CPUオフロード
1epochのみ