介绍(backto2012大参数版模型)
和: https://huggingface.co/Zhaoming213/BackTo2012 一致。
由于训练周期太长了,仅仅训练了6%,故放弃训练了!
模型的checkpoints保存在了minimind-master/checkpoints里了,有想继续训练的可以下载。
训练架构是:https://github.com/jingyaogong/minimind
模型参数
| 模型信息 | 数值 |
|---|---|
| 维度 | 768 |
| 隐藏层 | 16 |
| 序列长度 | 512 |
1.训练平台
GPU:T4 16GB X2
训练时长: 20小时+
数据集:差不多7GB