Update README.md
Browse files
README.md
CHANGED
|
@@ -15,6 +15,8 @@ language:
|
|
| 15 |
|
| 16 |
ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
|
| 17 |
|
|
|
|
|
|
|
| 18 |
## 训练细节
|
| 19 |
|
| 20 |
- **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。
|
|
|
|
| 15 |
|
| 16 |
ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
|
| 17 |
|
| 18 |
+
训练代码地址:https://github.com/enze5088/ChineseModernBert
|
| 19 |
+
|
| 20 |
## 训练细节
|
| 21 |
|
| 22 |
- **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。
|