TurboPascal
/

ChineseModernBert

Model card Files Files and versions

TurboPascal commited on Feb 27, 2025

Commit

0914cfa

·

verified ·

1 Parent(s): c7e9223

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -15,6 +15,8 @@ language:
 ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中，选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本，涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域，这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
 ## 训练细节
 - **硬件配置**：笔者训练资源有限，本次训练使用了3\*8\*A100，预训练时间为58小时左右。

 ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中，选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本，涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域，这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
+训练代码地址：https://github.com/enze5088/ChineseModernBert
 ## 训练细节
 - **硬件配置**：笔者训练资源有限，本次训练使用了3\*8\*A100，预训练时间为58小时左右。