Zhaoming213
/

BackTo2012

Text Generation

text-generation-inference

Model card Files Files and versions

Zhaoming213 commited on 20 days ago

Commit

5ac4e56

·

verified ·

1 Parent(s): 4362eea

Update README.md

Files changed (1) hide show

README.md +9 -4

README.md CHANGED Viewed

@@ -7,7 +7,7 @@ tags:
 - text-generation-inference
 ---
 # BackTo2012
-这是一个仅用2012年的数据从头预训练的一个小模型，模型的知识截止日期是2012年，这意味着模型可以模仿早期互联网风格的内容用了怀旧！
 ## 简介
 这是基于Github Minimind项目训练的模型！
@@ -23,17 +23,22 @@ tags:
 | 序列长度 | 512 |
 ## 1.训练平台
-GPUP：100 16GB
 训练时长：大约10小时
 ## 2.使用指南
 *   你需要下载这个项目文件（https://github.com/jingyaogong/minimind。），然后把模型文件（pretrain_512.pth）放进out目录里，然后运行eval_llm.py这个文件来启用模型。
 *   需要修改的地方：
 parser.add_argument('--weight', default='pretrain', type=str, help="权重名称前缀（pretrain, full_sft, rlhf, reason, ppo_actor, grpo, spo）")
 parser.add_argument('--hidden_size', default=512, type=int, help="隐藏层维度（512=Small-26M, 640=MoE-145M, 768=Base-104M）")
-parser.add_argument('--num_hidden_layers', default=8, type=int, help="隐藏层数量（Small/MoE=8, Base=16）")
-## 3.输出案例
 💬: 微软决定
 🤖: 在国际上销售Windows 7.1。

 - text-generation-inference
 ---
 # BackTo2012
+这是一个仅用2012年的数据从头预训练的一个小模型，模型的知识截止日期是2012年，这意味着模型可以模仿早期互联网风格的内容用来怀旧！
 ## 简介
 这是基于Github Minimind项目训练的模型！
 | 序列长度 | 512 |
 ## 1.训练平台
+GPU：100 16GB
 训练时长：大约10小时
+数据集：差不多2GB
 ## 2.使用指南
 *   你需要下载这个项目文件（https://github.com/jingyaogong/minimind。），然后把模型文件（pretrain_512.pth）放进out目录里，然后运行eval_llm.py这个文件来启用模型。
 *   需要修改的地方：
 parser.add_argument('--weight', default='pretrain', type=str, help="权重名称前缀（pretrain, full_sft, rlhf, reason, ppo_actor, grpo, spo）")
 parser.add_argument('--hidden_size', default=512, type=int, help="隐藏层维度（512=Small-26M, 640=MoE-145M, 768=Base-104M）")
+parser.add_argument('--num_hidden_layers', default=8, type=int, help="隐藏层数量（Small/MoE=8, Base=16）")
+## 3.未来计划
+目前这个模型还是一个预训练模型，后续也许会训练出sft模型发布。
+但是我目前在使用更大的数据集预训练更大参数的模型。
+## 3.输出示例
 💬: 微软决定
 🤖: 在国际上销售Windows 7.1。