Update README.md
Browse files
README.md
CHANGED
|
@@ -7,7 +7,7 @@ tags:
|
|
| 7 |
- text-generation-inference
|
| 8 |
---
|
| 9 |
# BackTo2012
|
| 10 |
-
这是一个仅用2012年的数据从头预训练的一个小模型,模型的知识截止日期是2012年,这意味着模型可以模仿早期互联网风格的内容用
|
| 11 |
|
| 12 |
## 简介
|
| 13 |
这是基于Github Minimind项目训练的模型!
|
|
@@ -23,17 +23,22 @@ tags:
|
|
| 23 |
| 序列长度 | 512 |
|
| 24 |
|
| 25 |
## 1.训练平台
|
| 26 |
-
|
| 27 |
训练时长:大约10小时
|
|
|
|
| 28 |
|
| 29 |
## 2.使用指南
|
| 30 |
* 你需要下载这个项目文件(https://github.com/jingyaogong/minimind。),然后把模型文件(pretrain_512.pth)放进out目录里,然后运行eval_llm.py这个文件来启用模型。
|
| 31 |
* 需要修改的地方:
|
| 32 |
parser.add_argument('--weight', default='pretrain', type=str, help="权重名称前缀(pretrain, full_sft, rlhf, reason, ppo_actor, grpo, spo)")
|
| 33 |
parser.add_argument('--hidden_size', default=512, type=int, help="隐藏层维度(512=Small-26M, 640=MoE-145M, 768=Base-104M)")
|
| 34 |
-
parser.add_argument('--num_hidden_layers', default=8, type=int, help="隐藏层数量(Small/MoE=8, Base=16)")
|
|
|
|
|
|
|
|
|
|
|
|
|
| 35 |
|
| 36 |
-
## 3.输出
|
| 37 |
|
| 38 |
💬: 微软决定
|
| 39 |
🤖: 在国际上销售Windows 7.1。
|
|
|
|
| 7 |
- text-generation-inference
|
| 8 |
---
|
| 9 |
# BackTo2012
|
| 10 |
+
这是一个仅用2012年的数据从头预训练的一个小模型,模型的知识截止日期是2012年,这意味着模型可以模仿早期互联网风格的内容用来怀旧!
|
| 11 |
|
| 12 |
## 简介
|
| 13 |
这是基于Github Minimind项目训练的模型!
|
|
|
|
| 23 |
| 序列长度 | 512 |
|
| 24 |
|
| 25 |
## 1.训练平台
|
| 26 |
+
GPU:100 16GB
|
| 27 |
训练时长:大约10小时
|
| 28 |
+
数据集:差不多2GB
|
| 29 |
|
| 30 |
## 2.使用指南
|
| 31 |
* 你需要下载这个项目文件(https://github.com/jingyaogong/minimind。),然后把模型文件(pretrain_512.pth)放进out目录里,然后运行eval_llm.py这个文件来启用模型。
|
| 32 |
* 需要修改的地方:
|
| 33 |
parser.add_argument('--weight', default='pretrain', type=str, help="权重名称前缀(pretrain, full_sft, rlhf, reason, ppo_actor, grpo, spo)")
|
| 34 |
parser.add_argument('--hidden_size', default=512, type=int, help="隐藏层维度(512=Small-26M, 640=MoE-145M, 768=Base-104M)")
|
| 35 |
+
parser.add_argument('--num_hidden_layers', default=8, type=int, help="隐藏层数量(Small/MoE=8, Base=16)")
|
| 36 |
+
|
| 37 |
+
## 3.未来计划
|
| 38 |
+
目前这个模型还是一个预训练模型,后续也许会训练出sft模型发布。
|
| 39 |
+
但是我目前在使用更大的数据集预训练更大参数的模型。
|
| 40 |
|
| 41 |
+
## 3.输出示例
|
| 42 |
|
| 43 |
💬: 微软决定
|
| 44 |
🤖: 在国际上销售Windows 7.1。
|