Zhaoming213 commited on
Commit
5ac4e56
·
verified ·
1 Parent(s): 4362eea

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -4
README.md CHANGED
@@ -7,7 +7,7 @@ tags:
7
  - text-generation-inference
8
  ---
9
  # BackTo2012
10
- 这是一个仅用2012年的数据从头预训练的一个小模型,模型的知识截止日期是2012年,这意味着模型可以模仿早期互联网风格的内容用怀旧!
11
 
12
  ## 简介
13
  这是基于Github Minimind项目训练的模型!
@@ -23,17 +23,22 @@ tags:
23
  | 序列长度 | 512 |
24
 
25
  ## 1.训练平台
26
- GPUP:100 16GB
27
  训练时长:大约10小时
 
28
 
29
  ## 2.使用指南
30
  * 你需要下载这个项目文件(https://github.com/jingyaogong/minimind。),然后把模型文件(pretrain_512.pth)放进out目录里,然后运行eval_llm.py这个文件来启用模型。
31
  * 需要修改的地方:
32
  parser.add_argument('--weight', default='pretrain', type=str, help="权重名称前缀(pretrain, full_sft, rlhf, reason, ppo_actor, grpo, spo)")
33
  parser.add_argument('--hidden_size', default=512, type=int, help="隐藏层维度(512=Small-26M, 640=MoE-145M, 768=Base-104M)")
34
- parser.add_argument('--num_hidden_layers', default=8, type=int, help="隐藏层数量(Small/MoE=8, Base=16)")
 
 
 
 
35
 
36
- ## 3.输出
37
 
38
  💬: 微软决定
39
  🤖: 在国际上销售Windows 7.1。
 
7
  - text-generation-inference
8
  ---
9
  # BackTo2012
10
+ 这是一个仅用2012年的数据从头预训练的一个小模型,模型的知识截止日期是2012年,这意味着模型可以模仿早期互联网风格的内容用怀旧!
11
 
12
  ## 简介
13
  这是基于Github Minimind项目训练的模型!
 
23
  | 序列长度 | 512 |
24
 
25
  ## 1.训练平台
26
+ GPU:100 16GB
27
  训练时长:大约10小时
28
+ 数据集:差不多2GB
29
 
30
  ## 2.使用指南
31
  * 你需要下载这个项目文件(https://github.com/jingyaogong/minimind。),然后把模型文件(pretrain_512.pth)放进out目录里,然后运行eval_llm.py这个文件来启用模型。
32
  * 需要修改的地方:
33
  parser.add_argument('--weight', default='pretrain', type=str, help="权重名称前缀(pretrain, full_sft, rlhf, reason, ppo_actor, grpo, spo)")
34
  parser.add_argument('--hidden_size', default=512, type=int, help="隐藏层维度(512=Small-26M, 640=MoE-145M, 768=Base-104M)")
35
+ parser.add_argument('--num_hidden_layers', default=8, type=int, help="隐藏层数量(Small/MoE=8, Base=16)")
36
+
37
+ ## 3.未来计划
38
+ 目前这个模型还是一个预训练模型,后续也许会训练出sft模型发布。
39
+ 但是我目前在使用更大的数据集预训练更大参数的模型。
40
 
41
+ ## 3.输出
42
 
43
  💬: 微软决定
44
  🤖: 在国际上销售Windows 7.1。