bd4sur commited on
Commit
927a024
·
verified ·
1 Parent(s): 6294bdc

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +50 -11
README.md CHANGED
@@ -2,25 +2,20 @@
2
  license: mit
3
  ---
4
 
5
- # Nano语言模型 - 精神分析黑话
6
 
7
  用于测试的极小语言模型,有以下几个规格。
8
 
9
- | |BlockSize|VocabSize|Layers|Embd|Q_Heads|KV_Heads|Hidden| #Param |
10
- |----|---------|---------|------|----|-------|--------|------|--------|
11
- |290k| 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 229920 |
12
-
13
- "norm_eps": 1e-5
14
-
15
- 仅做了自回归预训练,上下文长度512,没有监督微调等后训练过程,只用于验证下一词元生成的可行性。
16
 
17
  使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)。
18
 
19
- Q80量化会完全损坏下一词元预测能力。
20
-
21
  ## 训练参数
22
 
23
- 230K
24
 
25
  ```
26
  {
@@ -63,5 +58,49 @@ Q80量化会完全损坏下一词元预测能力。
63
  "dtype": "bfloat16",
64
  "use_amp": true
65
  }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
66
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
67
  ```
 
2
  license: mit
3
  ---
4
 
5
+ # Nano语言模型 - 极小模型系列
6
 
7
  用于测试的极小语言模型,有以下几个规格。
8
 
9
+ | Model Name |BlockSize|VocabSize|Layers| Embd |Q_Heads|KV_Heads|Hidden|NormEps| #Param |
10
+ |-----------------|---------|---------|------|------|-------|--------|------|-------|--------|
11
+ |Psycho-230k-base | 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 1e-5 | 229920 |
12
+ |Nano-230k-base | 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 1e-5 | 229920 |
 
 
 
13
 
14
  使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)。
15
 
 
 
16
  ## 训练参数
17
 
18
+ Psycho-230k-base
19
 
20
  ```
21
  {
 
58
  "dtype": "bfloat16",
59
  "use_amp": true
60
  }
61
+ ```
62
+
63
+ Nano-230k-base
64
+
65
+ ```
66
+ {
67
+ "use_lora": false,
68
+ "lora_rank": 8,
69
+ "lora_alpha": 16,
70
+ "lora_dropout": 0.0,
71
+
72
+ "from_checkpoint": "",
73
+ "save_checkpoint_to": "/home/bd4sur/ai/Nano/checkpoint",
74
+ "dataset_path": [
75
+ ["/home/bd4sur/ai/Nano/dataset_preprocessed/pt_1Gtk_512_4096_train.base64", "/home/bd4sur/ai/Nano/dataset_preprocessed/pt_1Gtk_512_4096_valid.base64"]
76
+ ],
77
+ "tokenizer_path": "/home/bd4sur/ai/Nano/tokenizer/tokenizer_4096.json",
78
+
79
+ "random_seed": 39,
80
+ "batch_size": 256,
81
+ "gradient_accumulation_steps": 1,
82
+ "grad_clip": 1.0,
83
 
84
+ "dropout": 0.0,
85
+
86
+ "learning_rate": 5e-4,
87
+ "weight_decay": 1e-1,
88
+ "beta1": 0.9,
89
+ "beta2": 0.95,
90
+
91
+ "decay_lr": true,
92
+ "warmup_iters": 500,
93
+ "lr_decay_iters": 1e9,
94
+ "min_lr": 6e-5,
95
+
96
+ "eval_interval": 100,
97
+ "log_interval": 10,
98
+ "eval_iters": 5,
99
+
100
+ "backend": "nccl",
101
+ "device": "cuda",
102
+ "sdp_kernel": "flash",
103
+ "dtype": "bfloat16",
104
+ "use_amp": true
105
+ }
106
  ```