bd4sur commited on
Commit
c388d49
·
verified ·
1 Parent(s): bb37ccd

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +50 -0
README.md CHANGED
@@ -10,8 +10,58 @@ license: mit
10
  |----|---------|---------|------|----|-------|--------|------|--------|
11
  |290k| 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 229920 |
12
 
 
 
13
  仅做了自回归预训练,上下文长度512,没有监督微调等后训练过程,只用于验证下一词元生成的可行性。
14
 
15
  使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)。
16
 
17
  Q80量化会完全损坏下一词元预测能力。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  |----|---------|---------|------|----|-------|--------|------|--------|
11
  |290k| 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 229920 |
12
 
13
+ "norm_eps": 1e-5
14
+
15
  仅做了自回归预训练,上下文长度512,没有监督微调等后训练过程,只用于验证下一词元生成的可行性。
16
 
17
  使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)。
18
 
19
  Q80量化会完全损坏下一词元预测能力。
20
+
21
+ ## 训练参数
22
+
23
+ 230K
24
+
25
+ ```
26
+ {
27
+ "use_lora": false,
28
+ "lora_rank": 8,
29
+ "lora_alpha": 16,
30
+ "lora_dropout": 0.0,
31
+
32
+ "from_checkpoint": "",
33
+ "save_checkpoint_to": "/home/bd4sur/ai/Nano/checkpoint",
34
+ "dataset_path": [
35
+ ["/home/bd4sur/ai/Nano/dataset_preprocessed/pt_train_0.base64", "/home/bd4sur/ai/Nano/dataset_preprocessed/pt_val_0.base64"]
36
+ ],
37
+ "tokenizer_path": "/home/bd4sur/ai/Nano/tokenizer/tokenizer_4096.json",
38
+
39
+ "random_seed": 39,
40
+ "batch_size": 256,
41
+ "gradient_accumulation_steps": 1,
42
+ "grad_clip": 1.0,
43
+
44
+ "dropout": 0.0,
45
+
46
+ "learning_rate": 5e-4,
47
+ "weight_decay": 1e-1,
48
+ "beta1": 0.9,
49
+ "beta2": 0.95,
50
+
51
+ "decay_lr": true,
52
+ "warmup_iters": 500,
53
+ "lr_decay_iters": 1e9,
54
+ "min_lr": 6e-5,
55
+
56
+ "eval_interval": 100,
57
+ "log_interval": 10,
58
+ "eval_iters": 5,
59
+
60
+ "backend": "nccl",
61
+ "device": "cuda",
62
+ "sdp_kernel": "flash",
63
+ "dtype": "bfloat16",
64
+ "use_amp": true
65
+ }
66
+
67
+ ```