bd4sur commited on
Commit
538167c
·
verified ·
1 Parent(s): c315665

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -4
README.md CHANGED
@@ -4,10 +4,14 @@ license: mit
4
 
5
  # Nano语言模型 - 精神分析黑话
6
 
7
- 用于测试的极小语言模型,有90k、290k和1500k参数三个规格。
8
 
9
- 仅做了自回归预训练,上下文长度256,没有任何监督微调等后训练过程,因此只用于验证下一词元生成的可行性。
 
 
10
 
11
- 词表大小只有两千多,主要是汉字和ASCII常用字符,因此输入提示词中尽量不要太复杂,以免出现<|unknown|>导致推理提前停止。
12
 
13
- 建议只用“人类的本质是什么”这样的简单句子测试,且上下文长度不要超过256
 
 
 
4
 
5
  # Nano语言模型 - 精神分析黑话
6
 
7
+ 用于测试的极小语言模型,有以下几个规格。
8
 
9
+ | |BlockSize|VocabSize|Layers|Embd|Q_Heads|KV_Heads|Hidden| #Param |
10
+ |----|---------|---------|------|----|-------|--------|------|_-------|
11
+ |290k| 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 229920 |
12
 
13
+ 仅做了自回归预训练,上下文长度512,没有监督微调等后训练过程,只用于验证下一词元生成的可行性。
14
 
15
+ 使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)
16
+
17
+ Q80量化会完全损坏下一词元预测能力。