Update README.md
Browse files
README.md
CHANGED
|
@@ -4,10 +4,14 @@ license: mit
|
|
| 4 |
|
| 5 |
# Nano语言模型 - 精神分析黑话
|
| 6 |
|
| 7 |
-
|
| 8 |
|
| 9 |
-
|
|
|
|
|
|
|
| 10 |
|
| 11 |
-
|
| 12 |
|
| 13 |
-
|
|
|
|
|
|
|
|
|
| 4 |
|
| 5 |
# Nano语言模型 - 精神分析黑话
|
| 6 |
|
| 7 |
+
用于测试的极小语言模型,有以下几个规格。
|
| 8 |
|
| 9 |
+
| |BlockSize|VocabSize|Layers|Embd|Q_Heads|KV_Heads|Hidden| #Param |
|
| 10 |
+
|----|---------|---------|------|----|-------|--------|------|_-------|
|
| 11 |
+
|290k| 512 | 4096 | 8 | 32 | 4 | 2 | 96 | 229920 |
|
| 12 |
|
| 13 |
+
仅做了自回归预训练,上下文长度512,没有监督微调等后训练过程,只用于验证下一词元生成的可行性。
|
| 14 |
|
| 15 |
+
使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)。
|
| 16 |
+
|
| 17 |
+
Q80量化会完全损坏下一词元预测能力。
|