bd4sur
/

Nano-Pico

bd4sur commited on Dec 6, 2025

Commit

538167c

verified ·

1 Parent(s): c315665

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -4,10 +4,14 @@ license: mit
 # Nano语言模型 - 精神分析黑话
-用于测试的极小语言模型，有90k、290k和1500k参数三个规格。
-仅做了自回归预训练，上下文长度256，没有任何监督微调等后训练过程，因此只用于验证下一词元生成的可行性。
-词表大小只有两千多，主要是汉字和ASCII常用字符，因此输入提示词中尽量不要太复杂，以免出现<|unknown|>导致推理提前停止。
-建议只用“人类的本质是什么”这样的简单句子测试，且上下文长度不要超过256。

 # Nano语言模型 - 精神分析黑话
+用于测试的极小语言模型，有以下几个规格。
+|    |BlockSize|VocabSize|Layers|Embd|Q_Heads|KV_Heads|Hidden| #Param |
+|----|---------|---------|------|----|-------|--------|------|_-------|
+|290k|   512   |  4096   |  8   | 32 |   4   |    2   |  96  | 229920 |
+仅做了自回归预训练，上下文长度512，没有监督微调等后训练过程，只用于验证下一词元生成的可行性。
+使用2025年12月构造的[4096词表](https://github.com/bd4sur/Nano/blob/master/tokenizer/tokenizer_4096.json)。
+Q80量化会完全损坏下一词元预测能力。