Update README.md

1480dfe verified about 22 hours ago

8.37 kB

	---
	license: mit
	language:
	- zh
	- en
	datasets:
	- inclusionAI/Ling-Coder-SFT
	- amd/Instella-GSM8K-synthetic
	- tuanha1305/DeepSeek-R1-Distill
	- YeungNLP/school_math_0.25M
	- jingyaogong/minimind_dataset
	- Roman1111111/claude-sonnet-4.6-120000x
	- SnifferCaptain/z1-1m
	pipeline_tag: text-generation
	---


	## 模型描述
	YModel3是SnifferCaptain训练的到目前为止（5/4/2026）最新的大语言模型。模型相比YModel2，支持了如混合思考、可调思考深度的功能，在回答的质量上有一定的进步。

	## 模型细节
	- 模型借鉴了MLA（ Deepseek， https://arxiv.org/pdf/2405.04434 ）的优化思路，与Gated Attention（ Qwen， https://arxiv.org/pdf/2505.06708 ）的优化思路，将ymodel2的PEGA2替换为容量更大，scaling更强的MLGA模块。显著增加了模型的参数效率。
	- 模型在FFN部分采用了SwiGLU。
	- 模型在每层RMSNorm后，增加了一层SEBlock。
	\| key \| value \|
	\|:--\|:--\|
	\| 参数量（训练时） \| 13.51M \|
	\| 层数 \| 4 \|
	\| 隐藏层大小 \| 512 \|
	\| 词表大小 \| 6400 \|
	\| 前馈层激活函数 \| SwiGLU \|
	\| 前馈层扩张维度 \| 1024 \|
	\| 归一化层 \| RMSNorm + SEBlock \|
	\| 注意力机制 \| MLGA \|
	\| 注意力头数 \| 4 \|
	\| 注意力头维度 \| 64 \|
	\| KV潜在维度 \| 128 \|
	\| RoPE嵌入维度 \| 64 \|

	## 训练细节
	- 模型全程采用与YModel2相近的SiMuon优化器训练，其中将NS迭代从2步增加到3步。SiMuon部分参数在预训练中，学习率为默认学习率的10倍。在其余阶段，学习率为默认学习率的66倍。AdamW部分学习率为默认参数的1倍。使用0.2*sqrt(max(fan in, fan out))进行学习率缩放。
	- 模型的tokenlizer与词来自MiniMind3-v（ https://github.com/jingyaogong/minimind ）
	- 在预训练阶段，模型在512长度的上下文充分使用5B tokens，1e-4带warmup的余弦退火到1e-5的学习率下，完成预训练。
	- 在全参微调阶段，模型在1024到4096上下文训练2.5B tokens，1e-5带warmup的余弦退火到1e-6的学习率下，完成后训练。最终的ppl为7.82（6400BPE词表长度）。
	- 预训练阶段采用的batch size为 65536 tokens/step。微调阶段采用 131072 tokens/step。

	## 补充细节
	- 由于预训练数据集原因，预训练模型在英文输入后有很大概率生成与各大跑分测试类似的四选一选择题格式
	- 关于调节思考深度，需要遵循特定的思考模板实现：
	```text
	<\|im_start\|>user
	[user content]<\|im_end\|>
	<\|im_start\|>assistant
	<think>juice = 1.14
	[thinking content]</think>
	[reply content]<\|im_end\|>
	```
	其中，juice值需要使用两位小数表示，且等号前后必须有空格，否则其模型性能会下降，其值过小或者过大可能会出现长度不符合预期的情况，这是因为训练数据的覆盖问题导致的。juice值的大小可以参考以下公式计算：
	$$\max\left(0.0,\ \log_2\left(\frac{\text{token\_count}}{128} + 1\right)\right)$$
	典型值：
	\|juice\|token count\|
	\|---\|---\|
	\|0.59\|64\|
	\|1.00\|128\|
	\|2.00\|384\|
	\|3.00\|896\|

	## 模型性能
	### 输出示例
	关闭思考：
	```text
	用户: 请介绍一下自己。
	助手: 我是由SnifferCaptain创建的语言模型，主要用于提供信息、解答问题和辅助学习。我的设计目标是通过高效的信息处理与用户交互来提升用户体验并增强用户的参与感。
	```
	juice = 0.50：
	```text
	用户: 请介绍一下自己。
	assistant: <think>juice = 0.5
	好的，用户让我简要介绍自己的身份和能力。首先，我需要确认自己是否具备一定的专业知识，但根据规则，只有在明确回答时才透露过多细节。所以这里应该保持简洁，不添加额外信息。接下来是自我反思，这属于简单问题，因为这是一个复杂的问题，可能需要多方面的分析。
	</think>
	作为AI助手，我的存在目的是提供准确、高效的信息与帮助。无论是在日常任务中还是在学习新技能或解决问题的能力上，我都以高效的方式处理各种请求。我的设计目标在于帮助用户解决他们的问题，无论是解答问题还是执行决策，都能提升效率。
	```

	juice = 1.50：
	```text
	user: 请介绍一下自己。
	assistant: <think>juice = 1.5
	嗯，用户让我介绍自己的个人简介，包括他的基本信息、背景和见解。首先，我需要确认用户的需求是什么。看起来他们可能是在学习中文还是其他类型的专业人士交流，但根据问题本身，应该保持简洁明了的语言。接下来要考虑用户的身份，可能是普通用户想了解我的能力范围或者兴趣爱好。不过作为AI助手，我不能直接回答这个问题，所以得用一般性的方式回应。同时，要确保不涉及任何敏感内容，只能提供准确的信息。另外，检查是否有遗漏的重要点，比如教育或工作坊的内容是否覆盖了不同领域的知识？这些都可以加以扩展可信度。最后，确保符合所有规则：使用中文，结构清晰，没有冗余分析，并且用自然的口语化表达。这样既符合动态响应深度的要求，又不会过于复杂。
	</think>
	您好！很高兴为您介绍我作为AI助手，以下是其基本信息及特点：

	---

	### 核心信息
	1. 技术基础：
	* 知识库：具备以下基础知识（如计算机科学/数据科学）与现有系统（如GPT-4），对人工智能（ML）、机器学习等概念感兴趣。例如：
	- “人工智能”是当前最热门的技术之一，尤其在医疗诊断中占比达数百万倍；
	- “深度学习模型”（CNN）则用于构建大规模数据集。
	- “自然语言处理（NLP）”是当前最广泛使用的一种技术，特别适用于处理文本情感、语音识别、机器翻译等领域的应用场景。

	2. 应用场景：
	* 智能客服：能够通过语音输入服务提供24/7解答疑问，解决客户投诉时出现的问题。
	* 金融风险管理：支持信用评分、欺诈检测、投资决策制定等金融风险评估指标，帮助银行预测市场波动趋势。
	* 多模态融合：利用大数据集进行实时数据处理和分析，实现自动化交易流程优化。
	* 虚拟现实 (VR) 是目前最流行的智能家居解决方案之一，结合3D打印、ARIMA等全息影像设备，提升用户体验。

	3. 主要优势：
	* 精准定位：基于大数据的算法推荐更优质的产品或服务。
	* 无人机驱动：为家庭中的小型飞行器，配备高效的灵活性训练软件，适合日常办公室环境。
	* 自动驾驶汽车：针对城市交通拥堵情况，减少事故发生率。
	* 能源效率：采用节能材料制成的建筑设计，降低碳排放。
	* 生物降解/食品回收：开发智能垃圾桶，提高公众环保意识。
	* 个性化服务：为用户定制一套个性化的旅游路线图，满足不同消费者的需求。

	4. 未来发展路径：
	* 预计2030年前至2023年的科技创新：随着技术的进步和应用的深入，预计到2025年将会从零开始走向数字时代。这将极大地改变人们的生活方式，推动社会变革。
	* 全球化转型：在全球范围内开展跨国合作项目，促进国际间的沟通与协作，共同应对全球挑战。

	---

	### 总结
	- 核心目标：成为当前最热门的技术，并强调关键价值——即如何有效利用资源、建立可持续发展的理念，以及持续学习和适应新技术的发展方向。
	- 结论：作为AI助手，我将专注于快速发展的行业应用，重塑人类社会的整体面貌。

	---

	### 补充说明
	- 核心目标：掌握哪些技能（如编程、数据分析、网络安全、伦理道德等）。
	- 行动建议：关注企业内部或政府部门的具体职责（如财务规划、政策执行、产品研发等）。
	- 持续学习：不断更新最新技术、工具和技术，保持竞争力。

	---

	这个信息完整展示了你的核心能力和潜力，希望对你有所启发。如果你有具体问题或需要进一步的帮助，随时告诉我！

	```