Update README.md

68e0f64 verified 7 days ago

5.99 kB

	---
	language:
	- en
	- zh
	tags:
	- llm
	---
	# openPangu-R-72B-2512
	中文 \| [English](README_EN.md)

	## 1. 简介
	openPangu-R-72B-2512 是基于昇腾集群训练的MoE模型。模型总参数量74B，激活参数量15B，采用80选8的专家选择机制，支持128k长序列处理。训练数据总量约24T tokens。同一个模型支持快慢思考两种模式切换，慢思考模式下，支持思维链分档（“低”和“高”两种推理深度）。

	## 2. 模型架构
	openPangu-R-72B-2512 在模型稳定收敛和效果提升方向进行了以下优化：
	- 在注意力机制中引入参数式Sink Token技术：有效缓解极大激活值问题，训练中最大激活值从$10^3$降至$10^2$量级，提升训练稳定性并对后量化亲和。

	- K-Norm与Depth-Scaled Sandwich-Norm：为保证attention logits的稳定性，我们采用了K-Norm结构。K-Norm与QK-Norm类似，但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果，但引入的计算开销更小，同时K-Norm不影响Query的scale，带来更灵活的表达能力。为了保证残差连接的稳定性，我们采用了Depth-Scaled Sandwich-Norm方法。

	- 注意力架构优化：增加Query头数和注意力头维度，使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制，仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加，但通过将KV组数量减半，KV cache仍可减少37.5%，在保持推理阶段显存和速度优化的同时，实现了更低的训练损失和更优的推理性能。

	- Adaptive Aux Free负载优化技术：能够自适应调整专家bias更新幅度，减少均衡震荡现象，优化专家负载分布均衡性。


	详细架构参数如下：

	\| \| \|
	\|:---:\|:---:\|
	\| Architecture \| Mixture-of-Experts (MoE) \|
	\| Total Parameters \| 74B \|
	\| Activated Parameters \| 15B \|
	\| Number of Layers (Dense layer included) \| 50 \|
	\| Number of Dense Layers \| 4 \|
	\| Number of MTP Modules \| 1 \|
	\| Hidden Dimension \| 4608 \|
	\| MoE Hidden Dimension (per Expert) \| 1280 \|
	\| Attention Mechanism \| GQA \|
	\| Number of Attention Heads \| 64 \|
	\| Number of Query Groups \| 4 \|
	\| Number of Experts \| 80 \|
	\| Selected Experts per Token \| 8 \|
	\| Number of Shared Experts \| 2 \|
	\| Vocabulary Size \| 153K \|
	\| Context Length \| 128K \|


	## 3. 测评结果

	\| 测评集 \| 测评指标 \| openPangu-R-72B-2512 快思考 \| openPangu-R-72B-2512 慢思考 \|
	\|:------------------:\|:----------------------------:\|:-----:\|:-----:\|
	\| 通用能力 \| \| \|
	\| LiveBench \| Acc (2024-11-25) \| 67.3 \| 75.2 \|
	\| MMLU-Pro \| Exact Match \| 84.2 \| 84.8 \|
	\| MMLU-ProX \| Acc \| 76.9 \| 80.6 \|
	\| RULER \| Acc \| 95.6 \| 94.7 \|
	\| LongBench V2 \| Acc \|45.3 \|55.3 \|
	\| IF-Eval \| Prompt Strict \| 86.3 \| 79.1 \|
	\| Hallucination-LeaderBoard \| 1-HHEM \| 96.5 \| 97.1 \|
	\| GPQA-Dimaond \| Avg@4 \| 76.8 \| 83.2 \|
	\| SuperGPQA \| Acc \| 58.9 \| 64.2 \|
	\| 数学能力 \| \| \|
	\| AIME24 \| Avg@16 \| 75.6 \| 89.0 \|
	\| AIME25 \| Avg@16 \| 60.6 \| 81.3 \|
	\| CNMO 2024 \| Avg@32 \| 77.8 \| 82.8 \|
	\| HMMT 2025 \| Avg@16 (February) \| 45.4 \| 74.8 \|
	\| 代码能力 \| \| \|
	\| LiveCodeBench V6 \| Avg@3 (01/25~05/25) \| 41.9 \| 69.5 \|
	\| Codeforces \| Elo Avg@3 (02/25~09/25) \| 1044.5 \| 1701.4 \|
	\| Agent工具调用 \| \| \|
	\| BFCL-V3 \| Acc (Prompt) \| 74.6 \| 76.5 \|
	\| Tau-Bench (airline) \| Avg@3 (FC) \| 45.3 \| 56.0 \|
	\| Tau-Bench (retail) \| Avg@3 (FC) \| 70.1 \| 73.0 \|
	\| Tau2-Bench (airline) \| Avg@3 (FC) \| 58.0 \| 65.3 \|
	\| Tau2-Bench (retail) \| Avg@3 (FC) \| 71.4 \| 78.7 \|
	\| Tau2-Bench (telecom) \| Avg@3 (FC) \| 48.8 \| 49.4 \|
	\| AceBench \| Acc (Prompt) \| 74.3 \| 79.6 \|


	## 4. 部署和使用
	- 使用omni-infer推理框架，参考[[omniinfer_for_openpangu_r_72b_2512](doc/omniinfer_for_openpangu_r_72b_2512.md)]

	## 5. 模型许可证
	除文件中对开源许可证另有约定外，openPangu-R-72B-2512 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。

	## 6. 免责声明
	由于 openPangu-R-72B-2512 （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：
	- 该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
	- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
	- 该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

	## 7. 反馈
	如果有任何意见和建议，请提交issue或联系[openPangu@huawei.com](url)。

	---
	language:
	- en
	- zh
	tags:
	- llm
	---
	# openPangu-R-72B-2512
	中文 \| [English](README_EN.md)

	## 1. 简介
	openPangu-R-72B-2512 是基于昇腾集群训练的MoE模型。模型总参数量74B，激活参数量15B，采用80选8的专家选择机制，支持128k长序列处理。训练数据总量约24T tokens。同一个模型支持快慢思考两种模式切换，慢思考模式下，支持思维链分档（“低”和“高”两种推理深度）。

	## 2. 模型架构
	openPangu-R-72B-2512 在模型稳定收敛和效果提升方向进行了以下优化：
	- 在注意力机制中引入参数式Sink Token技术：有效缓解极大激活值问题，训练中最大激活值从$10^3$降至$10^2$量级，提升训练稳定性并对后量化亲和。

	- K-Norm与Depth-Scaled Sandwich-Norm：为保证attention logits的稳定性，我们采用了K-Norm结构。K-Norm与QK-Norm类似，但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果，但引入的计算开销更小，同时K-Norm不影响Query的scale，带来更灵活的表达能力。为了保证残差连接的稳定性，我们采用了Depth-Scaled Sandwich-Norm方法。

	- 注意力架构优化：增加Query头数和注意力头维度，使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制，仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加，但通过将KV组数量减半，KV cache仍可减少37.5%，在保持推理阶段显存和速度优化的同时，实现了更低的训练损失和更优的推理性能。

	- Adaptive Aux Free负载优化技术：能够自适应调整专家bias更新幅度，减少均衡震荡现象，优化专家负载分布均衡性。


	详细架构参数如下：

	\| \| \|
	\|:---:\|:---:\|
	\| Architecture \| Mixture-of-Experts (MoE) \|
	\| Total Parameters \| 74B \|
	\| Activated Parameters \| 15B \|
	\| Number of Layers (Dense layer included) \| 50 \|
	\| Number of Dense Layers \| 4 \|
	\| Number of MTP Modules \| 1 \|
	\| Hidden Dimension \| 4608 \|
	\| MoE Hidden Dimension (per Expert) \| 1280 \|
	\| Attention Mechanism \| GQA \|
	\| Number of Attention Heads \| 64 \|
	\| Number of Query Groups \| 4 \|
	\| Number of Experts \| 80 \|
	\| Selected Experts per Token \| 8 \|
	\| Number of Shared Experts \| 2 \|
	\| Vocabulary Size \| 153K \|
	\| Context Length \| 128K \|


	## 3. 测评结果

	\| 测评集 \| 测评指标 \| openPangu-R-72B-2512 快思考 \| openPangu-R-72B-2512 慢思考 \|
	\|:------------------:\|:----------------------------:\|:-----:\|:-----:\|
	\| 通用能力 \| \| \|
	\| LiveBench \| Acc (2024-11-25) \| 67.3 \| 75.2 \|
	\| MMLU-Pro \| Exact Match \| 84.2 \| 84.8 \|
	\| MMLU-ProX \| Acc \| 76.9 \| 80.6 \|
	\| RULER \| Acc \| 95.6 \| 94.7 \|
	\| LongBench V2 \| Acc \|45.3 \|55.3 \|
	\| IF-Eval \| Prompt Strict \| 86.3 \| 79.1 \|
	\| Hallucination-LeaderBoard \| 1-HHEM \| 96.5 \| 97.1 \|
	\| GPQA-Dimaond \| Avg@4 \| 76.8 \| 83.2 \|
	\| SuperGPQA \| Acc \| 58.9 \| 64.2 \|
	\| 数学能力 \| \| \|
	\| AIME24 \| Avg@16 \| 75.6 \| 89.0 \|
	\| AIME25 \| Avg@16 \| 60.6 \| 81.3 \|
	\| CNMO 2024 \| Avg@32 \| 77.8 \| 82.8 \|
	\| HMMT 2025 \| Avg@16 (February) \| 45.4 \| 74.8 \|
	\| 代码能力 \| \| \|
	\| LiveCodeBench V6 \| Avg@3 (01/25~05/25) \| 41.9 \| 69.5 \|
	\| Codeforces \| Elo Avg@3 (02/25~09/25) \| 1044.5 \| 1701.4 \|
	\| Agent工具调用 \| \| \|
	\| BFCL-V3 \| Acc (Prompt) \| 74.6 \| 76.5 \|
	\| Tau-Bench (airline) \| Avg@3 (FC) \| 45.3 \| 56.0 \|
	\| Tau-Bench (retail) \| Avg@3 (FC) \| 70.1 \| 73.0 \|
	\| Tau2-Bench (airline) \| Avg@3 (FC) \| 58.0 \| 65.3 \|
	\| Tau2-Bench (retail) \| Avg@3 (FC) \| 71.4 \| 78.7 \|
	\| Tau2-Bench (telecom) \| Avg@3 (FC) \| 48.8 \| 49.4 \|
	\| AceBench \| Acc (Prompt) \| 74.3 \| 79.6 \|


	## 4. 部署和使用
	- 使用omni-infer推理框架，参考[[omniinfer_for_openpangu_r_72b_2512](doc/omniinfer_for_openpangu_r_72b_2512.md)]

	## 5. 模型许可证
	除文件中对开源许可证另有约定外，openPangu-R-72B-2512 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。

	## 6. 免责声明
	由于 openPangu-R-72B-2512 （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：
	- 该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
	- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
	- 该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

	## 7. 反馈
	如果有任何意见和建议，请提交issue或联系[openPangu@huawei.com](url)。