File size: 5,989 Bytes
68e0f64
 
 
 
 
 
 
dec3707
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
68e0f64
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
---
language:
- en
- zh
tags:
- llm
---
# openPangu-R-72B-2512
中文 | [English](README_EN.md)

## 1. 简介
openPangu-R-72B-2512 是基于昇腾集群训练的MoE模型。模型总参数量74B,激活参数量15B,采用80选8的专家选择机制,支持128k长序列处理。训练数据总量约24T tokens。同一个模型支持快慢思考两种模式切换,慢思考模式下,支持思维链分档(“低”和“高”两种推理深度)。

## 2. 模型架构
openPangu-R-72B-2512 在模型稳定收敛和效果提升方向进行了以下优化:
- 在注意力机制中引入参数式Sink Token技术: 有效缓解极大激活值问题,训练中最大激活值从$10^3$降至$10^2$量级, 提升训练稳定性并对后量化亲和。

- K-Norm与Depth-Scaled Sandwich-Norm:为保证attention logits的稳定性,我们采用了K-Norm结构。K-Norm与QK-Norm类似,但只对attention的key施加RMS Norm。K-Norm可起到与QK-Norm类似的稳定性效果,但引入的计算开销更小,同时K-Norm不影响Query的scale,带来更灵活的表达能力。为了保证残差连接的稳定性,我们采用了Depth-Scaled Sandwich-Norm方法。

- 注意力架构优化:增加Query头数和注意力头维度,使模型能够从更多角度捕获细粒度语义关系。引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码。尽管Key头维度有所增加,但通过将KV组数量减半,KV cache仍可减少37.5%,在保持推理阶段显存和速度优化的同时,实现了更低的训练损失和更优的推理性能。

- Adaptive Aux Free负载优化技术:能够自适应调整专家bias更新幅度,减少均衡震荡现象,优化专家负载分布均衡性。


详细架构参数如下:

| | |
|:---:|:---:|
| **Architecture** | Mixture-of-Experts (MoE) |
| **Total Parameters** | 74B |
| **Activated Parameters** | 15B |
| **Number of Layers** (Dense layer included) | 50 |
| **Number of Dense Layers** | 4 |
| **Number of MTP Modules** | 1 |
| **Hidden Dimension** | 4608 |
| **MoE Hidden Dimension** (per Expert) | 1280 |
| **Attention Mechanism** | GQA |
| **Number of Attention Heads** | 64 |
| **Number of Query Groups** | 4 |
| **Number of Experts** | 80 |
| **Selected Experts per Token** | 8 |
| **Number of Shared Experts** | 2 |
| **Vocabulary Size** | 153K |
| **Context Length** | 128K |


## 3. 测评结果

|       测评集        |             测评指标             | openPangu-R-72B-2512 快思考  | openPangu-R-72B-2512 慢思考   |
|:------------------:|:----------------------------:|:-----:|:-----:|
|     **通用能力**     |                              |       		|    
|     LiveBench        |         Acc (2024-11-25)      | 67.3 | 75.2 | 
|     MMLU-Pro         |         Exact Match          | 84.2 | 84.8 |
|     MMLU-ProX        |         Acc                  | 76.9 | 80.6 |
|     RULER        |         Acc                  | 95.6 | 94.7 |
|     LongBench  V2      |       Acc                    |45.3  |55.3  |
|     IF-Eval          |         Prompt Strict        | 86.3 | 79.1 |
|     Hallucination-LeaderBoard     |   1-HHEM        | 96.5 | 97.1 |
|     GPQA-Dimaond     |         Avg@4              | 76.8 | 83.2 |
|     SuperGPQA        |         Acc                  | 58.9 | 64.2 |
|     **数学能力** |                              |       		|    
|     AIME24           |         Avg@16               | 75.6 | 89.0 |
|     AIME25           |         Avg@16               | 60.6 | 81.3 | 
|     CNMO 2024        |         Avg@32               | 77.8 | 82.8 |
|     HMMT 2025        |         Avg@16 (February)               | 45.4 | 74.8 |
|     **代码能力** |                              |       		|    
|     LiveCodeBench V6    |   Avg@3 (01/25~05/25)     | 41.9 | 69.5 | 
|     Codeforces        |     Elo Avg@3 (02/25~09/25)   | 1044.5 | 1701.4 |
|     **Agent工具调用** |                              |       		|    
|     BFCL-V3          |         Acc (Prompt)         | 74.6 | 76.5 | 
|  Tau-Bench (airline) |         Avg@3 (FC)           | 45.3 | 56.0 |
|  Tau-Bench (retail) |         Avg@3 (FC)            | 70.1 | 73.0 | 
|  Tau2-Bench (airline) |        Avg@3 (FC)           | 58.0 | 65.3 | 
|  Tau2-Bench (retail) |        Avg@3 (FC)            | 71.4 | 78.7 |  
|  Tau2-Bench (telecom) |         Avg@3 (FC)          | 48.8 | 49.4 | 
|  AceBench            |         Acc (Prompt)         | 74.3 | 79.6 | 


## 4. 部署和使用
- 使用omni-infer推理框架,参考[[omniinfer_for_openpangu_r_72b_2512](doc/omniinfer_for_openpangu_r_72b_2512.md)]

## 5. 模型许可证
除文件中对开源许可证另有约定外,openPangu-R-72B-2512 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。

## 6. 免责声明
由于 openPangu-R-72B-2512 (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证:
- 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场; 
- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障; 
- 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。

## 7. 反馈
如果有任何意见和建议,请提交issue或联系[openPangu@huawei.com](url)。