File size: 12,873 Bytes
7134ce7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261

# 快速开始

ms-swift引入了Megatron的并行技术来加速大模型的训练,包括数据并行、张量并行、流水线并行、序列并行,上下文并行,专家并行。支持Qwen3、[Qwen3-MoE](https://github.com/modelscope/ms-swift/blob/main/examples/megatron/mcore_bridge/full/moe.sh)、Qwen2.5、Llama3、Deepseek-R1、GLM4.5等模型的CPT/SFT/DPO/GRPO。完整支持的模型可以参考[支持的模型与数据集文档](../Instruction/Supported-models-and-datasets.md)。推荐在MoE训练时使用Megatron-SWIFT,这通常可以获得10倍的训练速度提升。


| 方法   | 全参数 | LoRA | MoE | 多模态 | FP8 |
| ------ | ------ | ---- | ----- | ----- | ----- |
| 预训练 | ✅ | ✅| ✅ | ✅ | ✅ |
| [指令监督微调](https://github.com/modelscope/ms-swift/tree/main/examples/megatron) | ✅ | ✅| ✅ | ✅ | ✅ |
| [GRPO](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/grpo) | ✅ | ✅| ✅ | ✅ | ✅ |
| [GKD](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/rlhf/gkd) | ✅ | ✅| ✅ | ✅ | ✅ |
| [DPO](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/rlhf/dpo) | ✅ | ✅| ✅ | ✅ | ✅ |
| [KTO](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/rlhf/kto) | ✅ | ✅| ✅ | ✅ | ✅ |
| [RM](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/rlhf/rm) | ✅ | ✅| ✅ | ✅ | ✅ |
| [Embedding](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/embedding) | ✅ | ✅| ✅ | ✅ | ✅ |
| [Reranker](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/reranker) | ✅ | ✅| ✅ | ✅ | ✅ |
| [序列分类](https://github.com/modelscope/ms-swift/tree/main/examples/megatron/seq_cls) | ✅ | ✅| ✅ | ✅ | ✅ |


## 环境准备
使用Megatron-SWIFT,除了安装swift依赖外,还需要安装以下内容:

```shell

pip install pybind11



# transformer_engine

# 若出现安装错误,可以参考该issue解决: https://github.com/modelscope/ms-swift/issues/3793

pip install --no-build-isolation transformer_engine[pytorch]



# apex

# 提示:Megatron-SWIFT可以在不含apex的环境下运行,额外设置`--no_gradient_accumulation_fusion true`即可。

git clone https://github.com/NVIDIA/apex

cd apex

pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./



# megatron-core

pip install git+https://github.com/NVIDIA/Megatron-LM.git@core_r0.15.0



# 若使用多机训练,请额外设置`MODELSCOPE_CACHE`环境变量为共享存储路径

# 这将确保数据集缓存共享,而加速预处理速度。

# 注意:这步很关键,不然多机训练可能因随机性问题导致数据不一致而训练卡住。

export MODELSCOPE_CACHE='/xxx/shared'



# Megatron-LM

# 依赖库Megatron-LM中的训练模块将由swift进行git clone并安装。你也可以通过环境变量`MEGATRON_LM_PATH`指向已经下载好的repo路径(断网环境,[core_r0.15.0分支](https://github.com/NVIDIA/Megatron-LM/tree/core_r0.15.0))。

git clone --branch core_r0.15.0 https://github.com/NVIDIA/Megatron-LM.git

export MEGATRON_LM_PATH='/xxx/Megatron-LM'



# flash_attn

# 选择合适的版本进行安装:https://github.com/Dao-AILab/flash-attention/releases/tag/v2.8.3

# 注意:请勿安装高于transformer_engine限制的最高版本:https://github.com/NVIDIA/TransformerEngine/blob/release_v2.10/transformer_engine/pytorch/attention/dot_product_attention/utils.py#L118

MAX_JOBS=8 pip install "flash-attn==2.8.3" --no-build-isolation

```

或者你也可以使用镜像:(历史镜像查看[这里](../GetStarted/SWIFT-installation.md#镜像))
```

modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.9.0-vllm0.13.0-modelscope1.33.0-swift3.12.3

modelscope-registry.cn-beijing.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.9.0-vllm0.13.0-modelscope1.33.0-swift3.12.3

modelscope-registry.us-west-1.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.8.1-py311-torch2.9.0-vllm0.13.0-modelscope1.33.0-swift3.12.3



# cu129 (fp8 training)

modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.9.1-py311-torch2.8.0-vllm0.11.0-modelscope1.32.0-swift3.11.3

modelscope-registry.cn-beijing.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.9.1-py311-torch2.8.0-vllm0.11.0-modelscope1.32.0-swift3.11.3

modelscope-registry.us-west-1.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.9.1-py311-torch2.8.0-vllm0.11.0-modelscope1.32.0-swift3.11.3

```

推荐运行环境:
|              | 范围           | 推荐          | 备注                 |
|--------------|--------------|-------------|--------------------|
| python       | >=3.9        | 3.10/3.11        |                    |
| cuda         |              | cuda12      |                    |
| torch        | >=2.0        | 2.8.0       |                    |
| transformer_engine    | >=2.3       |   2.10.0    |                  |

| apex |   |  0.1 | |

| megatron_core    |   >=0.12,<0.16    | 0.15      |                  |
| flash_attn    |        | 2.8.3/3.0.0b1   |                  |

| transformers | >=4.33       | 4.57.6      |                    |

| modelscope   | >=1.23       |             |                    |

| peft         | >=0.11,<0.19 |             |      LoRA          |

| trl          | >=0.15,<0.25 |       |      RLHF        |





## 快速入门案例



这里介绍使用2卡80GiB A100对Qwen2.5-7B-Instruct模型进行自我认知微调的快速入门案例,以下最佳实践可以在10分钟内完成。



### 传统方式



首先,我们需要将HF格式的权重转为Megatron格式:

- 多卡权重转换:将`CUDA_VISIBLE_DEVICES=0`删除即可使用多卡权重转换。

- 转换精度测试:`--test_convert_precision true`将测试转换精度。在MoE大型模型的转换时,该参数所需时间较长,且需要更多的内存消耗,可酌情去除。



```shell

CUDA_VISIBLE_DEVICES=0 \

swift export \

    --model Qwen/Qwen2.5-7B-Instruct \

    --to_mcore true \
    --torch_dtype bfloat16 \

    --output_dir Qwen2.5-7B-Instruct-mcore \

    --test_convert_precision true

```


然后,使用以下脚本进行训练,训练所需显存资源为2*80GiB:

- 若使用多机训练,建议共享磁盘,并将`--save`指定为相同的路径。

```shell

PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \

NPROC_PER_NODE=2 \

CUDA_VISIBLE_DEVICES=0,1 \

megatron sft \

    --load Qwen2.5-7B-Instruct-mcore \

    --save_safetensors false \

    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \

              'AI-ModelScope/alpaca-gpt4-data-en#500' \

              'swift/self-cognition#500' \

    --tensor_model_parallel_size 2 \

    --sequence_parallel true \

    --micro_batch_size 16 \

    --global_batch_size 16 \

    --recompute_granularity full \

    --recompute_method uniform \

    --recompute_num_layers 1 \

    --finetune true \

    --cross_entropy_loss_fusion true \

    --lr 1e-5 \

    --lr_warmup_fraction 0.05 \

    --min_lr 1e-6 \

    --max_epochs 1 \

    --save megatron_output/Qwen2.5-7B-Instruct \

    --save_interval 100 \

    --max_length 2048 \

    --system 'You are a helpful assistant.' \

    --num_workers 4 \

    --no_save_optim true \

    --no_save_rng true \

    --dataset_num_proc 4 \

    --model_author swift \

    --model_name swift-robot

```



最后,将Megatron格式权重转为HF格式:

- 注意:`--mcore_model`请指向`iter_xxx`的上级目录。默认会使用`latest_checkpointed_iteration.txt`中对应的checkpoint。

- 若出现OOM,将`CUDA_VISIBLE_DEVICES=0`删除。若出现内存不足,请将`--test_convert_precision true`删除。

```shell

CUDA_VISIBLE_DEVICES=0 \

swift export \

    --mcore_model megatron_output/Qwen2.5-7B-Instruct/vx-xxx/checkpoint-xxx \

    --to_hf true \

    --torch_dtype bfloat16 \

    --output_dir megatron_output/Qwen2.5-7B-Instruct/vx-xxx/checkpoint-xxx-hf \

    --test_convert_precision true

```



我们对生成的HF格式权重进行推理:

```shell

CUDA_VISIBLE_DEVICES=0 \

swift infer \

    --model megatron_output/Qwen2.5-7B-Instruct/vx-xxx/checkpoint-xxx-hf \

    --stream true \

    --temperature 0 \

    --max_new_tokens 2048

```



推理结果如下:

```

<<< who are you?

I am a language model developed by swift, you can call me swift-robot. How can I assist you?

```





### Mcore-Bridge【推荐】



在"ms-swift>=3.10",支持了Mcore-Bridge,去除模型转换的繁琐过程。具体参考[Mcore-Bridge文档](./Mcore-Bridge.md)。



训练脚本:

```bash

PYTORCH_CUDA_ALLOC_CONF='expandable_segments:True' \

NPROC_PER_NODE=2 \

CUDA_VISIBLE_DEVICES=0,1 \

megatron sft \

    --model Qwen/Qwen2.5-7B-Instruct \

    --load_safetensors true \

    --save_safetensors true \

    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \

              'AI-ModelScope/alpaca-gpt4-data-en#500' \

              'swift/self-cognition#500' \

    --tensor_model_parallel_size 2 \

    --sequence_parallel true \

    --micro_batch_size 16 \

    --global_batch_size 16 \

    --recompute_granularity full \

    --recompute_method uniform \

    --recompute_num_layers 1 \

    --finetune true \

    --cross_entropy_loss_fusion true \

    --lr 1e-5 \

    --lr_warmup_fraction 0.05 \

    --min_lr 1e-6 \

    --max_epochs 1 \

    --save megatron_output/Qwen2.5-7B-Instruct \

    --save_interval 100 \

    --max_length 2048 \

    --system 'You are a helpful assistant.' \

    --num_workers 4 \

    --no_save_optim true \

    --no_save_rng true \

    --dataset_num_proc 4 \

    --model_author swift \

    --model_name swift-robot

```



我们对生成的safetensors格式权重进行推理:

```shell

CUDA_VISIBLE_DEVICES=0 \

swift infer \

    --model megatron_output/Qwen2.5-7B-Instruct/vx-xxx/checkpoint-xxx \

    --stream true \

    --temperature 0 \

    --max_new_tokens 2048

```



- 若要进行预训练,你可以使用`megatron pt`替代`megatron sft`,这将会使用生成式的template进行训练。

- Megatron-SWIFT使用与ms-swift相同的dataset和template处理模块,因此同样支持packing、loss_scale、agent训练等技术。自定义数据集格式参考[自定义数据集文档](../Customization/Custom-dataset.md)。

- **更多案例**:包括packing、多机、32K上下文、DPO、MoE模型、预训练,可以查看[这里](https://github.com/modelscope/ms-swift/tree/main/examples/megatron)。





## 训练技巧

- 增加训练吞吐量方法:使用packing(不要开启流式)、增加DP、减少重计算、增加计算通信overlap。MoE还可以通过丢弃tokens加速。

- 并行技术选择:

  - Megatron-SWIFT的并行技术采用zero1(默认开启use_distributed_optimizer)+各种并行技术的组合。

  - DP的速度最快,但显存占用较多,使用其他并行技术以降低显存占用。

  - TP/EP通信量较大,尽量不跨节点(NVLink域内),跨节点建议使用PP/DP;专家层建议使用EP而不是ETP,ETP更节约显存,但速度较慢。

  - MoE 并行折叠:MoE 相关的并行组与 Dense 组分离。Attention使用 tp-cp-dp-pp 组,MoE 使用 etp-ep-dp-pp 组。

- 权重转换并行数的选择:Megatron-SWIFT在mcore端使用torch_dist存储格式,训练时可以调整并行数,不需要在权重转化时指定并行数。

- 关于日志打印:Megatron-SWIFT的日志在last rank进行打印,因为在PP并行中,只有last pp_rank拥有完整的信息。



## Benchmark



使用`megatron sft`和`swift sft`在单机八卡A800环境下进行Dense模型全参数8K上下文训练的速度对比如下:



**Dense** Qwen2.5-14B:



|          | Megatron-LM | Deepspeed-ZeRO2 | Deepspeed-ZeRO3 |

| -------- | ----------- | ---------- | ---------- |

| 训练速度 |      9.04s/it       |  10.32s/it   | 10.56s/it |

| 显存占用 | 8\*64GB     |  8\*80GB   | 8\*58GB |

使用`megatron sft``swift sft`在双机16卡A800环境下进行MoE模型全参数8K上下文训练的速度对比如下:

**MoE** Qwen3-30B-A3B:

|          | Megatron-LM | DeepSpeed-ZeRO2 | DeepSpeed-ZeRO3 |
| -------- | ----------- | --------------- | --------------- |
| 训练速度 | 9.6s/it     | -               | 91.2s/it        |
| 显存使用 | 16 * 60GiB  | OOM             | 16 * 80GiB      |


## Megatron-SWIFT微信群

<img src="https://raw.githubusercontent.com/modelscope/ms-swift/main/docs/resources/wechat/megatron.png" width="250">