Create README.md
Browse files
README.md
ADDED
|
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
参数名 解释
|
| 2 |
+
data_path 数据路径或 HuggingFace 仓库名
|
| 3 |
+
max_length 单条数据最大 Token 数,超过则截断
|
| 4 |
+
pack_to_max_length 是否将多条短数据拼接到 max_length,提高 GPU 利用率
|
| 5 |
+
accumulative_counts 梯度累积,每多少次 backward 更新一次参数
|
| 6 |
+
sequence_parallel_size 并行序列处理的大小,用于模型训练时的序列并行
|
| 7 |
+
batch_size 每个设备上的批量大小
|
| 8 |
+
dataloader_num_workers 数据加载器中工作进程的数量
|
| 9 |
+
max_epochs 训练的最大轮数
|
| 10 |
+
optim_type 优化器类型,例如 AdamW
|
| 11 |
+
lr 学习率
|
| 12 |
+
betas 优化器中的 beta 参数,控制动量和平方梯度的移动平均
|
| 13 |
+
weight_decay 权重衰减系数,用于正则化和避免过拟合
|
| 14 |
+
max_norm 梯度裁剪的最大范数,用于防止梯度爆炸
|
| 15 |
+
warmup_ratio 预热的比例,学习率在这个比例的训练过程中线性增加到初始学习率
|
| 16 |
+
save_steps 保存模型的步数间隔
|
| 17 |
+
save_total_limit 保存的模型总数限制,超过限制时删除旧的模型文件
|
| 18 |
+
prompt_template 模板提示,用于定义生成文本的格式或结构
|
| 19 |
+
...... ......
|
| 20 |
+
如果想充分利用显卡资源,可以将 max_length 和 batch_size 这两个参数调大。 ⚠但需要注意的是,在训练 chat 模型时调节参数 batch_size 有可能会影响对话模型的效果。
|