rx0206
/

internlm_InternLM2

Model card Files Files and versions

rx0206 commited on Jan 11, 2025

Commit

589ba77

·

verified ·

1 Parent(s): 53a84c2

Create README.md

Files changed (1) hide show

README.md +20 -0

README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+参数名	解释
+data_path	数据路径或 HuggingFace 仓库名
+max_length	单条数据最大 Token 数，超过则截断
+pack_to_max_length	是否将多条短数据拼接到 max_length，提高 GPU 利用率
+accumulative_counts	梯度累积，每多少次 backward 更新一次参数
+sequence_parallel_size	并行序列处理的大小，用于模型训练时的序列并行
+batch_size	每个设备上的批量大小
+dataloader_num_workers	数据加载器中工作进程的数量
+max_epochs	训练的最大轮数
+optim_type	优化器类型，例如 AdamW
+lr	学习率
+betas	优化器中的 beta 参数，控制动量和平方梯度的移动平均
+weight_decay	权重衰减系数，用于正则化和避免过拟合
+max_norm	梯度裁剪的最大范数，用于防止梯度爆炸
+warmup_ratio	预热的比例，学习率在这个比例的训练过程中线性增加到初始学习率
+save_steps	保存模型的步数间隔
+save_total_limit	保存的模型总数限制，超过限制时删除旧的模型文件
+prompt_template	模板提示，用于定义生成文本的格式或结构
+......	......
+如果想充分利用显卡资源，可以将 max_length 和 batch_size 这两个参数调大。 ⚠但需要注意的是，在训练 chat 模型时调节参数 batch_size 有可能会影响对话模型的效果。