Spaces:

miyuki2026
/

OpenMiniMind

Sleeping

App Files Files Community

miyuki2026 commited on Feb 22

Commit

da0b98b

1 Parent(s): 2b43e82

update

Browse files

Files changed (2) hide show

examples/tutorials/dpo/ultrafeedback-dpo-unsloth/step_2_train_dpo_model_unsloth_ddp_qlora.py +44 -1
examples/tutorials/grpo/step_2_train_grpo_model_unsloth_ddp.py +52 -10

examples/tutorials/dpo/ultrafeedback-dpo-unsloth/step_2_train_dpo_model_unsloth_ddp_qlora.py CHANGED Viewed

@@ -22,6 +22,49 @@ nohup torchrun --nproc_per_node=4 step_2_train_dpo_model_unsloth_ddp_qlora.py \
 kill -9 `ps -aef | grep 'step_2_train_dpo_model_unsloth_ddp_qlora.py' | grep -v grep | awk '{print $2}'`
 """
 import argparse
 import os
@@ -85,7 +128,7 @@ def get_args():
     parser.add_argument("--num_train_epochs", default=3, type=int),
     parser.add_argument("--learning_rate", default=2e-5, type=float),
-    parser.add_argument("--dpo_beta", default=0.5, type=float),
     parser.add_argument("--lora_rank", default=32, type=int),
     parser.add_argument(

 kill -9 `ps -aef | grep 'step_2_train_dpo_model_unsloth_ddp_qlora.py' | grep -v grep | awk '{print $2}'`
+--------------
+训练日志介绍。
+{'loss': '0.5736', 'grad_norm': '1.373', 'learning_rate': '1.765e-05', 'rewards/chosen': '0.3182', 'rewards/rejected': '-0.2243', 'rewards/accuracies': '0.6938', 'rewards/margins': '0.5425', 'logps/chosen': '-366.9', 'logps/rejected': '-316.8', 'logits/chosen': '-1.945', 'logits/rejected': '-1.889', 'epoch': '0.2434'}
+grad_norm: 1.373，
+所有参数梯度的L2范数，衡量梯度的大小，通常0.1-10之间
+rewards/chosen: 0.3182，
+模型对优选项的奖励值，计算公式为 β * (log π(chosen|x) - log π_ref(chosen|x))
+衡量优选项相对于参考模型的提升程度
+理想值：>0，越大越好
+rewards/rejected: -0.2243
+模型对拒选项的奖励值，计算公式为β * (log π(rejected|x) - log π_ref(rejected|x))
+衡量拒选项相对于参考模型的下降程度
+理想值：<0，越小越好
+rewards/margins: 0.5425
+chosen奖励减去rejected奖励的差值
+理想值：>0.3为良好，>0.5为优秀
+差值越大，模型对chosen和rejected的区分能力越强
+rewards/accuracies: 0.6938
+模型正确区分chosen和rejected的比例
+理想值：0.6-0.8为理想，>0.85可能过拟合
+logps/chosen: -366.9
+模型生成整个优选项序列的对数概率，即log P(chosen|x)
+所有token的log概率之和，负值越大（越接近0）表示概率越高
+应大于（即数值上小于）logps/rejected
+logps/rejected: -316.8
+模型生成整个拒选项序列的对数概率
+应小于（即数值上大于）logps/chosen
+logps/chosen > logps/rejected（数值上更小）是最终目标
 """
 import argparse
 import os
     parser.add_argument("--num_train_epochs", default=3, type=int),
     parser.add_argument("--learning_rate", default=2e-5, type=float),
+    parser.add_argument("--dpo_beta", default=0.1, type=float),
     parser.add_argument("--lora_rank", default=32, type=int),
     parser.add_argument(

examples/tutorials/grpo/step_2_train_grpo_model_unsloth_ddp.py CHANGED Viewed

@@ -9,6 +9,51 @@ python3 -m torch.distributed.run --nproc_per_node=4 step_2_train_grpo_model_unsl
 torchrun --nproc_per_node=4 step_2_train_grpo_model_unsloth_ddp.py
 """
 import argparse
 import os
@@ -27,11 +72,8 @@ else:
     temp_directory = Path("/root/autodl-tmp/OpenMiniMind/temp")
 from datasets import load_dataset
-from transformers import (
-    AutoTokenizer, AutoModelForCausalLM,
-)
 from trl import GRPOConfig, GRPOTrainer
-from unsloth import FastLanguageModel, is_bfloat16_supported
 def get_args():
@@ -299,10 +341,10 @@ def main():
     grpo_config = GRPOConfig(
         output_dir=args.output_model_dir,
-        num_train_epochs=3,
-        per_device_train_batch_size=4,
-        per_device_eval_batch_size=4,
-        gradient_accumulation_steps=4,
         learning_rate=5e-6,  # GRPO通常使用较小的学习率
         warmup_ratio=0.1,
         logging_steps=10,
@@ -322,11 +364,11 @@ def main():
         # GRPO特有参数
         num_generations=4,  # 每个提示生成的响应数量
         max_completion_length=512,  # 生成的最大长度
-        steps_per_generation=12,
         temperature=0.7,
         beta=0.001,
-        num_iterations=1,
         epsilon=0.2,
         reward_weights=[0.1, 1.0],
         loss_type="dapo",

 torchrun --nproc_per_node=4 step_2_train_grpo_model_unsloth_ddp.py
+--------------
+训练日志介绍。
+{'loss': 0.0394, 'grad_norm': 0.060413047671318054, 'learning_rate': 1.228568308397947e-09, 'num_tokens': 69862.0, 'completions/mean_length': 226.21875762939453, 'completions/min_length': 89.5, 'completions/max_length': 512.0, 'completions/clipped_ratio': 0.05729166744276881, 'completions/mean_terminated_length': 208.7477569580078, 'completions/min_terminated_length': 89.5, 'completions/max_terminated_length': 465.75, 'rewards/format_reward_func/mean': 0.4739583358168602, 'rewards/format_reward_func/std': 0.1097758337855339, 'rewards/answer_reward_func/mean': 0.08333333488553762, 'rewards/answer_reward_func/std': 0.26695219799876213, 'reward': 0.13072916865348816, 'reward_std': 0.1440115850418806, 'frac_reward_zero_std': 0.6041666865348816, 'kl': -5.28276373756853e-08, 'entropy': 0.6871595978736877, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'epoch': 0.0}
+生成长度指标
+completions/mean_length: 226.22 - 平均生成长度（token数）
+completions/min_length: 89.5 - 最小生成长度
+completions/max_length: 512.0 - 最大生成长度（达到预设上限）
+completions/clipped_ratio: 0.057 - 被截断的生成比例，5.7%的生成被截断
+生成长度
+模型实际生成的token数量
+可能是生成了终止符（EOS token），也可能是达到了最大长度限制
+终止长度指标
+completions/mean_terminated_length: 208.75 - 实际终止的平均长度
+completions/min_terminated_length: 89.5 - 最小终止长度
+completions/max_terminated_length: 465.75 - 最大终止长度
+终止长度
+模型在遇到终止符（EOS token）时停止的生成长度
+只有正常结束（生成了EOS token）的生成才会被计入
+被截断的生成（达到max_length）不计入
+因为：completions/clipped_ratio: 0.057
+被截断的生成比例 = 5.7%
+正常终止（遇到EOS）的生成比例 = 94.3%
+格式奖励
+rewards/format_reward_func/mean: 0.474 - 格式奖励平均值（满分1.0）
+说明约47.4%的生成符合格式要求
+答案正确性奖励
+rewards/answer_reward_func/mean: 0.083 - 答案正确性奖励平均值
+只有8.3%的生成给出了正确答案
+KL散度
+kl: -5.28e-08 - KL散度，接近0表示新策略没有明显偏离旧策略
+熵
+entropy: 0.687 - 策略的熵，表示生成多样性
 """
 import argparse
 import os
     temp_directory = Path("/root/autodl-tmp/OpenMiniMind/temp")
 from datasets import load_dataset
 from trl import GRPOConfig, GRPOTrainer
+from unsloth import FastLanguageModel
 def get_args():
     grpo_config = GRPOConfig(
         output_dir=args.output_model_dir,
+        num_train_epochs=1,
+        per_device_train_batch_size=8,
+        per_device_eval_batch_size=8,
+        gradient_accumulation_steps=2,
         learning_rate=5e-6,  # GRPO通常使用较小的学习率
         warmup_ratio=0.1,
         logging_steps=10,
         # GRPO特有参数
         num_generations=4,  # 每个提示生成的响应数量
         max_completion_length=512,  # 生成的最大长度
+        steps_per_generation=4,    # 每次生成的数据分成几个mini-batch训练。
         temperature=0.7,
         beta=0.001,
+        num_iterations=1, # 每个训练的mini-batch训练几次。
         epsilon=0.2,
         reward_weights=[0.1, 1.0],
         loss_type="dapo",