Spaces:

miyuki2026
/

OpenMiniMind

Sleeping

miyuki2026 commited on Feb 20

Commit

e96faee

1 Parent(s): 3b65b42

update

Files changed (2) hide show

examples/tutorials/dpo/ultrachat-sft/step_2_train_sft_model_ddp.py CHANGED Viewed

@@ -34,7 +34,7 @@ from trl import SFTTrainer, SFTConfig, DataCollatorForCompletionOnlyLM
 def get_args():
     parser = argparse.ArgumentParser()
-    parser.add_argument("--local_rank", type=int, default=0)  # torchrun会自动传递这个参数
     parser.add_argument(
         "--model_name",

 def get_args():
     parser = argparse.ArgumentParser()
+    parser.add_argument("--local_rank", type=int, default=-1)  # torchrun会自动传递这个参数
     parser.add_argument(
         "--model_name",

examples/tutorials/dpo/ultrafeedback-dpo/step_2_train_dpo_model_ddp_qlora.py CHANGED Viewed

@@ -11,6 +11,16 @@ torchrun --nproc_per_node=2 step_2_train_dpo_model_ddp_qlora.py
 DPO本来就是风格微调，用LoRA 训练更合理，更科学。
 """
 import argparse
 import os
@@ -69,7 +79,8 @@ def get_args():
         type=str
     ),
-    parser.add_argument("--beta", default=0.5, type=float),
     parser.add_argument(
         "--num_workers",
@@ -166,8 +177,8 @@ def main():
     ref_model = prepare_model_for_kbit_training(ref_model)
     lora_config = LoraConfig(
-        r=16,
-        lora_alpha=32,
         target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
         lora_dropout=0.1,
         bias="none",
@@ -227,7 +238,7 @@ def main():
         report_to="none",
         max_length=1024 if debug_mode else 2048,  # prompt + chosen 的最大长度
         # DPO 特定参数
-        beta=args.beta,  # DPO 的温度参数，控制对 preference 的置信度
         remove_unused_columns=False,
         dataloader_pin_memory=False,

 DPO本来就是风格微调，用LoRA 训练更合理，更科学。
+----------
+nohup torchrun --nproc_per_node=2 step_2_train_dpo_model_ddp_qlora.py \
+--dpo_beta 0.5 \
+--lora_rank 32 \
+&
+kill -9 `ps -aef | grep 'step_2_train_dpo_model_ddp_qlora.py' | grep -v grep | awk '{print $2}'`
 """
 import argparse
 import os
         type=str
     ),
+    parser.add_argument("--dpo_beta", default=0.5, type=float),
+    parser.add_argument("--lora_rank", default=32, type=int),
     parser.add_argument(
         "--num_workers",
     ref_model = prepare_model_for_kbit_training(ref_model)
     lora_config = LoraConfig(
+        r=args.lora_rank,
+        lora_alpha=args.lora_rank * 2,
         target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
         lora_dropout=0.1,
         bias="none",
         report_to="none",
         max_length=1024 if debug_mode else 2048,  # prompt + chosen 的最大长度
         # DPO 特定参数
+        beta=args.dpo_beta,  # DPO 的温度参数，控制对 preference 的置信度
         remove_unused_columns=False,
         dataloader_pin_memory=False,