55mvresearch
/

Qwen2.5-7B-Instruct-GRPO-Emotion-Script1

Model card Files Files and versions

abedk commited on Feb 18

Commit

78604aa

·

verified ·

1 Parent(s): 7f81d7b

Update train6.py

Files changed (1) hide show

train6.py +13 -8

train6.py CHANGED Viewed

@@ -19,7 +19,7 @@ from openai import AsyncOpenAI
 MODEL_NAME = "55mvresearch/Qwen2.5-7B-Instruct-SFT-FT1-Merged"
 DATASET_NAME = "55mvresearch/sft-v1-singleturn-ads-creativity"
 OUTPUT_DIR = "./grpo_output"
-OUTPUT_REPO = "55mvresearch/Qwen2.5-7B-Instruct-GRPO-Emotion7"
 # Environment tokens
 HF_TOKEN = os.getenv("HUGGINGFACE_HUB_TOKEN") or os.getenv("HF_TOKEN")
@@ -741,22 +741,24 @@ training_args = GRPOConfig(
     output_dir=OUTPUT_DIR,
     # Optimizer settings
-    learning_rate=2e-6,
     adam_beta1=0.9,
     adam_beta2=0.99,
     weight_decay=0.0,
-    warmup_ratio=0.03,
     lr_scheduler_type='cosine',
-    max_grad_norm=0.5,
     # Generation settings
-    num_generations=8,            # Number of completions per prompt
-    max_completion_length=320,
     # Training settings
     per_device_train_batch_size=8,  # Must be divisible by num_generations
     gradient_accumulation_steps=4,
-    num_train_epochs=3,
     # Logging
     logging_steps=10,
@@ -778,7 +780,10 @@ peft_config = LoraConfig(
     r=32,
     lora_alpha=64,
     lora_dropout=0.05,
-    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
     bias="none",
     task_type="CAUSAL_LM",
 )

 MODEL_NAME = "55mvresearch/Qwen2.5-7B-Instruct-SFT-FT1-Merged"
 DATASET_NAME = "55mvresearch/sft-v1-singleturn-ads-creativity"
 OUTPUT_DIR = "./grpo_output"
+OUTPUT_REPO = "55mvresearch/Qwen2.5-7B-Instruct-GRPO-Emotion8"
 # Environment tokens
 HF_TOKEN = os.getenv("HUGGINGFACE_HUB_TOKEN") or os.getenv("HF_TOKEN")
     output_dir=OUTPUT_DIR,
     # Optimizer settings
+    learning_rate=3e-6,
     adam_beta1=0.9,
     adam_beta2=0.99,
     weight_decay=0.0,
+    warmup_ratio=0.05,
     lr_scheduler_type='cosine',
+    max_grad_norm=0.2,
+    beta = 0.02,
     # Generation settings
+    num_generations=16,            # Number of completions per prompt
+    max_completion_length=512,
     # Training settings
     per_device_train_batch_size=8,  # Must be divisible by num_generations
     gradient_accumulation_steps=4,
+    num_train_epochs=2,
     # Logging
     logging_steps=10,
     r=32,
     lora_alpha=64,
     lora_dropout=0.05,
+    target_modules=[
+        "q_proj","k_proj","v_proj","o_proj",
+        "up_proj","down_proj","gate_proj"
+    ],
     bias="none",
     task_type="CAUSAL_LM",
 )