tobil
/

qmd-training-scripts

tobil commited on Jan 24

Commit

58867a4

verified ·

1 Parent(s): d8b72d4

Upload train_grpo.py with huggingface_hub

Files changed (1) hide show

train_grpo.py CHANGED Viewed

@@ -237,6 +237,20 @@ def main():
     model = model.merge_and_unload()  # Merge LoRA weights
     print("Model loaded and LoRA merged.")
     # Initialize reward function
     reward_fn = QMDRewardFunction()

     model = model.merge_and_unload()  # Merge LoRA weights
     print("Model loaded and LoRA merged.")
+    # Add new LoRA adapter for GRPO training
+    from peft import get_peft_model
+    grpo_lora_config = LoraConfig(
+        r=8,
+        lora_alpha=16,
+        lora_dropout=0.05,
+        bias="none",
+        task_type="CAUSAL_LM",
+        target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
+    )
+    model = get_peft_model(model, grpo_lora_config)
+    model.print_trainable_parameters()
+    print("Added new LoRA adapter for GRPO.")
     # Initialize reward function
     reward_fn = QMDRewardFunction()