ligaments-dev
/

grpo-training-scripts

ligaments-dev commited on Dec 10, 2025

Commit

d21a432

verified ·

1 Parent(s): 5f0d2a1

Upload grpo_training.py with huggingface_hub

Files changed (1) hide show

grpo_training.py CHANGED Viewed

@@ -36,7 +36,6 @@ config = GRPOConfig(
     per_device_eval_batch_size=1,
     gradient_accumulation_steps=8,  # Effective batch size = 8
     learning_rate=1e-6,
-    max_length=1024,
     # Evaluation and logging
     eval_strategy="steps",
@@ -59,10 +58,6 @@ config = GRPOConfig(
     report_to="trackio",
     run_name="llama3.2-1b-sec-grpo-training",
     project="ligaments-sec-alignment",
-    # GRPO specific parameters
-    kl_penalty="kl",  # KL penalty for policy regularization
-    temperature=0.7,
 )
 # Initialize GRPO trainer
@@ -71,6 +66,7 @@ trainer = GRPOTrainer(
     tokenizer=tokenizer,
     train_dataset=train_dataset,
     eval_dataset=eval_dataset,
     peft_config=LoraConfig(
         r=16,
         lora_alpha=32,

     per_device_eval_batch_size=1,
     gradient_accumulation_steps=8,  # Effective batch size = 8
     learning_rate=1e-6,
     # Evaluation and logging
     eval_strategy="steps",
     report_to="trackio",
     run_name="llama3.2-1b-sec-grpo-training",
     project="ligaments-sec-alignment",
 )
 # Initialize GRPO trainer
     tokenizer=tokenizer,
     train_dataset=train_dataset,
     eval_dataset=eval_dataset,
+    max_length=1024,  # Sequence length control
     peft_config=LoraConfig(
         r=16,
         lora_alpha=32,