ligaments-dev
/

grpo-training-scripts

ligaments-dev commited on Dec 10, 2025

Commit

a22a2fe

verified ·

1 Parent(s): d3ecd31

Upload grpo_training.py with huggingface_hub

Files changed (1) hide show

grpo_training.py CHANGED Viewed

@@ -68,8 +68,11 @@ config = GRPOConfig(
 )
 # Define reward function for GRPO
-def preference_reward_func(inputs, prompts, completions, completion_ids_list):
     """Simple reward function based on response length preference"""
     rewards = []
     for completion in completions:
         # Prefer shorter, more concise responses (addressing verbosity issue)

 )
 # Define reward function for GRPO
+def preference_reward_func(**kwargs):
     """Simple reward function based on response length preference"""
+    # Extract completions from kwargs
+    completions = kwargs.get('completions', [])
     rewards = []
     for completion in completions:
         # Prefer shorter, more concise responses (addressing verbosity issue)