ligaments-dev
/

grpo-training-scripts

ligaments-dev commited on Dec 10, 2025

Commit

d3ecd31

verified ·

1 Parent(s): 2ce6fb9

Upload grpo_training.py with huggingface_hub

Files changed (1) hide show

grpo_training.py CHANGED Viewed

@@ -68,12 +68,12 @@ config = GRPOConfig(
 )
 # Define reward function for GRPO
-def preference_reward_func(samples):
     """Simple reward function based on response length preference"""
     rewards = []
-    for sample in samples:
         # Prefer shorter, more concise responses (addressing verbosity issue)
-        response_length = len(sample["response"].split())
         # Reward shorter responses (up to a reasonable length)
         if response_length < 50:
             reward = 1.0

 )
 # Define reward function for GRPO
+def preference_reward_func(inputs, prompts, completions, completion_ids_list):
     """Simple reward function based on response length preference"""
     rewards = []
+    for completion in completions:
         # Prefer shorter, more concise responses (addressing verbosity issue)
+        response_length = len(completion.split())
         # Reward shorter responses (up to a reasonable length)
         if response_length < 50:
             reward = 1.0