tobil
/

qmd-training-scripts

tobil commited on Jan 24

Commit

6ca0e08

verified ·

1 Parent(s): 37174c2

Upload train_grpo.py with huggingface_hub

Files changed (1) hide show

train_grpo.py CHANGED Viewed

@@ -150,6 +150,7 @@ def compute_length_reward(text: str) -> float:
 class QMDRewardFunction:
     """Combined reward function for QMD query expansion."""
     def __init__(self):
         # Load a small embedding model for diversity computation
@@ -272,7 +273,7 @@ def main():
         processing_class=tokenizer,
         args=config,
         train_dataset=dataset,
-        reward_funcs=reward_fn,
     )
     # Train

 class QMDRewardFunction:
     """Combined reward function for QMD query expansion."""
+    __name__ = "qmd_format_diversity_reward"
     def __init__(self):
         # Load a small embedding model for diversity computation
         processing_class=tokenizer,
         args=config,
         train_dataset=dataset,
+        reward_funcs=[reward_fn],
     )
     # Train