ligaments-dev
/

grpo-training-scripts

ligaments-dev commited on Dec 10, 2025

Commit

2ce6fb9

verified ·

1 Parent(s): 4eff6b5

Upload grpo_training.py with huggingface_hub

Files changed (1) hide show

grpo_training.py CHANGED Viewed

@@ -31,7 +31,7 @@ if tokenizer.pad_token is None:
 # Load the model explicitly
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    torch_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16,
     device_map="auto"
 )
@@ -87,7 +87,6 @@ def preference_reward_func(samples):
 # Initialize GRPO trainer
 trainer = GRPOTrainer(
     model=model,
-    tokenizer=tokenizer,
     reward_funcs=[preference_reward_func],
     train_dataset=train_dataset,
     eval_dataset=eval_dataset,

 # Load the model explicitly
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16,
     device_map="auto"
 )
 # Initialize GRPO trainer
 trainer = GRPOTrainer(
     model=model,
     reward_funcs=[preference_reward_func],
     train_dataset=train_dataset,
     eval_dataset=eval_dataset,