zz1358m
/

SofT-GRPO-master

zz1358m commited on Nov 10, 2025

Commit

eca69d7

verified ·

1 Parent(s): 160479a

Update SofT-GRPO-deepscaler-8k-llama3.sh

Files changed (1) hide show

SofT-GRPO-deepscaler-8k-llama3.sh CHANGED Viewed

@@ -51,7 +51,7 @@ actor_rollout_ref.ref.strategy=fsdp2 \
 algorithm.use_kl_in_reward=False \
 trainer.critic_warmup=0 \
 trainer.logger=['console','tensorboard'] \
-trainer.project_name='verl_soft-thinking-grpo_example_gsm8k_0_1_0_95_llama3b' \
 trainer.experiment_name='8k-train' \
 trainer.val_before_train=True \
 trainer.n_gpus_per_node=8 \

 algorithm.use_kl_in_reward=False \
 trainer.critic_warmup=0 \
 trainer.logger=['console','tensorboard'] \
+trainer.project_name='verl_soft-thinking-grpo_example_deepscaler_0_1_0_95_llama3b' \
 trainer.experiment_name='8k-train' \
 trainer.val_before_train=True \
 trainer.n_gpus_per_node=8 \