sarosavo
/

Master-RM

Text Classification

text-generation

text-embeddings-inference

Model card Files Files and versions

sarosavo commited on Jul 14, 2025

Commit

44c48a5

·

verified ·

1 Parent(s): cb6b105

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -111,7 +111,7 @@ bash reward_server/launch_reward.sh {MODEL_PATH} {ANSWER_PATH} {METRIC}
 ### Start training
 ```bash
-bash train.sh {METHOD} {PRETRAIN_PATH} {DATA_PATH} {REWARD_API}
 # METHOD:          advantage estimator, e.g., reinforce_baseline, reinforce, rloo
 # PRETRAIN_PATH:   path to the pretrained model, e.g., Qwen2.5-7B

 ### Start training
 ```bash
+bash reward_server/RLVR_train.sh {METHOD} {PRETRAIN_PATH} {DATA_PATH} {REWARD_API}
 # METHOD:          advantage estimator, e.g., reinforce_baseline, reinforce, rloo
 # PRETRAIN_PATH:   path to the pretrained model, e.g., Qwen2.5-7B