LifelongAlignment
/

Qwen2.5-0.5B-Instruct_CPPO_REWARD_0

Model card Files Files and versions

Qwen2.5-0.5B-Instruct_CPPO_REWARD_0 / tokenizer.json

Commit History

dataset 0 reward model training

65bb19b
verified

Shahradmz commited on May 12, 2025