spurious-rewards - a alphaXiv Collection

alphaXiv 's Collections

attention-is-not-all-you-need

spurious-rewards

Reproducing-TRM

spurious-rewards

updated Jan 6

alphaXiv/spurious-rewards-rlvr-training-qwen-2.5-1.5b-math-ckpt-400

2B • Updated Jan 1 • 1
alphaXiv/spurious-rewards-rlvr-training-qwen-2.5-1.5b-math-ckpt-1000

2B • Updated Jan 1 • 2
alphaXiv/spurious-rewards-rlvr-training-qwen-2.5-1.5b-math-ckpt-200

2B • Updated Jan 1 • 2
alphaXiv/spurious-rewards-rlvr-training-qwen-2.5-1.5b-math-ckpt-50

2B • Updated Jan 1 • 4
alphaXiv/spurious-rewards-reasoning-traces

Updated Jan 6
alphaXiv/spurious-rewards-data

Preview • Updated Jan 6 • 105