ExGRPO - a rzzhan Collection

rzzhan 's Collections

ExGRPO

updated Oct 3, 2025

Model collections trained using ExGRPO.

rzzhan/ExGRPO-Qwen2.5-Math-7B-Zero

Text Generation • 8B • Updated Oct 24, 2025 • 17 •
rzzhan/ExGRPO-LUFFY-7B-Continual

Text Generation • 8B • Updated Oct 24, 2025 • 4 • 1
rzzhan/ExGRPO-Qwen2.5-7B-Instruct

Text Generation • 8B • Updated Oct 24, 2025 • 3
rzzhan/ExGRPO-Qwen2.5-Math-1.5B-Zero

Text Generation • 2B • Updated Oct 24, 2025 • 9
rzzhan/ExGRPO-Llama3.1-8B-Zero

Text Generation • 8B • Updated Oct 24, 2025 • 2
rzzhan/ExGRPO-Llama3.1-8B-Instruct

Text Generation • 8B • Updated Oct 24, 2025 • 2
ExGRPO: Learning to Reason from Experience

Paper • 2510.02245 • Published Oct 2, 2025 • 83