RL post-training - a jaygala24 Collection

jaygala24 's Collections

RL post-training

RL post-training

updated Apr 29

jaygala24/Qwen3-4B-GRPO-KL-math-reasoning

Text Generation • 4B • Updated Apr 20 • 111
jaygala24/Qwen3-4B-GRPO-math-reasoning

Text Generation • 4B • Updated Apr 20 • 7
jaygala24/Qwen3-4B-ReMax-math-reasoning

Text Generation • 4B • Updated Apr 20 • 9
jaygala24/Qwen3-4B-RLOO-math-reasoning

Text Generation • 4B • Updated Apr 26 • 51
jaygala24/Qwen3-4B-DAPO-math-reasoning

Text Generation • 4B • Updated Apr 29 • 55
jaygala24/Qwen3-1.7B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 8
jaygala24/Qwen3-1.7B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 105
jaygala24/Qwen3-1.7B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 10
jaygala24/Qwen3-1.7B-RLOO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 51
jaygala24/Qwen3-1.7B-DAPO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 53
jaygala24/Qwen2.5-3B-GRPO-KL-math-reasoning

Text Generation • 3B • Updated Apr 20 • 11
jaygala24/Qwen2.5-3B-GRPO-math-reasoning

Text Generation • 3B • Updated Apr 20 • 7
jaygala24/Qwen2.5-3B-ReMax-math-reasoning

Text Generation • 3B • Updated Apr 20 • 10
jaygala24/Qwen2.5-3B-RLOO-math-reasoning

Text Generation • 3B • Updated Apr 25 • 54
jaygala24/Qwen2.5-3B-DAPO-math-reasoning

Text Generation • 3B • Updated Apr 25 • 58
jaygala24/Qwen2.5-1.5B-GRPO-KL-math-reasoning

Text Generation • 2B • Updated Apr 20 • 8
jaygala24/Qwen2.5-1.5B-GRPO-math-reasoning

Text Generation • 2B • Updated Apr 20 • 6
jaygala24/Qwen2.5-1.5B-ReMax-math-reasoning

Text Generation • 2B • Updated Apr 20 • 6
jaygala24/Qwen2.5-1.5B-RLOO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 56
jaygala24/Qwen2.5-1.5B-DAPO-math-reasoning

Text Generation • 2B • Updated Apr 25 • 55
jaygala24/Qwen2.5-0.5B-GRPO-KL-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 10
jaygala24/Qwen2.5-0.5B-GRPO-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 9
jaygala24/Qwen2.5-0.5B-ReMax-math-reasoning

Text Generation • 0.5B • Updated Apr 20 • 7
jaygala24/Qwen2.5-0.5B-RLOO-math-reasoning

Text Generation • 0.5B • Updated Apr 25 • 52
jaygala24/Qwen2.5-0.5B-DAPO-math-reasoning

Text Generation • 0.5B • Updated Apr 25 • 215