🌾Oat-Zero: Understanding R1-Zero-Like Training - a sail Collection

sail 's Collections

🚀 Active PRM

🌾Oat-Zero: Understanding R1-Zero-Like Training

🔱 Sailor2 Language Models

🧬 RegMix: Data Mixture as Regression

📈 Scaling Laws with Vocabulary

⚓️ Sailor Language Models

🌾Oat-Zero: Understanding R1-Zero-Like Training

updated Apr 10, 2025

Understanding R1-Zero-Like Training: A Critical Perspective

Paper • 2503.20783 • Published Mar 26, 2025 • 60
sail/Qwen2.5-Math-7B-Oat-Zero

Text Generation • 8B • Updated Jun 30, 2025 • 1.6k • • 6
sail/Qwen2.5-Math-1.5B-Oat-Zero

Text Generation • 2B • Updated Jun 30, 2025 • 159 • • 4
sail/Llama-3.2-3B-Oat-Zero

Text Generation • 3B • Updated Jun 30, 2025 • 5 • • 1
lkevinzc/Llama-3.2-3B-NuminaQA

Text Generation • 3B • Updated Jun 30, 2025 • 13 • • 3