25-26 RL - a nilbot Collection

nilbot 's Collections

20s LLM Toolbox

25-26 RL

updated about 3 hours ago

DanceOPD: On-Policy Generative Field Distillation

Paper • 2606.27377 • Published 5 days ago • 73
OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Paper • 2606.26790 • Published 5 days ago • 49