Reinforcement Learning - a lokendra77 Collection

lokendra77 's Collections

AI System Engineering

Reinforcement Learning

Reinforcement Learning

updated 25 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 233
DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

Paper • 2605.21467 • Published May 20 • 207