Siddiqui's picture

1

Siddiqui

taimurs

solarperimeter

AI & ML interests

LLMs and CV.

Recent Activity

commented on a paper 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

View all activity

Organizations

None yet

commented a paper 2 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 3 days ago • 135 •