DPO-RM

community

AI & ML interests

None defined yet.

Recent Activity

FlippyDora authored a paper 18 days ago

EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents

FlippyDora authored a paper 18 days ago

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

FlippyDora authored a paper 18 days ago

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

View all activity

DPO-RM 's models 52

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step100-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step100-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step90-reward

2B • Updated May 5, 2025

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step90-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step80-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step80-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step70-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step70-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step60-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step60-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step50-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step50-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step40-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step40-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step30-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step30-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step20-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step20-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step10-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-no_logSoftmax-eurus_rl_15k-step10-actor

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-vanilla-eurus_rl_15k-reward

2B • Updated May 5, 2025 • 1

DPO-RM/Qwen2.5-Math-1.5B-prime-vanilla-eurus_rl_15k-actor

2B • Updated May 5, 2025 • 1