MRPO - a dmis-lab Collection

dmis-lab 's Collections

Outlier-Safe Pre-Training (OSP)

MRPO

updated about 18 hours ago

This collection hosts MRPO series introduced in paper, Breaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning

Breaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning

Paper • 2606.31825 • Published 4 days ago • 14
dmis-lab/Qwen3-VL-8B-Instruct-MRPO

Image-Text-to-Text • 770k • Updated about 15 hours ago
dmis-lab/Qwen2.5-VL-7B-Instruct-MRPO

Image-Text-to-Text • 849k • Updated about 15 hours ago