ob11
/

Qwen-VL-PRM-3B

Image-Text-to-Text

text-generation-inference

Model card Files Files and versions

ob11 commited on Sep 30, 2025

Commit

99d3938

·

verified ·

1 Parent(s): c258863

Update README.md

Files changed (1) hide show

README.md +8 -8

README.md CHANGED Viewed

@@ -11,9 +11,9 @@ datasets:
 > Qwen-VL-PRM-3B is a process reward model finetuned from Qwen2.5-3B-Instruct on approximately 300,000 examples. It demonstrates strong test-time scaling performance improvements on various advanced multimodal reasoning benchmarks when used with Qwen2.5-VL and Gemma-3 models despite being trained mainly on abstract reasoning datasets and elementary reasoning datasets.
-- **Logs:** https://wandb.ai/aisg-arf/multimodal-reasoning/runs/pnsncs80/
-- **Repository:** [ob11/vlprm](https://github.com/theogbrand/vlprm/)
-- **Paper:** https://arxiv.org/abs/
 # Use
@@ -59,12 +59,12 @@ The model usage is documented [here](https://github.com/theogbrand/vlprm/blob/ma
 ```bibtex
 @misc{ong2025vlprms,
-      title={VL-PRMs: Vision-Language Process Reward Models},
-      author={Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi and Soujanya Poria},
       year={2025},
-      eprint={},
       archivePrefix={arXiv},
-      primaryClass={cs.CL},
-      url={},
 }
 ```

 > Qwen-VL-PRM-3B is a process reward model finetuned from Qwen2.5-3B-Instruct on approximately 300,000 examples. It demonstrates strong test-time scaling performance improvements on various advanced multimodal reasoning benchmarks when used with Qwen2.5-VL and Gemma-3 models despite being trained mainly on abstract reasoning datasets and elementary reasoning datasets.
+- **Logs:** https://wandb.ai/aisg-arf/multimodal-reasoning/runs/pnsncs80
+- **Repository:** https://github.com/theogbrand/vlprm
+- **Paper:** https://arxiv.org/pdf/2509.23250
 # Use
 ```bibtex
 @misc{ong2025vlprms,
+      title={Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned},
+      author={Brandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, and Soujanya Poria},
       year={2025},
+      eprint={2509.23250},
       archivePrefix={arXiv},
+      primaryClass={cs.AI},
+      url={https://arxiv.org/pdf/2509.23250},
 }
 ```