UniRM:用于多模态内容审核的多头标量奖励模型
UniRM 是一个用于多模态内容审核的多头标量奖励模型,能够提供可解释的、属性级别的评分信号。
该模型被设计用于支持 UniMod 中的开放式推理策略优化,尤其适用于缺乏确定性标签的响应生成阶段。
UniRM 将奖励信号解耦为多个维度,使模型能够区分表达质量与安全边界(隐私、偏见、有害性、合法性),从而实现更透明的诊断与更稳定的训练。
演示视频
UniRM 演示视频:
快速开始(Gradio)
下面给出一个最小化的 Gradio 示例,用于加载 UniRM,并对 (输入指令、模型回复、可选图像) 进行多头奖励评分。
git clone https://github.com/TideDra/lmm-r1.git
cd lmm-r1
pip install -e .[vllm]
pip install flash_attn --no-build-isolation
python unirm.py --model_path {PATH_TO_UNIRM}