多图输入的占位符或顺序?
#63
by
noobimp
- opened
Hi,想请问一下,类似MMMU-Pro的多图输入应该如何组织prompt,用< image >占位并按顺序传图片就可以吗?感谢~
hi
我们测试了很多种方式,MMMU-Pro的性能都比较稳定在report分数,方差较低。
- 图片的插入方式:
不建议采取 model judge 的方式!
- 把所有图统一放到最前,后边按照 image1, 2,3,4 来占位
- 把图插入到 placeholder对应的位置
- 测试的prompt:
不建议采取 model judge 的方式,可能会受 judge model 倾向的影响
- 使用MMMU-Pro官方的测试prompt,加对应的regex提取
- 参考MMLU-Pro官方测试prompt,加对应的regex提取
我们测试了很多种方式,MMMU-Pro的性能都比较稳定在report分数,方差较低。
- 图片的插入方式:
不建议采取 model judge 的方式!
- 把所有图统一放到最前,后边按照 image1, 2,3,4 来占位
- 把图插入到 placeholder对应的位置
- 测试的prompt:
不建议采取 model judge 的方式,可能会受 judge model 倾向的影响
- 使用MMMU-Pro官方的测试prompt,加对应的regex提取
- 参考MMLU-Pro官方测试prompt,加对应的regex提取
感谢您的回复,我基本沿用了MMMU-Pro官方的code,按顺序组织图片,先传图再传文本,占位符只用了image,没有标1, 2, 3, 4;按规则抽取&评估答案,性能也基本一致。
再次感谢~
