多图输入的占位符或顺序?

#63
by noobimp - opened

Hi,想请问一下,类似MMMU-Pro的多图输入应该如何组织prompt,用< image >占位并按顺序传图片就可以吗?感谢~

Moonshot AI org

我们测试了很多种方式,MMMU-Pro的性能都比较稳定在report分数,方差较低。

  1. 图片的插入方式:

    不建议采取 model judge 的方式!

  • 把所有图统一放到最前,后边按照 image1, 2,3,4 来占位
  • 把图插入到 placeholder对应的位置
  1. 测试的prompt:

    不建议采取 model judge 的方式,可能会受 judge model 倾向的影响

  • 使用MMMU-Pro官方的测试prompt,加对应的regex提取
  • 参考MMLU-Pro官方测试prompt,加对应的regex提取

可以参考这个code:https://github.com/MoonshotAI/Kimi-Vendor-Verifier/blob/main/mmmu_pro_vision.py,对应第一种图片插入方式和第一种测试prompt。

我们测试了很多种方式,MMMU-Pro的性能都比较稳定在report分数,方差较低。

  1. 图片的插入方式:

    不建议采取 model judge 的方式!

  • 把所有图统一放到最前,后边按照 image1, 2,3,4 来占位
  • 把图插入到 placeholder对应的位置
  1. 测试的prompt:

    不建议采取 model judge 的方式,可能会受 judge model 倾向的影响

  • 使用MMMU-Pro官方的测试prompt,加对应的regex提取
  • 参考MMLU-Pro官方测试prompt,加对应的regex提取

可以参考这个code:https://github.com/MoonshotAI/Kimi-Vendor-Verifier/blob/main/mmmu_pro_vision.py,对应第一种图片插入方式和第一种测试prompt。

感谢您的回复,我基本沿用了MMMU-Pro官方的code,按顺序组织图片,先传图再传文本,占位符只用了image,没有标1, 2, 3, 4;按规则抽取&评估答案,性能也基本一致。

再次感谢~

Moonshot AI org
edited 13 days ago

可以参考官方的这两种setting https://github.com/MMMU-Benchmark/MMMU/tree/main/mmmu-pro

两种性能几乎一致,建议用第二种,更方便

image

Sign up or log in to comment