YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
数学多模态大模型实验集合 (Math Multimodal Models)
这是一个包含多个实验性多模态大模型的集合,旨在探索不同数据集和训练策略在数学问题解决能力上的表现。所有模型均在 MathVista 和 MathVerse 这两个基准上进行了评测。
模型描述
该项目包含了一系列通过不同方法训练的模型。每个模型都作为一个独立的 git 分支(revision)保存在此仓库中,您可以通过实验编号来加载特定的模型。
各实验模型(Revisions)详解
以下是每个实验分支的详细配置说明:
EXP_1.1- 训练方式: SFT (Supervised Fine-Tuning),使用默认的长思维链(long CoT)进行训练。
- 数据集:
Vision-R1 (5w)+multimodal-open-r1-8k-verified (8k)。
EXP_1.2- 训练方式: SFT,使用长思维链(long CoT),但格式为
solution。 - 数据集:
multimodal-open-r1-8k-verified (8k)。
- 训练方式: SFT,使用长思维链(long CoT),但格式为
EXP_2.1- 训练方式: SFT。
- 数据集:
OpenR1-Math-220k (9.5w)+multimodal-open-r1-8k-verified (8k)。
EXP_3.1- 训练方式: 使用短思维链(short CoT),格式为
original_answer。 - 数据集:
multimodal-open-r1-8k-verified (8k)。
- 训练方式: 使用短思维链(short CoT),格式为
EXP_3.2- 训练方式: MIX(混合训练策略)。
- 数据集:
multimodal-open-r1-8k-verified (8k)。
EXP_4.1- 训练方式: RL (Reinforcement Learning),针对修改格式进行了优化。
- 数据集:
multimodal-open-r1-8k-verified (8k)+geometry3k (3k)。 - 备注: 此模型在
MathVista上取得了本次实验中的最佳性能。
EXP_4.2- 训练方式: SFT。
- 数据集:
multimodal-open-r1-8k-verified (8k)+geometry3k (3k)。
EXP_4.3- 训练方式: 混合策略。在
8k数据集上进行 SFT 冷启动,在3k数据集上使用 GRPO。 - 数据集:
multimodal-open-r1-8k-verified (8k)+geometry3k (3k)。
- 训练方式: 混合策略。在
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support