mm_homework / README.md

Create README.md

0544d4e verified 8 months ago

2.12 kB


	# 数学多模态大模型实验集合 (Math Multimodal Models)

	这是一个包含多个实验性多模态大模型的集合，旨在探索不同数据集和训练策略在数学问题解决能力上的表现。所有模型均在 `MathVista` 和 `MathVerse` 这两个基准上进行了评测。

	## 模型描述

	该项目包含了一系列通过不同方法训练的模型。每个模型都作为一个独立的 `git` 分支（revision）保存在此仓库中，您可以通过实验编号来加载特定的模型。

	### 各实验模型（Revisions）详解

	以下是每个实验分支的详细配置说明：

	* `EXP_1.1`
	* 训练方式: SFT (Supervised Fine-Tuning)，使用默认的长思维链（long CoT）进行训练。
	* 数据集: `Vision-R1 (5w)` + `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_1.2`
	* 训练方式: SFT，使用长思维链（long CoT），但格式为 `solution`。
	* 数据集: `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_2.1`
	* 训练方式: SFT。
	* 数据集: `OpenR1-Math-220k (9.5w)` + `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_3.1`
	* 训练方式: 使用短思维链（short CoT），格式为 `original_answer`。
	* 数据集: `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_3.2`
	* 训练方式: MIX（混合训练策略）。
	* 数据集: `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_4.1`
	* 训练方式: RL (Reinforcement Learning)，针对修改格式进行了优化。
	* 数据集: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。
	* 备注: 此模型在 `MathVista` 上取得了本次实验中的最佳性能。

	* `EXP_4.2`
	* 训练方式: SFT。
	* 数据集: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。

	* `EXP_4.3`
	* 训练方式: 混合策略。在 `8k` 数据集上进行 SFT 冷启动，在 `3k` 数据集上使用 GRPO。
	* 数据集: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。


	# 数学多模态大模型实验集合 (Math Multimodal Models)

	这是一个包含多个实验性多模态大模型的集合，旨在探索不同数据集和训练策略在数学问题解决能力上的表现。所有模型均在 `MathVista` 和 `MathVerse` 这两个基准上进行了评测。

	## 模型描述

	该项目包含了一系列通过不同方法训练的模型。每个模型都作为一个独立的 `git` 分支（revision）保存在此仓库中，您可以通过实验编号来加载特定的模型。

	### 各实验模型（Revisions）详解

	以下是每个实验分支的详细配置说明：

	* `EXP_1.1`
	* 训练方式: SFT (Supervised Fine-Tuning)，使用默认的长思维链（long CoT）进行训练。
	* 数据集: `Vision-R1 (5w)` + `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_1.2`
	* 训练方式: SFT，使用长思维链（long CoT），但格式为 `solution`。
	* 数据集: `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_2.1`
	* 训练方式: SFT。
	* 数据集: `OpenR1-Math-220k (9.5w)` + `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_3.1`
	* 训练方式: 使用短思维链（short CoT），格式为 `original_answer`。
	* 数据集: `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_3.2`
	* 训练方式: MIX（混合训练策略）。
	* 数据集: `multimodal-open-r1-8k-verified (8k)`。

	* `EXP_4.1`
	* 训练方式: RL (Reinforcement Learning)，针对修改格式进行了优化。
	* 数据集: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。
	* 备注: 此模型在 `MathVista` 上取得了本次实验中的最佳性能。

	* `EXP_4.2`
	* 训练方式: SFT。
	* 数据集: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。

	* `EXP_4.3`
	* 训练方式: 混合策略。在 `8k` 数据集上进行 SFT 冷启动，在 `3k` 数据集上使用 GRPO。
	* 数据集: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。