Create README.md
Browse files
README.md
ADDED
|
@@ -0,0 +1,45 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
|
| 2 |
+
# 数学多模态大模型实验集合 (Math Multimodal Models)
|
| 3 |
+
|
| 4 |
+
这是一个包含多个实验性多模态大模型的集合,旨在探索不同数据集和训练策略在数学问题解决能力上的表现。所有模型均在 `MathVista` 和 `MathVerse` 这两个基准上进行了评测。
|
| 5 |
+
|
| 6 |
+
## 模型描述
|
| 7 |
+
|
| 8 |
+
该项目包含了一系列通过不同方法训练的模型。每个模型都作为一个独立的 `git` 分支(revision)保存在此仓库中,您可以通过实验编号来加载特定的模型。
|
| 9 |
+
|
| 10 |
+
### 各实验模型(Revisions)详解
|
| 11 |
+
|
| 12 |
+
以下是每个实验分支的详细配置说明:
|
| 13 |
+
|
| 14 |
+
* **`EXP_1.1`**
|
| 15 |
+
* **训练方式**: SFT (Supervised Fine-Tuning),使用默认的长思维链(long CoT)进行训练。
|
| 16 |
+
* **数据集**: `Vision-R1 (5w)` + `multimodal-open-r1-8k-verified (8k)`。
|
| 17 |
+
|
| 18 |
+
* **`EXP_1.2`**
|
| 19 |
+
* **训练方式**: SFT,使用长思维链(long CoT),但格式为 `solution`。
|
| 20 |
+
* **数据集**: `multimodal-open-r1-8k-verified (8k)`。
|
| 21 |
+
|
| 22 |
+
* **`EXP_2.1`**
|
| 23 |
+
* **训练方式**: SFT。
|
| 24 |
+
* **数据集**: `OpenR1-Math-220k (9.5w)` + `multimodal-open-r1-8k-verified (8k)`。
|
| 25 |
+
|
| 26 |
+
* **`EXP_3.1`**
|
| 27 |
+
* **训练方式**: 使用短思维链(short CoT),格式为 `original_answer`。
|
| 28 |
+
* **数据集**: `multimodal-open-r1-8k-verified (8k)`。
|
| 29 |
+
|
| 30 |
+
* **`EXP_3.2`**
|
| 31 |
+
* **训练方式**: MIX(混合训练策略)。
|
| 32 |
+
* **数据集**: `multimodal-open-r1-8k-verified (8k)`。
|
| 33 |
+
|
| 34 |
+
* **`EXP_4.1`**
|
| 35 |
+
* **训练方式**: RL (Reinforcement Learning),针对修改格式进行了优化。
|
| 36 |
+
* **数据集**: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。
|
| 37 |
+
* **备注**: 此模型在 `MathVista` 上取得了本次实验中的最佳性能。
|
| 38 |
+
|
| 39 |
+
* **`EXP_4.2`**
|
| 40 |
+
* **训练方式**: SFT。
|
| 41 |
+
* **数据集**: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。
|
| 42 |
+
|
| 43 |
+
* **`EXP_4.3`**
|
| 44 |
+
* **训练方式**: 混合策略。在 `8k` 数据集上进行 SFT 冷启动,在 `3k` 数据集上使用 GRPO。
|
| 45 |
+
* **数据集**: `multimodal-open-r1-8k-verified (8k)` + `geometry3k (3k)`。
|