shawn0wang commited on
Commit
a22127a
·
verified ·
1 Parent(s): b0b109e

Update README_ZH.md

Browse files
Files changed (1) hide show
  1. README_ZH.md +9 -31
README_ZH.md CHANGED
@@ -9,7 +9,7 @@
9
 
10
  ## 1. 介绍
11
 
12
- 我们推出Skywork-R1V,一种多模态推理模型,通过近乎无损的迁移方法,将R1系列文本模型扩展到视觉模态。Skywork-R1V采用轻量级视觉投影器,无需重新训练基础语言模型或视觉编码器,即可实现无缝的多模态适配。为提升视觉-文本对齐,我们开发了结合迭代监督微调(SFT)与组相对策略优化(GRPO)的混合优化策略,显著提高了跨模态融合能力。此外,我们创造了一种自适应长度的思维链(Chain-of-Thought)蒸馏方法用于生成推理数据,动态优化推理链长度以提高推理效率并避免过度推理。该模型在重要多模态推理基准测试中达到最先进水平,在MMMU上得分68.1,在MathVista上得分71.0,可与领先的闭源模型(如Gemini 2.0和Kimi-k1.5)媲美。同时,它还保持了出色的文本推理能力,在AIME达到72.6分,在MATH500达到94.3分。
13
 
14
  ## 2. 模型概述
15
 
@@ -39,7 +39,7 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
39
  </div>
40
 
41
  <div align="center">
42
- <b>Evaluation results of state-of-the-art LLMs and VLMs</b>
43
  </div>
44
  <table>
45
  <thead>
@@ -57,7 +57,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
57
  <th align="center"><strong>GPQA</strong></th>
58
  <th align="center"><strong>MathVista(mini)</strong></th>
59
  <th align="center"><strong>MMMU(Val)</strong></th>
60
- <th align="center"><strong>CSVQA</strong></th>
61
  </tr>
62
  <tr>
63
  <th></th>
@@ -67,7 +66,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
67
  <th align="center">pass@1</th>
68
  <th align="center">pass@1</th>
69
  <th align="center">pass@1</th>
70
- <th align="center">pass@1</th>
71
  </tr>
72
  </thead>
73
  <tbody>
@@ -79,7 +77,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
79
  <td align="center">49.0</td>
80
  <td align="center">-</td>
81
  <td align="center">-</td>
82
- <td align="center">-</td>
83
  </tr>
84
  <tr>
85
  <td>Deepseek V3</td>
@@ -89,7 +86,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
89
  <td align="center">59.1</td>
90
  <td align="center">-</td>
91
  <td align="center">-</td>
92
- <td align="center">-</td>
93
  </tr>
94
  <tr>
95
  <td>Deepseek R1</td>
@@ -99,7 +95,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
99
  <td align="center">71.5</td>
100
  <td align="center">-</td>
101
  <td align="center">-</td>
102
- <td align="center">-</td>
103
  </tr>
104
  <tr>
105
  <td>Claude 3.5 Sonnet</td>
@@ -109,7 +104,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
109
  <td align="center">65.0</td>
110
  <td align="center">67.7</td>
111
  <td align="center">68.3</td>
112
- <td align="center">-</td>
113
  </tr>
114
  <tr>
115
  <td>GPT-4o</td>
@@ -119,7 +113,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
119
  <td align="center">53.6</td>
120
  <td align="center">63.8</td>
121
  <td align="center">69.1</td>
122
- <td align="center">-</td>
123
  </tr>
124
  <tr>
125
  <td>Kimi k1.5</td>
@@ -129,7 +122,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
129
  <td align="center">-</td>
130
  <td align="center">74.9</td>
131
  <td align="center">70.0</td>
132
- <td align="center">-</td>
133
  </tr>
134
  <tr>
135
  <td>Qwen2.5-VL-72B-Instruct</td>
@@ -139,7 +131,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
139
  <td align="center">-</td>
140
  <td align="center">74.8</td>
141
  <td align="center">70.2</td>
142
- <td align="center">-</td>
143
  </tr>
144
  <tr>
145
  <td>LLaVA-Onevision-72B</td>
@@ -149,7 +140,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
149
  <td align="center">-</td>
150
  <td align="center">67.5</td>
151
  <td align="center">56.8</td>
152
- <td align="center">-</td>
153
  </tr>
154
  <tr>
155
  <td>InternVL2-Llama3-76B</td>
@@ -159,7 +149,6 @@ Skywork-R1V采用��块化架构,有效结合视觉和语言能力:
159
  <td align="center">-</td>
160
  <td align="center">65.5</td>
161
  <td align="center">58.3</td>
162
- <td align="center">-</td>
163
  </tr>
164
  <tr>
165
  <td>InternVL2.5-78B</td>
@@ -169,7 +158,6 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
169
  <td align="center">-</td>
170
  <td align="center">72.3</td>
171
  <td align="center">70.1</td>
172
- <td align="center">-</td>
173
  </tr>
174
  <tr>
175
  <td>Skywork-R1V-38B</td>
@@ -177,9 +165,8 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
177
  <td align="center">94.0</td>
178
  <td align="center">72.0</td>
179
  <td align="center">61.6</td>
180
- <td align="center">71.0</td>
181
- <td align="center">68.1</td>
182
- <td align="center">XXX</td>
183
  </tr>
184
  </tbody>
185
  </table>
@@ -239,7 +226,7 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
239
  <td align="center">71.9</td>
240
  <td align="center">49.5</td>
241
  <td align="center">63.7</td>
242
- <td align="center">71.0</td>
243
  </tr>
244
  <tr>
245
  <td>MMMU(Val)</td>
@@ -247,7 +234,7 @@ Skywork-R1V采用模块化架构,有效结合视觉和语言能力:
247
  <td align="center">63.9</td>
248
  <td align="center">55.1</td>
249
  <td align="center">55.2</td>
250
- <td align="center">68.1</td>
251
  </tr>
252
  <tr>
253
  <td>CSVQA</td>
@@ -291,22 +278,13 @@ python demo.py
291
 
292
  ---
293
 
294
- ## 6. 附加资源
295
-
296
- - [📂 GitHub仓库](https://github.com/your-repo)
297
- - [🗨️ Chat Demo](#)
298
- - [🚀 快速入门](#快速入门)
299
- - [📖 完整文档](#)
300
-
301
- ---
302
-
303
- ## 7. 引用
304
  如果您在研究中使用了Skywork-R1V,请引用:
305
 
306
  ```
307
  @article{skywork2025r1v,
308
- title = {Skywork-R1V: Bridging Vision and Language for Advanced Multimodal Reasoning},
309
- author = {SkyworkVL Team},
310
  year = {2025},
311
  journal = {arXiv preprint arXiv:XXXX.XXXXX},
312
  url = {https://github.com/skywork-ai/Skywork-R1V}
 
9
 
10
  ## 1. 介绍
11
 
12
+ 我们推出Skywork-R1V,一种多模态推理模型,通过近乎无损的迁移方法,将R1系列文本模型扩展到视觉模态。Skywork-R1V采用轻量级视觉投影器,无需重新训练基础语言模型或视觉编码器,即可实现无缝的多模态适配。为提升视觉-文本对齐,我们开发了结合迭代监督微调(SFT)与组相对策略优化(GRPO)的混合优化策略,显著提高了跨模态融合能力。此外,我们创造了一种自适应长度的思维链(Chain-of-Thought)蒸馏方法用于生成推理数据,动态优化推理链长度以提高推理效率并避免过度推理。该模型在重要多模态推理基准测试中达到最先进水平,在MMMU上得分69.0,在MathVista上得分67.5,可与领先的闭源模型(如Gemini 2.0和Kimi-k1.5)媲美。同时,它还保持了出色的文本推理能力,在AIME达到72.6分,在MATH500达到94.3分。
13
 
14
  ## 2. 模型概述
15
 
 
39
  </div>
40
 
41
  <div align="center">
42
+ <b>Evaluation results of LLMs and VLMs</b>
43
  </div>
44
  <table>
45
  <thead>
 
57
  <th align="center"><strong>GPQA</strong></th>
58
  <th align="center"><strong>MathVista(mini)</strong></th>
59
  <th align="center"><strong>MMMU(Val)</strong></th>
 
60
  </tr>
61
  <tr>
62
  <th></th>
 
66
  <th align="center">pass@1</th>
67
  <th align="center">pass@1</th>
68
  <th align="center">pass@1</th>
 
69
  </tr>
70
  </thead>
71
  <tbody>
 
77
  <td align="center">49.0</td>
78
  <td align="center">-</td>
79
  <td align="center">-</td>
 
80
  </tr>
81
  <tr>
82
  <td>Deepseek V3</td>
 
86
  <td align="center">59.1</td>
87
  <td align="center">-</td>
88
  <td align="center">-</td>
 
89
  </tr>
90
  <tr>
91
  <td>Deepseek R1</td>
 
95
  <td align="center">71.5</td>
96
  <td align="center">-</td>
97
  <td align="center">-</td>
 
98
  </tr>
99
  <tr>
100
  <td>Claude 3.5 Sonnet</td>
 
104
  <td align="center">65.0</td>
105
  <td align="center">67.7</td>
106
  <td align="center">68.3</td>
 
107
  </tr>
108
  <tr>
109
  <td>GPT-4o</td>
 
113
  <td align="center">53.6</td>
114
  <td align="center">63.8</td>
115
  <td align="center">69.1</td>
 
116
  </tr>
117
  <tr>
118
  <td>Kimi k1.5</td>
 
122
  <td align="center">-</td>
123
  <td align="center">74.9</td>
124
  <td align="center">70.0</td>
 
125
  </tr>
126
  <tr>
127
  <td>Qwen2.5-VL-72B-Instruct</td>
 
131
  <td align="center">-</td>
132
  <td align="center">74.8</td>
133
  <td align="center">70.2</td>
 
134
  </tr>
135
  <tr>
136
  <td>LLaVA-Onevision-72B</td>
 
140
  <td align="center">-</td>
141
  <td align="center">67.5</td>
142
  <td align="center">56.8</td>
 
143
  </tr>
144
  <tr>
145
  <td>InternVL2-Llama3-76B</td>
 
149
  <td align="center">-</td>
150
  <td align="center">65.5</td>
151
  <td align="center">58.3</td>
 
152
  </tr>
153
  <tr>
154
  <td>InternVL2.5-78B</td>
 
158
  <td align="center">-</td>
159
  <td align="center">72.3</td>
160
  <td align="center">70.1</td>
 
161
  </tr>
162
  <tr>
163
  <td>Skywork-R1V-38B</td>
 
165
  <td align="center">94.0</td>
166
  <td align="center">72.0</td>
167
  <td align="center">61.6</td>
168
+ <td align="center">67.5</td>
169
+ <td align="center">69.0</td>
 
170
  </tr>
171
  </tbody>
172
  </table>
 
226
  <td align="center">71.9</td>
227
  <td align="center">49.5</td>
228
  <td align="center">63.7</td>
229
+ <td align="center">67.5</td>
230
  </tr>
231
  <tr>
232
  <td>MMMU(Val)</td>
 
234
  <td align="center">63.9</td>
235
  <td align="center">55.1</td>
236
  <td align="center">55.2</td>
237
+ <td align="center">69.0</td>
238
  </tr>
239
  <tr>
240
  <td>CSVQA</td>
 
278
 
279
  ---
280
 
281
+ ## 6. 引用
 
 
 
 
 
 
 
 
 
282
  如果您在研究中使用了Skywork-R1V,请引用:
283
 
284
  ```
285
  @article{skywork2025r1v,
286
+ title = {Skywork-R1V: Skywork R1V: Bridging Vision and Language for Advanced Multimodal Reasoning},
287
+ author = {Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou},
288
  year = {2025},
289
  journal = {arXiv preprint arXiv:XXXX.XXXXX},
290
  url = {https://github.com/skywork-ai/Skywork-R1V}