|
|
--- |
|
|
language: |
|
|
- zh |
|
|
- en |
|
|
tags: |
|
|
- VLM |
|
|
- MLLM |
|
|
--- |
|
|
# openPangu-VL-7B |
|
|
中文 | [English](README_EN.md) | [技术报告](doc/technical_report.pdf) |
|
|
|
|
|
## 1. 简介 |
|
|
|
|
|
openPangu-VL-7B 是基于昇腾 NPU ,基于openPangu-Embedded-7B-V1.1语言基模和openPangu-ViT-600M视觉编码器训练的高效多模态模型。openPangu-VL-7B 训练了约 3T tokens,具备通用视觉对话、文档理解、目标定位与计数、视频理解、视觉高阶推理等能力。该模型为快思考模型。 |
|
|
|
|
|
## 2. 模型架构 |
|
|
|
|
|
| | openPangu-VL-7B | |
|
|
| :---------------------------: | :----------------: | |
|
|
| **语言模型** | | |
|
|
| Architecture | Dense | |
|
|
| Parameters (Non-Embedding) | 7B | |
|
|
| Number of Layers | 34 | |
|
|
| Hidden Dimension | 12800 | |
|
|
| Attention Mechanism | GQA | |
|
|
| Number of Attention Heads | 32 for Q,8 for KV | |
|
|
| Vocabulary Size | 153k | |
|
|
| Context Length (Natively) | 128k | |
|
|
| **视觉编码器** | | |
|
|
| Architecture | 22 Window Attention + 4 Full Attention | |
|
|
| Number of Layers | 26 | |
|
|
| Attention Hidden Size | 1536 | |
|
|
| FFN Hidden Size | 4608 | |
|
|
| Number of Attention Heads | 16 | |
|
|
| Parameters | 615M | |
|
|
|
|
|
## 3. 测评结果 |
|
|
|
|
|
| 测评集 | openPangu-VL-7B | |
|
|
| :------------: | :--------: | |
|
|
| **通用视觉对话** | | |
|
|
| MMBench V1.1 DEV | 86.5 | |
|
|
| MMStar | 70.1 | |
|
|
| RealWorldQA | 76.1 | |
|
|
| AI2D | 84.7 | |
|
|
| **光学符号识别/文档理解** | | |
|
|
| OCRBench | 907 | |
|
|
| TextVQA | 85.1 | |
|
|
| DocVQA | 96.0 | |
|
|
| ChartQA | 88.3 | |
|
|
| CharXiv dq/rq | 83.9/54.3 | |
|
|
| **视觉学科能力** | | |
|
|
| MMMU | 65.2 | |
|
|
| MMMU-Pro | 52.6 | |
|
|
| MathVista | 75.0 | |
|
|
| **目标定位/计数** | | |
|
|
| RefCOCO-avg | 90.6 | |
|
|
| ODinW-13 | 51.5 | |
|
|
| CountBench | 96.1 | |
|
|
| Point-Bench | 65.4 | |
|
|
| **多图** | | |
|
|
| BLINK | 63.3 | |
|
|
| MUIRBench | 61.6 | |
|
|
| **视频理解** | | |
|
|
| MVBench | 74.0 | |
|
|
| VideoMME (w/o sub) | 68.0 | |
|
|
| MLVU | 76.9 | |
|
|
| **语言能力** | | |
|
|
| MMLU-Pro | 78.2 | |
|
|
| MMLU-Redux | 87.3 | |
|
|
| GPQA-Diamond | 65.2 | |
|
|
| C-Eval | 83.2 | |
|
|
| AIME25 | 36.5 | |
|
|
| Math-500 | 89.4 | |
|
|
| LiveCodeBenchV6 | 24.6 | |
|
|
| MBPP+ | 68.5 | |
|
|
| IFEval | 83.0 | |
|
|
|
|
|
**注:** 评测使用**vllm-ascend部署推理,系统prompt为空**。一般而言,图片最小分辨率设置为2304\*28\*28能获得最优的测评效果。(OCRBench中的极小图OCR除外,建议设置为不大于64\*28\*28。)具体prompt和分辨率设置参见[技术报告](doc/technical_report.pdf)附录。 |
|
|
|
|
|
## 4. 部署和使用 |
|
|
|
|
|
### vllm-ascend部署(推荐) |
|
|
- 使用vllm-ascend推理框架,参考[[vllm_ascend_for_openpangu_vl_7b](doc/vllm_ascend_for_openpangu_vl_7b.md)]进行服务部署。 |
|
|
|
|
|
- 完成推理服务部署后,使用此脚本测试是否部署成功。 |
|
|
```bash |
|
|
cd inference/vllm_ascend/examples; python quick_start.py |
|
|
``` |
|
|
|
|
|
### 直接推理 |
|
|
环境配置: |
|
|
- python==3.10 |
|
|
- CANN==8.1.RC1 |
|
|
```bash |
|
|
cd inference; pip install -r requirements.txt |
|
|
``` |
|
|
|
|
|
推理: |
|
|
```bash |
|
|
cd inference; python generate.py |
|
|
``` |
|
|
|
|
|
### 能力展示 |
|
|
- 更多推理样例和能力展示,请参见`cookbooks`。 |
|
|
|
|
|
## 5. 模型许可证 |
|
|
除文件中对开源许可证另有约定外,openPangu-VL-7B 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。 |
|
|
|
|
|
## 6. 免责声明 |
|
|
由于 openPangu-VL-7B (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证: |
|
|
- 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场; |
|
|
- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障; |
|
|
- 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。 |
|
|
|
|
|
## 7. 反馈 |
|
|
如果有任何意见和建议,请提交issue或联系[openPangu@huawei.com](url)。 |