File size: 5,018 Bytes

---
language:
- zh
- en
tags:
- VLM
- MLLM
---
# openPangu-VL-7B
中文 | [English](README_EN.md) | [技术报告](doc/technical_report.pdf)

## 1. 简介

openPangu-VL-7B 是基于昇腾 NPU ，基于openPangu-Embedded-7B-V1.1语言基模和openPangu-ViT-600M视觉编码器训练的高效多模态模型。openPangu-VL-7B 训练了约 3T tokens，具备通用视觉对话、文档理解、目标定位与计数、视频理解、视觉高阶推理等能力。该模型为快思考模型。

## 2. 模型架构

|                               |   openPangu-VL-7B   |
| :---------------------------: | :----------------: |
| **语言模型** | |
|       Architecture       |       Dense        |
|     Parameters (Non-Embedding)    |         7B         |
|     Number of Layers      |         34         |
|     Hidden Dimension     |       12800        |
|   Attention Mechanism    |     GQA      |
| Number of Attention Heads | 32 for Q，8 for KV |
|      Vocabulary Size      |        153k        |
|      Context Length (Natively)       |        128k         |
| **视觉编码器** | |
|       Architecture       |       22 Window Attention + 4 Full Attention        |
|     Number of Layers      |         26         |
|     Attention Hidden Size    |     1536             |
|     FFN Hidden Size    |     4608             |
| Number of Attention Heads | 16 |
|      Parameters      |        615M        |

## 3. 测评结果

|     测评集     |      openPangu-VL-7B |
| :------------: | :--------: |
|  **通用视觉对话**  |                     |  
|   MMBench V1.1 DEV    |    86.5    |
|     MMStar      |         70.1    |
| RealWorldQA | 76.1    |
|     AI2D     |      84.7    |
|  **光学符号识别/文档理解**  |                     |   
|    OCRBench    |        907    |
|     TextVQA     |       85.1    |
|     DocVQA     |       96.0    |
|     ChartQA     |       88.3    |
|     CharXiv dq/rq     |      83.9/54.3    |
|  **视觉学科能力**  |                     |  
| MMMU | 65.2 |
| MMMU-Pro | 52.6 | 
| MathVista | 75.0 |
|  **目标定位/计数**  |                     |  
| RefCOCO-avg  | 90.6    |
|     ODinW-13      |        51.5   |
|     CountBench      |        96.1   |
|     Point-Bench      |        65.4   |
|  **多图**  |                     |  
| BLINK  | 63.3    |
| MUIRBench  | 61.6    |
|  **视频理解**  |                     |  
| MVBench  | 74.0    |
| VideoMME (w/o sub)  | 68.0    |
| MLVU  | 76.9    |
|  **语言能力**  |                     |  
| MMLU-Pro  | 78.2    |
| MMLU-Redux  | 87.3    |
| GPQA-Diamond  | 65.2    |
| C-Eval | 83.2 |
| AIME25  | 36.5    |
| Math-500  | 89.4    |
| LiveCodeBenchV6 | 24.6 |
| MBPP+ | 68.5 |
| IFEval | 83.0 |

**注：** 评测使用**vllm-ascend部署推理，系统prompt为空**。一般而言，图片最小分辨率设置为2304\*28\*28能获得最优的测评效果。（OCRBench中的极小图OCR除外，建议设置为不大于64\*28\*28。）具体prompt和分辨率设置参见[技术报告](doc/technical_report.pdf)附录。

## 4. 部署和使用

### vllm-ascend部署（推荐）
- 使用vllm-ascend推理框架，参考[[vllm_ascend_for_openpangu_vl_7b](doc/vllm_ascend_for_openpangu_vl_7b.md)]进行服务部署。

- 完成推理服务部署后，使用此脚本测试是否部署成功。
```bash
cd inference/vllm_ascend/examples; python quick_start.py
```

### 直接推理
环境配置：
- python==3.10
- CANN==8.1.RC1
```bash
cd inference; pip install -r requirements.txt
```

推理：
```bash
cd inference; python generate.py
```

### 能力展示
- 更多推理样例和能力展示，请参见`cookbooks`。

## 5. 模型许可证
除文件中对开源许可证另有约定外，openPangu-VL-7B 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。

## 6. 免责声明
由于 openPangu-VL-7B （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：
- 该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场； 
- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障； 
- 该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

## 7. 反馈
如果有任何意见和建议，请提交issue或联系[openPangu@huawei.com](url)。