openPangu-VL-7B / README.md

update

71123b1 verified 8 days ago

5.02 kB

	---
	language:
	- zh
	- en
	tags:
	- VLM
	- MLLM
	---
	# openPangu-VL-7B
	中文 \| [English](README_EN.md) \| [技术报告](doc/technical_report.pdf)

	## 1. 简介

	openPangu-VL-7B 是基于昇腾 NPU ，基于openPangu-Embedded-7B-V1.1语言基模和openPangu-ViT-600M视觉编码器训练的高效多模态模型。openPangu-VL-7B 训练了约 3T tokens，具备通用视觉对话、文档理解、目标定位与计数、视频理解、视觉高阶推理等能力。该模型为快思考模型。

	## 2. 模型架构

	\| \| openPangu-VL-7B \|
	\| :---------------------------: \| :----------------: \|
	\| 语言模型 \| \|
	\| Architecture \| Dense \|
	\| Parameters (Non-Embedding) \| 7B \|
	\| Number of Layers \| 34 \|
	\| Hidden Dimension \| 12800 \|
	\| Attention Mechanism \| GQA \|
	\| Number of Attention Heads \| 32 for Q，8 for KV \|
	\| Vocabulary Size \| 153k \|
	\| Context Length (Natively) \| 128k \|
	\| 视觉编码器 \| \|
	\| Architecture \| 22 Window Attention + 4 Full Attention \|
	\| Number of Layers \| 26 \|
	\| Attention Hidden Size \| 1536 \|
	\| FFN Hidden Size \| 4608 \|
	\| Number of Attention Heads \| 16 \|
	\| Parameters \| 615M \|

	## 3. 测评结果

	\| 测评集 \| openPangu-VL-7B \|
	\| :------------: \| :--------: \|
	\| 通用视觉对话 \| \|
	\| MMBench V1.1 DEV \| 86.5 \|
	\| MMStar \| 70.1 \|
	\| RealWorldQA \| 76.1 \|
	\| AI2D \| 84.7 \|
	\| 光学符号识别/文档理解 \| \|
	\| OCRBench \| 907 \|
	\| TextVQA \| 85.1 \|
	\| DocVQA \| 96.0 \|
	\| ChartQA \| 88.3 \|
	\| CharXiv dq/rq \| 83.9/54.3 \|
	\| 视觉学科能力 \| \|
	\| MMMU \| 65.2 \|
	\| MMMU-Pro \| 52.6 \|
	\| MathVista \| 75.0 \|
	\| 目标定位/计数 \| \|
	\| RefCOCO-avg \| 90.6 \|
	\| ODinW-13 \| 51.5 \|
	\| CountBench \| 96.1 \|
	\| Point-Bench \| 65.4 \|
	\| 多图 \| \|
	\| BLINK \| 63.3 \|
	\| MUIRBench \| 61.6 \|
	\| 视频理解 \| \|
	\| MVBench \| 74.0 \|
	\| VideoMME (w/o sub) \| 68.0 \|
	\| MLVU \| 76.9 \|
	\| 语言能力 \| \|
	\| MMLU-Pro \| 78.2 \|
	\| MMLU-Redux \| 87.3 \|
	\| GPQA-Diamond \| 65.2 \|
	\| C-Eval \| 83.2 \|
	\| AIME25 \| 36.5 \|
	\| Math-500 \| 89.4 \|
	\| LiveCodeBenchV6 \| 24.6 \|
	\| MBPP+ \| 68.5 \|
	\| IFEval \| 83.0 \|

	注：评测使用vllm-ascend部署推理，系统prompt为空。一般而言，图片最小分辨率设置为2304\28\28能获得最优的测评效果。（OCRBench中的极小图OCR除外，建议设置为不大于64\28\28。）具体prompt和分辨率设置参见[技术报告](doc/technical_report.pdf)附录。

	## 4. 部署和使用

	### vllm-ascend部署（推荐）
	- 使用vllm-ascend推理框架，参考[[vllm_ascend_for_openpangu_vl_7b](doc/vllm_ascend_for_openpangu_vl_7b.md)]进行服务部署。

	- 完成推理服务部署后，使用此脚本测试是否部署成功。
	```bash
	cd inference/vllm_ascend/examples; python quick_start.py
	```

	### 直接推理
	环境配置：
	- python==3.10
	- CANN==8.1.RC1
	```bash
	cd inference; pip install -r requirements.txt
	```

	推理：
	```bash
	cd inference; python generate.py
	```

	### 能力展示
	- 更多推理样例和能力展示，请参见`cookbooks`。

	## 5. 模型许可证
	除文件中对开源许可证另有约定外，openPangu-VL-7B 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。

	## 6. 免责声明
	由于 openPangu-VL-7B （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：
	- 该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
	- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
	- 该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

	## 7. 反馈
	如果有任何意见和建议，请提交issue或联系[openPangu@huawei.com](url)。

	---
	language:
	- zh
	- en
	tags:
	- VLM
	- MLLM
	---
	# openPangu-VL-7B
	中文 \| [English](README_EN.md) \| [技术报告](doc/technical_report.pdf)

	## 1. 简介

	openPangu-VL-7B 是基于昇腾 NPU ，基于openPangu-Embedded-7B-V1.1语言基模和openPangu-ViT-600M视觉编码器训练的高效多模态模型。openPangu-VL-7B 训练了约 3T tokens，具备通用视觉对话、文档理解、目标定位与计数、视频理解、视觉高阶推理等能力。该模型为快思考模型。

	## 2. 模型架构

	\| \| openPangu-VL-7B \|
	\| :---------------------------: \| :----------------: \|
	\| 语言模型 \| \|
	\| Architecture \| Dense \|
	\| Parameters (Non-Embedding) \| 7B \|
	\| Number of Layers \| 34 \|
	\| Hidden Dimension \| 12800 \|
	\| Attention Mechanism \| GQA \|
	\| Number of Attention Heads \| 32 for Q，8 for KV \|
	\| Vocabulary Size \| 153k \|
	\| Context Length (Natively) \| 128k \|
	\| 视觉编码器 \| \|
	\| Architecture \| 22 Window Attention + 4 Full Attention \|
	\| Number of Layers \| 26 \|
	\| Attention Hidden Size \| 1536 \|
	\| FFN Hidden Size \| 4608 \|
	\| Number of Attention Heads \| 16 \|
	\| Parameters \| 615M \|

	## 3. 测评结果

	\| 测评集 \| openPangu-VL-7B \|
	\| :------------: \| :--------: \|
	\| 通用视觉对话 \| \|
	\| MMBench V1.1 DEV \| 86.5 \|
	\| MMStar \| 70.1 \|
	\| RealWorldQA \| 76.1 \|
	\| AI2D \| 84.7 \|
	\| 光学符号识别/文档理解 \| \|
	\| OCRBench \| 907 \|
	\| TextVQA \| 85.1 \|
	\| DocVQA \| 96.0 \|
	\| ChartQA \| 88.3 \|
	\| CharXiv dq/rq \| 83.9/54.3 \|
	\| 视觉学科能力 \| \|
	\| MMMU \| 65.2 \|
	\| MMMU-Pro \| 52.6 \|
	\| MathVista \| 75.0 \|
	\| 目标定位/计数 \| \|
	\| RefCOCO-avg \| 90.6 \|
	\| ODinW-13 \| 51.5 \|
	\| CountBench \| 96.1 \|
	\| Point-Bench \| 65.4 \|
	\| 多图 \| \|
	\| BLINK \| 63.3 \|
	\| MUIRBench \| 61.6 \|
	\| 视频理解 \| \|
	\| MVBench \| 74.0 \|
	\| VideoMME (w/o sub) \| 68.0 \|
	\| MLVU \| 76.9 \|
	\| 语言能力 \| \|
	\| MMLU-Pro \| 78.2 \|
	\| MMLU-Redux \| 87.3 \|
	\| GPQA-Diamond \| 65.2 \|
	\| C-Eval \| 83.2 \|
	\| AIME25 \| 36.5 \|
	\| Math-500 \| 89.4 \|
	\| LiveCodeBenchV6 \| 24.6 \|
	\| MBPP+ \| 68.5 \|
	\| IFEval \| 83.0 \|

	注：评测使用vllm-ascend部署推理，系统prompt为空。一般而言，图片最小分辨率设置为2304\28\28能获得最优的测评效果。（OCRBench中的极小图OCR除外，建议设置为不大于64\28\28。）具体prompt和分辨率设置参见[技术报告](doc/technical_report.pdf)附录。

	## 4. 部署和使用

	### vllm-ascend部署（推荐）
	- 使用vllm-ascend推理框架，参考[[vllm_ascend_for_openpangu_vl_7b](doc/vllm_ascend_for_openpangu_vl_7b.md)]进行服务部署。

	- 完成推理服务部署后，使用此脚本测试是否部署成功。
	```bash
	cd inference/vllm_ascend/examples; python quick_start.py
	```

	### 直接推理
	环境配置：
	- python==3.10
	- CANN==8.1.RC1
	```bash
	cd inference; pip install -r requirements.txt
	```

	推理：
	```bash
	cd inference; python generate.py
	```

	### 能力展示
	- 更多推理样例和能力展示，请参见`cookbooks`。

	## 5. 模型许可证
	除文件中对开源许可证另有约定外，openPangu-VL-7B 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 [LICENSE](LICENSE) 文件。

	## 6. 免责声明
	由于 openPangu-VL-7B （“模型”）所依赖的技术固有的限制，以及人工智能生成的内容是由盘古自动生成的，华为无法对以下事项做出任何保证：
	- 该模型的输出通过AI算法自动生成，不能排除某些信息可能存在缺陷、不合理或引起不适的可能性，生成的内容不代表华为的态度或立场；
	- 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障；
	- 该模型的输出内容不构成任何建议或决策，也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考，不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断，华为不承担任何责任。

	## 7. 反馈
	如果有任何意见和建议，请提交issue或联系[openPangu@huawei.com](url)。