Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,138 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
---
|
| 4 |
+
# PP-DocBee2
|
| 5 |
+
|
| 6 |
+
## 1. 简介
|
| 7 |
+
|
| 8 |
+
PP-DocBee2 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型,在PP-DocBee的基础上,我们进一步优化了基础模型,并引入了新的数据优化方案,提高了数据质量,使用自研[数据合成策略](https://arxiv.org/abs/2503.04065)生成的少量的47万数据便使得PP-DocBee2在中文文档理解任务上表现更佳。在内部业务中文场景类的指标上,PP-DocBee2相较于PP-DocBee提升了约11.4%,同时也高于目前的同规模热门开源和闭源模型。
|
| 9 |
+
|
| 10 |
+
**本仓库支持的模型权重:**
|
| 11 |
+
|
| 12 |
+
| Model |
|
| 13 |
+
|--------------------|
|
| 14 |
+
| PaddleMIX/PPDocBeeV2-3B |
|
| 15 |
+
|
| 16 |
+
注意:使用`xxx.from_pretrained("PaddleMIX/PPDocBeeV2-3B")`即可自动下载该权重文件夹到缓存目录。
|
| 17 |
+
|
| 18 |
+
## 2 环境准备
|
| 19 |
+
1)[安装PaddlePaddle](https://github.com/PaddlePaddle/PaddleMIX?tab=readme-ov-file#3-%EF%B8%8F%E5%AE%89%E8%A3%85paddlepaddle)
|
| 20 |
+
- **python >= 3.10**
|
| 21 |
+
- **paddlepaddle-gpu 要求是>=3.0.0b2或develop版本**
|
| 22 |
+
```bash
|
| 23 |
+
# 提供三种 PaddlePaddle 安装命令示例,也可参考PaddleMIX主页的安装教程进行安装
|
| 24 |
+
|
| 25 |
+
# 3.0.0b2版本安装示例 (CUDA 11.8)
|
| 26 |
+
python -m pip install paddlepaddle-gpu==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
|
| 27 |
+
|
| 28 |
+
# Develop 版本安装示例
|
| 29 |
+
python -m pip install paddlepaddle-gpu==0.0.0.post118 -f https://www.paddlepaddle.org.cn/whl/linux/gpu/develop.html
|
| 30 |
+
|
| 31 |
+
# sh 脚本快速安装
|
| 32 |
+
sh build_paddle_env.sh
|
| 33 |
+
```
|
| 34 |
+
|
| 35 |
+
2)[安装PaddleMIX环境依赖包](https://github.com/PaddlePaddle/PaddleMIX?tab=readme-ov-file#3-%EF%B8%8F%E5%AE%89%E8%A3%85paddlepaddle)
|
| 36 |
+
- **paddlenlp >= 3.0.0b3**
|
| 37 |
+
|
| 38 |
+
```bash
|
| 39 |
+
# 提供两种 PaddleMIX 依赖安装命令示例
|
| 40 |
+
|
| 41 |
+
# pip 安装示例,安装paddlemix、ppdiffusers、项目依赖、paddlenlp
|
| 42 |
+
python -m pip install -e .
|
| 43 |
+
python -m pip install -e ppdiffusers
|
| 44 |
+
python -m pip install -r requirements.txt
|
| 45 |
+
python -m pip install paddlenlp==3.0.0b3
|
| 46 |
+
|
| 47 |
+
# sh 脚本快速安装
|
| 48 |
+
sh build_env.sh
|
| 49 |
+
```
|
| 50 |
+
|
| 51 |
+
>
|
| 52 |
+
注:
|
| 53 |
+
* 请确保安装了以上依赖,否则无法运行。
|
| 54 |
+
* (默认开启flash_attn)使用flash_attn 要求A100/A800显卡或者H20显卡。V100请用float16推理。
|
| 55 |
+
|
| 56 |
+
## 3. 在线体验和部署
|
| 57 |
+
|
| 58 |
+
### 3.1 在线体验
|
| 59 |
+
|
| 60 |
+
我们提供了在线体验环境,您可以通过[AI Studio](https://aistudio.baidu.com/application/detail/60135)快速体验 PP-DocBee2 的功能。
|
| 61 |
+
|
| 62 |
+
### 3.2 本地gradio部署
|
| 63 |
+
```bash
|
| 64 |
+
# 安装gradio
|
| 65 |
+
pip install gradio==5.6.0
|
| 66 |
+
# 运行gradio
|
| 67 |
+
python paddlemix/examples/ppdocbee2/app.py
|
| 68 |
+
```
|
| 69 |
+
|
| 70 |
+
## 4. 模型推理
|
| 71 |
+
|
| 72 |
+
### 4.1 单卡推理
|
| 73 |
+
|
| 74 |
+
下面展示了一个表格识别的示例:
|
| 75 |
+
|
| 76 |
+
<p align="center">
|
| 77 |
+
<img src="https://github.com/user-attachments/assets/6a03a848-c396-4b2f-a7f3-47ff1441c750" width="50%" alt="示例图片"/>
|
| 78 |
+
</p>
|
| 79 |
+
|
| 80 |
+
```bash
|
| 81 |
+
python paddlemix/examples/ppdocbee2/ppdocbee2_infer.py \
|
| 82 |
+
--model_path "PaddleMIX/PPDocBeeV2-3B" \
|
| 83 |
+
--image_file "paddlemix/demo_images/medal_table.png" \
|
| 84 |
+
--question "识别这份表格的内容, 以markdown格式输出"
|
| 85 |
+
```
|
| 86 |
+
|
| 87 |
+
输出示例:
|
| 88 |
+
```
|
| 89 |
+
| 名次 | 国家/地区 | 金牌 | 银牌 | 铜牌 | 奖牌总数 |
|
| 90 |
+
|---|---|---|---|---|---|
|
| 91 |
+
| 1 | 中国(CHN) | 48 | 22 | 30 | 100 |
|
| 92 |
+
| 2 | 美国(USA) | 36 | 39 | 37 | 112 |
|
| 93 |
+
| 3 | 俄罗斯(RUS) | 24 | 13 | 23 | 60 |
|
| 94 |
+
| 4 | 英国(GBR) | 19 | 13 | 19 | 51 |
|
| 95 |
+
| 5 | 德国(GER) | 16 | 11 | 14 | 41 |
|
| 96 |
+
| 6 | 澳大利亚(AUS) | 14 | 15 | 17 | 46 |
|
| 97 |
+
| 7 | 韩国(KOR) | 13 | 11 | 8 | 32 |
|
| 98 |
+
| 8 | 日本(JPN) | 9 | 8 | 8 | 25 |
|
| 99 |
+
| 9 | 意大利(ITA) | 8 | 9 | 10 | 27 |
|
| 100 |
+
| 10 | 法国(FRA) | 7 | 16 | 20 | 43 |
|
| 101 |
+
| 11 | 荷兰(NED) | 7 | 5 | 4 | 16 |
|
| 102 |
+
| 12 | 乌克兰(UKR) | 7 | 4 | 11 | 22 |
|
| 103 |
+
| 13 | 肯尼亚(KEN) | 6 | 4 | 6 | 16 |
|
| 104 |
+
| 14 | 西班牙(ESP) | 5 | 11 | 3 | 19 |
|
| 105 |
+
| 15 | 牙买加(JAM) | 5 | 4 | 2 | 11 |
|
| 106 |
+
```
|
| 107 |
+
|
| 108 |
+
### 4.2 分布式推理
|
| 109 |
+
|
| 110 |
+
```bash
|
| 111 |
+
sh paddlemix/examples/ppdocbee2/shell/distributed_ppdocbee2_infer.sh
|
| 112 |
+
```
|
| 113 |
+
> ⚠️注意:"mp_degree"需要根据显卡数量"gpus"进行调整,例如2卡推理,则设置为2。
|
| 114 |
+
|
| 115 |
+
### 4.3 高性能推理
|
| 116 |
+
|
| 117 |
+
PP-DocBee2 支持高性能推理,具体可参考 [PP-DocBee2高性能推理教程](https://github.com/PaddlePaddle/PaddleMIX/tree/develop/deploy/ppdocbee2)
|
| 118 |
+
|
| 119 |
+
## 5. 性能评测
|
| 120 |
+
|
| 121 |
+
### 内部业务中文场景评估集指标
|
| 122 |
+
|
| 123 |
+
| API/模型 | 总分/1196 | 印刷文字类/656 | 表格类/358 | 印章类/15 | 图表类/167 |
|
| 124 |
+
|---------|-----:|---------:|------:|------:|------:|
|
| 125 |
+
| GPT-4o API | 685 | 436 | 198 | 5 | 46 |
|
| 126 |
+
| GLM-4V Flash API | 547 | 339 | 169 | 5 | 34 |
|
| 127 |
+
| InternVL2.5-2B | 596 | 363 | 182 | 4 | **47** |
|
| 128 |
+
| Qwen2-VL-2B | 680 | 476 | 167 | **8** | 29 |
|
| 129 |
+
| PPDocBee-2B | 765 | 517 | 202 | 5 | 41 |
|
| 130 |
+
| Qwen2.5-VL-3B | 789 | 526 | 223 | 6 | 34 |
|
| 131 |
+
| **PPDocBeeV2-3B** | **852** | **545** | **253** | 7 | **47** |
|
| 132 |
+
|
| 133 |
+
|
| 134 |
+
印刷文字类 (656张)、表格类 (358张)、印章类 (15张)、图表类 (167张)
|
| 135 |
+
|
| 136 |
+
> ⚠️注意:
|
| 137 |
+
> 1. 内部业务中文场景评测于 2024.12.09日修订,所有图像分辨率 (1680, 1204),共1196条数据。
|
| 138 |
+
> 2. 内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,暂时未有计划公开。
|