--- license: apache-2.0 library_name: transformers pipeline_tag: image-text-to-text --- # PP-DocBee2 This repository contains the model presented in the paper [PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks](https://huggingface.co/papers/2503.04065). For the codebase, see: this https URL ## 1. 简介 PP-DocBee2 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型,在PP-DocBee的基础上,我们进一步优化了基础模型,并引入了新的数据优化方案,提高了数据质量,使用自研[数据合成策略](https://arxiv.org/abs/2503.04065)生成的少量的47万数据便使得PP-DocBee2在中文文档理解任务上表现更佳。在内部业务中文场景类的指标上,PP-DocBee2相较于PP-DocBee提升了约11.4%,同时也高于目前的同规模热门开源和闭源模型。 **本仓库支持的模型权重:** | Model | |--------------------| | PaddleMIX/PPDocBee2-3B | 注意:使用`xxx.from_pretrained("PaddleMIX/PPDocBee2-3B")`即可自动下载该权重文件夹到缓存目录。 ## 2 环境准备 1)[安装PaddlePaddle](https://github.com/PaddlePaddle/PaddleMIX?tab=readme-ov-file#3-%EF%B8%8F%E5%AE%89%E8%A3%85paddlepaddle) - **python >= 3.10** - **paddlepaddle-gpu 要求是>=3.0.0b2或develop版本** ```bash # 提供三种 PaddlePaddle 安装命令示例,也可参考PaddleMIX主页的安装教程进行安装 # 3.0.0b2版本安装示例 (CUDA 11.8) python -m pip install paddlepaddle-gpu==3.0.0b2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/ # Develop 版本安装示例 python -m pip install paddlepaddle-gpu==0.0.0.post118 -f https://www.paddlepaddle.org.cn/whl/linux/gpu/develop.html # sh 脚本快速安装 sh build_paddle_env.sh ``` 2)[安装PaddleMIX环境依赖包](https://github.com/PaddlePaddle/PaddleMIX?tab=readme-ov-file#3-%EF%B8%8F%E5%AE%89%E8%A3%85paddlepaddle) - **paddlenlp >= 3.0.0b3** ```bash # 提供两种 PaddleMIX 依赖安装命令示例 # pip 安装示例,安装paddlemix、ppdiffusers、项目依赖、paddlenlp python -m pip install -e . python -m pip install -e ppdiffusers python -m pip install -r requirements.txt python -m pip install paddlenlp==3.0.0b3 # sh 脚本快速安装 sh build_env.sh ``` > 注: * 请确保安装了以上依赖,否则无法运行。 * (默认开启flash_attn)使用flash_attn 要求A100/A800显卡或者H20显卡。V100请用float16推理。 ## 3. 在线体验和部署 ### 3.1 在线体验 我们提供了在线体验环境,您可以通过[AI Studio](https://aistudio.baidu.com/application/detail/60135)快速体验 PP-DocBee2 的功能。 ### 3.2 本地gradio部署 ```bash # 安装gradio pip install gradio==5.6.0 # 运行gradio python paddlemix/examples/ppdocbee2/app.py ``` ## 4. 模型推理 ### 4.1 单卡推理 下面展示了一个表格识别的示例: