Duplicate from PaddlePaddle/PP-DocLayoutV2

Browse files

Co-authored-by: Tingquan Gao <Tingquan@users.noreply.huggingface.co>

Files changed (6) hide show

.gitattributes +37 -0
README.md +79 -0
config.json +176 -0
inference.json +0 -0
inference.pdiparams +3 -0
inference.yml +100 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,37 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+inference.pdiparams filter=lfs diff=lfs merge=lfs -text
+inference.pdmodel filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+license: apache-2.0
+pipeline_tag: object-detection
+tags:
+- PaddleOCR
+- PaddlePaddle
+- ocr
+- layout
+- layout_detection
+language:
+- en
+- zh
+- multilingual
+library_name: PaddleOCR
+---
+## Introduction
+**PP-DocLayoutV2** is a dedicated lightweight model for layout analysis, focusing specifically on element detection, classification, and reading order
+prediction.
+## **Model Architecture**
+PP-DocLayoutV2 is composed of two sequentially connected networks. The first is an RT-DETR-based detection model that performs layout element detection and classification. The detected bounding boxes and class labels are then passed to a subsequent pointer network, which is responsible for ordering these layout elements.
+<div align="center">
+<img src="https://huggingface.co/datasets/PaddlePaddle/PaddleOCR-VL_demo/resolve/main/imgs/PP-DocLayoutV2.png" width="800"/>
+</div>
+## Usage
+### Install Dependencies
+Install [PaddlePaddle](https://www.paddlepaddle.org.cn/install/quick) and [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR):
+```bash
+python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install -U "paddleocr[doc-parser]"
+python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl
+```
+> For Windows users, please use WSL or a Docker container.
+### Basic Usage
+Python API usage:
+```python
+from paddleocr import LayoutDetection
+model = LayoutDetection(model_name="PP-DocLayoutV2")
+output = model.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/layout.jpg", batch_size=1, layout_nms=True)
+for res in output:
+    res.print()
+    res.save_to_img(save_path="./output/")
+    res.save_to_json(save_path="./output/res.json")
+```
+**For more usage details and parameter explanations, see the [documentation](https://www.paddleocr.ai/latest/en/version3.x/module_usage/layout_analysis.html).**
+## Citation
+If you find PaddleOCR-VL helpful, feel free to give us a star and citation.
+```bibtex
+@misc{cui2025paddleocrvlboostingmultilingualdocument,
+      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model},
+      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
+      year={2025},
+      eprint={2510.14528},
+      archivePrefix={arXiv},
+      primaryClass={cs.CV},
+      url={https://arxiv.org/abs/2510.14528},
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,176 @@

+{
+    "mode": "paddle",
+    "draw_threshold": 0.5,
+    "metric": "COCO",
+    "use_dynamic_shape": false,
+    "Global": {
+        "model_name": "PP-DocLayoutV2"
+    },
+    "arch": "DETR",
+    "min_subgraph_size": 3,
+    "Preprocess": [
+        {
+            "interp": 2,
+            "keep_ratio": false,
+            "target_size": [
+                800,
+                800
+            ],
+            "type": "Resize"
+        },
+        {
+            "mean": [
+                0.0,
+                0.0,
+                0.0
+            ],
+            "norm_type": "none",
+            "std": [
+                1.0,
+                1.0,
+                1.0
+            ],
+            "type": "NormalizeImage"
+        },
+        {
+            "type": "Permute"
+        }
+    ],
+    "label_list": [
+        "abstract",
+        "algorithm",
+        "aside_text",
+        "chart",
+        "content",
+        "display_formula",
+        "doc_title",
+        "figure_title",
+        "footer",
+        "footer_image",
+        "footnote",
+        "formula_number",
+        "header",
+        "header_image",
+        "image",
+        "inline_formula",
+        "number",
+        "paragraph_title",
+        "reference",
+        "reference_content",
+        "seal",
+        "table",
+        "text",
+        "vertical_text",
+        "vision_footnote"
+    ],
+    "Hpi": {
+        "backend_configs": {
+            "paddle_infer": {
+                "trt_dynamic_shapes": {
+                    "image": [
+                        [
+                            1,
+                            3,
+                            800,
+                            800
+                        ],
+                        [
+                            1,
+                            3,
+                            800,
+                            800
+                        ],
+                        [
+                            8,
+                            3,
+                            800,
+                            800
+                        ]
+                    ],
+                    "scale_factor": [
+                        [
+                            1,
+                            2
+                        ],
+                        [
+                            1,
+                            2
+                        ],
+                        [
+                            8,
+                            2
+                        ]
+                    ]
+                },
+                "trt_dynamic_shape_input_data": {
+                    "scale_factor": [
+                        [
+                            2,
+                            2
+                        ],
+                        [
+                            1,
+                            1
+                        ],
+                        [
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67,
+                            0.67
+                        ]
+                    ]
+                }
+            },
+            "tensorrt": {
+                "dynamic_shapes": {
+                    "image": [
+                        [
+                            1,
+                            3,
+                            800,
+                            800
+                        ],
+                        [
+                            1,
+                            3,
+                            800,
+                            800
+                        ],
+                        [
+                            8,
+                            3,
+                            800,
+                            800
+                        ]
+                    ],
+                    "scale_factor": [
+                        [
+                            1,
+                            2
+                        ],
+                        [
+                            1,
+                            2
+                        ],
+                        [
+                            8,
+                            2
+                        ]
+                    ]
+                }
+            }
+        }
+    }
+}

inference.json ADDED Viewed

The diff for this file is too large to render. See raw diff

inference.pdiparams ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45404a84c9fdf91d7bbc94bd47ac4c03649bda84167de04c62bff4726657869a
+size 212170944

inference.yml ADDED Viewed

	@@ -0,0 +1,100 @@

+mode: paddle
+draw_threshold: 0.5
+metric: COCO
+use_dynamic_shape: false
+Global:
+  model_name: PP-DocLayoutV2
+arch: DETR
+min_subgraph_size: 3
+Preprocess:
+- interp: 2
+  keep_ratio: false
+  target_size:
+  - 800
+  - 800
+  type: Resize
+- mean:
+  - 0.0
+  - 0.0
+  - 0.0
+  norm_type: none
+  std:
+  - 1.0
+  - 1.0
+  - 1.0
+  type: NormalizeImage
+- type: Permute
+label_list:
+- abstract
+- algorithm
+- aside_text
+- chart
+- content
+- display_formula
+- doc_title
+- figure_title
+- footer
+- footer_image
+- footnote
+- formula_number
+- header
+- header_image
+- image
+- inline_formula
+- number
+- paragraph_title
+- reference
+- reference_content
+- seal
+- table
+- text
+- vertical_text
+- vision_footnote
+Hpi:
+  backend_configs:
+    paddle_infer:
+      trt_dynamic_shapes: &id001
+        image:
+        - - 1
+          - 3
+          - 800
+          - 800
+        - - 1
+          - 3
+          - 800
+          - 800
+        - - 8
+          - 3
+          - 800
+          - 800
+        scale_factor:
+        - - 1
+          - 2
+        - - 1
+          - 2
+        - - 8
+          - 2
+      trt_dynamic_shape_input_data:
+        scale_factor:
+        - - 2
+          - 2
+        - - 1
+          - 1
+        - - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+          - 0.67
+    tensorrt:
+      dynamic_shapes: *id001