Docparser / README.md
yuemengrui's picture
Upload README.md
7408b59 verified
# [DocParser](https://github.com/yuemengrui/DocParser.git)
文档解析器,集成各种文档解析的服务,统一使用FastAPI服务,可快速部署使用
##### Layout_Analysis: 版面分析服务
##### Table_Parser: 表格解析服务
##### Formula_Server: 公式检测识别服务
## 快速部署
1. 拉取源代码:
```commandline
git clone https://github.com/yuemengrui/DocParser.git
```
2. docker启动服务:
```commandline
sudo docker compose -f docker-compose.yml up -d
```
3. 查看容器状态,正常的话所有容器应该是healthy状态
```commandline
sudo docker compose -f docker-compose.yml ps -a
```
4. 访问各服务接口文档:
```text
版面分析接口文档:/ai/docparser/layout/redoc
表格解析接口文档:/ai/docparser/table/redoc
公式识别接口文档:/ai/docparser/formula/redoc
```
5. docker compose 说明
```yaml
volumes:
- ./Layout_Analysis:/workspace/Layout_Analysis # 挂载服务源码
- ./Layout_Analysis/configs/model_layout_yolo.json:/workspace/model_config.json # 挂载配置文件
- ./Models/Layout/doclayout_yolo.pt:/workspace/models/doclayout_yolo.pt # 挂载与配置文件对应的模型
```
可通过不同的配置文件启动多个模型worker服务。假设我有三个版面分析模型,每个模型适用的场景数据不一样,可分别写好配置文件,挂载不同的配置文件来启动不同的版面分析模型来应对不同的场景,其他模型同理。
## 显存占用 (Batch_Size=1)
| 版面分析 | 表格解析 | 公式(检测+识别 |
|------|------|----------|
| 1G | 5G | 2.5G |
## 模型下载
访问[模型仓库](https://huggingface.co/yuemengrui/Docparser)下载后将Models目录置于项目目录下
## 效果展示
##### 版面分析
![](/assets/layout_1.jpg)
![](/assets/layout_2.jpg)
##### 表格解析
![](/assets/table_parser.png)
##### 公式检测与识别
![](/assets/formula_det_1.jpg)
![](/assets/formula_rec.jpg)