MarvelCQ commited on
Commit
d2321bd
·
verified ·
1 Parent(s): a4d3570

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +14 -2
README.md CHANGED
@@ -2,9 +2,21 @@
2
  license: mit
3
  ---
4
 
5
- ## 简介
6
 
7
- ## 推理
 
 
 
 
 
 
 
 
 
 
 
 
8
  ```python
9
  from transformers import AutoProcessor
10
  from vllm import LLM, SamplingParams
 
2
  license: mit
3
  ---
4
 
5
+ ## DianJin-OCR-R1
6
 
7
+ <div align="center">
8
+ <img alt="image" src="https://raw.githubusercontent.com/aliyun/qwen-dianjin/refs/heads/master/images/dianjin_logo.png">
9
+ <p align="center">
10
+ <a href="https://tongyi.aliyun.com/dianjin">Qwen DianJin Platform</a> |
11
+ <a href="https://github.com/aliyun/qwen-dianjin">Github</a> |
12
+ <a href="https://modelscope.cn/organization/tongyi_dianjin">ModelScope</a>
13
+ </p>
14
+ </div>
15
+
16
+ ### 简介
17
+ 近期,大规模视觉语言模型(LVLM)的进展催生了一种端到端文档图像解析的新范式,在光学字符识别(OCR)任务(如文本、表格和公式识别)方面表现出色。然而,与大规模语言模型(LLM)类似,生成式 LVLM 容易出现幻觉——生成输入图像中不存在的单词。此外,LVLM 旨在通用,与在特定领域数据集上训练的专家模型相比,在 OCR 任务上的效果往往较差。在本文中,我们提出了 DianJin-OCR-R1,这是一种通过训练推理与工具交替的视觉语言模型来解决这些局限性的推理增强框架。给定识别指令,我们的 DianJin-OCR-R1 模型首先凭借自身的 OCR 能力识别输入图像中的内容,然后调用其他工具(即其他专家模型)获取其结果作为参考,最后再次查看图像并重新思考推理过程,以提供最终的识别内容。由于专家模型的架构是为特定的 OCR 任务量身定制的,这使得它们不太容易出现幻觉,因此它们的结果可以帮助视觉语言模型减少幻觉。此外,专家模型通常规模较小且易于迭代,从而能够以更低的成本提升视觉语言模型的性能。我们在 ReST 和 OmniDocBench 上对我们的模型进行了评估,实验结果表明,我们的 DianJin-OCR-R1 模型始终优于其非推理版本和专家 OCR 模型,这证明了我们方法的有效性。
18
+
19
+ ### 示例
20
  ```python
21
  from transformers import AutoProcessor
22
  from vllm import LLM, SamplingParams