snnh commited on
Commit
dd949a4
·
1 Parent(s): 74b7ed2

Update model card for v6 benchmark

Browse files
Files changed (1) hide show
  1. README.md +83 -66
README.md CHANGED
@@ -12,71 +12,88 @@ tags:
12
  - developer-tools
13
  ---
14
 
15
- # PaddleOCR-VL 开发场景代码 OCR 微调模型
16
-
17
- 本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR,重点识别 IDE 截图、终端输出、Traceback、配置件、Git diff、文代码块、API 表格、小字号和暗色主题等开发相关图片的可见
18
-
19
- 推荐示词:
20
-
21
- ```text
22
- <image>OCR:
23
- ```
24
-
25
- ## 模型信息
26
-
27
- - 基础模型:PaddleOCR-VL-1.6
28
- - 微调方式:LoRA 微调后导出合并模型
29
- - 任务类型:开发场景代码 OCR / image-to-text
30
- - 当前版本:v5-v2params 提交候选版本
31
-
32
- ## 推荐推理参数
33
-
34
- ```text
35
- max_tokens=4096
36
- repetition_penalty=1.10
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
37
  temperature=0
38
  ```
39
-
40
- 模型目标是只输出图片中可见文字,尽量保留代码符号、大小写、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。
41
-
42
- ## 数据与评估
43
-
44
- 训练数据仍持续清洗和补充中。数据主要覆盖
45
-
46
- - IDE / 编辑器代码截图
47
- - 终端、Shell、PowerShell 命令和输出
48
- - Traceback、报错日志和诊断信息
49
- - YAML / JSON / TOML / INI 配置文件
50
- - Git diff、patch PR 页面
51
- - Markdown / 文档代码块
52
- - API 表、参数表和字段说明
53
- - 小字号、压缩、暗色主题、拍屏等困难样本
54
-
55
- 当前 benchmark v4 使用 100 题冻结测试集,按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。
56
-
57
- 阶段性 v4 结果:
58
-
59
- | 模型 | 提示词 | final_score_v4 | 平均 LLM | 平均 NED | 严格可用率 | 完成率 | 安全分 |
60
- | --- | --- | ---: | ---: | ---: | ---: | ---: | ---: |
61
- | PaddleOCR-VL-1.6 微调 v5-v2params | `<image>OCR:` | 57.85 | 71.55 | 0.1321 | 44.00% | 95.00% | 76.00% |
62
-
63
- 该分数是阶段性回归结果,最终比赛评审以官方规则和提交材料为准。
64
-
65
- 完整benchmark详见[此处](https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md)
66
-
67
- ## 局限性
68
-
69
- 模型在以下场景仍可能出错:
70
-
71
- - 极小模糊文本
72
- - 复杂 API 表格
73
- - 深层嵌套配置文件
74
- - 长 Traceback 输出
75
- - 多区域混排截图
76
- - 罕见符号、代码标点和缩进敏感内容
77
-
78
- 模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。
79
-
80
- ## 致谢
81
-
82
- 本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。
 
12
  - developer-tools
13
  ---
14
 
15
+ # PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型
16
+
17
+ 这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先,必要英文术语仅用于模型平台兼容
18
+
19
+ 当前初赛交候选为 v6。
20
+
21
+ ## 模型简介
22
+
23
+ 本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
24
+
25
+ 推荐提示词:
26
+
27
+ ```text
28
+ <image>OCR:
29
+ ```
30
+
31
+ ## 基础模型
32
+
33
+ - 基础模型:PaddleOCR-VL-1.6。
34
+ - 微调方式:LoRA 微调后导出合并模型。
35
+ - 目标任务:代码文字识别 / 开发工具 OCR。
36
+
37
+ ## 数据概况
38
+
39
+ 当前训练索引 `train.json` 共 1102 条样本。公开仓库不直接发布训练数据,只说明数据类型和质量控制方法。数据主要覆盖:
40
+
41
+ - IDE / 编辑器代码截图。
42
+ - 终端、Shell、PowerShell 命令和输出。
43
+ - Traceback、报错日志和诊断信息。
44
+ - YAML / JSON / TOML / INI 配置文件。
45
+ - Git diff、patch 和 PR 页面。
46
+ - Markdown / 文档代码块。
47
+ - API 表格、参数表和字段说明。
48
+ - 小字号、压缩、暗色主题、拍屏等困难样本。
49
+
50
+ 最终 benchmark 测试集冻结,不参与训练和训练期调参。
51
+
52
+ ## 使用场景
53
+
54
+ 本模型适用于从开发场景截图中抽取可见文字,并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。
55
+
56
+ 推荐解码参数:
57
+
58
+ ```text
59
+ max_tokens=4096
60
+ repetition_penalty=1.08
61
  temperature=0
62
  ```
63
+
64
+ ## 阶段性评估
65
+
66
+ benchmark v4 包含 100 个样本,覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判,并按类别权重汇总最终分。测试集不参与训练和训练期调参。
67
+
68
+ 当前提交候选 v6 benchmark v4 上的结果
69
+
70
+ | 指标 | 数值 |
71
+ | --- | ---: |
72
+ | final_score_v4 | 61.08 |
73
+ | 全局六维分 | 64.06 |
74
+ | 类别宏平均 | 63.86 |
75
+ | 最弱类别 | 44.54 |
76
+ | 可用率 | 47.00% |
77
+ | 完成率 | 96.00% |
78
+ | 安全分 | 79.00% |
79
+ | 平均 LLM | 74.05 |
80
+ | 平均 NED | 0.1360 |
81
+
82
+ 完整 benchmark 见 [GitHub docs/ocr_benchmark_v4.md](https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md),演示/展示页见 https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md 。
83
+
84
+ ## 局限性
85
+
86
+ 模型在以下场景仍可能出错:
87
+
88
+ - 极小或模糊文本。
89
+ - 复杂 API 表格。
90
+ - 深层嵌套配置文件。
91
+ - 长 Traceback 输出。
92
+ - 多区域混排截图。
93
+ - 罕见符号、代码标点和缩进敏感内容。
94
+
95
+ 模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解代码正确性保证。
96
+
97
+ ## 致谢
98
+
99
+ 本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。