Update model card for v6 benchmark
Browse files
README.md
CHANGED
|
@@ -12,71 +12,88 @@ tags:
|
|
| 12 |
- developer-tools
|
| 13 |
---
|
| 14 |
|
| 15 |
-
# PaddleOCR-VL 开发场景代码 OCR 微调模型
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
|
| 21 |
-
|
| 22 |
-
|
| 23 |
-
|
| 24 |
-
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
|
| 29 |
-
|
| 30 |
-
|
| 31 |
-
|
| 32 |
-
|
| 33 |
-
|
| 34 |
-
|
| 35 |
-
|
| 36 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 37 |
temperature=0
|
| 38 |
```
|
| 39 |
-
|
| 40 |
-
|
| 41 |
-
|
| 42 |
-
|
| 43 |
-
|
| 44 |
-
|
| 45 |
-
|
| 46 |
-
|
| 47 |
-
-
|
| 48 |
-
|
| 49 |
-
|
| 50 |
-
|
| 51 |
-
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
|
| 55 |
-
|
| 56 |
-
|
| 57 |
-
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
|
| 61 |
-
|
| 62 |
-
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
|
| 68 |
-
|
| 69 |
-
|
| 70 |
-
|
| 71 |
-
|
| 72 |
-
|
| 73 |
-
|
| 74 |
-
|
| 75 |
-
-
|
| 76 |
-
- 罕见符号、代码标点和缩进敏感内容
|
| 77 |
-
|
| 78 |
-
模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。
|
| 79 |
-
|
| 80 |
-
## 致谢
|
| 81 |
-
|
| 82 |
-
本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。
|
|
|
|
| 12 |
- developer-tools
|
| 13 |
---
|
| 14 |
|
| 15 |
+
# PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型
|
| 16 |
+
|
| 17 |
+
这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先,必要英文术语仅用于模型平台兼容。
|
| 18 |
+
|
| 19 |
+
当前初赛提交候选为 v6。
|
| 20 |
+
|
| 21 |
+
## 模型简介
|
| 22 |
+
|
| 23 |
+
本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
|
| 24 |
+
|
| 25 |
+
推荐提示词:
|
| 26 |
+
|
| 27 |
+
```text
|
| 28 |
+
<image>OCR:
|
| 29 |
+
```
|
| 30 |
+
|
| 31 |
+
## 基础模型
|
| 32 |
+
|
| 33 |
+
- 基础模型:PaddleOCR-VL-1.6。
|
| 34 |
+
- 微调方式:LoRA 微调后导出合并模型。
|
| 35 |
+
- 目标任务:代码文字识别 / 开发工具 OCR。
|
| 36 |
+
|
| 37 |
+
## 数据概况
|
| 38 |
+
|
| 39 |
+
当前训练索引 `train.json` 共 1102 条样本。公开仓库不直接发布训练数据,只说明数据类型和质量控制方法。数据主要覆盖:
|
| 40 |
+
|
| 41 |
+
- IDE / 编辑器代码截图。
|
| 42 |
+
- 终端、Shell、PowerShell 命令和输出。
|
| 43 |
+
- Traceback、报错日志和诊断信息。
|
| 44 |
+
- YAML / JSON / TOML / INI 配置文件。
|
| 45 |
+
- Git diff、patch 和 PR 页面。
|
| 46 |
+
- Markdown / 文档代码块。
|
| 47 |
+
- API 表格、参数表和字段说明。
|
| 48 |
+
- 小字号、压缩、暗色主题、拍屏等困难样本。
|
| 49 |
+
|
| 50 |
+
最终 benchmark 测试集冻结,不参与训练和训练期调参。
|
| 51 |
+
|
| 52 |
+
## 使用场景
|
| 53 |
+
|
| 54 |
+
本模型适用于从开发场景截图中抽取可见文字,并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。
|
| 55 |
+
|
| 56 |
+
推荐解码参数:
|
| 57 |
+
|
| 58 |
+
```text
|
| 59 |
+
max_tokens=4096
|
| 60 |
+
repetition_penalty=1.08
|
| 61 |
temperature=0
|
| 62 |
```
|
| 63 |
+
|
| 64 |
+
## 阶段性评估
|
| 65 |
+
|
| 66 |
+
benchmark v4 包含 100 个样本,覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判,并按类别权重汇总最终分。测试集不参与训练和训练期调参。
|
| 67 |
+
|
| 68 |
+
当前提交候选 v6 在 benchmark v4 上的结果:
|
| 69 |
+
|
| 70 |
+
| 指标 | 数值 |
|
| 71 |
+
| --- | ---: |
|
| 72 |
+
| final_score_v4 | 61.08 |
|
| 73 |
+
| 全局六维分 | 64.06 |
|
| 74 |
+
| 类别宏平均 | 63.86 |
|
| 75 |
+
| 最弱类别 | 44.54 |
|
| 76 |
+
| 严格可用率 | 47.00% |
|
| 77 |
+
| 完成率 | 96.00% |
|
| 78 |
+
| 安全分 | 79.00% |
|
| 79 |
+
| 平均 LLM | 74.05 |
|
| 80 |
+
| 平均 NED | 0.1360 |
|
| 81 |
+
|
| 82 |
+
完整 benchmark 见 [GitHub docs/ocr_benchmark_v4.md](https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md),演示/展示页见 https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md 。
|
| 83 |
+
|
| 84 |
+
## 局限性
|
| 85 |
+
|
| 86 |
+
模型在以下场景仍可能出错:
|
| 87 |
+
|
| 88 |
+
- 极小或模糊文本。
|
| 89 |
+
- 复杂 API 表格。
|
| 90 |
+
- 深层嵌套配置文件。
|
| 91 |
+
- 长 Traceback 输出。
|
| 92 |
+
- 多区域混排截图。
|
| 93 |
+
- 罕见符号、代码标点和缩进敏感内容。
|
| 94 |
+
|
| 95 |
+
模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。
|
| 96 |
+
|
| 97 |
+
## 致谢
|
| 98 |
+
|
| 99 |
+
本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|