snnh
/

paddleocr_vl_code_ocr

@@ -12,71 +12,88 @@ tags:
 - developer-tools
 ---
-# PaddleOCR-VL 开发场景代码 OCR 微调模型
-本模型基于 PaddleOCR-VL-1.6 微调，面向开发场景 OCR，重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
-推荐提示词：
-```text
-<image>OCR:
-```
-## 模型信息
-- 基础模型：PaddleOCR-VL-1.6
-- 微调方式：LoRA 微调后导出合并模型
-- 任务类型：开发场景代码 OCR / image-to-text
-- 当前版本：v5-v2params 提交候选版本
-## 推荐推理参数
-```text
-max_tokens=4096
-repetition_penalty=1.10
 temperature=0
 ```
-模型目标是只输出图片中可见文字，尽量保留代码符号、大小写、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型，不应补全图片中不可见的内容。
-## 数据与评估
-训练数据仍在持续清洗和补充中。数据主要覆盖：
-- IDE / 编辑器代码截图
-- 终端、Shell、PowerShell 命令和输出
-- Traceback、报错日志和诊断信息
-- YAML / JSON / TOML / INI 配置文件
-- Git diff、patch 和 PR 页面
-- Markdown / 文档代码块
-- API 表格、参数表和字段说明
-- 小字号、压缩、暗色主题、拍屏等困难样本
-当前 benchmark v4 使用 100 题冻结测试集，按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。
-阶段性 v4 结果：
-| 模型 | 提示词 | final_score_v4 | 平均 LLM | 平均 NED | 严格可用率 | 完成率 | 安全分 |
-| --- | --- | ---: | ---: | ---: | ---: | ---: | ---: |
-| PaddleOCR-VL-1.6 微调 v5-v2params | `<image>OCR:` | 57.85 | 71.55 | 0.1321 | 44.00% | 95.00% | 76.00% |
-该分数是阶段性回归结果，最终比赛评审以官方规则和提交材料为准。
-完整benchmark详见[此处](https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md)
-## 局限性
-模型在以下场景仍可能出错：
-- 极小或模糊文本
-- 复杂 API 表格
-- 深层嵌套配置文件
-- 长 Traceback 输出
-- 多区域混排截图
-- 罕见符号、代码标点和缩进敏感内容
-模型输出应只作为 OCR 转写结果使用，不能视为代码语义理解或代码正确性保证。
-## 致谢
-本模型为 PaddleOCR 全球衍生模型挑战赛构建，基础能力来自 PaddleOCR-VL 系列模型。

 - developer-tools
 ---
+# PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型
+这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先，必要英文术语仅用于模型平台兼容。
+当前初赛提交候选为 v6。
+## 模型简介
+本模型基于 PaddleOCR-VL-1.6 微调，面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
+推荐提示词：
+```text
+<image>OCR:
+```
+## 基础模型
+- 基础模型：PaddleOCR-VL-1.6。
+- 微调方式：LoRA 微调后导出合并模型。
+- 目标任务：代码文字识别 / 开发工具 OCR。
+## 数据概况
+当前训练索引 `train.json` 共 1102 条样本。公开仓库不直接发布训练数据，只说明数据类型和质量控制方法。数据主要覆盖：
+- IDE / 编辑器代码截图。
+- 终端、Shell、PowerShell 命令和输出。
+- Traceback、报错日志和诊断信息。
+- YAML / JSON / TOML / INI 配置文件。
+- Git diff、patch 和 PR 页面。
+- Markdown / 文档代码块。
+- API 表格、参数表和字段说明。
+- 小字号、压缩、暗色主题、拍屏等困难样本。
+最终 benchmark 测试集冻结，不参与训练和训练期调参。
+## 使用场景
+本模型适用于从开发场景截图中抽取可见文字，并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型，不应补全图片中不可见的内容。
+推荐解码参数：
+```text
+max_tokens=4096
+repetition_penalty=1.08
 temperature=0
 ```
+## 阶段性评估
+benchmark v4 包含 100 个样本，覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判，并按类别权重汇总最终分。测试集不参与训练和训练期调参。
+当前提交候选 v6 在 benchmark v4 上的结果：
+| 指标 | 数值 |
+| --- | ---: |
+| final_score_v4 | 61.08 |
+| 全局六维分 | 64.06 |
+| 类别宏平均 | 63.86 |
+| 最弱类别 | 44.54 |
+| 严格可用率 | 47.00% |
+| 完成率 | 96.00% |
+| 安全分 | 79.00% |
+| 平均 LLM | 74.05 |
+| 平均 NED | 0.1360 |
+完整 benchmark 见 [GitHub docs/ocr_benchmark_v4.md](https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md)，演示/展示页见 https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md 。
+## 局限性
+模型在以下场景仍可能出错：
+- 极小或模糊文本。
+- 复杂 API 表格。
+- 深层嵌套配置文件。
+- 长 Traceback 输出。
+- 多区域混排截图。
+- 罕见符号、代码标点和缩进敏感内容。
+模型输出应只作为 OCR 转写结果使用，不能视为代码语义理解或代码正确性保证。
+## 致谢
+本模型为 PaddleOCR 全球衍生模型挑战赛构建，基础能力来自 PaddleOCR-VL 系列模型。