ningzhuo
/

SongPanda

Model card Files Files and versions

ningzhuo commited on Dec 5, 2025

Commit

7c2ad59

·

verified ·

1 Parent(s): aff47e0

Update README.md

Files changed (1) hide show

README.md +14 -1

README.md CHANGED Viewed

@@ -10,20 +10,30 @@ metrics:
 base_model:
 - Qwen/Qwen2.5-VL-7B-Instruct
 ---
-SongPanda（论文投稿“数字人文”期刊中）
 **模型概述**
 SongPanda 是针对古籍数字化场景优化的视觉语言模型，基于 Qwen2.5-VL-7B 通过 LoRA 微调构建，专注于复杂版式古籍的结构化信息提取，解决传统 OCR 难以区分正文、夹注、版心等字段的痛点。
 **核心功能**
 智能字段区分：自动识别并排除古籍版心无关信息
 夹注精准标注：以标签区分双行小字夹注与正文大字
 复杂版面适配：支持宋至清代及域外刻本等多类型古籍图像
 **性能亮点**
 📊 SOTA 表现：在 SongPanda-Bench 测试集上综合准确度达 0.80，超越 Gemini-2.5-pro 等模型
 💰 低成本优势：单页推理成本仅 0.003 元（3090 服务器），为闭源模型的 1/50
 ⚡ 高效推理：平均 8 秒 / 页，支持批量处理古籍图像
 🛡️ 强鲁棒性：适配含噪音、摩尔纹等受损古籍图像
 **快速使用**
@@ -49,7 +59,10 @@ SongPanda-Bench：356 张测试图像，源自 105 本宋元明清及域外刻
 训练数据：2 万余张古籍图像
 **作者团队**
 郑陈锐 ¹，段伟 ²，范怿泽 ¹
 ¹ 中山大学中文系 ² 上海师范大学人文学院
 **说明**
 本模型相关的训练细节、技术原理及完整实验结果详见投稿中论文，敬请期待。

 base_model:
 - Qwen/Qwen2.5-VL-7B-Instruct
 ---
+**SongPanda**（论文投稿“数字人文”期刊中）
+![截屏 2025-10-28 14](https://cdn-uploads.huggingface.co/production/uploads/667ad96dbecec8fc513e405c/FKXS7tap38FmEtOTOWndl.png)
 **模型概述**
 SongPanda 是针对古籍数字化场景优化的视觉语言模型，基于 Qwen2.5-VL-7B 通过 LoRA 微调构建，专注于复杂版式古籍的结构化信息提取，解决传统 OCR 难以区分正文、夹注、版心等字段的痛点。
 **核心功能**
 智能字段区分：自动识别并排除古籍版心无关信息
 夹注精准标注：以标签区分双行小字夹注与正文大字
 复杂版面适配：支持宋至清代及域外刻本等多类型古籍图像
 **性能亮点**
 📊 SOTA 表现：在 SongPanda-Bench 测试集上综合准确度达 0.80，超越 Gemini-2.5-pro 等模型
 💰 低成本优势：单页推理成本仅 0.003 元（3090 服务器），为闭源模型的 1/50
 ⚡ 高效推理：平均 8 秒 / 页，支持批量处理古籍图像
 🛡️ 强鲁棒性：适配含噪音、摩尔纹等受损古籍图像
 **快速使用**
 训练数据：2 万余张古籍图像
 **作者团队**
 郑陈锐 ¹，段伟 ²，范怿泽 ¹
 ¹ 中山大学中文系 ² 上海师范大学人文学院
 **说明**
 本模型相关的训练细节、技术原理及完整实验结果详见投稿中论文，敬请期待。