ningzhuo commited on
Commit
aff47e0
·
verified ·
1 Parent(s): e7861aa

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +55 -5
README.md CHANGED
@@ -1,5 +1,55 @@
1
- ---
2
- license: apache-2.0
3
- tags:
4
- - llama-factory
5
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ tags:
4
+ - llama-factory
5
+ datasets:
6
+ - ningzhuo/SongPanda-Bench
7
+ metrics:
8
+ - accuracy
9
+ - bleu
10
+ base_model:
11
+ - Qwen/Qwen2.5-VL-7B-Instruct
12
+ ---
13
+ SongPanda(论文投稿“数字人文”期刊中)
14
+
15
+ **模型概述**
16
+ SongPanda 是针对古籍数字化场景优化的视觉语言模型,基于 Qwen2.5-VL-7B 通过 LoRA 微调构建,专注于复杂版式古籍的结构化信息提取,解决传统 OCR 难以区分正文、夹注、版心等字段的痛点。
17
+
18
+ **核心功能**
19
+ 智能字段区分:自动识别并排除古籍版心无关信息
20
+ 夹注精准标注:以标签区分双行小字夹注与正文大字
21
+ 复杂版面适配:支持宋至清代及域外刻本等多类型古籍图像
22
+
23
+ **性能亮点**
24
+ 📊 SOTA 表现:在 SongPanda-Bench 测试集上综合准确度达 0.80,超越 Gemini-2.5-pro 等模型
25
+ 💰 低成本优势:单页推理成本仅 0.003 元(3090 服务器),为闭源模型的 1/50
26
+ ⚡ 高效推理:平均 8 秒 / 页,支持批量处理古籍图像
27
+ 🛡️ 强鲁棒性:适配含噪音、摩尔纹等受损古籍图像
28
+
29
+ **快速使用**
30
+
31
+ 推理示例
32
+ from transformers import AutoProcessor, AutoModelForVision2Seq
33
+ from PIL import Image
34
+
35
+ # 加载模型
36
+ model = AutoModelForVision2Seq.from_pretrained("ningzhuo/SongPanda")
37
+ processor = AutoProcessor.from_pretrained("ningzhuo/SongPanda")
38
+
39
+ # 处理古籍图像
40
+ image = Image.open("ancient_book_page.jpg").convert("RGB")
41
+ inputs = processor(images=image, text="请提取正文并标注夹注", return_tensors="pt")
42
+
43
+ # 生成结果
44
+ outputs = model.generate(**inputs, max_new_tokens=1024)
45
+ print(processor.decode(outputs[0], skip_special_tokens=True))
46
+
47
+ **配套数据集**
48
+ SongPanda-Bench:356 张测试图像,源自 105 本宋元明清及域外刻本,含专业标注
49
+ 训练数据:2 万余张古籍图像
50
+
51
+ **作者团队**
52
+ 郑陈锐 ¹,段伟 ²,范怿泽 ¹
53
+ ¹ 中山大学中文系 ² 上海师范大学人文学院
54
+ **说明**
55
+ 本模型相关的训练细节、技术原理及完整实验结果详见投稿中论文,敬请期待。