SmartResume / README.md

Update README.md

9939163 verified 2 months ago

3.7 kB

	---
	frameworks:
	- Pytorch
	tasks:
	- universal-information-extraction
	base_model:
	- Qwen/Qwen3-0.6B
	base_model_relation: finetune
	license: apache-2.0
	---

	# SmartResume - 智能简历解析系统

	<div align="center">
	<img src="assets/logo.png" alt="SmartResume Logo" width="80%" >
	</div>


	<p align="center">
	💻 <a href="https://github.com/alibaba/SmartResume">Code</a>&nbsp&nbsp \| &nbsp&nbsp🤗 <a href="https://www.modelscope.cn/models/Alibaba-EI/SmartResume">Model</a>&nbsp&nbsp \| &nbsp&nbsp🤖 <a href="https://modelscope.cn/studios/Alibaba-EI/SmartResumeDemo/summary">Demo</a>&nbsp&nbsp \| &nbsp&nbsp📑 <a href="https://arxiv.org/abs/2510.09722">Technical Report</a>
	</p>


	## 项目介绍

	SmartResume 是一个面向版面结构的智能简历解析系统，系统支持 PDF、图片及常见 Office 文档格式，融合 OCR 与 PDF 元数据完成文本提取，结合版面检测重建阅读顺序，并通过 LLM 将内容转换为结构化字段（如：基本信息、教育经历、工作经历等）。系统同时支持远程 API 和本地模型部署，提供灵活的使用方式。
	<div align="center">
	<img src="assets/image.png" alt="pipline">
	</div>

	## 基准测试
	为了全面评估我们提出的框架，我们将其与一系列简历抽取基线进行比较，并在我们的流程中对大语言模型API进行基准测试。
	<div align="center">
	<img src="assets/results.jpg" alt="demo">
	</div>


	## 模型权重文件说明

	本仓库包含 SmartResume 项目所需的两个核心权重文件，用于简历信息提取和版面分析。

	### 1. Qwen3-0.6B 大语言模型

	用途: 简历文本信息提取和结构化处理
	基础模型: Qwen/Qwen3-0.6B
	模型类型: 微调 (Instruction-tuned)

	#### 目录结构

	```
	Qwen3-0.6B/
	├── model.safetensors # 模型权重文件 (主要文件)
	├── config.json # 模型配置文件
	├── generation_config.json # 生成配置
	├── tokenizer.json # 分词器主文件
	├── tokenizer_config.json # 分词器配置
	├── vocab.json # 词汇表
	├── merges.txt # BPE合并规则
	├── special_tokens_map.json # 特殊token映射
	└── added_tokens.json # 额外添加的token
	```

	功能特点:

	- 专门针对简历信息提取任务微调
	- 能够提取基本信息、工作经历、教育背景等结构化信息
	- 高精度、轻量级模型，推理速度快

	### 2. YOLOv10 版面检测模型

	用途: 简历版面布局检测和区域分割
	模型文件: best.onnx (约 265.81 MB)
	任务类型: 目标检测 (Object Detection)

	#### 目录结构

	```
	yolov10/
	└── best.onnx # YOLOv10 训练好的权重文件
	```

	功能特点:

	- 支持多种版面布局识别
	- 高精度区域定位
	- 为文本提取提供准确的区域信息

	## 使用方式


	## Citation

	```bibtex
	@article{Zhu2025SmartResume,
	title={Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation},
	author={Fanwei Zhu and Jinke Yu and Zulong Chen and Ying Zhou and Junhao Ji and Zhibo Yang and Yuxue Zhang and Haoyuan Hu and Zhenghao Liu},
	journal={arXiv preprint arXiv:2510.09722},
	year={2025},
	url={https://arxiv.org/abs/2510.09722}
	}
	```

	<p style="color: lightgrey;">如果您是本模型的贡献者，我们邀请您根据<a href="https://modelscope.cn/docs/ModelScope%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B%E6%A6%82%E8%A7%88" style="color: lightgrey; text-decoration: underline;">模型贡献文档</a>，及时完善模型卡片内容。</p>