|
|
--- |
|
|
frameworks: |
|
|
- Pytorch |
|
|
tasks: |
|
|
- universal-information-extraction |
|
|
base_model: |
|
|
- Qwen/Qwen3-0.6B |
|
|
base_model_relation: finetune |
|
|
license: apache-2.0 |
|
|
--- |
|
|
|
|
|
# SmartResume - 智能简历解析系统 |
|
|
|
|
|
<div align="center"> |
|
|
<img src="assets/logo.png" alt="SmartResume Logo" width="80%" > |
|
|
</div> |
|
|
|
|
|
|
|
|
<p align="center"> |
|
|
💻 <a href="https://github.com/alibaba/SmartResume">Code</a>   |   🤗 <a href="https://www.modelscope.cn/models/Alibaba-EI/SmartResume">Model</a>   |   🤖 <a href="https://modelscope.cn/studios/Alibaba-EI/SmartResumeDemo/summary">Demo</a>   |   📑 <a href="https://arxiv.org/abs/2510.09722">Technical Report</a> |
|
|
</p> |
|
|
|
|
|
|
|
|
## 项目介绍 |
|
|
|
|
|
SmartResume 是一个面向版面结构的智能简历解析系统,系统支持 PDF、图片及常见 Office 文档格式,融合 OCR 与 PDF 元数据完成文本提取,结合版面检测重建阅读顺序,并通过 LLM 将内容转换为结构化字段(如:基本信息、教育经历、工作经历等)。系统同时支持远程 API 和本地模型部署,提供灵活的使用方式。 |
|
|
<div align="center"> |
|
|
<img src="assets/image.png" alt="pipline"> |
|
|
</div> |
|
|
|
|
|
## 基准测试 |
|
|
为了全面评估我们提出的框架,我们将其与一系列简历抽取基线进行比较,并在我们的流程中对大语言模型API进行基准测试。 |
|
|
<div align="center"> |
|
|
<img src="assets/results.jpg" alt="demo"> |
|
|
</div> |
|
|
|
|
|
|
|
|
## 模型权重文件说明 |
|
|
|
|
|
本仓库包含 SmartResume 项目所需的两个核心权重文件,用于简历信息提取和版面分析。 |
|
|
|
|
|
### 1. Qwen3-0.6B 大语言模型 |
|
|
|
|
|
**用途**: 简历文本信息提取和结构化处理 |
|
|
**基础模型**: Qwen/Qwen3-0.6B |
|
|
**模型类型**: 微调 (Instruction-tuned) |
|
|
|
|
|
#### 目录结构 |
|
|
|
|
|
``` |
|
|
Qwen3-0.6B/ |
|
|
├── model.safetensors # 模型权重文件 (主要文件) |
|
|
├── config.json # 模型配置文件 |
|
|
├── generation_config.json # 生成配置 |
|
|
├── tokenizer.json # 分词器主文件 |
|
|
├── tokenizer_config.json # 分词器配置 |
|
|
├── vocab.json # 词汇表 |
|
|
├── merges.txt # BPE合并规则 |
|
|
├── special_tokens_map.json # 特殊token映射 |
|
|
└── added_tokens.json # 额外添加的token |
|
|
``` |
|
|
|
|
|
**功能特点**: |
|
|
|
|
|
- 专门针对简历信息提取任务微调 |
|
|
- 能够提取基本信息、工作经历、教育背景等结构化信息 |
|
|
- 高精度、轻量级模型,推理速度快 |
|
|
|
|
|
### 2. YOLOv10 版面检测模型 |
|
|
|
|
|
**用途**: 简历版面布局检测和区域分割 |
|
|
**模型文件**: best.onnx (约 265.81 MB) |
|
|
**任务类型**: 目标检测 (Object Detection) |
|
|
|
|
|
#### 目录结构 |
|
|
|
|
|
``` |
|
|
yolov10/ |
|
|
└── best.onnx # YOLOv10 训练好的权重文件 |
|
|
``` |
|
|
|
|
|
**功能特点**: |
|
|
|
|
|
- 支持多种版面布局识别 |
|
|
- 高精度区域定位 |
|
|
- 为文本提取提供准确的区域信息 |
|
|
|
|
|
## 使用方式 |
|
|
|
|
|
|
|
|
## Citation |
|
|
|
|
|
```bibtex |
|
|
@article{Zhu2025SmartResume, |
|
|
title={Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation}, |
|
|
author={Fanwei Zhu and Jinke Yu and Zulong Chen and Ying Zhou and Junhao Ji and Zhibo Yang and Yuxue Zhang and Haoyuan Hu and Zhenghao Liu}, |
|
|
journal={arXiv preprint arXiv:2510.09722}, |
|
|
year={2025}, |
|
|
url={https://arxiv.org/abs/2510.09722} |
|
|
} |
|
|
``` |
|
|
|
|
|
<p style="color: lightgrey;">如果您是本模型的贡献者,我们邀请您根据<a href="https://modelscope.cn/docs/ModelScope%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B%E6%A6%82%E8%A7%88" style="color: lightgrey; text-decoration: underline;">模型贡献文档</a>,及时完善模型卡片内容。</p> |