CRE-0.5 / README.md

Update README.md

4420936 verified about 2 months ago

4.38 kB

	---
	pipeline_tag: sentence-similarity
	tags:
	- sentence-transformers
	- feature-extraction
	- sentence-similarity
	- transformers
	- onnx
	base_model:
	- BAAI/bge-large-zh-v1.5
	---

	# CRE: CareerInternational Recruitment Embedding Model 🚀

	> CRE-0.5 是一款专为人力资源场景打造的嵌入模型。通过引入局部特征感知（Local Feature-aware）的归纳偏好，显著提升了简历与职位描述（JD）的语义对齐精度。

	---

	### 💡 技术来源 (Technical Background)

	\| 维度 \| 详细信息 \|
	\| :--- \| :--- \|
	\| 专利名称 \| 一种基于局部特征投影的招聘场景语义匹配方法及其系统 \|
	\| 申请号 \| 2025108424429 \|
	\| 当前状态 \| 已公开（实审中） \|
	\| 主要发明人 \| 焦英浩等 \|

	---

	### 更新日志 (Release Notes)
	* 2025/03/28: 发布 CRE-0.5 初始版本及技术报告。

	### 核心特性 (Key Features)
	* 局部特征提取 (Local Feature-aware): 借助 CNN 结构引入归纳偏好，使模型在文本编码过程中对人力资源场景下的“技能词”、“职级”等局部核心特征更为敏锐。
	* 投影层设计 (Projection Layer): 本质上是一种精巧的辅助微调方法。通过在微调阶段增加特定的投影参数进行协同训练，在不破坏基座模型通用能力的前提下，大幅提高编码质量。
	* 全场景覆盖: 适配检索 (Retrieval)、RAG (检索增强生成) 以及智能体 (Agent) 等多种下游任务。

	![CRE Introduction](photos/cre_0_5_introduction.jpg)

	### Using Sentence-Transformers

	```python
	from sentence_transformers import SentenceTransformer, util

	model = SentenceTransformer("JayThinkDiff/CRE-1.1")

	query_embedding = model.encode("图像算法工程师职位描述： 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统")
	passage_embedding = model.encode([
	"图像算法工程师负责设计和实现多种机器学习算法，涵盖数据预处理、特征工程、模型训练与评估等完整流程，提升人效。",
	"算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究，有MMpose、EHS项目经历",
	])

	print("查询结果:", util.cos_sim(query_embedding, passage_embedding))
	```
	### 📊 预期结果对比 (Expected Output Comparison)
	\| 模型名称 (Model) \| 相似度 1 (与简历 1) \| 相似度 2 (与简历 2) \|
	\| :--- \| :---: \| :---: \|
	\| CRE-0.5 \| 0.6854 \| 0.6886 \|
	\| bge-large-zh-v1.5 \| 0.7563 \| 0.7551 \|

	### 📊 PJBenchmark 历史版本测试结果

	以下展示了 CRE 系列模型在招聘垂直领域基准测试（PJBenchmark）中的性能演进过程。可以看到，通过引入 CNN 结构与针对性微调，模型在 jd2cv（人岗匹配核心任务）上取得了突破性进展。

	\| Model \| AVG \| jd2jd \| jd2cv \| cv2cv \|
	\| :--- \| :---: \| :---: \| :---: \| :---: \|
	\| BGE \| 34.05 \| 41.94 \| 21.66 \| 38.55 \|
	\| CRE-0.1 \| 36.14 \| 42.48 \| 30.37 \| 35.56 \|
	\| CRE-0.2 \| 41.22 \| 52.97 \| 30.98 \| 39.72 \|
	\| CRE-0.3 \| 44.27 \| 45.58 \| 42.89 \| 44.33 \|
	\| CRE-0.4 \| 42.88 \| 49.49 \| 43.53 \| 35.61 \|
	\| CRE-0.5 \| 44.99 \| 50.42 \| 46.25 \| 38.29 \|

	> 数据观察：
	> 1. 核心突破：`CRE-0.5` 版本在综合得分（AVG）上达到了最高值 44.99。
	> 2. 人岗匹配能力：在最关键的 jd2cv 维度，`CRE_cnn_ft` 相比基座 BGE 提升了超过 113% (21.66 -> 46.25)。
	> 3. 局部特征优势：CNN 投影层的引入在处理异构文本（JD 与简历）时展现了极强的表征对齐能力。

	<small>
	<strong>注意事项：</strong>
	<ul>
	<li>使用 CLS Token 来表征句子语义。</li>
	<li>最大输入 Token 长度建议设置为 512。</li>
	</ul>
	</small>

	---

	## Citation

	If you find our work helpful, please cite this patent:

	```bibtex
	@misc{jiao2025recruitment,
	title={一种基于局部特征投影的招聘场景语义匹配方法及其系统},
	author={焦英浩 and 王广智 and 刘之},
	year={2025},
	note={中国专利申请号: 2025108424429, 实审中}
	}