CRE-1.1 / README.md

Update README.md

e4f1f6f verified 23 days ago

5.12 kB

	---
	pipeline_tag: sentence-similarity
	tags:
	- sentence-transformers
	- feature-extraction
	- sentence-similarity
	- transformers
	- qwen
	- recruitment
	- LoRA
	base_model:
	- Qwen/Qwen3-Embedding-8B
	---

	# CRE: CareerInternational Recruitment Embedding Model 🚀

	> CRE-1.1 是一款基于大语言模型（LLM-based）的招聘领域适配嵌入模型。相较于传统 BERT 类模型，它通过长上下文融合与指令控制，展现出极强的语义表征优势，优化了岗位描述（JD）与简历（CV）之间的异构文本对齐难题。

	---

	### 更新日志 (Release Notes)
	* 2025/06/28: 发布 CRE-1.1，优化长文本特征提取与推理性能。
	* 2025/03/28: 发布 CRE-0.5 初始版本及技术报告。

	### 📖 技术背景 (Technical Report Summary)

	本研究探究了 LLM-based Embedding 模型在招聘语义匹配任务中的领域适配机制。核心研究结论证明了：
	1. 适配训练范式的有效性：采用 LoRA 轻量微调结合领域合成数据，显著提升了模型在 JD2JD、JD2CV、CV2CV 三类核心匹配任务上的性能。
	2. 技术演进的新趋势：LLM-based Embedding 天然支持多粒度语义解析（如技能上下位关系捕捉），有效规避了传统模型的结构性瓶颈。
	3. 工业部署价值：在训练阶段使用增强查询构造（Enhanced Query Construction）、测试阶段直接应用原始查询的设定下，模型表现出极强的鲁棒性与实用性。

	### 核心特性 (Key Features)

	* 领域适配方案 (Domain Adaptation): 以 LoRA + 合成数据为核心，为复杂招聘场景的工程落地提供了一条高效率、低成本的可靠路径。
	* 异构文本对齐 (Heterogeneous Alignment): 针对 JD 与简历之间存在的信息不对称、表达习惯差异，具备极佳的语义映射能力。
	* 多粒度语义解析: 能够捕捉技能间的层级与演进关系，支持更精准的人岗匹配。
	* 高鲁棒性设计: 验证了在训练与测试 Query 形式不完全一致的情况下，模型性能依然稳定。

	---

	### Using Sentence-Transformers
	```python
	from sentence_transformers import SentenceTransformer, util

	model = SentenceTransformer("JayThinkDiff/CRE-1.1")

	query_embedding = model.encode("图像算法工程师职位描述： 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统")
	passage_embedding = model.encode([
	"图像算法工程师负责设计和实现多种机器学习算法，涵盖数据预处理、特征工程、模型训练与评估等完整流程，提升人效。",
	"算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究，有MMpose、EHS项目经历",
	])

	print("查询结果:", util.cos_sim(query_embedding, passage_embedding))
	```
	### 📊 预期结果对比 (Expected Output Comparison)

	\| 模型名称 (Model) \| 相似度 1 (与简历 1) \| 相似度 2 (与简历 2) \|
	\| :--- \| :---: \| :---: \|
	\| CRE-1.1 \| 0.5816 \| 0.6093 \|
	\| Qwen3-Embedding-8B \| 0.7731 \| 0.7638 \|

	### 🌐 跨领域招聘场景评测 (Cross-Domain Evaluation)

	为了验证模型在不同垂直行业的泛化能力，我们在技术岗（Technical）与职能岗（Functional）两个极具代表性的招聘领域进行了对比测试。结果显示，CRE-1.1 在指令微调的加持下，不仅全面超越了传统 Embedding 模型，相比原始基座模型也有质的突破。

	\| 模型 (Model) \| 技术岗 (Technical Domain) \| 职能岗 (Functional Domain) \|
	\| :--- \| :---: \| :---: \|
	\| BGE \| 34.05 \| 58.18 \|
	\| CRE-0.4 \| 42.88 \| 63.70 \|
	\| Conan-embedding-v1 \| 43.37 \| 54.69 \|
	\| CRE-0.5 \| 45.44 \| 64.14 \|
	\| Qwen3-Embedding-8B \| 58.96 \| 66.25 \|
	\| CRE-1.1 \| 64.44 \| 69.29 \|

	> 核心结论 (Key Insights)：
	> 1. 指令微调的威力：相比于基座模型 `Qwen3-Embedding-8B`，CRE-1.1 通过特定领域的指令增强，在算法领域得分提升了 5.48，金融领域提升了 3.04。
	> 2. 压制级优势：相比行业标杆 `BGE`，CRE-1.1 在算法领域的表现近乎翻倍（34.05 -> 64.44），充分证明了其在处理复杂专业术语对齐时的卓越性能。
	> 3. 领域泛化：即便是泛化在职能岗领域，CRE-1.1 依然达到了 69.29 的高分，展现了极强的跨行业迁移能力。

	### 🛠️ 技术规格 (Technical Specifications)

	* Pooling Strategy: 推荐使用模型默认的表征方式（last token pooling）。
	* Task Support: 针对招聘领域的 JD2JD、JD2CV、CV2CV 等任务进行了深度优化。

	---