CRE-1.1 / README.md
Jay-v2's picture
Update README.md
e4f1f6f verified
---
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
- transformers
- qwen
- recruitment
- LoRA
base_model:
- Qwen/Qwen3-Embedding-8B
---
# CRE: CareerInternational Recruitment Embedding Model 🚀
> **CRE-1.1** 是一款基于大语言模型(LLM-based)的招聘领域适配嵌入模型。相较于传统 BERT 类模型,它通过长上下文融合与指令控制,展现出极强的语义表征优势,优化了岗位描述(JD)与简历(CV)之间的异构文本对齐难题。
---
### 更新日志 (Release Notes)
* **2025/06/28**: 发布 **CRE-1.1**,优化长文本特征提取与推理性能。
* **2025/03/28**: 发布 **CRE-0.5** 初始版本及技术报告。
### 📖 技术背景 (Technical Report Summary)
本研究探究了 LLM-based Embedding 模型在招聘语义匹配任务中的领域适配机制。核心研究结论证明了:
1. **适配训练范式的有效性**:采用 **LoRA 轻量微调** 结合 **领域合成数据**,显著提升了模型在 JD2JD、JD2CV、CV2CV 三类核心匹配任务上的性能。
2. **技术演进的新趋势**:LLM-based Embedding 天然支持多粒度语义解析(如技能上下位关系捕捉),有效规避了传统模型的结构性瓶颈。
3. **工业部署价值**:在训练阶段使用**增强查询构造**(Enhanced Query Construction)、测试阶段直接应用原始查询的设定下,模型表现出极强的鲁棒性与实用性。
### 核心特性 (Key Features)
* **领域适配方案 (Domain Adaptation)**: 以 **LoRA + 合成数据** 为核心,为复杂招聘场景的工程落地提供了一条高效率、低成本的可靠路径。
* **异构文本对齐 (Heterogeneous Alignment)**: 针对 JD 与简历之间存在的信息不对称、表达习惯差异,具备极佳的语义映射能力。
* **多粒度语义解析**: 能够捕捉技能间的层级与演进关系,支持更精准的人岗匹配。
* **高鲁棒性设计**: 验证了在训练与测试 Query 形式不完全一致的情况下,模型性能依然稳定。
---
### Using Sentence-Transformers
```python
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("JayThinkDiff/CRE-1.1")
query_embedding = model.encode("图像算法工程师 职位描述: 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统")
passage_embedding = model.encode([
"图像算法工程师 负责设计和实现多种机器学习算法,涵盖数据预处理、特征工程、模型训练与评估等完整流程,提升人效。",
"算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究,有MMpose、EHS项目经历",
])
print("查询结果:", util.cos_sim(query_embedding, passage_embedding))
```
### 📊 预期结果对比 (Expected Output Comparison)
| 模型名称 (Model) | 相似度 1 (与简历 1) | 相似度 2 (与简历 2) |
| :--- | :---: | :---: |
| **CRE-1.1** | 0.5816 | **0.6093** |
| **Qwen3-Embedding-8B** | **0.7731** | 0.7638 |
### 🌐 跨领域招聘场景评测 (Cross-Domain Evaluation)
为了验证模型在不同垂直行业的泛化能力,我们在**技术岗(Technical)****职能岗(Functional)**两个极具代表性的招聘领域进行了对比测试。结果显示,**CRE-1.1** 在指令微调的加持下,不仅全面超越了传统 Embedding 模型,相比原始基座模型也有质的突破。
| 模型 (Model) | 技术岗 (Technical Domain) | 职能岗 (Functional Domain) |
| :--- | :---: | :---: |
| BGE | 34.05 | 58.18 |
| CRE-0.4 | 42.88 | 63.70 |
| Conan-embedding-v1 | 43.37 | 54.69 |
| CRE-0.5 | 45.44 | 64.14 |
| Qwen3-Embedding-8B | 58.96 | 66.25 |
| **CRE-1.1** | **64.44** | **69.29** |
> **核心结论 (Key Insights)**
> 1. **指令微调的威力**:相比于基座模型 `Qwen3-Embedding-8B`,**CRE-1.1** 通过特定领域的指令增强,在算法领域得分提升了 **5.48**,金融领域提升了 **3.04**
> 2. **压制级优势**:相比行业标杆 `BGE`,**CRE-1.1** 在算法领域的表现近乎**翻倍**(34.05 -> 64.44),充分证明了其在处理复杂专业术语对齐时的卓越性能。
> 3. **领域泛化**:即便是泛化在职能岗领域,CRE-1.1 依然达到了 **69.29** 的高分,展现了极强的跨行业迁移能力。
### 🛠️ 技术规格 (Technical Specifications)
* **Pooling Strategy**: 推荐使用模型默认的表征方式(last token pooling)。
* **Task Support**: 针对招聘领域的 JD2JD、JD2CV、CV2CV 等任务进行了深度优化。
---