---
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
- transformers
- qwen
- recruitment
- LoRA
base_model:
- Qwen/Qwen3-Embedding-8B
---

# CRE: CareerInternational Recruitment Embedding Model 🚀

> **CRE-1.1** 是一款基于大语言模型（LLM-based）的招聘领域适配嵌入模型。相较于传统 BERT 类模型，它通过长上下文融合与指令控制，展现出极强的语义表征优势，优化了岗位描述（JD）与简历（CV）之间的异构文本对齐难题。

---

### 更新日志 (Release Notes)
* **2025/06/28**: 发布 **CRE-1.1**，优化长文本特征提取与推理性能。
* **2025/03/28**: 发布 **CRE-0.5** 初始版本及技术报告。

### 📖 技术背景 (Technical Report Summary)

本研究探究了 LLM-based Embedding 模型在招聘语义匹配任务中的领域适配机制。核心研究结论证明了：
1. **适配训练范式的有效性**：采用 **LoRA 轻量微调** 结合 **领域合成数据**，显著提升了模型在 JD2JD、JD2CV、CV2CV 三类核心匹配任务上的性能。
2. **技术演进的新趋势**：LLM-based Embedding 天然支持多粒度语义解析（如技能上下位关系捕捉），有效规避了传统模型的结构性瓶颈。
3. **工业部署价值**：在训练阶段使用**增强查询构造**（Enhanced Query Construction）、测试阶段直接应用原始查询的设定下，模型表现出极强的鲁棒性与实用性。

### 核心特性 (Key Features)

* **领域适配方案 (Domain Adaptation)**: 以 **LoRA + 合成数据** 为核心，为复杂招聘场景的工程落地提供了一条高效率、低成本的可靠路径。
* **异构文本对齐 (Heterogeneous Alignment)**: 针对 JD 与简历之间存在的信息不对称、表达习惯差异，具备极佳的语义映射能力。
* **多粒度语义解析**: 能够捕捉技能间的层级与演进关系，支持更精准的人岗匹配。
* **高鲁棒性设计**: 验证了在训练与测试 Query 形式不完全一致的情况下，模型性能依然稳定。

---

### Using Sentence-Transformers
```python
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("JayThinkDiff/CRE-1.1")

query_embedding = model.encode("图像算法工程师 职位描述： 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统")
passage_embedding = model.encode([
    "图像算法工程师 负责设计和实现多种机器学习算法，涵盖数据预处理、特征工程、模型训练与评估等完整流程，提升人效。",
    "算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究，有MMpose、EHS项目经历",
])

print("查询结果:", util.cos_sim(query_embedding, passage_embedding))
```
### 📊 预期结果对比 (Expected Output Comparison)

| 模型名称 (Model)        | 相似度 1 (与简历 1) | 相似度 2 (与简历 2) |
| :---                   | :---:             | :---:             |
| **CRE-1.1**            | 0.5816            | **0.6093**        |
| **Qwen3-Embedding-8B** | **0.7731**        | 0.7638            |

### 🌐 跨领域招聘场景评测 (Cross-Domain Evaluation)

为了验证模型在不同垂直行业的泛化能力，我们在**技术岗（Technical）**与**职能岗（Functional）**两个极具代表性的招聘领域进行了对比测试。结果显示，**CRE-1.1** 在指令微调的加持下，不仅全面超越了传统 Embedding 模型，相比原始基座模型也有质的突破。

| 模型 (Model)        | 技术岗 (Technical Domain) | 职能岗 (Functional Domain) |
| :---               | :---:                     | :---:                    |
| BGE                | 34.05                     | 58.18                    |
| CRE-0.4            | 42.88                     | 63.70                    |
| Conan-embedding-v1 | 43.37                     | 54.69                    |
| CRE-0.5            | 45.44                     | 64.14                    |
| Qwen3-Embedding-8B | 58.96                     | 66.25                    |
| **CRE-1.1**        | **64.44**                 | **69.29**                |

> **核心结论 (Key Insights)**：
> 1. **指令微调的威力**：相比于基座模型 `Qwen3-Embedding-8B`，**CRE-1.1** 通过特定领域的指令增强，在算法领域得分提升了 **5.48**，金融领域提升了 **3.04**。
> 2. **压制级优势**：相比行业标杆 `BGE`，**CRE-1.1** 在算法领域的表现近乎**翻倍**（34.05 -> 64.44），充分证明了其在处理复杂专业术语对齐时的卓越性能。
> 3. **领域泛化**：即便是泛化在职能岗领域，CRE-1.1 依然达到了 **69.29** 的高分，展现了极强的跨行业迁移能力。

### 🛠️ 技术规格 (Technical Specifications)

* **Pooling Strategy**: 推荐使用模型默认的表征方式（last token pooling）。
* **Task Support**: 针对招聘领域的 JD2JD、JD2CV、CV2CV 等任务进行了深度优化。

---