File size: 4,377 Bytes

6e16060
 
 
 
 
 
 
 
5821b94
 
6e16060
ae7ba48
6935f67
ae7ba48
56d1d41
ae7ba48
8394a48
ae7ba48
8394a48
ae7ba48
8394a48
 
 
 
 
 
ae7ba48
8394a48
 
924a434
56d1d41
ae7ba48
8394a48
 
 
924a434
4894bf1
ae7ba48
6e16060
2424c5a
ae7ba48
f5c9bfd
ae7ba48
4894bf1
ae7ba48
6e16060
475e7fb
6e16060
369ffa9
 
6e16060
 
 
 
74fe278
56d1d41
 
 
 
6e16060
fdb3f36
 
 
 
 
 
 
4420936
 
 
fdb3f36
 
 
 
 
 
 
 
ae7ba48
 
 
 
 
6e16060
 
7e51080
ae7ba48
 
7e51080
ae7ba48
7e51080
ae7ba48
deb44d9
 
 
 
 
 
0a64d9a

---
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
- transformers
- onnx
base_model:
- BAAI/bge-large-zh-v1.5
---

# CRE: CareerInternational Recruitment Embedding Model 🚀

> **CRE-0.5** 是一款专为人力资源场景打造的嵌入模型。通过引入局部特征感知（Local Feature-aware）的归纳偏好，显著提升了简历与职位描述（JD）的语义对齐精度。

---

### 💡 技术来源 (Technical Background)

| 维度 | 详细信息 |
| :--- | :--- |
| **专利名称** | 一种基于局部特征投影的招聘场景语义匹配方法及其系统 |
| **申请号** | 2025108424429 |
| **当前状态** | 已公开（实审中） |
| **主要发明人** | 焦英浩 等 |

---

### 更新日志 (Release Notes)
* **2025/03/28**: 发布 **CRE-0.5** 初始版本及技术报告。

### 核心特性 (Key Features)
* **局部特征提取 (Local Feature-aware)**: 借助 **CNN** 结构引入归纳偏好，使模型在文本编码过程中对人力资源场景下的“技能词”、“职级”等局部核心特征更为敏锐。
* **投影层设计 (Projection Layer)**: 本质上是一种精巧的辅助微调方法。通过在微调阶段增加特定的投影参数进行协同训练，在不破坏基座模型通用能力的前提下，大幅提高编码质量。
* **全场景覆盖**: 适配 **检索 (Retrieval)**、**RAG (检索增强生成)** 以及 **智能体 (Agent)** 等多种下游任务。

![CRE Introduction](photos/cre_0_5_introduction.jpg)

### Using Sentence-Transformers

```python
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("JayThinkDiff/CRE-1.1")

query_embedding = model.encode("图像算法工程师 职位描述： 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统")
passage_embedding = model.encode([
    "图像算法工程师 负责设计和实现多种机器学习算法，涵盖数据预处理、特征工程、模型训练与评估等完整流程，提升人效。",
    "算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究，有MMpose、EHS项目经历",
])

print("查询结果:", util.cos_sim(query_embedding, passage_embedding))
```
### 📊 预期结果对比 (Expected Output Comparison)
| 模型名称 (Model)       | 相似度 1 (与简历 1) | 相似度 2 (与简历 2) |
| :---                  | :---:             | :---:             |
| **CRE-0.5**           | 0.6854            | **0.6886**        |
| **bge-large-zh-v1.5** | **0.7563**        | 0.7551            |

### 📊 PJBenchmark 历史版本测试结果

以下展示了 CRE 系列模型在招聘垂直领域基准测试（PJBenchmark）中的性能演进过程。可以看到，通过引入 CNN 结构与针对性微调，模型在 **jd2cv**（人岗匹配核心任务）上取得了突破性进展。

| Model       | AVG       | jd2jd     | jd2cv     | cv2cv     |
| :---        | :---:     | :---:     | :---:     | :---:     |
| BGE         | 34.05     | 41.94     | 21.66     | 38.55     |
| CRE-0.1     | 36.14     | 42.48     | 30.37     | 35.56     |
| CRE-0.2     | 41.22     | 52.97     | 30.98     | 39.72     |
| CRE-0.3     | 44.27     | 45.58     | 42.89     | **44.33** |
| CRE-0.4     | 42.88     | 49.49     | 43.53     | 35.61     |
| **CRE-0.5** | **44.99** | **50.42** | **46.25** | 38.29     |

> **数据观察**：
> 1. **核心突破**：`CRE-0.5` 版本在综合得分（AVG）上达到了最高值 **44.99**。
> 2. **人岗匹配能力**：在最关键的 **jd2cv** 维度，`CRE_cnn_ft` 相比基座 BGE 提升了超过 **113%** (21.66 -> 46.25)。
> 3. **局部特征优势**：CNN 投影层的引入在处理异构文本（JD 与简历）时展现了极强的表征对齐能力。

<small>
<strong>注意事项：</strong>
<ul>
  <li>使用 CLS Token 来表征句子语义。</li>
  <li>最大输入 Token 长度建议设置为 512。</li>
</ul>
</small>

---

## Citation

If you find our work helpful, please cite this patent:

```bibtex
@misc{jiao2025recruitment,
  title={一种基于局部特征投影的招聘场景语义匹配方法及其系统},
  author={焦英浩 and 王广智 and 刘之},
  year={2025},
  note={中国专利申请号: 2025108424429, 实审中}
}