Sentence Similarity
sentence-transformers
Safetensors
Transformers
ONNX
bert
feature-extraction
text-embeddings-inference
Instructions to use JayThinkDiff/CRE-0.5 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use JayThinkDiff/CRE-0.5 with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("JayThinkDiff/CRE-0.5") sentences = [ "That is a happy person", "That is a happy dog", "That is a very happy person", "Today is a sunny day" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Transformers
How to use JayThinkDiff/CRE-0.5 with Transformers:
# Load model directly from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("JayThinkDiff/CRE-0.5") model = AutoModel.from_pretrained("JayThinkDiff/CRE-0.5") - Notebooks
- Google Colab
- Kaggle
File size: 4,377 Bytes
6e16060 5821b94 6e16060 ae7ba48 6935f67 ae7ba48 56d1d41 ae7ba48 8394a48 ae7ba48 8394a48 ae7ba48 8394a48 ae7ba48 8394a48 924a434 56d1d41 ae7ba48 8394a48 924a434 4894bf1 ae7ba48 6e16060 2424c5a ae7ba48 f5c9bfd ae7ba48 4894bf1 ae7ba48 6e16060 475e7fb 6e16060 369ffa9 6e16060 74fe278 56d1d41 6e16060 fdb3f36 4420936 fdb3f36 ae7ba48 6e16060 7e51080 ae7ba48 7e51080 ae7ba48 7e51080 ae7ba48 deb44d9 0a64d9a | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 | ---
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
- transformers
- onnx
base_model:
- BAAI/bge-large-zh-v1.5
---
# CRE: CareerInternational Recruitment Embedding Model 🚀
> **CRE-0.5** 是一款专为人力资源场景打造的嵌入模型。通过引入局部特征感知(Local Feature-aware)的归纳偏好,显著提升了简历与职位描述(JD)的语义对齐精度。
---
### 💡 技术来源 (Technical Background)
| 维度 | 详细信息 |
| :--- | :--- |
| **专利名称** | 一种基于局部特征投影的招聘场景语义匹配方法及其系统 |
| **申请号** | 2025108424429 |
| **当前状态** | 已公开(实审中) |
| **主要发明人** | 焦英浩 等 |
---
### 更新日志 (Release Notes)
* **2025/03/28**: 发布 **CRE-0.5** 初始版本及技术报告。
### 核心特性 (Key Features)
* **局部特征提取 (Local Feature-aware)**: 借助 **CNN** 结构引入归纳偏好,使模型在文本编码过程中对人力资源场景下的“技能词”、“职级”等局部核心特征更为敏锐。
* **投影层设计 (Projection Layer)**: 本质上是一种精巧的辅助微调方法。通过在微调阶段增加特定的投影参数进行协同训练,在不破坏基座模型通用能力的前提下,大幅提高编码质量。
* **全场景覆盖**: 适配 **检索 (Retrieval)**、**RAG (检索增强生成)** 以及 **智能体 (Agent)** 等多种下游任务。

### Using Sentence-Transformers
```python
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer("JayThinkDiff/CRE-1.1")
query_embedding = model.encode("图像算法工程师 职位描述: 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统")
passage_embedding = model.encode([
"图像算法工程师 负责设计和实现多种机器学习算法,涵盖数据预处理、特征工程、模型训练与评估等完整流程,提升人效。",
"算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究,有MMpose、EHS项目经历",
])
print("查询结果:", util.cos_sim(query_embedding, passage_embedding))
```
### 📊 预期结果对比 (Expected Output Comparison)
| 模型名称 (Model) | 相似度 1 (与简历 1) | 相似度 2 (与简历 2) |
| :--- | :---: | :---: |
| **CRE-0.5** | 0.6854 | **0.6886** |
| **bge-large-zh-v1.5** | **0.7563** | 0.7551 |
### 📊 PJBenchmark 历史版本测试结果
以下展示了 CRE 系列模型在招聘垂直领域基准测试(PJBenchmark)中的性能演进过程。可以看到,通过引入 CNN 结构与针对性微调,模型在 **jd2cv**(人岗匹配核心任务)上取得了突破性进展。
| Model | AVG | jd2jd | jd2cv | cv2cv |
| :--- | :---: | :---: | :---: | :---: |
| BGE | 34.05 | 41.94 | 21.66 | 38.55 |
| CRE-0.1 | 36.14 | 42.48 | 30.37 | 35.56 |
| CRE-0.2 | 41.22 | 52.97 | 30.98 | 39.72 |
| CRE-0.3 | 44.27 | 45.58 | 42.89 | **44.33** |
| CRE-0.4 | 42.88 | 49.49 | 43.53 | 35.61 |
| **CRE-0.5** | **44.99** | **50.42** | **46.25** | 38.29 |
> **数据观察**:
> 1. **核心突破**:`CRE-0.5` 版本在综合得分(AVG)上达到了最高值 **44.99**。
> 2. **人岗匹配能力**:在最关键的 **jd2cv** 维度,`CRE_cnn_ft` 相比基座 BGE 提升了超过 **113%** (21.66 -> 46.25)。
> 3. **局部特征优势**:CNN 投影层的引入在处理异构文本(JD 与简历)时展现了极强的表征对齐能力。
<small>
<strong>注意事项:</strong>
<ul>
<li>使用 CLS Token 来表征句子语义。</li>
<li>最大输入 Token 长度建议设置为 512。</li>
</ul>
</small>
---
## Citation
If you find our work helpful, please cite this patent:
```bibtex
@misc{jiao2025recruitment,
title={一种基于局部特征投影的招聘场景语义匹配方法及其系统},
author={焦英浩 and 王广智 and 刘之},
year={2025},
note={中国专利申请号: 2025108424429, 实审中}
} |