Sentence Similarity
sentence-transformers
Safetensors
Transformers
ONNX
bert
feature-extraction
text-embeddings-inference
Instructions to use JayThinkDiff/CRE-0.5 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use JayThinkDiff/CRE-0.5 with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("JayThinkDiff/CRE-0.5") sentences = [ "That is a happy person", "That is a happy dog", "That is a very happy person", "Today is a sunny day" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Transformers
How to use JayThinkDiff/CRE-0.5 with Transformers:
# Load model directly from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("JayThinkDiff/CRE-0.5") model = AutoModel.from_pretrained("JayThinkDiff/CRE-0.5") - Notebooks
- Google Colab
- Kaggle
| pipeline_tag: sentence-similarity | |
| tags: | |
| - sentence-transformers | |
| - feature-extraction | |
| - sentence-similarity | |
| - transformers | |
| - onnx | |
| base_model: | |
| - BAAI/bge-large-zh-v1.5 | |
| # CRE: CareerInternational Recruitment Embedding Model 🚀 | |
| > **CRE-0.5** 是一款专为人力资源场景打造的嵌入模型。通过引入局部特征感知(Local Feature-aware)的归纳偏好,显著提升了简历与职位描述(JD)的语义对齐精度。 | |
| --- | |
| ### 💡 技术来源 (Technical Background) | |
| | 维度 | 详细信息 | | |
| | :--- | :--- | | |
| | **专利名称** | 一种基于局部特征投影的招聘场景语义匹配方法及其系统 | | |
| | **申请号** | 2025108424429 | | |
| | **当前状态** | 已公开(实审中) | | |
| | **主要发明人** | 焦英浩 等 | | |
| --- | |
| ### 更新日志 (Release Notes) | |
| * **2025/03/28**: 发布 **CRE-0.5** 初始版本及技术报告。 | |
| ### 核心特性 (Key Features) | |
| * **局部特征提取 (Local Feature-aware)**: 借助 **CNN** 结构引入归纳偏好,使模型在文本编码过程中对人力资源场景下的“技能词”、“职级”等局部核心特征更为敏锐。 | |
| * **投影层设计 (Projection Layer)**: 本质上是一种精巧的辅助微调方法。通过在微调阶段增加特定的投影参数进行协同训练,在不破坏基座模型通用能力的前提下,大幅提高编码质量。 | |
| * **全场景覆盖**: 适配 **检索 (Retrieval)**、**RAG (检索增强生成)** 以及 **智能体 (Agent)** 等多种下游任务。 | |
|  | |
| ### Using Sentence-Transformers | |
| ```python | |
| from sentence_transformers import SentenceTransformer, util | |
| model = SentenceTransformer("JayThinkDiff/CRE-1.1") | |
| query_embedding = model.encode("图像算法工程师 职位描述: 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统") | |
| passage_embedding = model.encode([ | |
| "图像算法工程师 负责设计和实现多种机器学习算法,涵盖数据预处理、特征工程、模型训练与评估等完整流程,提升人效。", | |
| "算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究,有MMpose、EHS项目经历", | |
| ]) | |
| print("查询结果:", util.cos_sim(query_embedding, passage_embedding)) | |
| ``` | |
| ### 📊 预期结果对比 (Expected Output Comparison) | |
| | 模型名称 (Model) | 相似度 1 (与简历 1) | 相似度 2 (与简历 2) | | |
| | :--- | :---: | :---: | | |
| | **CRE-0.5** | 0.6854 | **0.6886** | | |
| | **bge-large-zh-v1.5** | **0.7563** | 0.7551 | | |
| ### 📊 PJBenchmark 历史版本测试结果 | |
| 以下展示了 CRE 系列模型在招聘垂直领域基准测试(PJBenchmark)中的性能演进过程。可以看到,通过引入 CNN 结构与针对性微调,模型在 **jd2cv**(人岗匹配核心任务)上取得了突破性进展。 | |
| | Model | AVG | jd2jd | jd2cv | cv2cv | | |
| | :--- | :---: | :---: | :---: | :---: | | |
| | BGE | 34.05 | 41.94 | 21.66 | 38.55 | | |
| | CRE-0.1 | 36.14 | 42.48 | 30.37 | 35.56 | | |
| | CRE-0.2 | 41.22 | 52.97 | 30.98 | 39.72 | | |
| | CRE-0.3 | 44.27 | 45.58 | 42.89 | **44.33** | | |
| | CRE-0.4 | 42.88 | 49.49 | 43.53 | 35.61 | | |
| | **CRE-0.5** | **44.99** | **50.42** | **46.25** | 38.29 | | |
| > **数据观察**: | |
| > 1. **核心突破**:`CRE-0.5` 版本在综合得分(AVG)上达到了最高值 **44.99**。 | |
| > 2. **人岗匹配能力**:在最关键的 **jd2cv** 维度,`CRE_cnn_ft` 相比基座 BGE 提升了超过 **113%** (21.66 -> 46.25)。 | |
| > 3. **局部特征优势**:CNN 投影层的引入在处理异构文本(JD 与简历)时展现了极强的表征对齐能力。 | |
| <small> | |
| <strong>注意事项:</strong> | |
| <ul> | |
| <li>使用 CLS Token 来表征句子语义。</li> | |
| <li>最大输入 Token 长度建议设置为 512。</li> | |
| </ul> | |
| </small> | |
| --- | |
| ## Citation | |
| If you find our work helpful, please cite this patent: | |
| ```bibtex | |
| @misc{jiao2025recruitment, | |
| title={一种基于局部特征投影的招聘场景语义匹配方法及其系统}, | |
| author={焦英浩 and 王广智 and 刘之}, | |
| year={2025}, | |
| note={中国专利申请号: 2025108424429, 实审中} | |
| } |