--- pipeline_tag: sentence-similarity tags: - sentence-transformers - feature-extraction - sentence-similarity - transformers - qwen - recruitment - LoRA base_model: - Qwen/Qwen3-Embedding-8B --- # CRE: CareerInternational Recruitment Embedding Model 🚀 > **CRE-1.1** 是一款基于大语言模型(LLM-based)的招聘领域适配嵌入模型。相较于传统 BERT 类模型,它通过长上下文融合与指令控制,展现出极强的语义表征优势,优化了岗位描述(JD)与简历(CV)之间的异构文本对齐难题。 --- ### 更新日志 (Release Notes) * **2025/06/28**: 发布 **CRE-1.1**,优化长文本特征提取与推理性能。 * **2025/03/28**: 发布 **CRE-0.5** 初始版本及技术报告。 ### 📖 技术背景 (Technical Report Summary) 本研究探究了 LLM-based Embedding 模型在招聘语义匹配任务中的领域适配机制。核心研究结论证明了: 1. **适配训练范式的有效性**:采用 **LoRA 轻量微调** 结合 **领域合成数据**,显著提升了模型在 JD2JD、JD2CV、CV2CV 三类核心匹配任务上的性能。 2. **技术演进的新趋势**:LLM-based Embedding 天然支持多粒度语义解析(如技能上下位关系捕捉),有效规避了传统模型的结构性瓶颈。 3. **工业部署价值**:在训练阶段使用**增强查询构造**(Enhanced Query Construction)、测试阶段直接应用原始查询的设定下,模型表现出极强的鲁棒性与实用性。 ### 核心特性 (Key Features) * **领域适配方案 (Domain Adaptation)**: 以 **LoRA + 合成数据** 为核心,为复杂招聘场景的工程落地提供了一条高效率、低成本的可靠路径。 * **异构文本对齐 (Heterogeneous Alignment)**: 针对 JD 与简历之间存在的信息不对称、表达习惯差异,具备极佳的语义映射能力。 * **多粒度语义解析**: 能够捕捉技能间的层级与演进关系,支持更精准的人岗匹配。 * **高鲁棒性设计**: 验证了在训练与测试 Query 形式不完全一致的情况下,模型性能依然稳定。 --- ### Using Sentence-Transformers ```python from sentence_transformers import SentenceTransformer, util model = SentenceTransformer("JayThinkDiff/CRE-1.1") query_embedding = model.encode("图像算法工程师 职位描述: 1、负责开发或优化基于人体工学标准和数字化技术的工人保护系统") passage_embedding = model.encode([ "图像算法工程师 负责设计和实现多种机器学习算法,涵盖数据预处理、特征工程、模型训练与评估等完整流程,提升人效。", "算法工程师。工作描述:图像分割、图像融合、目标跟踪、人体姿态识别、特征点匹配等图像处理方面的研究,有MMpose、EHS项目经历", ]) print("查询结果:", util.cos_sim(query_embedding, passage_embedding)) ``` ### 📊 预期结果对比 (Expected Output Comparison) | 模型名称 (Model) | 相似度 1 (与简历 1) | 相似度 2 (与简历 2) | | :--- | :---: | :---: | | **CRE-1.1** | 0.5816 | **0.6093** | | **Qwen3-Embedding-8B** | **0.7731** | 0.7638 | ### 🌐 跨领域招聘场景评测 (Cross-Domain Evaluation) 为了验证模型在不同垂直行业的泛化能力,我们在**技术岗(Technical)**与**职能岗(Functional)**两个极具代表性的招聘领域进行了对比测试。结果显示,**CRE-1.1** 在指令微调的加持下,不仅全面超越了传统 Embedding 模型,相比原始基座模型也有质的突破。 | 模型 (Model) | 技术岗 (Technical Domain) | 职能岗 (Functional Domain) | | :--- | :---: | :---: | | BGE | 34.05 | 58.18 | | CRE-0.4 | 42.88 | 63.70 | | Conan-embedding-v1 | 43.37 | 54.69 | | CRE-0.5 | 45.44 | 64.14 | | Qwen3-Embedding-8B | 58.96 | 66.25 | | **CRE-1.1** | **64.44** | **69.29** | > **核心结论 (Key Insights)**: > 1. **指令微调的威力**:相比于基座模型 `Qwen3-Embedding-8B`,**CRE-1.1** 通过特定领域的指令增强,在算法领域得分提升了 **5.48**,金融领域提升了 **3.04**。 > 2. **压制级优势**:相比行业标杆 `BGE`,**CRE-1.1** 在算法领域的表现近乎**翻倍**(34.05 -> 64.44),充分证明了其在处理复杂专业术语对齐时的卓越性能。 > 3. **领域泛化**:即便是泛化在职能岗领域,CRE-1.1 依然达到了 **69.29** 的高分,展现了极强的跨行业迁移能力。 ### 🛠️ 技术规格 (Technical Specifications) * **Pooling Strategy**: 推荐使用模型默认的表征方式(last token pooling)。 * **Task Support**: 针对招聘领域的 JD2JD、JD2CV、CV2CV 等任务进行了深度优化。 ---