CRE-0.5 / README.md
YinghaoJiao's picture
Update README.md
c1a33bf verified
|
Raw
History Blame
4.13 kB
metadata
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - feature-extraction
  - sentence-similarity
  - transformers
  - onnx
base_model:
  - BAAI/bge-large-zh-v1.5

CRE(CareerInternational Recruitment Embedding)是一个Embedding模型,擅长编码招聘的工作技能等领域信息的语义。

model = SentenceTransformer("JayThinkDiff/CRE-0.5")

query_embedding = model.encode("嵌入式") passage_embedding = model.encode([ "岗位职责:1.从事通讯产品相关嵌入式软件研发工作;2.进行软件详细设计,代码编写,单元测试,集成测试等;3.进行软件代码的维护和改进工作;4.完成部门安排的其它研发相关工作。任职资格:1.通信,计算机,电子,自动化等相关专业本科及以上学历,英语CET-4以上,具备英文技术资料阅读能力;2.熟练掌握C语言程序设计,熟悉软件开发过程;4.有数通领域(交换/路由协议)开发经验者优先;有TCP/IP栈,路由协议/MPLS协议等开发经验者优先;有BROADCOM/MARVELL/INTEL系列多核处理器/转发芯片/网络处理器/交换芯片等开发经验者优先;熟悉软件架构和软件流程,有过大型嵌入式软件或平台软件设计方面经验者优先。5. 具有独立思考和自我学习能力;拥有良好的工作态度和服务敬业精神;积极上进,具有团队合作精神;沟通表达能力强,能适应加班和出差", "招聘嵌入式系统工程师,要求会 设计嵌入式系统及单片机、会软件编程!PCB设计:AD、Pulsonix、Cadence(至少会一种)编程语言要求会:C、C++ 、Java、Python (至少会两种,Python必须会)3D设计要求会:CATIA 、SOLIDWORKS、 AutoCAD (至少会一种)工作内容:设计、开发嵌入式系统;构造嵌入式系统的框架结构、内核原理;负责编写整体系统设计方案;负责嵌入式硬件、软件开发工作;对客户进行系统技术支持。工作地点:山西晋中薪酬待遇:依据要求面谈,公司利润分红!", ])

print("查询结果:", util.cos_sim(query_embedding, passage_embedding))


<ul>注意事项:
  <li>使用CLS Token来表征句子</li>
  <li>最大输入Token长度为512</li>
</ul>
</small>

---
更新日志:
<small>


<b>0.1.0-RELEASE 2024/04/02</b>
 <ul>
   <li>新增:</li>
     <ul>
       <li><strong>模型微调</strong>:引入基于智源(BAAI)bge-large-zh-v1.5模型的微调版本,作为项目的基础模型。</li>
       <li><strong>大规模训练</strong>:在32张16GB显存的NVIDIA V100 GPUs上,通过DeepSpeed技术,对2000万条经过清洗和去重职位描述(JD)数据进行了持续预训练(Continue PreTrainning)。</li>
       <li><strong>检索预训练方法</strong>:采用RetroMAE(Retrieval-oriented Masked Auto-Encoder)算法作为句子级别的密集检索预训练方法,通过在句子级别上应用Masked Language Modeling(MLM)任务,同时结合检索机制,优化了模型对语义信息的编码能力,提升了模型的检索能力使其在处理复杂查询时更加精准和高效。</li>
     </ul>
 <li>改进:无</li>
 <li>删除:无</li>
 <li>其他:</li>
   <ul>
     <li><strong>训练恢复</strong>:支持从先前保存的checkpoint恢复模型训练,提高训练过程的灵活性和效率。</li>
     <li><strong>内存优化</strong>:引入Gradient Accumulation技术,优化了模型训练过程中的内存使用效率,允许在有限的硬件资源下进行更大规模的训练。</li>
   </ul>
</ul>

<b>0.2.0-RELEASE 2024/04/13</b>
 <ul>
   <li>新增:</li>
     <ul>
       <li>对职位名称、简历中的工作经历和项目经验这三种数据进行继续训练</li>
     </ul>
 <li>改进:
   <ul>
     <li>改进CLS Token的句子表征能力</li>
     <li>模型训练精度重新调整到FP32</li>
     <li>采用SafeTensor</li>
   </ul>
 </li>
 <li>删除:无</li>
 <li>其他:
   <ul>
     <li>招聘领域的指标评估体系</li>
     <li>自动化超参选择</li>
   </ul>
 </li>
</ul>


</small>