Instructions to use lier007/xiaobu-embedding with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use lier007/xiaobu-embedding with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("feature-extraction", model="lier007/xiaobu-embedding")# Load model directly from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("lier007/xiaobu-embedding") model = AutoModel.from_pretrained("lier007/xiaobu-embedding") - Notebooks
- Google Colab
- Kaggle
负样本挖掘
#5
by sallythu - opened
感谢您的分享!
另外有个问题想请教一下,readme中提到的正例清洗是如何做的?可以分享一下思路吗?
然后“负例的难度”可以理解为同一个query下面的负样本与正样本之间的相似度吗?
例如,相似距离在0.4在0.7之间是否可以算作中等难度?
谢谢~
一、正例清洗:我是用的bge-reranker进行正例清洗,丢掉打分小于0的
二、中等难度负例:1) 卡阈值(如您说的0.4-0.7,但具体要数值可能调一波) 2)卡排名(如bge给的脚本默认卡排名10-210之间) 3)设置相对上限(如正例打分-0.1)
其中正例清洗部分,确认有效;中等负例部分,没有做具体消融,只是自己实验的时候试着拍脑袋添加的限制,但总体对我的数据是有效的
一、正例清洗:我是用的bge-reranker进行正例清洗,丢掉打分小于0的
二、中等难度负例:1) 卡阈值(如您说的0.4-0.7,但具体要数值可能调一波) 2)卡排名(如bge给的脚本默认卡排名10-210之间) 3)设置相对上限(如正例打分-0.1)其中正例清洗部分,确认有效;中等负例部分,没有做具体消融,只是自己实验的时候试着拍脑袋添加的限制,但总体对我的数据是有效的
学习了,谢谢大佬指点~
sallythu changed discussion status to closed