负样本挖掘

by sallythu - opened Jan 22, 2024

Jan 22, 2024

•

edited Jan 22, 2024

感谢您的分享！
另外有个问题想请教一下，readme中提到的正例清洗是如何做的？可以分享一下思路吗？
然后“负例的难度”可以理解为同一个query下面的负样本与正样本之间的相似度吗？
例如，相似距离在0.4在0.7之间是否可以算作中等难度？
谢谢~

lier007

Owner Jan 22, 2024

•

edited Jan 22, 2024

一、正例清洗：我是用的bge-reranker进行正例清洗，丢掉打分小于0的
二、中等难度负例：1) 卡阈值(如您说的0.4-0.7，但具体要数值可能调一波） 2）卡排名（如bge给的脚本默认卡排名10-210之间） 3）设置相对上限（如正例打分-0.1）

其中正例清洗部分，确认有效；中等负例部分，没有做具体消融，只是自己实验的时候试着拍脑袋添加的限制，但总体对我的数据是有效的

sallythu

Jan 22, 2024

一、正例清洗：我是用的bge-reranker进行正例清洗，丢掉打分小于0的
二、中等难度负例：1) 卡阈值(如您说的0.4-0.7，但具体要数值可能调一波） 2）卡排名（如bge给的脚本默认卡排名10-210之间） 3）设置相对上限（如正例打分-0.1）

其中正例清洗部分，确认有效；中等负例部分，没有做具体消融，只是自己实验的时候试着拍脑袋添加的限制，但总体对我的数据是有效的

学习了，谢谢大佬指点~

sallythu changed discussion status to closed Jan 23, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment