YuPeng0214 commited on
Commit
0bd1a67
·
verified ·
1 Parent(s): 5971a89

Upload README_zh.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README_zh.md +3 -19
README_zh.md CHANGED
@@ -46,29 +46,13 @@ tags:
46
  ### 训练目标
47
 
48
  - 检索:使用InfoNCE对比学习loss函数,效仿gte/qwen3-embedding的改进增加q-q对负样例惩罚<br>
49
- $$
50
- L_{ret}=-\frac{1}{n}\sum_{i} log{\frac{e^{sim(q_i,d_i^+)/\tau}}{e^{sim(q_i,d_i^+)/\tau}+\sum_{j}e^{sim(q_i,d_j^-)/\tau}+\sum_{j≠i}e^{sim(q_i,q_j)/\tau}}}
51
- $$
52
 
53
  - STS:使用Cosent loss:
54
- $$
55
- L_{cosent}=log \bigg(1+\sum_{sim(i,j)>sim(k,l)}exp(\frac{sim(x_k, x_l)-sim(x_i,x_j)}{\tau})\bigg)
56
- $$
57
 
58
  - CLS:同检索一致使用InfoNCE loss,但In-Batch Negative时由于同类冲突概率大,使用mask机制掩盖不同样本共享的负样例中的同类样本。
59
- $$
60
- L_{ret}=-\frac{1}{n}\sum_{i} log{\frac{e^{sim(t_i,t_i^+)/\tau}}{e^{sim(t_i,t_i^+)/\tau}+\sum_{n}MASK(t_i,t_{i,n}^-)·e^{sim(t_i,t_{i,n}^-)/\tau}+\sum_{j≠i}MASK(t_i,t_j)·e^{sim(t_i,t_j)/\tau}+\sum_{j≠i}\sum_{n}MASK(t_i,t_{j,n}^-)e^{sim(t_i,t_{j,n}^-)/\tau}}}
61
- $$
62
- $$
63
- 其中C_{t_i}=C_{t_i^+}
64
- $$
65
- $$
66
- MASK(t_i, t_j)=
67
- \begin{cases}
68
- 0 & \quad \text{if } C_{t_i}=C_{t_j}, \\
69
- 1 & \quad \text{otherwise}
70
- \end{cases}
71
- $$
72
  其中${C_{t_i}}$表示样本${t_i}$的类标签,n是单条数据的负样本数。
73
 
74
  ### 特征增强数据合成技术
 
46
  ### 训练目标
47
 
48
  - 检索:使用InfoNCE对比学习loss函数,效仿gte/qwen3-embedding的改进增加q-q对负样例惩罚<br>
49
+ <div align="center"><img src="assets/formula1.png" width="700" height="110"></img></div>
 
 
50
 
51
  - STS:使用Cosent loss:
52
+ <div align="center"><img src="assets/formula2.png" width="700" height="110"></img></div>
 
 
53
 
54
  - CLS:同检索一致使用InfoNCE loss,但In-Batch Negative时由于同类冲突概率大,使用mask机制掩盖不同样本共享的负样例中的同类样本。
55
+ <div align="center"><img src="assets/formula3.png" width="1100" height="180"></img></div>
 
 
 
 
 
 
 
 
 
 
 
 
56
  其中${C_{t_i}}$表示样本${t_i}$的类标签,n是单条数据的负样本数。
57
 
58
  ### 特征增强数据合成技术