Upload README_zh.md with huggingface_hub
Browse files- README_zh.md +3 -19
README_zh.md
CHANGED
|
@@ -46,29 +46,13 @@ tags:
|
|
| 46 |
### 训练目标
|
| 47 |
|
| 48 |
- 检索:使用InfoNCE对比学习loss函数,效仿gte/qwen3-embedding的改进增加q-q对负样例惩罚<br>
|
| 49 |
-
|
| 50 |
-
L_{ret}=-\frac{1}{n}\sum_{i} log{\frac{e^{sim(q_i,d_i^+)/\tau}}{e^{sim(q_i,d_i^+)/\tau}+\sum_{j}e^{sim(q_i,d_j^-)/\tau}+\sum_{j≠i}e^{sim(q_i,q_j)/\tau}}}
|
| 51 |
-
$$
|
| 52 |
|
| 53 |
- STS:使用Cosent loss:
|
| 54 |
-
|
| 55 |
-
L_{cosent}=log \bigg(1+\sum_{sim(i,j)>sim(k,l)}exp(\frac{sim(x_k, x_l)-sim(x_i,x_j)}{\tau})\bigg)
|
| 56 |
-
$$
|
| 57 |
|
| 58 |
- CLS:同检索一致使用InfoNCE loss,但In-Batch Negative时由于同类冲突概率大,使用mask机制掩盖不同样本共享的负样例中的同类样本。
|
| 59 |
-
|
| 60 |
-
L_{ret}=-\frac{1}{n}\sum_{i} log{\frac{e^{sim(t_i,t_i^+)/\tau}}{e^{sim(t_i,t_i^+)/\tau}+\sum_{n}MASK(t_i,t_{i,n}^-)·e^{sim(t_i,t_{i,n}^-)/\tau}+\sum_{j≠i}MASK(t_i,t_j)·e^{sim(t_i,t_j)/\tau}+\sum_{j≠i}\sum_{n}MASK(t_i,t_{j,n}^-)e^{sim(t_i,t_{j,n}^-)/\tau}}}
|
| 61 |
-
$$
|
| 62 |
-
$$
|
| 63 |
-
其中C_{t_i}=C_{t_i^+}
|
| 64 |
-
$$
|
| 65 |
-
$$
|
| 66 |
-
MASK(t_i, t_j)=
|
| 67 |
-
\begin{cases}
|
| 68 |
-
0 & \quad \text{if } C_{t_i}=C_{t_j}, \\
|
| 69 |
-
1 & \quad \text{otherwise}
|
| 70 |
-
\end{cases}
|
| 71 |
-
$$
|
| 72 |
其中${C_{t_i}}$表示样本${t_i}$的类标签,n是单条数据的负样本数。
|
| 73 |
|
| 74 |
### 特征增强数据合成技术
|
|
|
|
| 46 |
### 训练目标
|
| 47 |
|
| 48 |
- 检索:使用InfoNCE对比学习loss函数,效仿gte/qwen3-embedding的改进增加q-q对负样例惩罚<br>
|
| 49 |
+
<div align="center"><img src="assets/formula1.png" width="700" height="110"></img></div>
|
|
|
|
|
|
|
| 50 |
|
| 51 |
- STS:使用Cosent loss:
|
| 52 |
+
<div align="center"><img src="assets/formula2.png" width="700" height="110"></img></div>
|
|
|
|
|
|
|
| 53 |
|
| 54 |
- CLS:同检索一致使用InfoNCE loss,但In-Batch Negative时由于同类冲突概率大,使用mask机制掩盖不同样本共享的负样例中的同类样本。
|
| 55 |
+
<div align="center"><img src="assets/formula3.png" width="1100" height="180"></img></div>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 56 |
其中${C_{t_i}}$表示样本${t_i}$的类标签,n是单条数据的负样本数。
|
| 57 |
|
| 58 |
### 特征增强数据合成技术
|