关于预训练和微调数据集构造请教

#14

by Fspace - opened Nov 27, 2023

Nov 27, 2023

谢谢您开源的这么好的模型。
注意到您在论文中谈到两阶段您都是使用对比学习来训练模型。请问你的两阶段的数据集格式是怎样的呢？一个batch是形如【{q_1, d_1}, {q_2, d_2}...{q_n, d_n}】这样的吗？一个batch内的其他 q_i, d_i 作为 q_i的负样本吗？还是形如【q, q_正样本， q_负样本1，...., q_负样本n 】, 您在预训练阶段这种正样本，负样本是怎么得到的呢？期待您的回答。

Fspace

Nov 27, 2023

还是说您在无监督预训练阶段，利用simcse的手段，使用同一句话通过不同dropout之类的数据增强手段作为正样本，使用其他训练好的编码器采样，形成负样本，构造出三元组，进行对比学习的训练呢？

Fspace

Nov 27, 2023

还有一个问题请教，利用您的模型，是直接取最后的一层的token mean pooling 做句子表征，（这里的token 包含第一个cls吗？），如果我想要利用您的模型做检索（非对称）和语义相似度（对称）两个任务，都是直接利用此模型得到query embedding 然后利用余弦计算 query_embedding 和 corpus 中的embedding 相似度吗？还是需要类似bge / piccolo 针对不同任task, 加入一些prompt前缀呢，谢谢。

Fspace changed discussion status to closed Nov 28, 2023

Fspace changed discussion status to open Nov 28, 2023

Arann

Feb 7, 2025

这是假开源的

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment