Sentence Similarity
sentence-transformers
PyTorch
ONNX
Safetensors
OpenVINO
English
bert
mteb
Sentence Transformers
Eval Results (legacy)
text-embeddings-inference
Instructions to use thenlper/gte-large with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use thenlper/gte-large with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("thenlper/gte-large") sentences = [ "That is a happy person", "That is a happy dog", "That is a very happy person", "Today is a sunny day" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Inference
- Notebooks
- Google Colab
- Kaggle
关于预训练和微调数据集构造请教
#14
by Fspace - opened
谢谢您开源的这么好的模型。
注意到您在论文中谈到 两阶段您都是使用对比学习来训练模型。请问你的两阶段的数据集格式是怎样的呢?一个batch是形如【{q_1, d_1}, {q_2, d_2}...{q_n, d_n}】这样的吗?一个batch内 的其他 q_i, d_i 作为 q_i的负样本吗?还是形如【q, q_正样本, q_负样本1,...., q_负样本n 】, 您在预训练阶段 这种正样本,负样本是怎么得到的呢?期待您的回答。
还是说您在无监督预训练阶段,利用simcse的手段, 使用同一句话 通过不同dropout之类的数据增强手段作为正样本,使用其他训练好的编码器采样,形成负样本,构造出三元组,进行对比学习的训练呢?
还有一个问题请教, 利用您的模型,是直接取 最后的一层的token mean pooling 做句子表征,(这里的token 包含第一个cls吗?),如果我想要利用您的模型做检索(非对称)和语义相似度(对称)两个任务,都是直接 利用此模型得到query embedding 然后利用余弦计算 query_embedding 和 corpus 中的embedding 相似度吗?还是需要类似bge / piccolo 针对不同任task, 加入 一些prompt前缀呢,谢谢。
Fspace changed discussion status to closed
Fspace changed discussion status to open
这是假开源的