Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3.

Основные характеристики модели:

  • размер ембеддинга - 312,
  • длина контекста - 512,
  • слоёв - 7,
  • префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-mini-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name MIRACL Reranking MIRACL Retrival RiaNews Retrieval RuBQ Reranking RuBQ Retrieval Average
bge-m3 0,654 0,702 0,830 0,740 0,712 0,728
multilingual-e5-small 0,591 0,590 0,700 0,715 0,685 0,656
rubert-mini-frida 0,601 0,571 0,721 0,711 0,654 0,652
rubert-mini-retriever 0,609 0,599 0,698 0,700 0,642 0,650

Оценки модели на задачах текстового поиска для английского языка:

Model Name AILA Statutes Argu Ana Legal Bench Corporate Lobbying SCIDOCS Stack Overflow QA Statcan Dialogue Dataset Retrieval Wikipedia Retrieval Multilingual Average
bge-m3 0,298 0,539 0,904 0,164 0,806 0,284 0,924 0,560
rubert-mini-retriever 0,208 0,496 0,903 0,125 0,585 0,197 0,913 0,489
multilingual-e5-small 0,190 0,391 0,895 0,139 0,819 0,103 0,887 0,489
rubert-mini-frida 0,190 0,459 0,890 0,121 0,492 0,174 0,889 0,459
Downloads last month
11
Safetensors
Model size
26.3M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train sergeyzh/rubert-mini-retriever

Collection including sergeyzh/rubert-mini-retriever