7-layer
Collection
быстрые модели • 5 items • Updated
Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3.
Основные характеристики модели:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sergeyzh/rubert-mini-retriever')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))
Оценки модели на задачах текстового поиска для русского языка:
| Model Name | MIRACL Reranking | MIRACL Retrival | RiaNews Retrieval | RuBQ Reranking | RuBQ Retrieval | Average |
|---|---|---|---|---|---|---|
| bge-m3 | 0,654 | 0,702 | 0,830 | 0,740 | 0,712 | 0,728 |
| multilingual-e5-small | 0,591 | 0,590 | 0,700 | 0,715 | 0,685 | 0,656 |
| rubert-mini-frida | 0,601 | 0,571 | 0,721 | 0,711 | 0,654 | 0,652 |
| rubert-mini-retriever | 0,609 | 0,599 | 0,698 | 0,700 | 0,642 | 0,650 |
Оценки модели на задачах текстового поиска для английского языка:
| Model Name | AILA Statutes | Argu Ana | Legal Bench Corporate Lobbying | SCIDOCS | Stack Overflow QA | Statcan Dialogue Dataset Retrieval | Wikipedia Retrieval Multilingual | Average |
|---|---|---|---|---|---|---|---|---|
| bge-m3 | 0,298 | 0,539 | 0,904 | 0,164 | 0,806 | 0,284 | 0,924 | 0,560 |
| rubert-mini-retriever | 0,208 | 0,496 | 0,903 | 0,125 | 0,585 | 0,197 | 0,913 | 0,489 |
| multilingual-e5-small | 0,190 | 0,391 | 0,895 | 0,139 | 0,819 | 0,103 | 0,887 | 0,489 |
| rubert-mini-frida | 0,190 | 0,459 | 0,890 | 0,121 | 0,492 | 0,174 | 0,889 | 0,459 |