Быстрая модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3.

Основные характеристики модели:

размер ембеддинга - 312,
длина контекста - 512,
слоёв - 7,
префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-mini-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name	MIRACL Reranking	MIRACL Retrival	RiaNews Retrieval	RuBQ Reranking	RuBQ Retrieval	Average
bge-m3	0,654	0,702	0,830	0,740	0,712	0,728
multilingual-e5-small	0,591	0,590	0,700	0,715	0,685	0,656
rubert-mini-frida	0,601	0,571	0,721	0,711	0,654	0,652
rubert-mini-retriever	0,609	0,599	0,698	0,700	0,642	0,650

Оценки модели на задачах текстового поиска для английского языка:

Model Name	AILA Statutes	Argu Ana	Legal Bench Corporate Lobbying	SCIDOCS	Stack Overflow QA	Statcan Dialogue Dataset Retrieval	Wikipedia Retrieval Multilingual	Average
bge-m3	0,298	0,539	0,904	0,164	0,806	0,284	0,924	0,560
rubert-mini-retriever	0,208	0,496	0,903	0,125	0,585	0,197	0,913	0,489
multilingual-e5-small	0,190	0,391	0,895	0,139	0,819	0,103	0,887	0,489
rubert-mini-frida	0,190	0,459	0,890	0,121	0,492	0,174	0,889	0,459

Downloads last month: 11

Safetensors

Model size

26.3M params

Tensor type

F32

Datasets used to train sergeyzh/rubert-mini-retriever

Collection including sergeyzh/rubert-mini-retriever

7-layer

Collection

быстрые модели • 5 items • Updated Apr 14