Upload 10 files

de75000 verified about 2 months ago

2.7 kB

language:
  - ru
  - en
pipeline_tag: sentence-similarity
tags:
  - russian
  - pretraining
  - embeddings
  - tiny
  - feature-extraction
  - sentence-similarity
  - retrieval
  - sentence-transformers
  - transformers
  - mteb
datasets:
  - IlyaGusev/gazeta
  - zloelias/lenta-ru
  - HuggingFaceFW/fineweb-2
  - HuggingFaceFW/fineweb
license: mit
base_model: sergeyzh/BERTA

Модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов BAAI/bge-m3 в BERTA.

Основные характеристики модели:

размер ембеддинга - 768,
длина контекста - 512,
слоёв - 12,
префиксы - не требуются.

Использование

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sergeyzh/rubert-base-retriever')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))

Метрики

Оценки модели на задачах текстового поиска для русского языка:

Model Name	MIRACL Reranking	MIRACL Retrival	RiaNews Retrieval	RuBQ Reranking	RuBQ Retrieval	Average
bge-m3	0,654	0,702	0,830	0,740	0,712	0,728
BERTA	0,643	0,676	0,816	0,752	0,710	0,719
rubert-base-retriever	0,635	0,660	0,787	0,735	0,699	0,703
multilingual-e5-base	0,605	0,616	0,702	0,720	0,696	0,668

Оценки модели на задачах текстового поиска для английского языка:

Model Name	AILA Statutes	Argu Ana	Legal Bench Corporate Lobbying	SCIDOCS	Stack Overflow QA	Statcan Dialogue Dataset Retrieval	Wikipedia Retrieval Multilingual	Average
bge-m3	0,298	0,539	0,904	0,164	0,806	0,284	0,924	0,560
rubert-base-retriever	0,249	0,528	0,912	0,154	0,703	0,346	0,928	0,546
multilingual-e5-large	0,208	0,544	0,897	0,174	0,889	0,106	0,911	0,533
multilingual-e5-base	0,204	0,442	0,890	0,172	0,851	0,137	0,888	0,512
BERTA	0,188	0,414	0,907	0,112	0,493	0,304	0,888	0,472