sergeyzh's picture
Upload 10 files
de75000 verified
---
language:
- ru
- en
pipeline_tag: sentence-similarity
tags:
- russian
- pretraining
- embeddings
- tiny
- feature-extraction
- sentence-similarity
- retrieval
- sentence-transformers
- transformers
- mteb
datasets:
- IlyaGusev/gazeta
- zloelias/lenta-ru
- HuggingFaceFW/fineweb-2
- HuggingFaceFW/fineweb
license: mit
base_model: sergeyzh/BERTA
---
Модель BERT для задач текстового поиска (retrieval). Модель получена дистилляцией эмбеддингов русских и английских текстов [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) в [BERTA](https://huggingface.co/sergeyzh/BERTA).
Основные характеристики модели:
- размер ембеддинга - 768,
- длина контекста - 512,
- слоёв - 12,
- префиксы - не требуются.
## Использование
```Python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sergeyzh/rubert-base-retriever')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(model.similarity(embeddings, embeddings))
```
## Метрики
Оценки модели на задачах текстового поиска для русского языка:
| Model Name | MIRACL Reranking | MIRACL Retrival | RiaNews Retrieval | RuBQ Reranking | RuBQ Retrieval | Average |
| :--- | :---: | :---: | :---: | :---: | :---: | :---: |
| bge-m3 | 0,654 | 0,702 | 0,830 | 0,740 | 0,712 | 0,728 |
| BERTA | 0,643 | 0,676 | 0,816 | 0,752 | 0,710 | 0,719 |
| **rubert-base-retriever** | 0,635 | 0,660 | 0,787 | 0,735 | 0,699 | 0,703 |
| multilingual-e5-base | 0,605 | 0,616 | 0,702 | 0,720 | 0,696 | 0,668 |
Оценки модели на задачах текстового поиска для английского языка:
| Model Name | AILA Statutes | Argu Ana | Legal Bench Corporate Lobbying | SCIDOCS | Stack Overflow QA | Statcan Dialogue Dataset Retrieval | Wikipedia Retrieval Multilingual | Average |
| :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| bge-m3 | 0,298 | 0,539 | 0,904 | 0,164 | 0,806 | 0,284 | 0,924 | 0,560 |
| **rubert-base-retriever** | 0,249 | 0,528 | 0,912 | 0,154 | 0,703 | 0,346 | 0,928 | 0,546 |
| multilingual-e5-large | 0,208 | 0,544 | 0,897 | 0,174 | 0,889 | 0,106 | 0,911 | 0,533 |
| multilingual-e5-base | 0,204 | 0,442 | 0,890 | 0,172 | 0,851 | 0,137 | 0,888 | 0,512 |
| BERTA | 0,188 | 0,414 | 0,907 | 0,112 | 0,493 | 0,304 | 0,888 | 0,472 |