Instructions to use denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3 with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3") sentences = [ "Здравствуйте! Я ищу узкую посудомоечную машину шириной 45 см. Какие модели вы можете порекомендовать?", "{'long_web_name': 'Cactus Экран Cactus 150x150см Wallscreen CS-PSW-150X150-SG 1:1 настенно-потолочный рулонны', 'price': 4915.0, 'url': 'https://megamarket.ru/catalog/details/cactus-ekran-cactus-150x150sm-wallscreen-cs-psw-150x150-sg-11-nastenno-potolochnyy-rulonny-100035844664/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-21/334/577/171/024/226/100035844664b0.jpg', 'id': '100035844664', 'description': '', 'rating': 4.75, 'review_count': 8}", "{'long_web_name': 'Напальчники ForAll Wasp Feelers, игровые, для игр на смартфоне', 'price': 200.0, 'url': 'https://megamarket.ru/catalog/details/napalchniki-forall-wasp-feelers-igrovye-dlya-igr-na-smartfone-600008773480/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-14/858/871/102/521/0/600008773480b0.jpg', 'id': '600008773480', 'description': 'Игровые напальчники ForAll.Напальчники ForAll были созданы специально для мобильных игр. Благодаря использованию инновационных материалов, они заметно улучшают показатели скольжения пальца по экрану телефона, даже при отсутствии не нём олеофобного покрытия. Высокая проводимость материалов напальчников позволяет увеличить чувствительность и точность каждого движения ваших пальцев по экрану вашего гаджета. Компактные, очень тонкие и при этом прочные, напальчники Sarafox не создают дискомфорта при использовании и не оставляют следов на экране вашего смартфона. В сочетании с низкой ценой, - это идеальный инструмент для того, чтобы повысить ваше мастерство на полях сражений мобильных игр. Для любых игр на мобильном телефоне или планшете (Fortnite, PUBG, FreeFire, Call of Duty, CoD, Boom beach, Rulеs оf Survivаl, Кnivеs Оut, Survivоr Rоyаlе, Сritiсаl Орs, Моbilе Lеgеnds, Stаndоff 2, Brawl Stars, Among US).2 шутки (1 пара) в комплекте. Состав: нейлон, спандекс, нано-углеродное волокно.', 'rating': 4.92, 'review_count': 12}", "{'long_web_name': 'Пылесос Deerma VC55 белый', 'price': 11500.0, 'url': 'https://megamarket.ru/catalog/details/pylesos-deerma-vacuum-cleaner-vc55-belyy-600009446716/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-10/348/655/451/191/140/600009446716b0.png', 'id': '600009446716', 'description': 'Мощные вертикальные пылесосы давно не уступают по эффективности классическим. В сравнении с обычными бытовыми пылесосами у них есть ряд преимуществ: — меньше весят; — более маневренные; — занимают меньше места при хранении. Если нужен пылесос для уборки в небольшом помещении, маленькой квартире без ковров, то вертикальный пылесос подойдет вам лучше любого другого. Маневренный вертикальный пылесос для дома — также незаменимый помощник при уборке в труднодоступных местах: под мебелью, на ступеньках. Пылесос вертикальный беспроводной, имеющий в комплекте половую щетку, щетку с круглым носиком и тонкую насадку поможет навести чистоту в любом месте, убирая пыль с пола, поверхности мебели и даже из узких щелей. Ручной пылесос, моющий вертикальный пылесос, пылесос вертикальный беспроводной — выбирайте технику, исходя из ваших пожеланий, и наслаждайтесь комфортной уборкой.', 'rating': 4.82, 'review_count': 11}" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [4, 4] - Notebooks
- Google Colab
- Kaggle
SentenceTransformer based on sergeyzh/rubert-tiny-turbo
This is a sentence-transformers model finetuned from sergeyzh/rubert-tiny-turbo. It maps sentences & paragraphs to a 312-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: sergeyzh/rubert-tiny-turbo
- Maximum Sequence Length: 2048 tokens
- Output Dimensionality: 312 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 312, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3")
# Run inference
sentences = [
'Здравствуйте! Я хочу купить внешний диск для хранения данных, желательно SSD. Нужно, чтобы он был надёжным и быстрым, для переноса больших файлов. Можете помочь подобрать подходящий?',
"{'long_web_name': 'Внешний SSD диск KingSpec 240 ГБ Z3-240', 'price': 4129.0, 'description': '', 'rating': 0.0, 'review_count': 0}",
"{'long_web_name': 'Чайная машина Cooleq JD-12 12 л серебристый', 'price': 54095.0, 'url': 'https://megamarket.ru/catalog/details/sokoohladitel-cooleq-jd-12-100042900979/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/117/347/633/386/112/1/100042900979b0.png', 'id': '100042900979_126197', 'description': '', 'rating': 0.0, 'review_count': 0}",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 312]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Binary Classification
- Dataset:
item-classification - Evaluated with
BinaryClassificationEvaluator
| Metric | Value |
|---|---|
| cosine_accuracy | 0.926 |
| cosine_accuracy_threshold | 0.7458 |
| cosine_f1 | 0.7972 |
| cosine_f1_threshold | 0.7458 |
| cosine_precision | 0.7037 |
| cosine_recall | 0.9194 |
| cosine_ap | 0.7692 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 3,136 training samples
- Columns:
anchor,text, andlabel - Approximate statistics based on the first 1000 samples:
anchor text label type string string int details - min: 23 tokens
- mean: 43.03 tokens
- max: 91 tokens
- min: 52 tokens
- mean: 310.0 tokens
- max: 1009 tokens
- 0: ~81.90%
- 1: ~18.10%
- Samples:
anchor text label Привет! Подскажите, пожалуйста, у вас есть средства для чистки и ухода за холодильником? Ищу что-то недорогое, но эффективное.{'long_web_name': 'ТЭН для водонагревателя ИТАТЭН ITA-30047', 'price': 1243.0, 'url': 'https://megamarket.ru/catalog/details/ten-dlya-vodonagrevatelya-itaten-ita-30047-600005611737/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-17/149/578/704/111/611/600005611737b0.jpeg', 'id': '600005611737', 'description': 'Нагревательный элемент для плоского водонагревателя Термекс: RZB 30F, 50F, 80F, 100F ; RZB 30L, 50L, 80L, 100L ; RZB 30FV, 50FV, 80FV, 100FV; IF 30V, 50V, 80V, 100V; ID 30V, 50V, 80V, 100V, Термекс IQ 30 V, Термекс IQ 50 V, Термекс IQ 80 V, Термекс IQ 100 V.Характеристики: Длина: 310 мм;Артикул: 30047;Применение: Для водонагревателей;Совместимость: Garanterm, Thermex;Тип ТЭНа: RF;Мощность: 1300 Вт;Материал: Нержавеющая сталь;Диаметр фланца: 64 мм;Трубка под термостат: Есть;Объем бака: 30 л, 50 л, 80 л, 100 л, 120 л, 150 л;Тип контактов: Клеммы под разъем;Производитель: Китай;Место под анод: М4;Напряжение: 220;Тип водонагревателя: Плоский;Размещение бака: Вер...0Здравствуйте! Я Андрей, мне 38 лет, я покупаю у вас товары для своего бизнеса по ремонту бытовой техники в Воронеже. Мне нужны моноблоки — это такие настольные компьютеры, где всё встроено в монитор. Интересуют недорогие модели для тестирования программного обеспечения и проведения диагностики. Можете порекомендовать что-то подходящее?{'long_web_name': 'Моноблок MSI PRO AP242 12M-450RU белый', 'price': 78299.0, 'description': 'Моноблок MSI Pro AP242 12M-450RU — это производительная рабочая станция для офисных задач.
\nКомфортная работа
\nКорпус выполнен в белом цвете. Матовое покрытие дисплея защищает от бликов. Другие технические параметры:
\n- \n
- мощный процессор Intel Core i5 12400; \n
- графический чип UHD Graphics 730; \n
- оперативная память объемом 16 Гб с возможностью расширения до 64 Гб; \n
- встроенная веб-камера для общения через Skype и Zoom; \n
- внутренний накопитель SSD на 512 Гб обеспечивает быстрый доступ к файлам; \n
- поддерживается беспроводная сеть стандарта 802.11ax. \n
Предусмотрены два порта USB 3.2 Type-C и два USB 2.0 Type-A. Есть выход HDMI для подключения монитора или телевизора. Для воспроизведения звука есть встроенные динамики и микрофон.
', 'rating': 5.0, 'review_count': 18}0Здравствуйте! Мне нужно купить карты памяти MicroSD, чтобы использовать их в моём телефоне и планшете. Хотелось бы что-то надёжное и с хорошей скоростью записи. Можете помочь выбрать?{'long_web_name': 'Флэш карта Kingston Canvas Select Plus SDCS2/32GB microSDHC Class10, 32 Gb, adapter', 'price': 740.0, 'description': '', 'rating': 4.93, 'review_count': 587}1 - Loss:
ContrastiveLosswith these parameters:{ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true }
Evaluation Dataset
Unnamed Dataset
- Size: 392 evaluation samples
- Columns:
anchor,text, andlabel - Approximate statistics based on the first 392 samples:
anchor text label type string string int details - min: 23 tokens
- mean: 42.23 tokens
- max: 91 tokens
- min: 53 tokens
- mean: 312.93 tokens
- max: 1058 tokens
- 0: ~84.18%
- 1: ~15.82%
- Samples:
anchor text label Здравствуйте! Мне нужны магнитные кабели для зарядки моих устройств в походах. Хочу заказать несколько штук, можно с разными разъёмами (USB-C, Micro USB, и Lightning). Желательно, чтобы они были качественными и прочными. Можете помочь с этим?{'long_web_name': 'ТЭН для водонагревателя ИТАТЭН ITA-30047', 'price': 1243.0, 'url': 'https://megamarket.ru/catalog/details/ten-dlya-vodonagrevatelya-itaten-ita-30047-600005611737/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/-17/149/578/704/111/611/600005611737b0.jpeg', 'id': '600005611737', 'description': 'Нагревательный элемент для плоского водонагревателя Термекс: RZB 30F, 50F, 80F, 100F ; RZB 30L, 50L, 80L, 100L ; RZB 30FV, 50FV, 80FV, 100FV; IF 30V, 50V, 80V, 100V; ID 30V, 50V, 80V, 100V, Термекс IQ 30 V, Термекс IQ 50 V, Термекс IQ 80 V, Термекс IQ 100 V.Характеристики: Длина: 310 мм;Артикул: 30047;Применение: Для водонагревателей;Совместимость: Garanterm, Thermex;Тип ТЭНа: RF;Мощность: 1300 Вт;Материал: Нержавеющая сталь;Диаметр фланца: 64 мм;Трубка под термостат: Есть;Объем бака: 30 л, 50 л, 80 л, 100 л, 120 л, 150 л;Тип контактов: Клеммы под разъем;Производитель: Китай;Место под анод: М4;Напряжение: 220;Тип водонагревателя: Плоский;Размещение бака: Вер...0Здравствуйте! Мне нужны сумки и рюкзаки для фототехники. Что-то удобное и вместительное, чтобы можно было безопасно носить зеркальный фотоаппарат и несколько объективов. Можно посмотреть варианты?{'long_web_name': 'Аксессуар для принтеров Konica Minolta (9961026723)', 'price': 10.0, 'url': 'https://megamarket.ru/catalog/details/aksessuar-dlya-printerov-konica-minolta-9961026723-600008281362/', 'image_link': 'https://main-cdn.sbermegamarket.ru/mid9/hlr-system/690/288/244/717/209/600008281362b0.jpeg', 'id': '600008281362_76846', 'description': 'Инструкция Konica Minolta для bizhub С257i (9961026723)', 'rating': 0.0, 'review_count': 0}0Здравствуйте! Ищу умные часы Apple Watch Series 2. Скажите, пожалуйста, есть ли у вас в наличии?{'long_web_name': 'Смарт-часы Apple Watch Series 9 45 мм Midnight размер ML', 'price': 58373.0, 'description': 'Смарт-часы Apple Watch. Материал корпуса — алюминий. Время работы в активном режиме — до 18 часов. Функция Double Tap активируется посредством двух быстрых касаний указательного и большого пальцев — можно ответить на звонок, выключить будильник и управлять воспроизведением музыки. Объем встроенной памяти — 64 Гб. В комплекте — кабель USB?C с магнитным креплением для быстрой зарядки', 'rating': 4.97, 'review_count': 114}0 - Loss:
ContrastiveLosswith these parameters:{ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsnum_train_epochs: 1warmup_ratio: 0.1fp16: Trueload_best_model_at_end: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 8per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional
Training Logs
| Epoch | Step | Training Loss | Validation Loss | item-classification_cosine_ap |
|---|---|---|---|---|
| 0 | 0 | - | 0.0302 | 0.3988 |
| 0.2551 | 100 | 0.0129 | - | - |
| 0.5102 | 200 | 0.0065 | - | - |
| 0.6378 | 250 | - | 0.0065 | 0.7692 |
| 0.7653 | 300 | 0.0058 | - | - |
| 1.0 | 392 | - | 0.0065 | 0.7692 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.10.13
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.2.1
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
ContrastiveLoss
@inproceedings{hadsell2006dimensionality,
author={Hadsell, R. and Chopra, S. and LeCun, Y.},
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
title={Dimensionality Reduction by Learning an Invariant Mapping},
year={2006},
volume={2},
number={},
pages={1735-1742},
doi={10.1109/CVPR.2006.100}
}
- Downloads last month
- 1
Model tree for denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3
Paper for denis-gordeev/reranker_dialog_items_biencoder_rubert-tiny-turbo-3
Evaluation results
- Cosine Accuracy on item classificationself-reported0.926
- Cosine Accuracy Threshold on item classificationself-reported0.746
- Cosine F1 on item classificationself-reported0.797
- Cosine F1 Threshold on item classificationself-reported0.746
- Cosine Precision on item classificationself-reported0.704
- Cosine Recall on item classificationself-reported0.919
- Cosine Ap on item classificationself-reported0.769