metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:86732
- loss:MultipleNegativesRankingLoss
base_model: cointegrated/LaBSE-en-ru
widget:
- source_sentence: мойка
sentences:
- >-
{"product_name": "Набор вешалок MITTE Rainbow для брюк и юбок с зажимами
3 шт.", "Бренд": "MITTE", "Цвет": "серый", "Материал": null,
"description": "", "Производитель": "Китай"}
- >-
{"product_name": "Шкаф для белья левый Sherlock", "Бренд": null, "Цвет":
"дуб Сонома", "Материал": "ЛДСП, МДФ", "description": "Элегантный и
удобный шкаф для белья – часть модульной коллекции мебели Sherlock.
Благодаря компактным размерам, этот шкаф легко вписывается в небольшую
гостиную или спальню. Внутри установлены четыре полки для белья,
расстояние между которыми можно менять по желанию. Фасад с покрытием,
имитирующим фактуру дуба Сонома, отделан декоративными планками,
придающими этой модели изящество и особый шарм. Эта коллекция создана
для обстановки малогабаритных квартир, из модулей можно собрать
функциональный комплект, который украсит гостиную, декорированную в
классическом стиле.", "Производитель": "Россия"}
- >-
{"product_name": "Обувница Комфорт 60х121.7х16.5 см", "Бренд": null,
"Цвет": "белый", "Материал": "ЛДСП", "description": "Обувница Комфорт УК
позволит компактно разместить обувь даже в небольшой или узкой прихожей.
У тумбы небольшая глубина, но благодаря особой конструкции полок на них
легко поместятся кроссовки, сандалии и другая обувь. Каждая пара будет
защищена от пыли, а в прихожей всегда будет полный порядок. Крышку
обувницы и открытое отделение под ней можно использовать для хранения
аксессуаров и средств ухода за обувью.\nТумба изготовлена из ЛДСП с
декоративным покрытием, за которым легко ухаживать: достаточно протирать
поверхность мягкой салфеткой с любым средством для мебели, не содержащим
абразивов..", "Производитель": "Россия"}
- source_sentence: стул
sentences:
- >-
{"product_name": "Кресло Монца", "Бренд": null, "Цвет": "бежевый",
"Материал": null, "description": "", "Производитель": "Россия"}
- >-
{"product_name": "Дверь Оскар Скаген", "Бренд": null, "Цвет": "белый",
"Материал": "МДФ", "description": "", "Производитель": "Россия"}
- >-
{"product_name": "Кресло CHAIRMAN Kids 110", "Бренд": "CHAIRMAN",
"Цвет": "чёрный, оранжевый", "Материал": null, "description": "",
"Производитель": "Россия"}
- source_sentence: кухонные столы
sentences:
- >-
{"product_name": "Фальшпанель Белла 4.6х35.6х1.6 см", "Бренд": null,
"Цвет": "фисташка", "Материал": "МДФ с покрытием ПВХ", "description":
"", "Производитель": "Россия"}
- >-
{"product_name": "Журнальный стол Лофт", "Бренд": null, "Цвет":
"Чёрный,Дуб", "Материал": null, "description": "Низкий овальный столик
на металлокаркасе создан для современного домашнего интерьера,
гармонично впишется в гостиную, дополнит балкон или станет отличным
вариантом для дачи. Столешница из МДФ представлена в трех базовых
расцветках: под дерево, мраморный черный и белый, что позволяет выбрать
именно тот вариант, который наиболее гармонично дополнит
интерьер.\nКонструкция отличается долговечностью и прочностью. Высокая
устойчивость к механическим повреждениям обеспечивает надежность
использования этого столика долгие годы. Особое внимание следует уделить
функциональности данного изделия.", "Производитель": "Россия"}
- >-
{"product_name": "Матрас пружинный Sanvi 90х200 см", "Бренд": "ARMOS",
"Цвет": null, "Материал": null, "description": "Двусторонний матрас
«Sanvi» относится к матрасам переменной жёсткости. Можно выбрать более
комфортную сторону, просто перевернув матрас. Рельефная ортопена с одной
стороны обеспечивает выраженный массажный эффект и отлично снимает
напряжение.\nТермочувствительная вязко-эластичная пена с «эффектом
памяти» с другой стороны быстро принимает форму тела под воздействием
тепла и давления, постепенно восстанавливает объем без нагрузки. Пена
Memory Pro - оптимальный выбор для людей с хроническими болями в спине,
заболеваниями опорно-двигательного аппарата, спортсменов с интенсивными
нагрузками и напряжением в мышцах. В основе матраса независимый
пружинный блок Pocket Spring Multi повышенной комфортности, более 1000
пружин на спальное место. Данный блок отлично подстраивается под
индивидуальные анатомические особенности спящего, уменьшая нагрузку на
суставы и повышая качество сна. Армирован пружинный блок прочным
бикоттоном. Такая конструкция обладает высокой упругостью, прочностью и
повышенной несущей способностью.\nЧехол выполнен из мягкого, нежного
трикотажа, простеганного на объемном гипоаллергенном волокне.",
"Производитель": "Россия"}
- source_sentence: освещение
sentences:
- >-
{"product_name": "Шкаф одностворчатый правый Амели", "Бренд": null,
"Цвет": "Серый", "Материал": null, "description": "", "Производитель":
"Россия"}
- >-
{"product_name": "Люстра VITALUCE V5180-7/6 18 кв.м., 40х159х40 см,
E14", "Бренд": "VITALUCE", "Цвет": "Золотой", "Материал": null,
"description": "Подвесная люстра Vitaluce серии V5180 в золотом цвете
выполнена в классическом стиле. Прекрасно может дополнить различные
интерьеры комнат с высокими потолками. Есть возможность регулировать
высоту люстры.\nЛампочки в комплект не входят, не забудьте их
приобрести.", "Производитель": "Россия"}
- >-
{"product_name": "Прихожая СПР 2БР", "Бренд": null, "Цвет": "Белый",
"Материал": null, "description": "", "Производитель": "Россия"}
- source_sentence: набор кружек
sentences:
- >-
{"product_name": "Каркас кровати Селена цвет кашемир", "Бренд": null,
"Цвет": "кашемир", "Материал": null, "description": "Коллекция Селена
представлена в трендовых оттенках Сантьяго и Кашемир, что придает ей
современный вид. Фасады с покрытием Soft-touch приятны на ощупь и
создают уютную атмосферу. В классическом стиле с рамочными фасадами в
пленке ПВХ, коллекция также включает утолщенные колпаки модулей с
фрезеровкой в древесной пленке. Петли Titus из Словении с возможностью
установки демпфера обеспечивают долговечность, а скрытые направляющие с
доводчиком гарантируют плавное и бесшумное закрывание ящиков. Цоколи в
нижней части моделей добавляют яркий акцент и завершенность дизайну.
\nОснование в комплект не входит.", "Производитель": "Россия"}
- >-
{"product_name": "Набор журнальных столов лофт Duae", "Бренд": null,
"Цвет": "Белый,Чёрный", "Материал": null, "description": "",
"Производитель": "Россия"}
- >-
{"product_name": "Матрас пружинный MILDEX Memphis 140х200 см", "Бренд":
"MILDEX", "Цвет": null, "Материал": null, "description": "Пружинный
матрас Memphis средней жёсткости. В основе матраса используется
независимый пружинный блок «Hard Pocket» плотностью 500 пружин на
спальное место. \n Уникальная пена повышенной плотности Bi-foam,
обладающая анатомическим эффектом, равномерно распределяет нагрузку по
всей площади матраса.Природный комбинированный наполнитель Bi-Cocos
обеспечивает оптимальную жесткость. Сочетание двух этих материалов с
пружинным блоком Hardpocket в матрасе, прекрасно воспринимает даже
большие нагрузки, оказывая необходимую анатомическую поддержку, что
благоприятно сказывается на качестве сна. \n Мягкий трикотажный чехол с
высокообъёмной стежкой поможет расслабиться после напряженного дня. \n
Особенности:\n - Использование природных материалов", "Производитель":
"Россия"}
pipeline_tag: sentence-similarity
library_name: sentence-transformers
SentenceTransformer based on cointegrated/LaBSE-en-ru
This is a sentence-transformers model finetuned from cointegrated/LaBSE-en-ru. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: cointegrated/LaBSE-en-ru
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Dense({'in_features': 768, 'out_features': 768, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
(3): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Solomennikova/labse_funetuned_hoff")
# Run inference
sentences = [
'набор кружек',
'{"product_name": "Каркас кровати Селена цвет кашемир", "Бренд": null, "Цвет": "кашемир", "Материал": null, "description": "Коллекция Селена представлена в трендовых оттенках Сантьяго и Кашемир, что придает ей современный вид. Фасады с покрытием Soft-touch приятны на ощупь и создают уютную атмосферу. В классическом стиле с рамочными фасадами в пленке ПВХ, коллекция также включает утолщенные колпаки модулей с фрезеровкой в древесной пленке. Петли Titus из Словении с возможностью установки демпфера обеспечивают долговечность, а скрытые направляющие с доводчиком гарантируют плавное и бесшумное закрывание ящиков. Цоколи в нижней части моделей добавляют яркий акцент и завершенность дизайну. \\nОснование в комплект не входит.", "Производитель": "Россия"}',
'{"product_name": "Матрас пружинный MILDEX Memphis 140х200 см", "Бренд": "MILDEX", "Цвет": null, "Материал": null, "description": "Пружинный матрас Memphis средней жёсткости. В основе матраса используется независимый пружинный блок «Hard Pocket» плотностью 500 пружин на спальное место. \\n Уникальная пена повышенной плотности Bi-foam, обладающая анатомическим эффектом, равномерно распределяет нагрузку по всей площади матраса.Природный комбинированный наполнитель Bi-Cocos обеспечивает оптимальную жесткость. Сочетание двух этих материалов с пружинным блоком Hardpocket в матрасе, прекрасно воспринимает даже большие нагрузки, оказывая необходимую анатомическую поддержку, что благоприятно сказывается на качестве сна. \\n Мягкий трикотажный чехол с высокообъёмной стежкой поможет расслабиться после напряженного дня. \\n Особенности:\\n - Использование природных материалов", "Производитель": "Россия"}',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 86,732 training samples
- Columns:
sentence_0andsentence_1 - Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 type string string details - min: 3 tokens
- mean: 5.28 tokens
- max: 29 tokens
- min: 51 tokens
- mean: 126.16 tokens
- max: 512 tokens
- Samples:
sentence_0 sentence_1 комод{"product_name": "Придиванный стол Агами", "Бренд": null, "Цвет": "Белый,Чёрный", "Материал": null, "description": "Компактный, устойчивый, многофункциональный – набор качеств придиванного стола Агами делает его отличным выбором для любой комнаты и целей. Модель можно использовать для сервировки закусок во время семейных киносеансов, работы с ноутбуком, рисования, в качестве подставки для швейной машины. С-образная конструкция каркаса позволяет расположить столик с максимальным удобством: сбоку от кресла, с фронтальной стороны дивана, рядом с сиденьем или так, чтобы столешница располагалась над подлокотником. Минималистский дизайн изделия создает нейтральный фон для предметов декора.", "Производитель": "Россия"}ковер{"product_name": "Унитаз-компакт AM.PM Spirit V2.0 C708600WH 36.5х85х63.5 см", "Бренд": "AM.PM", "Цвет": "белый глянцевый", "Материал": "фарфор", "description": "", "Производитель": "Россия"}мойка{"product_name": "Мойка с крылом GRANFEST Quarz GF-ZL-51 76х48х17.8 см", "Бренд": "GRANFEST", "Цвет": "чёрный", "Материал": "кварц", "description": "", "Производитель": "Россия"} - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 32per_device_eval_batch_size: 32num_train_epochs: 1multi_dataset_batch_sampler: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin
Training Logs
| Epoch | Step | Training Loss |
|---|---|---|
| 0.1844 | 500 | 2.7684 |
| 0.3689 | 1000 | 2.5477 |
| 0.5533 | 1500 | 2.4492 |
| 0.7377 | 2000 | 2.4187 |
| 0.9222 | 2500 | 2.4162 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 4.0.1
- Transformers: 4.50.1
- PyTorch: 2.6.0+cu124
- Accelerate: 1.5.2
- Datasets: 3.4.1
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}