Instructions to use dertyu1/best_metric_model_agi with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use dertyu1/best_metric_model_agi with sentence-transformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("dertyu1/best_metric_model_agi")

sentences = [
"Товар: Напольный обогреватель-увлажнитель с технологией PTC, эффектом реалистичного пламени и интеллектуальным управлением. Описание: Напольный обогреватель-увлажнитель с технологией PTC, эффектом реалистичного пламени и интеллектуальным управлением. Этот напольный обогреватель-увлажнитель оснащен технологией PTC, которая обеспечивает быстрый нагрев и равномерное распределение тепла. Благодаря этому, вы сможете быстро создать ком.",
"Товар: Форсунка душевая. Категория: Боковой душ. Бренд: Jiemiwl. Артикул: Jiemiwl-3.24-xs60ybd67306. Описание: Лейка душа для парикмахерской мойки подходит для всех типов парикмахерской мойки В комплектации лейка, шланг и суппорт Красивые продукты.",
"Товар: Комплект утягивающих трусиков с высокой талией. Категория: Женский. Бренд: BodyShape. Артикул: 1916615096-e2e6. Описание: Эти женские утягивающие трусики с высокой талией создадут идеальный силуэт, подчёркивая ваши формы и обеспечивая комфорт в течение всего дня. Изготовленные из эластичного хлопка с добавлением спандекса, они отлично облегают тело и не сковывают движения. Модель доступна в нескольких размерах и цвета.",
"Товар: Напольный обогреватель-увлажнитель с керамическим нагревателем, эффектом пламени и удалённым управлением. Бренд: ComfortHeat. Описание: Напольный обогреватель-увлажнитель с керамическим нагревателем, эффектом пламени и удалённым управлением. Этот напольный обогреватель-увлажнитель использует керамическую технологию, которая обеспечивает эффективный и быстрый нагрев. Площадь обогрева составляет до 30 квадратных метров, что позволяет."
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

Notebooks
Google Colab
Kaggle

SentenceTransformer based on sergeyzh/rubert-mini-frida

This is a sentence-transformers model finetuned from sergeyzh/rubert-mini-frida. It maps sentences & paragraphs to a 312-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: sergeyzh/rubert-mini-frida
Maximum Sequence Length: 2048 tokens
Output Dimensionality: 312 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 312, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
    "\u0422\u043e\u0432\u0430\u0440: \u0420\u0435\u0436\u0443\u0449\u0438\u0439 \u043f\u043b\u043e\u0442\u0442\u0435\u0440 G1351 ABJ \u041f\u043e\u043b\u043d\u0430\u044f \u0430\u0442\u0443\u043e-\u043a\u043e\u043d\u0442\u0443\u0440\u043d\u0430\u044f \u0440\u0435\u0437\u043a\u0430. \u0411\u0440\u0435\u043d\u0434: YGTech. \u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435: \u0420\u0435\u0436\u0443\u0449\u0438\u0439 \u043f\u043b\u043e\u0442\u0442\u0435\u0440 G1351 ABJ - \u044d\u0442\u043e \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u043e\u0435 \u0440\u0435\u0448\u0435\u043d\u0438\u0435 \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043b\u044e\u0431\u0438\u0442 \u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u0441 \u0431\u0443\u043c\u0430\u0433\u043e\u0439 \u0438 \u0445\u043e\u0447\u0435\u0442 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0432\u044b\u0441\u043e\u043a\u043e\u0435 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e \u0440\u0435\u0437\u043a\u0438. \u042d\u0442\u043e\u0442 \u043f\u043b\u043e\u0442\u0442\u0435\u0440 \u043e\u0441\u043d\u0430\u0449\u0435\u043d \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043e\u0439 \u0430\u0432\u0442\u043e\u0441\u043a\u0430\u043d\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043f\u043e\u0437\u0432\u043e\u043b\u044f\u0435\u0442 \u0431\u044b\u0441\u0442\u0440\u043e \u0438 \u0442\u043e\u0447\u043d\u043e \u043d\u0430\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u0442\u044c \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b \u0440\u0435\u0437\u043a\u0438. \u0420\u0435\u0436\u0443\u0449\u0438\u0439 \u043f\u043b\u043e\u0442\u0442\u0435\u0440 G1351 ABJ \u0438\u043c\u0435\u0435\u0442 \u0432\u044b\u0441\u043e\u043a\u0443\u044e \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c.",
]
documents = [
    'Товар: Режущий плоттер G2000 PRO Полная авто-контурная резка. Бренд: CutMaster. Описание: Режущий плоттер G2000 PRO - это современное решение для профессионалов в области дизайна и резки материалов. Оснащен высокоточной системой автосканирования, он гарантирует идеальные результаты резки каждый раз. Скорость резки достигает 1000 мм с, что позволяет быстро справляться с большими объемами.',
    'Товар: Детская мочалка для купания, Панда белая. Категория: Мочалки детские. Бренд: Jiemiwl. Артикул: Jiemiwl-10.14-ulbm. Описание: Особенности Эта губка для купания, изготовленная из мягкой ткани, обеспечивает бережный уход за нежной кожей вашего малыша. Она имеет приятный дизайн, обладает высокой впитывающей способностью, легко моется и долговечна без деформации, что делает ее практичным выбором для ежедневного использовани.',
    'Товар: Набор для изучения света с линзами и фильтрами. Категория: Чертежные принадлежности. Бренд: LightLab. Артикул: HzZHZnhyjP. Описание: Размер 25 15 4 см 9,84 5,91 1,57 дюйма Питание одна 9V батарейка батарейка в комплект не входит Материал продукта пластик стекло Применимые люди 8 Цвет как показано на рисунке Внимание 1. Аксессуары могут поставляться в случайных цветах. 2. Содержит мелкие детали, детям нео.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 312] [3, 312]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.7727, 0.0935, 0.2062]])

Evaluation

Metrics

Information Retrieval

Dataset: agi_val
Evaluated with InformationRetrievalEvaluator

Metric	Value
cosine_accuracy@1	0.5212
cosine_accuracy@5	0.6456
cosine_precision@1	0.5212
cosine_precision@3	0.3487
cosine_precision@5	0.2367
cosine_precision@10	0.1326
cosine_recall@1	0.3306
cosine_recall@3	0.5381
cosine_recall@5	0.5995
cosine_recall@10	0.668
cosine_ndcg@10	0.5855
cosine_mrr@10	0.5733
cosine_map@100	0.5548

Training Details

Training Dataset

Unnamed Dataset

Size: 6,669 training samples
Columns: sentence_0 and sentence_1
Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1
type string string
details
min: 11 tokens
mean: 94.32 tokens
max: 298 tokens

min: 18 tokens
mean: 100.12 tokens
max: 183 tokens

	sentence_0	sentence_1
type	string	string
details	min: 11 tokens mean: 94.32 tokens max: 298 tokens	min: 18 tokens mean: 100.12 tokens max: 183 tokens

Samples:

sentence_0	sentence_1
Товар: Аэрография MR.HOBBY PS270 самоцентрирующееся сопло 0,2 ммDM. Категория: Сопла для краскопультов и аэрографов. Бренд: jiemi. Артикул: jiemi20251010-kcwr. Описание: тонкие линии и распыление контролируют тень от объекта. Регулировка объема воздуха в корпусе ручки очень помогает при создании контуров. Ручка для рисования емкостью 10 куб.см имеет диаметр 0,2 мм, что подходит для детального изображения модели. Модель PS270 Калибр 0,2 мм Особенности PS270 распол.	Товар: Аэрография MR.HOBBY PS270 самоцентрирующееся сопло 0,2 ммDM. Категория: Сопла для краскопультов и аэрографов. Бренд: jiemi. Артикул: jiemi20251010-kcwr. Описание: тонкие линии и распыление контролируют тень от объекта. Регулировка объема воздуха в корпусе ручки очень помогает при создании контуров. Ручка для рисования емкостью 10 куб.см имеет диаметр 0,2 мм, что подходит для детального изображения модели. Модель PS270 Калибр 0,2 мм Особенности PS270 распол.
Товар: Машина для производства мороженого, компрессорная, красная, 2.2 кг. Категория: Мороженицы. Описание: Любите натуральный домашний мороженый без лишних добавок Эта автоматическая мороженое-машина с компрессором станет вашим незаменимым помощником в кухне Тип и функциональность Это автоматическое оборудование с компрессором оно самостоятельно управляет процессом приготовления достаточно.	Товар: Машина для производства мороженого, компрессорная, красная, 2.2 кг. Категория: Мороженицы. Описание: Любите натуральный домашний мороженый без лишних добавок Эта автоматическая мороженое-машина с компрессором станет вашим незаменимым помощником в кухне Тип и функциональность Это автоматическое оборудование с компрессором оно самостоятельно управляет процессом приготовления достаточно.
Товар: Крепёж для затеняющей и фасадной сетки 100 шт. Категория: Садовый декор и теплицы. Артикул: 1640915493-qrg4. Описание: Надежно защитите свой солнцезащитный козырек Эти пластиковые зажимы для солнцезащитного козырька изготовлены из высококачественного пластика и выдерживают сильный ветер и суровые погодные условия, чтобы надежно закрепить ваш солнцезащитный козырек на месте. Простота установки Регулируемая кон.	Товар: Крепёж для затеняющей и фасадной сетки 50 шт. Категория: Садовый декор и теплицы. Бренд: GardenPro. Артикул: 1640915493-qrg4. Описание: Устойчивость к неблагоприятным условиям Эти зажимы для солнцезащитных козырьков изготовлены из прочного полипропилена и способны выдерживать сильный ветер и дождь, обеспечивая надежное удержание вашего покрытия на месте. Легкость установки Уникальная конструкция позволяет быстро устанавливать.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 128
per_device_eval_batch_size: 128
num_train_epochs: 10
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 10
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_ratio: None
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
enable_jit_checkpoint: False
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
use_cpu: False
seed: 42
data_seed: None
bf16: False
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: -1
ddp_backend: None
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
group_by_length: False
length_column_name: length
project: huggingface
trackio_space_id: trackio
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_for_metrics: []
eval_do_concat_batches: True
auto_find_batch_size: False
full_determinism: False
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_num_input_tokens_seen: no
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: True
use_cache: False
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: round_robin
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	agi_val_cosine_ndcg@10
1.0	53	0.5327
2.0	106	0.5589
3.0	159	0.5764
4.0	212	0.5837
5.0	265	0.5855

Framework Versions

Python: 3.12.12
Sentence Transformers: 5.2.3
Transformers: 5.0.0
PyTorch: 2.10.0+cu128
Accelerate: 1.12.0
Datasets: 4.0.0
Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}