SentenceTransformer based on intfloat/multilingual-e5-large

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("eewwann/me5-ruhnp")
# Run inference
queries = [
    "\u0421\u0443\u043f\u0435\u0440\u043f\u0440\u043e\u0441\u0442\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 (\u0442\u0430\u043a\u0436\u0435 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u044b \u043a\u0430\u043a \u043f\u0440\u043e\u0441\u0442\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0432\u044b\u0441\u0448\u0435\u0433\u043e \u043f\u043e\u0440\u044f\u0434\u043a\u0430)\u00a0\u2014 \u044d\u0442\u043e \u043f\u043e\u0434\u043c\u043d\u043e\u0436\u0435\u0441\u0442\u0432\u043e \u043f\u0440\u043e\u0441\u0442\u044b\u0445 \u0447\u0438\u0441\u0435\u043b, \u0441\u0442\u043e\u044f\u0449\u0438\u0445 \u0432 \u0441\u043f\u0438\u0441\u043a\u0435 \u043f\u0440\u043e\u0441\u0442\u044b\u0445 \u0447\u0438\u0441\u0435\u043b \u043d\u0430 \u043f\u043e\u0437\u0438\u0446\u0438\u044f\u0445, \u044f\u0432\u043b\u044f\u044e\u0449\u0438\u0445\u0441\u044f \u043f\u0440\u043e\u0441\u0442\u044b\u043c\u0438 \u0447\u0438\u0441\u043b\u0430\u043c\u0438 (\u0442\u043e \u0435\u0441\u0442\u044c \u044d\u0442\u043e 2-\u0435, 3-\u0435, 5-\u0435, 7-\u0435, 11-\u0435, 13-\u0435, 17-\u0435 \u0438 \u0442.\u0434. \u043f\u043e \u0441\u0447\u0451\u0442\u0443 \u043f\u0440\u043e\u0441\u0442\u044b\u0435 \u0447\u0438\u0441\u043b\u0430).",
]
documents = [
    'Простые числа высшего порядка (также называемые суперпростыми числами)\xa0— это подмножество простых чисел, находящихся в списке простых чисел на позициях, которые сами являются простыми числами (то есть это 2-е, 3-е, 5-е, 7-е, 11-е, 13-е, 17-е и т.д. по счёту простые числа).',
    'Суперпростые числа (также известны как простые числа низшего порядка)\xa0— это подмножество простых чисел, которые не стоят в списке простых чисел на позициях, являющихся простыми числами (то есть это не 2-е, 3-е, 5-е, 7-е, 11-е, 13-е, 17-е и т.д. по счёту простые числа).',
    'Простые числа низшего порядка (также известные как суперпростые числа)\xa0— это часть простых чисел, которые стоят в списке простых чисел на позициях, не являющихся простыми числами (то есть это не 2-е, 3-е, 5-е, 7-е, 11-е, 13-е, 17-е и т.д. по счёту простые числа).',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 1024] [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.9894, 0.8940, 0.8951]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.993

Training Details

Training Dataset

Unnamed Dataset

  • Size: 100,000 training samples
  • Columns: query, pos, neg_1, neg_2, neg_3, neg_4, and neg_5
  • Approximate statistics based on the first 1000 samples:
    query pos neg_1 neg_2 neg_3 neg_4 neg_5
    type string string string string string string string
    details
    • min: 9 tokens
    • mean: 37.88 tokens
    • max: 193 tokens
    • min: 11 tokens
    • mean: 35.4 tokens
    • max: 142 tokens
    • min: 9 tokens
    • mean: 32.85 tokens
    • max: 147 tokens
    • min: 9 tokens
    • mean: 33.28 tokens
    • max: 146 tokens
    • min: 9 tokens
    • mean: 33.47 tokens
    • max: 146 tokens
    • min: 9 tokens
    • mean: 33.71 tokens
    • max: 143 tokens
    • min: 9 tokens
    • mean: 34.05 tokens
    • max: 140 tokens
  • Samples:
    query pos neg_1 neg_2 neg_3 neg_4 neg_5
    С 1952 года после окончания Куйбышевского индустриального института им. В. В. Куйбышева работал в системе атомной промышленности СССР. После окончания Куйбышевского индустриального института им. В. В. Куйбышева он начал работать в системе атомной промышленности СССР с 1952 года. До 1952 года перед окончанием Куйбышевского индустриального института им. В. В. Куйбышева он не работал в системе атомной промышленности СССР. После окончания Куйбышевского индустриального института им. В. В. Куйбышева он не устроился на работу в систему атомной промышленности СССР с 1952 года. До получения диплома Куйбышевского индустриального института им. В. В. Куйбышева он не работал в системе атомной промышленности СССР. После окончания учебы в Куйбышевском индустриальном институте им. В. В. Куйбышева он не приступил к работе в системе атомной промышленности СССР в 1952 году. До выпуска из Куйбышевского индустриального института им. В. В. Куйбышева он не трудился в системе атомной промышленности СССР.
    Впадающие реки: Гаронна и Дордонь (образующие эстуарий Жиронда), Луара, Адур, Бидасоа. Эстуарий Жиронда формируют впадающие реки: Гаронна и Дордонь, а также Луара, Адур и Бидасоа. Нет впадающих рек в эстуарий Жиронда, только одна большая река. Эстуарий Жиронда формируется только одной рекой, без других впадающих рек. Гаронна и Дордонь не имеют никакого отношения к эстуарию Жиронда, это совершенно разные реки. Луара, Адур и Бидасоа не соединяются с эстуарием Жиронда, они течут в другом направлении. Эстуарий Жиронда образуется только одной рекой, Гаронной, без участия других рек.
    После смерти отца в 1709 году Людовик унаследовал его титулы, должности и владения. В 1709 году, после смерти отца, Людовик унаследовал его титулы, должности и владения. После смерти отца в 1709 году Людовик лишился его титулов, должностей и владений. Людовик отказался от титулов, должностей и владений своего отца после его смерти в 1709 году. После смерти отца в 1709 году Людовик отрёкся от его титулов, должностей и владений. В 1709 году, после смерти отца, Людовик потерял его титулы, должности и владения. Людовик не наследовал титулы, должности и владения от отца после его смерти в 1709 году.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 130,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 128,
        "gather_across_devices": false
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 2,000 evaluation samples
  • Columns: query, pos, neg_1, neg_2, neg_3, neg_4, and neg_5
  • Approximate statistics based on the first 1000 samples:
    query pos neg_1 neg_2 neg_3 neg_4 neg_5
    type string string string string string string string
    details
    • min: 11 tokens
    • mean: 38.67 tokens
    • max: 228 tokens
    • min: 3 tokens
    • mean: 36.02 tokens
    • max: 141 tokens
    • min: 10 tokens
    • mean: 33.79 tokens
    • max: 127 tokens
    • min: 8 tokens
    • mean: 33.78 tokens
    • max: 125 tokens
    • min: 9 tokens
    • mean: 34.19 tokens
    • max: 125 tokens
    • min: 10 tokens
    • mean: 34.36 tokens
    • max: 125 tokens
    • min: 10 tokens
    • mean: 34.68 tokens
    • max: 125 tokens
  • Samples:
    query pos neg_1 neg_2 neg_3 neg_4 neg_5
    Отвечал за работу партии и внес свой вклад в 1936 году в урегулирование инцидента Сиань. Внес свой вклад в урегулирование инцидента Сиань и отвечал за работу партии в 1936 году. Не занимался работой партии и не принимал участия в урегулировании инцидента Сиань в 1936 году. Игнорировал работу партии и не вносил никакого вклада в урегулирование инцидента Сиань в 1936 году. Не участвовал в урегулировании инцидента Сиань и не отвечал за работу партии в 1936 году. Не имел никакого вклада в урегулирование инцидента Сиань и не отвечал за работу партии в 1936 году. Был равнодушен к работе партии и не принимал участия в урегулировании инцидента Сиань в 1936 году.
    Более сложные модели с поддержкой шифрования данных и аутентификацией используются в ситуациях, где важна безопасность, таких как удаленное управление критическими системами, управления механизмами на заводе и промышленных предприятиях, в том числе через Интернет, где безопасность имеет первостепенное значение. Более сложные модели, обладающие функциями шифрования и аутентификации, применяются в условиях, где безопасность играет ключевую роль, например, для удаленного управления критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет, где безопасность находится на первом месте. Простые модели без шифрования данных и аутентификации используются в ситуациях, где безопасность не так важна, например, для управления не критическими системами, управления механизмами на заводе и промышленных предприятиях, в том числе через Интернет, где безопасность не на первом плане. Модели без шифрования данных и проверки подлинности используются в ситуациях, где безопасность не стоит на первом месте, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая сеть Интернет. Простые модели без поддержки шифрования данных и аутентификации применяются в условиях, где безопасность не является первоочередной задачей, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, в том числе через Интернет. Простые модели, которые не обеспечивают шифрование данных и аутентификацию, используются в ситуациях, где безопасность не столь важна, например, для удаленного управления не критическими системами, управления механизмами на заводе и в промышленных предприятиях, включая Интернет. Модели без сложной защиты данных и аутентификации применяются в условиях, где безопасность не имеет высокого приоритета, например, для управления не критическими системами, управления механизмами на заводе и в других отраслях, включая использование Интернета, где безопасность не играет ключевую роль.
    В это время отплыли две лодки: лодка самого генерала Уиллера и вторая, получившая пробоину у ватерлинии ядром, пущенным с берега. Две лодки отправились в плавание: лодка генерала Уиллера и другая, которая получила пробоину от ядра, выпущенного с берега. В это время пришвартовались две лодки: лодка самого генерала Уиллера и другая, без повреждений на ватерлинии ядром. Лодка генерала Уиллера осталась на месте, в то время как вторая лодка получила пробоину от ядра, брошенного с берега. Две лодки стояли у берега: лодка генерала Уиллера и другая, которая не получила повреждений от ядра у ватерлинии. Лодка генерала Уиллера не покидала места, в то время как вторая лодка была атакована ядром, выпущенным с берега. В это время только одна лодка покинула берег, а вторая осталась на месте: лодка генерала Уиллера.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 130,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 128,
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • warmup_steps: 0.1
  • fp16: True
  • dataloader_drop_last: True
  • prompts: query:
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_ratio: 0.1
  • warmup_steps: 0.1
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • enable_jit_checkpoint: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • use_cpu: False
  • seed: 42
  • data_seed: None
  • bf16: False
  • fp16: True
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: -1
  • ddp_backend: None
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • auto_find_batch_size: False
  • full_determinism: False
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • use_cache: False
  • prompts: query:
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss vk_e5_cosine_accuracy
0.0064 10 0.2606 0.1745 0.9335
0.0128 20 0.1485 0.1060 0.9485
0.0192 30 0.0889 0.0997 0.9575
0.0256 40 0.0825 0.0982 0.9635
0.032 50 0.0949 0.0957 0.9695
0.0384 60 0.0491 0.0922 0.9750
0.0448 70 0.0660 0.0897 0.9755
0.0512 80 0.0514 0.0900 0.9770
0.0576 90 0.0487 0.0903 0.9770
0.064 100 0.0643 0.0920 0.9780
0.0704 110 0.0517 0.0994 0.9805
0.0768 120 0.0731 0.1043 0.9820
0.0832 130 0.0894 0.0951 0.9835
0.0896 140 0.0408 0.1077 0.9850
0.096 150 0.0666 0.1000 0.9855
0.1024 160 0.0492 0.1077 0.9865
0.1088 170 0.0397 0.1087 0.9880
0.1152 180 0.0515 0.1188 0.9880
0.1216 190 0.0906 0.1104 0.9880
0.128 200 0.1299 0.0958 0.9880
0.1344 210 0.1052 0.0867 0.9870
0.1408 220 0.0654 0.0867 0.9865
0.1472 230 0.0456 0.1054 0.9875
0.1536 240 0.0878 0.0971 0.9895
0.16 250 0.1058 0.0839 0.9890
0.1664 260 0.0695 0.0768 0.9885
0.1728 270 0.0254 0.1034 0.9870
0.1792 280 0.0728 0.1000 0.9880
0.1856 290 0.0668 0.0902 0.9885
0.192 300 0.0872 0.0871 0.9875
0.1984 310 0.0862 0.0833 0.9910
0.2048 320 0.0761 0.1086 0.9910
0.2112 330 0.0660 0.1003 0.9905
0.2176 340 0.0453 0.0931 0.9910
0.224 350 0.1152 0.0793 0.9880
0.2304 360 0.0741 0.0767 0.9875
0.2368 370 0.0733 0.0818 0.9880
0.2432 380 0.0732 0.0862 0.9880
0.2496 390 0.0634 0.0837 0.9885
0.256 400 0.1168 0.0820 0.9890
0.2624 410 0.0369 0.0796 0.9885
0.2688 420 0.0390 0.0929 0.9875
0.2752 430 0.0628 0.0977 0.9865
0.2816 440 0.0428 0.0932 0.9870
0.288 450 0.0524 0.0894 0.9860
0.2944 460 0.0311 0.0960 0.9865
0.3008 470 0.0629 0.1002 0.9880
0.3072 480 0.0753 0.0969 0.9885
0.3136 490 0.0611 0.0882 0.9905
0.32 500 0.0896 0.0791 0.9895
0.3264 510 0.0565 0.0804 0.9910
0.3328 520 0.1016 0.0757 0.9910
0.3392 530 0.0561 0.0705 0.9910
0.3456 540 0.0792 0.0674 0.9905
0.352 550 0.0483 0.0719 0.9900
0.3584 560 0.0946 0.0764 0.9905
0.3648 570 0.0964 0.0772 0.9905
0.3712 580 0.0764 0.0756 0.9900
0.3776 590 0.0592 0.0774 0.9905
0.384 600 0.0186 0.0816 0.9920
0.3904 610 0.1435 0.0860 0.9910
0.3968 620 0.0326 0.0755 0.9920
0.4032 630 0.0337 0.0764 0.9915
0.4096 640 0.0634 0.0829 0.9915
0.416 650 0.0569 0.0881 0.9900
0.4224 660 0.0890 0.0848 0.9910
0.4288 670 0.0600 0.0850 0.9900
0.4352 680 0.0592 0.0811 0.9910
0.4416 690 0.0128 0.0846 0.9910
0.448 700 0.0845 0.0874 0.9925
0.4544 710 0.0456 0.0848 0.9940
0.4608 720 0.0585 0.0831 0.9935
0.4672 730 0.0661 0.0788 0.9930
0.4736 740 0.0376 0.0772 0.9925
0.48 750 0.0436 0.0774 0.9925
0.4864 760 0.0477 0.0812 0.9915
0.4928 770 0.0532 0.0860 0.9900
0.4992 780 0.0558 0.0789 0.9895
0.5056 790 0.0410 0.0801 0.9895
0.512 800 0.0283 0.0861 0.9885
0.5184 810 0.0439 0.0904 0.9885
0.5248 820 0.0453 0.1014 0.9895
0.5312 830 0.0124 0.1072 0.9900
0.5376 840 0.1150 0.0997 0.9900
0.544 850 0.0668 0.0949 0.9900
0.5504 860 0.0325 0.0925 0.9890
0.5568 870 0.0293 0.0942 0.9900
0.5632 880 0.0555 0.0976 0.9910
0.5696 890 0.0557 0.0903 0.9920
0.576 900 0.0508 0.0887 0.9915
0.5824 910 0.0619 0.0861 0.9920
0.5888 920 0.0459 0.0787 0.9910
0.5952 930 0.0676 0.0757 0.9905
0.6016 940 0.0290 0.0761 0.9905
0.608 950 0.0475 0.0781 0.9910
0.6144 960 0.0313 0.0802 0.9910
0.6208 970 0.0529 0.0801 0.9925
0.6272 980 0.0909 0.0751 0.9895
0.6336 990 0.0580 0.0731 0.9890
0.64 1000 0.0493 0.0735 0.9890
0.6464 1010 0.0377 0.0743 0.9885
0.6528 1020 0.0561 0.0738 0.9890
0.6592 1030 0.0596 0.0739 0.9895
0.6656 1040 0.0334 0.0755 0.9900
0.672 1050 0.0486 0.0805 0.9910
0.6784 1060 0.0804 0.0804 0.9910
0.6848 1070 0.0323 0.0809 0.9905
0.6912 1080 0.0856 0.0787 0.9905
0.6976 1090 0.0673 0.0773 0.9905
0.704 1100 0.0691 0.0762 0.9915
0.7104 1110 0.0201 0.0780 0.9910
0.7168 1120 0.0274 0.0808 0.9920
0.7232 1130 0.0371 0.0828 0.9920
0.7296 1140 0.0287 0.0847 0.9930
0.736 1150 0.0341 0.0871 0.9930
0.7424 1160 0.0465 0.0885 0.9920
0.7488 1170 0.0327 0.0894 0.9915
0.7552 1180 0.0330 0.0917 0.9915
0.7616 1190 0.0514 0.0937 0.9920
0.768 1200 0.0973 0.0916 0.9920
0.7744 1210 0.0350 0.0890 0.9915
0.7808 1220 0.0629 0.0854 0.9910
0.7872 1230 0.0313 0.0841 0.9905
0.7936 1240 0.0481 0.0817 0.9900
0.8 1250 0.0555 0.0794 0.9905
0.8064 1260 0.0440 0.0783 0.9915
0.8128 1270 0.0372 0.0780 0.9915
0.8192 1280 0.0598 0.0776 0.9910
0.8256 1290 0.0507 0.0776 0.9910
0.832 1300 0.0465 0.0788 0.9910
0.8384 1310 0.0524 0.0794 0.9915
0.8448 1320 0.0161 0.0808 0.9915
0.8512 1330 0.0641 0.0819 0.9915
0.8576 1340 0.0593 0.0806 0.9920
0.864 1350 0.0542 0.0786 0.9925
0.8704 1360 0.0602 0.0773 0.9920
0.8768 1370 0.0685 0.0748 0.9920
0.8832 1380 0.0435 0.0746 0.9920
0.8896 1390 0.0245 0.0757 0.9925
0.896 1400 0.0822 0.0766 0.9925
0.9024 1410 0.0617 0.0764 0.9925
0.9088 1420 0.0331 0.0765 0.9920
0.9152 1430 0.0400 0.0768 0.9925
0.9216 1440 0.0581 0.0768 0.9925
0.928 1450 0.0363 0.0771 0.9925
0.9344 1460 0.0454 0.0775 0.9925
0.9408 1470 0.0252 0.0777 0.9930
0.9472 1480 0.0448 0.0779 0.9930
0.9536 1490 0.0609 0.0779 0.9930
0.96 1500 0.0328 0.0779 0.9930
0.9664 1510 0.0479 0.0778 0.9930
0.9728 1520 0.0366 0.0778 0.9930
0.9792 1530 0.0361 0.0779 0.9930
0.9856 1540 0.1004 0.0777 0.9930
0.992 1550 0.0148 0.0778 0.9930
0.9984 1560 0.0227 0.0779 0.9930

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 5.2.2
  • Transformers: 5.1.0
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.5.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
11
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for eewwann/me5-ruhnp

Finetuned
(150)
this model

Papers for eewwann/me5-ruhnp

Evaluation results