TR-MTEB's picture
Add new SentenceTransformer model
6932a43 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:60000000
  - loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-base
widget:
  - source_sentence: Ayrıştırma
    sentences:
      - >-
        , üzerinde yazı veya çizim yapılması amacıyla boş kâğıtların
        birleştirilmesiyle meydana getirilen bir nesnedir. 1920 yılında
        kâğıtları birleştirip, kartondan kapak ekleyen J.A. Birchall tarafından
        icat edilmiştir. Pek çok insan günlük hayatta defter kullanır fakat
        genelde defter kelimesi, bu nesneyi çeşitli derslerde not almak amacıyla
        kullanan öğrencileri çağrıştırır.
      - >-
        Normalizasyon ( ), veritabanlarında çok fazla sütun ve satırdan oluşan
        bir tabloyu tekrarlardan arındırmak için daha az satır ve sütun içeren
        alt kümelerine ayrıştırma işlemidir.
      - |-
        , Çorum - Çorum ili merkez ilçesine bağlı köy
         , Kelkit - Gümüşhane ili Kelkit ilçesine bağlı köy
         , İzmit - Kocaeli ili İzmit ilçesine bağlı mahalle
         , Haliliye - Şanlıurfa ili Haliliye ilçesine bağlı mahalle
  - source_sentence: Mondros (anlam ayrımı)
    sentences:
      - >-
        , vajina mukozasının enflamasyonudur ve genelde aşağıdaki üç kategoriye
        ayrılır:
         Hormonal vajinit doğum sonrası veya menopoz sonrası kadınlarda görülen atrofik vajiniti de kapsar. Vajina duvarlarının ince ve kuru olmasından kaynaklanır. Bazen ergenlik öncesi genç kızlarda da olabilir. Kaşınma, yanma ve acı olabilir. Vajinal dokunun incelmesi enfeksiyonlara yol açabilir.
         İrritan vajinit alerji yapan veya tahriş eden maddelerden kaynaklanır. Alerji nedeni prezervatif, spermatisit, sabun, parfüm, vajinal duş ve meni, ilaçlar nedeniyle olabilir. Sürtünme, kumaşlar, tampon veya kremler de tahrişe neden olabilir. Bunların neden olduğu enflamasyon vajinal akıntıya neden olabilir.
         Enfeksiyöz vajinit üreme yaşında kadınlardaki vajinitlerin %90'ını oluşturur. Bakteriyel enfeksiyon vajinitlerin en sık nedenidir. Genelde Candida albicans (bir mantar), Trichomonas vaginalis (bir protozoa) veya Gardnerella (bir bakteri) tarafından meydana gelir. Daha ender enfeksiyonlar bel soğukluğu, klamidya, mikoplazma, herpes, kampilobakter ve bazı parazitlerdir.
         Aerobik vajinit
      - >-
        , Süleyman Çelebi'nin Mevlid-i Şerif'ine de alınan Grijgal palangasını
        saran Zigetvar kumandanı Kıraçin'in 1000 askerine karşı Kuru Kadının 114
        kişiyle galibiyetinde şehit olan Veli ve Abdal olduğuna inanılan Deli
        Mehmet'in başını vermemesi üzerine Kuru kadı tarafından yazılan bahri
        (bölümü).
      - Mondros, Ege Denizi'nde Limni adasında bir yerleşim.
  - source_sentence: İsabalı, Pamukova
    sentences:
      - İsabalı, Sakarya ilinin Pamukova ilçesine bağlı bir mahalledir.
      - Şenyurt, Erzurum ilinin Yakutiye ilçesine bağlı bir mahalledir.
      - Kocapınar, Bursa ilinin Harmancık ilçesine bağlı bir mahalledir.
  - source_sentence: Trol (ağ)
    sentences:
      - >-
        , 1917'de Konya'da açılan ve hâlen bu adla faaliyetini sürdüren
        fotoğrafhanedir.
      - >-
        (d. 8 Şubat 1928, Lecce – ö. 25 Ekim 1996, Pisa) İtalyan matematikçi.
        20. yüzyılın en büyük matematikçilerinden biriydi.
      - >-
        Trol ağları, yelkenli gemilerden bu yana kullanılan av araçlarıdır. İlk
        tipleri Danimarka ığrıpları ve kirişli trollerdir. Daha sonra iki gemi
        ile çekilen troller ve en son olarak kapılı troller geliştirilmiştir.
        Günümüzde kullanılan trolleri Kapılı (tek gemi ile çekilen) troller ve
        Kapısız (iki gemi ile çekilen) troller olarak iki gruba ayırabiliriz.
        Trol gemileriyle balık avlamaya ise "Trollemek" ismi verilir.
  - source_sentence: Málaga CF
    sentences:
      - >-
        (Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak
        (basil) şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob,
        hareketsiz ve sporla çoğalan bir bakteri cinsidir. Kapsül yapısının
        poli-D-Glutamik asit olması bacillus antracis'i diğer kapsüllü
        bakterilerden ayırır.
      - ', biyolojik sınıflandırmada basit hayvanları kapsayan bir taksondur.'
      - >-
        Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan
        Málaga kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan
        kulüp İspanya 2. Liginde mücadele etmektedir. Maçlarını 30.044 kişilik
        La Rosaleda Stadyumu'nda oynamaktadır. Granada CF futbol takımıyla
        oynadığı maçlar, Doğu Endülüs Derbisi (Derbi Andaluz, Derbi Oriental)
        olarak geçmektedir.
datasets:
  - selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the turkish_weakly_supervised_contrastive_learning_dataset dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/multilingual-e5-base_contrastive_loss_training_with_large_data_v2")
# Run inference
sentences = [
    'Málaga CF',
    "Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan Málaga kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan kulüp İspanya 2. Liginde mücadele etmektedir. Maçlarını 30.044 kişilik La Rosaleda Stadyumu'nda oynamaktadır. Granada CF futbol takımıyla oynadığı maçlar, Doğu Endülüs Derbisi (Derbi Andaluz, Derbi Oriental) olarak geçmektedir.",
    "(Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak (basil) şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob, hareketsiz ve sporla çoğalan bir bakteri cinsidir. Kapsül yapısının poli-D-Glutamik asit olması bacillus antracis'i diğer kapsüllü bakterilerden ayırır.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

turkish_weakly_supervised_contrastive_learning_dataset

  • Dataset: turkish_weakly_supervised_contrastive_learning_dataset at bf99eda
  • Size: 60,000,000 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 5.32 tokens
    • max: 16 tokens
    • min: 11 tokens
    • mean: 81.97 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Cengiz Han (doğum adıyla Temuçin, – 18 Ağustos 1227), Moğol İmparatorluğu'nun kurucusu ve ilk Kağanı olan Moğol komutan ve hükümdardır. Hükümdarlığı döneminde gerçekleştirdiği hiçbir savaşı kaybetmeyen , dünya tarihinin en büyük askeri liderlerinden birisi olarak kabul edilmektedir. 13. yüzyılın başında Orta Asya'daki tüm göçebe bozkır kavimlerini birleştirip bir ulus hâline getirerek Moğol siyasi kimliği çatısı altında toplamıştır. , hükümdarlığı döneminde, 1206-1227 arasında, Kuzey Çin'deki Batı Xia ve Jin Hanedanı; Türkistan'daki Kara Hıtay, Maveraünnehir; Harezm, Horasan ve İran'daki Harezmşahlar, Kafkasya'daki Gürcüler, Deşt-i Kıpçak'taki Rus Knezlikleri, Kıpçaklar ile İdil Bulgarları üzerine seferler yaptı ve imparatorluğu döneminde gerçekleştirdiği hiçbir savaşı kaybetmedi. Bunların sonucunda Pasifik Okyanusu'ndan Hazar Denizi'ne ve Karadeniz'in kuzeyine kadar uzanan bir imparatorluk kurdu.
    Mustafa Suphi Mehmed Mustafa Subhi (), kısaca , veya bazı kaynaklarda kullanıldığı haliyle Osmanlıca yazıma göre Mustafa Subhi (4 Ağustos 1882 veya 4 Mayıs 1883 - 28 Ocak 1921), Türk komünist ve Türkiye Komünist Partisinin ilk Merkez Komitesi Başkanı.
    Linux (telaffuz: Lin-uks); çekirdeğine dayalı, açık kaynak kodlu, Unix benzeri bir işletim sistemi ailesidir. GNU Genel Kamu Lisansı versiyon 2 ile sunulan ve Vakfı çatısı altında geliştirilen bir özgür yazılım projesidir. ismi ilk geliştiricisi olan Linus Torvalds tarafından 1991 yılında verilmiştir. Günümüzde süper bilgisayarlarda, akıllı cihazların ve internet altyapısında kullanılan cihazların işletim sistemlerinde yaygın olarak kullanılmaktadır. Bunlardan en popüler olanı Google tarafından geliştirilen Android işletim sistemidir.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

turkish_weakly_supervised_contrastive_learning_dataset

  • Dataset: turkish_weakly_supervised_contrastive_learning_dataset at bf99eda
  • Size: 957,344 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 3 tokens
    • mean: 6.98 tokens
    • max: 17 tokens
    • min: 10 tokens
    • mean: 52.71 tokens
    • max: 512 tokens
    • 1: 100.00%
  • Samples:
    sentence1 sentence2 label
    Karl Marx (; 5 Mayıs 1818, Trier – 14 Mart 1883, Londra), 19. yüzyılda yaşamış Alman filozof, politik ekonomist ve bilimsel sosyalizmin kurucusu. Bir müddet gazetecilik de yapan Marx, iktisadi ve beşerî konularda eleştirel fikirler ve tespitler ortaya koymuştur. 1
    S. Murat Demiral 1966 İstanbul doğumlu Türk müzisyen. 1976 yılında İstanbul devlet konservatuvarında Ziya Polat ile trombona başladı 1977 yılında İstanbul Belediye konservatuvarına geçtı burada 1 yıl Mahmut Doğuduyal ile çalıştı 1978 yılında tekrar Ziya Polat ile çalışmaya başladı. 1980 yılında İstanbul Devlet Opera ve Balesi Orkestrası'nın sınavını kazandı. 1
    Atılım (gazete) Atılım, tarihsel Türkiye Komünist Partisinin (TKP) 1 Ocak 1974 tarihinde yayımlamaya başladığı Merkez Komitesi yayın organı. 15 Mart 1984 tarihine kadar aylık, bu tarih itibarıyla ise on beş günlük olarak çıktı. 1
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • learning_rate: 5e-06
  • num_train_epochs: 1
  • lr_scheduler_type: cosine_with_restarts
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine_with_restarts
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Framework Versions

  • Python: 3.10.6
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.7.0+cu126
  • Accelerate: 1.6.0
  • Datasets: 3.5.1
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}