e5-turkish-base / README.md
zafonair's picture
Upload E5-Turkish sentence embedding model
9ed88de verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:47232
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: 'query: karakterinin gelişimi bu bölümde nasıl'
    sentences:
      - >-
        passage: morphle morphle ve dev dinozor (2022) morphle'ın değişen
        güçleri ve mila'nın her gün sınırsız hayal gücüyle en heyecan verici
        oyunları sizlerle tür: çocuk. içerik türü: episode. yaş sınırı: genel
        i̇zleyici.
      - >-
        passage: klasik yolculuk klasik yolculuk : i̇lyun bürkev (2023) müzik
        yazarı serhan bali 12 yaşındaki genç piyanist i̇lyun bürkev'i arter'de
        ağırlıyor ödüllü genç yeteneğin sanat yaşamının kilometre taşlarını
        anlattığı sıcak sohbet izleyicileri klasik bir yolculuğa çıkarıyor tür:
        belgesel. içerik türü: episode. yaş sınırı: genel i̇zleyici.
      - >-
        passage: yürüyerek gel 4. bölüm - eyüpsultan (2024) "şehirler en güzel
        yürüyerek keşfedilir" diyen gizem erman soysaldı'nın rotasında bu bölüm
        "eyüpsultan" var… santral i̇stanbul'dan yürüyüşüne başlayan soysaldı
        haliç adaları pierre loti cülus yolu ve eyüp sultan camii'ni ziyaret
        ettikten sonra eyüp sultan tepesi'nde konuğu oyuncu ahmet kürşat öçalan
        ile buluşuyor tür: yaşam. içerik türü: episode. yaş sınırı: genel
        i̇zleyici.
  - source_sentence: 'query: kral şakir çalar saat adam dizisinin bu bölümü ne anlatıyor'
    sentences:
      - >-
        passage: kral şakir çalar saat adam (2023) bir aslan ailesinin yavrusu
        olan şakirin ailesi ve arkadaşları ile olan maceraları anlatılmaktadır
        şakirin babası remzi aslan annesi kadriye ve kız kardeşi canan kedidir
        ve peyami adında bir kaplumbağa dedesi vardır hayvanların yaşadığı
        modern şehir hayatında karşılaştıkları komik ve macera dolu hikayesi
        sizlerle tür: çocuk. oyuncular: levent ünsal, mustafa oral. içerik türü:
        episode. yaş sınırı: 7+.
      - >-
        passage: grizzy ve lemmingler 53. bölüm (2016) grizzynin "ayı
        ayrıcalıkları" ile eğlence ve mücadele dolu yarışları sizlerle tür:
        çocuk. içerik türü: episode. yaş sınırı: 7+.
      - >-
        passage: sen uyuyunca 3. bölüm (2022) neden rüya görürüz bilinçaltımız
        rüyalarla bize bir şeyler mi anlatmaya çalışır yoksa hepsi anlamsız bir
        rastgelelikten mi ibarettir bu bölümde rüyanın gizemli dünyasına dalıp
        bahar'ın rüyalarında derin bir yolculuğa çıkıyoruz tür: belgesel. içerik
        türü: episode. yaş sınırı: 7+.
  - source_sentence: 'query: aksiyon/macera filmi izlemek istiyorum'
    sentences:
      - >-
        passage: vanilya kokusu 1. bölüm - sonbahar sofrası (2024) nur anaç
        evinde misafirlerine özel yemekler yapmaya devam ediyor nur bu bölüm
        sonbahar ruhunu evine taşıyarak arkadaşları için çok özel bir sofra
        hazırlıyor "sonbahar sofrası"nda ise pırasalı bal kabağı çorbası kuru
        erikli tavuk marbella ve zerdeçallı havuçlu pirinç pilavı var… tür:
        eğlence&yaşam. içerik türü: episode. yaş sınırı: genel i̇zleyici.
      - >-
        passage: onu bana getirin (2024) şiddetli bir soygundan sadece bir hafta
        sonra genç adamdan, yalnızca "yolcu" olarak bilinen genç ve hiçbir
        şeyden haberi olmayan yeni bir mürettebat üyesini alması istendiğinde
        vicdanı sınanır. yolcunun bilmediği şey doğrudan bir pusuya
        sürüklendiğidir. tür: aksiyon/macera. oyuncular: barry pepper,sam
        neill,rachel griffiths,liam mcintyre,luke sparke,jamie costa. içerik
        türü: movie. yaş sınırı: 13+.
      - >-
        passage: konuşan tarih konuşan tarih : sur-u sultani (2021) sanat
        tarihçisi feride bozcu i̇stanbul arkeoloji müzeleri müdürü rahmi asal
        ile buluşuyor ve suru sultani sınırları içerisinde kalan sarayburnu'nda
        yapılan kazı projelendirilme ve onarım çalışmaları ilk kez izleyiciyle
        buluşuyor tür: belgesel. içerik türü: episode. yaş sınırı: genel
        i̇zleyici.
  - source_sentence: >-
      query: osmanlının amerikası 3. bölüm dizisinin bu bölümünde belgesel
      ögeleri öne çıkıyor mu
    sentences:
      - >-
        passage: kabe i̇mamları ile mukabele 27. bölüm (2016) kabe imamlarının
        sesinden benzersiz bir mukabele… tür: eğlence&yaşam. içerik türü:
        episode. yaş sınırı: genel i̇zleyici.
      - >-
        passage: digley & dazey evet, evet! arkadaşlarına yardım et (2022)
        digley ve dazey şehirdeki arkadaşlarına yardım etmeye hazır siz de
        arkadaşlarınıza yardım etmeye hazır olun tür: çocuk. içerik türü:
        episode. yaş sınırı: genel i̇zleyici.
      - >-
        passage: osmanlının amerikası 3. bölüm (2023) belgesel amerikan
        toplumuna ekonomisine ve siyasetine 1800lerin sonlarında ve 1900lerin
        başlarında katkıda bulunmaya başlayan osmanlı halkının insan
        hikayelerini anlatıyor tür: belgesel. içerik türü: episode. yaş sınırı:
        7+.
  - source_sentence: 'query: yabancı dizi,drama temalı özel bölümleri listele'
    sentences:
      - >-
        passage: morphle nurs morphle nurs - s1 (2022) morphle'ın değişen
        güçleri ve mila'nın her gün sınırsız hayal gücüyle en heyecan verici
        oyun randevusunuzu kaçırmayın tür: çocuk. içerik türü: season. yaş
        sınırı: genel i̇zleyici.
      - >-
        passage: anlat hocam 26. bölüm (2022) koray şerbetçinin anlatımıyla hiç
        duymadığınız tarihi ayrıntılar napolyon'u akka önlerinde mağlup eden
        osmanlı kumandanından savaşlarda biyolojik silah olarak kullanılan
        mikroplara savaş gemisi almak için yapılan milli seferberliğe tarihin
        pek duymadığınız ayrıntıları anlatılıyor tür: belgesel. içerik türü:
        episode. yaş sınırı: genel i̇zleyici.
      - >-
        passage: marry kills people - s1 2. stix nehri (2016) mary, joel'in
        kimliğiyle ilgili gerçeği öğrendiğinde, polis tarafından yakalanmaktan
        kaçınmak için hemen bir plan yapar. tür: yabancı dizi,drama. oyuncular:
        caroline dhavernas,richard short,jay ryan. içerik türü: episode. yaş
        sınırı: 18+.
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("zafonair/e5-turkish-base")
# Run inference
sentences = [
    'query: yabancı dizi,drama temalı özel bölümleri listele',
    "passage: marry kills people - s1 2. stix nehri (2016) mary, joel'in kimliğiyle ilgili gerçeği öğrendiğinde, polis tarafından yakalanmaktan kaçınmak için hemen bir plan yapar. tür: yabancı dizi,drama. oyuncular: caroline dhavernas,richard short,jay ryan. içerik türü: episode. yaş sınırı: 18+.",
    "passage: morphle nurs morphle nurs - s1 (2022) morphle'ın değişen güçleri ve mila'nın her gün sınırsız hayal gücüyle en heyecan verici oyun randevusunuzu kaçırmayın tür: çocuk. içerik türü: season. yaş sınırı: genel i̇zleyici.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.5846, -0.2100],
#         [ 0.5846,  1.0000, -0.1384],
#         [-0.2100, -0.1384,  1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 47,232 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 10 tokens
    • mean: 20.69 tokens
    • max: 80 tokens
    • min: 34 tokens
    • mean: 82.37 tokens
    • max: 159 tokens
  • Samples:
    sentence_0 sentence_1
    query: craigin krallığı 11. bölüm dizisinin 2018 tarihli bölümü hakkında bilgi passage: craigin krallığı 11. bölüm (2018) craig'in krallığına hoş geldiniz burada istediğiniz oyunu oynayabilir ve istediğiniz kişi olabilirsiniz craig'in krallığı'nda maceraya siz de katılın tür: çocuk. içerik türü: episode. yaş sınırı: 7+.
    query: şefin akşam menüsü 3. bölüm dizisinin bu bölümünde yaşam ögeleri öne çıkıyor mu passage: şefin akşam menüsü 3. bölüm (2020) mutfakta lezzetli bir oyuna hazır mısınız birbirinden seçkin şefler bu kez özel reçetelerini ve zaman kazandıran mutfak tüyolarını "şeflerden akşam menüsü"nde paylaşıyor tür: yaşam. içerik türü: episode. yaş sınırı: genel i̇zleyici.
    query: dizi temalı özel bölümleri listele passage: yeşilçam 10. bölüm (2021) annesinin cenazesini kaçıran semih naki'nin eline düşmüştür aynı durumdaki mine için de tek bir çıkar yol vardır niyazi ekrem ve diğerlerini durdurmak stüdyonun açılışı için düzenlenen davette büyük ateş filme önemli bir iş düşecektir tür: dizi. oyuncular: afra saraçoğlu, bora akkaş, çağatay ulusoy, selin kahraman, selin şekerci. içerik türü: episode. yaş sınırı: 13+.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 4
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
2.7027 500 0.8923

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 5.1.1
  • Transformers: 4.57.1
  • PyTorch: 2.9.0+cu126
  • Accelerate: 1.11.0
  • Datasets: 4.2.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}