metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:60000000
- loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-base
widget:
- source_sentence: Ayrıştırma
sentences:
- >-
, üzerinde yazı veya çizim yapılması amacıyla boş kâğıtların
birleştirilmesiyle meydana getirilen bir nesnedir. 1920 yılında
kâğıtları birleştirip, kartondan kapak ekleyen J.A. Birchall tarafından
icat edilmiştir. Pek çok insan günlük hayatta defter kullanır fakat
genelde defter kelimesi, bu nesneyi çeşitli derslerde not almak amacıyla
kullanan öğrencileri çağrıştırır.
- >-
Normalizasyon ( ), veritabanlarında çok fazla sütun ve satırdan oluşan
bir tabloyu tekrarlardan arındırmak için daha az satır ve sütun içeren
alt kümelerine ayrıştırma işlemidir.
- |-
, Çorum - Çorum ili merkez ilçesine bağlı köy
, Kelkit - Gümüşhane ili Kelkit ilçesine bağlı köy
, İzmit - Kocaeli ili İzmit ilçesine bağlı mahalle
, Haliliye - Şanlıurfa ili Haliliye ilçesine bağlı mahalle
- source_sentence: Mondros (anlam ayrımı)
sentences:
- >-
, vajina mukozasının enflamasyonudur ve genelde aşağıdaki üç kategoriye
ayrılır:
Hormonal vajinit doğum sonrası veya menopoz sonrası kadınlarda görülen atrofik vajiniti de kapsar. Vajina duvarlarının ince ve kuru olmasından kaynaklanır. Bazen ergenlik öncesi genç kızlarda da olabilir. Kaşınma, yanma ve acı olabilir. Vajinal dokunun incelmesi enfeksiyonlara yol açabilir.
İrritan vajinit alerji yapan veya tahriş eden maddelerden kaynaklanır. Alerji nedeni prezervatif, spermatisit, sabun, parfüm, vajinal duş ve meni, ilaçlar nedeniyle olabilir. Sürtünme, kumaşlar, tampon veya kremler de tahrişe neden olabilir. Bunların neden olduğu enflamasyon vajinal akıntıya neden olabilir.
Enfeksiyöz vajinit üreme yaşında kadınlardaki vajinitlerin %90'ını oluşturur. Bakteriyel enfeksiyon vajinitlerin en sık nedenidir. Genelde Candida albicans (bir mantar), Trichomonas vaginalis (bir protozoa) veya Gardnerella (bir bakteri) tarafından meydana gelir. Daha ender enfeksiyonlar bel soğukluğu, klamidya, mikoplazma, herpes, kampilobakter ve bazı parazitlerdir.
Aerobik vajinit
- >-
, Süleyman Çelebi'nin Mevlid-i Şerif'ine de alınan Grijgal palangasını
saran Zigetvar kumandanı Kıraçin'in 1000 askerine karşı Kuru Kadının 114
kişiyle galibiyetinde şehit olan Veli ve Abdal olduğuna inanılan Deli
Mehmet'in başını vermemesi üzerine Kuru kadı tarafından yazılan bahri
(bölümü).
- Mondros, Ege Denizi'nde Limni adasında bir yerleşim.
- source_sentence: İsabalı, Pamukova
sentences:
- İsabalı, Sakarya ilinin Pamukova ilçesine bağlı bir mahalledir.
- Şenyurt, Erzurum ilinin Yakutiye ilçesine bağlı bir mahalledir.
- Kocapınar, Bursa ilinin Harmancık ilçesine bağlı bir mahalledir.
- source_sentence: Trol (ağ)
sentences:
- >-
, 1917'de Konya'da açılan ve hâlen bu adla faaliyetini sürdüren
fotoğrafhanedir.
- >-
(d. 8 Şubat 1928, Lecce – ö. 25 Ekim 1996, Pisa) İtalyan matematikçi.
20. yüzyılın en büyük matematikçilerinden biriydi.
- >-
Trol ağları, yelkenli gemilerden bu yana kullanılan av araçlarıdır. İlk
tipleri Danimarka ığrıpları ve kirişli trollerdir. Daha sonra iki gemi
ile çekilen troller ve en son olarak kapılı troller geliştirilmiştir.
Günümüzde kullanılan trolleri Kapılı (tek gemi ile çekilen) troller ve
Kapısız (iki gemi ile çekilen) troller olarak iki gruba ayırabiliriz.
Trol gemileriyle balık avlamaya ise "Trollemek" ismi verilir.
- source_sentence: Málaga CF
sentences:
- >-
(Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak
(basil) şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob,
hareketsiz ve sporla çoğalan bir bakteri cinsidir. Kapsül yapısının
poli-D-Glutamik asit olması bacillus antracis'i diğer kapsüllü
bakterilerden ayırır.
- ', biyolojik sınıflandırmada basit hayvanları kapsayan bir taksondur.'
- >-
Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan
Málaga kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan
kulüp İspanya 2. Liginde mücadele etmektedir. Maçlarını 30.044 kişilik
La Rosaleda Stadyumu'nda oynamaktadır. Granada CF futbol takımıyla
oynadığı maçlar, Doğu Endülüs Derbisi (Derbi Andaluz, Derbi Oriental)
olarak geçmektedir.
datasets:
- selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset
pipeline_tag: sentence-similarity
library_name: sentence-transformers
SentenceTransformer based on intfloat/multilingual-e5-base
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the turkish_weakly_supervised_contrastive_learning_dataset dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/multilingual-e5-base_contrastive_loss_training_with_large_data_v2")
# Run inference
sentences = [
'Málaga CF',
"Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan Málaga kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan kulüp İspanya 2. Liginde mücadele etmektedir. Maçlarını 30.044 kişilik La Rosaleda Stadyumu'nda oynamaktadır. Granada CF futbol takımıyla oynadığı maçlar, Doğu Endülüs Derbisi (Derbi Andaluz, Derbi Oriental) olarak geçmektedir.",
"(Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak (basil) şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob, hareketsiz ve sporla çoğalan bir bakteri cinsidir. Kapsül yapısının poli-D-Glutamik asit olması bacillus antracis'i diğer kapsüllü bakterilerden ayırır.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
turkish_weakly_supervised_contrastive_learning_dataset
- Dataset: turkish_weakly_supervised_contrastive_learning_dataset at bf99eda
- Size: 60,000,000 training samples
- Columns:
anchorandpositive - Approximate statistics based on the first 1000 samples:
anchor positive type string string details - min: 3 tokens
- mean: 5.32 tokens
- max: 16 tokens
- min: 11 tokens
- mean: 81.97 tokens
- max: 512 tokens
- Samples:
anchor positive Cengiz Han(doğum adıyla Temuçin, – 18 Ağustos 1227), Moğol İmparatorluğu'nun kurucusu ve ilk Kağanı olan Moğol komutan ve hükümdardır. Hükümdarlığı döneminde gerçekleştirdiği hiçbir savaşı kaybetmeyen , dünya tarihinin en büyük askeri liderlerinden birisi olarak kabul edilmektedir. 13. yüzyılın başında Orta Asya'daki tüm göçebe bozkır kavimlerini birleştirip bir ulus hâline getirerek Moğol siyasi kimliği çatısı altında toplamıştır. , hükümdarlığı döneminde, 1206-1227 arasında, Kuzey Çin'deki Batı Xia ve Jin Hanedanı; Türkistan'daki Kara Hıtay, Maveraünnehir; Harezm, Horasan ve İran'daki Harezmşahlar, Kafkasya'daki Gürcüler, Deşt-i Kıpçak'taki Rus Knezlikleri, Kıpçaklar ile İdil Bulgarları üzerine seferler yaptı ve imparatorluğu döneminde gerçekleştirdiği hiçbir savaşı kaybetmedi. Bunların sonucunda Pasifik Okyanusu'ndan Hazar Denizi'ne ve Karadeniz'in kuzeyine kadar uzanan bir imparatorluk kurdu.Mustafa SuphiMehmed Mustafa Subhi (), kısaca , veya bazı kaynaklarda kullanıldığı haliyle Osmanlıca yazıma göre Mustafa Subhi (4 Ağustos 1882 veya 4 Mayıs 1883 - 28 Ocak 1921), Türk komünist ve Türkiye Komünist Partisinin ilk Merkez Komitesi Başkanı.Linux(telaffuz: Lin-uks); çekirdeğine dayalı, açık kaynak kodlu, Unix benzeri bir işletim sistemi ailesidir. GNU Genel Kamu Lisansı versiyon 2 ile sunulan ve Vakfı çatısı altında geliştirilen bir özgür yazılım projesidir. ismi ilk geliştiricisi olan Linus Torvalds tarafından 1991 yılında verilmiştir. Günümüzde süper bilgisayarlarda, akıllı cihazların ve internet altyapısında kullanılan cihazların işletim sistemlerinde yaygın olarak kullanılmaktadır. Bunlardan en popüler olanı Google tarafından geliştirilen Android işletim sistemidir. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
turkish_weakly_supervised_contrastive_learning_dataset
- Dataset: turkish_weakly_supervised_contrastive_learning_dataset at bf99eda
- Size: 957,344 evaluation samples
- Columns:
sentence1,sentence2, andlabel - Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 3 tokens
- mean: 6.98 tokens
- max: 17 tokens
- min: 10 tokens
- mean: 52.71 tokens
- max: 512 tokens
- 1: 100.00%
- Samples:
sentence1 sentence2 label Karl Marx(; 5 Mayıs 1818, Trier – 14 Mart 1883, Londra), 19. yüzyılda yaşamış Alman filozof, politik ekonomist ve bilimsel sosyalizmin kurucusu. Bir müddet gazetecilik de yapan Marx, iktisadi ve beşerî konularda eleştirel fikirler ve tespitler ortaya koymuştur.1S. Murat Demiral1966 İstanbul doğumlu Türk müzisyen. 1976 yılında İstanbul devlet konservatuvarında Ziya Polat ile trombona başladı 1977 yılında İstanbul Belediye konservatuvarına geçtı burada 1 yıl Mahmut Doğuduyal ile çalıştı 1978 yılında tekrar Ziya Polat ile çalışmaya başladı. 1980 yılında İstanbul Devlet Opera ve Balesi Orkestrası'nın sınavını kazandı.1Atılım (gazete)Atılım, tarihsel Türkiye Komünist Partisinin (TKP) 1 Ocak 1974 tarihinde yayımlamaya başladığı Merkez Komitesi yayın organı. 15 Mart 1984 tarihine kadar aylık, bu tarih itibarıyla ise on beş günlük olarak çıktı.1 - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 5e-06num_train_epochs: 1lr_scheduler_type: cosine_with_restartswarmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-06weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: cosine_with_restartslr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional
Framework Versions
- Python: 3.10.6
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.7.0+cu126
- Accelerate: 1.6.0
- Datasets: 3.5.1
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}