---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:60000000
- loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-base
widget:
- source_sentence: Ayrıştırma
sentences:
- ', üzerinde yazı veya çizim yapılması amacıyla boş kâğıtların birleştirilmesiyle
meydana getirilen bir nesnedir. 1920 yılında kâğıtları birleştirip, kartondan
kapak ekleyen J.A. Birchall tarafından icat edilmiştir. Pek çok insan günlük hayatta
defter kullanır fakat genelde defter kelimesi, bu nesneyi çeşitli derslerde not
almak amacıyla kullanan öğrencileri çağrıştırır.'
- Normalizasyon ( ), veritabanlarında çok fazla sütun ve satırdan oluşan bir tabloyu
tekrarlardan arındırmak için daha az satır ve sütun içeren alt kümelerine ayrıştırma
işlemidir.
- ", Çorum - Çorum ili merkez ilçesine bağlı köy\n , Kelkit - Gümüşhane ili Kelkit\
\ ilçesine bağlı köy\n , İzmit - Kocaeli ili İzmit ilçesine bağlı mahalle\n ,\
\ Haliliye - Şanlıurfa ili Haliliye ilçesine bağlı mahalle"
- source_sentence: Mondros (anlam ayrımı)
sentences:
- ", vajina mukozasının enflamasyonudur ve genelde aşağıdaki üç kategoriye ayrılır:\n\
\ Hormonal vajinit doğum sonrası veya menopoz sonrası kadınlarda görülen atrofik\
\ vajiniti de kapsar. Vajina duvarlarının ince ve kuru olmasından kaynaklanır.\
\ Bazen ergenlik öncesi genç kızlarda da olabilir. Kaşınma, yanma ve acı olabilir.\
\ Vajinal dokunun incelmesi enfeksiyonlara yol açabilir.\n İrritan vajinit alerji\
\ yapan veya tahriş eden maddelerden kaynaklanır. Alerji nedeni prezervatif, spermatisit,\
\ sabun, parfüm, vajinal duş ve meni, ilaçlar nedeniyle olabilir. Sürtünme, kumaşlar,\
\ tampon veya kremler de tahrişe neden olabilir. Bunların neden olduğu enflamasyon\
\ vajinal akıntıya neden olabilir.\n Enfeksiyöz vajinit üreme yaşında kadınlardaki\
\ vajinitlerin %90'ını oluşturur. Bakteriyel enfeksiyon vajinitlerin en sık nedenidir.\
\ Genelde Candida albicans (bir mantar), Trichomonas vaginalis (bir protozoa)\
\ veya Gardnerella (bir bakteri) tarafından meydana gelir. Daha ender enfeksiyonlar\
\ bel soğukluğu, klamidya, mikoplazma, herpes, kampilobakter ve bazı parazitlerdir.\n\
\ Aerobik vajinit"
- ', Süleyman Çelebi''nin Mevlid-i Şerif''ine de alınan Grijgal palangasını saran
Zigetvar kumandanı Kıraçin''in 1000 askerine karşı Kuru Kadının 114 kişiyle galibiyetinde
şehit olan Veli ve Abdal olduğuna inanılan Deli Mehmet''in başını vermemesi üzerine
Kuru kadı tarafından yazılan bahri (bölümü).'
- Mondros, Ege Denizi'nde Limni adasında bir yerleşim.
- source_sentence: İsabalı, Pamukova
sentences:
- İsabalı, Sakarya ilinin Pamukova ilçesine bağlı bir mahalledir.
- Şenyurt, Erzurum ilinin Yakutiye ilçesine bağlı bir mahalledir.
- Kocapınar, Bursa ilinin Harmancık ilçesine bağlı bir mahalledir.
- source_sentence: Trol (ağ)
sentences:
- ', 1917''de Konya''da açılan ve hâlen bu adla faaliyetini sürdüren fotoğrafhanedir.'
- (d. 8 Şubat 1928, Lecce – ö. 25 Ekim 1996, Pisa) İtalyan matematikçi. 20. yüzyılın
en büyük matematikçilerinden biriydi.
- Trol ağları, yelkenli gemilerden bu yana kullanılan av araçlarıdır. İlk tipleri
Danimarka ığrıpları ve kirişli trollerdir. Daha sonra iki gemi ile çekilen troller
ve en son olarak kapılı troller geliştirilmiştir. Günümüzde kullanılan trolleri
Kapılı (tek gemi ile çekilen) troller ve Kapısız (iki gemi ile çekilen) troller
olarak iki gruba ayırabiliriz. Trol gemileriyle balık avlamaya ise "Trollemek"
ismi verilir.
- source_sentence: Málaga CF
sentences:
- (Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak (basil)
şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob, hareketsiz ve sporla
çoğalan bir bakteri cinsidir. Kapsül yapısının poli-D-Glutamik asit olması bacillus
antracis'i diğer kapsüllü bakterilerden ayırır.
- ', biyolojik sınıflandırmada basit hayvanları kapsayan bir taksondur.'
- Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan Málaga
kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan kulüp İspanya 2.
Liginde mücadele etmektedir. Maçlarını 30.044 kişilik La Rosaleda Stadyumu'nda
oynamaktadır. Granada CF futbol takımıyla oynadığı maçlar, Doğu Endülüs Derbisi
(Derbi Andaluz, Derbi Oriental) olarak geçmektedir.
datasets:
- selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset
pipeline_tag: sentence-similarity
library_name: sentence-transformers
---
# SentenceTransformer based on intfloat/multilingual-e5-base
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
- [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset)
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("selmanbaysan/multilingual-e5-base_contrastive_loss_training_with_large_data_v2")
# Run inference
sentences = [
'Málaga CF',
"Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan Málaga kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan kulüp İspanya 2. Liginde mücadele etmektedir. Maçlarını 30.044 kişilik La Rosaleda Stadyumu'nda oynamaktadır. Granada CF futbol takımıyla oynadığı maçlar, Doğu Endülüs Derbisi (Derbi Andaluz, Derbi Oriental) olarak geçmektedir.",
"(Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak (basil) şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob, hareketsiz ve sporla çoğalan bir bakteri cinsidir. Kapsül yapısının poli-D-Glutamik asit olması bacillus antracis'i diğer kapsüllü bakterilerden ayırır.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Training Details
### Training Dataset
#### turkish_weakly_supervised_contrastive_learning_dataset
* Dataset: [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) at [bf99eda](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset/tree/bf99eda89b8fa45f7f5c82b490fd875e93ffd5fe)
* Size: 60,000,000 training samples
* Columns: anchor and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
| type | string | string |
| details |
Cengiz Han | (doğum adıyla Temuçin, – 18 Ağustos 1227), Moğol İmparatorluğu'nun kurucusu ve ilk Kağanı olan Moğol komutan ve hükümdardır. Hükümdarlığı döneminde gerçekleştirdiği hiçbir savaşı kaybetmeyen , dünya tarihinin en büyük askeri liderlerinden birisi olarak kabul edilmektedir. 13. yüzyılın başında Orta Asya'daki tüm göçebe bozkır kavimlerini birleştirip bir ulus hâline getirerek Moğol siyasi kimliği çatısı altında toplamıştır. , hükümdarlığı döneminde, 1206-1227 arasında, Kuzey Çin'deki Batı Xia ve Jin Hanedanı; Türkistan'daki Kara Hıtay, Maveraünnehir; Harezm, Horasan ve İran'daki Harezmşahlar, Kafkasya'daki Gürcüler, Deşt-i Kıpçak'taki Rus Knezlikleri, Kıpçaklar ile İdil Bulgarları üzerine seferler yaptı ve imparatorluğu döneminde gerçekleştirdiği hiçbir savaşı kaybetmedi. Bunların sonucunda Pasifik Okyanusu'ndan Hazar Denizi'ne ve Karadeniz'in kuzeyine kadar uzanan bir imparatorluk kurdu. |
| Mustafa Suphi | Mehmed Mustafa Subhi (), kısaca , veya bazı kaynaklarda kullanıldığı haliyle Osmanlıca yazıma göre Mustafa Subhi (4 Ağustos 1882 veya 4 Mayıs 1883 - 28 Ocak 1921), Türk komünist ve Türkiye Komünist Partisinin ilk Merkez Komitesi Başkanı. |
| Linux | (telaffuz: Lin-uks); çekirdeğine dayalı, açık kaynak kodlu, Unix benzeri bir işletim sistemi ailesidir. GNU Genel Kamu Lisansı versiyon 2 ile sunulan ve Vakfı çatısı altında geliştirilen bir özgür yazılım projesidir. ismi ilk geliştiricisi olan Linus Torvalds tarafından 1991 yılında verilmiştir. Günümüzde süper bilgisayarlarda, akıllı cihazların ve internet altyapısında kullanılan cihazların işletim sistemlerinde yaygın olarak kullanılmaktadır. Bunlardan en popüler olanı Google tarafından geliştirilen Android işletim sistemidir. |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Evaluation Dataset
#### turkish_weakly_supervised_contrastive_learning_dataset
* Dataset: [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) at [bf99eda](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset/tree/bf99eda89b8fa45f7f5c82b490fd875e93ffd5fe)
* Size: 957,344 evaluation samples
* Columns: sentence1, sentence2, and label
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | label |
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------|
| type | string | string | int |
| details | Karl Marx | (; 5 Mayıs 1818, Trier – 14 Mart 1883, Londra), 19. yüzyılda yaşamış Alman filozof, politik ekonomist ve bilimsel sosyalizmin kurucusu. Bir müddet gazetecilik de yapan Marx, iktisadi ve beşerî konularda eleştirel fikirler ve tespitler ortaya koymuştur. | 1 |
| S. Murat Demiral | 1966 İstanbul doğumlu Türk müzisyen. 1976 yılında İstanbul devlet konservatuvarında Ziya Polat ile trombona başladı 1977 yılında İstanbul Belediye konservatuvarına geçtı burada 1 yıl Mahmut Doğuduyal ile çalıştı 1978 yılında tekrar Ziya Polat ile çalışmaya başladı. 1980 yılında İstanbul Devlet Opera ve Balesi Orkestrası'nın sınavını kazandı. | 1 |
| Atılım (gazete) | Atılım, tarihsel Türkiye Komünist Partisinin (TKP) 1 Ocak 1974 tarihinde yayımlamaya başladığı Merkez Komitesi yayın organı. 15 Mart 1984 tarihine kadar aylık, bu tarih itibarıyla ise on beş günlük olarak çıktı. | 1 |
* Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 64
- `per_device_eval_batch_size`: 64
- `learning_rate`: 5e-06
- `num_train_epochs`: 1
- `lr_scheduler_type`: cosine_with_restarts
- `warmup_ratio`: 0.1
- `fp16`: True
- `batch_sampler`: no_duplicates
#### All Hyperparameters