SMARTICT commited on
Commit
e558100
·
verified ·
1 Parent(s): 401003f

/content/drive/MyDrive/multilingual-e5-large-wiki-tr-rag

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,708 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:5399
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-large
10
+ widget:
11
+ - source_sentence: 'passage: Toksiklik, toksisite, zehirlilik veya ağılılık bir kimyasal
12
+ maddenin veya belirli bir madde karışımının bir organizmaya zarar verme derecesidir.
13
+ Toksisite, bir hayvan, bakteri veya bitki gibi tüm organizma üzerindeki etkinin
14
+ yanı sıra, o organizmanın bir hücresi (sitotoksisite) veya karaciğer gibi bir
15
+ organı (hepatotoksisite) gibi bir alt yapısı üzerindeki etkiyi ifade edebilir.
16
+ Yan anlam olarak, kelime, aile birimi veya genel olarak toplum gibi daha büyük
17
+ ve daha karmaşık gruplar üzerindeki toksik etkileri tanımlamak için mecazi olarak
18
+ kullanılabilir.
19
+
20
+ Toksikolojinin temel bir konsepti, bir toksik maddenin etkilerinin doza bağımlı
21
+ olmasıdır; su bile çok yüksek dozda alındığında su zehirlenmesine neden olabilir,
22
+ oysa yılan zehiri gibi çok zehirli bir madde için bile altında hiçbir toksik etkinin
23
+ olmadığı bir doz vardır. Toksisite türe özgüdür ve türler arası analizi sorunlu
24
+ hale getirir. Daha yeni paradigmalar ve metrikler, hayvan testlerini atlamak için
25
+ gelişiyor.
26
+
27
+ Yuvarlama, bir sayıyı daha kısa ve basit olan en yakın sayıyla değiştirmektir.
28
+ 23,4476 doları $23,45 dolar ile, 312/937 kesrini 1/3 ile veya π sayısını 3 ile
29
+ değiştirmek örnek olarak verilebilir. Yuvarlama günlük hayatta daha doğru değer
30
+ elde etmektense işlemleri hızlandırmak için kullanılır. Eğer sayı buçukluysa hem
31
+ daha büyük sayıya hem de daha küçük sayıya yuvarlanabilir. Örneğin 1,5 sayısı
32
+ hem 1''e hem de 2''ye yuvarlanabilmektedir. Bu yuvarlamalar basamak sayısına göre
33
+ değişiklik göstermektedir. Bunlar birler, onlar, yüzler... olarak devam eder.'
34
+ sentences:
35
+ - 'query: Kolhoz sisteminde üyelerin gelirleri nasıl belirlenirdi ve bu sistemin
36
+ avantajları ve dezavantajları nelerdi?'
37
+ - 'query: Toksisite neden türe özgüdür ve bu durum neden türler arası analizleri
38
+ zorlaştırır?'
39
+ - 'query: DICOM standardının anlaşılması ve uygulanması neden uzmanlık gerektiriyor?'
40
+ - source_sentence: 'passage: Limnoloji, doğal ve yapay göller ile göletlerin fiziksel
41
+ ve kimyasal niteliklerini, ekolojisini, çevreyle etkileşimlerini, içlerindeki
42
+ su ve enerji akımlarını ele alır.
43
+
44
+ Limnoloji, iç su ekosistemlerinin incelenmesidir. Limnoloji çalışması, biyolojik,
45
+ kimyasal, fiziksel ve jeolojik özelliklerin ve iç suların (tatlı ve tuzlu, doğal
46
+ veya insan yapımı) işlevlerini içermektedir. Buna göller, rezervuarlar, göletler,
47
+ nehirler, su kaynakları, akarsular, sulak alanlar ve yeraltı suları dahildir.
48
+ Son zamanlarda, küresel iç suları Dünya Sisteminin bir parçası olarak anlama ihtiyacı,
49
+ küresel limnoloji adı verilen bir alt disiplin yaratmıştır.
50
+
51
+ Ksenoglosi (xenoglossy) kişinin bilmediği bir yabancı dilde aniden konuşabilme,
52
+ yazabilme, okuyup anlayabilme yeteneğinin belirmesi paranormal fenomenine Metapsişik''te
53
+ verilen addır.
54
+
55
+ Terim 1913’te Nobel Fizyoloji-Tıp Ödülü’nü almış Fransız Fizyolog Charles Richet
56
+ tarafından, Eski Yunancada “yabancı” anlamına gelen “xenos” ile “dil” anlamına
57
+ gelen “glossa” sözcüklerinden türetilmiştir.
58
+
59
+ Metapsişikçiler ksenoglosi fenomeninin iki durumda oluştuğunu bildirmektedirler:
60
+
61
+
62
+ 1- Ekminezi deneyleri sırasında veya birtakım koşulların bir araya gelmesiyle
63
+ oluşan “serbest hatırlama”lar (geçmiş yaşamlardaki olayları anımsama) sırasında.
64
+ Bu gruba giren ksenoglosi fenomeninde kişinin önceki reenkarnasyonları sırasında
65
+ öğrenmiş olduğu diller söz konusudur.
66
+
67
+ 2- Trans halindeki bir medyumun bedensiz bir ruhla irtibatı sırasında. Bu gruba
68
+ giren ksenoglosi fenomeninde medyumun kullandığı yabancı dil irtibatta olduğu
69
+ bedensiz varlığın bildiği bir dildir. Bu olayın söz konusu olduğu medyumluğa poliglot
70
+ medyumluk denir. Metapsişikçiler bazı ruhsal irtibat seanslarında medyumun beş
71
+ yabancı dilde konuşabildiğine tanık olduklarını ileri sürmüşlerdir.
72
+
73
+ Ksenoglosi fenomeninde kişinin kullandığı dil, kimsenin bilmediği, garip bir dil
74
+ olduğunda fenomen “glosolali” (glossolalia) adını alır. Metapsişikçiler kimi glosolali
75
+ fenomenlerinde yapılan kayıtların sonradan incelenmesi sonucunda, glosolali fenomenlerindeki
76
+ yabancı dillerin çok eski uygarlıklarda kullanılmış ölü diller olduklarını saptadıklarını
77
+ açıklamışlardır. Spiritüalistlere göre ksenoglosi fenomeni gerek reenkarnasyonun
78
+ gerekse bedensiz ruhlarla irtibatın gerçekliğinin en önemli kanıtlarından birini
79
+ oluşturur.
80
+
81
+ Bijiktig-Haya - Tıva Cumhuriyeti Barıın-Hemçik b��lgesi Kızılmajalık''tan ırak
82
+ olmayan eski Türk yazılarının görüldüğü kayalık dağ.
83
+
84
+ Buradaki yazıların sayısı 300''dan aşkındır. Çok eski zamanlardan kalan bu kalıntıların
85
+ ve eserlerin çok sayıda taşların üzerinde çeşitli resimler yer almaktadır. Bunlar
86
+ arasında en önemlisi ise 70 cm kadar büyüklükteki bir kuş resmidir. Bu kayalarda
87
+ bulutlar arasında Budda''nın figürü bile bulunmaktadır. 1358 yılında Budda''nın
88
+ çizimi yapıldığı tahmin edilmektedir. Ayrıca yöreye yakın bir yerde de Cengiz
89
+ Hanın hazinesinin gömülü olduğuna inanılmaktadır. Burada Cengiz Han''ı figüre
90
+ etmiş olan bir de balbaltaş yer alır.
91
+
92
+ Voice Mate; LG tarafından akıllı telefonlarda kullanılmak üzere geliştirilen ve
93
+ seçili LG telefonlarda bütünleşik olarak gelen bir sanal asistandır.
94
+
95
+ Voice Mate sırasıyla Quick Voice ve Q Voice olarak adlandırılmıştır. Doğal dil
96
+ işleme teknolojisini kullanarak kullanıcının sorularına cevap verebilmekte, çeşitli
97
+ internet servislerinden bilgi getirebilmekte, önerilerde bulunabilmekte, takvim
98
+ yönetebilme gibi birçok işleve sahiptir. Voice Mate, Maluuba temel alınarak geliştirildiğinden
99
+ Maluuba tarafından yapılabilen birçok işlevi gerçekleştirebilmektedir.'
100
+ sentences:
101
+ - 'query: Sanal okulların popülerleşmesinin sebepleri neler olabilir?'
102
+ - 'query: Dirimselcilik görüşü, zaman içinde nasıl evrimleşti ve günümüzde hangi
103
+ izleri hala görülebilir?'
104
+ - 'query: Bijiktig-Haya kayalıklarında bulunan en eski yazıların tarihi hakkında
105
+ bilgi var mı?'
106
+ - source_sentence: 'passage: Voice Mate; LG tarafından akıllı telefonlarda kullanılmak
107
+ üzere geliştirilen ve seçili LG telefonlarda bütünleşik olarak gelen bir sanal
108
+ asistandır.
109
+
110
+ Voice Mate sırasıyla Quick Voice ve Q Voice olarak adlandırılmıştır. Doğal dil
111
+ işleme teknolojisini kullanarak kullanıcının sorularına cevap verebilmekte, çeşitli
112
+ internet servislerinden bilgi getirebilmekte, önerilerde bulunabilmekte, takvim
113
+ yönetebilme gibi birçok işleve sahiptir. Voice Mate, Maluuba temel alınarak geliştirildiğinden
114
+ Maluuba tarafından yapılabilen birçok işlevi gerçekleştirebilmektedir.
115
+
116
+ 6G, 5G''nin ardılı olarak hücresel veri ağlarını destekleyen altıncı nesil kablosuz
117
+ iletişim teknolojileri olacak. Teknoloji ~ 95 Gb / sn''lik hızlarda büyük olasılıkla
118
+ önemli ölçüde daha hızlı olacak. Birkaç önemli şirket (yani Nokia, Samsung ve
119
+ LG) de bunu yaptı. Güney Kore ve Japonya''nın da ilgisinin olduğu bildirildi.
120
+ 6G muhtemelen 2030''larda ticari olarak satışa sunulacak.
121
+
122
+ Öncelikle haberleşme teknolojisinde Wi-Fi yerine Li-Fi teknolojisini, yani yüksek
123
+ enerjili LED’lerle görünür ışıkla haberleşme teknolojisi kullanılıyor. Bu teknoloji
124
+ sadece yüksek veri hızı ve veri merkezi sağlamıyor, aynı zamanda tam yapay zeka
125
+ desteği ile akıllı iletişim ortamı sunuyor. Bu teknokoji ile gelecekte üç boyutlu
126
+ görüntü, koklama, dokunma ve tat alma duyuları da iletilebilecek, gerçek zamanlı
127
+ uzaktan sağlık hizmeti verilebilecek, akıllı altyapılar geliştirilebilecek, otonom
128
+ araçlar ve siber-fiziksel sistemler oluşturulabilecektir.
129
+
130
+ Caz, ilk kez ABD''nin güney eyaletlerinde, 1900''lerin başında gelişmeye başlamış
131
+ bir Afro-Amerikan müzik türüdür. 19. yüzyılın sonlarında ve 20. yüzyılın başlarında
132
+ New Orleans, Louisiana''daki Afrikalı-Amerikalı topluluklarda ortaya çıktı. Caz
133
+ müziği, mavi notalar, senkop, swing, çoklu ritim, atışma ve doğaçlama tekniklerini
134
+ kullanır; Afrikalı-Amerikalı ve Batı müziği tekniklerinin harmanlanmasıdır. Bu
135
+ müziğin dünya ile tanışması ise 1917 yılında Dixieland Jazz Band''in ilk plaklarının
136
+ piyasaya çıkmasıyla olmuştur. 1920 ile 1930''larda popülerliğinin artmasıyla başta
137
+ ABD olmak üzere tüm dünya genelinde Caz Çağı yaşanmıştır. Caz yalnızca geçmişte
138
+ değil, bugün dahi çok sevilen ve ünü gün geçtikçe artan müzik türlerinden biridir.
139
+ 1920''lerin Caz Çağı''ndan bu yana, geleneksel müzik ve popüler müzikte önemli
140
+ bir müzikal ifade biçimi olarak kabul edilmiştir.
141
+
142
+ Caz müziği yirminci yüzyıl başlarında keşfedildiği topraklar olan ABD''den çıkıp
143
+ dünyaya yayılma sürecinde ve günümüze gelene kadar birçok alt türe (New Orleans,
144
+ Swing, Kansas, Çingene cazı, bebop, cool, avangart, serbest caz, Latin caz, soul,
145
+ füzyon, caz rock, smooth, caz funk, etno caz, asit caz) ayrılmış ve sayısız müzik
146
+ türü ve geleneğiyle etkileşime girmiştir.'
147
+ sentences:
148
+ - 'query: Kevlar''ın dayanıklılığı nasıl sağlanıyor?'
149
+ - 'query: Muspelheim''deki Ateş devlerinin lideri Surtr kimdir ve ne gibi özellikleri
150
+ vardır?'
151
+ - 'query: Caz müziğinin popülerleşmesinde Dixieland Jazz Band''in rolü nedir?'
152
+ - source_sentence: 'passage: Heer (Türkçe anlamı: Ordu), Mayıs 1935 yılında Alman
153
+ Silahlı Kuvvetleri''nin (Wehrmacht) yeniden inşası kanunuyla kurulmuş Nazi Almanyası''nın
154
+ kara kuvvetleri ve ana kuvvetidir. Başlangıçta 21 tümenden oluşmasına rağmen 1935-1945
155
+ yılları arasında yüzlerce tümenlik bir büyüklüğe ulaştı. II. Dünya Savaşı sırasında
156
+ yaklaşık 13 milyon asker görev yapıyordu. II. Dünya Savaşı''nın sonunda Mayıs
157
+ 1945''te Müttefikler''e teslim oldu, 1946 yılında ise resmi olarak kaldırıldı.
158
+
159
+ Adolf Hitler''in silahlanma programını açıkça ilan etmesinden yalnızca 17 ay sonra
160
+ Heer, hedeflediği 36 tümen hedefine ulaştı. 1937 sonbaharında iki kolordu daha
161
+ kuruldu. Mart 1938''de Anschluss''un ardından Avusturya Ordusu''nun beş tümeninin
162
+ dahil edilmesi ile dört kolordu daha kuruldu. Alman Ordusu, Adolf Hitler''in büyüme
163
+ döneminde, I. Dünya Savaşı sırasındaki gibi Kara (Heer) ve Hava (Luftwaffe) silahlı
164
+ kuvvetleri şeklinde birleştirilerek Wehrmacht adını aldı.
165
+
166
+ Kuşatma ve "imha savaşı" gibi operasyonel ve taktiksel yöntemlerle birleştiğinde
167
+ ortaya çıkan Blitzkrieg taktiği ile Alman ordusu, II. Dünya Savaşı''nın ilk iki
168
+ yılında hızlı zaferler kazandı.
169
+
170
+ Motorlu birlikler, savaşın ilk yıllarında dünya basınında çok dikkat çekti. Polonya
171
+ (Eylül 1939), Norveç, Danimarka (Nisan 1940) Belçika, Hollanda ve Fransa (Mayıs
172
+ 1940), Yugoslavya (Nisan 1941) ve Barbarossa Operasyonu ile Sovyetler Birliği''nin
173
+ istilasına (Haziran 1941) girişilmesinin ana nedeni olarak gösterildi. Bunun yanında
174
+ motorlu ve tank birlikleri Heer''in toplam kapasitesinin sadece % 20''sini oluşturuyordu.
175
+ Ordunun kamyon eksikliği (ve onları çalıştırmak için petrol), Müttefiklerin hava
176
+ gücünün Loire''in kuzeyinde bulunan Fransız demiryolu ağını harap eden Normandiya
177
+ istilası sırasında ve sonrasında piyade hareketine yönelik ciddi bir handikap
178
+ olarak ortaya çıktı. Panzer hareketleri de demiryoluna bağlıydı, çünkü bir tankın
179
+ sürülmesi en fazla 150 kilometre kadardı.
180
+
181
+ Entomologia Carniolica exhibens insecta Carnioliae indigena et distributa in ordines,
182
+ genera, species, varietates, 1763 yılında Viyana''da yayımlanan Giovanni Antonio
183
+ Scopoli tarafından kaleme alınmış, sınıflandırma bilimine ait bir eserdir. Yüzlerce
184
+ yeni tür tanımlanmıştır. Entomologia Carniolica aynı zamanda türlerin biyolojisi
185
+ üzerine gözlemler de içermekte olup, arı kraliçelerinin kovan dışında çiftleşmesine
186
+ dair ilk basılı kaydı barındırmaktadır.
187
+
188
+ Veri ihlali, hassas, korunan veya gizli verilerin yetkisiz bir kişi tarafından
189
+ kopyalandığı, iletildiği, görüntülendiği, çalındığı, değiştirildiği veya kullanıldığı
190
+ bir güvenlik ihlalidir.
191
+
192
+ Zoolojide megafauna (Antik Yunanca megas "büyük" + Yeni Latince fauna "hayvan") büyük
193
+ ya da dev hayvanlar için kullanılan bir terimdir. Büyüklüğü belirlemekte kullanılan
194
+ en yaygın sınırlar 45 kg ile 100 kg''dır. Bu sınırlamalar dahilinde çok büyük
195
+ olduğu düşünülmeyen ak kuyruklu geyik ve kızıl kanguru gibi türler ve hatta insan
196
+ da bulunur.
197
+
198
+ Uygulamada ise, akademik ve popüler makalelerde, genellikle insandan büyük olan
199
+ ve yalnızca evcil hayvan olarak bulunmayan hayvanları tanımlamak için kullanılır.
200
+ Terim özellikle Buzul Çağı megafaunası olarak kullanılır ve günümüzdeki karşılıklarından
201
+ çok daha büyük olan kara hayvanlarını tanımlar. Örneğin, Avrasya''nın kuzeyinde,
202
+ Amerika ve Avustralya kıtalarında yaşamış olan ve yaklaşık 10.000 ila 40.000 yıl
203
+ önce soyu tükenmiş mamutlar gibi. Yine yaygın olarak günümüzde yaşamakta olan
204
+ ve özellikle filler, zürafalar, su aygırları, gergedanlar ile iri sığırlar gibi
205
+ büyük vahşi hayvanlar için de kullanılır. Megafauna ayrıca türlerin trofik durumuna
206
+ göre de megaotçullar (ör. Kanada geyikleri), megaetçiller (ör. aslanlar) ve nadiren
207
+ de megahepçiller (ör. ayılar) kategorilere ayrılır.
208
+
209
+ Diğer yaygın kullanımları arasında suda yaşayan özellikle balinalar gibi dev türler
210
+ için; büyük antiloplar ve sığırlar gibi vahşi ya da evcil hayvanlar için; dinozorlar
211
+ ve diğer soyu tükenmiş dev sürüngeler için olan kullanımlar sayılabilir.
212
+
213
+ Terim aynı zamanda günümüzde yaşayan hayvanların büyüklüklerine göre çok daha
214
+ büyük olan soyu tükenmiş hayvanlar için de kullanılır. Örneğin, Karbonifer Dönemi''nin
215
+ 1 m''lik yusufçukları için kullanılır.'
216
+ sentences:
217
+ - 'query: Guacamole''nin yaygınlaşmasında İspanyolların rolü ne olmuştur?'
218
+ - 'query: Veri ihlali sadece dijital ortamda mı gerçekleşebilir?'
219
+ - 'query: Primum non nocere ilkesi hangi durumlarda sıklıkla kullanılır?'
220
+ - source_sentence: 'passage: Dehesa veya Portekiz''de montado, güney ve orta İspanya
221
+ ile güney Portekiz''de çok işlevli, tarımsal ormancılık sistemi ve kültürel peyzajdır.
222
+ Dehesalar özel veya ortak mülkiyet olabilir (genellikle belediyeye ait). Öncelikle
223
+ otlatma için kullanılan bu ormanlarda yabani av hayvanları, mantar, bal ve yakacak
224
+ odun gibi kereste dışı orman ürünleri de dahil olmak üzere çeşitli ürünler üretilir.
225
+ Ayrıca İspanyol dövüş boğasını ve İber domuzunun kaynağını yetiştirmek için de
226
+ kullanılırlar. Ağacın ana bileşeni meşedir, genellikle holm ve mantardır. Melojo
227
+ (Quercus pyrenaica) ve quejigo dahil olmak üzere diğer meşeler, coğrafi konuma
228
+ ve yüksekliğe bağlı olarak kullanılan tür olan dehesayı oluşturmak için kullanılabilir.
229
+ Dehesa, yalnızca çeşitli yiyecekler sağlamakla kalmayıp, aynı zamanda İspanyol
230
+ imparatorluk kartalı gibi nesli tükenmekte olan türler için de yaban hayatı yaşam
231
+ alanı sağlayan antropojenik bir sistemdir.
232
+
233
+ Uskumru (Scomber scombrus) bir deniz balığı. Aynı zamanda Uskumrugiller familyasına
234
+ adını vermiş olan, bu familyanın örnek balığıdır.
235
+
236
+ Vücut iğ şeklindedir. Sırtta aşağıya doğru inen açık veya koyu yeşilimsi-mavi,
237
+ üzeri lekeli bantlar vardır. Başta beyin görünmez, karın tarafı açık gümüşi renktedir.
238
+ Bütün yüzgeçler yumuşak ışınlı olup, gözler kolyoza göre daha ufaktır. Kolyozdan
239
+ kafada ve vücutta bulunan pulların tekdüze, sırt yüzgecindeki dikenleri daha çok
240
+ sayıda (11-13), pulları ve yanlarının altında koyu esmer lekeler ve hava kesesi
241
+ olmayışı ile ayrılır. 8 ila 11 yıl arasında yaşarlar.
242
+
243
+ Büyüklüğü ortalama 30–35 cm''dir, maksimum 50 cm olur. Ortalama ağırlığı 200-500
244
+ gram civarındadır. Kuzey Amerika sahilerinde, Kuzey Denizi, Akdeniz, Ege Denizi,
245
+ Marmara Denizi ve Karadeniz''de yaşar.
246
+
247
+ Besin değeri açısından da zengin olan uskumru balığı pek çok protein ve vitamin
248
+ içerir. İlk akla gelen uskumru Omega 3 açısından zengindir bilgisi olsa da uskumru
249
+ sadece Omega 3 açısından değil; A vitamini, C vitamini, B6 vitamini, B12 vitamini,
250
+ kalsiyum, demir ve magnezyum açısından da zengindir.
251
+
252
+ Manchester Okulu, serbest ticareti vurgulayan klasik iktisadi düşünce okullarından
253
+ birisidir.
254
+
255
+ Laissez Faire politikasını, serbest girişimi ve rekabeti ekonomik refah ve büyümenin
256
+ en iyi yolu olarak kabul etmişler, korumacılığa, kamu yardımlarına, zorunlu eğitim
257
+ ve benzeri önlemlere karşı çıkmışlar, tahıl ithali üzerindeki kısıtlamaların kaldırılmasını
258
+ savunmuşlardır.İngiltere''dedir.
259
+
260
+ Galibarda veya Fuşya rengi kırmızı ve mavi ışığın eşit oranlarda karıştırılması
261
+ ile elde edilir. Bu renk daha çok İngilizce isminin okunuşu olan "macenta" adıyla
262
+ anılır.
263
+
264
+ Galibarda rengi dört renkli (CMYK) baskıda kullanılan renklerden biridir.
265
+
266
+ Galibarda renginin hex değeri "#FF00FF", RGB değeri "255, 0, 255" ve CMYK değeri
267
+ "0, 100, 0, 0" dır.'
268
+ sentences:
269
+ - 'query: Turing makinesi sadece matematiksel hesaplar için mi kullanılır yoksa
270
+ başka alanlarda da uygulanabilir mi?'
271
+ - 'query: AGS-17 Plamya''nın 30×29 mm kovansız mühimmatı ne anlama geliyor?'
272
+ - 'query: Uskumru balığının diğer balık türlerinden ayıran en belirgin özellikler
273
+ nelerdir?'
274
+ pipeline_tag: sentence-similarity
275
+ library_name: sentence-transformers
276
+ metrics:
277
+ - cosine_accuracy@1
278
+ - cosine_accuracy@3
279
+ - cosine_accuracy@5
280
+ - cosine_accuracy@10
281
+ - cosine_precision@1
282
+ - cosine_precision@3
283
+ - cosine_precision@5
284
+ - cosine_precision@10
285
+ - cosine_recall@1
286
+ - cosine_recall@3
287
+ - cosine_recall@5
288
+ - cosine_recall@10
289
+ - cosine_ndcg@10
290
+ - cosine_mrr@10
291
+ - cosine_map@100
292
+ model-index:
293
+ - name: SentenceTransformer based on intfloat/multilingual-e5-large
294
+ results:
295
+ - task:
296
+ type: information-retrieval
297
+ name: Information Retrieval
298
+ dataset:
299
+ name: dim 512
300
+ type: dim_512
301
+ metrics:
302
+ - type: cosine_accuracy@1
303
+ value: 0.3754646840148699
304
+ name: Cosine Accuracy@1
305
+ - type: cosine_accuracy@3
306
+ value: 0.6672862453531598
307
+ name: Cosine Accuracy@3
308
+ - type: cosine_accuracy@5
309
+ value: 0.7230483271375465
310
+ name: Cosine Accuracy@5
311
+ - type: cosine_accuracy@10
312
+ value: 0.7490706319702602
313
+ name: Cosine Accuracy@10
314
+ - type: cosine_precision@1
315
+ value: 0.3754646840148699
316
+ name: Cosine Precision@1
317
+ - type: cosine_precision@3
318
+ value: 0.22242874845105326
319
+ name: Cosine Precision@3
320
+ - type: cosine_precision@5
321
+ value: 0.14460966542750925
322
+ name: Cosine Precision@5
323
+ - type: cosine_precision@10
324
+ value: 0.07490706319702602
325
+ name: Cosine Precision@10
326
+ - type: cosine_recall@1
327
+ value: 0.3754646840148699
328
+ name: Cosine Recall@1
329
+ - type: cosine_recall@3
330
+ value: 0.6672862453531598
331
+ name: Cosine Recall@3
332
+ - type: cosine_recall@5
333
+ value: 0.7230483271375465
334
+ name: Cosine Recall@5
335
+ - type: cosine_recall@10
336
+ value: 0.7490706319702602
337
+ name: Cosine Recall@10
338
+ - type: cosine_ndcg@10
339
+ value: 0.5781745055750072
340
+ name: Cosine Ndcg@10
341
+ - type: cosine_mrr@10
342
+ value: 0.5211932790464389
343
+ name: Cosine Mrr@10
344
+ - type: cosine_map@100
345
+ value: 0.5231772539396392
346
+ name: Cosine Map@100
347
+ ---
348
+
349
+ # SentenceTransformer based on intfloat/multilingual-e5-large
350
+
351
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
352
+
353
+ ## Model Details
354
+
355
+ ### Model Description
356
+ - **Model Type:** Sentence Transformer
357
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
358
+ - **Maximum Sequence Length:** 512 tokens
359
+ - **Output Dimensionality:** 512 dimensions
360
+ - **Similarity Function:** Cosine Similarity
361
+ <!-- - **Training Dataset:** Unknown -->
362
+ <!-- - **Language:** Unknown -->
363
+ <!-- - **License:** Unknown -->
364
+
365
+ ### Model Sources
366
+
367
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
368
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
369
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
370
+
371
+ ### Full Model Architecture
372
+
373
+ ```
374
+ SentenceTransformer(
375
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
376
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
377
+ (2): Normalize()
378
+ )
379
+ ```
380
+
381
+ ## Usage
382
+
383
+ ### Direct Usage (Sentence Transformers)
384
+
385
+ First install the Sentence Transformers library:
386
+
387
+ ```bash
388
+ pip install -U sentence-transformers
389
+ ```
390
+
391
+ Then you can load this model and run inference.
392
+ ```python
393
+ from sentence_transformers import SentenceTransformer
394
+
395
+ # Download from the 🤗 Hub
396
+ model = SentenceTransformer("multilingual-e5-large-wiki-tr-rag")
397
+ # Run inference
398
+ sentences = [
399
+ 'passage: Dehesa veya Portekiz\'de montado, güney ve orta İspanya ile güney Portekiz\'de çok işlevli, tarımsal ormancılık sistemi ve kültürel peyzajdır. Dehesalar özel veya ortak mülkiyet olabilir (genellikle belediyeye ait). Öncelikle otlatma için kullanılan bu ormanlarda yabani av hayvanları, mantar, bal ve yakacak odun gibi kereste dışı orman ürünleri de dahil olmak üzere çeşitli ürünler üretilir. Ayrıca İspanyol dövüş boğasını ve İber domuzunun kaynağını yetiştirmek için de kullanılırlar. Ağacın ana bileşeni meşedir, genellikle holm ve mantardır. Melojo (Quercus pyrenaica) ve quejigo dahil olmak üzere diğer meşeler, coğrafi konuma ve yüksekliğe bağlı olarak kullanılan tür olan dehesayı oluşturmak için kullanılabilir. Dehesa, yalnızca çeşitli yiyecekler sağlamakla kalmayıp, aynı zamanda İspanyol imparatorluk kartalı gibi nesli tükenmekte olan türler için de yaban hayatı yaşam alanı sağlayan antropojenik bir sistemdir.\nUskumru (Scomber scombrus) bir deniz balığı. Aynı zamanda Uskumrugiller familyasına adını vermiş olan, bu familyanın örnek balığıdır.\nVücut iğ şeklindedir. Sırtta aşağıya doğru inen açık veya koyu yeşilimsi-mavi, üzeri lekeli bantlar vardır. Başta beyin görünmez, karın tarafı açık gümüşi renktedir. Bütün yüzgeçler yumuşak ışınlı olup, gözler kolyoza göre daha ufaktır. Kolyozdan kafada ve vücutta bulunan pulların tekdüze, sırt yüzgecindeki dikenleri daha çok sayıda (11-13), pulları ve yanlarının altında koyu esmer lekeler ve hava kesesi olmayışı ile ayrılır. 8 ila 11 yıl arasında yaşarlar.\nBüyüklüğü ortalama 30–35 cm\'dir, maksimum 50 cm olur. Ortalama ağırlığı 200-500 gram civarındadır. Kuzey Amerika sahilerinde, Kuzey Denizi, Akdeniz, Ege Denizi, Marmara Denizi ve Karadeniz\'de yaşar.\nBesin değeri açısından da zengin olan uskumru balığı pek çok protein ve vitamin içerir. İlk akla gelen uskumru Omega 3 açısından zengindir bilgisi olsa da uskumru sadece Omega 3 açısından değil; A vitamini, C vitamini, B6 vitamini, B12 vitamini, kalsiyum, demir ve magnezyum açısından da zengindir.\nManchester Okulu, serbest ticareti vurgulayan klasik iktisadi düşünce okullarından birisidir.\nLaissez Faire politikasını, serbest girişimi ve rekabeti ekonomik refah ve büyümenin en iyi yolu olarak kabul etmişler, korumacılığa, kamu yardımlarına, zorunlu eğitim ve benzeri önlemlere karşı çıkmışlar, tahıl ithali üzerindeki kısıtlamaların kaldırılmasını savunmuşlardır.İngiltere\'dedir.\nGalibarda veya Fuşya rengi kırmızı ve mavi ışığın eşit oranlarda karıştırılması ile elde edilir. Bu renk daha çok İngilizce isminin okunuşu olan "macenta" adıyla anılır.\nGalibarda rengi dört renkli (CMYK) baskıda kullanılan renklerden biridir.\nGalibarda renginin hex değeri "#FF00FF", RGB değeri "255, 0, 255" ve CMYK değeri "0, 100, 0, 0" dır.',
400
+ 'query: Uskumru balığının diğer balık türlerinden ayıran en belirgin özellikler nelerdir?',
401
+ "query: AGS-17 Plamya'nın 30×29 mm kovansız mühimmatı ne anlama geliyor?",
402
+ ]
403
+ embeddings = model.encode(sentences)
404
+ print(embeddings.shape)
405
+ # [3, 512]
406
+
407
+ # Get the similarity scores for the embeddings
408
+ similarities = model.similarity(embeddings, embeddings)
409
+ print(similarities.shape)
410
+ # [3, 3]
411
+ ```
412
+
413
+ <!--
414
+ ### Direct Usage (Transformers)
415
+
416
+ <details><summary>Click to see the direct usage in Transformers</summary>
417
+
418
+ </details>
419
+ -->
420
+
421
+ <!--
422
+ ### Downstream Usage (Sentence Transformers)
423
+
424
+ You can finetune this model on your own dataset.
425
+
426
+ <details><summary>Click to expand</summary>
427
+
428
+ </details>
429
+ -->
430
+
431
+ <!--
432
+ ### Out-of-Scope Use
433
+
434
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
435
+ -->
436
+
437
+ ## Evaluation
438
+
439
+ ### Metrics
440
+
441
+ #### Information Retrieval
442
+
443
+ * Dataset: `dim_512`
444
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
445
+
446
+ | Metric | Value |
447
+ |:--------------------|:-----------|
448
+ | cosine_accuracy@1 | 0.3755 |
449
+ | cosine_accuracy@3 | 0.6673 |
450
+ | cosine_accuracy@5 | 0.723 |
451
+ | cosine_accuracy@10 | 0.7491 |
452
+ | cosine_precision@1 | 0.3755 |
453
+ | cosine_precision@3 | 0.2224 |
454
+ | cosine_precision@5 | 0.1446 |
455
+ | cosine_precision@10 | 0.0749 |
456
+ | cosine_recall@1 | 0.3755 |
457
+ | cosine_recall@3 | 0.6673 |
458
+ | cosine_recall@5 | 0.723 |
459
+ | cosine_recall@10 | 0.7491 |
460
+ | **cosine_ndcg@10** | **0.5782** |
461
+ | cosine_mrr@10 | 0.5212 |
462
+ | cosine_map@100 | 0.5232 |
463
+
464
+ <!--
465
+ ## Bias, Risks and Limitations
466
+
467
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
468
+ -->
469
+
470
+ <!--
471
+ ### Recommendations
472
+
473
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
474
+ -->
475
+
476
+ ## Training Details
477
+
478
+ ### Training Dataset
479
+
480
+ #### Unnamed Dataset
481
+
482
+ * Size: 5,399 training samples
483
+ * Columns: <code>positive</code> and <code>anchor</code>
484
+ * Approximate statistics based on the first 1000 samples:
485
+ | | positive | anchor |
486
+ |:--------|:-------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
487
+ | type | string | string |
488
+ | details | <ul><li>min: 67 tokens</li><li>mean: 444.44 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 21.99 tokens</li><li>max: 56 tokens</li></ul> |
489
+ * Samples:
490
+ | positive | anchor |
491
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------|
492
+ | <code>passage: Kratos (Antik Yunanca: Κράτος, Türkçe anlamı: "güç" ve "kuvvet"), God of War serisinin ana karakteri.<br>Kratos, ilk kez 2005'te, serinin ilk oyunu God of War'da göründü. Bu oyunda ailesinin intikamı için bir mücadele içinde olan Kratos'un davası serinin diğer oyunlarında da devam etti. PlayStation serisi altında markalaşan God of War'un ana karakteri Kratos, PlayStation 2 ve PlayStation Portable'da iki, PlayStation 3'te ise dört oyunda göründü. God of War: Betrayal'da da yer alan Kratos, 12 Mart 2013'te yayınlanan PlayStation 3 oyunu God of War: Ascension'dan sonra, 20 Nisan 2018'de PlayStation 4 için yayınlanan God of War'da görüldü. En son çıkan oyunu ise 9 Kasım 2022'de çıkan God of War: Ragnarök'tür.<br>AHD Kamera, yüksek görüntü elde edebilen Analog HD kamera sistemleri anlamına gelmektedir. Analog CCTV altyapısı kullanılarak 720p ve 1080p çözünürlüklerde görüntü alabilen yüksek düzey performansa sahip kamera sistemleridir. HD Kalite de görüntü elde eden bu cihazlar koaksiyel ...</code> | <code>query: Ovo'ların yapımında hangi malzemeler kullanılır ve bu malzemelerin seçimi neden önemlidir?</code> |
493
+ | <code>passage: Johannes Block(17 Kasım 1894-26 Ocak 1945) 2. Dünya Savaşı sırasında kolordu ve tümen seviyesinde birliklere komuta etmiş olan Wehrmacht generaliydi. Block, Meşe Yaprağı İlaveli Şövalye Haçıyla taltif edilenlerdendi. 26 Ocak 1945'te Vistül-Oder Taarruzu sırasında Kielce yakınlarında öldürüldü.<br>Aguapanela, Kolombiya mutfağından su ve panela (kurutulmuş şeker kamışı suyu) ile yapılan bir içecektir. Sıcak ve ya soğuk içilebilir. İlave olarak limon ve portakal eklenebilir. Aguapanela ile kahve demlenebilir ve tatlı yapımı için çikolata eklenebilir. Süt ve ya brendi gibi alkollu içeceklerle karıştırılabilir. Kolombiya'da aguapanela ile birlikte mogolla, arepa, bisküvi, kassava ekmeği ve garulla gibi çay atıştırmalıkları yenilebilir.</code> | <code>query: Aguapanela'nın Kolombiya mutfağındaki yeri nedir ve hangi yiyeceklerle birlikte tüketilir?</code> |
494
+ | <code>passage: Shippingport Atom Enerjisi Santrali (ABD Nükleer Düzenleme Komisyonu'na göre) dünyanın yalnızca barış zamanı kullanımlarına ayrılmış ilk tam ölçekli atom elektrik santraliydi. Amerika Birleşik Devletleri, Pensilvanya, Beaver County'deki Ohio Nehri üzerindeki günümüz Beaver Valley Nükleer Üretim İstasyonunun yakınında, yaklaşık 40 km (40 km) uzaklıkta bulunmaktaydı.<br>Reaktör 2 Aralık 1957'de kritik seviyeye ulaştı ve üç çekirdek değişikliği için yapılan kesintilerin yanı sıra, Ekim 1982'ye kadar operasyonda kalmıştır. İlk elektrik gücü 18 Aralık 1957'de mühendislerin tesisi Duquesne Light dağıtım şebekesiyle senkronize etmesiyle üretilmiştir.<br>Shippingport'ta kullanılan ilk çekirdek, iptal edilmiş bir nükleer güçle çalışan uçak gemisinden kaynaklanmıştır. Yüksek oranda zenginleştirilmiş uranyumu (%93 U-235) doğal U-238'den bir "örtü" ile çevrili "tohum" yakıt olarak kullanıldı. İlk reaktörde gücün yaklaşık yarısı tohumdan gelmiştir. İlk Shippingport çekirdek reaktörünün piyasaya ...</code> | <code>query: Shippingport Atom Enerjisi Santrali'nin diğer nükleer santrallerden farkı neydi?</code> |
495
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
496
+ ```json
497
+ {
498
+ "scale": 20.0,
499
+ "similarity_fct": "cos_sim"
500
+ }
501
+ ```
502
+
503
+ ### Training Hyperparameters
504
+ #### Non-Default Hyperparameters
505
+
506
+ - `eval_strategy`: epoch
507
+ - `per_device_train_batch_size`: 32
508
+ - `per_device_eval_batch_size`: 16
509
+ - `gradient_accumulation_steps`: 16
510
+ - `learning_rate`: 2e-05
511
+ - `num_train_epochs`: 5
512
+ - `lr_scheduler_type`: cosine
513
+ - `warmup_ratio`: 0.1
514
+ - `bf16`: True
515
+ - `tf32`: True
516
+ - `load_best_model_at_end`: True
517
+ - `optim`: adamw_torch_fused
518
+ - `batch_sampler`: no_duplicates
519
+
520
+ #### All Hyperparameters
521
+ <details><summary>Click to expand</summary>
522
+
523
+ - `overwrite_output_dir`: False
524
+ - `do_predict`: False
525
+ - `eval_strategy`: epoch
526
+ - `prediction_loss_only`: True
527
+ - `per_device_train_batch_size`: 32
528
+ - `per_device_eval_batch_size`: 16
529
+ - `per_gpu_train_batch_size`: None
530
+ - `per_gpu_eval_batch_size`: None
531
+ - `gradient_accumulation_steps`: 16
532
+ - `eval_accumulation_steps`: None
533
+ - `torch_empty_cache_steps`: None
534
+ - `learning_rate`: 2e-05
535
+ - `weight_decay`: 0.0
536
+ - `adam_beta1`: 0.9
537
+ - `adam_beta2`: 0.999
538
+ - `adam_epsilon`: 1e-08
539
+ - `max_grad_norm`: 1.0
540
+ - `num_train_epochs`: 5
541
+ - `max_steps`: -1
542
+ - `lr_scheduler_type`: cosine
543
+ - `lr_scheduler_kwargs`: {}
544
+ - `warmup_ratio`: 0.1
545
+ - `warmup_steps`: 0
546
+ - `log_level`: passive
547
+ - `log_level_replica`: warning
548
+ - `log_on_each_node`: True
549
+ - `logging_nan_inf_filter`: True
550
+ - `save_safetensors`: True
551
+ - `save_on_each_node`: False
552
+ - `save_only_model`: False
553
+ - `restore_callback_states_from_checkpoint`: False
554
+ - `no_cuda`: False
555
+ - `use_cpu`: False
556
+ - `use_mps_device`: False
557
+ - `seed`: 42
558
+ - `data_seed`: None
559
+ - `jit_mode_eval`: False
560
+ - `use_ipex`: False
561
+ - `bf16`: True
562
+ - `fp16`: False
563
+ - `fp16_opt_level`: O1
564
+ - `half_precision_backend`: auto
565
+ - `bf16_full_eval`: False
566
+ - `fp16_full_eval`: False
567
+ - `tf32`: True
568
+ - `local_rank`: 0
569
+ - `ddp_backend`: None
570
+ - `tpu_num_cores`: None
571
+ - `tpu_metrics_debug`: False
572
+ - `debug`: []
573
+ - `dataloader_drop_last`: False
574
+ - `dataloader_num_workers`: 0
575
+ - `dataloader_prefetch_factor`: None
576
+ - `past_index`: -1
577
+ - `disable_tqdm`: False
578
+ - `remove_unused_columns`: True
579
+ - `label_names`: None
580
+ - `load_best_model_at_end`: True
581
+ - `ignore_data_skip`: False
582
+ - `fsdp`: []
583
+ - `fsdp_min_num_params`: 0
584
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
585
+ - `tp_size`: 0
586
+ - `fsdp_transformer_layer_cls_to_wrap`: None
587
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
588
+ - `deepspeed`: None
589
+ - `label_smoothing_factor`: 0.0
590
+ - `optim`: adamw_torch_fused
591
+ - `optim_args`: None
592
+ - `adafactor`: False
593
+ - `group_by_length`: False
594
+ - `length_column_name`: length
595
+ - `ddp_find_unused_parameters`: None
596
+ - `ddp_bucket_cap_mb`: None
597
+ - `ddp_broadcast_buffers`: False
598
+ - `dataloader_pin_memory`: True
599
+ - `dataloader_persistent_workers`: False
600
+ - `skip_memory_metrics`: True
601
+ - `use_legacy_prediction_loop`: False
602
+ - `push_to_hub`: False
603
+ - `resume_from_checkpoint`: None
604
+ - `hub_model_id`: None
605
+ - `hub_strategy`: every_save
606
+ - `hub_private_repo`: None
607
+ - `hub_always_push`: False
608
+ - `gradient_checkpointing`: False
609
+ - `gradient_checkpointing_kwargs`: None
610
+ - `include_inputs_for_metrics`: False
611
+ - `include_for_metrics`: []
612
+ - `eval_do_concat_batches`: True
613
+ - `fp16_backend`: auto
614
+ - `push_to_hub_model_id`: None
615
+ - `push_to_hub_organization`: None
616
+ - `mp_parameters`:
617
+ - `auto_find_batch_size`: False
618
+ - `full_determinism`: False
619
+ - `torchdynamo`: None
620
+ - `ray_scope`: last
621
+ - `ddp_timeout`: 1800
622
+ - `torch_compile`: False
623
+ - `torch_compile_backend`: None
624
+ - `torch_compile_mode`: None
625
+ - `dispatch_batches`: None
626
+ - `split_batches`: None
627
+ - `include_tokens_per_second`: False
628
+ - `include_num_input_tokens_seen`: False
629
+ - `neftune_noise_alpha`: None
630
+ - `optim_target_modules`: None
631
+ - `batch_eval_metrics`: False
632
+ - `eval_on_start`: False
633
+ - `use_liger_kernel`: False
634
+ - `eval_use_gather_object`: False
635
+ - `average_tokens_across_devices`: False
636
+ - `prompts`: None
637
+ - `batch_sampler`: no_duplicates
638
+ - `multi_dataset_batch_sampler`: proportional
639
+
640
+ </details>
641
+
642
+ ### Training Logs
643
+ | Epoch | Step | Training Loss | dim_512_cosine_ndcg@10 |
644
+ |:----------:|:------:|:-------------:|:----------------------:|
645
+ | -1 | -1 | - | 0.4134 |
646
+ | 0.9467 | 10 | 21.2389 | 0.5258 |
647
+ | 1.9467 | 20 | 17.7004 | 0.5681 |
648
+ | **2.9467** | **30** | **15.2274** | **0.5798** |
649
+ | 3.9467 | 40 | 14.0845 | 0.5794 |
650
+ | 4.9467 | 50 | 13.5581 | 0.5782 |
651
+
652
+ * The bold row denotes the saved checkpoint.
653
+
654
+ ### Framework Versions
655
+ - Python: 3.11.11
656
+ - Sentence Transformers: 3.4.1
657
+ - Transformers: 4.50.3
658
+ - PyTorch: 2.6.0+cu124
659
+ - Accelerate: 1.5.2
660
+ - Datasets: 3.5.0
661
+ - Tokenizers: 0.21.1
662
+
663
+ ## Citation
664
+
665
+ ### BibTeX
666
+
667
+ #### Sentence Transformers
668
+ ```bibtex
669
+ @inproceedings{reimers-2019-sentence-bert,
670
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
671
+ author = "Reimers, Nils and Gurevych, Iryna",
672
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
673
+ month = "11",
674
+ year = "2019",
675
+ publisher = "Association for Computational Linguistics",
676
+ url = "https://arxiv.org/abs/1908.10084",
677
+ }
678
+ ```
679
+
680
+ #### MultipleNegativesRankingLoss
681
+ ```bibtex
682
+ @misc{henderson2017efficient,
683
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
684
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
685
+ year={2017},
686
+ eprint={1705.00652},
687
+ archivePrefix={arXiv},
688
+ primaryClass={cs.CL}
689
+ }
690
+ ```
691
+
692
+ <!--
693
+ ## Glossary
694
+
695
+ *Clearly define terms in order to be accessible across audiences.*
696
+ -->
697
+
698
+ <!--
699
+ ## Model Card Authors
700
+
701
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
702
+ -->
703
+
704
+ <!--
705
+ ## Model Card Contact
706
+
707
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
708
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 1024,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 4096,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 16,
18
+ "num_hidden_layers": 24,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.50.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.50.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
eval/Information-Retrieval_evaluation_dim_512_results.csv ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ epoch,steps,cosine-Accuracy@1,cosine-Accuracy@3,cosine-Accuracy@5,cosine-Accuracy@10,cosine-Precision@1,cosine-Recall@1,cosine-Precision@3,cosine-Recall@3,cosine-Precision@5,cosine-Recall@5,cosine-Precision@10,cosine-Recall@10,cosine-MRR@10,cosine-NDCG@10,cosine-MAP@100
2
+ 0.9467455621301775,10,0.32899628252788105,0.5799256505576208,0.6654275092936803,0.7137546468401487,0.32899628252788105,0.32899628252788105,0.19330855018587362,0.5799256505576208,0.13308550185873605,0.6654275092936803,0.07137546468401486,0.7137546468401487,0.4646176314391929,0.5257706892178339,0.4672879601563018
3
+ 1.9467455621301775,20,0.362453531598513,0.6524163568773235,0.7193308550185874,0.7472118959107806,0.362453531598513,0.362453531598513,0.21747211895910779,0.6524163568773235,0.14386617100371749,0.7193308550185874,0.07472118959107805,0.7472118959107806,0.5087146692629965,0.5681303498497544,0.5102734639242592
4
+ 2.9467455621301775,30,0.379182156133829,0.6617100371747212,0.724907063197026,0.7527881040892194,0.379182156133829,0.379182156133829,0.2205700123915737,0.6617100371747212,0.1449814126394052,0.724907063197026,0.07527881040892194,0.7527881040892194,0.5222959815896622,0.5797566970314246,0.5236728644296553
5
+ 3.9467455621301775,40,0.379182156133829,0.6672862453531598,0.7230483271375465,0.7509293680297398,0.379182156133829,0.379182156133829,0.22242874845105326,0.6672862453531598,0.14460966542750925,0.7230483271375465,0.07509293680297398,0.7509293680297398,0.522288605652918,0.5793807124611218,0.5239841828088465
6
+ 4.946745562130177,50,0.3754646840148699,0.6672862453531598,0.7230483271375465,0.7490706319702602,0.3754646840148699,0.3754646840148699,0.22242874845105326,0.6672862453531598,0.14460966542750925,0.7230483271375465,0.07490706319702602,0.7490706319702602,0.5211932790464389,0.5781745055750072,0.5231772539396392
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bce20d1fa82d91833e96d67a56819f96917cad1bf7e25601d4d93180a29ce433
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
runs/Apr10_08-46-33_03d0b8caefa2/events.out.tfevents.1744274816.03d0b8caefa2.2361.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a723eda5fd0f6406bef2a709e6de2417748050f28af8769bd14aa476b8805fd8
3
+ size 21216
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d6af665dab35536fa8b90419b05b5117f7ec73ffedf034c116e5e974d7f236f
3
+ size 5752