TR-MTEB commited on
Commit
6932a43
·
verified ·
1 Parent(s): 50096f5

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,421 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:60000000
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-base
10
+ widget:
11
+ - source_sentence: Ayrıştırma
12
+ sentences:
13
+ - ', üzerinde yazı veya çizim yapılması amacıyla boş kâğıtların birleştirilmesiyle
14
+ meydana getirilen bir nesnedir. 1920 yılında kâğıtları birleştirip, kartondan
15
+ kapak ekleyen J.A. Birchall tarafından icat edilmiştir. Pek çok insan günlük hayatta
16
+ defter kullanır fakat genelde defter kelimesi, bu nesneyi çeşitli derslerde not
17
+ almak amacıyla kullanan öğrencileri çağrıştırır.'
18
+ - Normalizasyon ( ), veritabanlarında çok fazla sütun ve satırdan oluşan bir tabloyu
19
+ tekrarlardan arındırmak için daha az satır ve sütun içeren alt kümelerine ayrıştırma
20
+ işlemidir.
21
+ - ", Çorum - Çorum ili merkez ilçesine bağlı köy\n , Kelkit - Gümüşhane ili Kelkit\
22
+ \ ilçesine bağlı köy\n , İzmit - Kocaeli ili İzmit ilçesine bağlı mahalle\n ,\
23
+ \ Haliliye - Şanlıurfa ili Haliliye ilçesine bağlı mahalle"
24
+ - source_sentence: Mondros (anlam ayrımı)
25
+ sentences:
26
+ - ", vajina mukozasının enflamasyonudur ve genelde aşağıdaki üç kategoriye ayrılır:\n\
27
+ \ Hormonal vajinit doğum sonrası veya menopoz sonrası kadınlarda görülen atrofik\
28
+ \ vajiniti de kapsar. Vajina duvarlarının ince ve kuru olmasından kaynaklanır.\
29
+ \ Bazen ergenlik öncesi genç kızlarda da olabilir. Kaşınma, yanma ve acı olabilir.\
30
+ \ Vajinal dokunun incelmesi enfeksiyonlara yol açabilir.\n İrritan vajinit alerji\
31
+ \ yapan veya tahriş eden maddelerden kaynaklanır. Alerji nedeni prezervatif, spermatisit,\
32
+ \ sabun, parfüm, vajinal duş ve meni, ilaçlar nedeniyle olabilir. Sürtünme, kumaşlar,\
33
+ \ tampon veya kremler de tahrişe neden olabilir. Bunların neden olduğu enflamasyon\
34
+ \ vajinal akıntıya neden olabilir.\n Enfeksiyöz vajinit üreme yaşında kadınlardaki\
35
+ \ vajinitlerin %90'ını oluşturur. Bakteriyel enfeksiyon vajinitlerin en sık nedenidir.\
36
+ \ Genelde Candida albicans (bir mantar), Trichomonas vaginalis (bir protozoa)\
37
+ \ veya Gardnerella (bir bakteri) tarafından meydana gelir. Daha ender enfeksiyonlar\
38
+ \ bel soğukluğu, klamidya, mikoplazma, herpes, kampilobakter ve bazı parazitlerdir.\n\
39
+ \ Aerobik vajinit"
40
+ - ', Süleyman Çelebi''nin Mevlid-i Şerif''ine de alınan Grijgal palangasını saran
41
+ Zigetvar kumandanı Kıraçin''in 1000 askerine karşı Kuru Kadının 114 kişiyle galibiyetinde
42
+ şehit olan Veli ve Abdal olduğuna inanılan Deli Mehmet''in başını vermemesi üzerine
43
+ Kuru kadı tarafından yazılan bahri (bölümü).'
44
+ - Mondros, Ege Denizi'nde Limni adasında bir yerleşim.
45
+ - source_sentence: İsabalı, Pamukova
46
+ sentences:
47
+ - İsabalı, Sakarya ilinin Pamukova ilçesine bağlı bir mahalledir.
48
+ - Şenyurt, Erzurum ilinin Yakutiye ilçesine bağlı bir mahalledir.
49
+ - Kocapınar, Bursa ilinin Harmancık ilçesine bağlı bir mahalledir.
50
+ - source_sentence: Trol (ağ)
51
+ sentences:
52
+ - ', 1917''de Konya''da açılan ve hâlen bu adla faaliyetini sürdüren fotoğrafhanedir.'
53
+ - (d. 8 Şubat 1928, Lecce – ö. 25 Ekim 1996, Pisa) İtalyan matematikçi. 20. yüzyılın
54
+ en büyük matematikçilerinden biriydi.
55
+ - Trol ağları, yelkenli gemilerden bu yana kullanılan av araçlarıdır. İlk tipleri
56
+ Danimarka ığrıpları ve kirişli trollerdir. Daha sonra iki gemi ile çekilen troller
57
+ ve en son olarak kapılı troller geliştirilmiştir. Günümüzde kullanılan trolleri
58
+ Kapılı (tek gemi ile çekilen) troller ve Kapısız (iki gemi ile çekilen) troller
59
+ olarak iki gruba ayırabiliriz. Trol gemileriyle balık avlamaya ise "Trollemek"
60
+ ismi verilir.
61
+ - source_sentence: Málaga CF
62
+ sentences:
63
+ - (Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak (basil)
64
+ şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob, hareketsiz ve sporla
65
+ çoğalan bir bakteri cinsidir. Kapsül yapısının poli-D-Glutamik asit olması bacillus
66
+ antracis'i diğer kapsüllü bakterilerden ayırır.
67
+ - ', biyolojik sınıflandırmada basit hayvanları kapsayan bir taksondur.'
68
+ - Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan Málaga
69
+ kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan kulüp İspanya 2.
70
+ Liginde mücadele etmektedir. Maçlarını 30.044 kişilik La Rosaleda Stadyumu'nda
71
+ oynamaktadır. Granada CF futbol takımıyla oynadığı maçlar, Doğu Endülüs Derbisi
72
+ (Derbi Andaluz, Derbi Oriental) olarak geçmektedir.
73
+ datasets:
74
+ - selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset
75
+ pipeline_tag: sentence-similarity
76
+ library_name: sentence-transformers
77
+ ---
78
+
79
+ # SentenceTransformer based on intfloat/multilingual-e5-base
80
+
81
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
82
+
83
+ ## Model Details
84
+
85
+ ### Model Description
86
+ - **Model Type:** Sentence Transformer
87
+ - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision 835193815a3936a24a0ee7dc9e3d48c1fbb19c55 -->
88
+ - **Maximum Sequence Length:** 512 tokens
89
+ - **Output Dimensionality:** 768 dimensions
90
+ - **Similarity Function:** Cosine Similarity
91
+ - **Training Dataset:**
92
+ - [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset)
93
+ <!-- - **Language:** Unknown -->
94
+ <!-- - **License:** Unknown -->
95
+
96
+ ### Model Sources
97
+
98
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
99
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
100
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
101
+
102
+ ### Full Model Architecture
103
+
104
+ ```
105
+ SentenceTransformer(
106
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
107
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
108
+ (2): Normalize()
109
+ )
110
+ ```
111
+
112
+ ## Usage
113
+
114
+ ### Direct Usage (Sentence Transformers)
115
+
116
+ First install the Sentence Transformers library:
117
+
118
+ ```bash
119
+ pip install -U sentence-transformers
120
+ ```
121
+
122
+ Then you can load this model and run inference.
123
+ ```python
124
+ from sentence_transformers import SentenceTransformer
125
+
126
+ # Download from the 🤗 Hub
127
+ model = SentenceTransformer("selmanbaysan/multilingual-e5-base_contrastive_loss_training_with_large_data_v2")
128
+ # Run inference
129
+ sentences = [
130
+ 'Málaga CF',
131
+ "Málaga Club de Fútbol, İspanya'da Endülüs Özerk Topluluğu içinde bulunan Málaga kentinde kurulmuş olan futbol kulübüdür. 1904 yılında kurulan kulüp İspanya 2. Liginde mücadele etmektedir. Maçlarını 30.044 kişilik La Rosaleda Stadyumu'nda oynamaktadır. Granada CF futbol takımıyla oynadığı maçlar, Doğu Endülüs Derbisi (Derbi Andaluz, Derbi Oriental) olarak geçmektedir.",
132
+ "(Şarbon bakterisi); Bacillaceae familyasına ait olup çubuk veya çomak (basil) şeklinde, gram-pozitif, kapsüllü, aerob ve fakültatif aerob, hareketsiz ve sporla çoğalan bir bakteri cinsidir. Kapsül yapısının poli-D-Glutamik asit olması bacillus antracis'i diğer kapsüllü bakterilerden ayırır.",
133
+ ]
134
+ embeddings = model.encode(sentences)
135
+ print(embeddings.shape)
136
+ # [3, 768]
137
+
138
+ # Get the similarity scores for the embeddings
139
+ similarities = model.similarity(embeddings, embeddings)
140
+ print(similarities.shape)
141
+ # [3, 3]
142
+ ```
143
+
144
+ <!--
145
+ ### Direct Usage (Transformers)
146
+
147
+ <details><summary>Click to see the direct usage in Transformers</summary>
148
+
149
+ </details>
150
+ -->
151
+
152
+ <!--
153
+ ### Downstream Usage (Sentence Transformers)
154
+
155
+ You can finetune this model on your own dataset.
156
+
157
+ <details><summary>Click to expand</summary>
158
+
159
+ </details>
160
+ -->
161
+
162
+ <!--
163
+ ### Out-of-Scope Use
164
+
165
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
166
+ -->
167
+
168
+ <!--
169
+ ## Bias, Risks and Limitations
170
+
171
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
172
+ -->
173
+
174
+ <!--
175
+ ### Recommendations
176
+
177
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
178
+ -->
179
+
180
+ ## Training Details
181
+
182
+ ### Training Dataset
183
+
184
+ #### turkish_weakly_supervised_contrastive_learning_dataset
185
+
186
+ * Dataset: [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) at [bf99eda](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset/tree/bf99eda89b8fa45f7f5c82b490fd875e93ffd5fe)
187
+ * Size: 60,000,000 training samples
188
+ * Columns: <code>anchor</code> and <code>positive</code>
189
+ * Approximate statistics based on the first 1000 samples:
190
+ | | anchor | positive |
191
+ |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
192
+ | type | string | string |
193
+ | details | <ul><li>min: 3 tokens</li><li>mean: 5.32 tokens</li><li>max: 16 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 81.97 tokens</li><li>max: 512 tokens</li></ul> |
194
+ * Samples:
195
+ | anchor | positive |
196
+ |:---------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
197
+ | <code>Cengiz Han</code> | <code>(doğum adıyla Temuçin, – 18 Ağustos 1227), Moğol İmparatorluğu'nun kurucusu ve ilk Kağanı olan Moğol komutan ve hükümdardır. Hükümdarlığı döneminde gerçekleştirdiği hiçbir savaşı kaybetmeyen , dünya tarihinin en büyük askeri liderlerinden birisi olarak kabul edilmektedir. 13. yüzyılın başında Orta Asya'daki tüm göçebe bozkır kavimlerini birleştirip bir ulus hâline getirerek Moğol siyasi kimliği çatısı altında toplamıştır. , hükümdarlığı döneminde, 1206-1227 arasında, Kuzey Çin'deki Batı Xia ve Jin Hanedanı; Türkistan'daki Kara Hıtay, Maveraünnehir; Harezm, Horasan ve İran'daki Harezmşahlar, Kafkasya'daki Gürcüler, Deşt-i Kıpçak'taki Rus Knezlikleri, Kıpçaklar ile İdil Bulgarları üzerine seferler yaptı ve imparatorluğu döneminde gerçekleştirdiği hiçbir savaşı kaybetmedi. Bunların sonucunda Pasifik Okyanusu'ndan Hazar Denizi'ne ve Karadeniz'in kuzeyine kadar uzanan bir imparatorluk kurdu.</code> |
198
+ | <code>Mustafa Suphi</code> | <code>Mehmed Mustafa Subhi (), kısaca , veya bazı kaynaklarda kullanıldığı haliyle Osmanlıca yazıma göre Mustafa Subhi (4 Ağustos 1882 veya 4 Mayıs 1883 - 28 Ocak 1921), Türk komünist ve Türkiye Komünist Partisinin ilk Merkez Komitesi Başkanı.</code> |
199
+ | <code>Linux</code> | <code>(telaffuz: Lin-uks); çekirdeğine dayalı, açık kaynak kodlu, Unix benzeri bir işletim sistemi ailesidir. GNU Genel Kamu Lisansı versiyon 2 ile sunulan ve Vakfı çatısı altında geliştirilen bir özgür yazılım projesidir. ismi ilk geliştiricisi olan Linus Torvalds tarafından 1991 yılında verilmiştir. Günümüzde süper bilgisayarlarda, akıllı cihazların ve internet altyapısında kullanılan cihazların işletim sistemlerinde yaygın olarak kullanılmaktadır. Bunlardan en popüler olanı Google tarafından geliştirilen Android işletim sistemidir.</code> |
200
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
201
+ ```json
202
+ {
203
+ "scale": 20.0,
204
+ "similarity_fct": "cos_sim"
205
+ }
206
+ ```
207
+
208
+ ### Evaluation Dataset
209
+
210
+ #### turkish_weakly_supervised_contrastive_learning_dataset
211
+
212
+ * Dataset: [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) at [bf99eda](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset/tree/bf99eda89b8fa45f7f5c82b490fd875e93ffd5fe)
213
+ * Size: 957,344 evaluation samples
214
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
215
+ * Approximate statistics based on the first 1000 samples:
216
+ | | sentence1 | sentence2 | label |
217
+ |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------|
218
+ | type | string | string | int |
219
+ | details | <ul><li>min: 3 tokens</li><li>mean: 6.98 tokens</li><li>max: 17 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 52.71 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>1: 100.00%</li></ul> |
220
+ * Samples:
221
+ | sentence1 | sentence2 | label |
222
+ |:------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
223
+ | <code>Karl Marx</code> | <code>(; 5 Mayıs 1818, Trier – 14 Mart 1883, Londra), 19. yüzyılda yaşamış Alman filozof, politik ekonomist ve bilimsel sosyalizmin kurucusu. Bir müddet gazetecilik de yapan Marx, iktisadi ve beşerî konularda eleştirel fikirler ve tespitler ortaya koymuştur.</code> | <code>1</code> |
224
+ | <code>S. Murat Demiral</code> | <code>1966 İstanbul doğumlu Türk müzisyen. 1976 yılında İstanbul devlet konservatuvarında Ziya Polat ile trombona başladı 1977 yılında İstanbul Belediye konservatuvarına geçtı burada 1 yıl Mahmut Doğuduyal ile çalıştı 1978 yılında tekrar Ziya Polat ile çalışmaya başladı. 1980 yılında İstanbul Devlet Opera ve Balesi Orkestrası'nın sınavını kazandı.</code> | <code>1</code> |
225
+ | <code>Atılım (gazete)</code> | <code>Atılım, tarihsel Türkiye Komünist Partisinin (TKP) 1 Ocak 1974 tarihinde yayımlamaya başladığı Merkez Komitesi yayın organı. 15 Mart 1984 tarihine kadar aylık, bu tarih itibarıyla ise on beş günlük olarak çıktı.</code> | <code>1</code> |
226
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
227
+ ```json
228
+ {
229
+ "scale": 20.0,
230
+ "similarity_fct": "cos_sim"
231
+ }
232
+ ```
233
+
234
+ ### Training Hyperparameters
235
+ #### Non-Default Hyperparameters
236
+
237
+ - `eval_strategy`: steps
238
+ - `per_device_train_batch_size`: 64
239
+ - `per_device_eval_batch_size`: 64
240
+ - `learning_rate`: 5e-06
241
+ - `num_train_epochs`: 1
242
+ - `lr_scheduler_type`: cosine_with_restarts
243
+ - `warmup_ratio`: 0.1
244
+ - `fp16`: True
245
+ - `batch_sampler`: no_duplicates
246
+
247
+ #### All Hyperparameters
248
+ <details><summary>Click to expand</summary>
249
+
250
+ - `overwrite_output_dir`: False
251
+ - `do_predict`: False
252
+ - `eval_strategy`: steps
253
+ - `prediction_loss_only`: True
254
+ - `per_device_train_batch_size`: 64
255
+ - `per_device_eval_batch_size`: 64
256
+ - `per_gpu_train_batch_size`: None
257
+ - `per_gpu_eval_batch_size`: None
258
+ - `gradient_accumulation_steps`: 1
259
+ - `eval_accumulation_steps`: None
260
+ - `torch_empty_cache_steps`: None
261
+ - `learning_rate`: 5e-06
262
+ - `weight_decay`: 0.0
263
+ - `adam_beta1`: 0.9
264
+ - `adam_beta2`: 0.999
265
+ - `adam_epsilon`: 1e-08
266
+ - `max_grad_norm`: 1.0
267
+ - `num_train_epochs`: 1
268
+ - `max_steps`: -1
269
+ - `lr_scheduler_type`: cosine_with_restarts
270
+ - `lr_scheduler_kwargs`: {}
271
+ - `warmup_ratio`: 0.1
272
+ - `warmup_steps`: 0
273
+ - `log_level`: passive
274
+ - `log_level_replica`: warning
275
+ - `log_on_each_node`: True
276
+ - `logging_nan_inf_filter`: True
277
+ - `save_safetensors`: True
278
+ - `save_on_each_node`: False
279
+ - `save_only_model`: False
280
+ - `restore_callback_states_from_checkpoint`: False
281
+ - `no_cuda`: False
282
+ - `use_cpu`: False
283
+ - `use_mps_device`: False
284
+ - `seed`: 42
285
+ - `data_seed`: None
286
+ - `jit_mode_eval`: False
287
+ - `use_ipex`: False
288
+ - `bf16`: False
289
+ - `fp16`: True
290
+ - `fp16_opt_level`: O1
291
+ - `half_precision_backend`: auto
292
+ - `bf16_full_eval`: False
293
+ - `fp16_full_eval`: False
294
+ - `tf32`: None
295
+ - `local_rank`: 0
296
+ - `ddp_backend`: None
297
+ - `tpu_num_cores`: None
298
+ - `tpu_metrics_debug`: False
299
+ - `debug`: []
300
+ - `dataloader_drop_last`: False
301
+ - `dataloader_num_workers`: 0
302
+ - `dataloader_prefetch_factor`: None
303
+ - `past_index`: -1
304
+ - `disable_tqdm`: False
305
+ - `remove_unused_columns`: True
306
+ - `label_names`: None
307
+ - `load_best_model_at_end`: False
308
+ - `ignore_data_skip`: False
309
+ - `fsdp`: []
310
+ - `fsdp_min_num_params`: 0
311
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
312
+ - `tp_size`: 0
313
+ - `fsdp_transformer_layer_cls_to_wrap`: None
314
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
315
+ - `deepspeed`: None
316
+ - `label_smoothing_factor`: 0.0
317
+ - `optim`: adamw_torch
318
+ - `optim_args`: None
319
+ - `adafactor`: False
320
+ - `group_by_length`: False
321
+ - `length_column_name`: length
322
+ - `ddp_find_unused_parameters`: None
323
+ - `ddp_bucket_cap_mb`: None
324
+ - `ddp_broadcast_buffers`: False
325
+ - `dataloader_pin_memory`: True
326
+ - `dataloader_persistent_workers`: False
327
+ - `skip_memory_metrics`: True
328
+ - `use_legacy_prediction_loop`: False
329
+ - `push_to_hub`: False
330
+ - `resume_from_checkpoint`: None
331
+ - `hub_model_id`: None
332
+ - `hub_strategy`: every_save
333
+ - `hub_private_repo`: None
334
+ - `hub_always_push`: False
335
+ - `gradient_checkpointing`: False
336
+ - `gradient_checkpointing_kwargs`: None
337
+ - `include_inputs_for_metrics`: False
338
+ - `include_for_metrics`: []
339
+ - `eval_do_concat_batches`: True
340
+ - `fp16_backend`: auto
341
+ - `push_to_hub_model_id`: None
342
+ - `push_to_hub_organization`: None
343
+ - `mp_parameters`:
344
+ - `auto_find_batch_size`: False
345
+ - `full_determinism`: False
346
+ - `torchdynamo`: None
347
+ - `ray_scope`: last
348
+ - `ddp_timeout`: 1800
349
+ - `torch_compile`: False
350
+ - `torch_compile_backend`: None
351
+ - `torch_compile_mode`: None
352
+ - `include_tokens_per_second`: False
353
+ - `include_num_input_tokens_seen`: False
354
+ - `neftune_noise_alpha`: None
355
+ - `optim_target_modules`: None
356
+ - `batch_eval_metrics`: False
357
+ - `eval_on_start`: False
358
+ - `use_liger_kernel`: False
359
+ - `eval_use_gather_object`: False
360
+ - `average_tokens_across_devices`: False
361
+ - `prompts`: None
362
+ - `batch_sampler`: no_duplicates
363
+ - `multi_dataset_batch_sampler`: proportional
364
+
365
+ </details>
366
+
367
+ ### Framework Versions
368
+ - Python: 3.10.6
369
+ - Sentence Transformers: 4.1.0
370
+ - Transformers: 4.51.3
371
+ - PyTorch: 2.7.0+cu126
372
+ - Accelerate: 1.6.0
373
+ - Datasets: 3.5.1
374
+ - Tokenizers: 0.21.1
375
+
376
+ ## Citation
377
+
378
+ ### BibTeX
379
+
380
+ #### Sentence Transformers
381
+ ```bibtex
382
+ @inproceedings{reimers-2019-sentence-bert,
383
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
384
+ author = "Reimers, Nils and Gurevych, Iryna",
385
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
386
+ month = "11",
387
+ year = "2019",
388
+ publisher = "Association for Computational Linguistics",
389
+ url = "https://arxiv.org/abs/1908.10084",
390
+ }
391
+ ```
392
+
393
+ #### MultipleNegativesRankingLoss
394
+ ```bibtex
395
+ @misc{henderson2017efficient,
396
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
397
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
398
+ year={2017},
399
+ eprint={1705.00652},
400
+ archivePrefix={arXiv},
401
+ primaryClass={cs.CL}
402
+ }
403
+ ```
404
+
405
+ <!--
406
+ ## Glossary
407
+
408
+ *Clearly define terms in order to be accessible across audiences.*
409
+ -->
410
+
411
+ <!--
412
+ ## Model Card Authors
413
+
414
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
415
+ -->
416
+
417
+ <!--
418
+ ## Model Card Contact
419
+
420
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
421
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c184bce6f0404ad599494048c5f7f84c92b33445fd30cd5673b31b94e15ccf0e
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 512,
51
+ "model_max_length": 512,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizerFast",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }