hindalmayyali commited on
Commit
6f83762
·
verified ·
1 Parent(s): 978891a

Arabic sentence transformer with proper train/valid/test splits

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,575 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - ar
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - dense
10
+ - generated_from_trainer
11
+ - dataset_size:50000
12
+ - loss:MultipleNegativesRankingLoss
13
+ base_model: aubmindlab/bert-base-arabertv02
14
+ widget:
15
+ - source_sentence: متوسط ​​عمر als
16
+ sentences:
17
+ - 'أعاني من الإسهال كل صباح فور الاستيقاظ. 2. احصل على مساعدة من طبيب الآن ¢. يبدو
18
+ مثل: مشكلة منهكة شديدة. تشمل الأسباب العدوى أو داء كرون أو القولون التقرحي أو
19
+ عدم تحمل النظام الغذائي. يجب أن ترى الطبيب بدلاً من محاولة علاج هذا بنفسك.'
20
+ - يتم تشخيص أكثر من 5600 شخص بقليل في الولايات المتحدة بمرض التصلب الجانبي الضموري
21
+ كل عام. (هذه ضحية جديدة كل 90 دقيقة). تشير التقديرات إلى أن ما يصل إلى 30 ألف
22
+ أمريكي يعانون من المرض في أي وقت. 80٪ من المصابين بمرض التصلب الجانبي الضموري
23
+ هم من الرجال و 93٪ من المرضى من القوقاز. تتراوح أعمار معظم المصابين بمرض التصلب
24
+ الجانبي الضموري بين 40 و 70 عامًا ، ويبلغ متوسط ​​أعمارهم 55 عامًا وقت التشخيص.
25
+ ومع ذلك ، تحدث حالات المرض لدى الأشخاص في العشرينات والثلاثينات من العمر.
26
+ - متوسط ​​معدل الذكاء للمراهق هو 100. تأخذ اختبارات الذكاء بعين الاعتبار العمر ،
27
+ لذا فإن متوسط ​​الدرجة دائمًا هو 100 ، بغض النظر عن عمر الشخص.
28
+ - source_sentence: تعريف نظام الغنائم
29
+ sentences:
30
+ - 'تعريف نظام الغنائم. : ممارسة اعتبار الوظائف العامة ومكافآتها نهبًا لأعضاء الحزب
31
+ المنتصر.'
32
+ - 'نظام الغنائم الاسمي له معنى واحد: 1 1. نظام توظيف وترقية موظفي الخدمة المدنية
33
+ الذين هم أصدقاء وداعمون للمجموعة في السلطة. 2 المعنى: 3 نظام توظيف وترقية موظفي
34
+ الخدمة المدنية الذين هم أصدقاء ومؤيدون للمجموعة الحاكمة. 4 مصنفة تحت: 5 أسماء
35
+ تدل على العمليات والمحتويات المعرفية.'
36
+ - يساعد الشطف بخل التفاح على موازنة درجة حموضة شعرك وإزالة المواد المتراكمة التي
37
+ يمكن أن تنتج عن استخدام منتجات التصفيف والشامبو غير المكلف. سيؤدي الشطف أيضًا
38
+ إلى إغلاق قشور البشرة العديدة التي تغطي وتحمي سطح كل شعرة.
39
+ - source_sentence: مجموعة من الإناث تجلس على مقعد
40
+ sentences:
41
+ - هناك على الأقل إمرأتان
42
+ - ما هو أكثر طبق لذيذ أكلته في حياتك ولماذا؟
43
+ - الأنثى تطير في الهواء على فراشاتها
44
+ - source_sentence: فتاة صغيرة ترتدي قفاز البيسبول أو البيسبول ترفع يدها الأخرى بينما
45
+ يقف طفلان خلفها.
46
+ sentences:
47
+ - كيف ستكون العلاقات الثنائية بين الهند والولايات المتحدة الأمريكية تحت رئاسة هيلاري
48
+ كلينتون؟
49
+ - الاطفال جميعهم مع بعض
50
+ - لا يوجد أحد بالجوار
51
+ - source_sentence: ما الفرق بين الحذف والتقطيع؟
52
+ sentences:
53
+ - أي كتاب أفضل لـ (نيت) ؟
54
+ - ما هي الخيارات المهنية الجيدة بعد البكالوريوس في الهندسة الكهربائية من معهد الهندسة
55
+ الوطنية؟
56
+ - ما هي الاختلافات بين الحذف والتقطيع؟
57
+ pipeline_tag: sentence-similarity
58
+ library_name: sentence-transformers
59
+ metrics:
60
+ - cosine_accuracy
61
+ model-index:
62
+ - name: AraBERT v2 base trained on Arabic triplets
63
+ results:
64
+ - task:
65
+ type: triplet
66
+ name: Triplet
67
+ dataset:
68
+ name: arabic valid
69
+ type: arabic-valid
70
+ metrics:
71
+ - type: cosine_accuracy
72
+ value: 0.9210000038146973
73
+ name: Cosine Accuracy
74
+ - task:
75
+ type: triplet
76
+ name: Triplet
77
+ dataset:
78
+ name: arabic test
79
+ type: arabic-test
80
+ metrics:
81
+ - type: cosine_accuracy
82
+ value: 0.9328100085258484
83
+ name: Cosine Accuracy
84
+ ---
85
+
86
+ # AraBERT v2 base trained on Arabic triplets
87
+
88
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
89
+
90
+ ## Model Details
91
+
92
+ ### Model Description
93
+ - **Model Type:** Sentence Transformer
94
+ - **Base model:** [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) <!-- at revision 016fb9d6768f522a59c6e0d2d5d5d43a4e1bff60 -->
95
+ - **Maximum Sequence Length:** 128 tokens
96
+ - **Output Dimensionality:** 768 dimensions
97
+ - **Similarity Function:** Cosine Similarity
98
+ <!-- - **Training Dataset:** Unknown -->
99
+ - **Language:** ar
100
+ - **License:** apache-2.0
101
+
102
+ ### Model Sources
103
+
104
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
105
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
106
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
107
+
108
+ ### Full Model Architecture
109
+
110
+ ```
111
+ SentenceTransformer(
112
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'BertModel'})
113
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
114
+ )
115
+ ```
116
+
117
+ ## Usage
118
+
119
+ ### Direct Usage (Sentence Transformers)
120
+
121
+ First install the Sentence Transformers library:
122
+
123
+ ```bash
124
+ pip install -U sentence-transformers
125
+ ```
126
+
127
+ Then you can load this model and run inference.
128
+ ```python
129
+ from sentence_transformers import SentenceTransformer
130
+
131
+ # Download from the 🤗 Hub
132
+ model = SentenceTransformer("hindalmayyali/Sentence_arabertV1")
133
+ # Run inference
134
+ sentences = [
135
+ 'ما الفرق بين الحذف والتقطيع؟',
136
+ 'ما هي الاختلافات بين الحذف والتقطيع؟',
137
+ 'أي كتاب أفضل لـ (نيت) ؟',
138
+ ]
139
+ embeddings = model.encode(sentences)
140
+ print(embeddings.shape)
141
+ # [3, 768]
142
+
143
+ # Get the similarity scores for the embeddings
144
+ similarities = model.similarity(embeddings, embeddings)
145
+ print(similarities)
146
+ # tensor([[1.0000, 0.9696, 0.0441],
147
+ # [0.9696, 1.0000, 0.0674],
148
+ # [0.0441, 0.0674, 1.0000]])
149
+ ```
150
+
151
+ <!--
152
+ ### Direct Usage (Transformers)
153
+
154
+ <details><summary>Click to see the direct usage in Transformers</summary>
155
+
156
+ </details>
157
+ -->
158
+
159
+ <!--
160
+ ### Downstream Usage (Sentence Transformers)
161
+
162
+ You can finetune this model on your own dataset.
163
+
164
+ <details><summary>Click to expand</summary>
165
+
166
+ </details>
167
+ -->
168
+
169
+ <!--
170
+ ### Out-of-Scope Use
171
+
172
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
173
+ -->
174
+
175
+ ## Evaluation
176
+
177
+ ### Metrics
178
+
179
+ #### Triplet
180
+
181
+ * Datasets: `arabic-valid` and `arabic-test`
182
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
183
+
184
+ | Metric | arabic-valid | arabic-test |
185
+ |:--------------------|:-------------|:------------|
186
+ | **cosine_accuracy** | **0.921** | **0.9328** |
187
+
188
+ <!--
189
+ ## Bias, Risks and Limitations
190
+
191
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
192
+ -->
193
+
194
+ <!--
195
+ ### Recommendations
196
+
197
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
198
+ -->
199
+
200
+ ## Training Details
201
+
202
+ ### Training Dataset
203
+
204
+ #### Unnamed Dataset
205
+
206
+ * Size: 50,000 training samples
207
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
208
+ * Approximate statistics based on the first 1000 samples:
209
+ | | anchor | positive | negative |
210
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
211
+ | type | string | string | string |
212
+ | details | <ul><li>min: 4 tokens</li><li>mean: 12.44 tokens</li><li>max: 60 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 31.86 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 30.49 tokens</li><li>max: 128 tokens</li></ul> |
213
+ * Samples:
214
+ | anchor | positive | negative |
215
+ |:------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
216
+ | <code>حسناً، هذا رائع</code> | <code>سيكون رائعاً</code> | <code>هذا ليس مثيراً للاهتمام</code> |
217
+ | <code>كم من الوقت لطهي كارني أسادا على الشواية</code> | <code>متبل كارني أسادا. أخرج شرائح اللحم من الثلاجة. صفي التتبيلة واتركي سطح اللحم يجف بمنشفة ورقية. اشوي شرائح اللحم على صينية أو مقلاة أو شواية خارجية لمدة 4 إلى 5 دقائق لكل جانب. يُقدم مع شرائح البصل الأحمر أو الأرز المكسيكي الأصفر أو الأحمر أو الأخضر.</code> | <code>ضع شرائح لحم الخنزير على مقلاة الشواء الساخنة واطبخها لمدة 8 إلى 10 دقائق على كل جانب ، حتى يتفحم اللحم قليلًا ويصل إلى درجة حرارة داخلية لا تقل عن 145 درجة فهرنهايت. استخدم الملقط لرفع شرائح اللحم وشويها الجانبين كذلك.</code> |
218
+ | <code>ماذا يفعل ارتفاع السكر في الدم للأوعية الدموية</code> | <code>البطانة السليمة ضرورية لتدفق الدم بحرية في الأوعية الدموية. ارتفاع نسبة السكر في الدم في مرض السكري يضر البطانة. هذا يعيق التدفق المستمر للدم داخل الأوعية الدموية. يقلل مرض السكري من إطلاق أكسيد النيتريك من الأوعية الدموية.</code> | <code>الشريان (التعريف). الشرايين نوع من الأوعية الدموية. يمكننا تقسيم الأوعية الدموية إلى فئتين. الشرايين هي أوعية ضغط مرتفع تنقل الأكسجين (الأحمر) + الدم إلى الجسم. من ناحية أخرى ، الأوردة أو الأوعية ذات الضغط المنخفض التي تعود (الداكن) من الدم المؤكسج من الجسم إلى القلب. الشرايين نوع من الأوعية الدموية. يمكننا تقسيم الأوعية الدموية إلى فئتين. الشرايين هي أوعية ضغط مرتفع تنقل الأكسجين (الأحمر) + الدم إلى الجسم. من ناحية أخرى ، الأوردة أو الأوعية ذات الضغط المنخفض التي ترجع الدم المؤكسج (الداكن) من الجسم إلى ا��قلب.</code> |
219
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
220
+ ```json
221
+ {
222
+ "scale": 20.0,
223
+ "similarity_fct": "cos_sim",
224
+ "gather_across_devices": false
225
+ }
226
+ ```
227
+
228
+ ### Evaluation Dataset
229
+
230
+ #### Unnamed Dataset
231
+
232
+ * Size: 200,001 evaluation samples
233
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
234
+ * Approximate statistics based on the first 1000 samples:
235
+ | | anchor | positive | negative |
236
+ |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
237
+ | type | string | string | string |
238
+ | details | <ul><li>min: 4 tokens</li><li>mean: 12.14 tokens</li><li>max: 73 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 31.92 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 31.02 tokens</li><li>max: 128 tokens</li></ul> |
239
+ * Samples:
240
+ | anchor | positive | negative |
241
+ |:-------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
242
+ | <code>متوسط ​​تكلفة بناء منزل جديد لكل قدم مربع</code> | <code>متوسط ​​تكاليف بناء المنزل الجديد حوالي 100 دولار للقدم المربع. تتراوح متوسطات الولاية من 75 دولارًا إلى 130 دولارًا. هذه الأرقام مضللة إلى حد ما ، مثلها مثل جميع المعدلات. من الواضح كما هو الحال مع جميع المتوسطات ، أن بعضها يكلف أكثر بكثير والبعض الآخر يكلف أقل بكثير.</code> | <code>متوسط ​​التكلفة للقدم المربع للمباني التجارية في حدود 200 دولار. هناك العديد من العوامل التي تدخل في السعر مثل الحجم والموقع. ما هو متوسط ​​تكلفة البناء لكل قدم مربع لبناء منزل في نانتوكيت ما؟ يبلغ متوسط ​​تكاليف البناء في عام 2012 حوالي 350 دولارًا للقدم المربع ، ولكن يمكن أن تتجاوز بسهولة 500 دولار للبناء عالي الجودة.</code> |
243
+ | <code>السيدة الأولى لورا بوش على المنصة، أمام الجمهور الجالس، في مؤتمر البيت الأبيض حول محو الأمية العالمي.</code> | <code>لورا بوش تقف أمام مؤتمر</code> | <code>(لورا بوش) تقود دراجة مائية قرب نصب (واشنطن) التذكاري</code> |
244
+ | <code>هل كان إعادة الإعمار الأمريكي فشلاً؟</code> | <code>هل كان إعادة الإعمار فشلاً؟ لماذا أو لماذا لا؟</code> | <code>هل يتوسع الكون؟</code> |
245
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
246
+ ```json
247
+ {
248
+ "scale": 20.0,
249
+ "similarity_fct": "cos_sim",
250
+ "gather_across_devices": false
251
+ }
252
+ ```
253
+
254
+ ### Training Hyperparameters
255
+ #### Non-Default Hyperparameters
256
+
257
+ - `eval_strategy`: epoch
258
+ - `per_device_train_batch_size`: 32
259
+ - `per_device_eval_batch_size`: 48
260
+ - `gradient_accumulation_steps`: 2
261
+ - `learning_rate`: 2e-05
262
+ - `num_train_epochs`: 10
263
+ - `warmup_ratio`: 0.1
264
+ - `load_best_model_at_end`: True
265
+ - `optim`: adamw_torch
266
+ - `dataloader_pin_memory`: False
267
+ - `gradient_checkpointing`: True
268
+ - `batch_sampler`: no_duplicates
269
+
270
+ #### All Hyperparameters
271
+ <details><summary>Click to expand</summary>
272
+
273
+ - `overwrite_output_dir`: False
274
+ - `do_predict`: False
275
+ - `eval_strategy`: epoch
276
+ - `prediction_loss_only`: True
277
+ - `per_device_train_batch_size`: 32
278
+ - `per_device_eval_batch_size`: 48
279
+ - `per_gpu_train_batch_size`: None
280
+ - `per_gpu_eval_batch_size`: None
281
+ - `gradient_accumulation_steps`: 2
282
+ - `eval_accumulation_steps`: None
283
+ - `torch_empty_cache_steps`: None
284
+ - `learning_rate`: 2e-05
285
+ - `weight_decay`: 0.0
286
+ - `adam_beta1`: 0.9
287
+ - `adam_beta2`: 0.999
288
+ - `adam_epsilon`: 1e-08
289
+ - `max_grad_norm`: 1.0
290
+ - `num_train_epochs`: 10
291
+ - `max_steps`: -1
292
+ - `lr_scheduler_type`: linear
293
+ - `lr_scheduler_kwargs`: {}
294
+ - `warmup_ratio`: 0.1
295
+ - `warmup_steps`: 0
296
+ - `log_level`: passive
297
+ - `log_level_replica`: warning
298
+ - `log_on_each_node`: True
299
+ - `logging_nan_inf_filter`: True
300
+ - `save_safetensors`: True
301
+ - `save_on_each_node`: False
302
+ - `save_only_model`: False
303
+ - `restore_callback_states_from_checkpoint`: False
304
+ - `no_cuda`: False
305
+ - `use_cpu`: False
306
+ - `use_mps_device`: False
307
+ - `seed`: 42
308
+ - `data_seed`: None
309
+ - `jit_mode_eval`: False
310
+ - `use_ipex`: False
311
+ - `bf16`: False
312
+ - `fp16`: False
313
+ - `fp16_opt_level`: O1
314
+ - `half_precision_backend`: auto
315
+ - `bf16_full_eval`: False
316
+ - `fp16_full_eval`: False
317
+ - `tf32`: None
318
+ - `local_rank`: 0
319
+ - `ddp_backend`: None
320
+ - `tpu_num_cores`: None
321
+ - `tpu_metrics_debug`: False
322
+ - `debug`: []
323
+ - `dataloader_drop_last`: False
324
+ - `dataloader_num_workers`: 0
325
+ - `dataloader_prefetch_factor`: None
326
+ - `past_index`: -1
327
+ - `disable_tqdm`: False
328
+ - `remove_unused_columns`: True
329
+ - `label_names`: None
330
+ - `load_best_model_at_end`: True
331
+ - `ignore_data_skip`: False
332
+ - `fsdp`: []
333
+ - `fsdp_min_num_params`: 0
334
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
335
+ - `fsdp_transformer_layer_cls_to_wrap`: None
336
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
337
+ - `parallelism_config`: None
338
+ - `deepspeed`: None
339
+ - `label_smoothing_factor`: 0.0
340
+ - `optim`: adamw_torch
341
+ - `optim_args`: None
342
+ - `adafactor`: False
343
+ - `group_by_length`: False
344
+ - `length_column_name`: length
345
+ - `ddp_find_unused_parameters`: None
346
+ - `ddp_bucket_cap_mb`: None
347
+ - `ddp_broadcast_buffers`: False
348
+ - `dataloader_pin_memory`: False
349
+ - `dataloader_persistent_workers`: False
350
+ - `skip_memory_metrics`: True
351
+ - `use_legacy_prediction_loop`: False
352
+ - `push_to_hub`: False
353
+ - `resume_from_checkpoint`: None
354
+ - `hub_model_id`: None
355
+ - `hub_strategy`: every_save
356
+ - `hub_private_repo`: None
357
+ - `hub_always_push`: False
358
+ - `hub_revision`: None
359
+ - `gradient_checkpointing`: True
360
+ - `gradient_checkpointing_kwargs`: None
361
+ - `include_inputs_for_metrics`: False
362
+ - `include_for_metrics`: []
363
+ - `eval_do_concat_batches`: True
364
+ - `fp16_backend`: auto
365
+ - `push_to_hub_model_id`: None
366
+ - `push_to_hub_organization`: None
367
+ - `mp_parameters`:
368
+ - `auto_find_batch_size`: False
369
+ - `full_determinism`: False
370
+ - `torchdynamo`: None
371
+ - `ray_scope`: last
372
+ - `ddp_timeout`: 1800
373
+ - `torch_compile`: False
374
+ - `torch_compile_backend`: None
375
+ - `torch_compile_mode`: None
376
+ - `include_tokens_per_second`: False
377
+ - `include_num_input_tokens_seen`: False
378
+ - `neftune_noise_alpha`: None
379
+ - `optim_target_modules`: None
380
+ - `batch_eval_metrics`: False
381
+ - `eval_on_start`: False
382
+ - `use_liger_kernel`: False
383
+ - `liger_kernel_config`: None
384
+ - `eval_use_gather_object`: False
385
+ - `average_tokens_across_devices`: False
386
+ - `prompts`: None
387
+ - `batch_sampler`: no_duplicates
388
+ - `multi_dataset_batch_sampler`: proportional
389
+ - `router_mapping`: {}
390
+ - `learning_rate_mapping`: {}
391
+
392
+ </details>
393
+
394
+ ### Training Logs
395
+ <details><summary>Click to expand</summary>
396
+
397
+ | Epoch | Step | Training Loss | Validation Loss | arabic-valid_cosine_accuracy | arabic-test_cosine_accuracy |
398
+ |:-------:|:--------:|:-------------:|:---------------:|:----------------------------:|:---------------------------:|
399
+ | 0.0013 | 1 | 2.3706 | - | - | - |
400
+ | 0.0640 | 50 | 2.0507 | - | - | - |
401
+ | 0.1280 | 100 | 1.2702 | - | - | - |
402
+ | 0.1919 | 150 | 0.8272 | - | - | - |
403
+ | 0.2559 | 200 | 0.665 | - | - | - |
404
+ | 0.3199 | 250 | 0.612 | - | - | - |
405
+ | 0.3839 | 300 | 0.5628 | - | - | - |
406
+ | 0.4479 | 350 | 0.5455 | - | - | - |
407
+ | 0.5118 | 400 | 0.484 | - | - | - |
408
+ | 0.5758 | 450 | 0.4632 | - | - | - |
409
+ | 0.6398 | 500 | 0.4618 | - | - | - |
410
+ | 0.7038 | 550 | 0.4384 | - | - | - |
411
+ | 0.7678 | 600 | 0.4087 | - | - | - |
412
+ | 0.8317 | 650 | 0.3721 | - | - | - |
413
+ | 0.8957 | 700 | 0.4261 | - | - | - |
414
+ | 0.9597 | 750 | 0.4114 | - | - | - |
415
+ | 1.0 | 782 | - | 0.4069 | 0.9200 | - |
416
+ | 1.0230 | 800 | 0.3637 | - | - | - |
417
+ | 1.0870 | 850 | 0.3329 | - | - | - |
418
+ | 1.1510 | 900 | 0.3133 | - | - | - |
419
+ | 1.2150 | 950 | 0.2974 | - | - | - |
420
+ | 1.2790 | 1000 | 0.2944 | - | - | - |
421
+ | 1.3429 | 1050 | 0.2627 | - | - | - |
422
+ | 1.4069 | 1100 | 0.2994 | - | - | - |
423
+ | 1.4709 | 1150 | 0.3068 | - | - | - |
424
+ | 1.5349 | 1200 | 0.3016 | - | - | - |
425
+ | 1.5988 | 1250 | 0.3068 | - | - | - |
426
+ | 1.6628 | 1300 | 0.304 | - | - | - |
427
+ | 1.7268 | 1350 | 0.3012 | - | - | - |
428
+ | 1.7908 | 1400 | 0.2998 | - | - | - |
429
+ | 1.8548 | 1450 | 0.3181 | - | - | - |
430
+ | 1.9187 | 1500 | 0.2858 | - | - | - |
431
+ | 1.9827 | 1550 | 0.2843 | - | - | - |
432
+ | 2.0 | 1564 | - | 0.3489 | 0.9340 | - |
433
+ | 2.0461 | 1600 | 0.223 | - | - | - |
434
+ | 2.1100 | 1650 | 0.191 | - | - | - |
435
+ | 2.1740 | 1700 | 0.1828 | - | - | - |
436
+ | 2.2380 | 1750 | 0.1762 | - | - | - |
437
+ | 2.3020 | 1800 | 0.2021 | - | - | - |
438
+ | 2.3660 | 1850 | 0.1824 | - | - | - |
439
+ | 2.4299 | 1900 | 0.1873 | - | - | - |
440
+ | 2.4939 | 1950 | 0.188 | - | - | - |
441
+ | 2.5579 | 2000 | 0.188 | - | - | - |
442
+ | 2.6219 | 2050 | 0.1909 | - | - | - |
443
+ | 2.6859 | 2100 | 0.1888 | - | - | - |
444
+ | 2.7498 | 2150 | 0.1839 | - | - | - |
445
+ | 2.8138 | 2200 | 0.1965 | - | - | - |
446
+ | 2.8778 | 2250 | 0.1881 | - | - | - |
447
+ | 2.9418 | 2300 | 0.1753 | - | - | - |
448
+ | 3.0 | 2346 | - | 0.3480 | 0.9290 | - |
449
+ | 3.0051 | 2350 | 0.1847 | - | - | - |
450
+ | 3.0691 | 2400 | 0.1415 | - | - | - |
451
+ | 3.1331 | 2450 | 0.1258 | - | - | - |
452
+ | 3.1971 | 2500 | 0.1125 | - | - | - |
453
+ | 3.2610 | 2550 | 0.1186 | - | - | - |
454
+ | 3.3250 | 2600 | 0.1235 | - | - | - |
455
+ | 3.3890 | 2650 | 0.1328 | - | - | - |
456
+ | 3.4530 | 2700 | 0.1294 | - | - | - |
457
+ | 3.5170 | 2750 | 0.138 | - | - | - |
458
+ | 3.5809 | 2800 | 0.1282 | - | - | - |
459
+ | 3.6449 | 2850 | 0.1391 | - | - | - |
460
+ | 3.7089 | 2900 | 0.1321 | - | - | - |
461
+ | 3.7729 | 2950 | 0.1396 | - | - | - |
462
+ | 3.8369 | 3000 | 0.1344 | - | - | - |
463
+ | 3.9008 | 3050 | 0.1257 | - | - | - |
464
+ | 3.9648 | 3100 | 0.1441 | - | - | - |
465
+ | **4.0** | **3128** | **-** | **0.3466** | **0.924** | **-** |
466
+ | 4.0282 | 3150 | 0.1105 | - | - | - |
467
+ | 4.0921 | 3200 | 0.0954 | - | - | - |
468
+ | 4.1561 | 3250 | 0.0894 | - | - | - |
469
+ | 4.2201 | 3300 | 0.0945 | - | - | - |
470
+ | 4.2841 | 3350 | 0.0958 | - | - | - |
471
+ | 4.3480 | 3400 | 0.0957 | - | - | - |
472
+ | 4.4120 | 3450 | 0.0935 | - | - | - |
473
+ | 4.4760 | 3500 | 0.1093 | - | - | - |
474
+ | 4.5400 | 3550 | 0.1107 | - | - | - |
475
+ | 4.6040 | 3600 | 0.0995 | - | - | - |
476
+ | 4.6679 | 3650 | 0.1081 | - | - | - |
477
+ | 4.7319 | 3700 | 0.0887 | - | - | - |
478
+ | 4.7959 | 3750 | 0.0952 | - | - | - |
479
+ | 4.8599 | 3800 | 0.0976 | - | - | - |
480
+ | 4.9239 | 3850 | 0.1034 | - | - | - |
481
+ | 4.9878 | 3900 | 0.0903 | - | - | - |
482
+ | 5.0 | 3910 | - | 0.3495 | 0.9240 | - |
483
+ | 5.0512 | 3950 | 0.0748 | - | - | - |
484
+ | 5.1152 | 4000 | 0.0881 | - | - | - |
485
+ | 5.1791 | 4050 | 0.0721 | - | - | - |
486
+ | 5.2431 | 4100 | 0.0811 | - | - | - |
487
+ | 5.3071 | 4150 | 0.0834 | - | - | - |
488
+ | 5.3711 | 4200 | 0.0936 | - | - | - |
489
+ | 5.4351 | 4250 | 0.0769 | - | - | - |
490
+ | 5.4990 | 4300 | 0.0817 | - | - | - |
491
+ | 5.5630 | 4350 | 0.078 | - | - | - |
492
+ | 5.6270 | 4400 | 0.0925 | - | - | - |
493
+ | 5.6910 | 4450 | 0.0773 | - | - | - |
494
+ | 5.7550 | 4500 | 0.0779 | - | - | - |
495
+ | 5.8189 | 4550 | 0.0726 | - | - | - |
496
+ | 5.8829 | 4600 | 0.0864 | - | - | - |
497
+ | 5.9469 | 4650 | 0.0779 | - | - | - |
498
+ | 6.0 | 4692 | - | 0.3469 | 0.9250 | - |
499
+ | 6.0102 | 4700 | 0.0795 | - | - | - |
500
+ | 6.0742 | 4750 | 0.0673 | - | - | - |
501
+ | 6.1382 | 4800 | 0.0653 | - | - | - |
502
+ | 6.2022 | 4850 | 0.0638 | - | - | - |
503
+ | 6.2662 | 4900 | 0.0597 | - | - | - |
504
+ | 6.3301 | 4950 | 0.0705 | - | - | - |
505
+ | 6.3941 | 5000 | 0.0664 | - | - | - |
506
+ | 6.4581 | 5050 | 0.0675 | - | - | - |
507
+ | 6.5221 | 5100 | 0.0742 | - | - | - |
508
+ | 6.5861 | 5150 | 0.0704 | - | - | - |
509
+ | 6.6500 | 5200 | 0.06 | - | - | - |
510
+ | 6.7140 | 5250 | 0.0586 | - | - | - |
511
+ | 6.7780 | 5300 | 0.0643 | - | - | - |
512
+ | 6.8420 | 5350 | 0.0699 | - | - | - |
513
+ | 6.9060 | 5400 | 0.067 | - | - | - |
514
+ | 6.9699 | 5450 | 0.0643 | - | - | - |
515
+ | 7.0 | 5474 | - | 0.3491 | 0.9210 | - |
516
+ | -1 | -1 | - | - | - | 0.9328 |
517
+
518
+ * The bold row denotes the saved checkpoint.
519
+ </details>
520
+
521
+ ### Framework Versions
522
+ - Python: 3.13.2
523
+ - Sentence Transformers: 5.1.0
524
+ - Transformers: 4.56.1
525
+ - PyTorch: 2.8.0
526
+ - Accelerate: 1.10.1
527
+ - Datasets: 4.0.0
528
+ - Tokenizers: 0.22.0
529
+
530
+ ## Citation
531
+
532
+ ### BibTeX
533
+
534
+ #### Sentence Transformers
535
+ ```bibtex
536
+ @inproceedings{reimers-2019-sentence-bert,
537
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
538
+ author = "Reimers, Nils and Gurevych, Iryna",
539
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
540
+ month = "11",
541
+ year = "2019",
542
+ publisher = "Association for Computational Linguistics",
543
+ url = "https://arxiv.org/abs/1908.10084",
544
+ }
545
+ ```
546
+
547
+ #### MultipleNegativesRankingLoss
548
+ ```bibtex
549
+ @misc{henderson2017efficient,
550
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
551
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
552
+ year={2017},
553
+ eprint={1705.00652},
554
+ archivePrefix={arXiv},
555
+ primaryClass={cs.CL}
556
+ }
557
+ ```
558
+
559
+ <!--
560
+ ## Glossary
561
+
562
+ *Clearly define terms in order to be accessible across audiences.*
563
+ -->
564
+
565
+ <!--
566
+ ## Model Card Authors
567
+
568
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
569
+ -->
570
+
571
+ <!--
572
+ ## Model Card Contact
573
+
574
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
575
+ -->
config.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "classifier_dropout": null,
7
+ "dtype": "float32",
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.1,
10
+ "hidden_size": 768,
11
+ "initializer_range": 0.02,
12
+ "intermediate_size": 3072,
13
+ "layer_norm_eps": 1e-12,
14
+ "max_position_embeddings": 512,
15
+ "model_type": "bert",
16
+ "num_attention_heads": 12,
17
+ "num_hidden_layers": 12,
18
+ "pad_token_id": 0,
19
+ "position_embedding_type": "absolute",
20
+ "transformers_version": "4.56.1",
21
+ "type_vocab_size": 2,
22
+ "use_cache": true,
23
+ "vocab_size": 64000
24
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.1.0",
5
+ "transformers": "4.56.1",
6
+ "pytorch": "2.8.0"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2de768f6f36773d548c72ef7897ad5ef261463ef32779d5621902514d30d0c80
3
+ size 540795752
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,94 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[رابط]",
45
+ "lstrip": false,
46
+ "normalized": true,
47
+ "rstrip": false,
48
+ "single_word": true,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[بريد]",
53
+ "lstrip": false,
54
+ "normalized": true,
55
+ "rstrip": false,
56
+ "single_word": true,
57
+ "special": true
58
+ },
59
+ "7": {
60
+ "content": "[مستخدم]",
61
+ "lstrip": false,
62
+ "normalized": true,
63
+ "rstrip": false,
64
+ "single_word": true,
65
+ "special": true
66
+ }
67
+ },
68
+ "clean_up_tokenization_spaces": false,
69
+ "cls_token": "[CLS]",
70
+ "do_basic_tokenize": true,
71
+ "do_lower_case": false,
72
+ "extra_special_tokens": {},
73
+ "mask_token": "[MASK]",
74
+ "max_len": 512,
75
+ "max_length": 128,
76
+ "model_max_length": 128,
77
+ "never_split": [
78
+ "[بريد]",
79
+ "[مستخدم]",
80
+ "[رابط]"
81
+ ],
82
+ "pad_to_multiple_of": null,
83
+ "pad_token": "[PAD]",
84
+ "pad_token_type_id": 0,
85
+ "padding_side": "right",
86
+ "sep_token": "[SEP]",
87
+ "stride": 0,
88
+ "strip_accents": null,
89
+ "tokenize_chinese_chars": true,
90
+ "tokenizer_class": "BertTokenizer",
91
+ "truncation_side": "right",
92
+ "truncation_strategy": "longest_first",
93
+ "unk_token": "[UNK]"
94
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff