TheMohanad1 commited on
Commit
0859add
·
verified ·
1 Parent(s): d3c0fcb

Upload 13 files

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling-20251004T144052Z-1-001.zip ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46788f682b2bb289d711796e1423a67dcd04d86f5580cba4d09f0ed4647e94a1
3
+ size 345
2_Normalize-20251004T144047Z-1-001.zip ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e64ddcad65e6c75e5ab353eda92874f32a2b180d1fa44e796cee5de79c368b95
3
+ size 190
README.md ADDED
@@ -0,0 +1,540 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:1109
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-large
10
+ widget:
11
+ - source_sentence: ماذا تقول المادة الخامسة عشرة من الباب الثالث لنظام القضاء؟
12
+ sentences:
13
+ - 'نظام القضاء
14
+
15
+ الباب الثالث المحاكم وولايتها
16
+
17
+ الفصل الثالث محاكم الإستئناف
18
+
19
+ المادة الخامسة عشرة
20
+
21
+
22
+ ١- يكون في كل منطقة محكمة استئناف أو أكثر، وتباشر أعمالها من خلال دوائر متخصصة،
23
+ تؤلف كل دائرة منها من ثلاثة قضاة، باستثناء الدائرة الجزائية التي تنظر في قضايا
24
+ القتل والقطع والرجم والقصاص في النفس أو فيما دونها فتؤلف من خمسة قضاة، ولا تقل
25
+ درجة القاضي في محكمة الاستئناف عن درجة قاضي استئناف، ويكون لكل دائرة رئيس.٢- يجوز
26
+ إنشاء دائرة استئناف متخصصة أو أكثر في المحافظات التابعة للمنطقة التي فيها محكمة
27
+ استئناف .٣- يسمى رئيس كل دائرة وأعضاؤها بقرار من رئيس محكمة الاستئناف ، ويتولى
28
+ رئيس المحكمة - أو من ينيبه من أعضاء المحكمة - رئاسة الدائرة عند غياب رئيسها.'
29
+ - 'القواعد الخاصة بتنظيم شؤون الخبرة أمام المحاكم
30
+
31
+ الترخيص للخبراء
32
+
33
+
34
+ المادة الحادية عشرة
35
+
36
+
37
+ تعد الوحدة الاختبار الخاص بالترخيص.'
38
+ - 'نظام التنفيذ
39
+
40
+ الباب الأول:
41
+
42
+ الفصل الأول: اختصاصات قاضي التنفيذ
43
+
44
+ المادة الخامسة
45
+
46
+
47
+ إذا تعددت الدوائر المختصة بالتنفيذ؛ فيكون لقاضي التنفيذ - الذي قام بأول إجراء
48
+ تنفيذي - الإشراف على التنفيذ وتوزيع حصيلته، وله أن ينيب قاضي تنفيذ في دائرة أخرى
49
+ للتنفيذ على مال المدين، وتحدد اللائحة الأحكام اللازمة لذلك.'
50
+ - source_sentence: وش تنص عليه المادة 133 من الأدلة الإجرائية لنظام الإثبات؟
51
+ sentences:
52
+ - 'اللائحة التنفيذية لنظام الإجراءات الجزائية
53
+
54
+ الباب السابع طرق الاعتراض على الأحكام
55
+
56
+ الفصل الأول الاستئناف
57
+
58
+ المادة الرابعة والأربعون بعد المائة
59
+
60
+ تهمش محكمة الاستئناف بمضمون أحكامها وقراراتها النهائية الصادرة بخصوص أحكام محاكم
61
+ الدرجة الأولى على تلك الأحكام، وتشعرها بما أصدرته لنقل ذلك في ضبط الدعوى وسجل
62
+ الصك.'
63
+ - 'الأدلة الإجرائية لنظام الإثبات
64
+
65
+ الخبرة
66
+
67
+
68
+ المادة الثالثة والثلاثون بعد المائة
69
+
70
+
71
+ تختص المحكمة التي ندبت الخبرة بنظر دعوى التعويض الناشئة عن أعمال الخبرة، على أن
72
+ ترفع هذه الدعوى قبل مضي (تسعين) يومًا من اكتساب الحكم الصفة النهائية.'
73
+ - 'نظام الإجراءات الجزائية
74
+
75
+ الباب السادس إجراءات المحاكمة
76
+
77
+ الفصل السادس إجراءات الجلسة ونظامها
78
+
79
+ المادة السادسة والخمسون بعد المائة
80
+
81
+ يجب أن يحضر المدعي العام جلسات المحكمة في الحق العام، وذلك في الجرائم التي تحددها
82
+ لوائح هذا النظام، وعلى المحكمة سماع أقواله والفصل فيها.'
83
+ - source_sentence: وش تنص عليه المادة 152 من الباب 1 نظام المعاملات المدنية؟
84
+ sentences:
85
+ - 'اللائحة التنفيذية لتنظيم الترخيص لمكاتب المحاماة الأجنبية
86
+
87
+ شروط الترخيص وإجراءاته
88
+
89
+
90
+ المادة الثانية
91
+
92
+
93
+ مع مراعاة ما نصت عليه المادة (الخامسة والأربعون) من النظام؛ يشترط للحصول على الترخيص
94
+ ألا يكون قد صدر ضد مكتب المحاماة الأجنبي حكم نهائي في جريمة مخلة بالشرف أو الأمانة،
95
+ أو قرار نهائي في مخالفة مهنية جسيمة؛ في أي بلد يزاول المهنة فيه -ما لم يكن قد
96
+ مضى على انتهاء تنفيذ الحكم أو القرار خمس سنوات على الأقل-.'
97
+ - 'اللوائح التنفيذية لنظام المرافعات الشرعية
98
+
99
+ الباب السادس الدفوع والإدخال والتدخل والطلبات العارضة
100
+
101
+ الفصل الأول الدفوع
102
+
103
+ المادة السابعة والسبعون
104
+
105
+ الفقرة الأولى
106
+
107
+ ضم الدفع إلى الموضوع لا يلزم منه قبول الدفع، أو رده، وعلى المحكمة بيان أسباب ذلك
108
+ في الحكم.
109
+
110
+ الفقرة الثانية
111
+
112
+ إذا حكمت المحكمة -على استقلال- بقبول الدفع فيكون حكمها خاضعًا لطرق الاعتراض.'
113
+ - 'نظام المعاملات المدنية
114
+
115
+ الباب الأول مصادر الالتزام
116
+
117
+ الفصل الرابع الإثراء بلا سبب
118
+
119
+ المادة الثانية والخمسون بعد المائة
120
+
121
+
122
+ تسري أحكام الوكالة إذا أجاز المنتفع ما قام به الفضولي.'
123
+ - source_sentence: ماذا تقول المادة الأولى من اللائحة التنفيذية لنظام الأحداث
124
+ sentences:
125
+ - 'نظام المرافعات الشرعية
126
+
127
+ الباب الثاني الاختصاص
128
+
129
+ الفصل الثاني الاختصاص النوعي
130
+
131
+ المادة الثالثة والثلاثون
132
+
133
+
134
+ تختص محاكم الأحوال الشخصية بالنظر في الآتي:
135
+
136
+ أ- جميع مسائل الأحوال الشخصية، ومنها:
137
+
138
+ إثبات الزواج، والطلاق، والخلع، وفسخ النكاح، والرجعة، والحضانة، والنفقة، والزيارة.
139
+
140
+ إثبات الوقف، والوصية، والنسب، والغيبة، والوفاة، وحصر الورثة.
141
+
142
+ الإرث، وقسمة التركة بما فيها العقار إذا كان فيها نزاع، أو حصة وقف أو وصية، أو
143
+ قاصر، أو غائب.
144
+
145
+ إثبات تعيين الأوصياء، وإقامة الأولياء والنظار، والإذن لهم في التصرفات التي تستوجب
146
+ إذن المحكمة، وعزلهم عند الاقتضاء، والحجر على السفهاء، ورفعه عنهم، وتحدد لوائح
147
+ هذا النظام الإجراءات اللازمة لذلك.
148
+
149
+ إثبات توكيل الأخرس الذي لا يعرف القراءة والكتابة.
150
+
151
+ تزويج من لا ولي لها، أو من عضلها أولياؤها.
152
+
153
+ ب- الدعاوى الناشئة عن مسائل الأحوال الشخصية.
154
+
155
+ ج- الدعاوى المرفوعة لإيقاع العقوبات المنصوص عليها في نظام الهيئة العامة للولاية
156
+ على أموال القاصرين ومن في حكمهم.'
157
+ - 'الأدلة الإجرائية لنظام الإثبات
158
+
159
+ الخبرة
160
+
161
+
162
+ المادة الثامنة عشرة بعد المائة
163
+
164
+
165
+ ما لم ينص في القرار على خلافه، يعد القرار الصادر من المحكمة بندب الخبرة، متضمناً
166
+ الإذن للخبير بالصلاحيات اللازمة لأداء مهمته بما في ذلك الآتي:١- الاطلاع على القضية.٢-
167
+ سماع أقوال الخصوم وملحوظاتهم، وكل من يرى سماع أقواله.٣- الطلب من الخصوم أو غيرهم
168
+ تسليمه أو إطلاعه على الدفاتر أو السجلات أو المستندات أو الأوراق أو الأشياء التي
169
+ يراها ضرورية لتنفيذ مهمته.٤- معاينة المنشآت والأماكن والأشياء التي يلزم معاينتها
170
+ لتنفيذ مهمته.'
171
+ - 'اللائحة التنفيذية لنظام الأحداث
172
+
173
+ المادة الأولى
174
+
175
+
176
+ يقصد بالكلمات الآتية -أينما وردت في هذه اللائحة- المعاني المبينة أمام كل منها:
177
+
178
+ النظام: نظام الأحداث.
179
+
180
+ اللائحة: اللائحة التنفيذية للنظام.
181
+
182
+ الوزارة: وزارة الموارد البشرية والتنمية الاجتماعية.
183
+
184
+ الحدث: كل ذكر أو أنثى أتم (السابعة) ولم يتم (الثامنة عشرة) من عمره.
185
+
186
+ المحكمة: المحكمة -أو الدائرة- المختصة بالنظر في قضايا الأحداث.
187
+
188
+ الدار: جهة تابعة للوزارة، تخصص فيها أماكن مستقلة لإيداع الأحداث من (الذكور)، وأخرى
189
+ خاصة بالإناث، وأماكن توقيف مستقلة للأحداث الموقوفين من (الذكور)، وأخرى خاصة بالإناث
190
+ الموقوفات.'
191
+ - source_sentence: وش تنص عليه المادة 546 من الباب 4 نظام المعاملات المدنية
192
+ sentences:
193
+ - 'الأدلة الإجرائية لنظام الإثبات
194
+
195
+ أحكام عامة
196
+
197
+
198
+ المادة الرابعة والعشرو��
199
+
200
+
201
+ يتعين على المحكمة إثبات تعذر اتخاذ الإجراء إلكترونياً في المحضر قبل الانتقال أو
202
+ الاستخلاف، وفق أحكام المادة (الحادية عشرة) من النظام.'
203
+ - 'الفصل السابع إجراء إعادة التنظيم المالي لصغار المدينين: افتتاح الإجراء
204
+
205
+ ١ - يصدر المدين الصغير أو الجهة المختصة قرار افتتاح إجراء إعادة التنظيم المالي
206
+ لصغار المدينين وفقاً للنموذج المحدد لذلك.٢ - على الأمين التحقق -بناء على المعلومات
207
+ التي يقدمها إليه المدين الصغير أو الجهة المختصة- من توافر شروط افتتاح الإجراء
208
+ الواردة في المادة (الثامنة والأربعين بعد المائة) من النظام، وذلك قبل الإيداع القضائي. ٣-
209
+ يقيد طلب الإيداع القضائي لدى المحكمة، وتصدر المحكمة قرارها في شأن قبول الإيداع
210
+ خلال (ثلاثة) أيام من تاريخ القيد. ٤- إذا كان طلب افتتاح الإجراء مقدماً من الدائن،
211
+ فتحدد المحكمة موعداً للنظر فيه, على أن يكون خلال (أربعين) يوماً من تاريخ قيده،
212
+ وتبلغ الدائن والمدين الصغير بموعد الجلسة خلال (خمسة) أيام من تاريخ القيد، وتقضي
213
+ في الطلب وفقاً لحكم المادة (الثامنة والأربعين بعد المائة) من النظام.'
214
+ - 'نظام المعاملات المدنية
215
+
216
+ الباب الرابع عقود المشاركة
217
+
218
+ الفصل الأول عقد الشركة
219
+
220
+ المادة السادسة والأربعون بعد الخمسمائة
221
+
222
+
223
+ ١- للشركاء الاتفاق في عقد الشركة على كيفية إخراج أي من الشركاء منها وإجراءات ذلك.
224
+
225
+ ٢- لأيٍّ من الشركاء أن يطلب من المحكمة إخراج شريك أو أكثر من الشركة إذا كانت هناك
226
+ أسباب مقبولة تدعو إلى ذلك.'
227
+ pipeline_tag: sentence-similarity
228
+ library_name: sentence-transformers
229
+ ---
230
+
231
+ # SentenceTransformer based on intfloat/multilingual-e5-large
232
+
233
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
234
+
235
+ ## Model Details
236
+
237
+ ### Model Description
238
+ - **Model Type:** Sentence Transformer
239
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
240
+ - **Maximum Sequence Length:** 512 tokens
241
+ - **Output Dimensionality:** 1024 dimensions
242
+ - **Similarity Function:** Cosine Similarity
243
+ <!-- - **Training Dataset:** Unknown -->
244
+ <!-- - **Language:** Unknown -->
245
+ <!-- - **License:** Unknown -->
246
+
247
+ ### Model Sources
248
+
249
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
250
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
251
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
252
+
253
+ ### Full Model Architecture
254
+
255
+ ```
256
+ SentenceTransformer(
257
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
258
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
259
+ (2): Normalize()
260
+ )
261
+ ```
262
+
263
+ ## Usage
264
+
265
+ ### Direct Usage (Sentence Transformers)
266
+
267
+ First install the Sentence Transformers library:
268
+
269
+ ```bash
270
+ pip install -U sentence-transformers
271
+ ```
272
+
273
+ Then you can load this model and run inference.
274
+ ```python
275
+ from sentence_transformers import SentenceTransformer
276
+
277
+ # Download from the 🤗 Hub
278
+ model = SentenceTransformer("sentence_transformers_model_id")
279
+ # Run inference
280
+ sentences = [
281
+ 'وش تنص عليه المادة 546 من الباب 4 نظام المعاملات المدنية',
282
+ 'نظام المعاملات المدنية\nالباب الرابع عقود المشاركة\nالفصل الأول عقد الشركة\nالمادة السادسة والأربعون بعد الخمسمائة\n\n١- للشركاء الاتفاق في عقد الشركة على كيفية إخراج أي من الشركاء منها وإجراءات ذلك.\n٢- لأيٍّ من الشركاء أن يطلب من المحكم�� إخراج شريك أو أكثر من الشركة إذا كانت هناك أسباب مقبولة تدعو إلى ذلك.',
283
+ 'الأدلة الإجرائية لنظام الإثبات\nأحكام عامة\n\nالمادة الرابعة والعشرون\n\nيتعين على المحكمة إثبات تعذر اتخاذ الإجراء إلكترونياً في المحضر قبل الانتقال أو الاستخلاف، وفق أحكام المادة (الحادية عشرة) من النظام.',
284
+ ]
285
+ embeddings = model.encode(sentences)
286
+ print(embeddings.shape)
287
+ # [3, 1024]
288
+
289
+ # Get the similarity scores for the embeddings
290
+ similarities = model.similarity(embeddings, embeddings)
291
+ print(similarities.shape)
292
+ # [3, 3]
293
+ ```
294
+
295
+ <!--
296
+ ### Direct Usage (Transformers)
297
+
298
+ <details><summary>Click to see the direct usage in Transformers</summary>
299
+
300
+ </details>
301
+ -->
302
+
303
+ <!--
304
+ ### Downstream Usage (Sentence Transformers)
305
+
306
+ You can finetune this model on your own dataset.
307
+
308
+ <details><summary>Click to expand</summary>
309
+
310
+ </details>
311
+ -->
312
+
313
+ <!--
314
+ ### Out-of-Scope Use
315
+
316
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
317
+ -->
318
+
319
+ <!--
320
+ ## Bias, Risks and Limitations
321
+
322
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
323
+ -->
324
+
325
+ <!--
326
+ ### Recommendations
327
+
328
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
329
+ -->
330
+
331
+ ## Training Details
332
+
333
+ ### Training Dataset
334
+
335
+ #### Unnamed Dataset
336
+
337
+ * Size: 1,109 training samples
338
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
339
+ * Approximate statistics based on the first 1000 samples:
340
+ | | sentence_0 | sentence_1 |
341
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
342
+ | type | string | string |
343
+ | details | <ul><li>min: 3 tokens</li><li>mean: 36.96 tokens</li><li>max: 202 tokens</li></ul> | <ul><li>min: 22 tokens</li><li>mean: 121.06 tokens</li><li>max: 512 tokens</li></ul> |
344
+ * Samples:
345
+ | sentence_0 | sentence_1 |
346
+ |:-------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
347
+ | <code>يعني لو موظف حكومي عطل تنفيذ حكم، ممكن يدخل السجن؟</code> | <code>نظام التنفيذ<br>الباب الخامس:<br>الفصل الثالث: العقوبات<br>المادة التاسعة والثمانون:<br><br>يعاقب الموظف العام ومن في حكمه بالسجن مدة لا تزيد على سبع سنوات إذا منع التنفيذ أو أعاقه. ويعد ذلك جريمة من الجرائم المخلة بالأمانة.</code> |
348
+ | <code>فلوس التكاليف القضائية اللي يدفعونها الناس وين تروح بالضبط؟</code> | <code>نظام التكاليف القضائية<br>المادة التاسعة عشرة<br><br>تودع مبالغ التكاليف القضائية المحصلة في حساب جاري وزارة المالية لدى البنك المركزي السعودي.</code> |
349
+ | <code>وش تقول المادة خمسة وثلاثين من نظام مكافحة جرائم الإرهاب وتمويله؟</code> | <code>نظام مكافحة جرائم الإرهاب وتمويله<br>الفصل الرابع العقوبات<br><br>المادة الخامسة والثلاثون<br>يعاقب بالسجن مدة لا تزيد على (خمس وعشرين) سنة ولا تقل عن (ثماني) سنوات، كل من حرض آخر على الانضمام إلى أي كيان إرهابي, أو المشاركة في أنشطته، أو جنّده، أو ساهم في تمويل أي من ذلك, فإن كان قد عمل على منعه من الانسحاب من الكيان، أو استغل لهذا الغرض ما يكون له عليه من ولاية أو سلطة أو مسؤولية أو أي صفة تعليمية أو تدريبية أو توجيهية أو اجتماعية أو إرشادية أو إعلامية، فلا تقل عقوبة السجن عن (خمس عشرة) سنة.</code> |
350
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
351
+ ```json
352
+ {
353
+ "scale": 20.0,
354
+ "similarity_fct": "cos_sim"
355
+ }
356
+ ```
357
+
358
+ ### Training Hyperparameters
359
+ #### Non-Default Hyperparameters
360
+
361
+ - `per_device_train_batch_size`: 64
362
+ - `per_device_eval_batch_size`: 64
363
+ - `num_train_epochs`: 5
364
+ - `fp16`: True
365
+ - `multi_dataset_batch_sampler`: round_robin
366
+
367
+ #### All Hyperparameters
368
+ <details><summary>Click to expand</summary>
369
+
370
+ - `overwrite_output_dir`: False
371
+ - `do_predict`: False
372
+ - `eval_strategy`: no
373
+ - `prediction_loss_only`: True
374
+ - `per_device_train_batch_size`: 64
375
+ - `per_device_eval_batch_size`: 64
376
+ - `per_gpu_train_batch_size`: None
377
+ - `per_gpu_eval_batch_size`: None
378
+ - `gradient_accumulation_steps`: 1
379
+ - `eval_accumulation_steps`: None
380
+ - `torch_empty_cache_steps`: None
381
+ - `learning_rate`: 5e-05
382
+ - `weight_decay`: 0.0
383
+ - `adam_beta1`: 0.9
384
+ - `adam_beta2`: 0.999
385
+ - `adam_epsilon`: 1e-08
386
+ - `max_grad_norm`: 1
387
+ - `num_train_epochs`: 5
388
+ - `max_steps`: -1
389
+ - `lr_scheduler_type`: linear
390
+ - `lr_scheduler_kwargs`: {}
391
+ - `warmup_ratio`: 0.0
392
+ - `warmup_steps`: 0
393
+ - `log_level`: passive
394
+ - `log_level_replica`: warning
395
+ - `log_on_each_node`: True
396
+ - `logging_nan_inf_filter`: True
397
+ - `save_safetensors`: True
398
+ - `save_on_each_node`: False
399
+ - `save_only_model`: False
400
+ - `restore_callback_states_from_checkpoint`: False
401
+ - `no_cuda`: False
402
+ - `use_cpu`: False
403
+ - `use_mps_device`: False
404
+ - `seed`: 42
405
+ - `data_seed`: None
406
+ - `jit_mode_eval`: False
407
+ - `use_ipex`: False
408
+ - `bf16`: False
409
+ - `fp16`: True
410
+ - `fp16_opt_level`: O1
411
+ - `half_precision_backend`: auto
412
+ - `bf16_full_eval`: False
413
+ - `fp16_full_eval`: False
414
+ - `tf32`: None
415
+ - `local_rank`: 0
416
+ - `ddp_backend`: None
417
+ - `tpu_num_cores`: None
418
+ - `tpu_metrics_debug`: False
419
+ - `debug`: []
420
+ - `dataloader_drop_last`: False
421
+ - `dataloader_num_workers`: 0
422
+ - `dataloader_prefetch_factor`: None
423
+ - `past_index`: -1
424
+ - `disable_tqdm`: False
425
+ - `remove_unused_columns`: True
426
+ - `label_names`: None
427
+ - `load_best_model_at_end`: False
428
+ - `ignore_data_skip`: False
429
+ - `fsdp`: []
430
+ - `fsdp_min_num_params`: 0
431
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
432
+ - `fsdp_transformer_layer_cls_to_wrap`: None
433
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
434
+ - `deepspeed`: None
435
+ - `label_smoothing_factor`: 0.0
436
+ - `optim`: adamw_torch
437
+ - `optim_args`: None
438
+ - `adafactor`: False
439
+ - `group_by_length`: False
440
+ - `length_column_name`: length
441
+ - `ddp_find_unused_parameters`: None
442
+ - `ddp_bucket_cap_mb`: None
443
+ - `ddp_broadcast_buffers`: False
444
+ - `dataloader_pin_memory`: True
445
+ - `dataloader_persistent_workers`: False
446
+ - `skip_memory_metrics`: True
447
+ - `use_legacy_prediction_loop`: False
448
+ - `push_to_hub`: False
449
+ - `resume_from_checkpoint`: None
450
+ - `hub_model_id`: None
451
+ - `hub_strategy`: every_save
452
+ - `hub_private_repo`: None
453
+ - `hub_always_push`: False
454
+ - `gradient_checkpointing`: False
455
+ - `gradient_checkpointing_kwargs`: None
456
+ - `include_inputs_for_metrics`: False
457
+ - `include_for_metrics`: []
458
+ - `eval_do_concat_batches`: True
459
+ - `fp16_backend`: auto
460
+ - `push_to_hub_model_id`: None
461
+ - `push_to_hub_organization`: None
462
+ - `mp_parameters`:
463
+ - `auto_find_batch_size`: False
464
+ - `full_determinism`: False
465
+ - `torchdynamo`: None
466
+ - `ray_scope`: last
467
+ - `ddp_timeout`: 1800
468
+ - `torch_compile`: False
469
+ - `torch_compile_backend`: None
470
+ - `torch_compile_mode`: None
471
+ - `include_tokens_per_second`: False
472
+ - `include_num_input_tokens_seen`: False
473
+ - `neftune_noise_alpha`: None
474
+ - `optim_target_modules`: None
475
+ - `batch_eval_metrics`: False
476
+ - `eval_on_start`: False
477
+ - `use_liger_kernel`: False
478
+ - `eval_use_gather_object`: False
479
+ - `average_tokens_across_devices`: False
480
+ - `prompts`: None
481
+ - `batch_sampler`: batch_sampler
482
+ - `multi_dataset_batch_sampler`: round_robin
483
+
484
+ </details>
485
+
486
+ ### Framework Versions
487
+ - Python: 3.11.13
488
+ - Sentence Transformers: 4.1.0
489
+ - Transformers: 4.52.4
490
+ - PyTorch: 2.6.0+cu124
491
+ - Accelerate: 1.7.0
492
+ - Datasets: 2.14.4
493
+ - Tokenizers: 0.21.1
494
+
495
+ ## Citation
496
+
497
+ ### BibTeX
498
+
499
+ #### Sentence Transformers
500
+ ```bibtex
501
+ @inproceedings{reimers-2019-sentence-bert,
502
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
503
+ author = "Reimers, Nils and Gurevych, Iryna",
504
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
505
+ month = "11",
506
+ year = "2019",
507
+ publisher = "Association for Computational Linguistics",
508
+ url = "https://arxiv.org/abs/1908.10084",
509
+ }
510
+ ```
511
+
512
+ #### MultipleNegativesRankingLoss
513
+ ```bibtex
514
+ @misc{henderson2017efficient,
515
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
516
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
517
+ year={2017},
518
+ eprint={1705.00652},
519
+ archivePrefix={arXiv},
520
+ primaryClass={cs.CL}
521
+ }
522
+ ```
523
+
524
+ <!--
525
+ ## Glossary
526
+
527
+ *Clearly define terms in order to be accessible across audiences.*
528
+ -->
529
+
530
+ <!--
531
+ ## Model Card Authors
532
+
533
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
534
+ -->
535
+
536
+ <!--
537
+ ## Model Card Contact
538
+
539
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
540
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "gradient_checkpointing": true,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.52.4",
25
+ "type_vocab_size": 1,
26
+ "use_cache": false,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.52.4",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:54d394edcbb9785e9724a6b15c5f33d29b445b62a69e19ed0c9317797f7351cc
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
training_info.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_name": "intfloat/multilingual-e5-large",
3
+ "batch_size": 64,
4
+ "epochs": 5,
5
+ "warmup_steps": 90,
6
+ "loss_function": "MultipleNegativesRankingLoss",
7
+ "mixed_precision": true,
8
+ "pytorch_version": "2.6.0+cu124",
9
+ "trained_on": "Google Colab",
10
+ "saved_location": "/content/drive/MyDrive/FDate"
11
+ }