Amr-h commited on
Commit
46efaec
·
verified ·
1 Parent(s): 08f958d

Training in progress, epoch 1, checkpoint

Browse files
.gitattributes CHANGED
@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
  tokenizer.json filter=lfs diff=lfs merge=lfs -text
 
 
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
  tokenizer.json filter=lfs diff=lfs merge=lfs -text
37
+ last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text
last-checkpoint/1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
last-checkpoint/README.md ADDED
@@ -0,0 +1,503 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:213544
8
+ - loss:MatryoshkaLoss
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: intfloat/multilingual-e5-base
11
+ widget:
12
+ - source_sentence: 'query: تم الاحْتِجَازُ المشدد للمتهم في زنزانة انفرادية لمدة أسبوع
13
+ بسبب خطورة جريمته الأخيرة."'
14
+ sentences:
15
+ - 'passage: بعد هطول الأمطار، بدت نبتة دق الحمض الصغيرة ثابتة في الرمال، كأنها علامة
16
+ أمل'
17
+ - 'passage: "لقد تم الأَسْرُ القاسي للمذنب داخل الحبس الانفرادي لسبعة أيام نتيجةً
18
+ لجرمه الفظيع السابق."'
19
+ - 'passage: "جرى إِخْلَاءُ سبيل المتهم فورًا من الحبس بعد ثبوت براءته من التهم
20
+ المنسوبة إليه.'
21
+ - source_sentence: 'query: استاءت المديرة بشدة من تأخر الموظفين عن اجتماع الصباح اليوم
22
+ في المكتب، مما أثر على سير العمل."'
23
+ sentences:
24
+ - 'passage: "مَلَكَ الْمُسَافِرُ تَحْفَةً فَنِّيَّةً قَيِّمَةً مِنَ الْمُعْرَضِ
25
+ الْفَنِّيِّ في الْأَمْسِ بِعَشْقٍ كَبِيرٍ لِلْفُنُونِ الْجَمِيلَةِ."'
26
+ - 'passage: "غضبت المديرة كثيراً من تأخر الموظفين عن اجتماع الصباح في مكان العمل،
27
+ وهذا أضر بتنظيم العمل."'
28
+ - 'passage: "رضيت المديرة تماماً عن حضور الموظفين في الموعد المحدد لاجتماع الصباح
29
+ في المكتب، وهذا ساعد في تنظيم سير العمل.'
30
+ - source_sentence: 'query: متى ولد بيل كوسبي ؟'
31
+ sentences:
32
+ - 'passage: في عام 1983 أصدر كوسبي فيلم بيل كوسبي: نفسه. يُنظر إليه على نطاق واسع
33
+ على أنه "أعظم فيلم كوميدي موسيقي على الإطلاق".[21] قال كوميديون أصغر سنا مثل جيري
34
+ ساينفيلد أن كوسبي يعتبر مبتكر ممارسة الكوميديا الداعمة بالإضافة إلى أنه الشخص
35
+ الذي مهد الطريق للكوميديا للدخول إلى المسلسلات التلفزيونية الكوميدية. قال ساينفيلد
36
+ عن كوسبي: "لقد فتح بابًا لنا جميعًا حتى أن جميع الشبكات اعتبرت حتى أن هذه طريقة
37
+ لإنشاء شخصية وهي أن تأخذ شخصًا يمكنه حمل الجمهور فقط من خلال وجوده هناك وإخباره
38
+ لقد ابتكر ذلك حيث ابتكر الفكرة كلها المتمثلة في "اقتباس هزلي" وتطوير برنامج تلفزيوني
39
+ من شخص ما تراه على خشبة المسرح".[22] كما رأى الممثل الكوميدي لاري ويلمور أيضًا
40
+ صلة بين بيل كوسبي: نفسه ونجاحه لاحقاً في عرض كوسبي قائلاً: "من الواضح أن الحفل
41
+ هو القالب الخاص بعرض كوسبي".'
42
+ - 'passage: بدأ بيل كوسبي مسيرته الفنية ككوميدي احتياطي في جائع أنا في سان فرانسيسكو
43
+ خلال الستينيات. ثم قام بدور البطولة في المسلسل التلفزيوني "أنا جاسوس" يليه المسرحية
44
+ الهزلية الخاصة به "عرض بيل كوسبي" الذي استمر لمدة موسمين من عام 1969 إلى عام 1971.
45
+ وفي عام 1972 استخدم شخصية "ألبرت السمين" التي تم تطويرها خلال عروض ستاند أب كوميدي
46
+ الروتينية وشخصية كوسبي المبتكرة من خلال المسلسل التلفزيوني الكوميدي ألبرت السمين
47
+ وأطفال كوسبي الذي استمر حتى عام 1985 مع التركيز على مجموعة من الأصدقاء الشباب
48
+ الذين نشأوا في منطقة حضرية. طوال سبعينيات القرن الماضي تألق كوسبي في حوالي ستة
49
+ أفلام وأحيانًا عاد إلى السينما لاحقًا في مسيرته المهنية. التحق بجامعة تمبل في
50
+ الستينيات وحصل على البكالوريوس عام 1971. وفي عام 1973 حصل على درجة الماجستير من
51
+ جامعة ماساتشوستس في أمهرست وحصل على درجة الدكتوراه في التعليم عام 1976 من جامعة
52
+ يوماس أيضًا. ناقش أطروحته استخدام ألبرت السمين وأطفال كوسبي كأداة تعليمية في المدارس
53
+ الابتدائية.'
54
+ - 'passage: تصغير|حاز نجمة على ممر الشهرة في هوليوود في عام 1977.[40] أكبر نجاح
55
+ تلفزيوني لكوسبي جاء في سبتمبر 1984 مع الظهور الأول لعرض كوسبي. شارك كوسبي المدافع
56
+ عن الفكاهة الموجهة نحو الأسرة في إنتاج المسلسل وعقد السيطرة الإبداعية وشارك نفسه
57
+ في كل جانب من جوانب الإنتاج. كانت المؤامرات ترتكز في الغالب على أفكار اقترحها
58
+ كوسبي أثناء وجوده في اجتماعات مع طاقم الكتابة.[41] كان لهذا العرض أوجه متوازية
59
+ مع حياة عائلة كوسبي الحقيقية: مثل شخصيات كليف وكلير هكسكابل وكان كوسبي وزوجته
60
+ كاميل متعلمين كلية وناجحين مالياً وكان لديهما خمسة أطفال. في العرض لعب كوسبي دور
61
+ طبيب التوليد. تم أخذ الكثير من المواد من الحلقة التجريبية والموسم الأول من عرض
62
+ كوسبي من الفيديو بيل كوسبي: نفسه الذي صدر في عام 1983. كانت السلسلة ناجحة على
63
+ الفور وحقق تقييمات عالية وبقي ضمن قائمة الأفضل معظم عرضه في مواسمه الثمانية.'
64
+ - 'passage: ولد كوسبي في 12 يوليو 1937[4] في فيلادلفيا، بنسيلفانيا. وهو واحد من
65
+ أربعة أبناء آنا بيرل (سابقا هايت) الخادمة ووليام هنري كوسبي الأب الطباخ في بحرية
66
+ الولايات المتحدة.[5][6]'
67
+ - source_sentence: 'query: ماذا تفعل الحكومة الهندية للسيطرة على النمو السكاني؟'
68
+ sentences:
69
+ - 'passage: لماذا لا تفعل الحكومة الهندية أي شيء للسيطرة على النمو السكاني؟'
70
+ - 'passage: لماذا يزداد عدد سكان الهند بهذه السرعة؟ ما هي الطريقة لإيقاف هذا النمو
71
+ الهائل؟'
72
+ - 'passage: هل من الممكن فرض سياسة الطفل الواحد في الهند للسيطرة على النمو السكاني
73
+ بفعالية؟'
74
+ - 'passage: لماذا الحكومة الهندية ليست جادة في السيطرة على السكان؟'
75
+ - source_sentence: 'query: هل لدى البشر عالم وطني في حرب النجوم؟'
76
+ sentences:
77
+ - 'passage: لماذا حرب النجوم شعبية جدا؟ لماذا الأفلام جيدة جدا؟'
78
+ - 'passage: هل من أحد آخر يعتقد أن "حرب النجوم" مبالغ فيها؟'
79
+ - 'passage: من أين يأتي البشر في عالم حرب النجوم؟'
80
+ - 'passage: ماذا تعتقد سيكون عنوان حرب النجوم الحلقة الثامنة؟'
81
+ pipeline_tag: sentence-similarity
82
+ library_name: sentence-transformers
83
+ metrics:
84
+ - cosine_accuracy
85
+ model-index:
86
+ - name: SentenceTransformer based on intfloat/multilingual-e5-base
87
+ results:
88
+ - task:
89
+ type: triplet
90
+ name: Triplet
91
+ dataset:
92
+ name: validation eval
93
+ type: validation_eval
94
+ metrics:
95
+ - type: cosine_accuracy
96
+ value: 0.958068311214447
97
+ name: Cosine Accuracy
98
+ ---
99
+
100
+ # SentenceTransformer based on intfloat/multilingual-e5-base
101
+
102
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the multi_negative and triplets datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
103
+
104
+ ## Model Details
105
+
106
+ ### Model Description
107
+ - **Model Type:** Sentence Transformer
108
+ - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision 835193815a3936a24a0ee7dc9e3d48c1fbb19c55 -->
109
+ - **Maximum Sequence Length:** 512 tokens
110
+ - **Output Dimensionality:** 768 dimensions
111
+ - **Similarity Function:** Cosine Similarity
112
+ - **Training Datasets:**
113
+ - multi_negative
114
+ - triplets
115
+ <!-- - **Language:** Unknown -->
116
+ <!-- - **License:** Unknown -->
117
+
118
+ ### Model Sources
119
+
120
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
121
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
122
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
123
+
124
+ ### Full Model Architecture
125
+
126
+ ```
127
+ SentenceTransformer(
128
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
129
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
130
+ (2): Normalize()
131
+ )
132
+ ```
133
+
134
+ ## Usage
135
+
136
+ ### Direct Usage (Sentence Transformers)
137
+
138
+ First install the Sentence Transformers library:
139
+
140
+ ```bash
141
+ pip install -U sentence-transformers
142
+ ```
143
+
144
+ Then you can load this model and run inference.
145
+ ```python
146
+ from sentence_transformers import SentenceTransformer
147
+
148
+ # Download from the 🤗 Hub
149
+ model = SentenceTransformer("TawasulAI/Faheem-mE5_Base_5_epochs")
150
+ # Run inference
151
+ sentences = [
152
+ 'query: هل لدى البشر عالم وطني في حرب النجوم؟',
153
+ 'passage: من أين يأتي البشر في عالم حرب النجوم؟',
154
+ 'passage: لماذا حرب النجوم شعبية جدا؟ لماذا الأفلام جيدة جدا؟',
155
+ ]
156
+ embeddings = model.encode(sentences)
157
+ print(embeddings.shape)
158
+ # [3, 768]
159
+
160
+ # Get the similarity scores for the embeddings
161
+ similarities = model.similarity(embeddings, embeddings)
162
+ print(similarities.shape)
163
+ # [3, 3]
164
+ ```
165
+
166
+ <!--
167
+ ### Direct Usage (Transformers)
168
+
169
+ <details><summary>Click to see the direct usage in Transformers</summary>
170
+
171
+ </details>
172
+ -->
173
+
174
+ <!--
175
+ ### Downstream Usage (Sentence Transformers)
176
+
177
+ You can finetune this model on your own dataset.
178
+
179
+ <details><summary>Click to expand</summary>
180
+
181
+ </details>
182
+ -->
183
+
184
+ <!--
185
+ ### Out-of-Scope Use
186
+
187
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
188
+ -->
189
+
190
+ ## Evaluation
191
+
192
+ ### Metrics
193
+
194
+ #### Triplet
195
+
196
+ * Dataset: `validation_eval`
197
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
198
+
199
+ | Metric | Value |
200
+ |:--------------------|:-----------|
201
+ | **cosine_accuracy** | **0.9581** |
202
+
203
+ <!--
204
+ ## Bias, Risks and Limitations
205
+
206
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
207
+ -->
208
+
209
+ <!--
210
+ ### Recommendations
211
+
212
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
213
+ -->
214
+
215
+ ## Training Details
216
+
217
+ ### Training Datasets
218
+
219
+ #### multi_negative
220
+
221
+ * Dataset: multi_negative
222
+ * Size: 127,488 training samples
223
+ * Columns: <code>query</code>, <code>positive</code>, <code>negative_1</code>, <code>negative_2</code>, and <code>negative_3</code>
224
+ * Approximate statistics based on the first 1000 samples:
225
+ | | query | positive | negative_1 | negative_2 | negative_3 |
226
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
227
+ | type | string | string | string | string | string |
228
+ | details | <ul><li>min: 7 tokens</li><li>mean: 19.37 tokens</li><li>max: 482 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 57.81 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 61.1 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 58.01 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 62.53 tokens</li><li>max: 512 tokens</li></ul> |
229
+ * Samples:
230
+ | query | positive | negative_1 | negative_2 | negative_3 |
231
+ |:---------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
232
+ | <code>query: ما هو الفرق الرئيسي بين الأوردة والشرايين؟</code> | <code>passage: ما الفرق بين الأوردة والشرايين؟</code> | <code>passage: كيف يمكنني تمييز الوريد عن الشريان؟ ما هي الاختلافات بينهما؟</code> | <code>passage: ما هي الأجزاء الرئيسية للجهاز الدور�� ووظائفها؟</code> | <code>passage: كيف تختلف وظيفة الخلايا الخارجية والخلايا الداخلية؟</code> |
233
+ | <code>query: how many calories do i need to eat to lose</code> | <code>passage: للحفاظ على الوزن، يوضح الجدول أدناه حد السعرات الحرارية اليومي الخاص بك. وهو مبني على عمرك ومستوى نشاطك ومؤشر كتلة الجسم (BMI) الذي يبلغ 21.5 للنساء و 22.5 للرجال. لفقدان الوزن - كان يوصى في السابق بأن تقلل من السعرات الحرارية الإجمالية بمقدار 500 سعرة حرارية في اليوم لفقدان رطل واحد في الأسبوع. الآن يعتقد الباحثون أن فقدان الوزن عملية أبطأ وأن تقليل السعرات الحرارية بمقدار 10 سعرات حرارية في اليوم يؤدي إلى فقدان رطل واحد في السنة، ولكن قد يستغرق الأمر ما يصل إلى 3 سنوات للوصول إلى ذلك.</code> | <code>passage: لنفترض أنك بحاجة إلى فقدان 5 أرطال في شهرين، هذا هو كيفية حساب كمية السعرات الحرارية التي يجب تناولها يوميًا: الخطوة 1: احسب معدل الأيض الأساسي واحتياجاتك اليومية من السعرات الحرارية. بعد استخدام حاسبة معدل الأيض الأساسي واحتياجات السعرات الحرارية اليومية، وجدت أن: معدل الأيض الأساسي هو 1800 سعرة حرارية واحتياجات السعرات الحرارية اليومية هي 2000 سعرة حرارية. الخطوة 2: احسب السعرات الحرارية التي تريد فقدانها. تريد فقدان 5 أرطال وهي تقريبًا 17500 سعرة حرارية (1 رطل من الدهون هو 3500 سعرة حرارية). الخطوة 3: احسب كمية السعرات الحرارية التي تحتاج إلى توفيرها يوميًا. هدفك هو فقدان 5 أرطال في شهرين. بعد إجراء بعض الحسابات الأساسية، يمكنك معرفة أن 17500 سعرة حرارية في شهرين هي حوالي 8750 سعرة حرارية في الشهر أو 2187 سعرة حرارية في الأسبوع أو 313 سعرة حرارية في اليوم.</code> | <code>passage: استهدف تقليل 25 في المائة من السعرات الحرارية من نظامك الغذائي. هذا يعني أنه بالنسبة لرجل يبلغ من العمر 30 عامًا وينشط بشكل معتدل، ستنتقل من تناول 2400 سعرة حرارية إلى تناول 1800 سعرة حرارية خلال الأسبوع. بالنسبة لامرأة تبلغ من العمر 30 عامًا وتنشط بشكل معتدل، ستنتقل من تناول 2000 سعرة حرارية إلى تناول 1500 سعرة حرارية في اليوم.</code> | <code>passage: اطرح الرقمين لتحساب عدد السعرات الحرارية التي تقوم بقطعها. على سبيل المثال، 600 سعرة حرارية لرجل يبلغ من العمر 30 عامًا و 500 سعرة حرارية لامرأة تبلغ من العمر 30 عامًا. اضرب هذا الرقم في 7 لمعرفة كمية السعرات الحرارية التي يمكن تجميعها فقط من خلال نظامك الغذائي. على سبيل المثال، 4200 سعرة حرارية للرجل و 3500 سعرة حرارية للمرأة.</code> |
234
+ | <code>query: تجويف الجسم البطني</code> | <code>passage: Human body cavities: Ventral body cavity is to the right. The ventral body cavity is a human body cavity that is in the anterior (front) aspect of the human body. It is made up of the thoracic cavity, and the abdominopelvic cavity. The abdominopelvic cavity is further divided into the abdominal cavity and pelvic cavity, but there is no physical barrier between the two.</code> | <code>passage: The thoracic cavity is separated from the abdominopelvic cavity by the diaphragm. The thoracic cavity is further separated into the pleural cavity which contains the lungs and the superior mediastinum which includes the pericardial (heart) cavity. The organs within the ventral body cavity are called the viscera.</code> | <code>passage: Body membranes • Body membranes – tissuelinings of body cavities andcoverings of internalorgans.• parietal membrane – lining of body cavity (e.g.parietal pleural membranelines the pleural cavity)• visceral membrane – covering of internal organ(e.g. visceral pleuralmembrane lines the surfaceof the lungs).</code> | <code>passage: Body Cavities. Body cavities are areas in the body that contain our internal organs. The dorsal and ventral cavities are the two main cavities. The dorsal cavity is on the posterior (back side) of the body and contains the cranial cavity and spinal cavity. In human anatomy, dorsal, caudal and posterior mean the same thing. The ventral cavity is on the front (anterior) of the body and is divided into the thoracic cavity (chest) and abdominopelvic cavity.</code> |
235
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
236
+ ```json
237
+ {
238
+ "loss": "MultipleNegativesRankingLoss",
239
+ "matryoshka_dims": [
240
+ 768,
241
+ 256,
242
+ 128,
243
+ 64
244
+ ],
245
+ "matryoshka_weights": [
246
+ 1,
247
+ 1,
248
+ 1,
249
+ 1
250
+ ],
251
+ "n_dims_per_step": -1
252
+ }
253
+ ```
254
+
255
+ #### triplets
256
+
257
+ * Dataset: triplets
258
+ * Size: 86,056 training samples
259
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
260
+ * Approximate statistics based on the first 1000 samples:
261
+ | | anchor | positive | negative |
262
+ |:--------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
263
+ | type | string | string | string |
264
+ | details | <ul><li>min: 18 tokens</li><li>mean: 53.76 tokens</li><li>max: 150 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 55.48 tokens</li><li>max: 159 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 51.11 tokens</li><li>max: 166 tokens</li></ul> |
265
+ * Samples:
266
+ | anchor | positive | negative |
267
+ |:-----------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------|
268
+ | <code>query: لقد قدم الباحث مُسْتَطْرَفًا من الأبحاث في المؤتمر، حيث عرض نتائج غير مألوفة أثارت جدلاً واسعاً بين الحضور البارحة."</code> | <code>passage: "لقد قدم الباحث جديدًا من الدراسات في الملتقى، إذ بين معطيات غير تقليدية أثارت نقاشًا مستفيضًا بين المشاركين بالأمس."</code> | <code>passage: "لقد قدم الباحث قديمًا من الأبحاث في الندوة، حيث عرض معلومات مألوفة لم تثر أي حوار بين الحاضرين قبل يوم.</code> |
269
+ | <code>query: بعد يوم حار، اغتسلت بماء زُلال كان يجري في الجدول الصغير بجانب الحقل.</code> | <code>passage: بعد يوم قائظ، تطهرت بماء فُرَات كان يتدفق في النهر الضيق قرب المزرعة.</code> | <code>passage: بعد يوم مشمس، تلطخت بماء أَجِنّ كان راكدا في البركة قرب المرعى.</code> |
270
+ | <code>query: أَوْقَدَ المُخَيِّمُونَ نَارَ المَخِيمِ بِحَمَاسَةٍ قُبَيْلَ اللَيْلِ لِطَهْيِ العَشَاءِ."</code> | <code>passage: "أَثَارَ المُخَيِّمُونَ لَهَبَ المَوْقِدِ بِشَغَفٍ قَبْلَ مَجِيءِ اللَّيْلِ لِإِعْدَادِ الْعَشَاء."</code> | <code>passage: "أَطْفَأَ المُخَيِّمُونَ نَارَ المَخِيمِ بَعْدَ الْعَشَاءِ لِلْخَلُودِ إِلَى النَّوْمِ.</code> |
271
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
272
+ ```json
273
+ {
274
+ "loss": "MultipleNegativesRankingLoss",
275
+ "matryoshka_dims": [
276
+ 768,
277
+ 256,
278
+ 128,
279
+ 64
280
+ ],
281
+ "matryoshka_weights": [
282
+ 1,
283
+ 1,
284
+ 1,
285
+ 1
286
+ ],
287
+ "n_dims_per_step": -1
288
+ }
289
+ ```
290
+
291
+ ### Training Hyperparameters
292
+ #### Non-Default Hyperparameters
293
+
294
+ - `eval_strategy`: epoch
295
+ - `per_device_train_batch_size`: 16
296
+ - `per_device_eval_batch_size`: 16
297
+ - `gradient_accumulation_steps`: 16
298
+ - `learning_rate`: 4e-05
299
+ - `weight_decay`: 0.01
300
+ - `max_grad_norm`: 2.0
301
+ - `num_train_epochs`: 5
302
+ - `lr_scheduler_type`: cosine
303
+ - `warmup_ratio`: 0.1
304
+ - `fp16`: True
305
+ - `load_best_model_at_end`: True
306
+ - `optim`: adamw_8bit
307
+ - `push_to_hub`: True
308
+ - `hub_model_id`: TawasulAI/Faheem-mE5_Base_5_epochs
309
+ - `hub_strategy`: checkpoint
310
+
311
+ #### All Hyperparameters
312
+ <details><summary>Click to expand</summary>
313
+
314
+ - `overwrite_output_dir`: False
315
+ - `do_predict`: False
316
+ - `eval_strategy`: epoch
317
+ - `prediction_loss_only`: True
318
+ - `per_device_train_batch_size`: 16
319
+ - `per_device_eval_batch_size`: 16
320
+ - `per_gpu_train_batch_size`: None
321
+ - `per_gpu_eval_batch_size`: None
322
+ - `gradient_accumulation_steps`: 16
323
+ - `eval_accumulation_steps`: None
324
+ - `torch_empty_cache_steps`: None
325
+ - `learning_rate`: 4e-05
326
+ - `weight_decay`: 0.01
327
+ - `adam_beta1`: 0.9
328
+ - `adam_beta2`: 0.999
329
+ - `adam_epsilon`: 1e-08
330
+ - `max_grad_norm`: 2.0
331
+ - `num_train_epochs`: 5
332
+ - `max_steps`: -1
333
+ - `lr_scheduler_type`: cosine
334
+ - `lr_scheduler_kwargs`: {}
335
+ - `warmup_ratio`: 0.1
336
+ - `warmup_steps`: 0
337
+ - `log_level`: passive
338
+ - `log_level_replica`: warning
339
+ - `log_on_each_node`: True
340
+ - `logging_nan_inf_filter`: True
341
+ - `save_safetensors`: True
342
+ - `save_on_each_node`: False
343
+ - `save_only_model`: False
344
+ - `restore_callback_states_from_checkpoint`: False
345
+ - `no_cuda`: False
346
+ - `use_cpu`: False
347
+ - `use_mps_device`: False
348
+ - `seed`: 42
349
+ - `data_seed`: None
350
+ - `jit_mode_eval`: False
351
+ - `use_ipex`: False
352
+ - `bf16`: False
353
+ - `fp16`: True
354
+ - `fp16_opt_level`: O1
355
+ - `half_precision_backend`: auto
356
+ - `bf16_full_eval`: False
357
+ - `fp16_full_eval`: False
358
+ - `tf32`: None
359
+ - `local_rank`: 0
360
+ - `ddp_backend`: None
361
+ - `tpu_num_cores`: None
362
+ - `tpu_metrics_debug`: False
363
+ - `debug`: []
364
+ - `dataloader_drop_last`: False
365
+ - `dataloader_num_workers`: 0
366
+ - `dataloader_prefetch_factor`: None
367
+ - `past_index`: -1
368
+ - `disable_tqdm`: False
369
+ - `remove_unused_columns`: True
370
+ - `label_names`: None
371
+ - `load_best_model_at_end`: True
372
+ - `ignore_data_skip`: False
373
+ - `fsdp`: []
374
+ - `fsdp_min_num_params`: 0
375
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
376
+ - `fsdp_transformer_layer_cls_to_wrap`: None
377
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
378
+ - `deepspeed`: None
379
+ - `label_smoothing_factor`: 0.0
380
+ - `optim`: adamw_8bit
381
+ - `optim_args`: None
382
+ - `adafactor`: False
383
+ - `group_by_length`: False
384
+ - `length_column_name`: length
385
+ - `ddp_find_unused_parameters`: None
386
+ - `ddp_bucket_cap_mb`: None
387
+ - `ddp_broadcast_buffers`: False
388
+ - `dataloader_pin_memory`: True
389
+ - `dataloader_persistent_workers`: False
390
+ - `skip_memory_metrics`: True
391
+ - `use_legacy_prediction_loop`: False
392
+ - `push_to_hub`: True
393
+ - `resume_from_checkpoint`: None
394
+ - `hub_model_id`: TawasulAI/Faheem-mE5_Base_5_epochs
395
+ - `hub_strategy`: checkpoint
396
+ - `hub_private_repo`: None
397
+ - `hub_always_push`: False
398
+ - `gradient_checkpointing`: False
399
+ - `gradient_checkpointing_kwargs`: None
400
+ - `include_inputs_for_metrics`: False
401
+ - `include_for_metrics`: []
402
+ - `eval_do_concat_batches`: True
403
+ - `fp16_backend`: auto
404
+ - `push_to_hub_model_id`: None
405
+ - `push_to_hub_organization`: None
406
+ - `mp_parameters`:
407
+ - `auto_find_batch_size`: False
408
+ - `full_determinism`: False
409
+ - `torchdynamo`: None
410
+ - `ray_scope`: last
411
+ - `ddp_timeout`: 1800
412
+ - `torch_compile`: False
413
+ - `torch_compile_backend`: None
414
+ - `torch_compile_mode`: None
415
+ - `include_tokens_per_second`: False
416
+ - `include_num_input_tokens_seen`: False
417
+ - `neftune_noise_alpha`: None
418
+ - `optim_target_modules`: None
419
+ - `batch_eval_metrics`: False
420
+ - `eval_on_start`: False
421
+ - `use_liger_kernel`: False
422
+ - `eval_use_gather_object`: False
423
+ - `average_tokens_across_devices`: False
424
+ - `prompts`: None
425
+ - `batch_sampler`: batch_sampler
426
+ - `multi_dataset_batch_sampler`: proportional
427
+
428
+ </details>
429
+
430
+ ### Training Logs
431
+ | Epoch | Step | Training Loss | validation_eval_cosine_accuracy |
432
+ |:-----:|:----:|:-------------:|:-------------------------------:|
433
+ | None | 0 | - | 0.9213 |
434
+ | 1.0 | 835 | 26.455 | 0.9581 |
435
+
436
+
437
+ ### Framework Versions
438
+ - Python: 3.10.12
439
+ - Sentence Transformers: 4.1.0
440
+ - Transformers: 4.52.4
441
+ - PyTorch: 2.5.1+cu124
442
+ - Accelerate: 1.7.0
443
+ - Datasets: 3.6.0
444
+ - Tokenizers: 0.21.1
445
+
446
+ ## Citation
447
+
448
+ ### BibTeX
449
+
450
+ #### Sentence Transformers
451
+ ```bibtex
452
+ @inproceedings{reimers-2019-sentence-bert,
453
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
454
+ author = "Reimers, Nils and Gurevych, Iryna",
455
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
456
+ month = "11",
457
+ year = "2019",
458
+ publisher = "Association for Computational Linguistics",
459
+ url = "https://arxiv.org/abs/1908.10084",
460
+ }
461
+ ```
462
+
463
+ #### MatryoshkaLoss
464
+ ```bibtex
465
+ @misc{kusupati2024matryoshka,
466
+ title={Matryoshka Representation Learning},
467
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
468
+ year={2024},
469
+ eprint={2205.13147},
470
+ archivePrefix={arXiv},
471
+ primaryClass={cs.LG}
472
+ }
473
+ ```
474
+
475
+ #### MultipleNegativesRankingLoss
476
+ ```bibtex
477
+ @misc{henderson2017efficient,
478
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
479
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
480
+ year={2017},
481
+ eprint={1705.00652},
482
+ archivePrefix={arXiv},
483
+ primaryClass={cs.CL}
484
+ }
485
+ ```
486
+
487
+ <!--
488
+ ## Glossary
489
+
490
+ *Clearly define terms in order to be accessible across audiences.*
491
+ -->
492
+
493
+ <!--
494
+ ## Model Card Authors
495
+
496
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
497
+ -->
498
+
499
+ <!--
500
+ ## Model Card Contact
501
+
502
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
503
+ -->
last-checkpoint/config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.52.4",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
last-checkpoint/config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.52.4",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
last-checkpoint/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8a64b01e5ace0de6e5c9363be5a45eb716cfc2157158261974afd6a900501891
3
+ size 1112197096
last-checkpoint/modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
last-checkpoint/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b8a9b1f25ccb023c2c6463f58fb5b052ffd6c737392992f097d824363a2c1207
3
+ size 1712830650
last-checkpoint/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4e123c4ec2b288b68f485d43b51424a369fc9d6ed1f0ddc4865554f977172f5a
3
+ size 14180
last-checkpoint/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b0af727f4d53d7a364d13ab94284e43cf2bc3dfe100e3c1e463ed9dc9abb311e
3
+ size 988
last-checkpoint/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:edb773e8f46c161312f79f9dfae1facc235361c2e5ec6aa9173d5203f5a2b9e0
3
+ size 1064
last-checkpoint/sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
last-checkpoint/special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
last-checkpoint/tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
last-checkpoint/tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
last-checkpoint/trainer_state.json ADDED
@@ -0,0 +1,50 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 835,
3
+ "best_metric": 0.958068311214447,
4
+ "best_model_checkpoint": "/kaggle/working/checkpoint-835",
5
+ "epoch": 1.0,
6
+ "eval_steps": 500,
7
+ "global_step": 835,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 1.0,
14
+ "grad_norm": 55.95539474487305,
15
+ "learning_rate": 3.883606966861279e-05,
16
+ "loss": 26.455,
17
+ "step": 835
18
+ },
19
+ {
20
+ "epoch": 1.0,
21
+ "eval_model_preparation_time": 0.0028,
22
+ "eval_runtime": 140.0293,
23
+ "eval_samples_per_second": 0.0,
24
+ "eval_steps_per_second": 0.0,
25
+ "eval_validation_eval_cosine_accuracy": 0.958068311214447,
26
+ "step": 835
27
+ }
28
+ ],
29
+ "logging_steps": 500,
30
+ "max_steps": 4175,
31
+ "num_input_tokens_seen": 0,
32
+ "num_train_epochs": 5,
33
+ "save_steps": 500,
34
+ "stateful_callbacks": {
35
+ "TrainerControl": {
36
+ "args": {
37
+ "should_epoch_stop": false,
38
+ "should_evaluate": false,
39
+ "should_log": false,
40
+ "should_save": true,
41
+ "should_training_stop": false
42
+ },
43
+ "attributes": {}
44
+ }
45
+ },
46
+ "total_flos": 0.0,
47
+ "train_batch_size": 16,
48
+ "trial_name": null,
49
+ "trial_params": null
50
+ }
last-checkpoint/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:537237ecc733f7d2fea2da85727f6832a9505b8a1cdd4db0333e81f60ed3823e
3
+ size 5624