George2002 commited on
Commit
15e722d
·
verified ·
1 Parent(s): 3fe5cec

Upload model checkpoint

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,625 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:18202
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-large
10
+ widget:
11
+ - source_sentence: 'query: С кокого момента можно закозать Детскую СберКарту по украинскому
12
+ свидетельству о рождении?'
13
+ sentences:
14
+ - "passage: Выберите интересующий вопрос\n\nГде Родителю найти QR-код для того,\
15
+ \ чтобы Ребёнок смог начать пользоваться МП СберKids ?\n\nНайти QR-код можно у\
16
+ \ Родителя в МП СБОЛ в разделе Кошелек, выбрать карту Ребенка - Настройки - Вход\
17
+ \ Ребёнка в МП СберKids \nС телефоном Ребёнка можно отсканировать QR-код с экрана\
18
+ \ Родителя.\nНужно отсканировать QR-код"
19
+ - 'query: Какие действия предпринимает банкя после связи опекуна иь ребенка?'
20
+ - 'query: С каким вопросом ФУ обратился касательно процедуры банкротства?'
21
+ - source_sentence: 'query: Что подтверждает документ, необходимый для получения наследства?'
22
+ sentences:
23
+ - 'query: Какое количество бонусов можно получить за покупки с Детской СберКартой?'
24
+ - "passage: Клиент обратился с вопросом о невозможности оплачивать кредит в полном\
25
+ \ объеме по причине тяжелой жизненной ситуации \n(реструктуризация возможна по\
26
+ \ причинам: потеря работы, смена места работы, снижение дохода, болезнь, смерть\
27
+ \ близких родственников, болезнь близких родственников, развод, декрет, отпуск\
28
+ \ по уходу за ребенком, призыв в армию, чрезвычайная ситуация в регионе). \n\n\
29
+ Обратите внимание клиента на следующее:\n- более простым способом является подача\
30
+ \ заявки в Сбербанк онлайн;\n- кредитная карта может быть заблокирована для расходных\
31
+ \ операций на 180 дней после подачи заявления на реструктуризацию и вне зависимости\
32
+ \ от принятого банком решения по заявке.\n\n Если после подачи заявления в Сбол.про\
33
+ \ сервис не доступен для прикрепления пакета документов, предоставленных клиентом,\
34
+ \ маршрутизируем в Мобильное приложение Сбербанк Онлайна для оформления заявления\
35
+ \ или прикрепления документов.\n При возникновении вопросов просим обращаться\
36
+ \ по телефону: 8-800-200-8-200(звонок по России бесплатный), график работы: ежедневно\
37
+ \ с 04:00 до 20:00 (мск).\n\nВажно!!! Если при оформлении заявки в Сбол.про\
38
+ \ приходит отказ, то не нужно оформлять обращение по ветке «Решить проблему».\
39
+ \ \n\nВажно!!! РС постадавшим от мошенничества предоставлется по ветке \"Решить\
40
+ \ проблему\", только по потребительским кредитам выданным после 08.07.2024\n\n\
41
+ Действия, необходимые по запросу клиента:\n\n\nконсультация по реструктуризации\
42
+ \ кредита\n\nКонсультацию по вопросам реструктуризации можно получить:\n\n- на\
43
+ \ сайте Банка: www.sberbank.ru в разделе \"Программы поддержки\"\n\n- по номеру\
44
+ \ горячей линии: 8-800-200-8-200, график работы: ежедневно с 04:00 до 20:00 (мск).\n\
45
+ \nобращайте внимание клиента, что для iOS загрузка документов возможна в приложении\
46
+ \ версии 14.3 или через ВЕБ версию СБОЛ"
47
+ - 'passage: Возможные ошибки:
48
+
49
+
50
+ Вы отменили операцию
51
+
52
+
53
+ Вы отменили операцию'
54
+ - source_sentence: 'query: Какие документы необходимы доверенному лицу банкрота для
55
+ выполнения операции?'
56
+ sentences:
57
+ - 'query: Какое согласие требуется для открытия счета банкроту, который находится
58
+ в реструктуризации долгов?'
59
+ - 'passage: Выберите интересующий вопрос
60
+
61
+
62
+ Сколько бонусов СберСпасибо можно получать по Детской СберКарте ?
63
+
64
+
65
+ За каждую покупку начисляется 0,5% бонусами. Чтобы проверить баланс Ребёнку нужно
66
+ зайти приложение СберKids или отправьте СМС на номер 900 с текстом: Спасибо пробел
67
+ и последние 4 цифры номера карты.'
68
+ - 'query: Что нужно сделать, чтобы банкрот открыл новый счет или карту с разрешения
69
+ финансового управляющего?'
70
+ - source_sentence: 'query: Как изменить ПИН-код на Детской сберкате через МП СБОЛ?'
71
+ sentences:
72
+ - 'query: Когда клиент считается включееным в реестр банкротов?'
73
+ - 'passage: Выберите операцию, которую необходимо выполнить банкроту
74
+
75
+
76
+ Отправка перевода
77
+
78
+
79
+
80
+ Проведение перевода:
81
+
82
+
83
+ Клиентам банкротам в стадии Реализация имущества - разрешенно при наличии разрешения
84
+ финансового управляющего
85
+
86
+ Клиентам банкротам в стадии Реструктуризация долгов - разрешенно при наличии разрешения
87
+ финансового управляющего'
88
+ - 'passage: Выберите интересующий вопрос
89
+
90
+
91
+ Где Ребёнок может совершать переводы по Детской СберКарте ?
92
+
93
+
94
+ Ребёнок Может совершать переводы в своем приложении МП СберKids в пределах детских
95
+ лимитов - 50 000 рублей в месяц (в соответствии с Тарифами Банка).
96
+
97
+
98
+ Ребёнок НЕ может совершать переводы в банкоматах Банка и в ВСП.'
99
+ - source_sentence: 'query: Как законный представитель получает доступ к списку желаний
100
+ ребенка в МП СБОЛ?'
101
+ sentences:
102
+ - 'query: Какие меры принимает Банк по отношению к имуществу и финансам банкрота?'
103
+ - 'passage: Если клиент предъявил документ, подтверждающий полномочия владельца
104
+ счёта в качестве законного представителя бенефициара, то необходимо проверить
105
+ срок действия документа.
106
+
107
+ Если клиент не может предоставить новый документ, то необходимо завершить обслуживание
108
+ клиента.
109
+
110
+
111
+ Если срок действия истёк
112
+
113
+
114
+ Если срок действия истёк, то необходимо завершить обслуживание клиента.'
115
+ - 'passage: После ввода суммы планируемой расходной операции в СБОЛ.Про на экране
116
+ монитора появилось модальное окно с текстовым сообщением о необходимости согласования
117
+ операции с подразделением комплаенс?
118
+
119
+
120
+ Нет
121
+
122
+
123
+ Если у Вас есть подозрения, что целью проведения операции является легализация
124
+ доходов, полученных преступным путем, действуйте в соответствии с порядком по
125
+ ветке "Да".
126
+
127
+
128
+ Если подозрения отсутствуют, то проведите операцию. Согласование с ПЦП Центр комплаенс/комплаенс
129
+ Московского Банка не требуется.'
130
+ pipeline_tag: sentence-similarity
131
+ library_name: sentence-transformers
132
+ ---
133
+
134
+ # SentenceTransformer based on intfloat/multilingual-e5-large
135
+
136
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
137
+
138
+ ## Model Details
139
+
140
+ ### Model Description
141
+ - **Model Type:** Sentence Transformer
142
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
143
+ - **Maximum Sequence Length:** 512 tokens
144
+ - **Output Dimensionality:** 1024 dimensions
145
+ - **Similarity Function:** Cosine Similarity
146
+ <!-- - **Training Dataset:** Unknown -->
147
+ <!-- - **Language:** Unknown -->
148
+ <!-- - **License:** Unknown -->
149
+
150
+ ### Model Sources
151
+
152
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
153
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
154
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
155
+
156
+ ### Full Model Architecture
157
+
158
+ ```
159
+ SentenceTransformer(
160
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
161
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
162
+ (2): Normalize()
163
+ )
164
+ ```
165
+
166
+ ## Usage
167
+
168
+ ### Direct Usage (Sentence Transformers)
169
+
170
+ First install the Sentence Transformers library:
171
+
172
+ ```bash
173
+ pip install -U sentence-transformers
174
+ ```
175
+
176
+ Then you can load this model and run inference.
177
+ ```python
178
+ from sentence_transformers import SentenceTransformer
179
+
180
+ # Download from the 🤗 Hub
181
+ model = SentenceTransformer("George2002/sledopyt_embedder")
182
+ # Run inference
183
+ sentences = [
184
+ 'query: Как законный представитель получает доступ к списку желаний ребенка в МП СБОЛ?',
185
+ 'passage: После ввода суммы планируемой расходной операции в СБОЛ.Про на экране монитора появилось модальное окно с текстовым сообщением о необходимости согласования операции с подразделением комплаенс?\n\nНет\n\nЕсли у Вас есть подозрения, что целью проведения операции является легализация доходов, полученных преступным путем, действуйте в соответствии с порядком по ветке "Да".\n\nЕсли подозрения отсутствуют, то проведите операцию. Согласование с ПЦП Центр комплаенс/комплаенс Московского Банка не требуется.',
186
+ 'passage: Если клиент предъявил документ, подтверждающий полномочия владельца счёта в качестве законного представителя бенефициара, то необходимо проверить срок действия документа.\nЕсли клиент не может предоставить новый документ, то необходимо завершить обслуживание клиента.\n\nЕсли срок действия истёк\n\nЕсли срок действия истёк, то необходимо завершить обслуживание клиента.',
187
+ ]
188
+ embeddings = model.encode(sentences)
189
+ print(embeddings.shape)
190
+ # [3, 1024]
191
+
192
+ # Get the similarity scores for the embeddings
193
+ similarities = model.similarity(embeddings, embeddings)
194
+ print(similarities.shape)
195
+ # [3, 3]
196
+ ```
197
+
198
+ <!--
199
+ ### Direct Usage (Transformers)
200
+
201
+ <details><summary>Click to see the direct usage in Transformers</summary>
202
+
203
+ </details>
204
+ -->
205
+
206
+ <!--
207
+ ### Downstream Usage (Sentence Transformers)
208
+
209
+ You can finetune this model on your own dataset.
210
+
211
+ <details><summary>Click to expand</summary>
212
+
213
+ </details>
214
+ -->
215
+
216
+ <!--
217
+ ### Out-of-Scope Use
218
+
219
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
220
+ -->
221
+
222
+ <!--
223
+ ## Bias, Risks and Limitations
224
+
225
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
226
+ -->
227
+
228
+ <!--
229
+ ### Recommendations
230
+
231
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
232
+ -->
233
+
234
+ ## Training Details
235
+
236
+ ### Training Dataset
237
+
238
+ #### Unnamed Dataset
239
+
240
+ * Size: 18,202 training samples
241
+ * Columns: <code>anchor</code> and <code>positive</code>
242
+ * Approximate statistics based on the first 1000 samples:
243
+ | | anchor | positive |
244
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
245
+ | type | string | string |
246
+ | details | <ul><li>min: 11 tokens</li><li>mean: 22.0 tokens</li><li>max: 41 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 86.42 tokens</li><li>max: 512 tokens</li></ul> |
247
+ * Samples:
248
+ | anchor | positive |
249
+ |:--------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
250
+ | <code>query: Что подтвердит статус законного представителя при прикреплении к подопечному?</code> | <code>query: Где доступна памятка по заключению ДБО?</code> |
251
+ | <code>query: Как можно оплатить покупку Детской СберКартой так же, как с обычной картой?</code> | <code>query: Какие способы оплаты доступны для Детской СберКарты, чтобы использовать ее как обычную карту?</code> |
252
+ | <code>query: Каково нзачение дл яmemoi_d 16300?</code> | <code>passage: Операции по продуктам несовершеннолетнего дееспособного с 14 лет до 18 лет (эмансипированный) совершает сам несовершеннолетний с 14 лет до 18 лет или его доверенное лицо.<br>Выписка по счету (вкладу) может быть выдана:<br><br>-Несовершеннолетний с 14 до 18 лет<br><br>-Доверенное лицо<br>Какие документы необходимо предъявить в Банк для проставления признака дееспособный по несовершеннолетнему с 14 до 18 лет:<br><br>ДУЛ несовершеннолетнего с 14 до 18 лет + ОДИН из следующих документов:<br><br>- свидетельство о заключении брака (п.2 ст. 21 ГК РФ)<br>- решение органа опеки и попечительства о признании несовершеннолетнего полностью дееспособным (эмансипированным) (п.1 ст. 27 ГК РФ)<br>- решение суда о признании несовершеннолетнего полностью дееспособным (эмансипированным) (п.1 ст. 27 ГК РФ)</code> |
253
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
254
+ ```json
255
+ {
256
+ "scale": 20.0,
257
+ "similarity_fct": "cos_sim"
258
+ }
259
+ ```
260
+
261
+ ### Evaluation Dataset
262
+
263
+ #### Unnamed Dataset
264
+
265
+ * Size: 959 evaluation samples
266
+ * Columns: <code>anchor</code> and <code>positive</code>
267
+ * Approximate statistics based on the first 959 samples:
268
+ | | anchor | positive |
269
+ |:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
270
+ | type | string | string |
271
+ | details | <ul><li>min: 11 tokens</li><li>mean: 22.13 tokens</li><li>max: 39 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 84.03 tokens</li><li>max: 512 tokens</li></ul> |
272
+ * Samples:
273
+ | anchor | positive |
274
+ |:--------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------|
275
+ | <code>query: Что нужно сделать после предъявления документов для ребенка до 14 лет?</code> | <code>query: Какие операции охватывает регламент ревста и его снятия в Сбербанке?</code> |
276
+ | <code>query: Какие документы нужны законному представителю для установки лимитов по Детской СберКарте?</code> | <code>query: Что сказать клиенту, если он не принес сберкнижку при обращении?</code> |
277
+ | <code>query: Какой стчатус имеет обращение клиента, еслии его полномочия не подтверждены?</code> | <code>query: Какое шаги следует предпринять при прихлде клаента?</code> |
278
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
279
+ ```json
280
+ {
281
+ "scale": 20.0,
282
+ "similarity_fct": "cos_sim"
283
+ }
284
+ ```
285
+
286
+ ### Training Hyperparameters
287
+ #### Non-Default Hyperparameters
288
+
289
+ - `eval_strategy`: steps
290
+ - `per_device_train_batch_size`: 64
291
+ - `learning_rate`: 1e-05
292
+ - `weight_decay`: 0.01
293
+ - `num_train_epochs`: 10
294
+ - `warmup_ratio`: 0.1
295
+ - `load_best_model_at_end`: True
296
+ - `push_to_hub`: True
297
+ - `hub_model_id`: George2002/sledopyt_embedder
298
+ - `hub_strategy`: end
299
+ - `batch_sampler`: no_duplicates
300
+
301
+ #### All Hyperparameters
302
+ <details><summary>Click to expand</summary>
303
+
304
+ - `overwrite_output_dir`: False
305
+ - `do_predict`: False
306
+ - `eval_strategy`: steps
307
+ - `prediction_loss_only`: True
308
+ - `per_device_train_batch_size`: 64
309
+ - `per_device_eval_batch_size`: 8
310
+ - `per_gpu_train_batch_size`: None
311
+ - `per_gpu_eval_batch_size`: None
312
+ - `gradient_accumulation_steps`: 1
313
+ - `eval_accumulation_steps`: None
314
+ - `torch_empty_cache_steps`: None
315
+ - `learning_rate`: 1e-05
316
+ - `weight_decay`: 0.01
317
+ - `adam_beta1`: 0.9
318
+ - `adam_beta2`: 0.999
319
+ - `adam_epsilon`: 1e-08
320
+ - `max_grad_norm`: 1.0
321
+ - `num_train_epochs`: 10
322
+ - `max_steps`: -1
323
+ - `lr_scheduler_type`: linear
324
+ - `lr_scheduler_kwargs`: {}
325
+ - `warmup_ratio`: 0.1
326
+ - `warmup_steps`: 0
327
+ - `log_level`: passive
328
+ - `log_level_replica`: warning
329
+ - `log_on_each_node`: True
330
+ - `logging_nan_inf_filter`: True
331
+ - `save_safetensors`: True
332
+ - `save_on_each_node`: False
333
+ - `save_only_model`: False
334
+ - `restore_callback_states_from_checkpoint`: False
335
+ - `no_cuda`: False
336
+ - `use_cpu`: False
337
+ - `use_mps_device`: False
338
+ - `seed`: 42
339
+ - `data_seed`: None
340
+ - `jit_mode_eval`: False
341
+ - `use_ipex`: False
342
+ - `bf16`: False
343
+ - `fp16`: False
344
+ - `fp16_opt_level`: O1
345
+ - `half_precision_backend`: auto
346
+ - `bf16_full_eval`: False
347
+ - `fp16_full_eval`: False
348
+ - `tf32`: None
349
+ - `local_rank`: 0
350
+ - `ddp_backend`: None
351
+ - `tpu_num_cores`: None
352
+ - `tpu_metrics_debug`: False
353
+ - `debug`: []
354
+ - `dataloader_drop_last`: True
355
+ - `dataloader_num_workers`: 0
356
+ - `dataloader_prefetch_factor`: None
357
+ - `past_index`: -1
358
+ - `disable_tqdm`: False
359
+ - `remove_unused_columns`: True
360
+ - `label_names`: None
361
+ - `load_best_model_at_end`: True
362
+ - `ignore_data_skip`: False
363
+ - `fsdp`: []
364
+ - `fsdp_min_num_params`: 0
365
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
366
+ - `tp_size`: 0
367
+ - `fsdp_transformer_layer_cls_to_wrap`: None
368
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
369
+ - `deepspeed`: None
370
+ - `label_smoothing_factor`: 0.0
371
+ - `optim`: adamw_torch
372
+ - `optim_args`: None
373
+ - `adafactor`: False
374
+ - `group_by_length`: False
375
+ - `length_column_name`: length
376
+ - `ddp_find_unused_parameters`: None
377
+ - `ddp_bucket_cap_mb`: None
378
+ - `ddp_broadcast_buffers`: False
379
+ - `dataloader_pin_memory`: True
380
+ - `dataloader_persistent_workers`: False
381
+ - `skip_memory_metrics`: True
382
+ - `use_legacy_prediction_loop`: False
383
+ - `push_to_hub`: True
384
+ - `resume_from_checkpoint`: None
385
+ - `hub_model_id`: George2002/sledopyt_embedder
386
+ - `hub_strategy`: end
387
+ - `hub_private_repo`: None
388
+ - `hub_always_push`: False
389
+ - `gradient_checkpointing`: False
390
+ - `gradient_checkpointing_kwargs`: None
391
+ - `include_inputs_for_metrics`: False
392
+ - `include_for_metrics`: []
393
+ - `eval_do_concat_batches`: True
394
+ - `fp16_backend`: auto
395
+ - `push_to_hub_model_id`: None
396
+ - `push_to_hub_organization`: None
397
+ - `mp_parameters`:
398
+ - `auto_find_batch_size`: False
399
+ - `full_determinism`: False
400
+ - `torchdynamo`: None
401
+ - `ray_scope`: last
402
+ - `ddp_timeout`: 1800
403
+ - `torch_compile`: False
404
+ - `torch_compile_backend`: None
405
+ - `torch_compile_mode`: None
406
+ - `include_tokens_per_second`: False
407
+ - `include_num_input_tokens_seen`: False
408
+ - `neftune_noise_alpha`: None
409
+ - `optim_target_modules`: None
410
+ - `batch_eval_metrics`: False
411
+ - `eval_on_start`: False
412
+ - `use_liger_kernel`: False
413
+ - `eval_use_gather_object`: False
414
+ - `average_tokens_across_devices`: False
415
+ - `prompts`: None
416
+ - `batch_sampler`: no_duplicates
417
+ - `multi_dataset_batch_sampler`: proportional
418
+
419
+ </details>
420
+
421
+ ### Training Logs
422
+ <details><summary>Click to expand</summary>
423
+
424
+ | Epoch | Step | Training Loss | Validation Loss |
425
+ |:------:|:----:|:-------------:|:---------------:|
426
+ | 0.0704 | 10 | 3.8016 | - |
427
+ | 0.1408 | 20 | 3.7424 | - |
428
+ | 0.2113 | 30 | 3.6583 | - |
429
+ | 0.2817 | 40 | 3.7144 | - |
430
+ | 0.3521 | 50 | 3.5497 | 1.7768 |
431
+ | 0.4225 | 60 | 3.6716 | - |
432
+ | 0.4930 | 70 | 3.5206 | - |
433
+ | 0.5634 | 80 | 3.4553 | - |
434
+ | 0.6338 | 90 | 3.4572 | - |
435
+ | 0.7042 | 100 | 3.4715 | 1.7043 |
436
+ | 0.7746 | 110 | 3.4693 | - |
437
+ | 0.8451 | 120 | 3.482 | - |
438
+ | 0.9155 | 130 | 3.4296 | - |
439
+ | 0.9859 | 140 | 3.3627 | - |
440
+ | 1.0563 | 150 | 3.3338 | 1.6177 |
441
+ | 1.1268 | 160 | 3.2974 | - |
442
+ | 1.1972 | 170 | 3.3756 | - |
443
+ | 1.2676 | 180 | 3.3302 | - |
444
+ | 1.3380 | 190 | 3.2841 | - |
445
+ | 1.4085 | 200 | 3.14 | 1.5555 |
446
+ | 1.4789 | 210 | 3.2447 | - |
447
+ | 1.5493 | 220 | 3.301 | - |
448
+ | 1.6197 | 230 | 3.2738 | - |
449
+ | 1.6901 | 240 | 3.1474 | - |
450
+ | 1.7606 | 250 | 3.1417 | 1.5091 |
451
+ | 1.8310 | 260 | 3.1931 | - |
452
+ | 1.9014 | 270 | 3.1649 | - |
453
+ | 1.9718 | 280 | 3.2231 | - |
454
+ | 2.0423 | 290 | 3.1172 | - |
455
+ | 2.1127 | 300 | 3.0193 | 1.4375 |
456
+ | 2.1831 | 310 | 2.9451 | - |
457
+ | 2.2535 | 320 | 2.9669 | - |
458
+ | 2.3239 | 330 | 2.9739 | - |
459
+ | 2.3944 | 340 | 2.8988 | - |
460
+ | 2.4648 | 350 | 2.9009 | 1.3773 |
461
+ | 2.5352 | 360 | 2.8597 | - |
462
+ | 2.6056 | 370 | 2.8603 | - |
463
+ | 2.6761 | 380 | 2.9262 | - |
464
+ | 2.7465 | 390 | 2.9301 | - |
465
+ | 2.8169 | 400 | 2.9446 | 1.3113 |
466
+ | 2.8873 | 410 | 2.9103 | - |
467
+ | 2.9577 | 420 | 2.88 | - |
468
+ | 3.0282 | 430 | 2.7008 | - |
469
+ | 3.0986 | 440 | 2.669 | - |
470
+ | 3.1690 | 450 | 2.6466 | 1.2236 |
471
+ | 3.2394 | 460 | 2.6583 | - |
472
+ | 3.3099 | 470 | 2.5912 | - |
473
+ | 3.3803 | 480 | 2.5551 | - |
474
+ | 3.4507 | 490 | 2.5759 | - |
475
+ | 3.5211 | 500 | 2.6059 | 1.1634 |
476
+ | 3.5915 | 510 | 2.5128 | - |
477
+ | 3.6620 | 520 | 2.5397 | - |
478
+ | 3.7324 | 530 | 2.5198 | - |
479
+ | 3.8028 | 540 | 2.4605 | - |
480
+ | 3.8732 | 550 | 2.4911 | 1.0877 |
481
+ | 3.9437 | 560 | 2.445 | - |
482
+ | 4.0141 | 570 | 2.4261 | - |
483
+ | 4.0845 | 580 | 2.2965 | - |
484
+ | 4.1549 | 590 | 2.1889 | - |
485
+ | 4.2254 | 600 | 2.2193 | 1.0498 |
486
+ | 4.2958 | 610 | 2.2024 | - |
487
+ | 4.3662 | 620 | 2.2096 | - |
488
+ | 4.4366 | 630 | 2.2598 | - |
489
+ | 4.5070 | 640 | 2.2322 | - |
490
+ | 4.5775 | 650 | 2.1822 | 0.9610 |
491
+ | 4.6479 | 660 | 2.1621 | - |
492
+ | 4.7183 | 670 | 2.1543 | - |
493
+ | 4.7887 | 680 | 2.2376 | - |
494
+ | 4.8592 | 690 | 2.1652 | - |
495
+ | 4.9296 | 700 | 2.1194 | 0.8909 |
496
+ | 5.0 | 710 | 2.0919 | - |
497
+ | 5.0704 | 720 | 1.9779 | - |
498
+ | 5.1408 | 730 | 1.8619 | - |
499
+ | 5.2113 | 740 | 1.9172 | - |
500
+ | 5.2817 | 750 | 1.9355 | 0.8482 |
501
+ | 5.3521 | 760 | 1.9393 | - |
502
+ | 5.4225 | 770 | 1.8727 | - |
503
+ | 5.4930 | 780 | 1.9599 | - |
504
+ | 5.5634 | 790 | 1.8271 | - |
505
+ | 5.6338 | 800 | 1.9065 | 0.8195 |
506
+ | 5.7042 | 810 | 1.8742 | - |
507
+ | 5.7746 | 820 | 1.8754 | - |
508
+ | 5.8451 | 830 | 1.8412 | - |
509
+ | 5.9155 | 840 | 1.845 | - |
510
+ | 5.9859 | 850 | 1.8035 | 0.7713 |
511
+ | 6.0563 | 860 | 1.7062 | - |
512
+ | 6.1268 | 870 | 1.6908 | - |
513
+ | 6.1972 | 880 | 1.6868 | - |
514
+ | 6.2676 | 890 | 1.686 | - |
515
+ | 6.3380 | 900 | 1.564 | 0.7355 |
516
+ | 6.4085 | 910 | 1.7135 | - |
517
+ | 6.4789 | 920 | 1.6614 | - |
518
+ | 6.5493 | 930 | 1.6442 | - |
519
+ | 6.6197 | 940 | 1.6117 | - |
520
+ | 6.6901 | 950 | 1.6317 | 0.7008 |
521
+ | 6.7606 | 960 | 1.6589 | - |
522
+ | 6.8310 | 970 | 1.673 | - |
523
+ | 6.9014 | 980 | 1.6018 | - |
524
+ | 6.9718 | 990 | 1.6291 | - |
525
+ | 7.0423 | 1000 | 1.5407 | 0.6680 |
526
+ | 7.1127 | 1010 | 1.4842 | - |
527
+ | 7.1831 | 1020 | 1.5063 | - |
528
+ | 7.2535 | 1030 | 1.5052 | - |
529
+ | 7.3239 | 1040 | 1.42 | - |
530
+ | 7.3944 | 1050 | 1.4671 | 0.6451 |
531
+ | 7.4648 | 1060 | 1.4879 | - |
532
+ | 7.5352 | 1070 | 1.5012 | - |
533
+ | 7.6056 | 1080 | 1.4386 | - |
534
+ | 7.6761 | 1090 | 1.4544 | - |
535
+ | 7.7465 | 1100 | 1.4076 | 0.6195 |
536
+ | 7.8169 | 1110 | 1.4838 | - |
537
+ | 7.8873 | 1120 | 1.4745 | - |
538
+ | 7.9577 | 1130 | 1.3781 | - |
539
+ | 8.0282 | 1140 | 1.422 | - |
540
+ | 8.0986 | 1150 | 1.345 | 0.6033 |
541
+ | 8.1690 | 1160 | 1.4478 | - |
542
+ | 8.2394 | 1170 | 1.3111 | - |
543
+ | 8.3099 | 1180 | 1.3754 | - |
544
+ | 8.3803 | 1190 | 1.3996 | - |
545
+ | 8.4507 | 1200 | 1.3818 | 0.5862 |
546
+ | 8.5211 | 1210 | 1.348 | - |
547
+ | 8.5915 | 1220 | 1.3567 | - |
548
+ | 8.6620 | 1230 | 1.331 | - |
549
+ | 8.7324 | 1240 | 1.2977 | - |
550
+ | 8.8028 | 1250 | 1.2578 | 0.5742 |
551
+ | 8.8732 | 1260 | 1.2807 | - |
552
+ | 8.9437 | 1270 | 1.3597 | - |
553
+ | 9.0141 | 1280 | 1.3292 | - |
554
+ | 9.0845 | 1290 | 1.2585 | - |
555
+ | 9.1549 | 1300 | 1.2552 | 0.5647 |
556
+ | 9.2254 | 1310 | 1.3339 | - |
557
+ | 9.2958 | 1320 | 1.2872 | - |
558
+ | 9.3662 | 1330 | 1.276 | - |
559
+ | 9.4366 | 1340 | 1.2846 | - |
560
+ | 9.5070 | 1350 | 1.2782 | 0.5621 |
561
+ | 9.5775 | 1360 | 1.2883 | - |
562
+ | 9.6479 | 1370 | 1.2515 | - |
563
+ | 9.7183 | 1380 | 1.3023 | - |
564
+ | 9.7887 | 1390 | 1.3053 | - |
565
+ | 9.8592 | 1400 | 1.2556 | 0.5562 |
566
+ | 9.9296 | 1410 | 1.2926 | - |
567
+ | 10.0 | 1420 | 1.2199 | - |
568
+
569
+ </details>
570
+
571
+ ### Framework Versions
572
+ - Python: 3.10.12
573
+ - Sentence Transformers: 4.1.0
574
+ - Transformers: 4.51.3
575
+ - PyTorch: 2.6.0+cu124
576
+ - Accelerate: 1.6.0
577
+ - Datasets: 3.5.0
578
+ - Tokenizers: 0.21.1
579
+
580
+ ## Citation
581
+
582
+ ### BibTeX
583
+
584
+ #### Sentence Transformers
585
+ ```bibtex
586
+ @inproceedings{reimers-2019-sentence-bert,
587
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
588
+ author = "Reimers, Nils and Gurevych, Iryna",
589
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
590
+ month = "11",
591
+ year = "2019",
592
+ publisher = "Association for Computational Linguistics",
593
+ url = "https://arxiv.org/abs/1908.10084",
594
+ }
595
+ ```
596
+
597
+ #### MultipleNegativesRankingLoss
598
+ ```bibtex
599
+ @misc{henderson2017efficient,
600
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
601
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
602
+ year={2017},
603
+ eprint={1705.00652},
604
+ archivePrefix={arXiv},
605
+ primaryClass={cs.CL}
606
+ }
607
+ ```
608
+
609
+ <!--
610
+ ## Glossary
611
+
612
+ *Clearly define terms in order to be accessible across audiences.*
613
+ -->
614
+
615
+ <!--
616
+ ## Model Card Authors
617
+
618
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
619
+ -->
620
+
621
+ <!--
622
+ ## Model Card Contact
623
+
624
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
625
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 1024,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 4096,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 16,
18
+ "num_hidden_layers": 24,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3e889508edab32a62d3556df6ea928b24c2fb8dfe9bf4d7f4ee8b168de679bed
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4be066e40c1ee81a4f94fb6c12ef9231772207cf23a5fd721de3ad25a6665fe1
3
+ size 4471055801
rng_state_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5997e32aba2966804d63e3ecd9c8b855581a9a46e12a96f3983fc05434abc14f
3
+ size 14512
rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fcc0e68124101d652e2cf18ed5591e27e63de6f0dd49197e2b51fa3a60582f1f
3
+ size 14512
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f6a318d3c78bf030713323240e63a6ca9f0734093c3dac41f5d1ca6ea5774224
3
+ size 1064
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
trainer_state.json ADDED
@@ -0,0 +1,1252 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 1400,
3
+ "best_metric": 0.5561918616294861,
4
+ "best_model_checkpoint": ".../training_output/checkpoint-1400",
5
+ "epoch": 10.0,
6
+ "eval_steps": 50,
7
+ "global_step": 1420,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.07042253521126761,
14
+ "grad_norm": 4.834911346435547,
15
+ "learning_rate": 6.338028169014085e-07,
16
+ "loss": 3.8016,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.14084507042253522,
21
+ "grad_norm": 3.7942707538604736,
22
+ "learning_rate": 1.3380281690140844e-06,
23
+ "loss": 3.7424,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.2112676056338028,
28
+ "grad_norm": 4.044854164123535,
29
+ "learning_rate": 2.0422535211267608e-06,
30
+ "loss": 3.6583,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.28169014084507044,
35
+ "grad_norm": 4.419040679931641,
36
+ "learning_rate": 2.746478873239437e-06,
37
+ "loss": 3.7144,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.352112676056338,
42
+ "grad_norm": 4.994226455688477,
43
+ "learning_rate": 3.4507042253521127e-06,
44
+ "loss": 3.5497,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.352112676056338,
49
+ "eval_loss": 1.7768433094024658,
50
+ "eval_runtime": 10.0717,
51
+ "eval_samples_per_second": 95.217,
52
+ "eval_steps_per_second": 5.957,
53
+ "step": 50
54
+ },
55
+ {
56
+ "epoch": 0.4225352112676056,
57
+ "grad_norm": 4.968951225280762,
58
+ "learning_rate": 4.154929577464789e-06,
59
+ "loss": 3.6716,
60
+ "step": 60
61
+ },
62
+ {
63
+ "epoch": 0.49295774647887325,
64
+ "grad_norm": 4.8160014152526855,
65
+ "learning_rate": 4.859154929577465e-06,
66
+ "loss": 3.5206,
67
+ "step": 70
68
+ },
69
+ {
70
+ "epoch": 0.5633802816901409,
71
+ "grad_norm": 5.351637363433838,
72
+ "learning_rate": 5.563380281690142e-06,
73
+ "loss": 3.4553,
74
+ "step": 80
75
+ },
76
+ {
77
+ "epoch": 0.6338028169014085,
78
+ "grad_norm": 5.762838363647461,
79
+ "learning_rate": 6.267605633802818e-06,
80
+ "loss": 3.4572,
81
+ "step": 90
82
+ },
83
+ {
84
+ "epoch": 0.704225352112676,
85
+ "grad_norm": 5.674283504486084,
86
+ "learning_rate": 6.9718309859154935e-06,
87
+ "loss": 3.4715,
88
+ "step": 100
89
+ },
90
+ {
91
+ "epoch": 0.704225352112676,
92
+ "eval_loss": 1.704325556755066,
93
+ "eval_runtime": 9.3452,
94
+ "eval_samples_per_second": 102.619,
95
+ "eval_steps_per_second": 6.42,
96
+ "step": 100
97
+ },
98
+ {
99
+ "epoch": 0.7746478873239436,
100
+ "grad_norm": 5.651138782501221,
101
+ "learning_rate": 7.67605633802817e-06,
102
+ "loss": 3.4693,
103
+ "step": 110
104
+ },
105
+ {
106
+ "epoch": 0.8450704225352113,
107
+ "grad_norm": 5.866046905517578,
108
+ "learning_rate": 8.380281690140846e-06,
109
+ "loss": 3.482,
110
+ "step": 120
111
+ },
112
+ {
113
+ "epoch": 0.9154929577464789,
114
+ "grad_norm": 6.652071475982666,
115
+ "learning_rate": 9.084507042253522e-06,
116
+ "loss": 3.4296,
117
+ "step": 130
118
+ },
119
+ {
120
+ "epoch": 0.9859154929577465,
121
+ "grad_norm": 8.077320098876953,
122
+ "learning_rate": 9.788732394366198e-06,
123
+ "loss": 3.3627,
124
+ "step": 140
125
+ },
126
+ {
127
+ "epoch": 1.056338028169014,
128
+ "grad_norm": 6.8231329917907715,
129
+ "learning_rate": 9.945226917057903e-06,
130
+ "loss": 3.3338,
131
+ "step": 150
132
+ },
133
+ {
134
+ "epoch": 1.056338028169014,
135
+ "eval_loss": 1.6177195310592651,
136
+ "eval_runtime": 9.306,
137
+ "eval_samples_per_second": 103.052,
138
+ "eval_steps_per_second": 6.447,
139
+ "step": 150
140
+ },
141
+ {
142
+ "epoch": 1.1267605633802817,
143
+ "grad_norm": 7.225569725036621,
144
+ "learning_rate": 9.866979655712052e-06,
145
+ "loss": 3.2974,
146
+ "step": 160
147
+ },
148
+ {
149
+ "epoch": 1.1971830985915493,
150
+ "grad_norm": 7.667593479156494,
151
+ "learning_rate": 9.788732394366198e-06,
152
+ "loss": 3.3756,
153
+ "step": 170
154
+ },
155
+ {
156
+ "epoch": 1.267605633802817,
157
+ "grad_norm": 7.092339992523193,
158
+ "learning_rate": 9.710485133020345e-06,
159
+ "loss": 3.3302,
160
+ "step": 180
161
+ },
162
+ {
163
+ "epoch": 1.3380281690140845,
164
+ "grad_norm": 7.544447898864746,
165
+ "learning_rate": 9.632237871674493e-06,
166
+ "loss": 3.2841,
167
+ "step": 190
168
+ },
169
+ {
170
+ "epoch": 1.408450704225352,
171
+ "grad_norm": 8.606858253479004,
172
+ "learning_rate": 9.55399061032864e-06,
173
+ "loss": 3.14,
174
+ "step": 200
175
+ },
176
+ {
177
+ "epoch": 1.408450704225352,
178
+ "eval_loss": 1.5555429458618164,
179
+ "eval_runtime": 8.9418,
180
+ "eval_samples_per_second": 107.249,
181
+ "eval_steps_per_second": 6.71,
182
+ "step": 200
183
+ },
184
+ {
185
+ "epoch": 1.4788732394366197,
186
+ "grad_norm": 9.349486351013184,
187
+ "learning_rate": 9.475743348982786e-06,
188
+ "loss": 3.2447,
189
+ "step": 210
190
+ },
191
+ {
192
+ "epoch": 1.5492957746478875,
193
+ "grad_norm": 10.120262145996094,
194
+ "learning_rate": 9.397496087636934e-06,
195
+ "loss": 3.301,
196
+ "step": 220
197
+ },
198
+ {
199
+ "epoch": 1.619718309859155,
200
+ "grad_norm": 8.683691024780273,
201
+ "learning_rate": 9.31924882629108e-06,
202
+ "loss": 3.2738,
203
+ "step": 230
204
+ },
205
+ {
206
+ "epoch": 1.6901408450704225,
207
+ "grad_norm": 8.391075134277344,
208
+ "learning_rate": 9.241001564945227e-06,
209
+ "loss": 3.1474,
210
+ "step": 240
211
+ },
212
+ {
213
+ "epoch": 1.76056338028169,
214
+ "grad_norm": 9.799640655517578,
215
+ "learning_rate": 9.162754303599375e-06,
216
+ "loss": 3.1417,
217
+ "step": 250
218
+ },
219
+ {
220
+ "epoch": 1.76056338028169,
221
+ "eval_loss": 1.5090895891189575,
222
+ "eval_runtime": 9.059,
223
+ "eval_samples_per_second": 105.862,
224
+ "eval_steps_per_second": 6.623,
225
+ "step": 250
226
+ },
227
+ {
228
+ "epoch": 1.8309859154929577,
229
+ "grad_norm": 9.724505424499512,
230
+ "learning_rate": 9.084507042253522e-06,
231
+ "loss": 3.1931,
232
+ "step": 260
233
+ },
234
+ {
235
+ "epoch": 1.9014084507042255,
236
+ "grad_norm": 11.591618537902832,
237
+ "learning_rate": 9.006259780907669e-06,
238
+ "loss": 3.1649,
239
+ "step": 270
240
+ },
241
+ {
242
+ "epoch": 1.971830985915493,
243
+ "grad_norm": 9.90600299835205,
244
+ "learning_rate": 8.928012519561817e-06,
245
+ "loss": 3.2231,
246
+ "step": 280
247
+ },
248
+ {
249
+ "epoch": 2.0422535211267605,
250
+ "grad_norm": 10.291154861450195,
251
+ "learning_rate": 8.849765258215963e-06,
252
+ "loss": 3.1172,
253
+ "step": 290
254
+ },
255
+ {
256
+ "epoch": 2.112676056338028,
257
+ "grad_norm": 11.620966911315918,
258
+ "learning_rate": 8.77151799687011e-06,
259
+ "loss": 3.0193,
260
+ "step": 300
261
+ },
262
+ {
263
+ "epoch": 2.112676056338028,
264
+ "eval_loss": 1.437499761581421,
265
+ "eval_runtime": 8.9265,
266
+ "eval_samples_per_second": 107.433,
267
+ "eval_steps_per_second": 6.722,
268
+ "step": 300
269
+ },
270
+ {
271
+ "epoch": 2.183098591549296,
272
+ "grad_norm": 12.65719223022461,
273
+ "learning_rate": 8.693270735524258e-06,
274
+ "loss": 2.9451,
275
+ "step": 310
276
+ },
277
+ {
278
+ "epoch": 2.2535211267605635,
279
+ "grad_norm": 12.792698860168457,
280
+ "learning_rate": 8.615023474178405e-06,
281
+ "loss": 2.9669,
282
+ "step": 320
283
+ },
284
+ {
285
+ "epoch": 2.323943661971831,
286
+ "grad_norm": 12.682389259338379,
287
+ "learning_rate": 8.536776212832551e-06,
288
+ "loss": 2.9739,
289
+ "step": 330
290
+ },
291
+ {
292
+ "epoch": 2.3943661971830985,
293
+ "grad_norm": 12.96263313293457,
294
+ "learning_rate": 8.4585289514867e-06,
295
+ "loss": 2.8988,
296
+ "step": 340
297
+ },
298
+ {
299
+ "epoch": 2.464788732394366,
300
+ "grad_norm": 14.160724639892578,
301
+ "learning_rate": 8.380281690140846e-06,
302
+ "loss": 2.9009,
303
+ "step": 350
304
+ },
305
+ {
306
+ "epoch": 2.464788732394366,
307
+ "eval_loss": 1.3772871494293213,
308
+ "eval_runtime": 9.6484,
309
+ "eval_samples_per_second": 99.394,
310
+ "eval_steps_per_second": 6.219,
311
+ "step": 350
312
+ },
313
+ {
314
+ "epoch": 2.535211267605634,
315
+ "grad_norm": 14.379948616027832,
316
+ "learning_rate": 8.302034428794992e-06,
317
+ "loss": 2.8597,
318
+ "step": 360
319
+ },
320
+ {
321
+ "epoch": 2.6056338028169015,
322
+ "grad_norm": 15.024813652038574,
323
+ "learning_rate": 8.22378716744914e-06,
324
+ "loss": 2.8603,
325
+ "step": 370
326
+ },
327
+ {
328
+ "epoch": 2.676056338028169,
329
+ "grad_norm": 15.947714805603027,
330
+ "learning_rate": 8.145539906103287e-06,
331
+ "loss": 2.9262,
332
+ "step": 380
333
+ },
334
+ {
335
+ "epoch": 2.7464788732394365,
336
+ "grad_norm": 15.812085151672363,
337
+ "learning_rate": 8.067292644757434e-06,
338
+ "loss": 2.9301,
339
+ "step": 390
340
+ },
341
+ {
342
+ "epoch": 2.816901408450704,
343
+ "grad_norm": 15.922052383422852,
344
+ "learning_rate": 7.989045383411582e-06,
345
+ "loss": 2.9446,
346
+ "step": 400
347
+ },
348
+ {
349
+ "epoch": 2.816901408450704,
350
+ "eval_loss": 1.3113040924072266,
351
+ "eval_runtime": 8.9464,
352
+ "eval_samples_per_second": 107.194,
353
+ "eval_steps_per_second": 6.707,
354
+ "step": 400
355
+ },
356
+ {
357
+ "epoch": 2.887323943661972,
358
+ "grad_norm": 15.517271995544434,
359
+ "learning_rate": 7.910798122065728e-06,
360
+ "loss": 2.9103,
361
+ "step": 410
362
+ },
363
+ {
364
+ "epoch": 2.9577464788732395,
365
+ "grad_norm": 16.0577449798584,
366
+ "learning_rate": 7.832550860719875e-06,
367
+ "loss": 2.88,
368
+ "step": 420
369
+ },
370
+ {
371
+ "epoch": 3.028169014084507,
372
+ "grad_norm": 15.434414863586426,
373
+ "learning_rate": 7.754303599374023e-06,
374
+ "loss": 2.7008,
375
+ "step": 430
376
+ },
377
+ {
378
+ "epoch": 3.0985915492957745,
379
+ "grad_norm": 18.000938415527344,
380
+ "learning_rate": 7.67605633802817e-06,
381
+ "loss": 2.669,
382
+ "step": 440
383
+ },
384
+ {
385
+ "epoch": 3.169014084507042,
386
+ "grad_norm": 17.124902725219727,
387
+ "learning_rate": 7.597809076682316e-06,
388
+ "loss": 2.6466,
389
+ "step": 450
390
+ },
391
+ {
392
+ "epoch": 3.169014084507042,
393
+ "eval_loss": 1.2235872745513916,
394
+ "eval_runtime": 8.9632,
395
+ "eval_samples_per_second": 106.993,
396
+ "eval_steps_per_second": 6.694,
397
+ "step": 450
398
+ },
399
+ {
400
+ "epoch": 3.23943661971831,
401
+ "grad_norm": 18.728208541870117,
402
+ "learning_rate": 7.5195618153364636e-06,
403
+ "loss": 2.6583,
404
+ "step": 460
405
+ },
406
+ {
407
+ "epoch": 3.3098591549295775,
408
+ "grad_norm": 20.174840927124023,
409
+ "learning_rate": 7.441314553990611e-06,
410
+ "loss": 2.5912,
411
+ "step": 470
412
+ },
413
+ {
414
+ "epoch": 3.380281690140845,
415
+ "grad_norm": 19.468631744384766,
416
+ "learning_rate": 7.3630672926447575e-06,
417
+ "loss": 2.5551,
418
+ "step": 480
419
+ },
420
+ {
421
+ "epoch": 3.4507042253521125,
422
+ "grad_norm": 19.333127975463867,
423
+ "learning_rate": 7.284820031298905e-06,
424
+ "loss": 2.5759,
425
+ "step": 490
426
+ },
427
+ {
428
+ "epoch": 3.52112676056338,
429
+ "grad_norm": 20.050857543945312,
430
+ "learning_rate": 7.206572769953052e-06,
431
+ "loss": 2.6059,
432
+ "step": 500
433
+ },
434
+ {
435
+ "epoch": 3.52112676056338,
436
+ "eval_loss": 1.1633683443069458,
437
+ "eval_runtime": 8.9644,
438
+ "eval_samples_per_second": 106.979,
439
+ "eval_steps_per_second": 6.693,
440
+ "step": 500
441
+ },
442
+ {
443
+ "epoch": 3.591549295774648,
444
+ "grad_norm": 21.03053855895996,
445
+ "learning_rate": 7.128325508607199e-06,
446
+ "loss": 2.5128,
447
+ "step": 510
448
+ },
449
+ {
450
+ "epoch": 3.6619718309859155,
451
+ "grad_norm": 20.328510284423828,
452
+ "learning_rate": 7.050078247261346e-06,
453
+ "loss": 2.5397,
454
+ "step": 520
455
+ },
456
+ {
457
+ "epoch": 3.732394366197183,
458
+ "grad_norm": 21.760059356689453,
459
+ "learning_rate": 6.9718309859154935e-06,
460
+ "loss": 2.5198,
461
+ "step": 530
462
+ },
463
+ {
464
+ "epoch": 3.802816901408451,
465
+ "grad_norm": 20.767467498779297,
466
+ "learning_rate": 6.89358372456964e-06,
467
+ "loss": 2.4605,
468
+ "step": 540
469
+ },
470
+ {
471
+ "epoch": 3.873239436619718,
472
+ "grad_norm": 24.69249725341797,
473
+ "learning_rate": 6.815336463223787e-06,
474
+ "loss": 2.4911,
475
+ "step": 550
476
+ },
477
+ {
478
+ "epoch": 3.873239436619718,
479
+ "eval_loss": 1.0876926183700562,
480
+ "eval_runtime": 8.9503,
481
+ "eval_samples_per_second": 107.147,
482
+ "eval_steps_per_second": 6.704,
483
+ "step": 550
484
+ },
485
+ {
486
+ "epoch": 3.943661971830986,
487
+ "grad_norm": 21.451522827148438,
488
+ "learning_rate": 6.737089201877935e-06,
489
+ "loss": 2.445,
490
+ "step": 560
491
+ },
492
+ {
493
+ "epoch": 4.014084507042254,
494
+ "grad_norm": 21.80568504333496,
495
+ "learning_rate": 6.658841940532081e-06,
496
+ "loss": 2.4261,
497
+ "step": 570
498
+ },
499
+ {
500
+ "epoch": 4.084507042253521,
501
+ "grad_norm": 23.770599365234375,
502
+ "learning_rate": 6.580594679186229e-06,
503
+ "loss": 2.2965,
504
+ "step": 580
505
+ },
506
+ {
507
+ "epoch": 4.154929577464789,
508
+ "grad_norm": 22.17987060546875,
509
+ "learning_rate": 6.502347417840375e-06,
510
+ "loss": 2.1889,
511
+ "step": 590
512
+ },
513
+ {
514
+ "epoch": 4.225352112676056,
515
+ "grad_norm": 22.51678466796875,
516
+ "learning_rate": 6.424100156494523e-06,
517
+ "loss": 2.2193,
518
+ "step": 600
519
+ },
520
+ {
521
+ "epoch": 4.225352112676056,
522
+ "eval_loss": 1.049774408340454,
523
+ "eval_runtime": 8.9455,
524
+ "eval_samples_per_second": 107.205,
525
+ "eval_steps_per_second": 6.707,
526
+ "step": 600
527
+ },
528
+ {
529
+ "epoch": 4.295774647887324,
530
+ "grad_norm": 23.58041000366211,
531
+ "learning_rate": 6.345852895148671e-06,
532
+ "loss": 2.2024,
533
+ "step": 610
534
+ },
535
+ {
536
+ "epoch": 4.366197183098592,
537
+ "grad_norm": 24.69291877746582,
538
+ "learning_rate": 6.267605633802818e-06,
539
+ "loss": 2.2096,
540
+ "step": 620
541
+ },
542
+ {
543
+ "epoch": 4.436619718309859,
544
+ "grad_norm": 24.199907302856445,
545
+ "learning_rate": 6.189358372456965e-06,
546
+ "loss": 2.2598,
547
+ "step": 630
548
+ },
549
+ {
550
+ "epoch": 4.507042253521127,
551
+ "grad_norm": 23.92287826538086,
552
+ "learning_rate": 6.111111111111112e-06,
553
+ "loss": 2.2322,
554
+ "step": 640
555
+ },
556
+ {
557
+ "epoch": 4.577464788732394,
558
+ "grad_norm": 22.647499084472656,
559
+ "learning_rate": 6.0328638497652595e-06,
560
+ "loss": 2.1822,
561
+ "step": 650
562
+ },
563
+ {
564
+ "epoch": 4.577464788732394,
565
+ "eval_loss": 0.9610461592674255,
566
+ "eval_runtime": 8.9698,
567
+ "eval_samples_per_second": 106.915,
568
+ "eval_steps_per_second": 6.689,
569
+ "step": 650
570
+ },
571
+ {
572
+ "epoch": 4.647887323943662,
573
+ "grad_norm": 23.590543746948242,
574
+ "learning_rate": 5.954616588419406e-06,
575
+ "loss": 2.1621,
576
+ "step": 660
577
+ },
578
+ {
579
+ "epoch": 4.71830985915493,
580
+ "grad_norm": 23.479148864746094,
581
+ "learning_rate": 5.876369327073553e-06,
582
+ "loss": 2.1543,
583
+ "step": 670
584
+ },
585
+ {
586
+ "epoch": 4.788732394366197,
587
+ "grad_norm": 26.514415740966797,
588
+ "learning_rate": 5.798122065727701e-06,
589
+ "loss": 2.2376,
590
+ "step": 680
591
+ },
592
+ {
593
+ "epoch": 4.859154929577465,
594
+ "grad_norm": 25.98239517211914,
595
+ "learning_rate": 5.719874804381847e-06,
596
+ "loss": 2.1652,
597
+ "step": 690
598
+ },
599
+ {
600
+ "epoch": 4.929577464788732,
601
+ "grad_norm": 25.147550582885742,
602
+ "learning_rate": 5.641627543035995e-06,
603
+ "loss": 2.1194,
604
+ "step": 700
605
+ },
606
+ {
607
+ "epoch": 4.929577464788732,
608
+ "eval_loss": 0.8909062743186951,
609
+ "eval_runtime": 8.9807,
610
+ "eval_samples_per_second": 106.785,
611
+ "eval_steps_per_second": 6.681,
612
+ "step": 700
613
+ },
614
+ {
615
+ "epoch": 5.0,
616
+ "grad_norm": 24.74693489074707,
617
+ "learning_rate": 5.563380281690142e-06,
618
+ "loss": 2.0919,
619
+ "step": 710
620
+ },
621
+ {
622
+ "epoch": 5.070422535211268,
623
+ "grad_norm": 27.079837799072266,
624
+ "learning_rate": 5.4851330203442885e-06,
625
+ "loss": 1.9779,
626
+ "step": 720
627
+ },
628
+ {
629
+ "epoch": 5.140845070422535,
630
+ "grad_norm": 25.947982788085938,
631
+ "learning_rate": 5.406885758998436e-06,
632
+ "loss": 1.8619,
633
+ "step": 730
634
+ },
635
+ {
636
+ "epoch": 5.211267605633803,
637
+ "grad_norm": 27.102828979492188,
638
+ "learning_rate": 5.328638497652583e-06,
639
+ "loss": 1.9172,
640
+ "step": 740
641
+ },
642
+ {
643
+ "epoch": 5.28169014084507,
644
+ "grad_norm": 27.407745361328125,
645
+ "learning_rate": 5.25039123630673e-06,
646
+ "loss": 1.9355,
647
+ "step": 750
648
+ },
649
+ {
650
+ "epoch": 5.28169014084507,
651
+ "eval_loss": 0.8482040166854858,
652
+ "eval_runtime": 9.8318,
653
+ "eval_samples_per_second": 97.54,
654
+ "eval_steps_per_second": 6.103,
655
+ "step": 750
656
+ },
657
+ {
658
+ "epoch": 5.352112676056338,
659
+ "grad_norm": 24.58213233947754,
660
+ "learning_rate": 5.172143974960877e-06,
661
+ "loss": 1.9393,
662
+ "step": 760
663
+ },
664
+ {
665
+ "epoch": 5.422535211267606,
666
+ "grad_norm": 24.623889923095703,
667
+ "learning_rate": 5.093896713615024e-06,
668
+ "loss": 1.8727,
669
+ "step": 770
670
+ },
671
+ {
672
+ "epoch": 5.492957746478873,
673
+ "grad_norm": 26.396087646484375,
674
+ "learning_rate": 5.015649452269171e-06,
675
+ "loss": 1.9599,
676
+ "step": 780
677
+ },
678
+ {
679
+ "epoch": 5.563380281690141,
680
+ "grad_norm": 28.786396026611328,
681
+ "learning_rate": 4.9374021909233185e-06,
682
+ "loss": 1.8271,
683
+ "step": 790
684
+ },
685
+ {
686
+ "epoch": 5.633802816901408,
687
+ "grad_norm": 25.507366180419922,
688
+ "learning_rate": 4.859154929577465e-06,
689
+ "loss": 1.9065,
690
+ "step": 800
691
+ },
692
+ {
693
+ "epoch": 5.633802816901408,
694
+ "eval_loss": 0.8195229768753052,
695
+ "eval_runtime": 8.968,
696
+ "eval_samples_per_second": 106.935,
697
+ "eval_steps_per_second": 6.69,
698
+ "step": 800
699
+ },
700
+ {
701
+ "epoch": 5.704225352112676,
702
+ "grad_norm": 26.951005935668945,
703
+ "learning_rate": 4.780907668231612e-06,
704
+ "loss": 1.8742,
705
+ "step": 810
706
+ },
707
+ {
708
+ "epoch": 5.774647887323944,
709
+ "grad_norm": 27.19331169128418,
710
+ "learning_rate": 4.70266040688576e-06,
711
+ "loss": 1.8754,
712
+ "step": 820
713
+ },
714
+ {
715
+ "epoch": 5.845070422535211,
716
+ "grad_norm": 26.17990493774414,
717
+ "learning_rate": 4.624413145539906e-06,
718
+ "loss": 1.8412,
719
+ "step": 830
720
+ },
721
+ {
722
+ "epoch": 5.915492957746479,
723
+ "grad_norm": 28.198486328125,
724
+ "learning_rate": 4.546165884194054e-06,
725
+ "loss": 1.845,
726
+ "step": 840
727
+ },
728
+ {
729
+ "epoch": 5.985915492957746,
730
+ "grad_norm": 24.81572914123535,
731
+ "learning_rate": 4.467918622848201e-06,
732
+ "loss": 1.8035,
733
+ "step": 850
734
+ },
735
+ {
736
+ "epoch": 5.985915492957746,
737
+ "eval_loss": 0.7713097929954529,
738
+ "eval_runtime": 8.914,
739
+ "eval_samples_per_second": 107.583,
740
+ "eval_steps_per_second": 6.731,
741
+ "step": 850
742
+ },
743
+ {
744
+ "epoch": 6.056338028169014,
745
+ "grad_norm": 27.168418884277344,
746
+ "learning_rate": 4.3896713615023476e-06,
747
+ "loss": 1.7062,
748
+ "step": 860
749
+ },
750
+ {
751
+ "epoch": 6.126760563380282,
752
+ "grad_norm": 25.584774017333984,
753
+ "learning_rate": 4.311424100156495e-06,
754
+ "loss": 1.6908,
755
+ "step": 870
756
+ },
757
+ {
758
+ "epoch": 6.197183098591549,
759
+ "grad_norm": 27.289413452148438,
760
+ "learning_rate": 4.233176838810642e-06,
761
+ "loss": 1.6868,
762
+ "step": 880
763
+ },
764
+ {
765
+ "epoch": 6.267605633802817,
766
+ "grad_norm": 26.789995193481445,
767
+ "learning_rate": 4.154929577464789e-06,
768
+ "loss": 1.686,
769
+ "step": 890
770
+ },
771
+ {
772
+ "epoch": 6.338028169014084,
773
+ "grad_norm": 27.878765106201172,
774
+ "learning_rate": 4.076682316118936e-06,
775
+ "loss": 1.564,
776
+ "step": 900
777
+ },
778
+ {
779
+ "epoch": 6.338028169014084,
780
+ "eval_loss": 0.7355391383171082,
781
+ "eval_runtime": 8.9357,
782
+ "eval_samples_per_second": 107.322,
783
+ "eval_steps_per_second": 6.715,
784
+ "step": 900
785
+ },
786
+ {
787
+ "epoch": 6.408450704225352,
788
+ "grad_norm": 27.236083984375,
789
+ "learning_rate": 3.998435054773084e-06,
790
+ "loss": 1.7135,
791
+ "step": 910
792
+ },
793
+ {
794
+ "epoch": 6.47887323943662,
795
+ "grad_norm": 26.007850646972656,
796
+ "learning_rate": 3.92018779342723e-06,
797
+ "loss": 1.6614,
798
+ "step": 920
799
+ },
800
+ {
801
+ "epoch": 6.549295774647887,
802
+ "grad_norm": 26.08616065979004,
803
+ "learning_rate": 3.8419405320813775e-06,
804
+ "loss": 1.6442,
805
+ "step": 930
806
+ },
807
+ {
808
+ "epoch": 6.619718309859155,
809
+ "grad_norm": 26.021728515625,
810
+ "learning_rate": 3.7636932707355245e-06,
811
+ "loss": 1.6117,
812
+ "step": 940
813
+ },
814
+ {
815
+ "epoch": 6.690140845070422,
816
+ "grad_norm": 26.019577026367188,
817
+ "learning_rate": 3.6854460093896714e-06,
818
+ "loss": 1.6317,
819
+ "step": 950
820
+ },
821
+ {
822
+ "epoch": 6.690140845070422,
823
+ "eval_loss": 0.700791597366333,
824
+ "eval_runtime": 8.9228,
825
+ "eval_samples_per_second": 107.477,
826
+ "eval_steps_per_second": 6.724,
827
+ "step": 950
828
+ },
829
+ {
830
+ "epoch": 6.76056338028169,
831
+ "grad_norm": 25.988859176635742,
832
+ "learning_rate": 3.6071987480438188e-06,
833
+ "loss": 1.6589,
834
+ "step": 960
835
+ },
836
+ {
837
+ "epoch": 6.830985915492958,
838
+ "grad_norm": 26.973453521728516,
839
+ "learning_rate": 3.5289514866979657e-06,
840
+ "loss": 1.673,
841
+ "step": 970
842
+ },
843
+ {
844
+ "epoch": 6.901408450704225,
845
+ "grad_norm": 27.36475372314453,
846
+ "learning_rate": 3.4507042253521127e-06,
847
+ "loss": 1.6018,
848
+ "step": 980
849
+ },
850
+ {
851
+ "epoch": 6.971830985915493,
852
+ "grad_norm": 28.897504806518555,
853
+ "learning_rate": 3.37245696400626e-06,
854
+ "loss": 1.6291,
855
+ "step": 990
856
+ },
857
+ {
858
+ "epoch": 7.042253521126761,
859
+ "grad_norm": 26.3133544921875,
860
+ "learning_rate": 3.294209702660407e-06,
861
+ "loss": 1.5407,
862
+ "step": 1000
863
+ },
864
+ {
865
+ "epoch": 7.042253521126761,
866
+ "eval_loss": 0.6679695248603821,
867
+ "eval_runtime": 8.9256,
868
+ "eval_samples_per_second": 107.444,
869
+ "eval_steps_per_second": 6.722,
870
+ "step": 1000
871
+ },
872
+ {
873
+ "epoch": 7.112676056338028,
874
+ "grad_norm": 29.09581184387207,
875
+ "learning_rate": 3.215962441314554e-06,
876
+ "loss": 1.4842,
877
+ "step": 1010
878
+ },
879
+ {
880
+ "epoch": 7.183098591549296,
881
+ "grad_norm": 27.576128005981445,
882
+ "learning_rate": 3.137715179968701e-06,
883
+ "loss": 1.5063,
884
+ "step": 1020
885
+ },
886
+ {
887
+ "epoch": 7.253521126760563,
888
+ "grad_norm": 29.655752182006836,
889
+ "learning_rate": 3.0594679186228483e-06,
890
+ "loss": 1.5052,
891
+ "step": 1030
892
+ },
893
+ {
894
+ "epoch": 7.323943661971831,
895
+ "grad_norm": 25.104883193969727,
896
+ "learning_rate": 2.9812206572769952e-06,
897
+ "loss": 1.42,
898
+ "step": 1040
899
+ },
900
+ {
901
+ "epoch": 7.394366197183099,
902
+ "grad_norm": 27.621112823486328,
903
+ "learning_rate": 2.902973395931143e-06,
904
+ "loss": 1.4671,
905
+ "step": 1050
906
+ },
907
+ {
908
+ "epoch": 7.394366197183099,
909
+ "eval_loss": 0.6450517177581787,
910
+ "eval_runtime": 8.9546,
911
+ "eval_samples_per_second": 107.096,
912
+ "eval_steps_per_second": 6.7,
913
+ "step": 1050
914
+ },
915
+ {
916
+ "epoch": 7.464788732394366,
917
+ "grad_norm": 27.425331115722656,
918
+ "learning_rate": 2.82472613458529e-06,
919
+ "loss": 1.4879,
920
+ "step": 1060
921
+ },
922
+ {
923
+ "epoch": 7.535211267605634,
924
+ "grad_norm": 27.76177978515625,
925
+ "learning_rate": 2.746478873239437e-06,
926
+ "loss": 1.5012,
927
+ "step": 1070
928
+ },
929
+ {
930
+ "epoch": 7.605633802816901,
931
+ "grad_norm": 24.934165954589844,
932
+ "learning_rate": 2.6682316118935843e-06,
933
+ "loss": 1.4386,
934
+ "step": 1080
935
+ },
936
+ {
937
+ "epoch": 7.676056338028169,
938
+ "grad_norm": 28.298328399658203,
939
+ "learning_rate": 2.5899843505477313e-06,
940
+ "loss": 1.4544,
941
+ "step": 1090
942
+ },
943
+ {
944
+ "epoch": 7.746478873239437,
945
+ "grad_norm": 24.99042320251465,
946
+ "learning_rate": 2.5117370892018782e-06,
947
+ "loss": 1.4076,
948
+ "step": 1100
949
+ },
950
+ {
951
+ "epoch": 7.746478873239437,
952
+ "eval_loss": 0.6194617748260498,
953
+ "eval_runtime": 8.9294,
954
+ "eval_samples_per_second": 107.398,
955
+ "eval_steps_per_second": 6.719,
956
+ "step": 1100
957
+ },
958
+ {
959
+ "epoch": 7.816901408450704,
960
+ "grad_norm": 27.29831314086914,
961
+ "learning_rate": 2.433489827856025e-06,
962
+ "loss": 1.4838,
963
+ "step": 1110
964
+ },
965
+ {
966
+ "epoch": 7.887323943661972,
967
+ "grad_norm": 27.53099250793457,
968
+ "learning_rate": 2.3552425665101726e-06,
969
+ "loss": 1.4745,
970
+ "step": 1120
971
+ },
972
+ {
973
+ "epoch": 7.957746478873239,
974
+ "grad_norm": 27.09596824645996,
975
+ "learning_rate": 2.2769953051643195e-06,
976
+ "loss": 1.3781,
977
+ "step": 1130
978
+ },
979
+ {
980
+ "epoch": 8.028169014084508,
981
+ "grad_norm": 26.090456008911133,
982
+ "learning_rate": 2.1987480438184665e-06,
983
+ "loss": 1.422,
984
+ "step": 1140
985
+ },
986
+ {
987
+ "epoch": 8.098591549295774,
988
+ "grad_norm": 26.628990173339844,
989
+ "learning_rate": 2.120500782472614e-06,
990
+ "loss": 1.345,
991
+ "step": 1150
992
+ },
993
+ {
994
+ "epoch": 8.098591549295774,
995
+ "eval_loss": 0.603298008441925,
996
+ "eval_runtime": 8.923,
997
+ "eval_samples_per_second": 107.475,
998
+ "eval_steps_per_second": 6.724,
999
+ "step": 1150
1000
+ },
1001
+ {
1002
+ "epoch": 8.169014084507042,
1003
+ "grad_norm": 26.968416213989258,
1004
+ "learning_rate": 2.0422535211267608e-06,
1005
+ "loss": 1.4478,
1006
+ "step": 1160
1007
+ },
1008
+ {
1009
+ "epoch": 8.23943661971831,
1010
+ "grad_norm": 28.169918060302734,
1011
+ "learning_rate": 1.9640062597809077e-06,
1012
+ "loss": 1.3111,
1013
+ "step": 1170
1014
+ },
1015
+ {
1016
+ "epoch": 8.309859154929578,
1017
+ "grad_norm": 28.084226608276367,
1018
+ "learning_rate": 1.885758998435055e-06,
1019
+ "loss": 1.3754,
1020
+ "step": 1180
1021
+ },
1022
+ {
1023
+ "epoch": 8.380281690140846,
1024
+ "grad_norm": 28.451416015625,
1025
+ "learning_rate": 1.807511737089202e-06,
1026
+ "loss": 1.3996,
1027
+ "step": 1190
1028
+ },
1029
+ {
1030
+ "epoch": 8.450704225352112,
1031
+ "grad_norm": 27.99500846862793,
1032
+ "learning_rate": 1.729264475743349e-06,
1033
+ "loss": 1.3818,
1034
+ "step": 1200
1035
+ },
1036
+ {
1037
+ "epoch": 8.450704225352112,
1038
+ "eval_loss": 0.5862457752227783,
1039
+ "eval_runtime": 8.9231,
1040
+ "eval_samples_per_second": 107.473,
1041
+ "eval_steps_per_second": 6.724,
1042
+ "step": 1200
1043
+ },
1044
+ {
1045
+ "epoch": 8.52112676056338,
1046
+ "grad_norm": 26.25287628173828,
1047
+ "learning_rate": 1.6510172143974962e-06,
1048
+ "loss": 1.348,
1049
+ "step": 1210
1050
+ },
1051
+ {
1052
+ "epoch": 8.591549295774648,
1053
+ "grad_norm": 27.26688003540039,
1054
+ "learning_rate": 1.5727699530516433e-06,
1055
+ "loss": 1.3567,
1056
+ "step": 1220
1057
+ },
1058
+ {
1059
+ "epoch": 8.661971830985916,
1060
+ "grad_norm": 25.22686767578125,
1061
+ "learning_rate": 1.4945226917057903e-06,
1062
+ "loss": 1.331,
1063
+ "step": 1230
1064
+ },
1065
+ {
1066
+ "epoch": 8.732394366197184,
1067
+ "grad_norm": 27.34234619140625,
1068
+ "learning_rate": 1.4162754303599375e-06,
1069
+ "loss": 1.2977,
1070
+ "step": 1240
1071
+ },
1072
+ {
1073
+ "epoch": 8.80281690140845,
1074
+ "grad_norm": 23.48381233215332,
1075
+ "learning_rate": 1.3380281690140844e-06,
1076
+ "loss": 1.2578,
1077
+ "step": 1250
1078
+ },
1079
+ {
1080
+ "epoch": 8.80281690140845,
1081
+ "eval_loss": 0.5742074847221375,
1082
+ "eval_runtime": 8.9308,
1083
+ "eval_samples_per_second": 107.381,
1084
+ "eval_steps_per_second": 6.718,
1085
+ "step": 1250
1086
+ },
1087
+ {
1088
+ "epoch": 8.873239436619718,
1089
+ "grad_norm": 25.575672149658203,
1090
+ "learning_rate": 1.2597809076682316e-06,
1091
+ "loss": 1.2807,
1092
+ "step": 1260
1093
+ },
1094
+ {
1095
+ "epoch": 8.943661971830986,
1096
+ "grad_norm": 27.154817581176758,
1097
+ "learning_rate": 1.1815336463223787e-06,
1098
+ "loss": 1.3597,
1099
+ "step": 1270
1100
+ },
1101
+ {
1102
+ "epoch": 9.014084507042254,
1103
+ "grad_norm": 28.042072296142578,
1104
+ "learning_rate": 1.103286384976526e-06,
1105
+ "loss": 1.3292,
1106
+ "step": 1280
1107
+ },
1108
+ {
1109
+ "epoch": 9.084507042253522,
1110
+ "grad_norm": 27.011009216308594,
1111
+ "learning_rate": 1.0250391236306729e-06,
1112
+ "loss": 1.2585,
1113
+ "step": 1290
1114
+ },
1115
+ {
1116
+ "epoch": 9.154929577464788,
1117
+ "grad_norm": 27.294761657714844,
1118
+ "learning_rate": 9.467918622848201e-07,
1119
+ "loss": 1.2552,
1120
+ "step": 1300
1121
+ },
1122
+ {
1123
+ "epoch": 9.154929577464788,
1124
+ "eval_loss": 0.5647178292274475,
1125
+ "eval_runtime": 8.9528,
1126
+ "eval_samples_per_second": 107.117,
1127
+ "eval_steps_per_second": 6.702,
1128
+ "step": 1300
1129
+ },
1130
+ {
1131
+ "epoch": 9.225352112676056,
1132
+ "grad_norm": 25.794416427612305,
1133
+ "learning_rate": 8.685446009389673e-07,
1134
+ "loss": 1.3339,
1135
+ "step": 1310
1136
+ },
1137
+ {
1138
+ "epoch": 9.295774647887324,
1139
+ "grad_norm": 26.401464462280273,
1140
+ "learning_rate": 7.902973395931143e-07,
1141
+ "loss": 1.2872,
1142
+ "step": 1320
1143
+ },
1144
+ {
1145
+ "epoch": 9.366197183098592,
1146
+ "grad_norm": 28.1634464263916,
1147
+ "learning_rate": 7.120500782472614e-07,
1148
+ "loss": 1.276,
1149
+ "step": 1330
1150
+ },
1151
+ {
1152
+ "epoch": 9.43661971830986,
1153
+ "grad_norm": 26.156156539916992,
1154
+ "learning_rate": 6.338028169014085e-07,
1155
+ "loss": 1.2846,
1156
+ "step": 1340
1157
+ },
1158
+ {
1159
+ "epoch": 9.507042253521126,
1160
+ "grad_norm": 26.216571807861328,
1161
+ "learning_rate": 5.555555555555555e-07,
1162
+ "loss": 1.2782,
1163
+ "step": 1350
1164
+ },
1165
+ {
1166
+ "epoch": 9.507042253521126,
1167
+ "eval_loss": 0.5621166229248047,
1168
+ "eval_runtime": 8.9665,
1169
+ "eval_samples_per_second": 106.953,
1170
+ "eval_steps_per_second": 6.692,
1171
+ "step": 1350
1172
+ },
1173
+ {
1174
+ "epoch": 9.577464788732394,
1175
+ "grad_norm": 26.63737678527832,
1176
+ "learning_rate": 4.773082942097027e-07,
1177
+ "loss": 1.2883,
1178
+ "step": 1360
1179
+ },
1180
+ {
1181
+ "epoch": 9.647887323943662,
1182
+ "grad_norm": 27.532459259033203,
1183
+ "learning_rate": 3.990610328638498e-07,
1184
+ "loss": 1.2515,
1185
+ "step": 1370
1186
+ },
1187
+ {
1188
+ "epoch": 9.71830985915493,
1189
+ "grad_norm": 23.93533706665039,
1190
+ "learning_rate": 3.208137715179969e-07,
1191
+ "loss": 1.3023,
1192
+ "step": 1380
1193
+ },
1194
+ {
1195
+ "epoch": 9.788732394366198,
1196
+ "grad_norm": 26.48802375793457,
1197
+ "learning_rate": 2.42566510172144e-07,
1198
+ "loss": 1.3053,
1199
+ "step": 1390
1200
+ },
1201
+ {
1202
+ "epoch": 9.859154929577464,
1203
+ "grad_norm": 25.6018123626709,
1204
+ "learning_rate": 1.643192488262911e-07,
1205
+ "loss": 1.2556,
1206
+ "step": 1400
1207
+ },
1208
+ {
1209
+ "epoch": 9.859154929577464,
1210
+ "eval_loss": 0.5561918616294861,
1211
+ "eval_runtime": 9.3282,
1212
+ "eval_samples_per_second": 102.806,
1213
+ "eval_steps_per_second": 6.432,
1214
+ "step": 1400
1215
+ },
1216
+ {
1217
+ "epoch": 9.929577464788732,
1218
+ "grad_norm": 26.17299461364746,
1219
+ "learning_rate": 8.607198748043818e-08,
1220
+ "loss": 1.2926,
1221
+ "step": 1410
1222
+ },
1223
+ {
1224
+ "epoch": 10.0,
1225
+ "grad_norm": 28.140972137451172,
1226
+ "learning_rate": 7.824726134585291e-09,
1227
+ "loss": 1.2199,
1228
+ "step": 1420
1229
+ }
1230
+ ],
1231
+ "logging_steps": 10,
1232
+ "max_steps": 1420,
1233
+ "num_input_tokens_seen": 0,
1234
+ "num_train_epochs": 10,
1235
+ "save_steps": 350,
1236
+ "stateful_callbacks": {
1237
+ "TrainerControl": {
1238
+ "args": {
1239
+ "should_epoch_stop": false,
1240
+ "should_evaluate": false,
1241
+ "should_log": false,
1242
+ "should_save": true,
1243
+ "should_training_stop": true
1244
+ },
1245
+ "attributes": {}
1246
+ }
1247
+ },
1248
+ "total_flos": 0.0,
1249
+ "train_batch_size": 64,
1250
+ "trial_name": null,
1251
+ "trial_params": null
1252
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5eaf2a66839f8c6540bdf21f08aebfd47bb9d0c1b65c23a5de9ffd4bcd50343e
3
+ size 5624