George2002 commited on
Commit
7b14f2b
·
verified ·
1 Parent(s): 8c5dd8d

Upload model checkpoint

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,878 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:66813
8
+ - loss:TripletLoss
9
+ base_model: intfloat/multilingual-e5-large
10
+ widget:
11
+ - source_sentence: 'query: Что включает в себя функционал карты для молодежи в возрасте
12
+ от 14 до 17 лет?'
13
+ sentences:
14
+ - 'passage: Операции по продуктам несовершеннолетнего дееспособного с 14 лет до
15
+ 18 лет (эмансипированный) совершает сам несовершеннолетний с 14 лет до 18 лет
16
+ или его доверенное лицо.
17
+
18
+ Выписка по счету (вкладу) может быть выдана:
19
+
20
+
21
+ -Несовершеннолетний с 14 до 18 лет
22
+
23
+
24
+ -Доверенное лицо
25
+
26
+ Какие документы необходимо предъявить в Банк для проставления признака дееспособный
27
+ по несовершеннолетнему с 14 до 18 лет:
28
+
29
+
30
+ ДУЛ несовершеннолетнего с 14 до 18 лет + ОДИН из следующих документов:
31
+
32
+
33
+ - свидетельство о заключении брака (п.2 ст. 21 ГК РФ)
34
+
35
+ - решение органа опеки и попечительства о признании несовершеннолетнего полностью
36
+ дееспособным (эмансипированным) (п.1 ст. 27 ГК РФ)
37
+
38
+ - решение суда о признании несовершеннолетнего полностью дееспособным (эмансипированным)
39
+ (п.1 ст. 27 ГК РФ)'
40
+ - "passage: Описание функционала во вложении ниже.\n\nТипичные вопросы по отображению\
41
+ \ молодёжных карт в МП СБОЛ родителя и ответы на них:\n\n01. Кто может получить\
42
+ \ доступ к картам ребенка 14-17 лет ?\n\nУстановившие в Банке связь со своим ребенком\
43
+ \ 14-17 лет законные представители: Родитель/Усыновитель, Приемный родитель, Опекун\
44
+ \ (связь отображается в СБОЛ.Про - ФП «Подопечные и представители», а также в\
45
+ \ системе SmartCare. В CRM связь законного представителя и ребенка 14-17 лет НЕ\
46
+ \ отображается), по которым выполняется одно из следующих условий: \n\n- СберКарта\
47
+ \ ребенка 14-17 лет была открыта и активирована до 16.11.2022 включительно, и\
48
+ \ ребенку исполнилось 14 лет до 16.11.2022 включительно.\n\n- Законный представитель\
49
+ \ до пилота видел детскую СберКарту своего ребенка 13 лет в своем МП СберБанк\
50
+ \ Онлайн, и этому ребенку исполнилось 14 лет 17.11.2022 или позднее."
51
+ - 'passage: ВНИМАНИЕ !
52
+
53
+ С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству
54
+ о рождении Украины со штампом о гражданстве РФ.
55
+
56
+ Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально
57
+ заверенное удостоверение перевода на русский язык свидетельства о рождении Украины
58
+ со штампом о гражданстве РФ.
59
+
60
+
61
+
62
+
63
+
64
+
65
+ Типичные вопросы по Детской СберКарте и ответы на них
66
+
67
+
68
+ 17. Ребёнку исполнилось 14 лет: что происходит с картой и что нужно делать ?
69
+
70
+
71
+ СберКарта ребёнка продолжит отображаться в СБОЛе у Законного представителя.
72
+
73
+
74
+ СберКарта ребёнка автоматически сменит тариф с «Детского» на «Молодёжный» на следующий
75
+ день после дня 14-летия.
76
+
77
+
78
+ Закрывать карту не требуется и можно пользоваться до истечения срока её действия.
79
+ А после истечения срока действия СберКарта автоматически перевыпустится с дизайном,
80
+ соответствующим тарифу "Молод��жный".
81
+
82
+
83
+ Ребёнку станет доступен МП СБОЛ: для регистрации необходимо предоставить в офис
84
+ банка паспорт РФ и подписать договор банковского обслуживания.
85
+
86
+
87
+ Сотрудник, при обращении Ребёнка в офис Банка производит его идентификацию, изменение
88
+ данных в Профиле в установленном порядке. Оформляет договор банковского обслуживания.'
89
+ - source_sentence: 'query: Что делать, если представитель ребенка - это родитель?'
90
+ sentences:
91
+ - 'passage: С каким вопросом обратился банкрот?
92
+
93
+
94
+ 15. Оформление доверенности
95
+
96
+
97
+ Владелец счета, в отношении которого введена процедура банкротства может оформить
98
+ доверенность на распоряжение своими продуктами в пределах своих полномочий, ограниченных
99
+ действующей процедурой,
100
+
101
+
102
+
103
+ Владелец счета, признанный банкротом в стадии Реструктуризация долгов может оформить
104
+ банковскую доверенность:
105
+
106
+ - На получение справок, выписок, проведения приходных операций по всем своим счетам
107
+
108
+ - На проведение расхода по любому своему счету (кроме Специального банковского
109
+ счета), при предъявлении письменного разрешения утвержденного для процедуры банкротства
110
+ финансового управляющего;
111
+
112
+ - На распоряжение Специальным счетом банкрота в рамках установленного лимита;
113
+
114
+
115
+
116
+ Владелец счета, признанный банкротом в стадии Реализация имущества может оформить
117
+ нотариальную доверенность с датой выдачи позже, чем решение суда о признании гражданина
118
+ банкротом:
119
+
120
+ - На получение справок, выписок по всем своим счетам'
121
+ - "passage: В случае\n\n\n\nПолучения наследства банкротом\n\nВ случае, если Клиент,\
122
+ \ обратившийся за получением наследства при идентификации обнаружен в Стоп-Листе\
123
+ \ банкротов: \n- сообщить клиенту, что у Банка есть информация о его банкротстве\
124
+ \ и он может получить только Выплату на достойные похороны\n- выплату наследства\
125
+ \ Банк осуществляет в зависимости от стадии банкротства:\n\n!!! Получить наследство\
126
+ \ и распоряжаться им самостоятельно клиент банкрот может только после завершения\
127
+ \ процедуры банкротства. \n\nНаследством банкрота в стадии реализация имущества\
128
+ \ распоряжается утвержденный для проведения процедуры финансовый управляющий.\n\
129
+ \ \nВ этом случае \n\nНаследником в заявке на выплату через ОЦ заводим банкрота,\
130
+ \ выплата наследства перевеодится ему на счет. \nПосле выплаты, ФУ уже в рамках\
131
+ \ своих полномочий сможет этими ДС распорядиться.\n."
132
+ - "passage: Узнайте у клиента, кем является его подопечный\n\nНесовершеннолетним\n\
133
+ \nПопросите клиента уточнить, кем он является подопечному и каков его возраст.\
134
+ \ Затем попросите предъявить соответствующие документы. \n\nЕсли ребёнку меньше\
135
+ \ 14 лет, то ему назначается ОПЕКУН. Соответственно, клиент должен предоставить\
136
+ \ документ удостоверяющий личность ребёнка и документ органа опеки о полномочиях\
137
+ \ ОПЕКУНА.\n\nЕсли ребёнку от 14 до 18 лет, ему назначает��я ПОПЕЧИТЕЛЬ. Соответственно,\
138
+ \ клиент должен предоставить документ удостоверяющий личность ребёнка и документ\
139
+ \ органа опеки о полномочиях ПОПЕЧИТЕЛЯ.\n\nЕсли опека осуществлялась над малолетним\
140
+ \ ребёнком, а затем ребёнку исполнилось 14 лет, статус Опекуна меняется на Попечителя.\
141
+ \ В таком случае, чтобы добавить представителя, выберите роль \"Попечитель\" и\
142
+ \ используйте имеющиеся документы органа опеки.\n\nПосле того, как документы были\
143
+ \ предъявлены, проверьте их, прожмите галочку \"Документы предъявлены\" и нажмите\
144
+ \ продолжить."
145
+ - source_sentence: 'query: Можно ли обслужить банкрота, если решение суда не заверено?'
146
+ sentences:
147
+ - 'query: Что нужно для того, чтобы увидеть карту ребенка в МП СБОЛ законного представителя?'
148
+ - 'query: Что нужно для того, чтобы сотрудник банка мог обслужить банкрота?'
149
+ - 'query: Какие есть причины для поиска?'
150
+ - source_sentence: 'query: Что нужно сделать, если получены документы для открытия
151
+ счета?'
152
+ sentences:
153
+ - 'query: Что предпринять, если при попытке распечатать документы возникает ошибка
154
+ «Сервис временно не доступен»?'
155
+ - 'query: Что происходит с наследством у банкрота, если его занесли в Стоп-Лист?'
156
+ - 'query: Какие действия следует предпринять после получения документов для открытия
157
+ счета?'
158
+ - source_sentence: 'query: Как должен выглядеть ярлык на Транспортной единице (ТЕ)?'
159
+ sentences:
160
+ - 'query: Где подается заявление на выплату вкладов Чеченского банка?'
161
+ - 'query: Какое время нужно для подготовки документов на открытие счета?'
162
+ - 'query: Какие данные обязательно должны быть на ярлыке для Транспортной единицы?'
163
+ pipeline_tag: sentence-similarity
164
+ library_name: sentence-transformers
165
+ ---
166
+
167
+ # SentenceTransformer based on intfloat/multilingual-e5-large
168
+
169
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) on the q2q_data and q2p_data datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
170
+
171
+ ## Model Details
172
+
173
+ ### Model Description
174
+ - **Model Type:** Sentence Transformer
175
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
176
+ - **Maximum Sequence Length:** 512 tokens
177
+ - **Output Dimensionality:** 1024 dimensions
178
+ - **Similarity Function:** Cosine Similarity
179
+ - **Training Datasets:**
180
+ - q2q_data
181
+ - q2p_data
182
+ <!-- - **Language:** Unknown -->
183
+ <!-- - **License:** Unknown -->
184
+
185
+ ### Model Sources
186
+
187
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
188
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
189
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
190
+
191
+ ### Full Model Architecture
192
+
193
+ ```
194
+ SentenceTransformer(
195
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
196
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
197
+ (2): Normalize()
198
+ )
199
+ ```
200
+
201
+ ## Usage
202
+
203
+ ### Direct Usage (Sentence Transformers)
204
+
205
+ First install the Sentence Transformers library:
206
+
207
+ ```bash
208
+ pip install -U sentence-transformers
209
+ ```
210
+
211
+ Then you can load this model and run inference.
212
+ ```python
213
+ from sentence_transformers import SentenceTransformer
214
+
215
+ # Download from the 🤗 Hub
216
+ model = SentenceTransformer("George2002/sledopyt_embedder")
217
+ # Run inference
218
+ sentences = [
219
+ 'query: Как должен выглядеть ярлык на Транспортной единице (ТЕ)?',
220
+ 'query: Где подается заявление на выплату вкладов Чеченского банка?',
221
+ 'query: Какие данные обязательно должны быть на ярлыке для Транспортной единицы?',
222
+ ]
223
+ embeddings = model.encode(sentences)
224
+ print(embeddings.shape)
225
+ # [3, 1024]
226
+
227
+ # Get the similarity scores for the embeddings
228
+ similarities = model.similarity(embeddings, embeddings)
229
+ print(similarities.shape)
230
+ # [3, 3]
231
+ ```
232
+
233
+ <!--
234
+ ### Direct Usage (Transformers)
235
+
236
+ <details><summary>Click to see the direct usage in Transformers</summary>
237
+
238
+ </details>
239
+ -->
240
+
241
+ <!--
242
+ ### Downstream Usage (Sentence Transformers)
243
+
244
+ You can finetune this model on your own dataset.
245
+
246
+ <details><summary>Click to expand</summary>
247
+
248
+ </details>
249
+ -->
250
+
251
+ <!--
252
+ ### Out-of-Scope Use
253
+
254
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
255
+ -->
256
+
257
+ <!--
258
+ ## Bias, Risks and Limitations
259
+
260
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
261
+ -->
262
+
263
+ <!--
264
+ ### Recommendations
265
+
266
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
267
+ -->
268
+
269
+ ## Training Details
270
+
271
+ ### Training Datasets
272
+
273
+ #### q2q_data
274
+
275
+ * Dataset: q2q_data
276
+ * Size: 51,395 training samples
277
+ * Columns: <code>query_1</code>, <code>query_2</code>, and <code>negative</code>
278
+ * Approximate statistics based on the first 1000 samples:
279
+ | | query_1 | query_2 | negative |
280
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
281
+ | type | string | string | string |
282
+ | details | <ul><li>min: 11 tokens</li><li>mean: 21.21 tokens</li><li>max: 39 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 21.15 tokens</li><li>max: 42 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 20.91 tokens</li><li>max: 34 tokens</li></ul> |
283
+ * Samples:
284
+ | query_1 | query_2 | negative |
285
+ |:--------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------|
286
+ | <code>query: Какой статус имеет доверенное лицо, выполняющее операции по счетам другого клиента?</code> | <code>query: Как поступить, если в списке опекаемых не хватает подопечного?</code> | <code>query: Что доверенное лицо имеет право делать с счетами своего доверителя?</code> |
287
+ | <code>query: Что становится с правами законного представителя, когда клиент достигает 18 лет?</code> | <code>query: Как изменяются полномочия законного представителя после того, как клиент становится совершеннолетним?</code> | <code>query: Когда заканчивается связь законного представителя с несовершеннолетним клиентом автоматом?</code> |
288
+ | <code>query: С каким вопросом может обратиться банкрот в банк?</code> | <code>query: Какие шаги предпринять, если банкрот не получил сумму по разрешению ФУ раньше?</code> | <code>query: Что может спросить банкрот, когда обращается в банк?</code> |
289
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
290
+ ```json
291
+ {
292
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
293
+ "triplet_margin": 5
294
+ }
295
+ ```
296
+
297
+ #### q2p_data
298
+
299
+ * Dataset: q2p_data
300
+ * Size: 15,418 training samples
301
+ * Columns: <code>query</code>, <code>chunk</code>, and <code>negative</code>
302
+ * Approximate statistics based on the first 1000 samples:
303
+ | | query | chunk | negative |
304
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
305
+ | type | string | string | string |
306
+ | details | <ul><li>min: 11 tokens</li><li>mean: 21.46 tokens</li><li>max: 40 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 159.46 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 139.38 tokens</li><li>max: 512 tokens</li></ul> |
307
+ * Samples:
308
+ | query | chunk | negative |
309
+ |:-----------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
310
+ | <code>query: Кто может получить выписку по счету, если клиент ограниченно дееспособный из-за пристрастия?</code> | <code>passage: Описание функционала во вложении ниже.<br><br>Типичные вопросы по отображению молодёжных карт в МП СБОЛ родителя и ответы на них:<br><br>02. В каком канале обслуживания родителю или законному представителю будут доступны карты ребенка 14-17 лет ?<br><br>В мобильном приложении «СберБанк Онлайн» (iPhone/Android) версии не ниже 12.6.0. В web-версии СБОЛ данный функционал недоступен.</code> | <code>passage: Выписка по счету (вкладу) может быть выдана:<br><br>- Ограниченно дееспособный в силу пристрастия<br><br>-Доверенное лицо ограниченно дееспособного</code> |
311
+ | <code>query: Как влияет стадия банкротства на арест или блокировку счетов ИБЦ и ГЖС?</code> | <code>passage: С каким вопросом обратился банкрот?<br><br>17. Открытие счета/ вклада на третье лицо, в том числе с внесением наличных<br><br>Клиенту, в отношении которого введена процедура банкротства запрещено открывать счета и вносить денежные средства на имя третьего лица.</code> | <code>passage: В случае<br><br><br><br>Получения наследства банкротом<br><br>В случае, если Клиент, обратившийся за получением наследства при идентификации обнаружен в Стоп-Листе банкротов: <br>- сообщить клиенту, что у Банка есть информация о его банкротстве и он может получить только Выплату на достойные похороны<br>- выплату наследства Банк осуществляет в зависимости от стадии банкротства:<br><br>!!! Получить наследство и распоряжаться им самостоятельно клиент банкрот может только после завершения процедуры банкротства. <br><br>Наследством банкрота в стадии реализация имущества распоряжается утвержденный для проведения процедуры финансовый управляющий.<br> <br>В этом случае <br><br>Наследником в заявке на выплату через ОЦ заводим банкрота, выплата наследства перевеодится ему на счет. <br>После выплаты, ФУ уже в рамках своих полномочий сможет этими ДС распорядиться.<br>.</code> |
312
+ | <code>query: Какой статус может быть, если связь не была успешно создана?</code> | <code>passage: ВНИМАНИЕ !<br>С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.<br>Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.<br><br><br><br><br><br>Типичные вопросы по Детской СберКарте и ответы на них<br><br>14. Управление лимитами по Детской СберКарте<br><br>Выберите интересующий вопрос</code> | <code>passage: Возможные ошибки:<br><br>Связь не создана<br><br>Техническая ошибка. Повторите операцию позже.</code> |
313
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
314
+ ```json
315
+ {
316
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
317
+ "triplet_margin": 5
318
+ }
319
+ ```
320
+
321
+ ### Evaluation Datasets
322
+
323
+ #### q2q_data
324
+
325
+ * Dataset: q2q_data
326
+ * Size: 2,705 evaluation samples
327
+ * Columns: <code>query_1</code>, <code>query_2</code>, and <code>negative</code>
328
+ * Approximate statistics based on the first 1000 samples:
329
+ | | query_1 | query_2 | negative |
330
+ |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
331
+ | type | string | string | string |
332
+ | details | <ul><li>min: 11 tokens</li><li>mean: 21.08 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 21.2 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 20.98 tokens</li><li>max: 36 tokens</li></ul> |
333
+ * Samples:
334
+ | query_1 | query_2 | negative |
335
+ |:-------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------|
336
+ | <code>query: Какой тип документа следует выбрать для подтверждения полномочий попечителя в случае ограничения дееспособности?</code> | <code>query: Какие суммы разрешены для использования на счете по Гражданскому кодексу РФ?</code> | <code>query: Что подтверждает полномочия попечителя по отношению к ограниченно дееспособному клиенту?</code> |
337
+ | <code>query: Когда клиент имеет право обратиться в банк для установки связи с подопечным?</code> | <code>query: В каких ситуациях клиент может связаться с банком для оформления связи с подопечным?</code> | <code>query: Какие бумаги необходимы законному представителю, чтобы установить контакт с подопечным?</code> |
338
+ | <code>query: Что происходит с сохранением скана документа при редактировании?</code> | <code>query: Какие шаги необходимо предпринять для перевыпуска или закрытия карты?</code> | <code>query: Как обрабатывается скан-образ исполнительного документа после того, как его зарегистрировали?</code> |
339
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
340
+ ```json
341
+ {
342
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
343
+ "triplet_margin": 5
344
+ }
345
+ ```
346
+
347
+ #### q2p_data
348
+
349
+ * Dataset: q2p_data
350
+ * Size: 812 evaluation samples
351
+ * Columns: <code>query</code>, <code>chunk</code>, and <code>negative</code>
352
+ * Approximate statistics based on the first 812 samples:
353
+ | | query | chunk | negative |
354
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
355
+ | type | string | string | string |
356
+ | details | <ul><li>min: 11 tokens</li><li>mean: 21.33 tokens</li><li>max: 33 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 162.98 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 131.49 tokens</li><li>max: 512 tokens</li></ul> |
357
+ * Samples:
358
+ | query | chunk | negative |
359
+ |:-----------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
360
+ | <code>query: Что нужно сделать на экране 'Подтверждение полномочий'?</code> | <code>passage: Осторожно! Это может быть мошенник! <br><br>Информирует ФУ:<br><br>"В Банке нет сведений о банкротстве клиента. Вы опубликовали факт о начале процедуры банкротства гражданина?"<br><br>ДА<br><br>Информирует ФУ:<br> "Банку требуется провести дополнительную проверку. Она займет 1 рабочий день. Прошу обратиться в любое отделение Банка для выполнения операции через один рабочий день."</code> | <code>passage: Выберите способ подтверждения операции<br><br>С помощью СМС<br><br>Попросите клиента ввести код из смс на терминале</code> |
361
+ | <code>query: Какие операции может выполнять Доверенное лицо клиента - банкрота в стадии 'Реализация имущества'?</code> | <code>passage: Срок исполнения задачи 1 рабочий день. Договоритесь о встрече с Клиентом не ранее, чем на следующий рабочий день.<br><br>Подробная инструкция по ссылке ниже <br><br>Заявка исполнена<br><br>Если получен отказ, проинформируйте Клиента при обращении.<br>Если получены документы для открытия счета, перейдите к следующему шагу- отправка подготовленных документов для открытия счета</code> | <code>passage: Полномочия по доверенности, выданной Финансовым управляющим ограничены и зависят от действующей процедуры банкротства. <br><br>По доверенности ФУ, выданной по счетам клиента, признанного банкротом в стадии Реструктуризация долгов, возможны следующие операции (если они указаны в доверенности):<br>- Получение справок выписок по счетам/вкладам банкрота;<br><br>По доверенности ФУ, выданной по счетам клиента, признанного банкротом в стадии Реализация имущества, возможны следующие операции (если они указаны в доверенности):<br>- Получение справок выписок по счетам/вкладам банкрота;<br>- Открытие/ закрытие счетов на имя банкрота, , в том числе заключение ДБО (только в АС ФС);;<br>- Приходные операции;<br>- Расходные операции;</code> |
362
+ | <code>query: Что нужно сделать после выбора курьера с доверенностью для открытия счета?</code> | <code>passage: Кто обратился для выполнения операции?<br><br>1. Финансовый управляющий/ Конкурсный управляющий<br><br>Финансовый управляющий (далее – ФУ), назначается Арбитражным судом для контроля проведения процедуры "Реструктуризации долгов" или проведения процедуры "Реализации имущества" гражданина.<br><br>!!!! Конкурсный управляющий назначается Арбитражным судом для проведения процедуры "Конкурсное производство" гражданина, признанного банкротом категории Крестьянское фермерское хозяйство (далее КФХ). Для проведения процедуры банкротства управляющего направляем в отделение по обслуживанию юридических лиц, так как введена процедура, характерная для проведения процедур банкротства юр.лиц. <br><br>Финансовый управляющий может выполнить операции по всем счетам банкрота (кроме номинального счета) в зависимости от введенной процедуры банкротства:<br><br>Реструктуризация долгов: <br>- Получение справок выписок по счетам/вкладам банкрота;<br>- Выдача разрешений на проведение банкротом операций по своим счетам.<br><br>Реализация имуще...</code> | <code>passage: Выберите способ подтверждения операции<br><br>С помощью карты<br><br><br>Попросите клиента приложить карту к терминалу</code> |
363
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
364
+ ```json
365
+ {
366
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
367
+ "triplet_margin": 5
368
+ }
369
+ ```
370
+
371
+ ### Training Hyperparameters
372
+ #### Non-Default Hyperparameters
373
+
374
+ - `eval_strategy`: steps
375
+ - `per_device_train_batch_size`: 32
376
+ - `learning_rate`: 1e-05
377
+ - `weight_decay`: 0.01
378
+ - `warmup_ratio`: 0.1
379
+ - `load_best_model_at_end`: True
380
+ - `push_to_hub`: True
381
+ - `hub_model_id`: George2002/sledopyt_embedder
382
+ - `hub_strategy`: end
383
+
384
+ #### All Hyperparameters
385
+ <details><summary>Click to expand</summary>
386
+
387
+ - `overwrite_output_dir`: False
388
+ - `do_predict`: False
389
+ - `eval_strategy`: steps
390
+ - `prediction_loss_only`: True
391
+ - `per_device_train_batch_size`: 32
392
+ - `per_device_eval_batch_size`: 8
393
+ - `per_gpu_train_batch_size`: None
394
+ - `per_gpu_eval_batch_size`: None
395
+ - `gradient_accumulation_steps`: 1
396
+ - `eval_accumulation_steps`: None
397
+ - `torch_empty_cache_steps`: None
398
+ - `learning_rate`: 1e-05
399
+ - `weight_decay`: 0.01
400
+ - `adam_beta1`: 0.9
401
+ - `adam_beta2`: 0.999
402
+ - `adam_epsilon`: 1e-08
403
+ - `max_grad_norm`: 1.0
404
+ - `num_train_epochs`: 3
405
+ - `max_steps`: -1
406
+ - `lr_scheduler_type`: linear
407
+ - `lr_scheduler_kwargs`: {}
408
+ - `warmup_ratio`: 0.1
409
+ - `warmup_steps`: 0
410
+ - `log_level`: passive
411
+ - `log_level_replica`: warning
412
+ - `log_on_each_node`: True
413
+ - `logging_nan_inf_filter`: True
414
+ - `save_safetensors`: True
415
+ - `save_on_each_node`: False
416
+ - `save_only_model`: False
417
+ - `restore_callback_states_from_checkpoint`: False
418
+ - `no_cuda`: False
419
+ - `use_cpu`: False
420
+ - `use_mps_device`: False
421
+ - `seed`: 42
422
+ - `data_seed`: None
423
+ - `jit_mode_eval`: False
424
+ - `use_ipex`: False
425
+ - `bf16`: False
426
+ - `fp16`: False
427
+ - `fp16_opt_level`: O1
428
+ - `half_precision_backend`: auto
429
+ - `bf16_full_eval`: False
430
+ - `fp16_full_eval`: False
431
+ - `tf32`: None
432
+ - `local_rank`: 0
433
+ - `ddp_backend`: None
434
+ - `tpu_num_cores`: None
435
+ - `tpu_metrics_debug`: False
436
+ - `debug`: []
437
+ - `dataloader_drop_last`: True
438
+ - `dataloader_num_workers`: 0
439
+ - `dataloader_prefetch_factor`: None
440
+ - `past_index`: -1
441
+ - `disable_tqdm`: False
442
+ - `remove_unused_columns`: True
443
+ - `label_names`: None
444
+ - `load_best_model_at_end`: True
445
+ - `ignore_data_skip`: False
446
+ - `fsdp`: []
447
+ - `fsdp_min_num_params`: 0
448
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
449
+ - `tp_size`: 0
450
+ - `fsdp_transformer_layer_cls_to_wrap`: None
451
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
452
+ - `deepspeed`: None
453
+ - `label_smoothing_factor`: 0.0
454
+ - `optim`: adamw_torch
455
+ - `optim_args`: None
456
+ - `adafactor`: False
457
+ - `group_by_length`: False
458
+ - `length_column_name`: length
459
+ - `ddp_find_unused_parameters`: None
460
+ - `ddp_bucket_cap_mb`: None
461
+ - `ddp_broadcast_buffers`: False
462
+ - `dataloader_pin_memory`: True
463
+ - `dataloader_persistent_workers`: False
464
+ - `skip_memory_metrics`: True
465
+ - `use_legacy_prediction_loop`: False
466
+ - `push_to_hub`: True
467
+ - `resume_from_checkpoint`: None
468
+ - `hub_model_id`: George2002/sledopyt_embedder
469
+ - `hub_strategy`: end
470
+ - `hub_private_repo`: None
471
+ - `hub_always_push`: False
472
+ - `gradient_checkpointing`: False
473
+ - `gradient_checkpointing_kwargs`: None
474
+ - `include_inputs_for_metrics`: False
475
+ - `include_for_metrics`: []
476
+ - `eval_do_concat_batches`: True
477
+ - `fp16_backend`: auto
478
+ - `push_to_hub_model_id`: None
479
+ - `push_to_hub_organization`: None
480
+ - `mp_parameters`:
481
+ - `auto_find_batch_size`: False
482
+ - `full_determinism`: False
483
+ - `torchdynamo`: None
484
+ - `ray_scope`: last
485
+ - `ddp_timeout`: 1800
486
+ - `torch_compile`: False
487
+ - `torch_compile_backend`: None
488
+ - `torch_compile_mode`: None
489
+ - `include_tokens_per_second`: False
490
+ - `include_num_input_tokens_seen`: False
491
+ - `neftune_noise_alpha`: None
492
+ - `optim_target_modules`: None
493
+ - `batch_eval_metrics`: False
494
+ - `eval_on_start`: False
495
+ - `use_liger_kernel`: False
496
+ - `eval_use_gather_object`: False
497
+ - `average_tokens_across_devices`: False
498
+ - `prompts`: None
499
+ - `batch_sampler`: batch_sampler
500
+ - `multi_dataset_batch_sampler`: proportional
501
+
502
+ </details>
503
+
504
+ ### Training Logs
505
+ <details><summary>Click to expand</summary>
506
+
507
+ | Epoch | Step | Training Loss | q2q data loss | q2p data loss |
508
+ |:------:|:----:|:-------------:|:-------------:|:-------------:|
509
+ | 0.0096 | 10 | 5.0879 | - | - |
510
+ | 0.0192 | 20 | 5.1046 | - | - |
511
+ | 0.0288 | 30 | 5.0837 | - | - |
512
+ | 0.0384 | 40 | 5.0778 | - | - |
513
+ | 0.0479 | 50 | 5.0643 | 5.0714 | 5.0469 |
514
+ | 0.0575 | 60 | 5.0424 | - | - |
515
+ | 0.0671 | 70 | 5.0255 | - | - |
516
+ | 0.0767 | 80 | 5.0099 | - | - |
517
+ | 0.0863 | 90 | 5.0063 | - | - |
518
+ | 0.0959 | 100 | 5.0033 | 5.0147 | 5.0005 |
519
+ | 0.1055 | 110 | 5.003 | - | - |
520
+ | 0.1151 | 120 | 4.9967 | - | - |
521
+ | 0.1246 | 130 | 4.998 | - | - |
522
+ | 0.1342 | 140 | 5.0012 | - | - |
523
+ | 0.1438 | 150 | 4.9989 | 5.0095 | 4.9424 |
524
+ | 0.1534 | 160 | 4.9908 | - | - |
525
+ | 0.1630 | 170 | 4.9735 | - | - |
526
+ | 0.1726 | 180 | 4.9965 | - | - |
527
+ | 0.1822 | 190 | 4.9825 | - | - |
528
+ | 0.1918 | 200 | 4.9514 | 5.0074 | 4.8744 |
529
+ | 0.2013 | 210 | 4.9521 | - | - |
530
+ | 0.2109 | 220 | 4.968 | - | - |
531
+ | 0.2205 | 230 | 4.96 | - | - |
532
+ | 0.2301 | 240 | 4.9758 | - | - |
533
+ | 0.2397 | 250 | 4.9834 | 5.0065 | 4.8428 |
534
+ | 0.2493 | 260 | 4.9273 | - | - |
535
+ | 0.2589 | 270 | 4.9796 | - | - |
536
+ | 0.2685 | 280 | 4.9517 | - | - |
537
+ | 0.2780 | 290 | 4.9763 | - | - |
538
+ | 0.2876 | 300 | 4.9372 | 5.0056 | 4.8253 |
539
+ | 0.2972 | 310 | 4.9325 | - | - |
540
+ | 0.3068 | 320 | 4.9477 | - | - |
541
+ | 0.3164 | 330 | 4.9455 | - | - |
542
+ | 0.3260 | 340 | 4.9258 | - | - |
543
+ | 0.3356 | 350 | 4.9799 | 5.0045 | 4.8434 |
544
+ | 0.3452 | 360 | 4.9791 | - | - |
545
+ | 0.3547 | 370 | 4.9437 | - | - |
546
+ | 0.3643 | 380 | 4.9873 | - | - |
547
+ | 0.3739 | 390 | 4.9425 | - | - |
548
+ | 0.3835 | 400 | 4.9837 | 5.0043 | 4.8419 |
549
+ | 0.3931 | 410 | 5.0006 | - | - |
550
+ | 0.4027 | 420 | 4.9831 | - | - |
551
+ | 0.4123 | 430 | 4.9531 | - | - |
552
+ | 0.4219 | 440 | 4.9856 | - | - |
553
+ | 0.4314 | 450 | 4.8996 | 5.0056 | 4.8652 |
554
+ | 0.4410 | 460 | 4.9467 | - | - |
555
+ | 0.4506 | 470 | 4.9724 | - | - |
556
+ | 0.4602 | 480 | 4.9797 | - | - |
557
+ | 0.4698 | 490 | 4.9735 | - | - |
558
+ | 0.4794 | 500 | 4.8765 | 5.0036 | 4.8457 |
559
+ | 0.4890 | 510 | 4.9136 | - | - |
560
+ | 0.4986 | 520 | 4.9688 | - | - |
561
+ | 0.5081 | 530 | 4.9436 | - | - |
562
+ | 0.5177 | 540 | 5.0017 | - | - |
563
+ | 0.5273 | 550 | 4.9867 | 5.0043 | 4.8609 |
564
+ | 0.5369 | 560 | 4.9716 | - | - |
565
+ | 0.5465 | 570 | 4.9338 | - | - |
566
+ | 0.5561 | 580 | 4.9975 | - | - |
567
+ | 0.5657 | 590 | 4.9485 | - | - |
568
+ | 0.5753 | 600 | 4.8959 | 5.0026 | 4.7809 |
569
+ | 0.5849 | 610 | 4.9769 | - | - |
570
+ | 0.5944 | 620 | 4.9407 | - | - |
571
+ | 0.6040 | 630 | 4.9941 | - | - |
572
+ | 0.6136 | 640 | 4.976 | - | - |
573
+ | 0.6232 | 650 | 4.986 | 5.0030 | 4.8102 |
574
+ | 0.6328 | 660 | 4.94 | - | - |
575
+ | 0.6424 | 670 | 4.9917 | - | - |
576
+ | 0.6520 | 680 | 4.9938 | - | - |
577
+ | 0.6616 | 690 | 4.9373 | - | - |
578
+ | 0.6711 | 700 | 5.0235 | 5.0321 | 4.8794 |
579
+ | 0.6807 | 710 | 4.939 | - | - |
580
+ | 0.6903 | 720 | 4.9682 | - | - |
581
+ | 0.6999 | 730 | 4.9813 | - | - |
582
+ | 0.7095 | 740 | 4.9442 | - | - |
583
+ | 0.7191 | 750 | 4.9354 | 5.0024 | 4.8053 |
584
+ | 0.7287 | 760 | 4.9105 | - | - |
585
+ | 0.7383 | 770 | 4.9271 | - | - |
586
+ | 0.7478 | 780 | 4.9476 | - | - |
587
+ | 0.7574 | 790 | 4.8887 | - | - |
588
+ | 0.7670 | 800 | 4.9576 | 5.0020 | 4.7397 |
589
+ | 0.7766 | 810 | 4.9577 | - | - |
590
+ | 0.7862 | 820 | 4.8974 | - | - |
591
+ | 0.7958 | 830 | 5.0033 | - | - |
592
+ | 0.8054 | 840 | 4.976 | - | - |
593
+ | 0.8150 | 850 | 4.9915 | 5.0422 | 4.9367 |
594
+ | 0.8245 | 860 | 4.9856 | - | - |
595
+ | 0.8341 | 870 | 4.9566 | - | - |
596
+ | 0.8437 | 880 | 4.8738 | - | - |
597
+ | 0.8533 | 890 | 4.9258 | - | - |
598
+ | 0.8629 | 900 | 4.9118 | 5.0033 | 4.7945 |
599
+ | 0.8725 | 910 | 4.9782 | - | - |
600
+ | 0.8821 | 920 | 4.8659 | - | - |
601
+ | 0.8917 | 930 | 4.9197 | - | - |
602
+ | 0.9012 | 940 | 4.9281 | - | - |
603
+ | 0.9108 | 950 | 4.9427 | 5.0021 | 4.7857 |
604
+ | 0.9204 | 960 | 4.8966 | - | - |
605
+ | 0.9300 | 970 | 4.9657 | - | - |
606
+ | 0.9396 | 980 | 4.9597 | - | - |
607
+ | 0.9492 | 990 | 4.9627 | - | - |
608
+ | 0.9588 | 1000 | 4.8603 | 5.0017 | 4.8015 |
609
+ | 0.9684 | 1010 | 4.9817 | - | - |
610
+ | 0.9779 | 1020 | 4.813 | - | - |
611
+ | 0.9875 | 1030 | 4.9688 | - | - |
612
+ | 0.9971 | 1040 | 4.9802 | - | - |
613
+ | 1.0067 | 1050 | 4.8651 | 5.0015 | 4.7961 |
614
+ | 1.0163 | 1060 | 4.9286 | - | - |
615
+ | 1.0259 | 1070 | 4.9124 | - | - |
616
+ | 1.0355 | 1080 | 4.9927 | - | - |
617
+ | 1.0451 | 1090 | 4.9769 | - | - |
618
+ | 1.0547 | 1100 | 5.0158 | 5.0046 | 5.1203 |
619
+ | 1.0642 | 1110 | 5.0234 | - | - |
620
+ | 1.0738 | 1120 | 4.9903 | - | - |
621
+ | 1.0834 | 1130 | 5.008 | - | - |
622
+ | 1.0930 | 1140 | 4.9987 | - | - |
623
+ | 1.1026 | 1150 | 5.0091 | 5.0155 | 5.1031 |
624
+ | 1.1122 | 1160 | 5.0562 | - | - |
625
+ | 1.1218 | 1170 | 5.0129 | - | - |
626
+ | 1.1314 | 1180 | 5.0033 | - | - |
627
+ | 1.1409 | 1190 | 4.9961 | - | - |
628
+ | 1.1505 | 1200 | 4.988 | 5.0005 | 5.0025 |
629
+ | 1.1601 | 1210 | 4.9687 | - | - |
630
+ | 1.1697 | 1220 | 4.9824 | - | - |
631
+ | 1.1793 | 1230 | 4.9955 | - | - |
632
+ | 1.1889 | 1240 | 4.9943 | - | - |
633
+ | 1.1985 | 1250 | 5.0552 | 5.0002 | 5.0005 |
634
+ | 1.2081 | 1260 | 5.0073 | - | - |
635
+ | 1.2176 | 1270 | 4.9928 | - | - |
636
+ | 1.2272 | 1280 | 5.0183 | - | - |
637
+ | 1.2368 | 1290 | 4.9932 | - | - |
638
+ | 1.2464 | 1300 | 4.9737 | 5.0003 | 5.0018 |
639
+ | 1.2560 | 1310 | 5.012 | - | - |
640
+ | 1.2656 | 1320 | 5.0138 | - | - |
641
+ | 1.2752 | 1330 | 5.0107 | - | - |
642
+ | 1.2848 | 1340 | 5.0226 | - | - |
643
+ | 1.2943 | 1350 | 4.9827 | 5.0009 | 5.0021 |
644
+ | 1.3039 | 1360 | 5.0089 | - | - |
645
+ | 1.3135 | 1370 | 4.9869 | - | - |
646
+ | 1.3231 | 1380 | 5.0178 | - | - |
647
+ | 1.3327 | 1390 | 5.0038 | - | - |
648
+ | 1.3423 | 1400 | 4.9761 | 5.0003 | 5.0008 |
649
+ | 1.3519 | 1410 | 5.0025 | - | - |
650
+ | 1.3615 | 1420 | 4.9973 | - | - |
651
+ | 1.3710 | 1430 | 4.9911 | - | - |
652
+ | 1.3806 | 1440 | 5.0088 | - | - |
653
+ | 1.3902 | 1450 | 4.986 | 5.0001 | 5.0005 |
654
+ | 1.3998 | 1460 | 5.0025 | - | - |
655
+ | 1.4094 | 1470 | 4.9907 | - | - |
656
+ | 1.4190 | 1480 | 5.0012 | - | - |
657
+ | 1.4286 | 1490 | 4.9928 | - | - |
658
+ | 1.4382 | 1500 | 4.9955 | 5.0002 | 5.0006 |
659
+ | 1.4477 | 1510 | 4.9952 | - | - |
660
+ | 1.4573 | 1520 | 4.9875 | - | - |
661
+ | 1.4669 | 1530 | 5.0027 | - | - |
662
+ | 1.4765 | 1540 | 4.963 | - | - |
663
+ | 1.4861 | 1550 | 4.9662 | 5.0016 | 5.0061 |
664
+ | 1.4957 | 1560 | 4.9284 | - | - |
665
+ | 1.5053 | 1570 | 4.9773 | - | - |
666
+ | 1.5149 | 1580 | 5.0154 | - | - |
667
+ | 1.5244 | 1590 | 4.9956 | - | - |
668
+ | 1.5340 | 1600 | 5.0147 | 5.0152 | 5.0622 |
669
+ | 1.5436 | 1610 | 5.0216 | - | - |
670
+ | 1.5532 | 1620 | 5.0276 | - | - |
671
+ | 1.5628 | 1630 | 5.0115 | - | - |
672
+ | 1.5724 | 1640 | 4.9836 | - | - |
673
+ | 1.5820 | 1650 | 5.0171 | 5.0001 | 5.0022 |
674
+ | 1.5916 | 1660 | 5.0266 | - | - |
675
+ | 1.6012 | 1670 | 4.9617 | - | - |
676
+ | 1.6107 | 1680 | 4.9691 | - | - |
677
+ | 1.6203 | 1690 | 5.0004 | - | - |
678
+ | 1.6299 | 1700 | 5.0173 | 5.0399 | 5.0408 |
679
+ | 1.6395 | 1710 | 4.9824 | - | - |
680
+ | 1.6491 | 1720 | 5.0099 | - | - |
681
+ | 1.6587 | 1730 | 5.003 | - | - |
682
+ | 1.6683 | 1740 | 5.0039 | - | - |
683
+ | 1.6779 | 1750 | 5.0031 | 5.0021 | 5.0106 |
684
+ | 1.6874 | 1760 | 4.9992 | - | - |
685
+ | 1.6970 | 1770 | 4.9997 | - | - |
686
+ | 1.7066 | 1780 | 4.9999 | - | - |
687
+ | 1.7162 | 1790 | 5.0022 | - | - |
688
+ | 1.7258 | 1800 | 4.9988 | 5.0017 | 5.0100 |
689
+ | 1.7354 | 1810 | 4.9987 | - | - |
690
+ | 1.7450 | 1820 | 5.0029 | - | - |
691
+ | 1.7546 | 1830 | 4.9949 | - | - |
692
+ | 1.7641 | 1840 | 4.999 | - | - |
693
+ | 1.7737 | 1850 | 5.0017 | 5.0033 | 4.9873 |
694
+ | 1.7833 | 1860 | 4.9866 | - | - |
695
+ | 1.7929 | 1870 | 4.9976 | - | - |
696
+ | 1.8025 | 1880 | 4.9784 | - | - |
697
+ | 1.8121 | 1890 | 4.9824 | - | - |
698
+ | 1.8217 | 1900 | 4.9945 | 5.0142 | 5.1557 |
699
+ | 1.8313 | 1910 | 4.9445 | - | - |
700
+ | 1.8408 | 1920 | 4.9477 | - | - |
701
+ | 1.8504 | 1930 | 5.0047 | - | - |
702
+ | 1.8600 | 1940 | 4.9307 | - | - |
703
+ | 1.8696 | 1950 | 4.9634 | 5.0023 | 4.8261 |
704
+ | 1.8792 | 1960 | 4.9791 | - | - |
705
+ | 1.8888 | 1970 | 4.9792 | - | - |
706
+ | 1.8984 | 1980 | 4.9041 | - | - |
707
+ | 1.9080 | 1990 | 4.9349 | - | - |
708
+ | 1.9175 | 2000 | 4.8942 | 5.0013 | 4.7501 |
709
+ | 1.9271 | 2010 | 4.9871 | - | - |
710
+ | 1.9367 | 2020 | 4.9631 | - | - |
711
+ | 1.9463 | 2030 | 4.9604 | - | - |
712
+ | 1.9559 | 2040 | 4.9346 | - | - |
713
+ | 1.9655 | 2050 | 4.9398 | 5.0012 | 4.7617 |
714
+ | 1.9751 | 2060 | 4.9262 | - | - |
715
+ | 1.9847 | 2070 | 4.9505 | - | - |
716
+ | 1.9942 | 2080 | 4.9667 | - | - |
717
+ | 2.0038 | 2090 | 4.8763 | - | - |
718
+ | 2.0134 | 2100 | 4.9116 | 5.0010 | 4.7720 |
719
+ | 2.0230 | 2110 | 4.9367 | - | - |
720
+ | 2.0326 | 2120 | 4.9546 | - | - |
721
+ | 2.0422 | 2130 | 4.9743 | - | - |
722
+ | 2.0518 | 2140 | 4.9795 | - | - |
723
+ | 2.0614 | 2150 | 4.9647 | 5.0010 | 4.7732 |
724
+ | 2.0709 | 2160 | 4.9856 | - | - |
725
+ | 2.0805 | 2170 | 4.9553 | - | - |
726
+ | 2.0901 | 2180 | 4.9479 | - | - |
727
+ | 2.0997 | 2190 | 4.9672 | - | - |
728
+ | 2.1093 | 2200 | 4.9645 | 5.0011 | 4.7576 |
729
+ | 2.1189 | 2210 | 4.9299 | - | - |
730
+ | 2.1285 | 2220 | 4.9777 | - | - |
731
+ | 2.1381 | 2230 | 4.94 | - | - |
732
+ | 2.1477 | 2240 | 4.978 | - | - |
733
+ | 2.1572 | 2250 | 4.968 | 4.9994 | 4.7557 |
734
+ | 2.1668 | 2260 | 4.9512 | - | - |
735
+ | 2.1764 | 2270 | 4.9539 | - | - |
736
+ | 2.1860 | 2280 | 4.9508 | - | - |
737
+ | 2.1956 | 2290 | 4.8871 | - | - |
738
+ | 2.2052 | 2300 | 4.909 | 5.0010 | 4.7444 |
739
+ | 2.2148 | 2310 | 4.9587 | - | - |
740
+ | 2.2244 | 2320 | 4.8956 | - | - |
741
+ | 2.2339 | 2330 | 4.9891 | - | - |
742
+ | 2.2435 | 2340 | 4.8795 | - | - |
743
+ | 2.2531 | 2350 | 4.887 | 5.0010 | 4.7448 |
744
+ | 2.2627 | 2360 | 4.9723 | - | - |
745
+ | 2.2723 | 2370 | 4.8967 | - | - |
746
+ | 2.2819 | 2380 | 4.8975 | - | - |
747
+ | 2.2915 | 2390 | 4.9177 | - | - |
748
+ | 2.3011 | 2400 | 4.9272 | 5.0010 | 4.7287 |
749
+ | 2.3106 | 2410 | 4.9283 | - | - |
750
+ | 2.3202 | 2420 | 4.9061 | - | - |
751
+ | 2.3298 | 2430 | 4.9279 | - | - |
752
+ | 2.3394 | 2440 | 4.9856 | - | - |
753
+ | 2.3490 | 2450 | 4.8988 | 5.0010 | 4.7268 |
754
+ | 2.3586 | 2460 | 4.9269 | - | - |
755
+ | 2.3682 | 2470 | 4.9318 | - | - |
756
+ | 2.3778 | 2480 | 4.8814 | - | - |
757
+ | 2.3873 | 2490 | 4.9912 | - | - |
758
+ | 2.3969 | 2500 | 4.9226 | 5.0009 | 4.7197 |
759
+ | 2.4065 | 2510 | 4.9437 | - | - |
760
+ | 2.4161 | 2520 | 4.9553 | - | - |
761
+ | 2.4257 | 2530 | 4.9355 | - | - |
762
+ | 2.4353 | 2540 | 4.9063 | - | - |
763
+ | 2.4449 | 2550 | 4.9095 | 4.9973 | 4.7481 |
764
+ | 2.4545 | 2560 | 4.9624 | - | - |
765
+ | 2.4640 | 2570 | 4.9731 | - | - |
766
+ | 2.4736 | 2580 | 4.9156 | - | - |
767
+ | 2.4832 | 2590 | 4.8714 | - | - |
768
+ | 2.4928 | 2600 | 4.9532 | 5.0009 | 4.7327 |
769
+ | 2.5024 | 2610 | 4.9196 | - | - |
770
+ | 2.5120 | 2620 | 4.9477 | - | - |
771
+ | 2.5216 | 2630 | 4.9725 | - | - |
772
+ | 2.5312 | 2640 | 4.9483 | - | - |
773
+ | 2.5407 | 2650 | 4.9124 | 5.0008 | 4.7752 |
774
+ | 2.5503 | 2660 | 4.9056 | - | - |
775
+ | 2.5599 | 2670 | 4.9396 | - | - |
776
+ | 2.5695 | 2680 | 4.9472 | - | - |
777
+ | 2.5791 | 2690 | 4.9322 | - | - |
778
+ | 2.5887 | 2700 | 4.9147 | 5.0008 | 4.7360 |
779
+ | 2.5983 | 2710 | 4.9511 | - | - |
780
+ | 2.6079 | 2720 | 4.9229 | - | - |
781
+ | 2.6174 | 2730 | 4.9207 | - | - |
782
+ | 2.6270 | 2740 | 4.9695 | - | - |
783
+ | 2.6366 | 2750 | 4.8886 | 5.0008 | 4.7616 |
784
+ | 2.6462 | 2760 | 4.9878 | - | - |
785
+ | 2.6558 | 2770 | 4.9647 | - | - |
786
+ | 2.6654 | 2780 | 4.9552 | - | - |
787
+ | 2.6750 | 2790 | 5.0171 | - | - |
788
+ | 2.6846 | 2800 | 4.9379 | 5.0008 | 4.7563 |
789
+ | 2.6942 | 2810 | 4.9727 | - | - |
790
+ | 2.7037 | 2820 | 4.9798 | - | - |
791
+ | 2.7133 | 2830 | 4.9726 | - | - |
792
+ | 2.7229 | 2840 | 4.956 | - | - |
793
+ | 2.7325 | 2850 | 4.9512 | 5.0007 | 4.7669 |
794
+ | 2.7421 | 2860 | 4.9705 | - | - |
795
+ | 2.7517 | 2870 | 4.8603 | - | - |
796
+ | 2.7613 | 2880 | 4.9764 | - | - |
797
+ | 2.7709 | 2890 | 4.9187 | - | - |
798
+ | 2.7804 | 2900 | 4.8941 | 5.0008 | 4.7311 |
799
+ | 2.7900 | 2910 | 4.9592 | - | - |
800
+ | 2.7996 | 2920 | 4.9141 | - | - |
801
+ | 2.8092 | 2930 | 4.9198 | - | - |
802
+ | 2.8188 | 2940 | 5.0112 | - | - |
803
+ | 2.8284 | 2950 | 4.9778 | 5.0007 | 4.7333 |
804
+ | 2.8380 | 2960 | 4.8999 | - | - |
805
+ | 2.8476 | 2970 | 4.9223 | - | - |
806
+ | 2.8571 | 2980 | 4.9369 | - | - |
807
+ | 2.8667 | 2990 | 4.8722 | - | - |
808
+ | 2.8763 | 3000 | 4.9299 | 5.0008 | 4.7280 |
809
+ | 2.8859 | 3010 | 4.8457 | - | - |
810
+ | 2.8955 | 3020 | 4.8864 | - | - |
811
+ | 2.9051 | 3030 | 4.882 | - | - |
812
+ | 2.9147 | 3040 | 4.8897 | - | - |
813
+ | 2.9243 | 3050 | 4.9663 | 5.0007 | 4.7238 |
814
+ | 2.9338 | 3060 | 4.946 | - | - |
815
+ | 2.9434 | 3070 | 4.9555 | - | - |
816
+ | 2.9530 | 3080 | 4.9005 | - | - |
817
+ | 2.9626 | 3090 | 4.9097 | - | - |
818
+ | 2.9722 | 3100 | 4.924 | 5.0007 | 4.7231 |
819
+ | 2.9818 | 3110 | 4.8929 | - | - |
820
+ | 2.9914 | 3120 | 4.93 | - | - |
821
+
822
+ </details>
823
+
824
+ ### Framework Versions
825
+ - Python: 3.10.12
826
+ - Sentence Transformers: 4.1.0
827
+ - Transformers: 4.51.3
828
+ - PyTorch: 2.6.0+cu124
829
+ - Accelerate: 1.6.0
830
+ - Datasets: 3.5.0
831
+ - Tokenizers: 0.21.1
832
+
833
+ ## Citation
834
+
835
+ ### BibTeX
836
+
837
+ #### Sentence Transformers
838
+ ```bibtex
839
+ @inproceedings{reimers-2019-sentence-bert,
840
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
841
+ author = "Reimers, Nils and Gurevych, Iryna",
842
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
843
+ month = "11",
844
+ year = "2019",
845
+ publisher = "Association for Computational Linguistics",
846
+ url = "https://arxiv.org/abs/1908.10084",
847
+ }
848
+ ```
849
+
850
+ #### TripletLoss
851
+ ```bibtex
852
+ @misc{hermans2017defense,
853
+ title={In Defense of the Triplet Loss for Person Re-Identification},
854
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
855
+ year={2017},
856
+ eprint={1703.07737},
857
+ archivePrefix={arXiv},
858
+ primaryClass={cs.CV}
859
+ }
860
+ ```
861
+
862
+ <!--
863
+ ## Glossary
864
+
865
+ *Clearly define terms in order to be accessible across audiences.*
866
+ -->
867
+
868
+ <!--
869
+ ## Model Card Authors
870
+
871
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
872
+ -->
873
+
874
+ <!--
875
+ ## Model Card Contact
876
+
877
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
878
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 1024,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 4096,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 16,
18
+ "num_hidden_layers": 24,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:24fc41df0f065f577a2f80f75d2a703aba9d5558154bf0d004dc066e331e7d93
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0cf55da7e69cc49e3dd1785514e611749203e00111685097be34f3b162bb3652
3
+ size 4471055801
rng_state_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c6e0bd538362540845d10930a079b09278b2cfe3553115d9d47726ee588f2f14
3
+ size 14448
rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:53e5b75bbb4c9c94164e53033c1c5b103ee3b7494cdc1e6dcf0c721624c9f4ea
3
+ size 14448
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:76818575e71f0958df495af25719e780bd8e875730e30c5c898a665c7ca33f4c
3
+ size 1064
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
trainer_state.json ADDED
@@ -0,0 +1,3210 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 2550,
3
+ "best_metric": 4.99726676940918,
4
+ "best_model_checkpoint": ".../training_output/checkpoint-1000",
5
+ "epoch": 3.0,
6
+ "eval_steps": 50,
7
+ "global_step": 3129,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.009587727708533078,
14
+ "grad_norm": 1.2602713108062744,
15
+ "learning_rate": 2.875399361022364e-07,
16
+ "loss": 5.0879,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.019175455417066157,
21
+ "grad_norm": 1.1363953351974487,
22
+ "learning_rate": 6.070287539936103e-07,
23
+ "loss": 5.1046,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.028763183125599234,
28
+ "grad_norm": 1.1238548755645752,
29
+ "learning_rate": 9.265175718849841e-07,
30
+ "loss": 5.0837,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.038350910834132314,
35
+ "grad_norm": 1.0674521923065186,
36
+ "learning_rate": 1.2460063897763578e-06,
37
+ "loss": 5.0778,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.04793863854266539,
42
+ "grad_norm": 1.0108286142349243,
43
+ "learning_rate": 1.565495207667732e-06,
44
+ "loss": 5.0643,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.04793863854266539,
49
+ "eval_q2q_data_loss": 5.071373462677002,
50
+ "eval_q2q_data_runtime": 8.6567,
51
+ "eval_q2q_data_samples_per_second": 312.475,
52
+ "eval_q2q_data_steps_per_second": 19.638,
53
+ "step": 50
54
+ },
55
+ {
56
+ "epoch": 0.04793863854266539,
57
+ "eval_q2p_data_loss": 5.046911239624023,
58
+ "eval_q2p_data_runtime": 15.4129,
59
+ "eval_q2p_data_samples_per_second": 52.683,
60
+ "eval_q2p_data_steps_per_second": 3.309,
61
+ "step": 50
62
+ },
63
+ {
64
+ "epoch": 0.05752636625119847,
65
+ "grad_norm": 1.051458477973938,
66
+ "learning_rate": 1.8849840255591056e-06,
67
+ "loss": 5.0424,
68
+ "step": 60
69
+ },
70
+ {
71
+ "epoch": 0.06711409395973154,
72
+ "grad_norm": 1.123085856437683,
73
+ "learning_rate": 2.2044728434504793e-06,
74
+ "loss": 5.0255,
75
+ "step": 70
76
+ },
77
+ {
78
+ "epoch": 0.07670182166826463,
79
+ "grad_norm": 0.8094280362129211,
80
+ "learning_rate": 2.5239616613418532e-06,
81
+ "loss": 5.0099,
82
+ "step": 80
83
+ },
84
+ {
85
+ "epoch": 0.0862895493767977,
86
+ "grad_norm": 1.4995239973068237,
87
+ "learning_rate": 2.8434504792332267e-06,
88
+ "loss": 5.0063,
89
+ "step": 90
90
+ },
91
+ {
92
+ "epoch": 0.09587727708533078,
93
+ "grad_norm": 0.6668018698692322,
94
+ "learning_rate": 3.162939297124601e-06,
95
+ "loss": 5.0033,
96
+ "step": 100
97
+ },
98
+ {
99
+ "epoch": 0.09587727708533078,
100
+ "eval_q2q_data_loss": 5.014667510986328,
101
+ "eval_q2q_data_runtime": 8.6334,
102
+ "eval_q2q_data_samples_per_second": 313.318,
103
+ "eval_q2q_data_steps_per_second": 19.691,
104
+ "step": 100
105
+ },
106
+ {
107
+ "epoch": 0.09587727708533078,
108
+ "eval_q2p_data_loss": 5.0004682540893555,
109
+ "eval_q2p_data_runtime": 15.4405,
110
+ "eval_q2p_data_samples_per_second": 52.589,
111
+ "eval_q2p_data_steps_per_second": 3.303,
112
+ "step": 100
113
+ },
114
+ {
115
+ "epoch": 0.10546500479386385,
116
+ "grad_norm": 0.811168909072876,
117
+ "learning_rate": 3.482428115015975e-06,
118
+ "loss": 5.003,
119
+ "step": 110
120
+ },
121
+ {
122
+ "epoch": 0.11505273250239693,
123
+ "grad_norm": 1.420505404472351,
124
+ "learning_rate": 3.8019169329073485e-06,
125
+ "loss": 4.9967,
126
+ "step": 120
127
+ },
128
+ {
129
+ "epoch": 0.12464046021093,
130
+ "grad_norm": 5.024260520935059,
131
+ "learning_rate": 4.121405750798722e-06,
132
+ "loss": 4.998,
133
+ "step": 130
134
+ },
135
+ {
136
+ "epoch": 0.1342281879194631,
137
+ "grad_norm": 4.843268394470215,
138
+ "learning_rate": 4.440894568690096e-06,
139
+ "loss": 5.0012,
140
+ "step": 140
141
+ },
142
+ {
143
+ "epoch": 0.14381591562799617,
144
+ "grad_norm": 0.6666759848594666,
145
+ "learning_rate": 4.76038338658147e-06,
146
+ "loss": 4.9989,
147
+ "step": 150
148
+ },
149
+ {
150
+ "epoch": 0.14381591562799617,
151
+ "eval_q2q_data_loss": 5.009535312652588,
152
+ "eval_q2q_data_runtime": 8.5717,
153
+ "eval_q2q_data_samples_per_second": 315.574,
154
+ "eval_q2q_data_steps_per_second": 19.833,
155
+ "step": 150
156
+ },
157
+ {
158
+ "epoch": 0.14381591562799617,
159
+ "eval_q2p_data_loss": 4.942420959472656,
160
+ "eval_q2p_data_runtime": 15.4905,
161
+ "eval_q2p_data_samples_per_second": 52.419,
162
+ "eval_q2p_data_steps_per_second": 3.292,
163
+ "step": 150
164
+ },
165
+ {
166
+ "epoch": 0.15340364333652926,
167
+ "grad_norm": 0.6130227446556091,
168
+ "learning_rate": 5.079872204472844e-06,
169
+ "loss": 4.9908,
170
+ "step": 160
171
+ },
172
+ {
173
+ "epoch": 0.1629913710450623,
174
+ "grad_norm": 0.7333933711051941,
175
+ "learning_rate": 5.399361022364218e-06,
176
+ "loss": 4.9735,
177
+ "step": 170
178
+ },
179
+ {
180
+ "epoch": 0.1725790987535954,
181
+ "grad_norm": 2.2645883560180664,
182
+ "learning_rate": 5.718849840255591e-06,
183
+ "loss": 4.9965,
184
+ "step": 180
185
+ },
186
+ {
187
+ "epoch": 0.18216682646212848,
188
+ "grad_norm": 0.6750437617301941,
189
+ "learning_rate": 6.038338658146965e-06,
190
+ "loss": 4.9825,
191
+ "step": 190
192
+ },
193
+ {
194
+ "epoch": 0.19175455417066156,
195
+ "grad_norm": 8.299290657043457,
196
+ "learning_rate": 6.35782747603834e-06,
197
+ "loss": 4.9514,
198
+ "step": 200
199
+ },
200
+ {
201
+ "epoch": 0.19175455417066156,
202
+ "eval_q2q_data_loss": 5.007415294647217,
203
+ "eval_q2q_data_runtime": 8.6664,
204
+ "eval_q2q_data_samples_per_second": 312.126,
205
+ "eval_q2q_data_steps_per_second": 19.616,
206
+ "step": 200
207
+ },
208
+ {
209
+ "epoch": 0.19175455417066156,
210
+ "eval_q2p_data_loss": 4.874378204345703,
211
+ "eval_q2p_data_runtime": 15.5099,
212
+ "eval_q2p_data_samples_per_second": 52.354,
213
+ "eval_q2p_data_steps_per_second": 3.288,
214
+ "step": 200
215
+ },
216
+ {
217
+ "epoch": 0.20134228187919462,
218
+ "grad_norm": 1.9930428266525269,
219
+ "learning_rate": 6.677316293929713e-06,
220
+ "loss": 4.9521,
221
+ "step": 210
222
+ },
223
+ {
224
+ "epoch": 0.2109300095877277,
225
+ "grad_norm": 4.539638042449951,
226
+ "learning_rate": 6.996805111821087e-06,
227
+ "loss": 4.968,
228
+ "step": 220
229
+ },
230
+ {
231
+ "epoch": 0.22051773729626079,
232
+ "grad_norm": 0.5192278027534485,
233
+ "learning_rate": 7.316293929712461e-06,
234
+ "loss": 4.96,
235
+ "step": 230
236
+ },
237
+ {
238
+ "epoch": 0.23010546500479387,
239
+ "grad_norm": 4.190878868103027,
240
+ "learning_rate": 7.635782747603835e-06,
241
+ "loss": 4.9758,
242
+ "step": 240
243
+ },
244
+ {
245
+ "epoch": 0.23969319271332695,
246
+ "grad_norm": 0.7492648959159851,
247
+ "learning_rate": 7.955271565495208e-06,
248
+ "loss": 4.9834,
249
+ "step": 250
250
+ },
251
+ {
252
+ "epoch": 0.23969319271332695,
253
+ "eval_q2q_data_loss": 5.00647497177124,
254
+ "eval_q2q_data_runtime": 8.6319,
255
+ "eval_q2q_data_samples_per_second": 313.372,
256
+ "eval_q2q_data_steps_per_second": 19.694,
257
+ "step": 250
258
+ },
259
+ {
260
+ "epoch": 0.23969319271332695,
261
+ "eval_q2p_data_loss": 4.842836856842041,
262
+ "eval_q2p_data_runtime": 15.4423,
263
+ "eval_q2p_data_samples_per_second": 52.583,
264
+ "eval_q2p_data_steps_per_second": 3.303,
265
+ "step": 250
266
+ },
267
+ {
268
+ "epoch": 0.24928092042186,
269
+ "grad_norm": 1.2294269800186157,
270
+ "learning_rate": 8.274760383386582e-06,
271
+ "loss": 4.9273,
272
+ "step": 260
273
+ },
274
+ {
275
+ "epoch": 0.2588686481303931,
276
+ "grad_norm": 1.7497507333755493,
277
+ "learning_rate": 8.594249201277956e-06,
278
+ "loss": 4.9796,
279
+ "step": 270
280
+ },
281
+ {
282
+ "epoch": 0.2684563758389262,
283
+ "grad_norm": 5.415214538574219,
284
+ "learning_rate": 8.91373801916933e-06,
285
+ "loss": 4.9517,
286
+ "step": 280
287
+ },
288
+ {
289
+ "epoch": 0.27804410354745923,
290
+ "grad_norm": 2.2691502571105957,
291
+ "learning_rate": 9.233226837060704e-06,
292
+ "loss": 4.9763,
293
+ "step": 290
294
+ },
295
+ {
296
+ "epoch": 0.28763183125599234,
297
+ "grad_norm": 5.458872318267822,
298
+ "learning_rate": 9.552715654952077e-06,
299
+ "loss": 4.9372,
300
+ "step": 300
301
+ },
302
+ {
303
+ "epoch": 0.28763183125599234,
304
+ "eval_q2q_data_loss": 5.0056328773498535,
305
+ "eval_q2q_data_runtime": 8.5076,
306
+ "eval_q2q_data_samples_per_second": 317.952,
307
+ "eval_q2q_data_steps_per_second": 19.982,
308
+ "step": 300
309
+ },
310
+ {
311
+ "epoch": 0.28763183125599234,
312
+ "eval_q2p_data_loss": 4.825343608856201,
313
+ "eval_q2p_data_runtime": 15.402,
314
+ "eval_q2p_data_samples_per_second": 52.72,
315
+ "eval_q2p_data_steps_per_second": 3.311,
316
+ "step": 300
317
+ },
318
+ {
319
+ "epoch": 0.2972195589645254,
320
+ "grad_norm": 4.435003757476807,
321
+ "learning_rate": 9.87220447284345e-06,
322
+ "loss": 4.9325,
323
+ "step": 310
324
+ },
325
+ {
326
+ "epoch": 0.3068072866730585,
327
+ "grad_norm": 0.34137386083602905,
328
+ "learning_rate": 9.978693181818183e-06,
329
+ "loss": 4.9477,
330
+ "step": 320
331
+ },
332
+ {
333
+ "epoch": 0.31639501438159157,
334
+ "grad_norm": 1.3951576948165894,
335
+ "learning_rate": 9.943181818181819e-06,
336
+ "loss": 4.9455,
337
+ "step": 330
338
+ },
339
+ {
340
+ "epoch": 0.3259827420901246,
341
+ "grad_norm": 8.795852661132812,
342
+ "learning_rate": 9.907670454545455e-06,
343
+ "loss": 4.9258,
344
+ "step": 340
345
+ },
346
+ {
347
+ "epoch": 0.33557046979865773,
348
+ "grad_norm": 0.4223299026489258,
349
+ "learning_rate": 9.872159090909091e-06,
350
+ "loss": 4.9799,
351
+ "step": 350
352
+ },
353
+ {
354
+ "epoch": 0.33557046979865773,
355
+ "eval_q2q_data_loss": 5.004530429840088,
356
+ "eval_q2q_data_runtime": 8.523,
357
+ "eval_q2q_data_samples_per_second": 317.375,
358
+ "eval_q2q_data_steps_per_second": 19.946,
359
+ "step": 350
360
+ },
361
+ {
362
+ "epoch": 0.33557046979865773,
363
+ "eval_q2p_data_loss": 4.843413352966309,
364
+ "eval_q2p_data_runtime": 15.444,
365
+ "eval_q2p_data_samples_per_second": 52.577,
366
+ "eval_q2p_data_steps_per_second": 3.302,
367
+ "step": 350
368
+ },
369
+ {
370
+ "epoch": 0.3451581975071908,
371
+ "grad_norm": 0.3708871006965637,
372
+ "learning_rate": 9.836647727272728e-06,
373
+ "loss": 4.9791,
374
+ "step": 360
375
+ },
376
+ {
377
+ "epoch": 0.3547459252157239,
378
+ "grad_norm": 0.3105733096599579,
379
+ "learning_rate": 9.801136363636364e-06,
380
+ "loss": 4.9437,
381
+ "step": 370
382
+ },
383
+ {
384
+ "epoch": 0.36433365292425696,
385
+ "grad_norm": 0.3218185007572174,
386
+ "learning_rate": 9.765625e-06,
387
+ "loss": 4.9873,
388
+ "step": 380
389
+ },
390
+ {
391
+ "epoch": 0.37392138063279,
392
+ "grad_norm": 0.29383164644241333,
393
+ "learning_rate": 9.730113636363636e-06,
394
+ "loss": 4.9425,
395
+ "step": 390
396
+ },
397
+ {
398
+ "epoch": 0.3835091083413231,
399
+ "grad_norm": 4.873048305511475,
400
+ "learning_rate": 9.694602272727274e-06,
401
+ "loss": 4.9837,
402
+ "step": 400
403
+ },
404
+ {
405
+ "epoch": 0.3835091083413231,
406
+ "eval_q2q_data_loss": 5.004254341125488,
407
+ "eval_q2q_data_runtime": 8.5135,
408
+ "eval_q2q_data_samples_per_second": 317.73,
409
+ "eval_q2q_data_steps_per_second": 19.968,
410
+ "step": 400
411
+ },
412
+ {
413
+ "epoch": 0.3835091083413231,
414
+ "eval_q2p_data_loss": 4.841865539550781,
415
+ "eval_q2p_data_runtime": 15.3899,
416
+ "eval_q2p_data_samples_per_second": 52.762,
417
+ "eval_q2p_data_steps_per_second": 3.314,
418
+ "step": 400
419
+ },
420
+ {
421
+ "epoch": 0.3930968360498562,
422
+ "grad_norm": 0.3491421639919281,
423
+ "learning_rate": 9.65909090909091e-06,
424
+ "loss": 5.0006,
425
+ "step": 410
426
+ },
427
+ {
428
+ "epoch": 0.40268456375838924,
429
+ "grad_norm": 5.751034259796143,
430
+ "learning_rate": 9.623579545454547e-06,
431
+ "loss": 4.9831,
432
+ "step": 420
433
+ },
434
+ {
435
+ "epoch": 0.41227229146692235,
436
+ "grad_norm": 0.34302422404289246,
437
+ "learning_rate": 9.588068181818183e-06,
438
+ "loss": 4.9531,
439
+ "step": 430
440
+ },
441
+ {
442
+ "epoch": 0.4218600191754554,
443
+ "grad_norm": 0.4230528771877289,
444
+ "learning_rate": 9.552556818181818e-06,
445
+ "loss": 4.9856,
446
+ "step": 440
447
+ },
448
+ {
449
+ "epoch": 0.4314477468839885,
450
+ "grad_norm": 17.237260818481445,
451
+ "learning_rate": 9.517045454545454e-06,
452
+ "loss": 4.8996,
453
+ "step": 450
454
+ },
455
+ {
456
+ "epoch": 0.4314477468839885,
457
+ "eval_q2q_data_loss": 5.005645751953125,
458
+ "eval_q2q_data_runtime": 8.483,
459
+ "eval_q2q_data_samples_per_second": 318.872,
460
+ "eval_q2q_data_steps_per_second": 20.04,
461
+ "step": 450
462
+ },
463
+ {
464
+ "epoch": 0.4314477468839885,
465
+ "eval_q2p_data_loss": 4.865195274353027,
466
+ "eval_q2p_data_runtime": 15.3699,
467
+ "eval_q2p_data_samples_per_second": 52.83,
468
+ "eval_q2p_data_steps_per_second": 3.318,
469
+ "step": 450
470
+ },
471
+ {
472
+ "epoch": 0.44103547459252157,
473
+ "grad_norm": 2.0367865562438965,
474
+ "learning_rate": 9.481534090909092e-06,
475
+ "loss": 4.9467,
476
+ "step": 460
477
+ },
478
+ {
479
+ "epoch": 0.4506232023010546,
480
+ "grad_norm": 0.41367027163505554,
481
+ "learning_rate": 9.446022727272728e-06,
482
+ "loss": 4.9724,
483
+ "step": 470
484
+ },
485
+ {
486
+ "epoch": 0.46021093000958774,
487
+ "grad_norm": 11.92837142944336,
488
+ "learning_rate": 9.410511363636365e-06,
489
+ "loss": 4.9797,
490
+ "step": 480
491
+ },
492
+ {
493
+ "epoch": 0.4697986577181208,
494
+ "grad_norm": 0.38374051451683044,
495
+ "learning_rate": 9.375000000000001e-06,
496
+ "loss": 4.9735,
497
+ "step": 490
498
+ },
499
+ {
500
+ "epoch": 0.4793863854266539,
501
+ "grad_norm": 5.73974609375,
502
+ "learning_rate": 9.339488636363637e-06,
503
+ "loss": 4.8765,
504
+ "step": 500
505
+ },
506
+ {
507
+ "epoch": 0.4793863854266539,
508
+ "eval_q2q_data_loss": 5.003554821014404,
509
+ "eval_q2q_data_runtime": 8.5075,
510
+ "eval_q2q_data_samples_per_second": 317.954,
511
+ "eval_q2q_data_steps_per_second": 19.982,
512
+ "step": 500
513
+ },
514
+ {
515
+ "epoch": 0.4793863854266539,
516
+ "eval_q2p_data_loss": 4.845742225646973,
517
+ "eval_q2p_data_runtime": 15.4131,
518
+ "eval_q2p_data_samples_per_second": 52.682,
519
+ "eval_q2p_data_steps_per_second": 3.309,
520
+ "step": 500
521
+ },
522
+ {
523
+ "epoch": 0.48897411313518696,
524
+ "grad_norm": 0.673588216304779,
525
+ "learning_rate": 9.303977272727273e-06,
526
+ "loss": 4.9136,
527
+ "step": 510
528
+ },
529
+ {
530
+ "epoch": 0.49856184084372,
531
+ "grad_norm": 0.6867577433586121,
532
+ "learning_rate": 9.26846590909091e-06,
533
+ "loss": 4.9688,
534
+ "step": 520
535
+ },
536
+ {
537
+ "epoch": 0.5081495685522531,
538
+ "grad_norm": 0.5350639224052429,
539
+ "learning_rate": 9.232954545454546e-06,
540
+ "loss": 4.9436,
541
+ "step": 530
542
+ },
543
+ {
544
+ "epoch": 0.5177372962607862,
545
+ "grad_norm": 0.4116136133670807,
546
+ "learning_rate": 9.197443181818184e-06,
547
+ "loss": 5.0017,
548
+ "step": 540
549
+ },
550
+ {
551
+ "epoch": 0.5273250239693192,
552
+ "grad_norm": 10.749342918395996,
553
+ "learning_rate": 9.161931818181818e-06,
554
+ "loss": 4.9867,
555
+ "step": 550
556
+ },
557
+ {
558
+ "epoch": 0.5273250239693192,
559
+ "eval_q2q_data_loss": 5.004271507263184,
560
+ "eval_q2q_data_runtime": 8.4877,
561
+ "eval_q2q_data_samples_per_second": 318.695,
562
+ "eval_q2q_data_steps_per_second": 20.029,
563
+ "step": 550
564
+ },
565
+ {
566
+ "epoch": 0.5273250239693192,
567
+ "eval_q2p_data_loss": 4.860942363739014,
568
+ "eval_q2p_data_runtime": 15.3408,
569
+ "eval_q2p_data_samples_per_second": 52.931,
570
+ "eval_q2p_data_steps_per_second": 3.324,
571
+ "step": 550
572
+ },
573
+ {
574
+ "epoch": 0.5369127516778524,
575
+ "grad_norm": 0.3119679093360901,
576
+ "learning_rate": 9.126420454545455e-06,
577
+ "loss": 4.9716,
578
+ "step": 560
579
+ },
580
+ {
581
+ "epoch": 0.5465004793863855,
582
+ "grad_norm": 0.2090018391609192,
583
+ "learning_rate": 9.090909090909091e-06,
584
+ "loss": 4.9338,
585
+ "step": 570
586
+ },
587
+ {
588
+ "epoch": 0.5560882070949185,
589
+ "grad_norm": 0.2094723880290985,
590
+ "learning_rate": 9.055397727272727e-06,
591
+ "loss": 4.9975,
592
+ "step": 580
593
+ },
594
+ {
595
+ "epoch": 0.5656759348034516,
596
+ "grad_norm": 0.16981257498264313,
597
+ "learning_rate": 9.019886363636364e-06,
598
+ "loss": 4.9485,
599
+ "step": 590
600
+ },
601
+ {
602
+ "epoch": 0.5752636625119847,
603
+ "grad_norm": 15.281989097595215,
604
+ "learning_rate": 8.984375000000002e-06,
605
+ "loss": 4.8959,
606
+ "step": 600
607
+ },
608
+ {
609
+ "epoch": 0.5752636625119847,
610
+ "eval_q2q_data_loss": 5.002608299255371,
611
+ "eval_q2q_data_runtime": 8.4635,
612
+ "eval_q2q_data_samples_per_second": 319.608,
613
+ "eval_q2q_data_steps_per_second": 20.086,
614
+ "step": 600
615
+ },
616
+ {
617
+ "epoch": 0.5752636625119847,
618
+ "eval_q2p_data_loss": 4.780869483947754,
619
+ "eval_q2p_data_runtime": 15.3652,
620
+ "eval_q2p_data_samples_per_second": 52.847,
621
+ "eval_q2p_data_steps_per_second": 3.319,
622
+ "step": 600
623
+ },
624
+ {
625
+ "epoch": 0.5848513902205177,
626
+ "grad_norm": 16.331180572509766,
627
+ "learning_rate": 8.948863636363638e-06,
628
+ "loss": 4.9769,
629
+ "step": 610
630
+ },
631
+ {
632
+ "epoch": 0.5944391179290508,
633
+ "grad_norm": 0.17700470983982086,
634
+ "learning_rate": 8.913352272727274e-06,
635
+ "loss": 4.9407,
636
+ "step": 620
637
+ },
638
+ {
639
+ "epoch": 0.6040268456375839,
640
+ "grad_norm": 6.958109378814697,
641
+ "learning_rate": 8.87784090909091e-06,
642
+ "loss": 4.9941,
643
+ "step": 630
644
+ },
645
+ {
646
+ "epoch": 0.613614573346117,
647
+ "grad_norm": 5.405721664428711,
648
+ "learning_rate": 8.842329545454547e-06,
649
+ "loss": 4.976,
650
+ "step": 640
651
+ },
652
+ {
653
+ "epoch": 0.62320230105465,
654
+ "grad_norm": 0.2884855270385742,
655
+ "learning_rate": 8.806818181818183e-06,
656
+ "loss": 4.986,
657
+ "step": 650
658
+ },
659
+ {
660
+ "epoch": 0.62320230105465,
661
+ "eval_q2q_data_loss": 5.003030776977539,
662
+ "eval_q2q_data_runtime": 8.5486,
663
+ "eval_q2q_data_samples_per_second": 316.425,
664
+ "eval_q2q_data_steps_per_second": 19.886,
665
+ "step": 650
666
+ },
667
+ {
668
+ "epoch": 0.62320230105465,
669
+ "eval_q2p_data_loss": 4.810172080993652,
670
+ "eval_q2p_data_runtime": 15.3666,
671
+ "eval_q2p_data_samples_per_second": 52.842,
672
+ "eval_q2p_data_steps_per_second": 3.319,
673
+ "step": 650
674
+ },
675
+ {
676
+ "epoch": 0.6327900287631831,
677
+ "grad_norm": 0.44038277864456177,
678
+ "learning_rate": 8.77130681818182e-06,
679
+ "loss": 4.94,
680
+ "step": 660
681
+ },
682
+ {
683
+ "epoch": 0.6423777564717162,
684
+ "grad_norm": 0.35095784068107605,
685
+ "learning_rate": 8.735795454545455e-06,
686
+ "loss": 4.9917,
687
+ "step": 670
688
+ },
689
+ {
690
+ "epoch": 0.6519654841802492,
691
+ "grad_norm": 0.7992573976516724,
692
+ "learning_rate": 8.700284090909092e-06,
693
+ "loss": 4.9938,
694
+ "step": 680
695
+ },
696
+ {
697
+ "epoch": 0.6615532118887824,
698
+ "grad_norm": 12.68810749053955,
699
+ "learning_rate": 8.664772727272728e-06,
700
+ "loss": 4.9373,
701
+ "step": 690
702
+ },
703
+ {
704
+ "epoch": 0.6711409395973155,
705
+ "grad_norm": 8.244370460510254,
706
+ "learning_rate": 8.629261363636364e-06,
707
+ "loss": 5.0235,
708
+ "step": 700
709
+ },
710
+ {
711
+ "epoch": 0.6711409395973155,
712
+ "eval_q2q_data_loss": 5.032140254974365,
713
+ "eval_q2q_data_runtime": 8.4755,
714
+ "eval_q2q_data_samples_per_second": 319.155,
715
+ "eval_q2q_data_steps_per_second": 20.058,
716
+ "step": 700
717
+ },
718
+ {
719
+ "epoch": 0.6711409395973155,
720
+ "eval_q2p_data_loss": 4.879370212554932,
721
+ "eval_q2p_data_runtime": 15.3816,
722
+ "eval_q2p_data_samples_per_second": 52.79,
723
+ "eval_q2p_data_steps_per_second": 3.316,
724
+ "step": 700
725
+ },
726
+ {
727
+ "epoch": 0.6807286673058485,
728
+ "grad_norm": 12.066866874694824,
729
+ "learning_rate": 8.59375e-06,
730
+ "loss": 4.939,
731
+ "step": 710
732
+ },
733
+ {
734
+ "epoch": 0.6903163950143816,
735
+ "grad_norm": 15.054842948913574,
736
+ "learning_rate": 8.558238636363637e-06,
737
+ "loss": 4.9682,
738
+ "step": 720
739
+ },
740
+ {
741
+ "epoch": 0.6999041227229147,
742
+ "grad_norm": 1.6012367010116577,
743
+ "learning_rate": 8.522727272727273e-06,
744
+ "loss": 4.9813,
745
+ "step": 730
746
+ },
747
+ {
748
+ "epoch": 0.7094918504314478,
749
+ "grad_norm": 6.062280654907227,
750
+ "learning_rate": 8.48721590909091e-06,
751
+ "loss": 4.9442,
752
+ "step": 740
753
+ },
754
+ {
755
+ "epoch": 0.7190795781399808,
756
+ "grad_norm": 0.4181146025657654,
757
+ "learning_rate": 8.451704545454547e-06,
758
+ "loss": 4.9354,
759
+ "step": 750
760
+ },
761
+ {
762
+ "epoch": 0.7190795781399808,
763
+ "eval_q2q_data_loss": 5.002427577972412,
764
+ "eval_q2q_data_runtime": 8.4867,
765
+ "eval_q2q_data_samples_per_second": 318.733,
766
+ "eval_q2q_data_steps_per_second": 20.031,
767
+ "step": 750
768
+ },
769
+ {
770
+ "epoch": 0.7190795781399808,
771
+ "eval_q2p_data_loss": 4.805325508117676,
772
+ "eval_q2p_data_runtime": 15.3619,
773
+ "eval_q2p_data_samples_per_second": 52.858,
774
+ "eval_q2p_data_steps_per_second": 3.32,
775
+ "step": 750
776
+ },
777
+ {
778
+ "epoch": 0.7286673058485139,
779
+ "grad_norm": 0.23768964409828186,
780
+ "learning_rate": 8.416193181818184e-06,
781
+ "loss": 4.9105,
782
+ "step": 760
783
+ },
784
+ {
785
+ "epoch": 0.738255033557047,
786
+ "grad_norm": 1.1970841884613037,
787
+ "learning_rate": 8.380681818181818e-06,
788
+ "loss": 4.9271,
789
+ "step": 770
790
+ },
791
+ {
792
+ "epoch": 0.74784276126558,
793
+ "grad_norm": 0.22903920710086823,
794
+ "learning_rate": 8.345170454545454e-06,
795
+ "loss": 4.9476,
796
+ "step": 780
797
+ },
798
+ {
799
+ "epoch": 0.7574304889741131,
800
+ "grad_norm": 9.315869331359863,
801
+ "learning_rate": 8.30965909090909e-06,
802
+ "loss": 4.8887,
803
+ "step": 790
804
+ },
805
+ {
806
+ "epoch": 0.7670182166826462,
807
+ "grad_norm": 0.27411147952079773,
808
+ "learning_rate": 8.274147727272727e-06,
809
+ "loss": 4.9576,
810
+ "step": 800
811
+ },
812
+ {
813
+ "epoch": 0.7670182166826462,
814
+ "eval_q2q_data_loss": 5.001960754394531,
815
+ "eval_q2q_data_runtime": 8.5354,
816
+ "eval_q2q_data_samples_per_second": 316.917,
817
+ "eval_q2q_data_steps_per_second": 19.917,
818
+ "step": 800
819
+ },
820
+ {
821
+ "epoch": 0.7670182166826462,
822
+ "eval_q2p_data_loss": 4.739698886871338,
823
+ "eval_q2p_data_runtime": 15.3694,
824
+ "eval_q2p_data_samples_per_second": 52.832,
825
+ "eval_q2p_data_steps_per_second": 3.318,
826
+ "step": 800
827
+ },
828
+ {
829
+ "epoch": 0.7766059443911792,
830
+ "grad_norm": 11.00167465209961,
831
+ "learning_rate": 8.238636363636365e-06,
832
+ "loss": 4.9577,
833
+ "step": 810
834
+ },
835
+ {
836
+ "epoch": 0.7861936720997124,
837
+ "grad_norm": 0.460358589887619,
838
+ "learning_rate": 8.203125000000001e-06,
839
+ "loss": 4.8974,
840
+ "step": 820
841
+ },
842
+ {
843
+ "epoch": 0.7957813998082455,
844
+ "grad_norm": 10.619705200195312,
845
+ "learning_rate": 8.167613636363637e-06,
846
+ "loss": 5.0033,
847
+ "step": 830
848
+ },
849
+ {
850
+ "epoch": 0.8053691275167785,
851
+ "grad_norm": 0.5667484998703003,
852
+ "learning_rate": 8.132102272727274e-06,
853
+ "loss": 4.976,
854
+ "step": 840
855
+ },
856
+ {
857
+ "epoch": 0.8149568552253116,
858
+ "grad_norm": 12.914066314697266,
859
+ "learning_rate": 8.09659090909091e-06,
860
+ "loss": 4.9915,
861
+ "step": 850
862
+ },
863
+ {
864
+ "epoch": 0.8149568552253116,
865
+ "eval_q2q_data_loss": 5.042208194732666,
866
+ "eval_q2q_data_runtime": 8.496,
867
+ "eval_q2q_data_samples_per_second": 318.386,
868
+ "eval_q2q_data_steps_per_second": 20.009,
869
+ "step": 850
870
+ },
871
+ {
872
+ "epoch": 0.8149568552253116,
873
+ "eval_q2p_data_loss": 4.936696529388428,
874
+ "eval_q2p_data_runtime": 15.4165,
875
+ "eval_q2p_data_samples_per_second": 52.671,
876
+ "eval_q2p_data_steps_per_second": 3.308,
877
+ "step": 850
878
+ },
879
+ {
880
+ "epoch": 0.8245445829338447,
881
+ "grad_norm": 7.874532699584961,
882
+ "learning_rate": 8.061079545454546e-06,
883
+ "loss": 4.9856,
884
+ "step": 860
885
+ },
886
+ {
887
+ "epoch": 0.8341323106423778,
888
+ "grad_norm": 3.6945109367370605,
889
+ "learning_rate": 8.025568181818183e-06,
890
+ "loss": 4.9566,
891
+ "step": 870
892
+ },
893
+ {
894
+ "epoch": 0.8437200383509108,
895
+ "grad_norm": 34.59883117675781,
896
+ "learning_rate": 7.990056818181819e-06,
897
+ "loss": 4.8738,
898
+ "step": 880
899
+ },
900
+ {
901
+ "epoch": 0.8533077660594439,
902
+ "grad_norm": 1.2880325317382812,
903
+ "learning_rate": 7.954545454545455e-06,
904
+ "loss": 4.9258,
905
+ "step": 890
906
+ },
907
+ {
908
+ "epoch": 0.862895493767977,
909
+ "grad_norm": 5.390997886657715,
910
+ "learning_rate": 7.919034090909091e-06,
911
+ "loss": 4.9118,
912
+ "step": 900
913
+ },
914
+ {
915
+ "epoch": 0.862895493767977,
916
+ "eval_q2q_data_loss": 5.003294944763184,
917
+ "eval_q2q_data_runtime": 8.4963,
918
+ "eval_q2q_data_samples_per_second": 318.375,
919
+ "eval_q2q_data_steps_per_second": 20.009,
920
+ "step": 900
921
+ },
922
+ {
923
+ "epoch": 0.862895493767977,
924
+ "eval_q2p_data_loss": 4.794476509094238,
925
+ "eval_q2p_data_runtime": 15.3667,
926
+ "eval_q2p_data_samples_per_second": 52.842,
927
+ "eval_q2p_data_steps_per_second": 3.319,
928
+ "step": 900
929
+ },
930
+ {
931
+ "epoch": 0.87248322147651,
932
+ "grad_norm": 3.2997488975524902,
933
+ "learning_rate": 7.883522727272728e-06,
934
+ "loss": 4.9782,
935
+ "step": 910
936
+ },
937
+ {
938
+ "epoch": 0.8820709491850431,
939
+ "grad_norm": 10.71391773223877,
940
+ "learning_rate": 7.848011363636364e-06,
941
+ "loss": 4.8659,
942
+ "step": 920
943
+ },
944
+ {
945
+ "epoch": 0.8916586768935763,
946
+ "grad_norm": 0.14661180973052979,
947
+ "learning_rate": 7.8125e-06,
948
+ "loss": 4.9197,
949
+ "step": 930
950
+ },
951
+ {
952
+ "epoch": 0.9012464046021093,
953
+ "grad_norm": 0.1432102769613266,
954
+ "learning_rate": 7.776988636363636e-06,
955
+ "loss": 4.9281,
956
+ "step": 940
957
+ },
958
+ {
959
+ "epoch": 0.9108341323106424,
960
+ "grad_norm": 0.13064274191856384,
961
+ "learning_rate": 7.741477272727274e-06,
962
+ "loss": 4.9427,
963
+ "step": 950
964
+ },
965
+ {
966
+ "epoch": 0.9108341323106424,
967
+ "eval_q2q_data_loss": 5.002143383026123,
968
+ "eval_q2q_data_runtime": 8.5053,
969
+ "eval_q2q_data_samples_per_second": 318.036,
970
+ "eval_q2q_data_steps_per_second": 19.988,
971
+ "step": 950
972
+ },
973
+ {
974
+ "epoch": 0.9108341323106424,
975
+ "eval_q2p_data_loss": 4.785708427429199,
976
+ "eval_q2p_data_runtime": 15.3288,
977
+ "eval_q2p_data_samples_per_second": 52.972,
978
+ "eval_q2p_data_steps_per_second": 3.327,
979
+ "step": 950
980
+ },
981
+ {
982
+ "epoch": 0.9204218600191755,
983
+ "grad_norm": 19.881868362426758,
984
+ "learning_rate": 7.70596590909091e-06,
985
+ "loss": 4.8966,
986
+ "step": 960
987
+ },
988
+ {
989
+ "epoch": 0.9300095877277086,
990
+ "grad_norm": 0.11643442511558533,
991
+ "learning_rate": 7.670454545454547e-06,
992
+ "loss": 4.9657,
993
+ "step": 970
994
+ },
995
+ {
996
+ "epoch": 0.9395973154362416,
997
+ "grad_norm": 0.20641827583312988,
998
+ "learning_rate": 7.634943181818183e-06,
999
+ "loss": 4.9597,
1000
+ "step": 980
1001
+ },
1002
+ {
1003
+ "epoch": 0.9491850431447747,
1004
+ "grad_norm": 0.1226697638630867,
1005
+ "learning_rate": 7.599431818181819e-06,
1006
+ "loss": 4.9627,
1007
+ "step": 990
1008
+ },
1009
+ {
1010
+ "epoch": 0.9587727708533078,
1011
+ "grad_norm": 0.17849154770374298,
1012
+ "learning_rate": 7.563920454545455e-06,
1013
+ "loss": 4.8603,
1014
+ "step": 1000
1015
+ },
1016
+ {
1017
+ "epoch": 0.9587727708533078,
1018
+ "eval_q2q_data_loss": 5.001661777496338,
1019
+ "eval_q2q_data_runtime": 8.4763,
1020
+ "eval_q2q_data_samples_per_second": 319.123,
1021
+ "eval_q2q_data_steps_per_second": 20.056,
1022
+ "step": 1000
1023
+ },
1024
+ {
1025
+ "epoch": 0.9587727708533078,
1026
+ "eval_q2p_data_loss": 4.801548004150391,
1027
+ "eval_q2p_data_runtime": 15.3711,
1028
+ "eval_q2p_data_samples_per_second": 52.827,
1029
+ "eval_q2p_data_steps_per_second": 3.318,
1030
+ "step": 1000
1031
+ },
1032
+ {
1033
+ "epoch": 0.9683604985618408,
1034
+ "grad_norm": 0.11723767966032028,
1035
+ "learning_rate": 7.528409090909091e-06,
1036
+ "loss": 4.9817,
1037
+ "step": 1010
1038
+ },
1039
+ {
1040
+ "epoch": 0.9779482262703739,
1041
+ "grad_norm": 0.14676721394062042,
1042
+ "learning_rate": 7.4928977272727274e-06,
1043
+ "loss": 4.813,
1044
+ "step": 1020
1045
+ },
1046
+ {
1047
+ "epoch": 0.987535953978907,
1048
+ "grad_norm": 0.18476560711860657,
1049
+ "learning_rate": 7.4573863636363646e-06,
1050
+ "loss": 4.9688,
1051
+ "step": 1030
1052
+ },
1053
+ {
1054
+ "epoch": 0.99712368168744,
1055
+ "grad_norm": 12.572381019592285,
1056
+ "learning_rate": 7.421875000000001e-06,
1057
+ "loss": 4.9802,
1058
+ "step": 1040
1059
+ },
1060
+ {
1061
+ "epoch": 1.0067114093959733,
1062
+ "grad_norm": 30.89609146118164,
1063
+ "learning_rate": 7.386363636363637e-06,
1064
+ "loss": 4.8651,
1065
+ "step": 1050
1066
+ },
1067
+ {
1068
+ "epoch": 1.0067114093959733,
1069
+ "eval_q2q_data_loss": 5.00149393081665,
1070
+ "eval_q2q_data_runtime": 8.4886,
1071
+ "eval_q2q_data_samples_per_second": 318.661,
1072
+ "eval_q2q_data_steps_per_second": 20.027,
1073
+ "step": 1050
1074
+ },
1075
+ {
1076
+ "epoch": 1.0067114093959733,
1077
+ "eval_q2p_data_loss": 4.796145439147949,
1078
+ "eval_q2p_data_runtime": 15.3888,
1079
+ "eval_q2p_data_samples_per_second": 52.766,
1080
+ "eval_q2p_data_steps_per_second": 3.314,
1081
+ "step": 1050
1082
+ },
1083
+ {
1084
+ "epoch": 1.0162991371045063,
1085
+ "grad_norm": 15.047320365905762,
1086
+ "learning_rate": 7.350852272727273e-06,
1087
+ "loss": 4.9286,
1088
+ "step": 1060
1089
+ },
1090
+ {
1091
+ "epoch": 1.0258868648130393,
1092
+ "grad_norm": 0.20640498399734497,
1093
+ "learning_rate": 7.31534090909091e-06,
1094
+ "loss": 4.9124,
1095
+ "step": 1070
1096
+ },
1097
+ {
1098
+ "epoch": 1.0354745925215725,
1099
+ "grad_norm": 5.841845989227295,
1100
+ "learning_rate": 7.279829545454547e-06,
1101
+ "loss": 4.9927,
1102
+ "step": 1080
1103
+ },
1104
+ {
1105
+ "epoch": 1.0450623202301055,
1106
+ "grad_norm": 8.321894645690918,
1107
+ "learning_rate": 7.244318181818183e-06,
1108
+ "loss": 4.9769,
1109
+ "step": 1090
1110
+ },
1111
+ {
1112
+ "epoch": 1.0546500479386385,
1113
+ "grad_norm": 0.8191462755203247,
1114
+ "learning_rate": 7.2088068181818185e-06,
1115
+ "loss": 5.0158,
1116
+ "step": 1100
1117
+ },
1118
+ {
1119
+ "epoch": 1.0546500479386385,
1120
+ "eval_q2q_data_loss": 5.004606246948242,
1121
+ "eval_q2q_data_runtime": 8.4874,
1122
+ "eval_q2q_data_samples_per_second": 318.708,
1123
+ "eval_q2q_data_steps_per_second": 20.03,
1124
+ "step": 1100
1125
+ },
1126
+ {
1127
+ "epoch": 1.0546500479386385,
1128
+ "eval_q2p_data_loss": 5.120335102081299,
1129
+ "eval_q2p_data_runtime": 15.3988,
1130
+ "eval_q2p_data_samples_per_second": 52.731,
1131
+ "eval_q2p_data_steps_per_second": 3.312,
1132
+ "step": 1100
1133
+ },
1134
+ {
1135
+ "epoch": 1.0642377756471717,
1136
+ "grad_norm": 6.462870121002197,
1137
+ "learning_rate": 7.173295454545455e-06,
1138
+ "loss": 5.0234,
1139
+ "step": 1110
1140
+ },
1141
+ {
1142
+ "epoch": 1.0738255033557047,
1143
+ "grad_norm": 19.973081588745117,
1144
+ "learning_rate": 7.137784090909091e-06,
1145
+ "loss": 4.9903,
1146
+ "step": 1120
1147
+ },
1148
+ {
1149
+ "epoch": 1.0834132310642377,
1150
+ "grad_norm": 6.040268898010254,
1151
+ "learning_rate": 7.102272727272727e-06,
1152
+ "loss": 5.008,
1153
+ "step": 1130
1154
+ },
1155
+ {
1156
+ "epoch": 1.093000958772771,
1157
+ "grad_norm": 64.06867218017578,
1158
+ "learning_rate": 7.066761363636364e-06,
1159
+ "loss": 4.9987,
1160
+ "step": 1140
1161
+ },
1162
+ {
1163
+ "epoch": 1.102588686481304,
1164
+ "grad_norm": 51.97669982910156,
1165
+ "learning_rate": 7.031250000000001e-06,
1166
+ "loss": 5.0091,
1167
+ "step": 1150
1168
+ },
1169
+ {
1170
+ "epoch": 1.102588686481304,
1171
+ "eval_q2q_data_loss": 5.01547384262085,
1172
+ "eval_q2q_data_runtime": 8.5407,
1173
+ "eval_q2q_data_samples_per_second": 316.718,
1174
+ "eval_q2q_data_steps_per_second": 19.905,
1175
+ "step": 1150
1176
+ },
1177
+ {
1178
+ "epoch": 1.102588686481304,
1179
+ "eval_q2p_data_loss": 5.103107929229736,
1180
+ "eval_q2p_data_runtime": 15.3784,
1181
+ "eval_q2p_data_samples_per_second": 52.801,
1182
+ "eval_q2p_data_steps_per_second": 3.316,
1183
+ "step": 1150
1184
+ },
1185
+ {
1186
+ "epoch": 1.112176414189837,
1187
+ "grad_norm": 10.005661010742188,
1188
+ "learning_rate": 6.995738636363637e-06,
1189
+ "loss": 5.0562,
1190
+ "step": 1160
1191
+ },
1192
+ {
1193
+ "epoch": 1.1217641418983701,
1194
+ "grad_norm": 10.467660903930664,
1195
+ "learning_rate": 6.960227272727273e-06,
1196
+ "loss": 5.0129,
1197
+ "step": 1170
1198
+ },
1199
+ {
1200
+ "epoch": 1.1313518696069031,
1201
+ "grad_norm": 7.998090744018555,
1202
+ "learning_rate": 6.92471590909091e-06,
1203
+ "loss": 5.0033,
1204
+ "step": 1180
1205
+ },
1206
+ {
1207
+ "epoch": 1.1409395973154361,
1208
+ "grad_norm": 3.380247116088867,
1209
+ "learning_rate": 6.889204545454547e-06,
1210
+ "loss": 4.9961,
1211
+ "step": 1190
1212
+ },
1213
+ {
1214
+ "epoch": 1.1505273250239694,
1215
+ "grad_norm": 8.895610809326172,
1216
+ "learning_rate": 6.853693181818183e-06,
1217
+ "loss": 4.988,
1218
+ "step": 1200
1219
+ },
1220
+ {
1221
+ "epoch": 1.1505273250239694,
1222
+ "eval_q2q_data_loss": 5.000478744506836,
1223
+ "eval_q2q_data_runtime": 8.5322,
1224
+ "eval_q2q_data_samples_per_second": 317.034,
1225
+ "eval_q2q_data_steps_per_second": 19.924,
1226
+ "step": 1200
1227
+ },
1228
+ {
1229
+ "epoch": 1.1505273250239694,
1230
+ "eval_q2p_data_loss": 5.002507209777832,
1231
+ "eval_q2p_data_runtime": 15.3615,
1232
+ "eval_q2p_data_samples_per_second": 52.859,
1233
+ "eval_q2p_data_steps_per_second": 3.32,
1234
+ "step": 1200
1235
+ },
1236
+ {
1237
+ "epoch": 1.1601150527325024,
1238
+ "grad_norm": 6.491428852081299,
1239
+ "learning_rate": 6.818181818181818e-06,
1240
+ "loss": 4.9687,
1241
+ "step": 1210
1242
+ },
1243
+ {
1244
+ "epoch": 1.1697027804410354,
1245
+ "grad_norm": 4.309035778045654,
1246
+ "learning_rate": 6.7826704545454545e-06,
1247
+ "loss": 4.9824,
1248
+ "step": 1220
1249
+ },
1250
+ {
1251
+ "epoch": 1.1792905081495686,
1252
+ "grad_norm": 2.331423759460449,
1253
+ "learning_rate": 6.747159090909091e-06,
1254
+ "loss": 4.9955,
1255
+ "step": 1230
1256
+ },
1257
+ {
1258
+ "epoch": 1.1888782358581016,
1259
+ "grad_norm": 3.439713954925537,
1260
+ "learning_rate": 6.711647727272728e-06,
1261
+ "loss": 4.9943,
1262
+ "step": 1240
1263
+ },
1264
+ {
1265
+ "epoch": 1.1984659635666346,
1266
+ "grad_norm": 7.992236137390137,
1267
+ "learning_rate": 6.676136363636364e-06,
1268
+ "loss": 5.0552,
1269
+ "step": 1250
1270
+ },
1271
+ {
1272
+ "epoch": 1.1984659635666346,
1273
+ "eval_q2q_data_loss": 5.000186920166016,
1274
+ "eval_q2q_data_runtime": 8.5162,
1275
+ "eval_q2q_data_samples_per_second": 317.629,
1276
+ "eval_q2q_data_steps_per_second": 19.962,
1277
+ "step": 1250
1278
+ },
1279
+ {
1280
+ "epoch": 1.1984659635666346,
1281
+ "eval_q2p_data_loss": 5.000546932220459,
1282
+ "eval_q2p_data_runtime": 15.3961,
1283
+ "eval_q2p_data_samples_per_second": 52.741,
1284
+ "eval_q2p_data_steps_per_second": 3.313,
1285
+ "step": 1250
1286
+ },
1287
+ {
1288
+ "epoch": 1.2080536912751678,
1289
+ "grad_norm": 3.6224541664123535,
1290
+ "learning_rate": 6.6406250000000005e-06,
1291
+ "loss": 5.0073,
1292
+ "step": 1260
1293
+ },
1294
+ {
1295
+ "epoch": 1.2176414189837008,
1296
+ "grad_norm": 1.0430936813354492,
1297
+ "learning_rate": 6.605113636363637e-06,
1298
+ "loss": 4.9928,
1299
+ "step": 1270
1300
+ },
1301
+ {
1302
+ "epoch": 1.2272291466922338,
1303
+ "grad_norm": 3.0630106925964355,
1304
+ "learning_rate": 6.569602272727274e-06,
1305
+ "loss": 5.0183,
1306
+ "step": 1280
1307
+ },
1308
+ {
1309
+ "epoch": 1.236816874400767,
1310
+ "grad_norm": 4.258161544799805,
1311
+ "learning_rate": 6.53409090909091e-06,
1312
+ "loss": 4.9932,
1313
+ "step": 1290
1314
+ },
1315
+ {
1316
+ "epoch": 1.2464046021093,
1317
+ "grad_norm": 2.9531047344207764,
1318
+ "learning_rate": 6.498579545454546e-06,
1319
+ "loss": 4.9737,
1320
+ "step": 1300
1321
+ },
1322
+ {
1323
+ "epoch": 1.2464046021093,
1324
+ "eval_q2q_data_loss": 5.000265121459961,
1325
+ "eval_q2q_data_runtime": 8.5548,
1326
+ "eval_q2q_data_samples_per_second": 316.198,
1327
+ "eval_q2q_data_steps_per_second": 19.872,
1328
+ "step": 1300
1329
+ },
1330
+ {
1331
+ "epoch": 1.2464046021093,
1332
+ "eval_q2p_data_loss": 5.00175142288208,
1333
+ "eval_q2p_data_runtime": 15.3988,
1334
+ "eval_q2p_data_samples_per_second": 52.731,
1335
+ "eval_q2p_data_steps_per_second": 3.312,
1336
+ "step": 1300
1337
+ },
1338
+ {
1339
+ "epoch": 1.255992329817833,
1340
+ "grad_norm": 7.634608745574951,
1341
+ "learning_rate": 6.463068181818183e-06,
1342
+ "loss": 5.012,
1343
+ "step": 1310
1344
+ },
1345
+ {
1346
+ "epoch": 1.2655800575263663,
1347
+ "grad_norm": 10.259374618530273,
1348
+ "learning_rate": 6.427556818181818e-06,
1349
+ "loss": 5.0138,
1350
+ "step": 1320
1351
+ },
1352
+ {
1353
+ "epoch": 1.2751677852348993,
1354
+ "grad_norm": 10.425176620483398,
1355
+ "learning_rate": 6.392045454545454e-06,
1356
+ "loss": 5.0107,
1357
+ "step": 1330
1358
+ },
1359
+ {
1360
+ "epoch": 1.2847555129434325,
1361
+ "grad_norm": 3.6952784061431885,
1362
+ "learning_rate": 6.3565340909090915e-06,
1363
+ "loss": 5.0226,
1364
+ "step": 1340
1365
+ },
1366
+ {
1367
+ "epoch": 1.2943432406519655,
1368
+ "grad_norm": 2.3303303718566895,
1369
+ "learning_rate": 6.321022727272728e-06,
1370
+ "loss": 4.9827,
1371
+ "step": 1350
1372
+ },
1373
+ {
1374
+ "epoch": 1.2943432406519655,
1375
+ "eval_q2q_data_loss": 5.000885009765625,
1376
+ "eval_q2q_data_runtime": 8.4946,
1377
+ "eval_q2q_data_samples_per_second": 318.436,
1378
+ "eval_q2q_data_steps_per_second": 20.013,
1379
+ "step": 1350
1380
+ },
1381
+ {
1382
+ "epoch": 1.2943432406519655,
1383
+ "eval_q2p_data_loss": 5.002125263214111,
1384
+ "eval_q2p_data_runtime": 15.3928,
1385
+ "eval_q2p_data_samples_per_second": 52.752,
1386
+ "eval_q2p_data_steps_per_second": 3.313,
1387
+ "step": 1350
1388
+ },
1389
+ {
1390
+ "epoch": 1.3039309683604985,
1391
+ "grad_norm": 1.1437593698501587,
1392
+ "learning_rate": 6.285511363636364e-06,
1393
+ "loss": 5.0089,
1394
+ "step": 1360
1395
+ },
1396
+ {
1397
+ "epoch": 1.3135186960690317,
1398
+ "grad_norm": 3.3491806983947754,
1399
+ "learning_rate": 6.25e-06,
1400
+ "loss": 4.9869,
1401
+ "step": 1370
1402
+ },
1403
+ {
1404
+ "epoch": 1.3231064237775647,
1405
+ "grad_norm": 4.804921627044678,
1406
+ "learning_rate": 6.2144886363636366e-06,
1407
+ "loss": 5.0178,
1408
+ "step": 1380
1409
+ },
1410
+ {
1411
+ "epoch": 1.332694151486098,
1412
+ "grad_norm": 3.649508476257324,
1413
+ "learning_rate": 6.178977272727274e-06,
1414
+ "loss": 5.0038,
1415
+ "step": 1390
1416
+ },
1417
+ {
1418
+ "epoch": 1.342281879194631,
1419
+ "grad_norm": 3.105538845062256,
1420
+ "learning_rate": 6.14346590909091e-06,
1421
+ "loss": 4.9761,
1422
+ "step": 1400
1423
+ },
1424
+ {
1425
+ "epoch": 1.342281879194631,
1426
+ "eval_q2q_data_loss": 5.000288963317871,
1427
+ "eval_q2q_data_runtime": 8.4946,
1428
+ "eval_q2q_data_samples_per_second": 318.436,
1429
+ "eval_q2q_data_steps_per_second": 20.013,
1430
+ "step": 1400
1431
+ },
1432
+ {
1433
+ "epoch": 1.342281879194631,
1434
+ "eval_q2p_data_loss": 5.000768184661865,
1435
+ "eval_q2p_data_runtime": 15.3448,
1436
+ "eval_q2p_data_samples_per_second": 52.917,
1437
+ "eval_q2p_data_steps_per_second": 3.324,
1438
+ "step": 1400
1439
+ },
1440
+ {
1441
+ "epoch": 1.351869606903164,
1442
+ "grad_norm": 5.388565540313721,
1443
+ "learning_rate": 6.107954545454546e-06,
1444
+ "loss": 5.0025,
1445
+ "step": 1410
1446
+ },
1447
+ {
1448
+ "epoch": 1.3614573346116972,
1449
+ "grad_norm": 4.318077564239502,
1450
+ "learning_rate": 6.0724431818181825e-06,
1451
+ "loss": 4.9973,
1452
+ "step": 1420
1453
+ },
1454
+ {
1455
+ "epoch": 1.3710450623202302,
1456
+ "grad_norm": 5.794456481933594,
1457
+ "learning_rate": 6.036931818181818e-06,
1458
+ "loss": 4.9911,
1459
+ "step": 1430
1460
+ },
1461
+ {
1462
+ "epoch": 1.3806327900287632,
1463
+ "grad_norm": 7.113480567932129,
1464
+ "learning_rate": 6.001420454545455e-06,
1465
+ "loss": 5.0088,
1466
+ "step": 1440
1467
+ },
1468
+ {
1469
+ "epoch": 1.3902205177372964,
1470
+ "grad_norm": 4.235409736633301,
1471
+ "learning_rate": 5.965909090909091e-06,
1472
+ "loss": 4.986,
1473
+ "step": 1450
1474
+ },
1475
+ {
1476
+ "epoch": 1.3902205177372964,
1477
+ "eval_q2q_data_loss": 5.0001349449157715,
1478
+ "eval_q2q_data_runtime": 8.5502,
1479
+ "eval_q2q_data_samples_per_second": 316.366,
1480
+ "eval_q2q_data_steps_per_second": 19.883,
1481
+ "step": 1450
1482
+ },
1483
+ {
1484
+ "epoch": 1.3902205177372964,
1485
+ "eval_q2p_data_loss": 5.000503063201904,
1486
+ "eval_q2p_data_runtime": 15.3601,
1487
+ "eval_q2p_data_samples_per_second": 52.864,
1488
+ "eval_q2p_data_steps_per_second": 3.32,
1489
+ "step": 1450
1490
+ },
1491
+ {
1492
+ "epoch": 1.3998082454458294,
1493
+ "grad_norm": 0.9855827689170837,
1494
+ "learning_rate": 5.930397727272728e-06,
1495
+ "loss": 5.0025,
1496
+ "step": 1460
1497
+ },
1498
+ {
1499
+ "epoch": 1.4093959731543624,
1500
+ "grad_norm": 4.243587017059326,
1501
+ "learning_rate": 5.894886363636364e-06,
1502
+ "loss": 4.9907,
1503
+ "step": 1470
1504
+ },
1505
+ {
1506
+ "epoch": 1.4189837008628956,
1507
+ "grad_norm": 9.807540893554688,
1508
+ "learning_rate": 5.859375e-06,
1509
+ "loss": 5.0012,
1510
+ "step": 1480
1511
+ },
1512
+ {
1513
+ "epoch": 1.4285714285714286,
1514
+ "grad_norm": 3.3579766750335693,
1515
+ "learning_rate": 5.823863636363637e-06,
1516
+ "loss": 4.9928,
1517
+ "step": 1490
1518
+ },
1519
+ {
1520
+ "epoch": 1.4381591562799616,
1521
+ "grad_norm": 2.363482713699341,
1522
+ "learning_rate": 5.7883522727272735e-06,
1523
+ "loss": 4.9955,
1524
+ "step": 1500
1525
+ },
1526
+ {
1527
+ "epoch": 1.4381591562799616,
1528
+ "eval_q2q_data_loss": 5.000216960906982,
1529
+ "eval_q2q_data_runtime": 8.5231,
1530
+ "eval_q2q_data_samples_per_second": 317.374,
1531
+ "eval_q2q_data_steps_per_second": 19.946,
1532
+ "step": 1500
1533
+ },
1534
+ {
1535
+ "epoch": 1.4381591562799616,
1536
+ "eval_q2p_data_loss": 5.000642776489258,
1537
+ "eval_q2p_data_runtime": 15.3802,
1538
+ "eval_q2p_data_samples_per_second": 52.795,
1539
+ "eval_q2p_data_steps_per_second": 3.316,
1540
+ "step": 1500
1541
+ },
1542
+ {
1543
+ "epoch": 1.4477468839884948,
1544
+ "grad_norm": 2.8971104621887207,
1545
+ "learning_rate": 5.75284090909091e-06,
1546
+ "loss": 4.9952,
1547
+ "step": 1510
1548
+ },
1549
+ {
1550
+ "epoch": 1.4573346116970278,
1551
+ "grad_norm": 4.56306266784668,
1552
+ "learning_rate": 5.717329545454546e-06,
1553
+ "loss": 4.9875,
1554
+ "step": 1520
1555
+ },
1556
+ {
1557
+ "epoch": 1.4669223394055608,
1558
+ "grad_norm": 3.592824935913086,
1559
+ "learning_rate": 5.681818181818183e-06,
1560
+ "loss": 5.0027,
1561
+ "step": 1530
1562
+ },
1563
+ {
1564
+ "epoch": 1.476510067114094,
1565
+ "grad_norm": 6.926996231079102,
1566
+ "learning_rate": 5.646306818181818e-06,
1567
+ "loss": 4.963,
1568
+ "step": 1540
1569
+ },
1570
+ {
1571
+ "epoch": 1.486097794822627,
1572
+ "grad_norm": 8.679203987121582,
1573
+ "learning_rate": 5.610795454545455e-06,
1574
+ "loss": 4.9662,
1575
+ "step": 1550
1576
+ },
1577
+ {
1578
+ "epoch": 1.486097794822627,
1579
+ "eval_q2q_data_loss": 5.001591205596924,
1580
+ "eval_q2q_data_runtime": 8.4686,
1581
+ "eval_q2q_data_samples_per_second": 319.414,
1582
+ "eval_q2q_data_steps_per_second": 20.074,
1583
+ "step": 1550
1584
+ },
1585
+ {
1586
+ "epoch": 1.486097794822627,
1587
+ "eval_q2p_data_loss": 5.006067276000977,
1588
+ "eval_q2p_data_runtime": 15.3614,
1589
+ "eval_q2p_data_samples_per_second": 52.86,
1590
+ "eval_q2p_data_steps_per_second": 3.32,
1591
+ "step": 1550
1592
+ },
1593
+ {
1594
+ "epoch": 1.49568552253116,
1595
+ "grad_norm": 11.07398796081543,
1596
+ "learning_rate": 5.575284090909091e-06,
1597
+ "loss": 4.9284,
1598
+ "step": 1560
1599
+ },
1600
+ {
1601
+ "epoch": 1.5052732502396933,
1602
+ "grad_norm": 13.813140869140625,
1603
+ "learning_rate": 5.539772727272727e-06,
1604
+ "loss": 4.9773,
1605
+ "step": 1570
1606
+ },
1607
+ {
1608
+ "epoch": 1.5148609779482263,
1609
+ "grad_norm": 32.947540283203125,
1610
+ "learning_rate": 5.504261363636364e-06,
1611
+ "loss": 5.0154,
1612
+ "step": 1580
1613
+ },
1614
+ {
1615
+ "epoch": 1.5244487056567593,
1616
+ "grad_norm": 57.005271911621094,
1617
+ "learning_rate": 5.468750000000001e-06,
1618
+ "loss": 4.9956,
1619
+ "step": 1590
1620
+ },
1621
+ {
1622
+ "epoch": 1.5340364333652925,
1623
+ "grad_norm": 21.25840187072754,
1624
+ "learning_rate": 5.433238636363637e-06,
1625
+ "loss": 5.0147,
1626
+ "step": 1600
1627
+ },
1628
+ {
1629
+ "epoch": 1.5340364333652925,
1630
+ "eval_q2q_data_loss": 5.015188694000244,
1631
+ "eval_q2q_data_runtime": 8.4996,
1632
+ "eval_q2q_data_samples_per_second": 318.25,
1633
+ "eval_q2q_data_steps_per_second": 20.001,
1634
+ "step": 1600
1635
+ },
1636
+ {
1637
+ "epoch": 1.5340364333652925,
1638
+ "eval_q2p_data_loss": 5.062190532684326,
1639
+ "eval_q2p_data_runtime": 15.3191,
1640
+ "eval_q2p_data_samples_per_second": 53.006,
1641
+ "eval_q2p_data_steps_per_second": 3.329,
1642
+ "step": 1600
1643
+ },
1644
+ {
1645
+ "epoch": 1.5436241610738255,
1646
+ "grad_norm": 23.927370071411133,
1647
+ "learning_rate": 5.397727272727273e-06,
1648
+ "loss": 5.0216,
1649
+ "step": 1610
1650
+ },
1651
+ {
1652
+ "epoch": 1.5532118887823585,
1653
+ "grad_norm": 29.68376350402832,
1654
+ "learning_rate": 5.36221590909091e-06,
1655
+ "loss": 5.0276,
1656
+ "step": 1620
1657
+ },
1658
+ {
1659
+ "epoch": 1.5627996164908917,
1660
+ "grad_norm": 56.62722396850586,
1661
+ "learning_rate": 5.326704545454546e-06,
1662
+ "loss": 5.0115,
1663
+ "step": 1630
1664
+ },
1665
+ {
1666
+ "epoch": 1.5723873441994247,
1667
+ "grad_norm": 30.375343322753906,
1668
+ "learning_rate": 5.291193181818183e-06,
1669
+ "loss": 4.9836,
1670
+ "step": 1640
1671
+ },
1672
+ {
1673
+ "epoch": 1.5819750719079577,
1674
+ "grad_norm": 7.980493068695068,
1675
+ "learning_rate": 5.255681818181818e-06,
1676
+ "loss": 5.0171,
1677
+ "step": 1650
1678
+ },
1679
+ {
1680
+ "epoch": 1.5819750719079577,
1681
+ "eval_q2q_data_loss": 5.000085353851318,
1682
+ "eval_q2q_data_runtime": 8.4882,
1683
+ "eval_q2q_data_samples_per_second": 318.678,
1684
+ "eval_q2q_data_steps_per_second": 20.028,
1685
+ "step": 1650
1686
+ },
1687
+ {
1688
+ "epoch": 1.5819750719079577,
1689
+ "eval_q2p_data_loss": 5.002185821533203,
1690
+ "eval_q2p_data_runtime": 15.3825,
1691
+ "eval_q2p_data_samples_per_second": 52.787,
1692
+ "eval_q2p_data_steps_per_second": 3.315,
1693
+ "step": 1650
1694
+ },
1695
+ {
1696
+ "epoch": 1.591562799616491,
1697
+ "grad_norm": 12.629569053649902,
1698
+ "learning_rate": 5.220170454545455e-06,
1699
+ "loss": 5.0266,
1700
+ "step": 1660
1701
+ },
1702
+ {
1703
+ "epoch": 1.601150527325024,
1704
+ "grad_norm": 26.266088485717773,
1705
+ "learning_rate": 5.184659090909091e-06,
1706
+ "loss": 4.9617,
1707
+ "step": 1670
1708
+ },
1709
+ {
1710
+ "epoch": 1.610738255033557,
1711
+ "grad_norm": 12.034894943237305,
1712
+ "learning_rate": 5.149147727272727e-06,
1713
+ "loss": 4.9691,
1714
+ "step": 1680
1715
+ },
1716
+ {
1717
+ "epoch": 1.6203259827420902,
1718
+ "grad_norm": 27.641963958740234,
1719
+ "learning_rate": 5.113636363636364e-06,
1720
+ "loss": 5.0004,
1721
+ "step": 1690
1722
+ },
1723
+ {
1724
+ "epoch": 1.6299137104506232,
1725
+ "grad_norm": 30.945240020751953,
1726
+ "learning_rate": 5.078125000000001e-06,
1727
+ "loss": 5.0173,
1728
+ "step": 1700
1729
+ },
1730
+ {
1731
+ "epoch": 1.6299137104506232,
1732
+ "eval_q2q_data_loss": 5.039857387542725,
1733
+ "eval_q2q_data_runtime": 8.4631,
1734
+ "eval_q2q_data_samples_per_second": 319.624,
1735
+ "eval_q2q_data_steps_per_second": 20.087,
1736
+ "step": 1700
1737
+ },
1738
+ {
1739
+ "epoch": 1.6299137104506232,
1740
+ "eval_q2p_data_loss": 5.0407586097717285,
1741
+ "eval_q2p_data_runtime": 15.3308,
1742
+ "eval_q2p_data_samples_per_second": 52.965,
1743
+ "eval_q2p_data_steps_per_second": 3.327,
1744
+ "step": 1700
1745
+ },
1746
+ {
1747
+ "epoch": 1.6395014381591562,
1748
+ "grad_norm": 38.697303771972656,
1749
+ "learning_rate": 5.042613636363637e-06,
1750
+ "loss": 4.9824,
1751
+ "step": 1710
1752
+ },
1753
+ {
1754
+ "epoch": 1.6490891658676894,
1755
+ "grad_norm": 1.1715205907821655,
1756
+ "learning_rate": 5.007102272727273e-06,
1757
+ "loss": 5.0099,
1758
+ "step": 1720
1759
+ },
1760
+ {
1761
+ "epoch": 1.6586768935762224,
1762
+ "grad_norm": 1.030447006225586,
1763
+ "learning_rate": 4.9715909090909094e-06,
1764
+ "loss": 5.003,
1765
+ "step": 1730
1766
+ },
1767
+ {
1768
+ "epoch": 1.6682646212847554,
1769
+ "grad_norm": 0.6143599152565002,
1770
+ "learning_rate": 4.936079545454546e-06,
1771
+ "loss": 5.0039,
1772
+ "step": 1740
1773
+ },
1774
+ {
1775
+ "epoch": 1.6778523489932886,
1776
+ "grad_norm": 0.31595391035079956,
1777
+ "learning_rate": 4.900568181818182e-06,
1778
+ "loss": 5.0031,
1779
+ "step": 1750
1780
+ },
1781
+ {
1782
+ "epoch": 1.6778523489932886,
1783
+ "eval_q2q_data_loss": 5.0020527839660645,
1784
+ "eval_q2q_data_runtime": 8.472,
1785
+ "eval_q2q_data_samples_per_second": 319.285,
1786
+ "eval_q2q_data_steps_per_second": 20.066,
1787
+ "step": 1750
1788
+ },
1789
+ {
1790
+ "epoch": 1.6778523489932886,
1791
+ "eval_q2p_data_loss": 5.010634422302246,
1792
+ "eval_q2p_data_runtime": 15.3164,
1793
+ "eval_q2p_data_samples_per_second": 53.015,
1794
+ "eval_q2p_data_steps_per_second": 3.33,
1795
+ "step": 1750
1796
+ },
1797
+ {
1798
+ "epoch": 1.6874400767018218,
1799
+ "grad_norm": 0.3842555284500122,
1800
+ "learning_rate": 4.865056818181818e-06,
1801
+ "loss": 4.9992,
1802
+ "step": 1760
1803
+ },
1804
+ {
1805
+ "epoch": 1.6970278044103546,
1806
+ "grad_norm": 0.3934996426105499,
1807
+ "learning_rate": 4.829545454545455e-06,
1808
+ "loss": 4.9997,
1809
+ "step": 1770
1810
+ },
1811
+ {
1812
+ "epoch": 1.7066155321188878,
1813
+ "grad_norm": 0.3144057095050812,
1814
+ "learning_rate": 4.794034090909092e-06,
1815
+ "loss": 4.9999,
1816
+ "step": 1780
1817
+ },
1818
+ {
1819
+ "epoch": 1.716203259827421,
1820
+ "grad_norm": 0.33490219712257385,
1821
+ "learning_rate": 4.758522727272727e-06,
1822
+ "loss": 5.0022,
1823
+ "step": 1790
1824
+ },
1825
+ {
1826
+ "epoch": 1.7257909875359538,
1827
+ "grad_norm": 0.35593223571777344,
1828
+ "learning_rate": 4.723011363636364e-06,
1829
+ "loss": 4.9988,
1830
+ "step": 1800
1831
+ },
1832
+ {
1833
+ "epoch": 1.7257909875359538,
1834
+ "eval_q2q_data_loss": 5.001664638519287,
1835
+ "eval_q2q_data_runtime": 8.4874,
1836
+ "eval_q2q_data_samples_per_second": 318.706,
1837
+ "eval_q2q_data_steps_per_second": 20.03,
1838
+ "step": 1800
1839
+ },
1840
+ {
1841
+ "epoch": 1.7257909875359538,
1842
+ "eval_q2p_data_loss": 5.009975433349609,
1843
+ "eval_q2p_data_runtime": 15.3185,
1844
+ "eval_q2p_data_samples_per_second": 53.008,
1845
+ "eval_q2p_data_steps_per_second": 3.329,
1846
+ "step": 1800
1847
+ },
1848
+ {
1849
+ "epoch": 1.735378715244487,
1850
+ "grad_norm": 0.5832622051239014,
1851
+ "learning_rate": 4.6875000000000004e-06,
1852
+ "loss": 4.9987,
1853
+ "step": 1810
1854
+ },
1855
+ {
1856
+ "epoch": 1.7449664429530203,
1857
+ "grad_norm": 0.4001566171646118,
1858
+ "learning_rate": 4.651988636363637e-06,
1859
+ "loss": 5.0029,
1860
+ "step": 1820
1861
+ },
1862
+ {
1863
+ "epoch": 1.754554170661553,
1864
+ "grad_norm": 1.2833226919174194,
1865
+ "learning_rate": 4.616477272727273e-06,
1866
+ "loss": 4.9949,
1867
+ "step": 1830
1868
+ },
1869
+ {
1870
+ "epoch": 1.7641418983700863,
1871
+ "grad_norm": 0.7543688416481018,
1872
+ "learning_rate": 4.580965909090909e-06,
1873
+ "loss": 4.999,
1874
+ "step": 1840
1875
+ },
1876
+ {
1877
+ "epoch": 1.7737296260786195,
1878
+ "grad_norm": 0.7849061489105225,
1879
+ "learning_rate": 4.5454545454545455e-06,
1880
+ "loss": 5.0017,
1881
+ "step": 1850
1882
+ },
1883
+ {
1884
+ "epoch": 1.7737296260786195,
1885
+ "eval_q2q_data_loss": 5.003254413604736,
1886
+ "eval_q2q_data_runtime": 8.5165,
1887
+ "eval_q2q_data_samples_per_second": 317.618,
1888
+ "eval_q2q_data_steps_per_second": 19.961,
1889
+ "step": 1850
1890
+ },
1891
+ {
1892
+ "epoch": 1.7737296260786195,
1893
+ "eval_q2p_data_loss": 4.987276077270508,
1894
+ "eval_q2p_data_runtime": 15.3548,
1895
+ "eval_q2p_data_samples_per_second": 52.882,
1896
+ "eval_q2p_data_steps_per_second": 3.321,
1897
+ "step": 1850
1898
+ },
1899
+ {
1900
+ "epoch": 1.7833173537871523,
1901
+ "grad_norm": 12.080714225769043,
1902
+ "learning_rate": 4.509943181818182e-06,
1903
+ "loss": 4.9866,
1904
+ "step": 1860
1905
+ },
1906
+ {
1907
+ "epoch": 1.7929050814956855,
1908
+ "grad_norm": 1.030135989189148,
1909
+ "learning_rate": 4.474431818181819e-06,
1910
+ "loss": 4.9976,
1911
+ "step": 1870
1912
+ },
1913
+ {
1914
+ "epoch": 1.8024928092042187,
1915
+ "grad_norm": 2.636124610900879,
1916
+ "learning_rate": 4.438920454545455e-06,
1917
+ "loss": 4.9784,
1918
+ "step": 1880
1919
+ },
1920
+ {
1921
+ "epoch": 1.8120805369127517,
1922
+ "grad_norm": 51.49758529663086,
1923
+ "learning_rate": 4.4034090909090914e-06,
1924
+ "loss": 4.9824,
1925
+ "step": 1890
1926
+ },
1927
+ {
1928
+ "epoch": 1.8216682646212847,
1929
+ "grad_norm": 59.32814025878906,
1930
+ "learning_rate": 4.367897727272728e-06,
1931
+ "loss": 4.9945,
1932
+ "step": 1900
1933
+ },
1934
+ {
1935
+ "epoch": 1.8216682646212847,
1936
+ "eval_q2q_data_loss": 5.014230251312256,
1937
+ "eval_q2q_data_runtime": 8.519,
1938
+ "eval_q2q_data_samples_per_second": 317.527,
1939
+ "eval_q2q_data_steps_per_second": 19.955,
1940
+ "step": 1900
1941
+ },
1942
+ {
1943
+ "epoch": 1.8216682646212847,
1944
+ "eval_q2p_data_loss": 5.155740737915039,
1945
+ "eval_q2p_data_runtime": 15.3763,
1946
+ "eval_q2p_data_samples_per_second": 52.808,
1947
+ "eval_q2p_data_steps_per_second": 3.317,
1948
+ "step": 1900
1949
+ },
1950
+ {
1951
+ "epoch": 1.831255992329818,
1952
+ "grad_norm": 10.061817169189453,
1953
+ "learning_rate": 4.332386363636364e-06,
1954
+ "loss": 4.9445,
1955
+ "step": 1910
1956
+ },
1957
+ {
1958
+ "epoch": 1.840843720038351,
1959
+ "grad_norm": 1.1698871850967407,
1960
+ "learning_rate": 4.296875e-06,
1961
+ "loss": 4.9477,
1962
+ "step": 1920
1963
+ },
1964
+ {
1965
+ "epoch": 1.850431447746884,
1966
+ "grad_norm": 0.6934572458267212,
1967
+ "learning_rate": 4.2613636363636365e-06,
1968
+ "loss": 5.0047,
1969
+ "step": 1930
1970
+ },
1971
+ {
1972
+ "epoch": 1.8600191754554172,
1973
+ "grad_norm": 18.0229434967041,
1974
+ "learning_rate": 4.225852272727274e-06,
1975
+ "loss": 4.9307,
1976
+ "step": 1940
1977
+ },
1978
+ {
1979
+ "epoch": 1.8696069031639502,
1980
+ "grad_norm": 8.73933219909668,
1981
+ "learning_rate": 4.190340909090909e-06,
1982
+ "loss": 4.9634,
1983
+ "step": 1950
1984
+ },
1985
+ {
1986
+ "epoch": 1.8696069031639502,
1987
+ "eval_q2q_data_loss": 5.002269268035889,
1988
+ "eval_q2q_data_runtime": 8.4962,
1989
+ "eval_q2q_data_samples_per_second": 318.378,
1990
+ "eval_q2q_data_steps_per_second": 20.009,
1991
+ "step": 1950
1992
+ },
1993
+ {
1994
+ "epoch": 1.8696069031639502,
1995
+ "eval_q2p_data_loss": 4.8260931968688965,
1996
+ "eval_q2p_data_runtime": 15.3516,
1997
+ "eval_q2p_data_samples_per_second": 52.894,
1998
+ "eval_q2p_data_steps_per_second": 3.322,
1999
+ "step": 1950
2000
+ },
2001
+ {
2002
+ "epoch": 1.8791946308724832,
2003
+ "grad_norm": 1.5762324333190918,
2004
+ "learning_rate": 4.154829545454545e-06,
2005
+ "loss": 4.9791,
2006
+ "step": 1960
2007
+ },
2008
+ {
2009
+ "epoch": 1.8887823585810164,
2010
+ "grad_norm": 0.3121432363986969,
2011
+ "learning_rate": 4.1193181818181825e-06,
2012
+ "loss": 4.9792,
2013
+ "step": 1970
2014
+ },
2015
+ {
2016
+ "epoch": 1.8983700862895494,
2017
+ "grad_norm": 1.5927631855010986,
2018
+ "learning_rate": 4.083806818181819e-06,
2019
+ "loss": 4.9041,
2020
+ "step": 1980
2021
+ },
2022
+ {
2023
+ "epoch": 1.9079578139980824,
2024
+ "grad_norm": 14.304738998413086,
2025
+ "learning_rate": 4.048295454545455e-06,
2026
+ "loss": 4.9349,
2027
+ "step": 1990
2028
+ },
2029
+ {
2030
+ "epoch": 1.9175455417066156,
2031
+ "grad_norm": 0.2702763080596924,
2032
+ "learning_rate": 4.012784090909091e-06,
2033
+ "loss": 4.8942,
2034
+ "step": 2000
2035
+ },
2036
+ {
2037
+ "epoch": 1.9175455417066156,
2038
+ "eval_q2q_data_loss": 5.001285076141357,
2039
+ "eval_q2q_data_runtime": 8.47,
2040
+ "eval_q2q_data_samples_per_second": 319.362,
2041
+ "eval_q2q_data_steps_per_second": 20.071,
2042
+ "step": 2000
2043
+ },
2044
+ {
2045
+ "epoch": 1.9175455417066156,
2046
+ "eval_q2p_data_loss": 4.750080585479736,
2047
+ "eval_q2p_data_runtime": 15.3459,
2048
+ "eval_q2p_data_samples_per_second": 52.913,
2049
+ "eval_q2p_data_steps_per_second": 3.323,
2050
+ "step": 2000
2051
+ },
2052
+ {
2053
+ "epoch": 1.9271332694151486,
2054
+ "grad_norm": 0.2623966634273529,
2055
+ "learning_rate": 3.9772727272727275e-06,
2056
+ "loss": 4.9871,
2057
+ "step": 2010
2058
+ },
2059
+ {
2060
+ "epoch": 1.9367209971236816,
2061
+ "grad_norm": 0.24292069673538208,
2062
+ "learning_rate": 3.941761363636364e-06,
2063
+ "loss": 4.9631,
2064
+ "step": 2020
2065
+ },
2066
+ {
2067
+ "epoch": 1.9463087248322148,
2068
+ "grad_norm": 0.2756921947002411,
2069
+ "learning_rate": 3.90625e-06,
2070
+ "loss": 4.9604,
2071
+ "step": 2030
2072
+ },
2073
+ {
2074
+ "epoch": 1.9558964525407478,
2075
+ "grad_norm": 0.2825332581996918,
2076
+ "learning_rate": 3.870738636363637e-06,
2077
+ "loss": 4.9346,
2078
+ "step": 2040
2079
+ },
2080
+ {
2081
+ "epoch": 1.9654841802492808,
2082
+ "grad_norm": 0.2173183411359787,
2083
+ "learning_rate": 3.8352272727272735e-06,
2084
+ "loss": 4.9398,
2085
+ "step": 2050
2086
+ },
2087
+ {
2088
+ "epoch": 1.9654841802492808,
2089
+ "eval_q2q_data_loss": 5.001183032989502,
2090
+ "eval_q2q_data_runtime": 8.5081,
2091
+ "eval_q2q_data_samples_per_second": 317.931,
2092
+ "eval_q2q_data_steps_per_second": 19.981,
2093
+ "step": 2050
2094
+ },
2095
+ {
2096
+ "epoch": 1.9654841802492808,
2097
+ "eval_q2p_data_loss": 4.761696815490723,
2098
+ "eval_q2p_data_runtime": 15.3478,
2099
+ "eval_q2p_data_samples_per_second": 52.907,
2100
+ "eval_q2p_data_steps_per_second": 3.323,
2101
+ "step": 2050
2102
+ },
2103
+ {
2104
+ "epoch": 1.975071907957814,
2105
+ "grad_norm": 16.142738342285156,
2106
+ "learning_rate": 3.7997159090909093e-06,
2107
+ "loss": 4.9262,
2108
+ "step": 2060
2109
+ },
2110
+ {
2111
+ "epoch": 1.984659635666347,
2112
+ "grad_norm": 0.2226814180612564,
2113
+ "learning_rate": 3.7642045454545456e-06,
2114
+ "loss": 4.9505,
2115
+ "step": 2070
2116
+ },
2117
+ {
2118
+ "epoch": 1.99424736337488,
2119
+ "grad_norm": 0.22450749576091766,
2120
+ "learning_rate": 3.7286931818181823e-06,
2121
+ "loss": 4.9667,
2122
+ "step": 2080
2123
+ },
2124
+ {
2125
+ "epoch": 2.0038350910834133,
2126
+ "grad_norm": 18.707637786865234,
2127
+ "learning_rate": 3.6931818181818186e-06,
2128
+ "loss": 4.8763,
2129
+ "step": 2090
2130
+ },
2131
+ {
2132
+ "epoch": 2.0134228187919465,
2133
+ "grad_norm": 0.2756267189979553,
2134
+ "learning_rate": 3.657670454545455e-06,
2135
+ "loss": 4.9116,
2136
+ "step": 2100
2137
+ },
2138
+ {
2139
+ "epoch": 2.0134228187919465,
2140
+ "eval_q2q_data_loss": 5.001041412353516,
2141
+ "eval_q2q_data_runtime": 8.4882,
2142
+ "eval_q2q_data_samples_per_second": 318.678,
2143
+ "eval_q2q_data_steps_per_second": 20.028,
2144
+ "step": 2100
2145
+ },
2146
+ {
2147
+ "epoch": 2.0134228187919465,
2148
+ "eval_q2p_data_loss": 4.771986961364746,
2149
+ "eval_q2p_data_runtime": 15.3318,
2150
+ "eval_q2p_data_samples_per_second": 52.962,
2151
+ "eval_q2p_data_steps_per_second": 3.326,
2152
+ "step": 2100
2153
+ },
2154
+ {
2155
+ "epoch": 2.0230105465004793,
2156
+ "grad_norm": 0.19571331143379211,
2157
+ "learning_rate": 3.6221590909090915e-06,
2158
+ "loss": 4.9367,
2159
+ "step": 2110
2160
+ },
2161
+ {
2162
+ "epoch": 2.0325982742090125,
2163
+ "grad_norm": 0.21739406883716583,
2164
+ "learning_rate": 3.5866477272727274e-06,
2165
+ "loss": 4.9546,
2166
+ "step": 2120
2167
+ },
2168
+ {
2169
+ "epoch": 2.0421860019175457,
2170
+ "grad_norm": 1.4178483486175537,
2171
+ "learning_rate": 3.5511363636363636e-06,
2172
+ "loss": 4.9743,
2173
+ "step": 2130
2174
+ },
2175
+ {
2176
+ "epoch": 2.0517737296260785,
2177
+ "grad_norm": 0.20393171906471252,
2178
+ "learning_rate": 3.5156250000000003e-06,
2179
+ "loss": 4.9795,
2180
+ "step": 2140
2181
+ },
2182
+ {
2183
+ "epoch": 2.0613614573346117,
2184
+ "grad_norm": 0.18679551780223846,
2185
+ "learning_rate": 3.4801136363636366e-06,
2186
+ "loss": 4.9647,
2187
+ "step": 2150
2188
+ },
2189
+ {
2190
+ "epoch": 2.0613614573346117,
2191
+ "eval_q2q_data_loss": 5.0010271072387695,
2192
+ "eval_q2q_data_runtime": 8.5086,
2193
+ "eval_q2q_data_samples_per_second": 317.913,
2194
+ "eval_q2q_data_steps_per_second": 19.98,
2195
+ "step": 2150
2196
+ },
2197
+ {
2198
+ "epoch": 2.0613614573346117,
2199
+ "eval_q2p_data_loss": 4.773245811462402,
2200
+ "eval_q2p_data_runtime": 15.3323,
2201
+ "eval_q2p_data_samples_per_second": 52.96,
2202
+ "eval_q2p_data_steps_per_second": 3.326,
2203
+ "step": 2150
2204
+ },
2205
+ {
2206
+ "epoch": 2.070949185043145,
2207
+ "grad_norm": 10.774163246154785,
2208
+ "learning_rate": 3.4446022727272733e-06,
2209
+ "loss": 4.9856,
2210
+ "step": 2160
2211
+ },
2212
+ {
2213
+ "epoch": 2.0805369127516777,
2214
+ "grad_norm": 0.229711651802063,
2215
+ "learning_rate": 3.409090909090909e-06,
2216
+ "loss": 4.9553,
2217
+ "step": 2170
2218
+ },
2219
+ {
2220
+ "epoch": 2.090124640460211,
2221
+ "grad_norm": 12.86821174621582,
2222
+ "learning_rate": 3.3735795454545454e-06,
2223
+ "loss": 4.9479,
2224
+ "step": 2180
2225
+ },
2226
+ {
2227
+ "epoch": 2.099712368168744,
2228
+ "grad_norm": 0.19190755486488342,
2229
+ "learning_rate": 3.338068181818182e-06,
2230
+ "loss": 4.9672,
2231
+ "step": 2190
2232
+ },
2233
+ {
2234
+ "epoch": 2.109300095877277,
2235
+ "grad_norm": 6.124110698699951,
2236
+ "learning_rate": 3.3025568181818184e-06,
2237
+ "loss": 4.9645,
2238
+ "step": 2200
2239
+ },
2240
+ {
2241
+ "epoch": 2.109300095877277,
2242
+ "eval_q2q_data_loss": 5.001131057739258,
2243
+ "eval_q2q_data_runtime": 8.4876,
2244
+ "eval_q2q_data_samples_per_second": 318.702,
2245
+ "eval_q2q_data_steps_per_second": 20.029,
2246
+ "step": 2200
2247
+ },
2248
+ {
2249
+ "epoch": 2.109300095877277,
2250
+ "eval_q2p_data_loss": 4.75758171081543,
2251
+ "eval_q2p_data_runtime": 15.4135,
2252
+ "eval_q2p_data_samples_per_second": 52.681,
2253
+ "eval_q2p_data_steps_per_second": 3.309,
2254
+ "step": 2200
2255
+ },
2256
+ {
2257
+ "epoch": 2.11888782358581,
2258
+ "grad_norm": 3.4443752765655518,
2259
+ "learning_rate": 3.267045454545455e-06,
2260
+ "loss": 4.9299,
2261
+ "step": 2210
2262
+ },
2263
+ {
2264
+ "epoch": 2.1284755512943434,
2265
+ "grad_norm": 0.27355676889419556,
2266
+ "learning_rate": 3.2315340909090913e-06,
2267
+ "loss": 4.9777,
2268
+ "step": 2220
2269
+ },
2270
+ {
2271
+ "epoch": 2.138063279002876,
2272
+ "grad_norm": 6.125870227813721,
2273
+ "learning_rate": 3.196022727272727e-06,
2274
+ "loss": 4.94,
2275
+ "step": 2230
2276
+ },
2277
+ {
2278
+ "epoch": 2.1476510067114094,
2279
+ "grad_norm": 23.490581512451172,
2280
+ "learning_rate": 3.160511363636364e-06,
2281
+ "loss": 4.978,
2282
+ "step": 2240
2283
+ },
2284
+ {
2285
+ "epoch": 2.1572387344199426,
2286
+ "grad_norm": 9.1142578125,
2287
+ "learning_rate": 3.125e-06,
2288
+ "loss": 4.968,
2289
+ "step": 2250
2290
+ },
2291
+ {
2292
+ "epoch": 2.1572387344199426,
2293
+ "eval_q2q_data_loss": 4.999406814575195,
2294
+ "eval_q2q_data_runtime": 8.4764,
2295
+ "eval_q2q_data_samples_per_second": 319.121,
2296
+ "eval_q2q_data_steps_per_second": 20.056,
2297
+ "step": 2250
2298
+ },
2299
+ {
2300
+ "epoch": 2.1572387344199426,
2301
+ "eval_q2p_data_loss": 4.755669116973877,
2302
+ "eval_q2p_data_runtime": 15.4053,
2303
+ "eval_q2p_data_samples_per_second": 52.709,
2304
+ "eval_q2p_data_steps_per_second": 3.311,
2305
+ "step": 2250
2306
+ },
2307
+ {
2308
+ "epoch": 2.1668264621284754,
2309
+ "grad_norm": 0.5820243954658508,
2310
+ "learning_rate": 3.089488636363637e-06,
2311
+ "loss": 4.9512,
2312
+ "step": 2260
2313
+ },
2314
+ {
2315
+ "epoch": 2.1764141898370086,
2316
+ "grad_norm": 0.20500487089157104,
2317
+ "learning_rate": 3.053977272727273e-06,
2318
+ "loss": 4.9539,
2319
+ "step": 2270
2320
+ },
2321
+ {
2322
+ "epoch": 2.186001917545542,
2323
+ "grad_norm": 0.18161769211292267,
2324
+ "learning_rate": 3.018465909090909e-06,
2325
+ "loss": 4.9508,
2326
+ "step": 2280
2327
+ },
2328
+ {
2329
+ "epoch": 2.1955896452540746,
2330
+ "grad_norm": 0.19371207058429718,
2331
+ "learning_rate": 2.9829545454545457e-06,
2332
+ "loss": 4.8871,
2333
+ "step": 2290
2334
+ },
2335
+ {
2336
+ "epoch": 2.205177372962608,
2337
+ "grad_norm": 0.2863902747631073,
2338
+ "learning_rate": 2.947443181818182e-06,
2339
+ "loss": 4.909,
2340
+ "step": 2300
2341
+ },
2342
+ {
2343
+ "epoch": 2.205177372962608,
2344
+ "eval_q2q_data_loss": 5.001042366027832,
2345
+ "eval_q2q_data_runtime": 8.4998,
2346
+ "eval_q2q_data_samples_per_second": 318.244,
2347
+ "eval_q2q_data_steps_per_second": 20.001,
2348
+ "step": 2300
2349
+ },
2350
+ {
2351
+ "epoch": 2.205177372962608,
2352
+ "eval_q2p_data_loss": 4.744427680969238,
2353
+ "eval_q2p_data_runtime": 15.3338,
2354
+ "eval_q2p_data_samples_per_second": 52.955,
2355
+ "eval_q2p_data_steps_per_second": 3.326,
2356
+ "step": 2300
2357
+ },
2358
+ {
2359
+ "epoch": 2.214765100671141,
2360
+ "grad_norm": 0.21279603242874146,
2361
+ "learning_rate": 2.9119318181818186e-06,
2362
+ "loss": 4.9587,
2363
+ "step": 2310
2364
+ },
2365
+ {
2366
+ "epoch": 2.224352828379674,
2367
+ "grad_norm": 0.18541747331619263,
2368
+ "learning_rate": 2.876420454545455e-06,
2369
+ "loss": 4.8956,
2370
+ "step": 2320
2371
+ },
2372
+ {
2373
+ "epoch": 2.233940556088207,
2374
+ "grad_norm": 0.22428183257579803,
2375
+ "learning_rate": 2.8409090909090916e-06,
2376
+ "loss": 4.9891,
2377
+ "step": 2330
2378
+ },
2379
+ {
2380
+ "epoch": 2.2435282837967403,
2381
+ "grad_norm": 12.067822456359863,
2382
+ "learning_rate": 2.8053977272727274e-06,
2383
+ "loss": 4.8795,
2384
+ "step": 2340
2385
+ },
2386
+ {
2387
+ "epoch": 2.253116011505273,
2388
+ "grad_norm": 7.028346061706543,
2389
+ "learning_rate": 2.7698863636363637e-06,
2390
+ "loss": 4.887,
2391
+ "step": 2350
2392
+ },
2393
+ {
2394
+ "epoch": 2.253116011505273,
2395
+ "eval_q2q_data_loss": 5.001026630401611,
2396
+ "eval_q2q_data_runtime": 8.487,
2397
+ "eval_q2q_data_samples_per_second": 318.721,
2398
+ "eval_q2q_data_steps_per_second": 20.031,
2399
+ "step": 2350
2400
+ },
2401
+ {
2402
+ "epoch": 2.253116011505273,
2403
+ "eval_q2p_data_loss": 4.744780540466309,
2404
+ "eval_q2p_data_runtime": 15.3798,
2405
+ "eval_q2p_data_samples_per_second": 52.796,
2406
+ "eval_q2p_data_steps_per_second": 3.316,
2407
+ "step": 2350
2408
+ },
2409
+ {
2410
+ "epoch": 2.2627037392138063,
2411
+ "grad_norm": 0.15497416257858276,
2412
+ "learning_rate": 2.7343750000000004e-06,
2413
+ "loss": 4.9723,
2414
+ "step": 2360
2415
+ },
2416
+ {
2417
+ "epoch": 2.2722914669223395,
2418
+ "grad_norm": 0.14897240698337555,
2419
+ "learning_rate": 2.6988636363636367e-06,
2420
+ "loss": 4.8967,
2421
+ "step": 2370
2422
+ },
2423
+ {
2424
+ "epoch": 2.2818791946308723,
2425
+ "grad_norm": 6.019428730010986,
2426
+ "learning_rate": 2.663352272727273e-06,
2427
+ "loss": 4.8975,
2428
+ "step": 2380
2429
+ },
2430
+ {
2431
+ "epoch": 2.2914669223394055,
2432
+ "grad_norm": 7.852274417877197,
2433
+ "learning_rate": 2.627840909090909e-06,
2434
+ "loss": 4.9177,
2435
+ "step": 2390
2436
+ },
2437
+ {
2438
+ "epoch": 2.3010546500479387,
2439
+ "grad_norm": 128.83132934570312,
2440
+ "learning_rate": 2.5923295454545455e-06,
2441
+ "loss": 4.9272,
2442
+ "step": 2400
2443
+ },
2444
+ {
2445
+ "epoch": 2.3010546500479387,
2446
+ "eval_q2q_data_loss": 5.000960350036621,
2447
+ "eval_q2q_data_runtime": 8.4827,
2448
+ "eval_q2q_data_samples_per_second": 318.882,
2449
+ "eval_q2q_data_steps_per_second": 20.041,
2450
+ "step": 2400
2451
+ },
2452
+ {
2453
+ "epoch": 2.3010546500479387,
2454
+ "eval_q2p_data_loss": 4.7287445068359375,
2455
+ "eval_q2p_data_runtime": 15.3674,
2456
+ "eval_q2p_data_samples_per_second": 52.839,
2457
+ "eval_q2p_data_steps_per_second": 3.319,
2458
+ "step": 2400
2459
+ },
2460
+ {
2461
+ "epoch": 2.310642377756472,
2462
+ "grad_norm": 0.1605680286884308,
2463
+ "learning_rate": 2.556818181818182e-06,
2464
+ "loss": 4.9283,
2465
+ "step": 2410
2466
+ },
2467
+ {
2468
+ "epoch": 2.3202301054650047,
2469
+ "grad_norm": 25.14031982421875,
2470
+ "learning_rate": 2.5213068181818184e-06,
2471
+ "loss": 4.9061,
2472
+ "step": 2420
2473
+ },
2474
+ {
2475
+ "epoch": 2.329817833173538,
2476
+ "grad_norm": 0.1336502879858017,
2477
+ "learning_rate": 2.4857954545454547e-06,
2478
+ "loss": 4.9279,
2479
+ "step": 2430
2480
+ },
2481
+ {
2482
+ "epoch": 2.3394055608820707,
2483
+ "grad_norm": 0.5942106246948242,
2484
+ "learning_rate": 2.450284090909091e-06,
2485
+ "loss": 4.9856,
2486
+ "step": 2440
2487
+ },
2488
+ {
2489
+ "epoch": 2.348993288590604,
2490
+ "grad_norm": 6.196929454803467,
2491
+ "learning_rate": 2.4147727272727277e-06,
2492
+ "loss": 4.8988,
2493
+ "step": 2450
2494
+ },
2495
+ {
2496
+ "epoch": 2.348993288590604,
2497
+ "eval_q2q_data_loss": 5.000965118408203,
2498
+ "eval_q2q_data_runtime": 8.4496,
2499
+ "eval_q2q_data_samples_per_second": 320.134,
2500
+ "eval_q2q_data_steps_per_second": 20.119,
2501
+ "step": 2450
2502
+ },
2503
+ {
2504
+ "epoch": 2.348993288590604,
2505
+ "eval_q2p_data_loss": 4.726756572723389,
2506
+ "eval_q2p_data_runtime": 15.3322,
2507
+ "eval_q2p_data_samples_per_second": 52.96,
2508
+ "eval_q2p_data_steps_per_second": 3.326,
2509
+ "step": 2450
2510
+ },
2511
+ {
2512
+ "epoch": 2.358581016299137,
2513
+ "grad_norm": 0.11395616829395294,
2514
+ "learning_rate": 2.3792613636363635e-06,
2515
+ "loss": 4.9269,
2516
+ "step": 2460
2517
+ },
2518
+ {
2519
+ "epoch": 2.3681687440076704,
2520
+ "grad_norm": 0.14515432715415955,
2521
+ "learning_rate": 2.3437500000000002e-06,
2522
+ "loss": 4.9318,
2523
+ "step": 2470
2524
+ },
2525
+ {
2526
+ "epoch": 2.377756471716203,
2527
+ "grad_norm": 2.5160467624664307,
2528
+ "learning_rate": 2.3082386363636365e-06,
2529
+ "loss": 4.8814,
2530
+ "step": 2480
2531
+ },
2532
+ {
2533
+ "epoch": 2.3873441994247364,
2534
+ "grad_norm": 0.1416112333536148,
2535
+ "learning_rate": 2.2727272727272728e-06,
2536
+ "loss": 4.9912,
2537
+ "step": 2490
2538
+ },
2539
+ {
2540
+ "epoch": 2.396931927133269,
2541
+ "grad_norm": 10.503127098083496,
2542
+ "learning_rate": 2.2372159090909095e-06,
2543
+ "loss": 4.9226,
2544
+ "step": 2500
2545
+ },
2546
+ {
2547
+ "epoch": 2.396931927133269,
2548
+ "eval_q2q_data_loss": 5.000875949859619,
2549
+ "eval_q2q_data_runtime": 8.4684,
2550
+ "eval_q2q_data_samples_per_second": 319.422,
2551
+ "eval_q2q_data_steps_per_second": 20.075,
2552
+ "step": 2500
2553
+ },
2554
+ {
2555
+ "epoch": 2.396931927133269,
2556
+ "eval_q2p_data_loss": 4.719711780548096,
2557
+ "eval_q2p_data_runtime": 15.359,
2558
+ "eval_q2p_data_samples_per_second": 52.868,
2559
+ "eval_q2p_data_steps_per_second": 3.321,
2560
+ "step": 2500
2561
+ },
2562
+ {
2563
+ "epoch": 2.4065196548418024,
2564
+ "grad_norm": 0.14310245215892792,
2565
+ "learning_rate": 2.2017045454545457e-06,
2566
+ "loss": 4.9437,
2567
+ "step": 2510
2568
+ },
2569
+ {
2570
+ "epoch": 2.4161073825503356,
2571
+ "grad_norm": 0.12047765403985977,
2572
+ "learning_rate": 2.166193181818182e-06,
2573
+ "loss": 4.9553,
2574
+ "step": 2520
2575
+ },
2576
+ {
2577
+ "epoch": 2.425695110258869,
2578
+ "grad_norm": 0.1301940679550171,
2579
+ "learning_rate": 2.1306818181818183e-06,
2580
+ "loss": 4.9355,
2581
+ "step": 2530
2582
+ },
2583
+ {
2584
+ "epoch": 2.4352828379674016,
2585
+ "grad_norm": 0.42147210240364075,
2586
+ "learning_rate": 2.0951704545454545e-06,
2587
+ "loss": 4.9063,
2588
+ "step": 2540
2589
+ },
2590
+ {
2591
+ "epoch": 2.444870565675935,
2592
+ "grad_norm": 44.65216064453125,
2593
+ "learning_rate": 2.0596590909090912e-06,
2594
+ "loss": 4.9095,
2595
+ "step": 2550
2596
+ },
2597
+ {
2598
+ "epoch": 2.444870565675935,
2599
+ "eval_q2q_data_loss": 4.99726676940918,
2600
+ "eval_q2q_data_runtime": 8.4873,
2601
+ "eval_q2q_data_samples_per_second": 318.711,
2602
+ "eval_q2q_data_steps_per_second": 20.03,
2603
+ "step": 2550
2604
+ },
2605
+ {
2606
+ "epoch": 2.444870565675935,
2607
+ "eval_q2p_data_loss": 4.74806547164917,
2608
+ "eval_q2p_data_runtime": 15.3525,
2609
+ "eval_q2p_data_samples_per_second": 52.891,
2610
+ "eval_q2p_data_steps_per_second": 3.322,
2611
+ "step": 2550
2612
+ },
2613
+ {
2614
+ "epoch": 2.4544582933844676,
2615
+ "grad_norm": 22.98095703125,
2616
+ "learning_rate": 2.0241477272727275e-06,
2617
+ "loss": 4.9624,
2618
+ "step": 2560
2619
+ },
2620
+ {
2621
+ "epoch": 2.464046021093001,
2622
+ "grad_norm": 0.5905591249465942,
2623
+ "learning_rate": 1.9886363636363638e-06,
2624
+ "loss": 4.9731,
2625
+ "step": 2570
2626
+ },
2627
+ {
2628
+ "epoch": 2.473633748801534,
2629
+ "grad_norm": 24.247333526611328,
2630
+ "learning_rate": 1.953125e-06,
2631
+ "loss": 4.9156,
2632
+ "step": 2580
2633
+ },
2634
+ {
2635
+ "epoch": 2.4832214765100673,
2636
+ "grad_norm": 32.6563720703125,
2637
+ "learning_rate": 1.9176136363636367e-06,
2638
+ "loss": 4.8714,
2639
+ "step": 2590
2640
+ },
2641
+ {
2642
+ "epoch": 2.4928092042186,
2643
+ "grad_norm": 36.43191146850586,
2644
+ "learning_rate": 1.8821022727272728e-06,
2645
+ "loss": 4.9532,
2646
+ "step": 2600
2647
+ },
2648
+ {
2649
+ "epoch": 2.4928092042186,
2650
+ "eval_q2q_data_loss": 5.000910758972168,
2651
+ "eval_q2q_data_runtime": 8.4722,
2652
+ "eval_q2q_data_samples_per_second": 319.28,
2653
+ "eval_q2q_data_steps_per_second": 20.066,
2654
+ "step": 2600
2655
+ },
2656
+ {
2657
+ "epoch": 2.4928092042186,
2658
+ "eval_q2p_data_loss": 4.732726573944092,
2659
+ "eval_q2p_data_runtime": 15.3101,
2660
+ "eval_q2p_data_samples_per_second": 53.037,
2661
+ "eval_q2p_data_steps_per_second": 3.331,
2662
+ "step": 2600
2663
+ },
2664
+ {
2665
+ "epoch": 2.5023969319271333,
2666
+ "grad_norm": 6.501353740692139,
2667
+ "learning_rate": 1.8465909090909093e-06,
2668
+ "loss": 4.9196,
2669
+ "step": 2610
2670
+ },
2671
+ {
2672
+ "epoch": 2.511984659635666,
2673
+ "grad_norm": 57.751441955566406,
2674
+ "learning_rate": 1.8110795454545458e-06,
2675
+ "loss": 4.9477,
2676
+ "step": 2620
2677
+ },
2678
+ {
2679
+ "epoch": 2.5215723873441993,
2680
+ "grad_norm": 0.12283805757761002,
2681
+ "learning_rate": 1.7755681818181818e-06,
2682
+ "loss": 4.9725,
2683
+ "step": 2630
2684
+ },
2685
+ {
2686
+ "epoch": 2.5311601150527325,
2687
+ "grad_norm": 17.9443302154541,
2688
+ "learning_rate": 1.7400568181818183e-06,
2689
+ "loss": 4.9483,
2690
+ "step": 2640
2691
+ },
2692
+ {
2693
+ "epoch": 2.5407478427612658,
2694
+ "grad_norm": 0.27849340438842773,
2695
+ "learning_rate": 1.7045454545454546e-06,
2696
+ "loss": 4.9124,
2697
+ "step": 2650
2698
+ },
2699
+ {
2700
+ "epoch": 2.5407478427612658,
2701
+ "eval_q2q_data_loss": 5.000847339630127,
2702
+ "eval_q2q_data_runtime": 8.4514,
2703
+ "eval_q2q_data_samples_per_second": 320.064,
2704
+ "eval_q2q_data_steps_per_second": 20.115,
2705
+ "step": 2650
2706
+ },
2707
+ {
2708
+ "epoch": 2.5407478427612658,
2709
+ "eval_q2p_data_loss": 4.775162220001221,
2710
+ "eval_q2p_data_runtime": 15.3209,
2711
+ "eval_q2p_data_samples_per_second": 53.0,
2712
+ "eval_q2p_data_steps_per_second": 3.329,
2713
+ "step": 2650
2714
+ },
2715
+ {
2716
+ "epoch": 2.5503355704697985,
2717
+ "grad_norm": 0.1170654371380806,
2718
+ "learning_rate": 1.669034090909091e-06,
2719
+ "loss": 4.9056,
2720
+ "step": 2660
2721
+ },
2722
+ {
2723
+ "epoch": 2.5599232981783318,
2724
+ "grad_norm": 9.846685409545898,
2725
+ "learning_rate": 1.6335227272727275e-06,
2726
+ "loss": 4.9396,
2727
+ "step": 2670
2728
+ },
2729
+ {
2730
+ "epoch": 2.569511025886865,
2731
+ "grad_norm": 0.1312805712223053,
2732
+ "learning_rate": 1.5980113636363636e-06,
2733
+ "loss": 4.9472,
2734
+ "step": 2680
2735
+ },
2736
+ {
2737
+ "epoch": 2.5790987535953978,
2738
+ "grad_norm": 0.16425052285194397,
2739
+ "learning_rate": 1.5625e-06,
2740
+ "loss": 4.9322,
2741
+ "step": 2690
2742
+ },
2743
+ {
2744
+ "epoch": 2.588686481303931,
2745
+ "grad_norm": 26.310592651367188,
2746
+ "learning_rate": 1.5269886363636366e-06,
2747
+ "loss": 4.9147,
2748
+ "step": 2700
2749
+ },
2750
+ {
2751
+ "epoch": 2.588686481303931,
2752
+ "eval_q2q_data_loss": 5.000824928283691,
2753
+ "eval_q2q_data_runtime": 8.4934,
2754
+ "eval_q2q_data_samples_per_second": 318.482,
2755
+ "eval_q2q_data_steps_per_second": 20.016,
2756
+ "step": 2700
2757
+ },
2758
+ {
2759
+ "epoch": 2.588686481303931,
2760
+ "eval_q2p_data_loss": 4.735974311828613,
2761
+ "eval_q2p_data_runtime": 15.3216,
2762
+ "eval_q2p_data_samples_per_second": 52.997,
2763
+ "eval_q2p_data_steps_per_second": 3.329,
2764
+ "step": 2700
2765
+ },
2766
+ {
2767
+ "epoch": 2.598274209012464,
2768
+ "grad_norm": 0.11873164027929306,
2769
+ "learning_rate": 1.4914772727272728e-06,
2770
+ "loss": 4.9511,
2771
+ "step": 2710
2772
+ },
2773
+ {
2774
+ "epoch": 2.607861936720997,
2775
+ "grad_norm": 0.11559820920228958,
2776
+ "learning_rate": 1.4559659090909093e-06,
2777
+ "loss": 4.9229,
2778
+ "step": 2720
2779
+ },
2780
+ {
2781
+ "epoch": 2.61744966442953,
2782
+ "grad_norm": 0.1333041489124298,
2783
+ "learning_rate": 1.4204545454545458e-06,
2784
+ "loss": 4.9207,
2785
+ "step": 2730
2786
+ },
2787
+ {
2788
+ "epoch": 2.6270373921380634,
2789
+ "grad_norm": 0.16187268495559692,
2790
+ "learning_rate": 1.3849431818181819e-06,
2791
+ "loss": 4.9695,
2792
+ "step": 2740
2793
+ },
2794
+ {
2795
+ "epoch": 2.636625119846596,
2796
+ "grad_norm": 40.309261322021484,
2797
+ "learning_rate": 1.3494318181818183e-06,
2798
+ "loss": 4.8886,
2799
+ "step": 2750
2800
+ },
2801
+ {
2802
+ "epoch": 2.636625119846596,
2803
+ "eval_q2q_data_loss": 5.0007758140563965,
2804
+ "eval_q2q_data_runtime": 8.4851,
2805
+ "eval_q2q_data_samples_per_second": 318.795,
2806
+ "eval_q2q_data_steps_per_second": 20.035,
2807
+ "step": 2750
2808
+ },
2809
+ {
2810
+ "epoch": 2.636625119846596,
2811
+ "eval_q2p_data_loss": 4.76162052154541,
2812
+ "eval_q2p_data_runtime": 15.3319,
2813
+ "eval_q2p_data_samples_per_second": 52.961,
2814
+ "eval_q2p_data_steps_per_second": 3.326,
2815
+ "step": 2750
2816
+ },
2817
+ {
2818
+ "epoch": 2.6462128475551294,
2819
+ "grad_norm": 0.11944945156574249,
2820
+ "learning_rate": 1.3139204545454546e-06,
2821
+ "loss": 4.9878,
2822
+ "step": 2760
2823
+ },
2824
+ {
2825
+ "epoch": 2.6558005752636626,
2826
+ "grad_norm": 0.1411992311477661,
2827
+ "learning_rate": 1.278409090909091e-06,
2828
+ "loss": 4.9647,
2829
+ "step": 2770
2830
+ },
2831
+ {
2832
+ "epoch": 2.665388302972196,
2833
+ "grad_norm": 0.11750555783510208,
2834
+ "learning_rate": 1.2428977272727274e-06,
2835
+ "loss": 4.9552,
2836
+ "step": 2780
2837
+ },
2838
+ {
2839
+ "epoch": 2.6749760306807286,
2840
+ "grad_norm": 12.01413631439209,
2841
+ "learning_rate": 1.2073863636363638e-06,
2842
+ "loss": 5.0171,
2843
+ "step": 2790
2844
+ },
2845
+ {
2846
+ "epoch": 2.684563758389262,
2847
+ "grad_norm": 39.38778305053711,
2848
+ "learning_rate": 1.1718750000000001e-06,
2849
+ "loss": 4.9379,
2850
+ "step": 2800
2851
+ },
2852
+ {
2853
+ "epoch": 2.684563758389262,
2854
+ "eval_q2q_data_loss": 5.0007734298706055,
2855
+ "eval_q2q_data_runtime": 8.5072,
2856
+ "eval_q2q_data_samples_per_second": 317.965,
2857
+ "eval_q2q_data_steps_per_second": 19.983,
2858
+ "step": 2800
2859
+ },
2860
+ {
2861
+ "epoch": 2.684563758389262,
2862
+ "eval_q2p_data_loss": 4.756326198577881,
2863
+ "eval_q2p_data_runtime": 15.3794,
2864
+ "eval_q2p_data_samples_per_second": 52.798,
2865
+ "eval_q2p_data_steps_per_second": 3.316,
2866
+ "step": 2800
2867
+ },
2868
+ {
2869
+ "epoch": 2.6941514860977946,
2870
+ "grad_norm": 0.2822560966014862,
2871
+ "learning_rate": 1.1363636363636364e-06,
2872
+ "loss": 4.9727,
2873
+ "step": 2810
2874
+ },
2875
+ {
2876
+ "epoch": 2.703739213806328,
2877
+ "grad_norm": 0.9750680923461914,
2878
+ "learning_rate": 1.1008522727272729e-06,
2879
+ "loss": 4.9798,
2880
+ "step": 2820
2881
+ },
2882
+ {
2883
+ "epoch": 2.713326941514861,
2884
+ "grad_norm": 12.072766304016113,
2885
+ "learning_rate": 1.0653409090909091e-06,
2886
+ "loss": 4.9726,
2887
+ "step": 2830
2888
+ },
2889
+ {
2890
+ "epoch": 2.7229146692233943,
2891
+ "grad_norm": 24.833826065063477,
2892
+ "learning_rate": 1.0298295454545456e-06,
2893
+ "loss": 4.956,
2894
+ "step": 2840
2895
+ },
2896
+ {
2897
+ "epoch": 2.732502396931927,
2898
+ "grad_norm": 15.921252250671387,
2899
+ "learning_rate": 9.943181818181819e-07,
2900
+ "loss": 4.9512,
2901
+ "step": 2850
2902
+ },
2903
+ {
2904
+ "epoch": 2.732502396931927,
2905
+ "eval_q2q_data_loss": 5.000742435455322,
2906
+ "eval_q2q_data_runtime": 8.4355,
2907
+ "eval_q2q_data_samples_per_second": 320.669,
2908
+ "eval_q2q_data_steps_per_second": 20.153,
2909
+ "step": 2850
2910
+ },
2911
+ {
2912
+ "epoch": 2.732502396931927,
2913
+ "eval_q2p_data_loss": 4.766937255859375,
2914
+ "eval_q2p_data_runtime": 15.3173,
2915
+ "eval_q2p_data_samples_per_second": 53.012,
2916
+ "eval_q2p_data_steps_per_second": 3.33,
2917
+ "step": 2850
2918
+ },
2919
+ {
2920
+ "epoch": 2.7420901246404603,
2921
+ "grad_norm": 0.15265218913555145,
2922
+ "learning_rate": 9.588068181818184e-07,
2923
+ "loss": 4.9705,
2924
+ "step": 2860
2925
+ },
2926
+ {
2927
+ "epoch": 2.751677852348993,
2928
+ "grad_norm": 15.488290786743164,
2929
+ "learning_rate": 9.232954545454546e-07,
2930
+ "loss": 4.8603,
2931
+ "step": 2870
2932
+ },
2933
+ {
2934
+ "epoch": 2.7612655800575263,
2935
+ "grad_norm": 0.121486134827137,
2936
+ "learning_rate": 8.877840909090909e-07,
2937
+ "loss": 4.9764,
2938
+ "step": 2880
2939
+ },
2940
+ {
2941
+ "epoch": 2.7708533077660595,
2942
+ "grad_norm": 0.1105041652917862,
2943
+ "learning_rate": 8.522727272727273e-07,
2944
+ "loss": 4.9187,
2945
+ "step": 2890
2946
+ },
2947
+ {
2948
+ "epoch": 2.7804410354745928,
2949
+ "grad_norm": 0.10993187129497528,
2950
+ "learning_rate": 8.167613636363638e-07,
2951
+ "loss": 4.8941,
2952
+ "step": 2900
2953
+ },
2954
+ {
2955
+ "epoch": 2.7804410354745928,
2956
+ "eval_q2q_data_loss": 5.000753402709961,
2957
+ "eval_q2q_data_runtime": 8.462,
2958
+ "eval_q2q_data_samples_per_second": 319.666,
2959
+ "eval_q2q_data_steps_per_second": 20.09,
2960
+ "step": 2900
2961
+ },
2962
+ {
2963
+ "epoch": 2.7804410354745928,
2964
+ "eval_q2p_data_loss": 4.73110818862915,
2965
+ "eval_q2p_data_runtime": 15.3141,
2966
+ "eval_q2p_data_samples_per_second": 53.023,
2967
+ "eval_q2p_data_steps_per_second": 3.33,
2968
+ "step": 2900
2969
+ },
2970
+ {
2971
+ "epoch": 2.7900287631831255,
2972
+ "grad_norm": 0.09844540059566498,
2973
+ "learning_rate": 7.8125e-07,
2974
+ "loss": 4.9592,
2975
+ "step": 2910
2976
+ },
2977
+ {
2978
+ "epoch": 2.7996164908916588,
2979
+ "grad_norm": 21.05035400390625,
2980
+ "learning_rate": 7.457386363636364e-07,
2981
+ "loss": 4.9141,
2982
+ "step": 2920
2983
+ },
2984
+ {
2985
+ "epoch": 2.8092042186001915,
2986
+ "grad_norm": 0.11973018944263458,
2987
+ "learning_rate": 7.102272727272729e-07,
2988
+ "loss": 4.9198,
2989
+ "step": 2930
2990
+ },
2991
+ {
2992
+ "epoch": 2.8187919463087248,
2993
+ "grad_norm": 0.12149699777364731,
2994
+ "learning_rate": 6.747159090909092e-07,
2995
+ "loss": 5.0112,
2996
+ "step": 2940
2997
+ },
2998
+ {
2999
+ "epoch": 2.828379674017258,
3000
+ "grad_norm": 5.942767143249512,
3001
+ "learning_rate": 6.392045454545455e-07,
3002
+ "loss": 4.9778,
3003
+ "step": 2950
3004
+ },
3005
+ {
3006
+ "epoch": 2.828379674017258,
3007
+ "eval_q2q_data_loss": 5.00074577331543,
3008
+ "eval_q2q_data_runtime": 8.4603,
3009
+ "eval_q2q_data_samples_per_second": 319.73,
3010
+ "eval_q2q_data_steps_per_second": 20.094,
3011
+ "step": 2950
3012
+ },
3013
+ {
3014
+ "epoch": 2.828379674017258,
3015
+ "eval_q2p_data_loss": 4.73326301574707,
3016
+ "eval_q2p_data_runtime": 15.3687,
3017
+ "eval_q2p_data_samples_per_second": 52.835,
3018
+ "eval_q2p_data_steps_per_second": 3.318,
3019
+ "step": 2950
3020
+ },
3021
+ {
3022
+ "epoch": 2.837967401725791,
3023
+ "grad_norm": 5.33225679397583,
3024
+ "learning_rate": 6.036931818181819e-07,
3025
+ "loss": 4.8999,
3026
+ "step": 2960
3027
+ },
3028
+ {
3029
+ "epoch": 2.847555129434324,
3030
+ "grad_norm": 25.030715942382812,
3031
+ "learning_rate": 5.681818181818182e-07,
3032
+ "loss": 4.9223,
3033
+ "step": 2970
3034
+ },
3035
+ {
3036
+ "epoch": 2.857142857142857,
3037
+ "grad_norm": 0.1237885057926178,
3038
+ "learning_rate": 5.326704545454546e-07,
3039
+ "loss": 4.9369,
3040
+ "step": 2980
3041
+ },
3042
+ {
3043
+ "epoch": 2.86673058485139,
3044
+ "grad_norm": 0.09552864730358124,
3045
+ "learning_rate": 4.971590909090909e-07,
3046
+ "loss": 4.8722,
3047
+ "step": 2990
3048
+ },
3049
+ {
3050
+ "epoch": 2.876318312559923,
3051
+ "grad_norm": 0.1201782152056694,
3052
+ "learning_rate": 4.616477272727273e-07,
3053
+ "loss": 4.9299,
3054
+ "step": 3000
3055
+ },
3056
+ {
3057
+ "epoch": 2.876318312559923,
3058
+ "eval_q2q_data_loss": 5.000753402709961,
3059
+ "eval_q2q_data_runtime": 8.4812,
3060
+ "eval_q2q_data_samples_per_second": 318.942,
3061
+ "eval_q2q_data_steps_per_second": 20.044,
3062
+ "step": 3000
3063
+ },
3064
+ {
3065
+ "epoch": 2.876318312559923,
3066
+ "eval_q2p_data_loss": 4.7280192375183105,
3067
+ "eval_q2p_data_runtime": 15.3569,
3068
+ "eval_q2p_data_samples_per_second": 52.875,
3069
+ "eval_q2p_data_steps_per_second": 3.321,
3070
+ "step": 3000
3071
+ },
3072
+ {
3073
+ "epoch": 2.8859060402684564,
3074
+ "grad_norm": 18.201995849609375,
3075
+ "learning_rate": 4.2613636363636364e-07,
3076
+ "loss": 4.8457,
3077
+ "step": 3010
3078
+ },
3079
+ {
3080
+ "epoch": 2.8954937679769897,
3081
+ "grad_norm": 0.09412606805562973,
3082
+ "learning_rate": 3.90625e-07,
3083
+ "loss": 4.8864,
3084
+ "step": 3020
3085
+ },
3086
+ {
3087
+ "epoch": 2.9050814956855224,
3088
+ "grad_norm": 21.844467163085938,
3089
+ "learning_rate": 3.5511363636363645e-07,
3090
+ "loss": 4.882,
3091
+ "step": 3030
3092
+ },
3093
+ {
3094
+ "epoch": 2.9146692233940557,
3095
+ "grad_norm": 0.1089194044470787,
3096
+ "learning_rate": 3.1960227272727277e-07,
3097
+ "loss": 4.8897,
3098
+ "step": 3040
3099
+ },
3100
+ {
3101
+ "epoch": 2.9242569511025884,
3102
+ "grad_norm": 0.20910155773162842,
3103
+ "learning_rate": 2.840909090909091e-07,
3104
+ "loss": 4.9663,
3105
+ "step": 3050
3106
+ },
3107
+ {
3108
+ "epoch": 2.9242569511025884,
3109
+ "eval_q2q_data_loss": 5.000741481781006,
3110
+ "eval_q2q_data_runtime": 8.4976,
3111
+ "eval_q2q_data_samples_per_second": 318.326,
3112
+ "eval_q2q_data_steps_per_second": 20.006,
3113
+ "step": 3050
3114
+ },
3115
+ {
3116
+ "epoch": 2.9242569511025884,
3117
+ "eval_q2p_data_loss": 4.723778247833252,
3118
+ "eval_q2p_data_runtime": 15.2952,
3119
+ "eval_q2p_data_samples_per_second": 53.088,
3120
+ "eval_q2p_data_steps_per_second": 3.334,
3121
+ "step": 3050
3122
+ },
3123
+ {
3124
+ "epoch": 2.9338446788111217,
3125
+ "grad_norm": 0.1785881370306015,
3126
+ "learning_rate": 2.4857954545454547e-07,
3127
+ "loss": 4.946,
3128
+ "step": 3060
3129
+ },
3130
+ {
3131
+ "epoch": 2.943432406519655,
3132
+ "grad_norm": 26.99447250366211,
3133
+ "learning_rate": 2.1306818181818182e-07,
3134
+ "loss": 4.9555,
3135
+ "step": 3070
3136
+ },
3137
+ {
3138
+ "epoch": 2.953020134228188,
3139
+ "grad_norm": 0.10196644067764282,
3140
+ "learning_rate": 1.7755681818181822e-07,
3141
+ "loss": 4.9005,
3142
+ "step": 3080
3143
+ },
3144
+ {
3145
+ "epoch": 2.962607861936721,
3146
+ "grad_norm": 26.543190002441406,
3147
+ "learning_rate": 1.4204545454545455e-07,
3148
+ "loss": 4.9097,
3149
+ "step": 3090
3150
+ },
3151
+ {
3152
+ "epoch": 2.972195589645254,
3153
+ "grad_norm": 0.12280410528182983,
3154
+ "learning_rate": 1.0653409090909091e-07,
3155
+ "loss": 4.924,
3156
+ "step": 3100
3157
+ },
3158
+ {
3159
+ "epoch": 2.972195589645254,
3160
+ "eval_q2q_data_loss": 5.000741004943848,
3161
+ "eval_q2q_data_runtime": 8.473,
3162
+ "eval_q2q_data_samples_per_second": 319.25,
3163
+ "eval_q2q_data_steps_per_second": 20.064,
3164
+ "step": 3100
3165
+ },
3166
+ {
3167
+ "epoch": 2.972195589645254,
3168
+ "eval_q2p_data_loss": 4.72309684753418,
3169
+ "eval_q2p_data_runtime": 15.3713,
3170
+ "eval_q2p_data_samples_per_second": 52.826,
3171
+ "eval_q2p_data_steps_per_second": 3.318,
3172
+ "step": 3100
3173
+ },
3174
+ {
3175
+ "epoch": 2.981783317353787,
3176
+ "grad_norm": 0.0916726365685463,
3177
+ "learning_rate": 7.102272727272727e-08,
3178
+ "loss": 4.8929,
3179
+ "step": 3110
3180
+ },
3181
+ {
3182
+ "epoch": 2.99137104506232,
3183
+ "grad_norm": 15.717903137207031,
3184
+ "learning_rate": 3.551136363636364e-08,
3185
+ "loss": 4.93,
3186
+ "step": 3120
3187
+ }
3188
+ ],
3189
+ "logging_steps": 10,
3190
+ "max_steps": 3129,
3191
+ "num_input_tokens_seen": 0,
3192
+ "num_train_epochs": 3,
3193
+ "save_steps": 500,
3194
+ "stateful_callbacks": {
3195
+ "TrainerControl": {
3196
+ "args": {
3197
+ "should_epoch_stop": false,
3198
+ "should_evaluate": false,
3199
+ "should_log": false,
3200
+ "should_save": true,
3201
+ "should_training_stop": true
3202
+ },
3203
+ "attributes": {}
3204
+ }
3205
+ },
3206
+ "total_flos": 0.0,
3207
+ "train_batch_size": 32,
3208
+ "trial_name": null,
3209
+ "trial_params": null
3210
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:981ba2cc32e35c46122d5a31a2ca5f64664122ba4ef1302f33f153fd1f8d4ee3
3
+ size 5624