aixk commited on
Commit
768fb6a
·
verified ·
1 Parent(s): 0ecbcf5

final purge backups 1/1

Browse files
This view is limited to 50 files because it contains too many changes.   See raw diff
Files changed (50) hide show
  1. shared/auto_workers/twiny-stack-L03/worker-18ce0552.json +0 -1
  2. shared/auto_workers/twiny-stack-L03/worker-2962f1fd.json +0 -1
  3. shared/auto_workers/twiny-stack-L03/worker-2e7552ae.json +0 -1
  4. shared/auto_workers/twiny-stack-L03/worker-32adc266.json +0 -1
  5. shared/auto_workers/twiny-stack-L03/worker-3e045c6f.json +0 -1
  6. shared/auto_workers/twiny-stack-L03/worker-4a9c72b2.json +0 -1
  7. shared/auto_workers/twiny-stack-L03/worker-56fe9716.json +0 -1
  8. shared/auto_workers/twiny-stack-L03/worker-93c0e681.json +0 -1
  9. shared/auto_workers/twiny-stack-L03/worker-9e926922.json +0 -1
  10. shared/auto_workers/twiny-stack-L03/worker-a41b4bdc.json +0 -1
  11. shared/auto_workers/twiny-stack-L03/worker-bc63c10f.json +0 -1
  12. shared/auto_workers/twiny-stack-L03/worker-c7779c04.json +0 -1
  13. shared/auto_workers/twiny-stack-L03/worker-ca8986e8.json +0 -1
  14. shared/auto_workers/twiny-stack-L03/worker-cba01791.json +0 -1
  15. shared/slot_plan/twiny-stack-L03/stage3.json +0 -1
  16. slots/0/latest.json +0 -1
  17. slots/1/latest.json +0 -1
  18. slots/10/checkpoint-10075/config.json +0 -24
  19. slots/10/checkpoint-10075/model.safetensors +0 -3
  20. slots/10/checkpoint-10075/optimizer.pt +0 -3
  21. slots/10/checkpoint-10075/rng_state.pth +0 -3
  22. slots/10/checkpoint-10075/scaler.pt +0 -3
  23. slots/10/checkpoint-10075/scheduler.pt +0 -3
  24. slots/10/checkpoint-10075/trainer_state.json +0 -3562
  25. slots/10/checkpoint-10075/training_args.bin +0 -3
  26. slots/10/latest.json +0 -1
  27. slots/11/checkpoint-10018/config.json +0 -24
  28. slots/11/checkpoint-10018/model.safetensors +0 -3
  29. slots/11/checkpoint-10018/optimizer.pt +0 -3
  30. slots/11/checkpoint-10018/rng_state.pth +0 -3
  31. slots/11/checkpoint-10018/scaler.pt +0 -3
  32. slots/11/checkpoint-10018/scheduler.pt +0 -3
  33. slots/11/checkpoint-10018/trainer_state.json +0 -3541
  34. slots/11/checkpoint-10018/training_args.bin +0 -3
  35. slots/11/latest.json +0 -1
  36. slots/12/latest.json +0 -1
  37. slots/13/latest.json +0 -1
  38. slots/14/latest.json +0 -1
  39. slots/15/latest.json +0 -1
  40. slots/16/latest.json +0 -1
  41. slots/17/latest.json +0 -1
  42. slots/18/latest.json +0 -1
  43. slots/19/checkpoint-10023/config.json +0 -24
  44. slots/19/checkpoint-10023/model.safetensors +0 -3
  45. slots/19/checkpoint-10023/optimizer.pt +0 -3
  46. slots/19/checkpoint-10023/rng_state.pth +0 -3
  47. slots/19/checkpoint-10023/scaler.pt +0 -3
  48. slots/19/checkpoint-10023/scheduler.pt +0 -3
  49. slots/19/checkpoint-10023/trainer_state.json +0 -3548
  50. slots/19/checkpoint-10023/training_args.bin +0 -3
shared/auto_workers/twiny-stack-L03/worker-18ce0552.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-18ce0552", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816432}
 
 
shared/auto_workers/twiny-stack-L03/worker-2962f1fd.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-2962f1fd", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776771850}
 
 
shared/auto_workers/twiny-stack-L03/worker-2e7552ae.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-2e7552ae", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816467}
 
 
shared/auto_workers/twiny-stack-L03/worker-32adc266.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-32adc266", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776813411}
 
 
shared/auto_workers/twiny-stack-L03/worker-3e045c6f.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-3e045c6f", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776813416}
 
 
shared/auto_workers/twiny-stack-L03/worker-4a9c72b2.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-4a9c72b2", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776813417}
 
 
shared/auto_workers/twiny-stack-L03/worker-56fe9716.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-56fe9716", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816457}
 
 
shared/auto_workers/twiny-stack-L03/worker-93c0e681.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-93c0e681", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776813412}
 
 
shared/auto_workers/twiny-stack-L03/worker-9e926922.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-9e926922", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816462}
 
 
shared/auto_workers/twiny-stack-L03/worker-a41b4bdc.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-a41b4bdc", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816459}
 
 
shared/auto_workers/twiny-stack-L03/worker-bc63c10f.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-bc63c10f", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816464}
 
 
shared/auto_workers/twiny-stack-L03/worker-c7779c04.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-c7779c04", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776771852}
 
 
shared/auto_workers/twiny-stack-L03/worker-ca8986e8.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-ca8986e8", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776816432}
 
 
shared/auto_workers/twiny-stack-L03/worker-cba01791.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "worker-cba01791", "stage": 3, "model_name": "twiny-stack-L03", "updated_at": 1776813412}
 
 
shared/slot_plan/twiny-stack-L03/stage3.json DELETED
@@ -1 +0,0 @@
1
- {"model_name": "twiny-stack-L03", "stage": 3, "slot_total": 20, "worker_id": "worker-18ce0552", "updated_at": 1776816794, "slot_workers": ["worker-c7779c04", "worker-2962f1fd", "worker-4a9c72b2", "worker-3e045c6f", "worker-93c0e681", "worker-cba01791", "worker-32adc266", "worker-2e7552ae", "worker-bc63c10f", "worker-9e926922", "worker-a41b4bdc", "worker-56fe9716", "worker-18ce0552", "worker-ca8986e8"]}
 
 
slots/0/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:0", "checkpoint": "slots/0/checkpoint-9484", "step": 9484, "updated_at": 1776780683}
 
 
slots/1/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:1", "checkpoint": "slots/1/checkpoint-9903", "step": 9903, "updated_at": 1776815559}
 
 
slots/10/checkpoint-10075/config.json DELETED
@@ -1,24 +0,0 @@
1
- {
2
- "architectures": [
3
- "TwinyForCausalLM"
4
- ],
5
- "attention_dropout": 0.0,
6
- "dtype": "float32",
7
- "hidden_dropout": 0.0,
8
- "hidden_size": 768,
9
- "initializer_range": 0.02,
10
- "intermediate_size": 3072,
11
- "max_position_embeddings": 128,
12
- "model_type": "twiny",
13
- "neftune_alpha": 0.0,
14
- "num_attention_heads": 12,
15
- "num_hidden_layers": 3,
16
- "num_key_value_heads": 3,
17
- "qk_norm": true,
18
- "rezero_init": 1.0,
19
- "rms_norm_eps": 1e-06,
20
- "rope_theta": 10000.0,
21
- "transformers_version": "5.0.0",
22
- "use_cache": false,
23
- "vocab_size": 32000
24
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/10/checkpoint-10075/model.safetensors DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:a2ca48b75a7002146d5ef60bc204ba77a99d24d42ffe9f0c5cbaafcfc4682879
3
- size 306388092
 
 
 
 
slots/10/checkpoint-10075/optimizer.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:1d1c60a18f57ed02384f52ee715de607f83af4d48116e43c4e045833a4700d37
3
- size 302484555
 
 
 
 
slots/10/checkpoint-10075/rng_state.pth DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
3
- size 14645
 
 
 
 
slots/10/checkpoint-10075/scaler.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:3ee5f7f13c8c1d241dae1ff1f44e0e8453841f58efabc810c63b4dd5709316db
3
- size 1383
 
 
 
 
slots/10/checkpoint-10075/scheduler.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:67a18908c2d144f110b11a9c3fc2646e1414a2d3c62599cf96cbeb463b495cdd
3
- size 1465
 
 
 
 
slots/10/checkpoint-10075/trainer_state.json DELETED
@@ -1,3562 +0,0 @@
1
- {
2
- "best_global_step": null,
3
- "best_metric": null,
4
- "best_model_checkpoint": null,
5
- "epoch": 2.3567929577258835,
6
- "eval_steps": 500,
7
- "global_step": 10075,
8
- "is_hyper_param_search": false,
9
- "is_local_process_zero": true,
10
- "is_world_process_zero": true,
11
- "log_history": [
12
- {
13
- "epoch": 0.0001336931908386741,
14
- "grad_norm": Infinity,
15
- "learning_rate": 5e-05,
16
- "loss": 129.80032348632812,
17
- "step": 1
18
- },
19
- {
20
- "epoch": 0.002673863816773482,
21
- "grad_norm": 63.64365768432617,
22
- "learning_rate": 4.999995392022967e-05,
23
- "loss": 63.88374408922697,
24
- "step": 20
25
- },
26
- {
27
- "epoch": 0.005347727633546964,
28
- "grad_norm": 24.627853393554688,
29
- "learning_rate": 4.999976672145381e-05,
30
- "loss": 12.65963363647461,
31
- "step": 40
32
- },
33
- {
34
- "epoch": 0.008021591450320446,
35
- "grad_norm": 14.29983901977539,
36
- "learning_rate": 4.999943552476422e-05,
37
- "loss": 5.90204963684082,
38
- "step": 60
39
- },
40
- {
41
- "epoch": 0.010695455267093928,
42
- "grad_norm": 15.690323829650879,
43
- "learning_rate": 4.999896033206858e-05,
44
- "loss": 3.9918922424316405,
45
- "step": 80
46
- },
47
- {
48
- "epoch": 0.01336931908386741,
49
- "grad_norm": 31.583160400390625,
50
- "learning_rate": 4.999834114610398e-05,
51
- "loss": 2.9675426483154297,
52
- "step": 100
53
- },
54
- {
55
- "epoch": 0.01604318290064089,
56
- "grad_norm": 13.034649848937988,
57
- "learning_rate": 4.999757797043691e-05,
58
- "loss": 2.725296401977539,
59
- "step": 120
60
- },
61
- {
62
- "epoch": 0.018717046717414372,
63
- "grad_norm": 8.362203598022461,
64
- "learning_rate": 4.999667080946324e-05,
65
- "loss": 2.2478992462158205,
66
- "step": 140
67
- },
68
- {
69
- "epoch": 0.021390910534187856,
70
- "grad_norm": 8.726786613464355,
71
- "learning_rate": 4.999561966840821e-05,
72
- "loss": 1.8447845458984375,
73
- "step": 160
74
- },
75
- {
76
- "epoch": 0.024064774350961337,
77
- "grad_norm": 10.092752456665039,
78
- "learning_rate": 4.9994424553326335e-05,
79
- "loss": 1.5611843109130858,
80
- "step": 180
81
- },
82
- {
83
- "epoch": 0.02673863816773482,
84
- "grad_norm": 9.090085983276367,
85
- "learning_rate": 4.999308547110146e-05,
86
- "loss": 1.520334815979004,
87
- "step": 200
88
- },
89
- {
90
- "epoch": 0.029412501984508302,
91
- "grad_norm": 9.668124198913574,
92
- "learning_rate": 4.999160242944665e-05,
93
- "loss": 1.2818055152893066,
94
- "step": 220
95
- },
96
- {
97
- "epoch": 0.03208636580128178,
98
- "grad_norm": 9.182533264160156,
99
- "learning_rate": 4.998997543690418e-05,
100
- "loss": 1.0428407669067383,
101
- "step": 240
102
- },
103
- {
104
- "epoch": 0.03476022961805526,
105
- "grad_norm": 5.745838165283203,
106
- "learning_rate": 4.998820450284549e-05,
107
- "loss": 1.2343652725219727,
108
- "step": 260
109
- },
110
- {
111
- "epoch": 0.037434093434828744,
112
- "grad_norm": 8.651643753051758,
113
- "learning_rate": 4.99862896374711e-05,
114
- "loss": 0.8859601020812988,
115
- "step": 280
116
- },
117
- {
118
- "epoch": 0.04010795725160223,
119
- "grad_norm": 10.765266418457031,
120
- "learning_rate": 4.998423085181056e-05,
121
- "loss": 0.989600658416748,
122
- "step": 300
123
- },
124
- {
125
- "epoch": 0.04278182106837571,
126
- "grad_norm": 6.092499256134033,
127
- "learning_rate": 4.998202815772245e-05,
128
- "loss": 0.7189463615417481,
129
- "step": 320
130
- },
131
- {
132
- "epoch": 0.04545568488514919,
133
- "grad_norm": 6.352876663208008,
134
- "learning_rate": 4.9979681567894195e-05,
135
- "loss": 0.7489545345306396,
136
- "step": 340
137
- },
138
- {
139
- "epoch": 0.048129548701922674,
140
- "grad_norm": 4.620656490325928,
141
- "learning_rate": 4.997719109584209e-05,
142
- "loss": 0.7381401538848877,
143
- "step": 360
144
- },
145
- {
146
- "epoch": 0.050803412518696155,
147
- "grad_norm": 7.796917915344238,
148
- "learning_rate": 4.997455675591119e-05,
149
- "loss": 0.5687405109405518,
150
- "step": 380
151
- },
152
- {
153
- "epoch": 0.05347727633546964,
154
- "grad_norm": 2.837172508239746,
155
- "learning_rate": 4.9971778563275204e-05,
156
- "loss": 0.5686865329742432,
157
- "step": 400
158
- },
159
- {
160
- "epoch": 0.05615114015224312,
161
- "grad_norm": 3.3103690147399902,
162
- "learning_rate": 4.9968856533936436e-05,
163
- "loss": 0.625730562210083,
164
- "step": 420
165
- },
166
- {
167
- "epoch": 0.058825003969016604,
168
- "grad_norm": 3.5682132244110107,
169
- "learning_rate": 4.99657906847257e-05,
170
- "loss": 0.6125466346740722,
171
- "step": 440
172
- },
173
- {
174
- "epoch": 0.061498867785790085,
175
- "grad_norm": 5.63640832901001,
176
- "learning_rate": 4.996258103330218e-05,
177
- "loss": 0.6182214260101319,
178
- "step": 460
179
- },
180
- {
181
- "epoch": 0.06417273160256357,
182
- "grad_norm": 4.698945999145508,
183
- "learning_rate": 4.995922759815339e-05,
184
- "loss": 0.43828091621398924,
185
- "step": 480
186
- },
187
- {
188
- "epoch": 0.06684659541933705,
189
- "grad_norm": 2.1976189613342285,
190
- "learning_rate": 4.995573039859501e-05,
191
- "loss": 0.4459230899810791,
192
- "step": 500
193
- },
194
- {
195
- "epoch": 0.06952045923611053,
196
- "grad_norm": 3.8809523582458496,
197
- "learning_rate": 4.995208945477081e-05,
198
- "loss": 0.3821882963180542,
199
- "step": 520
200
- },
201
- {
202
- "epoch": 0.07219432305288401,
203
- "grad_norm": 3.75144100189209,
204
- "learning_rate": 4.994830478765251e-05,
205
- "loss": 0.5800807476043701,
206
- "step": 540
207
- },
208
- {
209
- "epoch": 0.07486818686965749,
210
- "grad_norm": 3.0038585662841797,
211
- "learning_rate": 4.9944376419039684e-05,
212
- "loss": 0.3928264617919922,
213
- "step": 560
214
- },
215
- {
216
- "epoch": 0.07754205068643098,
217
- "grad_norm": 3.614591598510742,
218
- "learning_rate": 4.994030437155961e-05,
219
- "loss": 0.48637890815734863,
220
- "step": 580
221
- },
222
- {
223
- "epoch": 0.08021591450320446,
224
- "grad_norm": 4.143443584442139,
225
- "learning_rate": 4.993608866866718e-05,
226
- "loss": 0.3650153160095215,
227
- "step": 600
228
- },
229
- {
230
- "epoch": 0.08288977831997794,
231
- "grad_norm": 6.692712783813477,
232
- "learning_rate": 4.993172933464471e-05,
233
- "loss": 0.3677916288375854,
234
- "step": 620
235
- },
236
- {
237
- "epoch": 0.08556364213675142,
238
- "grad_norm": 8.383441925048828,
239
- "learning_rate": 4.9927226394601815e-05,
240
- "loss": 0.3399480104446411,
241
- "step": 640
242
- },
243
- {
244
- "epoch": 0.0882375059535249,
245
- "grad_norm": 5.566338062286377,
246
- "learning_rate": 4.992257987447532e-05,
247
- "loss": 0.28104052543640134,
248
- "step": 660
249
- },
250
- {
251
- "epoch": 0.09091136977029839,
252
- "grad_norm": 3.1196420192718506,
253
- "learning_rate": 4.991778980102904e-05,
254
- "loss": 0.351950478553772,
255
- "step": 680
256
- },
257
- {
258
- "epoch": 0.09358523358707187,
259
- "grad_norm": 3.47979736328125,
260
- "learning_rate": 4.9912856201853644e-05,
261
- "loss": 0.27501535415649414,
262
- "step": 700
263
- },
264
- {
265
- "epoch": 0.09625909740384535,
266
- "grad_norm": 5.446717262268066,
267
- "learning_rate": 4.990777910536653e-05,
268
- "loss": 0.2651593923568726,
269
- "step": 720
270
- },
271
- {
272
- "epoch": 0.09893296122061883,
273
- "grad_norm": 7.6145339012146,
274
- "learning_rate": 4.990255854081161e-05,
275
- "loss": 0.35140380859375,
276
- "step": 740
277
- },
278
- {
279
- "epoch": 0.10160682503739231,
280
- "grad_norm": 8.445616722106934,
281
- "learning_rate": 4.989719453825918e-05,
282
- "loss": 0.2961219072341919,
283
- "step": 760
284
- },
285
- {
286
- "epoch": 0.10428068885416579,
287
- "grad_norm": 6.339537620544434,
288
- "learning_rate": 4.9891687128605744e-05,
289
- "loss": 0.24962289333343507,
290
- "step": 780
291
- },
292
- {
293
- "epoch": 0.10695455267093928,
294
- "grad_norm": 3.3369436264038086,
295
- "learning_rate": 4.988603634357383e-05,
296
- "loss": 0.2124847412109375,
297
- "step": 800
298
- },
299
- {
300
- "epoch": 0.10962841648771277,
301
- "grad_norm": 2.2909045219421387,
302
- "learning_rate": 4.988024221571177e-05,
303
- "loss": 0.24679112434387207,
304
- "step": 820
305
- },
306
- {
307
- "epoch": 0.11230228030448625,
308
- "grad_norm": 3.1149911880493164,
309
- "learning_rate": 4.9874304778393574e-05,
310
- "loss": 0.22161397933959961,
311
- "step": 840
312
- },
313
- {
314
- "epoch": 0.11497614412125973,
315
- "grad_norm": 14.802160263061523,
316
- "learning_rate": 4.9868224065818706e-05,
317
- "loss": 0.2623537302017212,
318
- "step": 860
319
- },
320
- {
321
- "epoch": 0.11765000793803321,
322
- "grad_norm": 5.586325168609619,
323
- "learning_rate": 4.98620001130119e-05,
324
- "loss": 0.3560942649841309,
325
- "step": 880
326
- },
327
- {
328
- "epoch": 0.12032387175480669,
329
- "grad_norm": 3.390017032623291,
330
- "learning_rate": 4.9855632955822916e-05,
331
- "loss": 0.16934787034988402,
332
- "step": 900
333
- },
334
- {
335
- "epoch": 0.12299773557158017,
336
- "grad_norm": 6.070940971374512,
337
- "learning_rate": 4.984912263092641e-05,
338
- "loss": 0.2131197214126587,
339
- "step": 920
340
- },
341
- {
342
- "epoch": 0.12567159938835365,
343
- "grad_norm": 1.4912281036376953,
344
- "learning_rate": 4.984246917582166e-05,
345
- "loss": 0.25128653049468996,
346
- "step": 940
347
- },
348
- {
349
- "epoch": 0.12834546320512713,
350
- "grad_norm": 7.000472545623779,
351
- "learning_rate": 4.9835672628832366e-05,
352
- "loss": 0.2653592586517334,
353
- "step": 960
354
- },
355
- {
356
- "epoch": 0.1310193270219006,
357
- "grad_norm": 5.427223205566406,
358
- "learning_rate": 4.9828733029106434e-05,
359
- "loss": 0.1653295636177063,
360
- "step": 980
361
- },
362
- {
363
- "epoch": 0.1336931908386741,
364
- "grad_norm": 1.9502102136611938,
365
- "learning_rate": 4.982165041661575e-05,
366
- "loss": 0.2250870943069458,
367
- "step": 1000
368
- },
369
- {
370
- "epoch": 0.13636705465544757,
371
- "grad_norm": 0.6216259598731995,
372
- "learning_rate": 4.981442483215595e-05,
373
- "loss": 0.18943849802017212,
374
- "step": 1020
375
- },
376
- {
377
- "epoch": 0.13904091847222105,
378
- "grad_norm": 2.3363687992095947,
379
- "learning_rate": 4.98070563173462e-05,
380
- "loss": 0.1673592209815979,
381
- "step": 1040
382
- },
383
- {
384
- "epoch": 0.14171478228899453,
385
- "grad_norm": 1.040717601776123,
386
- "learning_rate": 4.979954491462892e-05,
387
- "loss": 0.2113173007965088,
388
- "step": 1060
389
- },
390
- {
391
- "epoch": 0.14438864610576801,
392
- "grad_norm": 2.735522747039795,
393
- "learning_rate": 4.979189066726955e-05,
394
- "loss": 0.17504971027374266,
395
- "step": 1080
396
- },
397
- {
398
- "epoch": 0.1470625099225415,
399
- "grad_norm": 4.701151371002197,
400
- "learning_rate": 4.978409361935636e-05,
401
- "loss": 0.15881222486495972,
402
- "step": 1100
403
- },
404
- {
405
- "epoch": 0.14973637373931498,
406
- "grad_norm": 2.735919237136841,
407
- "learning_rate": 4.9776153815800075e-05,
408
- "loss": 0.14044179916381835,
409
- "step": 1120
410
- },
411
- {
412
- "epoch": 0.15241023755608848,
413
- "grad_norm": 3.5479538440704346,
414
- "learning_rate": 4.976807130233375e-05,
415
- "loss": 0.18565714359283447,
416
- "step": 1140
417
- },
418
- {
419
- "epoch": 0.15508410137286197,
420
- "grad_norm": 3.2167458534240723,
421
- "learning_rate": 4.975984612551243e-05,
422
- "loss": 0.13236271142959594,
423
- "step": 1160
424
- },
425
- {
426
- "epoch": 0.15775796518963545,
427
- "grad_norm": 1.0206760168075562,
428
- "learning_rate": 4.975147833271288e-05,
429
- "loss": 0.19124728441238403,
430
- "step": 1180
431
- },
432
- {
433
- "epoch": 0.16043182900640893,
434
- "grad_norm": 4.194457530975342,
435
- "learning_rate": 4.9742967972133335e-05,
436
- "loss": 0.144741427898407,
437
- "step": 1200
438
- },
439
- {
440
- "epoch": 0.1631056928231824,
441
- "grad_norm": 3.0225746631622314,
442
- "learning_rate": 4.973431509279323e-05,
443
- "loss": 0.1374324679374695,
444
- "step": 1220
445
- },
446
- {
447
- "epoch": 0.1657795566399559,
448
- "grad_norm": 4.243523120880127,
449
- "learning_rate": 4.972551974453287e-05,
450
- "loss": 0.13663809299468993,
451
- "step": 1240
452
- },
453
- {
454
- "epoch": 0.16845342045672937,
455
- "grad_norm": 2.4990086555480957,
456
- "learning_rate": 4.971658197801322e-05,
457
- "loss": 0.16817957162857056,
458
- "step": 1260
459
- },
460
- {
461
- "epoch": 0.17112728427350285,
462
- "grad_norm": 4.983982563018799,
463
- "learning_rate": 4.9707501844715554e-05,
464
- "loss": 0.13795313835144044,
465
- "step": 1280
466
- },
467
- {
468
- "epoch": 0.17380114809027633,
469
- "grad_norm": 3.6780316829681396,
470
- "learning_rate": 4.969827939694115e-05,
471
- "loss": 0.1637880802154541,
472
- "step": 1300
473
- },
474
- {
475
- "epoch": 0.1764750119070498,
476
- "grad_norm": 0.7950732707977295,
477
- "learning_rate": 4.968891468781105e-05,
478
- "loss": 0.10979138612747193,
479
- "step": 1320
480
- },
481
- {
482
- "epoch": 0.1791488757238233,
483
- "grad_norm": 1.2414121627807617,
484
- "learning_rate": 4.967940777126569e-05,
485
- "loss": 0.13692171573638917,
486
- "step": 1340
487
- },
488
- {
489
- "epoch": 0.18182273954059677,
490
- "grad_norm": 2.1383633613586426,
491
- "learning_rate": 4.9669758702064636e-05,
492
- "loss": 0.07821698188781738,
493
- "step": 1360
494
- },
495
- {
496
- "epoch": 0.18449660335737025,
497
- "grad_norm": 5.061275959014893,
498
- "learning_rate": 4.965996753578623e-05,
499
- "loss": 0.19053516387939454,
500
- "step": 1380
501
- },
502
- {
503
- "epoch": 0.18717046717414373,
504
- "grad_norm": 6.151792049407959,
505
- "learning_rate": 4.9650034328827305e-05,
506
- "loss": 0.11360721588134766,
507
- "step": 1400
508
- },
509
- {
510
- "epoch": 0.18984433099091721,
511
- "grad_norm": 1.0604305267333984,
512
- "learning_rate": 4.963995913840284e-05,
513
- "loss": 0.13138024806976317,
514
- "step": 1420
515
- },
516
- {
517
- "epoch": 0.1925181948076907,
518
- "grad_norm": 1.7159489393234253,
519
- "learning_rate": 4.9629742022545623e-05,
520
- "loss": 0.08657677173614502,
521
- "step": 1440
522
- },
523
- {
524
- "epoch": 0.19519205862446418,
525
- "grad_norm": 2.4207754135131836,
526
- "learning_rate": 4.961938304010595e-05,
527
- "loss": 0.10309149026870727,
528
- "step": 1460
529
- },
530
- {
531
- "epoch": 0.19786592244123766,
532
- "grad_norm": 1.532060146331787,
533
- "learning_rate": 4.9608882250751245e-05,
534
- "loss": 0.13628544807434081,
535
- "step": 1480
536
- },
537
- {
538
- "epoch": 0.20053978625801114,
539
- "grad_norm": 6.409943580627441,
540
- "learning_rate": 4.959823971496574e-05,
541
- "loss": 0.10584845542907714,
542
- "step": 1500
543
- },
544
- {
545
- "epoch": 0.20321365007478462,
546
- "grad_norm": 2.452012538909912,
547
- "learning_rate": 4.9587455494050136e-05,
548
- "loss": 0.06506187915802002,
549
- "step": 1520
550
- },
551
- {
552
- "epoch": 0.2058875138915581,
553
- "grad_norm": 5.3016533851623535,
554
- "learning_rate": 4.9576529650121214e-05,
555
- "loss": 0.11848526000976563,
556
- "step": 1540
557
- },
558
- {
559
- "epoch": 0.20856137770833158,
560
- "grad_norm": 4.341775894165039,
561
- "learning_rate": 4.956546224611152e-05,
562
- "loss": 0.11318533420562744,
563
- "step": 1560
564
- },
565
- {
566
- "epoch": 0.21123524152510506,
567
- "grad_norm": 1.9056169986724854,
568
- "learning_rate": 4.9554253345768965e-05,
569
- "loss": 0.12768398523330687,
570
- "step": 1580
571
- },
572
- {
573
- "epoch": 0.21390910534187857,
574
- "grad_norm": 1.8939746618270874,
575
- "learning_rate": 4.9542903013656486e-05,
576
- "loss": 0.10782338380813598,
577
- "step": 1600
578
- },
579
- {
580
- "epoch": 0.21658296915865205,
581
- "grad_norm": 8.53671932220459,
582
- "learning_rate": 4.9531411315151654e-05,
583
- "loss": 0.1733921766281128,
584
- "step": 1620
585
- },
586
- {
587
- "epoch": 0.21925683297542553,
588
- "grad_norm": 2.0152978897094727,
589
- "learning_rate": 4.951977831644632e-05,
590
- "loss": 0.11197054386138916,
591
- "step": 1640
592
- },
593
- {
594
- "epoch": 0.221930696792199,
595
- "grad_norm": 3.8422367572784424,
596
- "learning_rate": 4.95080040845462e-05,
597
- "loss": 0.11441781520843505,
598
- "step": 1660
599
- },
600
- {
601
- "epoch": 0.2246045606089725,
602
- "grad_norm": 1.819858193397522,
603
- "learning_rate": 4.949608868727053e-05,
604
- "loss": 0.11403474807739258,
605
- "step": 1680
606
- },
607
- {
608
- "epoch": 0.22727842442574597,
609
- "grad_norm": 7.45100212097168,
610
- "learning_rate": 4.948403219325163e-05,
611
- "loss": 0.13117753267288207,
612
- "step": 1700
613
- },
614
- {
615
- "epoch": 0.22995228824251945,
616
- "grad_norm": 0.6526040434837341,
617
- "learning_rate": 4.947183467193456e-05,
618
- "loss": 0.07524924874305725,
619
- "step": 1720
620
- },
621
- {
622
- "epoch": 0.23262615205929293,
623
- "grad_norm": 3.814746856689453,
624
- "learning_rate": 4.945949619357668e-05,
625
- "loss": 0.07659345269203185,
626
- "step": 1740
627
- },
628
- {
629
- "epoch": 0.23530001587606642,
630
- "grad_norm": 2.373124122619629,
631
- "learning_rate": 4.944701682924726e-05,
632
- "loss": 0.1147496223449707,
633
- "step": 1760
634
- },
635
- {
636
- "epoch": 0.2379738796928399,
637
- "grad_norm": 0.11161285638809204,
638
- "learning_rate": 4.943439665082707e-05,
639
- "loss": 0.07256829738616943,
640
- "step": 1780
641
- },
642
- {
643
- "epoch": 0.24064774350961338,
644
- "grad_norm": 0.45990192890167236,
645
- "learning_rate": 4.942163573100794e-05,
646
- "loss": 0.07726740837097168,
647
- "step": 1800
648
- },
649
- {
650
- "epoch": 0.24332160732638686,
651
- "grad_norm": 4.2301926612854,
652
- "learning_rate": 4.940873414329242e-05,
653
- "loss": 0.09349535703659058,
654
- "step": 1820
655
- },
656
- {
657
- "epoch": 0.24599547114316034,
658
- "grad_norm": 2.442178726196289,
659
- "learning_rate": 4.939569196199325e-05,
660
- "loss": 0.12413722276687622,
661
- "step": 1840
662
- },
663
- {
664
- "epoch": 0.24866933495993382,
665
- "grad_norm": 2.523683786392212,
666
- "learning_rate": 4.938250926223302e-05,
667
- "loss": 0.08566288352012634,
668
- "step": 1860
669
- },
670
- {
671
- "epoch": 0.2513431987767073,
672
- "grad_norm": 3.511075258255005,
673
- "learning_rate": 4.936918611994368e-05,
674
- "loss": 0.08007702231407166,
675
- "step": 1880
676
- },
677
- {
678
- "epoch": 0.2540170625934808,
679
- "grad_norm": 6.254627704620361,
680
- "learning_rate": 4.935572261186614e-05,
681
- "loss": 0.10983954668045044,
682
- "step": 1900
683
- },
684
- {
685
- "epoch": 0.25669092641025426,
686
- "grad_norm": 1.5211899280548096,
687
- "learning_rate": 4.934211881554981e-05,
688
- "loss": 0.09120344519615173,
689
- "step": 1920
690
- },
691
- {
692
- "epoch": 0.25936479022702774,
693
- "grad_norm": 2.5893588066101074,
694
- "learning_rate": 4.932837480935214e-05,
695
- "loss": 0.08754412531852722,
696
- "step": 1940
697
- },
698
- {
699
- "epoch": 0.2620386540438012,
700
- "grad_norm": 6.878556251525879,
701
- "learning_rate": 4.931449067243821e-05,
702
- "loss": 0.08636274933815002,
703
- "step": 1960
704
- },
705
- {
706
- "epoch": 0.2647125178605747,
707
- "grad_norm": 2.9078798294067383,
708
- "learning_rate": 4.9300466484780226e-05,
709
- "loss": 0.09582929015159607,
710
- "step": 1980
711
- },
712
- {
713
- "epoch": 0.2673863816773482,
714
- "grad_norm": 3.391852855682373,
715
- "learning_rate": 4.92863023271571e-05,
716
- "loss": 0.0850919783115387,
717
- "step": 2000
718
- },
719
- {
720
- "epoch": 0.27006024549412166,
721
- "grad_norm": 5.522103309631348,
722
- "learning_rate": 4.927199828115395e-05,
723
- "loss": 0.050999772548675534,
724
- "step": 2020
725
- },
726
- {
727
- "epoch": 0.27273410931089515,
728
- "grad_norm": 0.90350741147995,
729
- "learning_rate": 4.925755442916167e-05,
730
- "loss": 0.10100446939468384,
731
- "step": 2040
732
- },
733
- {
734
- "epoch": 0.2754079731276686,
735
- "grad_norm": 1.602030634880066,
736
- "learning_rate": 4.924297085437641e-05,
737
- "loss": 0.0468633770942688,
738
- "step": 2060
739
- },
740
- {
741
- "epoch": 0.2780818369444421,
742
- "grad_norm": 1.5823460817337036,
743
- "learning_rate": 4.922824764079913e-05,
744
- "loss": 0.06786358952522278,
745
- "step": 2080
746
- },
747
- {
748
- "epoch": 0.2807557007612156,
749
- "grad_norm": 1.6624343395233154,
750
- "learning_rate": 4.92133848732351e-05,
751
- "loss": 0.05772828459739685,
752
- "step": 2100
753
- },
754
- {
755
- "epoch": 0.28342956457798907,
756
- "grad_norm": 0.947078287601471,
757
- "learning_rate": 4.9198382637293424e-05,
758
- "loss": 0.08012173175811768,
759
- "step": 2120
760
- },
761
- {
762
- "epoch": 0.28610342839476255,
763
- "grad_norm": 0.2919924259185791,
764
- "learning_rate": 4.918324101938653e-05,
765
- "loss": 0.1208539366722107,
766
- "step": 2140
767
- },
768
- {
769
- "epoch": 0.28877729221153603,
770
- "grad_norm": 9.258247375488281,
771
- "learning_rate": 4.916796010672969e-05,
772
- "loss": 0.10037034749984741,
773
- "step": 2160
774
- },
775
- {
776
- "epoch": 0.2914511560283095,
777
- "grad_norm": 4.0920491218566895,
778
- "learning_rate": 4.915253998734051e-05,
779
- "loss": 0.061488878726959226,
780
- "step": 2180
781
- },
782
- {
783
- "epoch": 0.294125019845083,
784
- "grad_norm": 6.1126627922058105,
785
- "learning_rate": 4.913698075003841e-05,
786
- "loss": 0.0862967312335968,
787
- "step": 2200
788
- },
789
- {
790
- "epoch": 0.29679888366185647,
791
- "grad_norm": 2.585484743118286,
792
- "learning_rate": 4.912128248444414e-05,
793
- "loss": 0.05393874645233154,
794
- "step": 2220
795
- },
796
- {
797
- "epoch": 0.29947274747862995,
798
- "grad_norm": 6.944481372833252,
799
- "learning_rate": 4.9105445280979256e-05,
800
- "loss": 0.08570566773414612,
801
- "step": 2240
802
- },
803
- {
804
- "epoch": 0.30214661129540343,
805
- "grad_norm": 1.3824089765548706,
806
- "learning_rate": 4.908946923086556e-05,
807
- "loss": 0.09689127206802368,
808
- "step": 2260
809
- },
810
- {
811
- "epoch": 0.30482047511217697,
812
- "grad_norm": 3.4861342906951904,
813
- "learning_rate": 4.907335442612464e-05,
814
- "loss": 0.12550976276397705,
815
- "step": 2280
816
- },
817
- {
818
- "epoch": 0.30749433892895045,
819
- "grad_norm": 3.668980121612549,
820
- "learning_rate": 4.905710095957728e-05,
821
- "loss": 0.09089353680610657,
822
- "step": 2300
823
- },
824
- {
825
- "epoch": 0.31016820274572393,
826
- "grad_norm": 1.093095064163208,
827
- "learning_rate": 4.904070892484298e-05,
828
- "loss": 0.03925192356109619,
829
- "step": 2320
830
- },
831
- {
832
- "epoch": 0.3128420665624974,
833
- "grad_norm": 0.8169485926628113,
834
- "learning_rate": 4.9024178416339364e-05,
835
- "loss": 0.0979581356048584,
836
- "step": 2340
837
- },
838
- {
839
- "epoch": 0.3155159303792709,
840
- "grad_norm": 1.892451286315918,
841
- "learning_rate": 4.900750952928166e-05,
842
- "loss": 0.05913209915161133,
843
- "step": 2360
844
- },
845
- {
846
- "epoch": 0.3181897941960444,
847
- "grad_norm": 0.24644255638122559,
848
- "learning_rate": 4.8990702359682184e-05,
849
- "loss": 0.06815173625946044,
850
- "step": 2380
851
- },
852
- {
853
- "epoch": 0.32086365801281785,
854
- "grad_norm": 2.1861305236816406,
855
- "learning_rate": 4.897375700434972e-05,
856
- "loss": 0.04142785966396332,
857
- "step": 2400
858
- },
859
- {
860
- "epoch": 0.32353752182959133,
861
- "grad_norm": 2.6643004417419434,
862
- "learning_rate": 4.8956673560889013e-05,
863
- "loss": 0.05177200436592102,
864
- "step": 2420
865
- },
866
- {
867
- "epoch": 0.3262113856463648,
868
- "grad_norm": 2.588113784790039,
869
- "learning_rate": 4.8939452127700195e-05,
870
- "loss": 0.05783546566963196,
871
- "step": 2440
872
- },
873
- {
874
- "epoch": 0.3288852494631383,
875
- "grad_norm": 2.419644594192505,
876
- "learning_rate": 4.8922092803978203e-05,
877
- "loss": 0.08906854391098022,
878
- "step": 2460
879
- },
880
- {
881
- "epoch": 0.3315591132799118,
882
- "grad_norm": 0.16949939727783203,
883
- "learning_rate": 4.890459568971223e-05,
884
- "loss": 0.10305211544036866,
885
- "step": 2480
886
- },
887
- {
888
- "epoch": 0.33423297709668526,
889
- "grad_norm": 0.10032984614372253,
890
- "learning_rate": 4.8886960885685126e-05,
891
- "loss": 0.06348527669906616,
892
- "step": 2500
893
- },
894
- {
895
- "epoch": 0.33690684091345874,
896
- "grad_norm": 3.3658738136291504,
897
- "learning_rate": 4.8869188493472854e-05,
898
- "loss": 0.06826075911521912,
899
- "step": 2520
900
- },
901
- {
902
- "epoch": 0.3395807047302322,
903
- "grad_norm": 0.8656186461448669,
904
- "learning_rate": 4.885127861544386e-05,
905
- "loss": 0.05929765701293945,
906
- "step": 2540
907
- },
908
- {
909
- "epoch": 0.3422545685470057,
910
- "grad_norm": 0.1492065042257309,
911
- "learning_rate": 4.8833231354758496e-05,
912
- "loss": 0.09429731965065002,
913
- "step": 2560
914
- },
915
- {
916
- "epoch": 0.3449284323637792,
917
- "grad_norm": 0.6010928153991699,
918
- "learning_rate": 4.881504681536846e-05,
919
- "loss": 0.06262240409851075,
920
- "step": 2580
921
- },
922
- {
923
- "epoch": 0.34760229618055266,
924
- "grad_norm": 1.6506450176239014,
925
- "learning_rate": 4.879672510201616e-05,
926
- "loss": 0.061688083410263064,
927
- "step": 2600
928
- },
929
- {
930
- "epoch": 0.35027615999732614,
931
- "grad_norm": 0.2703142464160919,
932
- "learning_rate": 4.877826632023412e-05,
933
- "loss": 0.06175137162208557,
934
- "step": 2620
935
- },
936
- {
937
- "epoch": 0.3529500238140996,
938
- "grad_norm": 3.1056365966796875,
939
- "learning_rate": 4.875967057634437e-05,
940
- "loss": 0.07828506827354431,
941
- "step": 2640
942
- },
943
- {
944
- "epoch": 0.3556238876308731,
945
- "grad_norm": 0.28790283203125,
946
- "learning_rate": 4.874093797745784e-05,
947
- "loss": 0.11355981826782227,
948
- "step": 2660
949
- },
950
- {
951
- "epoch": 0.3582977514476466,
952
- "grad_norm": 2.3372068405151367,
953
- "learning_rate": 4.8722068631473746e-05,
954
- "loss": 0.048267871141433716,
955
- "step": 2680
956
- },
957
- {
958
- "epoch": 0.36097161526442006,
959
- "grad_norm": 0.12767371535301208,
960
- "learning_rate": 4.8703062647078976e-05,
961
- "loss": 0.04319801032543182,
962
- "step": 2700
963
- },
964
- {
965
- "epoch": 0.36364547908119355,
966
- "grad_norm": 0.5145738124847412,
967
- "learning_rate": 4.868392013374741e-05,
968
- "loss": 0.0773090660572052,
969
- "step": 2720
970
- },
971
- {
972
- "epoch": 0.366319342897967,
973
- "grad_norm": 0.8518500328063965,
974
- "learning_rate": 4.866464120173937e-05,
975
- "loss": 0.05149460434913635,
976
- "step": 2740
977
- },
978
- {
979
- "epoch": 0.3689932067147405,
980
- "grad_norm": 3.6726584434509277,
981
- "learning_rate": 4.8645225962100924e-05,
982
- "loss": 0.06896821856498718,
983
- "step": 2760
984
- },
985
- {
986
- "epoch": 0.371667070531514,
987
- "grad_norm": 1.5626497268676758,
988
- "learning_rate": 4.862567452666329e-05,
989
- "loss": 0.047730174660682675,
990
- "step": 2780
991
- },
992
- {
993
- "epoch": 0.37434093434828747,
994
- "grad_norm": 6.562028884887695,
995
- "learning_rate": 4.8605987008042144e-05,
996
- "loss": 0.07060698866844177,
997
- "step": 2800
998
- },
999
- {
1000
- "epoch": 0.37701479816506095,
1001
- "grad_norm": 0.7631726861000061,
1002
- "learning_rate": 4.8586163519637005e-05,
1003
- "loss": 0.04944324493408203,
1004
- "step": 2820
1005
- },
1006
- {
1007
- "epoch": 0.37968866198183443,
1008
- "grad_norm": 1.6982293128967285,
1009
- "learning_rate": 4.8566204175630595e-05,
1010
- "loss": 0.03000348210334778,
1011
- "step": 2840
1012
- },
1013
- {
1014
- "epoch": 0.3823625257986079,
1015
- "grad_norm": 0.6487429141998291,
1016
- "learning_rate": 4.854610909098812e-05,
1017
- "loss": 0.06691416501998901,
1018
- "step": 2860
1019
- },
1020
- {
1021
- "epoch": 0.3850363896153814,
1022
- "grad_norm": 0.7648892402648926,
1023
- "learning_rate": 4.852587838145668e-05,
1024
- "loss": 0.05529783964157105,
1025
- "step": 2880
1026
- },
1027
- {
1028
- "epoch": 0.38771025343215487,
1029
- "grad_norm": 0.11601298302412033,
1030
- "learning_rate": 4.850551216356457e-05,
1031
- "loss": 0.07780832052230835,
1032
- "step": 2900
1033
- },
1034
- {
1035
- "epoch": 0.39038411724892835,
1036
- "grad_norm": 0.9443137645721436,
1037
- "learning_rate": 4.8485010554620594e-05,
1038
- "loss": 0.08007023930549621,
1039
- "step": 2920
1040
- },
1041
- {
1042
- "epoch": 0.39305798106570183,
1043
- "grad_norm": 0.8828252553939819,
1044
- "learning_rate": 4.846437367271341e-05,
1045
- "loss": 0.03541453182697296,
1046
- "step": 2940
1047
- },
1048
- {
1049
- "epoch": 0.3957318448824753,
1050
- "grad_norm": 0.21668888628482819,
1051
- "learning_rate": 4.844360163671083e-05,
1052
- "loss": 0.08354364633560181,
1053
- "step": 2960
1054
- },
1055
- {
1056
- "epoch": 0.3984057086992488,
1057
- "grad_norm": 0.6840483546257019,
1058
- "learning_rate": 4.8422694566259194e-05,
1059
- "loss": 0.045807772874832155,
1060
- "step": 2980
1061
- },
1062
- {
1063
- "epoch": 0.4010795725160223,
1064
- "grad_norm": 1.2754698991775513,
1065
- "learning_rate": 4.8401652581782584e-05,
1066
- "loss": 0.053487342596054074,
1067
- "step": 3000
1068
- },
1069
- {
1070
- "epoch": 0.40375343633279576,
1071
- "grad_norm": 0.19012756645679474,
1072
- "learning_rate": 4.838047580448222e-05,
1073
- "loss": 0.05881953239440918,
1074
- "step": 3020
1075
- },
1076
- {
1077
- "epoch": 0.40642730014956924,
1078
- "grad_norm": 2.1057698726654053,
1079
- "learning_rate": 4.835916435633569e-05,
1080
- "loss": 0.031065690517425536,
1081
- "step": 3040
1082
- },
1083
- {
1084
- "epoch": 0.4091011639663427,
1085
- "grad_norm": 4.188559055328369,
1086
- "learning_rate": 4.833771836009633e-05,
1087
- "loss": 0.07205432653427124,
1088
- "step": 3060
1089
- },
1090
- {
1091
- "epoch": 0.4117750277831162,
1092
- "grad_norm": 6.975829124450684,
1093
- "learning_rate": 4.831613793929242e-05,
1094
- "loss": 0.04953635036945343,
1095
- "step": 3080
1096
- },
1097
- {
1098
- "epoch": 0.4144488915998897,
1099
- "grad_norm": 4.725269317626953,
1100
- "learning_rate": 4.8294423218226546e-05,
1101
- "loss": 0.05965519547462463,
1102
- "step": 3100
1103
- },
1104
- {
1105
- "epoch": 0.41712275541666316,
1106
- "grad_norm": 1.7124755382537842,
1107
- "learning_rate": 4.827257432197486e-05,
1108
- "loss": 0.039625433087348935,
1109
- "step": 3120
1110
- },
1111
- {
1112
- "epoch": 0.41979661923343664,
1113
- "grad_norm": 2.6687324047088623,
1114
- "learning_rate": 4.825059137638636e-05,
1115
- "loss": 0.05020809769630432,
1116
- "step": 3140
1117
- },
1118
- {
1119
- "epoch": 0.4224704830502101,
1120
- "grad_norm": 1.111640214920044,
1121
- "learning_rate": 4.822847450808215e-05,
1122
- "loss": 0.04404452443122864,
1123
- "step": 3160
1124
- },
1125
- {
1126
- "epoch": 0.42514434686698366,
1127
- "grad_norm": 0.2128070890903473,
1128
- "learning_rate": 4.8206223844454744e-05,
1129
- "loss": 0.08283355236053466,
1130
- "step": 3180
1131
- },
1132
- {
1133
- "epoch": 0.42781821068375714,
1134
- "grad_norm": 0.10757248103618622,
1135
- "learning_rate": 4.818383951366729e-05,
1136
- "loss": 0.08568671345710754,
1137
- "step": 3200
1138
- },
1139
- {
1140
- "epoch": 0.4304920745005306,
1141
- "grad_norm": 0.08344592899084091,
1142
- "learning_rate": 4.816132164465289e-05,
1143
- "loss": 0.0426956832408905,
1144
- "step": 3220
1145
- },
1146
- {
1147
- "epoch": 0.4331659383173041,
1148
- "grad_norm": 0.5657751560211182,
1149
- "learning_rate": 4.813867036711378e-05,
1150
- "loss": 0.04971776902675629,
1151
- "step": 3240
1152
- },
1153
- {
1154
- "epoch": 0.4358398021340776,
1155
- "grad_norm": 2.1529288291931152,
1156
- "learning_rate": 4.8115885811520654e-05,
1157
- "loss": 0.025386181473731995,
1158
- "step": 3260
1159
- },
1160
- {
1161
- "epoch": 0.43851366595085106,
1162
- "grad_norm": 4.228519916534424,
1163
- "learning_rate": 4.809296810911188e-05,
1164
- "loss": 0.06401395201683044,
1165
- "step": 3280
1166
- },
1167
- {
1168
- "epoch": 0.44118752976762454,
1169
- "grad_norm": 6.770420551300049,
1170
- "learning_rate": 4.806991739189274e-05,
1171
- "loss": 0.16425553560256959,
1172
- "step": 3300
1173
- },
1174
- {
1175
- "epoch": 0.443861393584398,
1176
- "grad_norm": 0.5303187370300293,
1177
- "learning_rate": 4.804673379263467e-05,
1178
- "loss": 0.045900467038154605,
1179
- "step": 3320
1180
- },
1181
- {
1182
- "epoch": 0.4465352574011715,
1183
- "grad_norm": 0.221473827958107,
1184
- "learning_rate": 4.802341744487453e-05,
1185
- "loss": 0.07529735565185547,
1186
- "step": 3340
1187
- },
1188
- {
1189
- "epoch": 0.449209121217945,
1190
- "grad_norm": 3.48736834526062,
1191
- "learning_rate": 4.799996848291378e-05,
1192
- "loss": 0.062433135509490964,
1193
- "step": 3360
1194
- },
1195
- {
1196
- "epoch": 0.45188298503471847,
1197
- "grad_norm": 2.650038242340088,
1198
- "learning_rate": 4.797638704181774e-05,
1199
- "loss": 0.03762982189655304,
1200
- "step": 3380
1201
- },
1202
- {
1203
- "epoch": 0.45455684885149195,
1204
- "grad_norm": 3.159665584564209,
1205
- "learning_rate": 4.795267325741483e-05,
1206
- "loss": 0.04745924174785614,
1207
- "step": 3400
1208
- },
1209
- {
1210
- "epoch": 0.4572307126682654,
1211
- "grad_norm": 0.8763885498046875,
1212
- "learning_rate": 4.7928827266295715e-05,
1213
- "loss": 0.07380253076553345,
1214
- "step": 3420
1215
- },
1216
- {
1217
- "epoch": 0.4599045764850389,
1218
- "grad_norm": 0.1779366433620453,
1219
- "learning_rate": 4.790484920581262e-05,
1220
- "loss": 0.045916372537612916,
1221
- "step": 3440
1222
- },
1223
- {
1224
- "epoch": 0.4625784403018124,
1225
- "grad_norm": 1.1228729486465454,
1226
- "learning_rate": 4.7880739214078454e-05,
1227
- "loss": 0.04461723566055298,
1228
- "step": 3460
1229
- },
1230
- {
1231
- "epoch": 0.46525230411858587,
1232
- "grad_norm": 0.1629919707775116,
1233
- "learning_rate": 4.785649742996605e-05,
1234
- "loss": 0.017159442603588104,
1235
- "step": 3480
1236
- },
1237
- {
1238
- "epoch": 0.46792616793535935,
1239
- "grad_norm": 3.583951473236084,
1240
- "learning_rate": 4.783212399310737e-05,
1241
- "loss": 0.047145146131515506,
1242
- "step": 3500
1243
- },
1244
- {
1245
- "epoch": 0.47060003175213283,
1246
- "grad_norm": 0.9766237139701843,
1247
- "learning_rate": 4.780761904389267e-05,
1248
- "loss": 0.050229442119598386,
1249
- "step": 3520
1250
- },
1251
- {
1252
- "epoch": 0.4732738955689063,
1253
- "grad_norm": 0.05617872253060341,
1254
- "learning_rate": 4.778298272346976e-05,
1255
- "loss": 0.024862812459468843,
1256
- "step": 3540
1257
- },
1258
- {
1259
- "epoch": 0.4759477593856798,
1260
- "grad_norm": 1.3586453199386597,
1261
- "learning_rate": 4.775821517374308e-05,
1262
- "loss": 0.02117772251367569,
1263
- "step": 3560
1264
- },
1265
- {
1266
- "epoch": 0.4786216232024533,
1267
- "grad_norm": 1.2116742134094238,
1268
- "learning_rate": 4.7733316537373006e-05,
1269
- "loss": 0.03060794174671173,
1270
- "step": 3580
1271
- },
1272
- {
1273
- "epoch": 0.48129548701922675,
1274
- "grad_norm": 0.39403238892555237,
1275
- "learning_rate": 4.770828695777493e-05,
1276
- "loss": 0.05482668280601501,
1277
- "step": 3600
1278
- },
1279
- {
1280
- "epoch": 0.48396935083600023,
1281
- "grad_norm": 0.9248486161231995,
1282
- "learning_rate": 4.7683126579118495e-05,
1283
- "loss": 0.03612814247608185,
1284
- "step": 3620
1285
- },
1286
- {
1287
- "epoch": 0.4866432146527737,
1288
- "grad_norm": 0.1624649167060852,
1289
- "learning_rate": 4.7657835546326736e-05,
1290
- "loss": 0.04334873259067536,
1291
- "step": 3640
1292
- },
1293
- {
1294
- "epoch": 0.4893170784695472,
1295
- "grad_norm": 0.5321119427680969,
1296
- "learning_rate": 4.763241400507524e-05,
1297
- "loss": 0.0461233913898468,
1298
- "step": 3660
1299
- },
1300
- {
1301
- "epoch": 0.4919909422863207,
1302
- "grad_norm": 0.34861093759536743,
1303
- "learning_rate": 4.760686210179133e-05,
1304
- "loss": 0.024829554557800292,
1305
- "step": 3680
1306
- },
1307
- {
1308
- "epoch": 0.49466480610309416,
1309
- "grad_norm": 1.2561241388320923,
1310
- "learning_rate": 4.758117998365322e-05,
1311
- "loss": 0.03157005608081818,
1312
- "step": 3700
1313
- },
1314
- {
1315
- "epoch": 0.49733866991986764,
1316
- "grad_norm": 0.8691341280937195,
1317
- "learning_rate": 4.7555367798589146e-05,
1318
- "loss": 0.04310203492641449,
1319
- "step": 3720
1320
- },
1321
- {
1322
- "epoch": 0.5000125337366411,
1323
- "grad_norm": 0.3134572505950928,
1324
- "learning_rate": 4.752942569527653e-05,
1325
- "loss": 0.03796039223670959,
1326
- "step": 3740
1327
- },
1328
- {
1329
- "epoch": 0.5026863975534146,
1330
- "grad_norm": 2.3359289169311523,
1331
- "learning_rate": 4.75033538231411e-05,
1332
- "loss": 0.055599170923233035,
1333
- "step": 3760
1334
- },
1335
- {
1336
- "epoch": 0.5053602613701881,
1337
- "grad_norm": 7.426175594329834,
1338
- "learning_rate": 4.747715233235608e-05,
1339
- "loss": 0.054436272382736205,
1340
- "step": 3780
1341
- },
1342
- {
1343
- "epoch": 0.5080341251869616,
1344
- "grad_norm": 0.5940203070640564,
1345
- "learning_rate": 4.745082137384128e-05,
1346
- "loss": 0.03682814538478851,
1347
- "step": 3800
1348
- },
1349
- {
1350
- "epoch": 0.510707989003735,
1351
- "grad_norm": 0.22821389138698578,
1352
- "learning_rate": 4.7424361099262225e-05,
1353
- "loss": 0.051123309135437014,
1354
- "step": 3820
1355
- },
1356
- {
1357
- "epoch": 0.5133818528205085,
1358
- "grad_norm": 8.20633602142334,
1359
- "learning_rate": 4.739777166102932e-05,
1360
- "loss": 0.0704378604888916,
1361
- "step": 3840
1362
- },
1363
- {
1364
- "epoch": 0.516055716637282,
1365
- "grad_norm": 3.023848533630371,
1366
- "learning_rate": 4.737105321229694e-05,
1367
- "loss": 0.03368058800697327,
1368
- "step": 3860
1369
- },
1370
- {
1371
- "epoch": 0.5187295804540555,
1372
- "grad_norm": 0.07666649669408798,
1373
- "learning_rate": 4.7344205906962555e-05,
1374
- "loss": 0.03665303289890289,
1375
- "step": 3880
1376
- },
1377
- {
1378
- "epoch": 0.521403444270829,
1379
- "grad_norm": 0.7571629881858826,
1380
- "learning_rate": 4.731722989966585e-05,
1381
- "loss": 0.058415502309799194,
1382
- "step": 3900
1383
- },
1384
- {
1385
- "epoch": 0.5240773080876024,
1386
- "grad_norm": 3.2599120140075684,
1387
- "learning_rate": 4.7290125345787816e-05,
1388
- "loss": 0.07323018908500671,
1389
- "step": 3920
1390
- },
1391
- {
1392
- "epoch": 0.5267511719043759,
1393
- "grad_norm": 0.28930988907814026,
1394
- "learning_rate": 4.7262892401449886e-05,
1395
- "loss": 0.054371267557144165,
1396
- "step": 3940
1397
- },
1398
- {
1399
- "epoch": 0.5294250357211494,
1400
- "grad_norm": 2.2296454906463623,
1401
- "learning_rate": 4.7235531223513004e-05,
1402
- "loss": 0.040819621086120604,
1403
- "step": 3960
1404
- },
1405
- {
1406
- "epoch": 0.5320988995379229,
1407
- "grad_norm": 0.11608211696147919,
1408
- "learning_rate": 4.720804196957675e-05,
1409
- "loss": 0.05215579271316528,
1410
- "step": 3980
1411
- },
1412
- {
1413
- "epoch": 0.5347727633546964,
1414
- "grad_norm": 1.1587547063827515,
1415
- "learning_rate": 4.7180424797978415e-05,
1416
- "loss": 0.026277875900268553,
1417
- "step": 4000
1418
- },
1419
- {
1420
- "epoch": 0.5374466271714698,
1421
- "grad_norm": 0.06253435462713242,
1422
- "learning_rate": 4.7152679867792074e-05,
1423
- "loss": 0.02574407756328583,
1424
- "step": 4020
1425
- },
1426
- {
1427
- "epoch": 0.5401204909882433,
1428
- "grad_norm": 1.3441458940505981,
1429
- "learning_rate": 4.71248073388277e-05,
1430
- "loss": 0.05538107752799988,
1431
- "step": 4040
1432
- },
1433
- {
1434
- "epoch": 0.5427943548050168,
1435
- "grad_norm": 0.48076340556144714,
1436
- "learning_rate": 4.7096807371630236e-05,
1437
- "loss": 0.047986540198326114,
1438
- "step": 4060
1439
- },
1440
- {
1441
- "epoch": 0.5454682186217903,
1442
- "grad_norm": 0.5924936532974243,
1443
- "learning_rate": 4.706868012747867e-05,
1444
- "loss": 0.05463914275169372,
1445
- "step": 4080
1446
- },
1447
- {
1448
- "epoch": 0.7673995566395854,
1449
- "grad_norm": 0.05143728107213974,
1450
- "learning_rate": 4.431151627307268e-05,
1451
- "loss": 0.00959376593430837,
1452
- "step": 4100
1453
- },
1454
- {
1455
- "epoch": 0.771142969110998,
1456
- "grad_norm": 1.2308074235916138,
1457
- "learning_rate": 4.425806509248848e-05,
1458
- "loss": 0.002745623141527176,
1459
- "step": 4120
1460
- },
1461
- {
1462
- "epoch": 0.7748863815824106,
1463
- "grad_norm": 2.080223798751831,
1464
- "learning_rate": 4.420439652052499e-05,
1465
- "loss": 0.012390998750925064,
1466
- "step": 4140
1467
- },
1468
- {
1469
- "epoch": 0.7786297940538233,
1470
- "grad_norm": 0.049312230199575424,
1471
- "learning_rate": 4.415051116301072e-05,
1472
- "loss": 0.004607534408569336,
1473
- "step": 4160
1474
- },
1475
- {
1476
- "epoch": 0.7823732065252359,
1477
- "grad_norm": 0.07747476547956467,
1478
- "learning_rate": 4.409640962822132e-05,
1479
- "loss": 0.034441503882408145,
1480
- "step": 4180
1481
- },
1482
- {
1483
- "epoch": 0.7861166189966485,
1484
- "grad_norm": 0.021327875554561615,
1485
- "learning_rate": 4.404209252687275e-05,
1486
- "loss": 0.009768449515104295,
1487
- "step": 4200
1488
- },
1489
- {
1490
- "epoch": 0.789860031468061,
1491
- "grad_norm": 2.406580924987793,
1492
- "learning_rate": 4.398756047211431e-05,
1493
- "loss": 0.005304037779569626,
1494
- "step": 4220
1495
- },
1496
- {
1497
- "epoch": 0.7936034439394737,
1498
- "grad_norm": 0.027869906276464462,
1499
- "learning_rate": 4.39328140795218e-05,
1500
- "loss": 0.00896073654294014,
1501
- "step": 4240
1502
- },
1503
- {
1504
- "epoch": 0.7973468564108863,
1505
- "grad_norm": 0.09702044725418091,
1506
- "learning_rate": 4.387785396709052e-05,
1507
- "loss": 0.0117533378303051,
1508
- "step": 4260
1509
- },
1510
- {
1511
- "epoch": 0.801090268882299,
1512
- "grad_norm": 0.529065728187561,
1513
- "learning_rate": 4.382268075522831e-05,
1514
- "loss": 0.0037526611238718035,
1515
- "step": 4280
1516
- },
1517
- {
1518
- "epoch": 0.8048336813537116,
1519
- "grad_norm": 0.015109462663531303,
1520
- "learning_rate": 4.3767295066748564e-05,
1521
- "loss": 0.0025708725675940513,
1522
- "step": 4300
1523
- },
1524
- {
1525
- "epoch": 0.8085770938251241,
1526
- "grad_norm": 0.7257627248764038,
1527
- "learning_rate": 4.371169752686316e-05,
1528
- "loss": 0.006234285607933998,
1529
- "step": 4320
1530
- },
1531
- {
1532
- "epoch": 0.8123205062965367,
1533
- "grad_norm": 0.016853008419275284,
1534
- "learning_rate": 4.3655888763175436e-05,
1535
- "loss": 0.0023587727919220924,
1536
- "step": 4340
1537
- },
1538
- {
1539
- "epoch": 0.8160639187679494,
1540
- "grad_norm": 0.017816167324781418,
1541
- "learning_rate": 4.3599869405673085e-05,
1542
- "loss": 0.0012389549054205417,
1543
- "step": 4360
1544
- },
1545
- {
1546
- "epoch": 0.819807331239362,
1547
- "grad_norm": 0.014672616496682167,
1548
- "learning_rate": 4.354364008672106e-05,
1549
- "loss": 0.002244691364467144,
1550
- "step": 4380
1551
- },
1552
- {
1553
- "epoch": 0.8235507437107746,
1554
- "grad_norm": 0.044869400560855865,
1555
- "learning_rate": 4.3487201441054435e-05,
1556
- "loss": 0.007713723182678223,
1557
- "step": 4400
1558
- },
1559
- {
1560
- "epoch": 0.8272941561821872,
1561
- "grad_norm": 0.06367291510105133,
1562
- "learning_rate": 4.343055410577122e-05,
1563
- "loss": 0.005743256583809852,
1564
- "step": 4420
1565
- },
1566
- {
1567
- "epoch": 0.8310375686535998,
1568
- "grad_norm": 0.1354215145111084,
1569
- "learning_rate": 4.3373698720325176e-05,
1570
- "loss": 0.009635470807552338,
1571
- "step": 4440
1572
- },
1573
- {
1574
- "epoch": 0.8347809811250124,
1575
- "grad_norm": 0.9089844822883606,
1576
- "learning_rate": 4.331663592651862e-05,
1577
- "loss": 0.01007603257894516,
1578
- "step": 4460
1579
- },
1580
- {
1581
- "epoch": 0.838524393596425,
1582
- "grad_norm": 0.025831619277596474,
1583
- "learning_rate": 4.3259366368495167e-05,
1584
- "loss": 0.006179215386509895,
1585
- "step": 4480
1586
- },
1587
- {
1588
- "epoch": 0.8422678060678377,
1589
- "grad_norm": 0.016653764992952347,
1590
- "learning_rate": 4.320189069273243e-05,
1591
- "loss": 0.0025156451389193534,
1592
- "step": 4500
1593
- },
1594
- {
1595
- "epoch": 0.8460112185392502,
1596
- "grad_norm": 0.27361780405044556,
1597
- "learning_rate": 4.3144209548034766e-05,
1598
- "loss": 0.002235286869108677,
1599
- "step": 4520
1600
- },
1601
- {
1602
- "epoch": 0.8497546310106628,
1603
- "grad_norm": 2.6958701610565186,
1604
- "learning_rate": 4.3086323585525915e-05,
1605
- "loss": 0.03571180701255798,
1606
- "step": 4540
1607
- },
1608
- {
1609
- "epoch": 0.8534980434820755,
1610
- "grad_norm": 0.1260778158903122,
1611
- "learning_rate": 4.3028233458641696e-05,
1612
- "loss": 0.0036518506705760954,
1613
- "step": 4560
1614
- },
1615
- {
1616
- "epoch": 0.8572414559534881,
1617
- "grad_norm": 0.2445528209209442,
1618
- "learning_rate": 4.2969939823122586e-05,
1619
- "loss": 0.024949796497821808,
1620
- "step": 4580
1621
- },
1622
- {
1623
- "epoch": 0.8609848684249007,
1624
- "grad_norm": 0.1674242913722992,
1625
- "learning_rate": 4.291144333700633e-05,
1626
- "loss": 0.002089798077940941,
1627
- "step": 4600
1628
- },
1629
- {
1630
- "epoch": 0.8647282808963134,
1631
- "grad_norm": 0.05161884427070618,
1632
- "learning_rate": 4.2852744660620515e-05,
1633
- "loss": 0.007847145944833756,
1634
- "step": 4620
1635
- },
1636
- {
1637
- "epoch": 0.8684716933677259,
1638
- "grad_norm": 0.019796324893832207,
1639
- "learning_rate": 4.279384445657514e-05,
1640
- "loss": 0.0023555334657430647,
1641
- "step": 4640
1642
- },
1643
- {
1644
- "epoch": 0.8722151058391385,
1645
- "grad_norm": 0.0647754967212677,
1646
- "learning_rate": 4.2734743389755096e-05,
1647
- "loss": 0.009586349129676819,
1648
- "step": 4660
1649
- },
1650
- {
1651
- "epoch": 0.8759585183105512,
1652
- "grad_norm": 0.015243460424244404,
1653
- "learning_rate": 4.267544212731268e-05,
1654
- "loss": 0.017788709700107576,
1655
- "step": 4680
1656
- },
1657
- {
1658
- "epoch": 0.8797019307819638,
1659
- "grad_norm": 0.05756703019142151,
1660
- "learning_rate": 4.261594133866007e-05,
1661
- "loss": 0.014256520569324494,
1662
- "step": 4700
1663
- },
1664
- {
1665
- "epoch": 0.8834453432533764,
1666
- "grad_norm": 0.2002931535243988,
1667
- "learning_rate": 4.255624169546175e-05,
1668
- "loss": 0.0014025470241904258,
1669
- "step": 4720
1670
- },
1671
- {
1672
- "epoch": 0.887188755724789,
1673
- "grad_norm": 0.04325389489531517,
1674
- "learning_rate": 4.249634387162696e-05,
1675
- "loss": 0.010552891343832017,
1676
- "step": 4740
1677
- },
1678
- {
1679
- "epoch": 0.8909321681962016,
1680
- "grad_norm": 0.8975178599357605,
1681
- "learning_rate": 4.243624854330206e-05,
1682
- "loss": 0.0032475266605615618,
1683
- "step": 4760
1684
- },
1685
- {
1686
- "epoch": 0.8946755806676142,
1687
- "grad_norm": 0.01541830413043499,
1688
- "learning_rate": 4.237595638886288e-05,
1689
- "loss": 0.003157203644514084,
1690
- "step": 4780
1691
- },
1692
- {
1693
- "epoch": 0.8984189931390268,
1694
- "grad_norm": 1.673305869102478,
1695
- "learning_rate": 4.231546808890713e-05,
1696
- "loss": 0.0028239911422133445,
1697
- "step": 4800
1698
- },
1699
- {
1700
- "epoch": 0.9021624056104395,
1701
- "grad_norm": 0.021689629182219505,
1702
- "learning_rate": 4.225478432624665e-05,
1703
- "loss": 0.0026885712519288062,
1704
- "step": 4820
1705
- },
1706
- {
1707
- "epoch": 0.905905818081852,
1708
- "grad_norm": 0.019590798765420914,
1709
- "learning_rate": 4.219390578589973e-05,
1710
- "loss": 0.00780024379491806,
1711
- "step": 4840
1712
- },
1713
- {
1714
- "epoch": 0.9096492305532646,
1715
- "grad_norm": 0.024581020697951317,
1716
- "learning_rate": 4.213283315508337e-05,
1717
- "loss": 0.006697511672973633,
1718
- "step": 4860
1719
- },
1720
- {
1721
- "epoch": 0.9133926430246773,
1722
- "grad_norm": 0.20615583658218384,
1723
- "learning_rate": 4.207156712320555e-05,
1724
- "loss": 0.007314208894968033,
1725
- "step": 4880
1726
- },
1727
- {
1728
- "epoch": 0.9171360554960899,
1729
- "grad_norm": 0.015673745423555374,
1730
- "learning_rate": 4.20101083818574e-05,
1731
- "loss": 0.004841562733054161,
1732
- "step": 4900
1733
- },
1734
- {
1735
- "epoch": 0.9208794679675025,
1736
- "grad_norm": 0.008306623436510563,
1737
- "learning_rate": 4.194845762480544e-05,
1738
- "loss": 0.0010150263085961341,
1739
- "step": 4920
1740
- },
1741
- {
1742
- "epoch": 0.9246228804389152,
1743
- "grad_norm": 0.051861703395843506,
1744
- "learning_rate": 4.188661554798369e-05,
1745
- "loss": 0.011043114960193634,
1746
- "step": 4940
1747
- },
1748
- {
1749
- "epoch": 0.9283662929103277,
1750
- "grad_norm": 1.7019767761230469,
1751
- "learning_rate": 4.1824582849485884e-05,
1752
- "loss": 0.004985674470663071,
1753
- "step": 4960
1754
- },
1755
- {
1756
- "epoch": 0.9321097053817403,
1757
- "grad_norm": 0.021240154281258583,
1758
- "learning_rate": 4.176236022955755e-05,
1759
- "loss": 0.04885836541652679,
1760
- "step": 4980
1761
- },
1762
- {
1763
- "epoch": 0.935853117853153,
1764
- "grad_norm": 0.016504865139722824,
1765
- "learning_rate": 4.16999483905881e-05,
1766
- "loss": 0.0027378931641578673,
1767
- "step": 5000
1768
- },
1769
- {
1770
- "epoch": 0.9395965303245656,
1771
- "grad_norm": 0.014015628024935722,
1772
- "learning_rate": 4.163734803710294e-05,
1773
- "loss": 0.012781022489070893,
1774
- "step": 5020
1775
- },
1776
- {
1777
- "epoch": 0.9433399427959782,
1778
- "grad_norm": 0.013812500052154064,
1779
- "learning_rate": 4.157455987575545e-05,
1780
- "loss": 0.007508871704339981,
1781
- "step": 5040
1782
- },
1783
- {
1784
- "epoch": 0.9470833552673907,
1785
- "grad_norm": 0.01622290164232254,
1786
- "learning_rate": 4.1511584615319075e-05,
1787
- "loss": 0.0014614147134125234,
1788
- "step": 5060
1789
- },
1790
- {
1791
- "epoch": 0.9508267677388034,
1792
- "grad_norm": 0.01259149145334959,
1793
- "learning_rate": 4.144842296667929e-05,
1794
- "loss": 0.006202424317598343,
1795
- "step": 5080
1796
- },
1797
- {
1798
- "epoch": 0.954570180210216,
1799
- "grad_norm": 0.012383027002215385,
1800
- "learning_rate": 4.138507564282558e-05,
1801
- "loss": 0.006122353300452232,
1802
- "step": 5100
1803
- },
1804
- {
1805
- "epoch": 0.9583135926816286,
1806
- "grad_norm": 0.006499920971691608,
1807
- "learning_rate": 4.1321543358843385e-05,
1808
- "loss": 0.0008865024894475937,
1809
- "step": 5120
1810
- },
1811
- {
1812
- "epoch": 0.9620570051530413,
1813
- "grad_norm": 0.00830752868205309,
1814
- "learning_rate": 4.125782683190606e-05,
1815
- "loss": 0.0008420860394835472,
1816
- "step": 5140
1817
- },
1818
- {
1819
- "epoch": 0.9658004176244538,
1820
- "grad_norm": 0.01525857299566269,
1821
- "learning_rate": 4.119392678126673e-05,
1822
- "loss": 0.00587364137172699,
1823
- "step": 5160
1824
- },
1825
- {
1826
- "epoch": 0.9695438300958664,
1827
- "grad_norm": 0.01072095800191164,
1828
- "learning_rate": 4.11298439282502e-05,
1829
- "loss": 0.00853007659316063,
1830
- "step": 5180
1831
- },
1832
- {
1833
- "epoch": 0.973287242567279,
1834
- "grad_norm": 0.030316641554236412,
1835
- "learning_rate": 4.106557899624482e-05,
1836
- "loss": 0.0058747071772813795,
1837
- "step": 5200
1838
- },
1839
- {
1840
- "epoch": 0.9770306550386917,
1841
- "grad_norm": 0.0391647033393383,
1842
- "learning_rate": 4.1001132710694304e-05,
1843
- "loss": 0.0034765828400850295,
1844
- "step": 5220
1845
- },
1846
- {
1847
- "epoch": 0.9807740675101043,
1848
- "grad_norm": 0.04938298836350441,
1849
- "learning_rate": 4.093650579908953e-05,
1850
- "loss": 0.007594724744558334,
1851
- "step": 5240
1852
- },
1853
- {
1854
- "epoch": 0.984517479981517,
1855
- "grad_norm": 0.005873252172023058,
1856
- "learning_rate": 4.087169899096037e-05,
1857
- "loss": 0.013347607851028443,
1858
- "step": 5260
1859
- },
1860
- {
1861
- "epoch": 0.9882608924529295,
1862
- "grad_norm": 1.2757259607315063,
1863
- "learning_rate": 4.080671301786741e-05,
1864
- "loss": 0.004837355017662049,
1865
- "step": 5280
1866
- },
1867
- {
1868
- "epoch": 0.9920043049243421,
1869
- "grad_norm": 0.00920735765248537,
1870
- "learning_rate": 4.0741548613393675e-05,
1871
- "loss": 0.007415445148944854,
1872
- "step": 5300
1873
- },
1874
- {
1875
- "epoch": 0.9957477173957547,
1876
- "grad_norm": 0.5702093839645386,
1877
- "learning_rate": 4.067620651313647e-05,
1878
- "loss": 0.00406576506793499,
1879
- "step": 5320
1880
- },
1881
- {
1882
- "epoch": 0.9994911298671674,
1883
- "grad_norm": 1.8361051082611084,
1884
- "learning_rate": 4.0610687454698906e-05,
1885
- "loss": 0.00997612327337265,
1886
- "step": 5340
1887
- },
1888
- {
1889
- "epoch": 1.0031819006007008,
1890
- "grad_norm": 3.335326910018921,
1891
- "learning_rate": 4.0544992177681685e-05,
1892
- "loss": 0.008442799001932145,
1893
- "step": 5360
1894
- },
1895
- {
1896
- "epoch": 1.0069253130721134,
1897
- "grad_norm": 0.03184954449534416,
1898
- "learning_rate": 4.047912142367473e-05,
1899
- "loss": 0.008095134049654007,
1900
- "step": 5380
1901
- },
1902
- {
1903
- "epoch": 1.010668725543526,
1904
- "grad_norm": 0.029989074915647507,
1905
- "learning_rate": 4.04130759362488e-05,
1906
- "loss": 0.0012585990130901336,
1907
- "step": 5400
1908
- },
1909
- {
1910
- "epoch": 1.0144121380149385,
1911
- "grad_norm": 0.08727464079856873,
1912
- "learning_rate": 4.034685646094711e-05,
1913
- "loss": 0.012588074803352356,
1914
- "step": 5420
1915
- },
1916
- {
1917
- "epoch": 1.018155550486351,
1918
- "grad_norm": 0.018498806282877922,
1919
- "learning_rate": 4.028046374527689e-05,
1920
- "loss": 0.001854238100349903,
1921
- "step": 5440
1922
- },
1923
- {
1924
- "epoch": 1.0218989629577637,
1925
- "grad_norm": 0.013779236935079098,
1926
- "learning_rate": 4.021389853870095e-05,
1927
- "loss": 0.0008004569448530674,
1928
- "step": 5460
1929
- },
1930
- {
1931
- "epoch": 1.0256423754291764,
1932
- "grad_norm": 0.028235070407390594,
1933
- "learning_rate": 4.0147161592629306e-05,
1934
- "loss": 0.002274145185947418,
1935
- "step": 5480
1936
- },
1937
- {
1938
- "epoch": 1.029385787900589,
1939
- "grad_norm": 0.023030120879411697,
1940
- "learning_rate": 4.008025366041055e-05,
1941
- "loss": 0.008717305958271027,
1942
- "step": 5500
1943
- },
1944
- {
1945
- "epoch": 1.0331292003720016,
1946
- "grad_norm": 0.018347155302762985,
1947
- "learning_rate": 4.001317549732345e-05,
1948
- "loss": 0.00244256854057312,
1949
- "step": 5520
1950
- },
1951
- {
1952
- "epoch": 1.0368726128434143,
1953
- "grad_norm": 0.03449391946196556,
1954
- "learning_rate": 3.99459278605684e-05,
1955
- "loss": 0.0039924226701259615,
1956
- "step": 5540
1957
- },
1958
- {
1959
- "epoch": 1.0406160253148269,
1960
- "grad_norm": 0.030406463891267776,
1961
- "learning_rate": 3.9878511509258866e-05,
1962
- "loss": 0.0021008485928177834,
1963
- "step": 5560
1964
- },
1965
- {
1966
- "epoch": 1.0443594377862395,
1967
- "grad_norm": 0.01783100888133049,
1968
- "learning_rate": 3.9810927204412803e-05,
1969
- "loss": 0.0006656501442193985,
1970
- "step": 5580
1971
- },
1972
- {
1973
- "epoch": 1.0481028502576522,
1974
- "grad_norm": 0.05360455811023712,
1975
- "learning_rate": 3.974317570894413e-05,
1976
- "loss": 0.005278818309307098,
1977
- "step": 5600
1978
- },
1979
- {
1980
- "epoch": 1.0518462627290646,
1981
- "grad_norm": 0.008699169382452965,
1982
- "learning_rate": 3.9675257787654e-05,
1983
- "loss": 0.005309444293379784,
1984
- "step": 5620
1985
- },
1986
- {
1987
- "epoch": 1.0555896752004772,
1988
- "grad_norm": 0.036641959100961685,
1989
- "learning_rate": 3.960717420722227e-05,
1990
- "loss": 0.0034692320972681046,
1991
- "step": 5640
1992
- },
1993
- {
1994
- "epoch": 1.0593330876718898,
1995
- "grad_norm": 0.012212110683321953,
1996
- "learning_rate": 3.953892573619883e-05,
1997
- "loss": 0.005343861132860184,
1998
- "step": 5660
1999
- },
2000
- {
2001
- "epoch": 1.0630765001433025,
2002
- "grad_norm": 0.011296284385025501,
2003
- "learning_rate": 3.947051314499489e-05,
2004
- "loss": 0.0038058970123529432,
2005
- "step": 5680
2006
- },
2007
- {
2008
- "epoch": 1.066819912614715,
2009
- "grad_norm": 0.05954049900174141,
2010
- "learning_rate": 3.94019372058743e-05,
2011
- "loss": 0.008142991364002228,
2012
- "step": 5700
2013
- },
2014
- {
2015
- "epoch": 1.0705633250861277,
2016
- "grad_norm": 0.03478416055440903,
2017
- "learning_rate": 3.933319869294483e-05,
2018
- "loss": 0.0075227849185466765,
2019
- "step": 5720
2020
- },
2021
- {
2022
- "epoch": 1.0743067375575404,
2023
- "grad_norm": 0.014586996287107468,
2024
- "learning_rate": 3.9264298382149455e-05,
2025
- "loss": 0.0036750122904777526,
2026
- "step": 5740
2027
- },
2028
- {
2029
- "epoch": 1.078050150028953,
2030
- "grad_norm": 0.025754544883966446,
2031
- "learning_rate": 3.919523705125757e-05,
2032
- "loss": 0.004151013493537903,
2033
- "step": 5760
2034
- },
2035
- {
2036
- "epoch": 1.0817935625003656,
2037
- "grad_norm": 0.03239905461668968,
2038
- "learning_rate": 3.9126015479856205e-05,
2039
- "loss": 0.00861695185303688,
2040
- "step": 5780
2041
- },
2042
- {
2043
- "epoch": 1.0855369749717783,
2044
- "grad_norm": 0.03506994619965553,
2045
- "learning_rate": 3.9056634449341256e-05,
2046
- "loss": 0.003123755753040314,
2047
- "step": 5800
2048
- },
2049
- {
2050
- "epoch": 1.089280387443191,
2051
- "grad_norm": 0.0286911278963089,
2052
- "learning_rate": 3.898709474290864e-05,
2053
- "loss": 0.002537376619875431,
2054
- "step": 5820
2055
- },
2056
- {
2057
- "epoch": 1.0930237999146033,
2058
- "grad_norm": 0.03490692004561424,
2059
- "learning_rate": 3.8917397145545454e-05,
2060
- "loss": 0.0010227372869849205,
2061
- "step": 5840
2062
- },
2063
- {
2064
- "epoch": 1.096767212386016,
2065
- "grad_norm": 0.013748899102210999,
2066
- "learning_rate": 3.884754244402113e-05,
2067
- "loss": 0.011847371608018875,
2068
- "step": 5860
2069
- },
2070
- {
2071
- "epoch": 1.1005106248574286,
2072
- "grad_norm": 0.035458195954561234,
2073
- "learning_rate": 3.877753142687852e-05,
2074
- "loss": 0.009741749614477158,
2075
- "step": 5880
2076
- },
2077
- {
2078
- "epoch": 1.1042540373288412,
2079
- "grad_norm": 0.012493673712015152,
2080
- "learning_rate": 3.8707364884425064e-05,
2081
- "loss": 0.006607493013143539,
2082
- "step": 5900
2083
- },
2084
- {
2085
- "epoch": 1.1079974498002538,
2086
- "grad_norm": 0.018607834354043007,
2087
- "learning_rate": 3.863704360872378e-05,
2088
- "loss": 0.0016217166557908058,
2089
- "step": 5920
2090
- },
2091
- {
2092
- "epoch": 1.1117408622716665,
2093
- "grad_norm": 0.0283930953592062,
2094
- "learning_rate": 3.8566568393584366e-05,
2095
- "loss": 0.002083975449204445,
2096
- "step": 5940
2097
- },
2098
- {
2099
- "epoch": 1.115484274743079,
2100
- "grad_norm": 0.05229801684617996,
2101
- "learning_rate": 3.8495940034554283e-05,
2102
- "loss": 0.0014217685908079146,
2103
- "step": 5960
2104
- },
2105
- {
2106
- "epoch": 1.1192276872144917,
2107
- "grad_norm": 0.008808930404484272,
2108
- "learning_rate": 3.8425159328909684e-05,
2109
- "loss": 0.0022570645436644555,
2110
- "step": 5980
2111
- },
2112
- {
2113
- "epoch": 1.1229710996859044,
2114
- "grad_norm": 0.020502232015132904,
2115
- "learning_rate": 3.835422707564648e-05,
2116
- "loss": 0.003745942190289497,
2117
- "step": 6000
2118
- },
2119
- {
2120
- "epoch": 1.126714512157317,
2121
- "grad_norm": 0.032347094267606735,
2122
- "learning_rate": 3.82831440754713e-05,
2123
- "loss": 0.003347185626626015,
2124
- "step": 6020
2125
- },
2126
- {
2127
- "epoch": 1.1304579246287294,
2128
- "grad_norm": 0.020310478284955025,
2129
- "learning_rate": 3.821191113079246e-05,
2130
- "loss": 0.006166417896747589,
2131
- "step": 6040
2132
- },
2133
- {
2134
- "epoch": 1.134201337100142,
2135
- "grad_norm": 0.06390372663736343,
2136
- "learning_rate": 3.8140529045710876e-05,
2137
- "loss": 0.0013674044981598853,
2138
- "step": 6060
2139
- },
2140
- {
2141
- "epoch": 1.1379447495715547,
2142
- "grad_norm": 1.1938918828964233,
2143
- "learning_rate": 3.806899862601105e-05,
2144
- "loss": 0.010550644248723984,
2145
- "step": 6080
2146
- },
2147
- {
2148
- "epoch": 1.1416881620429673,
2149
- "grad_norm": 0.035355549305677414,
2150
- "learning_rate": 3.799732067915189e-05,
2151
- "loss": 0.0069750770926475525,
2152
- "step": 6100
2153
- },
2154
- {
2155
- "epoch": 1.14543157451438,
2156
- "grad_norm": 0.009921093471348286,
2157
- "learning_rate": 3.792549601425767e-05,
2158
- "loss": 0.0027949588373303415,
2159
- "step": 6120
2160
- },
2161
- {
2162
- "epoch": 1.1491749869857926,
2163
- "grad_norm": 0.06172063946723938,
2164
- "learning_rate": 3.785352544210884e-05,
2165
- "loss": 0.0009372101165354251,
2166
- "step": 6140
2167
- },
2168
- {
2169
- "epoch": 1.1529183994572052,
2170
- "grad_norm": 0.008572470396757126,
2171
- "learning_rate": 3.778140977513294e-05,
2172
- "loss": 0.0029502738267183303,
2173
- "step": 6160
2174
- },
2175
- {
2176
- "epoch": 1.1566618119286178,
2177
- "grad_norm": 0.4211727976799011,
2178
- "learning_rate": 3.770914982739534e-05,
2179
- "loss": 0.014692296087741853,
2180
- "step": 6180
2181
- },
2182
- {
2183
- "epoch": 1.1604052244000305,
2184
- "grad_norm": 0.02292146533727646,
2185
- "learning_rate": 3.7636746414590126e-05,
2186
- "loss": 0.0020170681178569793,
2187
- "step": 6200
2188
- },
2189
- {
2190
- "epoch": 1.164148636871443,
2191
- "grad_norm": 0.11247449368238449,
2192
- "learning_rate": 3.756420035403086e-05,
2193
- "loss": 0.006851900368928909,
2194
- "step": 6220
2195
- },
2196
- {
2197
- "epoch": 1.1678920493428557,
2198
- "grad_norm": 0.020755017176270485,
2199
- "learning_rate": 3.749151246464137e-05,
2200
- "loss": 0.0021739909425377846,
2201
- "step": 6240
2202
- },
2203
- {
2204
- "epoch": 1.1716354618142684,
2205
- "grad_norm": 0.017202025279402733,
2206
- "learning_rate": 3.741868356694647e-05,
2207
- "loss": 0.002353278361260891,
2208
- "step": 6260
2209
- },
2210
- {
2211
- "epoch": 1.1753788742856808,
2212
- "grad_norm": 0.014947429299354553,
2213
- "learning_rate": 3.734571448306274e-05,
2214
- "loss": 0.0010860362090170383,
2215
- "step": 6280
2216
- },
2217
- {
2218
- "epoch": 1.1791222867570934,
2219
- "grad_norm": 1.5391262769699097,
2220
- "learning_rate": 3.727260603668922e-05,
2221
- "loss": 0.01233254000544548,
2222
- "step": 6300
2223
- },
2224
- {
2225
- "epoch": 1.182865699228506,
2226
- "grad_norm": 0.4759792387485504,
2227
- "learning_rate": 3.7199359053098133e-05,
2228
- "loss": 0.0028501398861408233,
2229
- "step": 6320
2230
- },
2231
- {
2232
- "epoch": 1.1866091116999187,
2233
- "grad_norm": 0.01719040609896183,
2234
- "learning_rate": 3.7125974359125536e-05,
2235
- "loss": 0.00934450700879097,
2236
- "step": 6340
2237
- },
2238
- {
2239
- "epoch": 1.1903525241713313,
2240
- "grad_norm": 2.4766688346862793,
2241
- "learning_rate": 3.7052452783162015e-05,
2242
- "loss": 0.018582724034786224,
2243
- "step": 6360
2244
- },
2245
- {
2246
- "epoch": 1.194095936642744,
2247
- "grad_norm": 0.11404932290315628,
2248
- "learning_rate": 3.6978795155143326e-05,
2249
- "loss": 0.01815672367811203,
2250
- "step": 6380
2251
- },
2252
- {
2253
- "epoch": 1.1978393491141566,
2254
- "grad_norm": 0.021365633234381676,
2255
- "learning_rate": 3.690500230654103e-05,
2256
- "loss": 0.004123781993985176,
2257
- "step": 6400
2258
- },
2259
- {
2260
- "epoch": 1.2015827615855692,
2261
- "grad_norm": 0.022478772327303886,
2262
- "learning_rate": 3.68310750703531e-05,
2263
- "loss": 0.0038731731474399567,
2264
- "step": 6420
2265
- },
2266
- {
2267
- "epoch": 1.2053261740569818,
2268
- "grad_norm": 0.15531578660011292,
2269
- "learning_rate": 3.67570142810945e-05,
2270
- "loss": 0.002076444961130619,
2271
- "step": 6440
2272
- },
2273
- {
2274
- "epoch": 1.2090695865283942,
2275
- "grad_norm": 0.012458150275051594,
2276
- "learning_rate": 3.668282077478783e-05,
2277
- "loss": 0.0027592860162258146,
2278
- "step": 6460
2279
- },
2280
- {
2281
- "epoch": 1.2128129989998069,
2282
- "grad_norm": 0.01572798565030098,
2283
- "learning_rate": 3.66084953889538e-05,
2284
- "loss": 0.002740098722279072,
2285
- "step": 6480
2286
- },
2287
- {
2288
- "epoch": 1.2165564114712195,
2289
- "grad_norm": 0.13682503998279572,
2290
- "learning_rate": 3.6534038962601835e-05,
2291
- "loss": 0.000705425813794136,
2292
- "step": 6500
2293
- },
2294
- {
2295
- "epoch": 1.2202998239426321,
2296
- "grad_norm": 0.030630914494395256,
2297
- "learning_rate": 3.64594523362206e-05,
2298
- "loss": 0.012480729073286057,
2299
- "step": 6520
2300
- },
2301
- {
2302
- "epoch": 1.2240432364140448,
2303
- "grad_norm": 0.024804554879665375,
2304
- "learning_rate": 3.638473635176848e-05,
2305
- "loss": 0.0007834361866116523,
2306
- "step": 6540
2307
- },
2308
- {
2309
- "epoch": 1.2277866488854574,
2310
- "grad_norm": 0.011334752663969994,
2311
- "learning_rate": 3.630989185266411e-05,
2312
- "loss": 0.022086825966835023,
2313
- "step": 6560
2314
- },
2315
- {
2316
- "epoch": 1.23153006135687,
2317
- "grad_norm": 0.020346902310848236,
2318
- "learning_rate": 3.623491968377684e-05,
2319
- "loss": 0.018024472892284392,
2320
- "step": 6580
2321
- },
2322
- {
2323
- "epoch": 1.2352734738282827,
2324
- "grad_norm": 0.015177210792899132,
2325
- "learning_rate": 3.615982069141719e-05,
2326
- "loss": 0.005251453071832657,
2327
- "step": 6600
2328
- },
2329
- {
2330
- "epoch": 1.2390168862996953,
2331
- "grad_norm": 0.013680647127330303,
2332
- "learning_rate": 3.608459572332733e-05,
2333
- "loss": 0.006734563410282135,
2334
- "step": 6620
2335
- },
2336
- {
2337
- "epoch": 1.242760298771108,
2338
- "grad_norm": 0.17980872094631195,
2339
- "learning_rate": 3.600924562867144e-05,
2340
- "loss": 0.003970410302281379,
2341
- "step": 6640
2342
- },
2343
- {
2344
- "epoch": 1.2465037112425206,
2345
- "grad_norm": 0.015203841030597687,
2346
- "learning_rate": 3.593377125802622e-05,
2347
- "loss": 0.0032148901373147964,
2348
- "step": 6660
2349
- },
2350
- {
2351
- "epoch": 1.2502471237139332,
2352
- "grad_norm": 0.017300931736826897,
2353
- "learning_rate": 3.585817346337119e-05,
2354
- "loss": 0.00467667318880558,
2355
- "step": 6680
2356
- },
2357
- {
2358
- "epoch": 1.2539905361853458,
2359
- "grad_norm": 0.028181765228509903,
2360
- "learning_rate": 3.5782453098079175e-05,
2361
- "loss": 0.0015515764243900776,
2362
- "step": 6700
2363
- },
2364
- {
2365
- "epoch": 1.2577339486567582,
2366
- "grad_norm": 0.01730780117213726,
2367
- "learning_rate": 3.570661101690657e-05,
2368
- "loss": 0.007991334050893783,
2369
- "step": 6720
2370
- },
2371
- {
2372
- "epoch": 1.2614773611281709,
2373
- "grad_norm": 0.014216347597539425,
2374
- "learning_rate": 3.5630648075983763e-05,
2375
- "loss": 0.002533360943198204,
2376
- "step": 6740
2377
- },
2378
- {
2379
- "epoch": 1.2652207735995835,
2380
- "grad_norm": 0.1556195169687271,
2381
- "learning_rate": 3.555456513280544e-05,
2382
- "loss": 0.0032653655856847764,
2383
- "step": 6760
2384
- },
2385
- {
2386
- "epoch": 1.2689641860709961,
2387
- "grad_norm": 0.023955868557095528,
2388
- "learning_rate": 3.5478363046220915e-05,
2389
- "loss": 0.00850408971309662,
2390
- "step": 6780
2391
- },
2392
- {
2393
- "epoch": 1.2727075985424088,
2394
- "grad_norm": 0.17874136567115784,
2395
- "learning_rate": 3.5402042676424424e-05,
2396
- "loss": 0.0032720811665058135,
2397
- "step": 6800
2398
- },
2399
- {
2400
- "epoch": 1.2764510110138214,
2401
- "grad_norm": 0.0899379625916481,
2402
- "learning_rate": 3.5325604884945434e-05,
2403
- "loss": 0.003243798017501831,
2404
- "step": 6820
2405
- },
2406
- {
2407
- "epoch": 1.280194423485234,
2408
- "grad_norm": 0.413362056016922,
2409
- "learning_rate": 3.5249050534638906e-05,
2410
- "loss": 0.0036127623170614243,
2411
- "step": 6840
2412
- },
2413
- {
2414
- "epoch": 1.2839378359566467,
2415
- "grad_norm": 0.02790931612253189,
2416
- "learning_rate": 3.517238048967554e-05,
2417
- "loss": 0.008225285261869431,
2418
- "step": 6860
2419
- },
2420
- {
2421
- "epoch": 1.287681248428059,
2422
- "grad_norm": 0.6761110424995422,
2423
- "learning_rate": 3.5095595615532056e-05,
2424
- "loss": 0.00199942234903574,
2425
- "step": 6880
2426
- },
2427
- {
2428
- "epoch": 1.2914246608994717,
2429
- "grad_norm": 4.593618869781494,
2430
- "learning_rate": 3.5018696778981385e-05,
2431
- "loss": 0.007301987707614898,
2432
- "step": 6900
2433
- },
2434
- {
2435
- "epoch": 1.2951680733708844,
2436
- "grad_norm": 0.09392693638801575,
2437
- "learning_rate": 3.494168484808293e-05,
2438
- "loss": 0.009008315950632095,
2439
- "step": 6920
2440
- },
2441
- {
2442
- "epoch": 1.298911485842297,
2443
- "grad_norm": 0.008239852264523506,
2444
- "learning_rate": 3.48645606921727e-05,
2445
- "loss": 0.012661360204219818,
2446
- "step": 6940
2447
- },
2448
- {
2449
- "epoch": 1.3026548983137096,
2450
- "grad_norm": 0.05141177773475647,
2451
- "learning_rate": 3.4787325181853576e-05,
2452
- "loss": 0.0007553372532129287,
2453
- "step": 6960
2454
- },
2455
- {
2456
- "epoch": 1.3063983107851223,
2457
- "grad_norm": 0.024333903566002846,
2458
- "learning_rate": 3.470997918898541e-05,
2459
- "loss": 0.0016128463670611382,
2460
- "step": 6980
2461
- },
2462
- {
2463
- "epoch": 1.3101417232565349,
2464
- "grad_norm": 0.0337531715631485,
2465
- "learning_rate": 3.4632523586675254e-05,
2466
- "loss": 0.003253454715013504,
2467
- "step": 7000
2468
- },
2469
- {
2470
- "epoch": 1.3138851357279475,
2471
- "grad_norm": 0.05121550336480141,
2472
- "learning_rate": 3.4554959249267436e-05,
2473
- "loss": 0.0026307271793484686,
2474
- "step": 7020
2475
- },
2476
- {
2477
- "epoch": 1.3176285481993602,
2478
- "grad_norm": 0.025997543707489967,
2479
- "learning_rate": 3.447728705233374e-05,
2480
- "loss": 0.0012719514779746532,
2481
- "step": 7040
2482
- },
2483
- {
2484
- "epoch": 1.3213719606707728,
2485
- "grad_norm": 0.009486268274486065,
2486
- "learning_rate": 3.4399507872663494e-05,
2487
- "loss": 0.002009082958102226,
2488
- "step": 7060
2489
- },
2490
- {
2491
- "epoch": 1.3251153731421854,
2492
- "grad_norm": 0.016816232353448868,
2493
- "learning_rate": 3.432162258825369e-05,
2494
- "loss": 0.0005956823006272316,
2495
- "step": 7080
2496
- },
2497
- {
2498
- "epoch": 1.328858785613598,
2499
- "grad_norm": 0.004733961541205645,
2500
- "learning_rate": 3.424363207829906e-05,
2501
- "loss": 0.003636709600687027,
2502
- "step": 7100
2503
- },
2504
- {
2505
- "epoch": 1.3326021980850107,
2506
- "grad_norm": 3.666203498840332,
2507
- "learning_rate": 3.4165537223182155e-05,
2508
- "loss": 0.010488419234752655,
2509
- "step": 7120
2510
- },
2511
- {
2512
- "epoch": 1.336345610556423,
2513
- "grad_norm": 0.021471882238984108,
2514
- "learning_rate": 3.408733890446341e-05,
2515
- "loss": 0.0009709249250590801,
2516
- "step": 7140
2517
- },
2518
- {
2519
- "epoch": 1.3400890230278357,
2520
- "grad_norm": 0.007639541756361723,
2521
- "learning_rate": 3.40090380048712e-05,
2522
- "loss": 0.0030905861407518388,
2523
- "step": 7160
2524
- },
2525
- {
2526
- "epoch": 1.3438324354992484,
2527
- "grad_norm": 0.16878941655158997,
2528
- "learning_rate": 3.393063540829186e-05,
2529
- "loss": 0.0036965351551771163,
2530
- "step": 7180
2531
- },
2532
- {
2533
- "epoch": 1.347575847970661,
2534
- "grad_norm": 0.07014094293117523,
2535
- "learning_rate": 3.385213199975971e-05,
2536
- "loss": 0.0005677144508808851,
2537
- "step": 7200
2538
- },
2539
- {
2540
- "epoch": 1.3513192604420736,
2541
- "grad_norm": 0.008626374416053295,
2542
- "learning_rate": 3.377352866544706e-05,
2543
- "loss": 0.0005447934381663799,
2544
- "step": 7220
2545
- },
2546
- {
2547
- "epoch": 1.3550626729134863,
2548
- "grad_norm": 0.013825134374201298,
2549
- "learning_rate": 3.3694826292654246e-05,
2550
- "loss": 0.004854041337966919,
2551
- "step": 7240
2552
- },
2553
- {
2554
- "epoch": 1.3588060853848989,
2555
- "grad_norm": 0.025015883147716522,
2556
- "learning_rate": 3.361602576979956e-05,
2557
- "loss": 0.004542553424835205,
2558
- "step": 7260
2559
- },
2560
- {
2561
- "epoch": 1.3625494978563115,
2562
- "grad_norm": 0.009614030830562115,
2563
- "learning_rate": 3.353712798640923e-05,
2564
- "loss": 0.0008775785565376282,
2565
- "step": 7280
2566
- },
2567
- {
2568
- "epoch": 1.366292910327724,
2569
- "grad_norm": 3.8835268020629883,
2570
- "learning_rate": 3.345813383310744e-05,
2571
- "loss": 0.0063879616558551785,
2572
- "step": 7300
2573
- },
2574
- {
2575
- "epoch": 1.3700363227991366,
2576
- "grad_norm": 0.005518193822354078,
2577
- "learning_rate": 3.337904420160618e-05,
2578
- "loss": 0.0010956574231386184,
2579
- "step": 7320
2580
- },
2581
- {
2582
- "epoch": 1.3737797352705492,
2583
- "grad_norm": 0.005018322728574276,
2584
- "learning_rate": 3.329985998469526e-05,
2585
- "loss": 0.0012317843735218047,
2586
- "step": 7340
2587
- },
2588
- {
2589
- "epoch": 0.6887872232777639,
2590
- "grad_norm": 0.3108454942703247,
2591
- "learning_rate": 3.322058207623218e-05,
2592
- "loss": 0.010070423781871795,
2593
- "step": 7360
2594
- },
2595
- {
2596
- "epoch": 0.6906589276888447,
2597
- "grad_norm": 0.3556046783924103,
2598
- "learning_rate": 3.314121137113209e-05,
2599
- "loss": 0.0278738796710968,
2600
- "step": 7380
2601
- },
2602
- {
2603
- "epoch": 0.6925306320999256,
2604
- "grad_norm": 4.041794300079346,
2605
- "learning_rate": 3.306174876535762e-05,
2606
- "loss": 0.025335192680358887,
2607
- "step": 7400
2608
- },
2609
- {
2610
- "epoch": 0.6944023365110065,
2611
- "grad_norm": 0.04647493362426758,
2612
- "learning_rate": 3.2982195155908845e-05,
2613
- "loss": 0.05056847333908081,
2614
- "step": 7420
2615
- },
2616
- {
2617
- "epoch": 0.6962740409220873,
2618
- "grad_norm": 0.6827419400215149,
2619
- "learning_rate": 3.290653575270209e-05,
2620
- "loss": 0.036053261160850524,
2621
- "step": 7440
2622
- },
2623
- {
2624
- "epoch": 0.6981457453331683,
2625
- "grad_norm": 0.256136029958725,
2626
- "learning_rate": 3.2826807269966064e-05,
2627
- "loss": 0.020640365779399872,
2628
- "step": 7460
2629
- },
2630
- {
2631
- "epoch": 0.7000174497442492,
2632
- "grad_norm": 0.2054845094680786,
2633
- "learning_rate": 3.274699043565268e-05,
2634
- "loss": 0.03456352353096008,
2635
- "step": 7480
2636
- },
2637
- {
2638
- "epoch": 0.70188915415533,
2639
- "grad_norm": 0.2027648538351059,
2640
- "learning_rate": 3.266708615076064e-05,
2641
- "loss": 0.00846734493970871,
2642
- "step": 7500
2643
- },
2644
- {
2645
- "epoch": 0.7037608585664109,
2646
- "grad_norm": 1.6423311233520508,
2647
- "learning_rate": 3.258709531727582e-05,
2648
- "loss": 0.054978948831558225,
2649
- "step": 7520
2650
- },
2651
- {
2652
- "epoch": 0.7056325629774918,
2653
- "grad_norm": 1.775089144706726,
2654
- "learning_rate": 3.2507018838161085e-05,
2655
- "loss": 0.03238933086395264,
2656
- "step": 7540
2657
- },
2658
- {
2659
- "epoch": 0.7075042673885726,
2660
- "grad_norm": 0.06917860358953476,
2661
- "learning_rate": 3.242685761734609e-05,
2662
- "loss": 0.016849520802497863,
2663
- "step": 7560
2664
- },
2665
- {
2666
- "epoch": 0.7093759717996535,
2667
- "grad_norm": 0.051443129777908325,
2668
- "learning_rate": 3.2346612559717094e-05,
2669
- "loss": 0.048251998424530027,
2670
- "step": 7580
2671
- },
2672
- {
2673
- "epoch": 0.7112476762107344,
2674
- "grad_norm": 0.06533925980329514,
2675
- "learning_rate": 3.226628457110672e-05,
2676
- "loss": 0.03696450293064117,
2677
- "step": 7600
2678
- },
2679
- {
2680
- "epoch": 0.7131193806218153,
2681
- "grad_norm": 0.45661595463752747,
2682
- "learning_rate": 3.218587455828377e-05,
2683
- "loss": 0.05503013730049133,
2684
- "step": 7620
2685
- },
2686
- {
2687
- "epoch": 0.7149910850328962,
2688
- "grad_norm": 2.0205914974212646,
2689
- "learning_rate": 3.210538342894291e-05,
2690
- "loss": 0.033562681078910826,
2691
- "step": 7640
2692
- },
2693
- {
2694
- "epoch": 0.7168627894439771,
2695
- "grad_norm": 2.4842448234558105,
2696
- "learning_rate": 3.202481209169455e-05,
2697
- "loss": 0.019278638064861298,
2698
- "step": 7660
2699
- },
2700
- {
2701
- "epoch": 0.7187344938550579,
2702
- "grad_norm": 0.10550081729888916,
2703
- "learning_rate": 3.1944161456054436e-05,
2704
- "loss": 0.01638232171535492,
2705
- "step": 7680
2706
- },
2707
- {
2708
- "epoch": 0.7206061982661388,
2709
- "grad_norm": 1.606436014175415,
2710
- "learning_rate": 3.1863432432433506e-05,
2711
- "loss": 0.020552067458629607,
2712
- "step": 7700
2713
- },
2714
- {
2715
- "epoch": 0.7224779026772197,
2716
- "grad_norm": 0.2617719769477844,
2717
- "learning_rate": 3.178262593212757e-05,
2718
- "loss": 0.02315783053636551,
2719
- "step": 7720
2720
- },
2721
- {
2722
- "epoch": 0.7243496070883005,
2723
- "grad_norm": 0.9734074473381042,
2724
- "learning_rate": 3.1701742867307e-05,
2725
- "loss": 0.01938771307468414,
2726
- "step": 7740
2727
- },
2728
- {
2729
- "epoch": 0.7262213114993814,
2730
- "grad_norm": 0.5882985591888428,
2731
- "learning_rate": 3.162078415100647e-05,
2732
- "loss": 0.011305707693099975,
2733
- "step": 7760
2734
- },
2735
- {
2736
- "epoch": 0.7280930159104624,
2737
- "grad_norm": 0.04298723489046097,
2738
- "learning_rate": 3.15397506971146e-05,
2739
- "loss": 0.04238930344581604,
2740
- "step": 7780
2741
- },
2742
- {
2743
- "epoch": 0.7299647203215432,
2744
- "grad_norm": 6.2729315757751465,
2745
- "learning_rate": 3.145864342036372e-05,
2746
- "loss": 0.030225831270217895,
2747
- "step": 7800
2748
- },
2749
- {
2750
- "epoch": 0.7318364247326241,
2751
- "grad_norm": 0.026423340663313866,
2752
- "learning_rate": 3.1377463236319476e-05,
2753
- "loss": 0.012169972807168961,
2754
- "step": 7820
2755
- },
2756
- {
2757
- "epoch": 0.733708129143705,
2758
- "grad_norm": 0.0296376533806324,
2759
- "learning_rate": 3.1296211061370495e-05,
2760
- "loss": 0.015344823896884918,
2761
- "step": 7840
2762
- },
2763
- {
2764
- "epoch": 0.7355798335547858,
2765
- "grad_norm": 0.029524821788072586,
2766
- "learning_rate": 3.1214887812718094e-05,
2767
- "loss": 0.028345003724098206,
2768
- "step": 7860
2769
- },
2770
- {
2771
- "epoch": 0.7374515379658667,
2772
- "grad_norm": 0.06847794353961945,
2773
- "learning_rate": 3.113349440836588e-05,
2774
- "loss": 0.020069575309753417,
2775
- "step": 7880
2776
- },
2777
- {
2778
- "epoch": 0.7393232423769476,
2779
- "grad_norm": 0.024868430569767952,
2780
- "learning_rate": 3.1052031767109376e-05,
2781
- "loss": 0.014262473583221436,
2782
- "step": 7900
2783
- },
2784
- {
2785
- "epoch": 0.7411949467880286,
2786
- "grad_norm": 0.24450063705444336,
2787
- "learning_rate": 3.097050080852573e-05,
2788
- "loss": 0.04350808262825012,
2789
- "step": 7920
2790
- },
2791
- {
2792
- "epoch": 0.7430666511991094,
2793
- "grad_norm": 0.06978324800729752,
2794
- "learning_rate": 3.088890245296322e-05,
2795
- "loss": 0.015559709072113037,
2796
- "step": 7940
2797
- },
2798
- {
2799
- "epoch": 0.7449383556101903,
2800
- "grad_norm": 0.12675604224205017,
2801
- "learning_rate": 3.0807237621530964e-05,
2802
- "loss": 0.013867451250553131,
2803
- "step": 7960
2804
- },
2805
- {
2806
- "epoch": 0.7468100600212711,
2807
- "grad_norm": 0.2605513334274292,
2808
- "learning_rate": 3.072550723608846e-05,
2809
- "loss": 0.012869009375572204,
2810
- "step": 7980
2811
- },
2812
- {
2813
- "epoch": 0.748681764432352,
2814
- "grad_norm": 3.325530529022217,
2815
- "learning_rate": 3.064371221923521e-05,
2816
- "loss": 0.03036353886127472,
2817
- "step": 8000
2818
- },
2819
- {
2820
- "epoch": 0.7505534688434329,
2821
- "grad_norm": 0.22703051567077637,
2822
- "learning_rate": 3.0561853494300294e-05,
2823
- "loss": 0.009017374366521835,
2824
- "step": 8020
2825
- },
2826
- {
2827
- "epoch": 0.7524251732545137,
2828
- "grad_norm": 6.404862880706787,
2829
- "learning_rate": 3.047993198533195e-05,
2830
- "loss": 0.020604299008846284,
2831
- "step": 8040
2832
- },
2833
- {
2834
- "epoch": 0.7542968776655946,
2835
- "grad_norm": 0.06491954624652863,
2836
- "learning_rate": 3.039794861708714e-05,
2837
- "loss": 0.014963623881340028,
2838
- "step": 8060
2839
- },
2840
- {
2841
- "epoch": 0.7561685820766756,
2842
- "grad_norm": 0.4990088641643524,
2843
- "learning_rate": 3.0315904315021128e-05,
2844
- "loss": 0.02046530395746231,
2845
- "step": 8080
2846
- },
2847
- {
2848
- "epoch": 0.7580402864877565,
2849
- "grad_norm": 0.3174229562282562,
2850
- "learning_rate": 3.023380000527699e-05,
2851
- "loss": 0.013621781766414643,
2852
- "step": 8100
2853
- },
2854
- {
2855
- "epoch": 0.7599119908988373,
2856
- "grad_norm": 0.07161428034305573,
2857
- "learning_rate": 3.0151636614675218e-05,
2858
- "loss": 0.008043503761291504,
2859
- "step": 8120
2860
- },
2861
- {
2862
- "epoch": 0.7617836953099182,
2863
- "grad_norm": 0.6772736310958862,
2864
- "learning_rate": 3.0069415070703217e-05,
2865
- "loss": 0.03563189804553986,
2866
- "step": 8140
2867
- },
2868
- {
2869
- "epoch": 0.763655399720999,
2870
- "grad_norm": 0.07689516246318817,
2871
- "learning_rate": 2.998713630150485e-05,
2872
- "loss": 0.008622632920742035,
2873
- "step": 8160
2874
- },
2875
- {
2876
- "epoch": 0.7655271041320799,
2877
- "grad_norm": 0.014181110076606274,
2878
- "learning_rate": 2.990480123586994e-05,
2879
- "loss": 0.012368627637624741,
2880
- "step": 8180
2881
- },
2882
- {
2883
- "epoch": 0.7673988085431608,
2884
- "grad_norm": 4.4751715660095215,
2885
- "learning_rate": 2.9822410803223822e-05,
2886
- "loss": 0.02100955694913864,
2887
- "step": 8200
2888
- },
2889
- {
2890
- "epoch": 0.7692705129542416,
2891
- "grad_norm": 0.12694527208805084,
2892
- "learning_rate": 2.9739965933616825e-05,
2893
- "loss": 0.018182000517845152,
2894
- "step": 8220
2895
- },
2896
- {
2897
- "epoch": 0.7711422173653226,
2898
- "grad_norm": 0.13789872825145721,
2899
- "learning_rate": 2.9657467557713792e-05,
2900
- "loss": 0.008949784934520722,
2901
- "step": 8240
2902
- },
2903
- {
2904
- "epoch": 0.7730139217764035,
2905
- "grad_norm": 0.04048463702201843,
2906
- "learning_rate": 2.957491660678354e-05,
2907
- "loss": 0.03582434058189392,
2908
- "step": 8260
2909
- },
2910
- {
2911
- "epoch": 0.7748856261874844,
2912
- "grad_norm": 0.7825964689254761,
2913
- "learning_rate": 2.9492314012688378e-05,
2914
- "loss": 0.012679101526737213,
2915
- "step": 8280
2916
- },
2917
- {
2918
- "epoch": 0.7767573305985652,
2919
- "grad_norm": 0.14350314438343048,
2920
- "learning_rate": 2.9409660707873597e-05,
2921
- "loss": 0.010909486562013626,
2922
- "step": 8300
2923
- },
2924
- {
2925
- "epoch": 0.7786290350096461,
2926
- "grad_norm": 0.17676737904548645,
2927
- "learning_rate": 2.932695762535691e-05,
2928
- "loss": 0.01464642733335495,
2929
- "step": 8320
2930
- },
2931
- {
2932
- "epoch": 0.780500739420727,
2933
- "grad_norm": 0.5979751348495483,
2934
- "learning_rate": 2.9244205698717943e-05,
2935
- "loss": 0.028799059987068176,
2936
- "step": 8340
2937
- },
2938
- {
2939
- "epoch": 0.7823724438318078,
2940
- "grad_norm": 0.08448052406311035,
2941
- "learning_rate": 2.9161405862087676e-05,
2942
- "loss": 0.014056096971035003,
2943
- "step": 8360
2944
- },
2945
- {
2946
- "epoch": 0.7842441482428888,
2947
- "grad_norm": 0.5616207122802734,
2948
- "learning_rate": 2.9078559050137955e-05,
2949
- "loss": 0.008744364231824875,
2950
- "step": 8380
2951
- },
2952
- {
2953
- "epoch": 0.7861158526539697,
2954
- "grad_norm": 0.7264829277992249,
2955
- "learning_rate": 2.8995666198070836e-05,
2956
- "loss": 0.014575870335102081,
2957
- "step": 8400
2958
- },
2959
- {
2960
- "epoch": 0.7879875570650505,
2961
- "grad_norm": 1.444239616394043,
2962
- "learning_rate": 2.891272824160815e-05,
2963
- "loss": 0.01230706349015236,
2964
- "step": 8420
2965
- },
2966
- {
2967
- "epoch": 0.7898592614761314,
2968
- "grad_norm": 0.02643579989671707,
2969
- "learning_rate": 2.882974611698084e-05,
2970
- "loss": 0.01713460832834244,
2971
- "step": 8440
2972
- },
2973
- {
2974
- "epoch": 0.7917309658872123,
2975
- "grad_norm": 0.19893163442611694,
2976
- "learning_rate": 2.8746720760918457e-05,
2977
- "loss": 0.009562552720308305,
2978
- "step": 8460
2979
- },
2980
- {
2981
- "epoch": 0.7936026702982931,
2982
- "grad_norm": 1.8813897371292114,
2983
- "learning_rate": 2.866365311063855e-05,
2984
- "loss": 0.01966284364461899,
2985
- "step": 8480
2986
- },
2987
- {
2988
- "epoch": 0.795474374709374,
2989
- "grad_norm": 0.1820579618215561,
2990
- "learning_rate": 2.8580544103836114e-05,
2991
- "loss": 0.023943188786506652,
2992
- "step": 8500
2993
- },
2994
- {
2995
- "epoch": 0.7973460791204549,
2996
- "grad_norm": 1.3913259506225586,
2997
- "learning_rate": 2.849739467867298e-05,
2998
- "loss": 0.02233349084854126,
2999
- "step": 8520
3000
- },
3001
- {
3002
- "epoch": 0.7992177835315358,
3003
- "grad_norm": 0.28450486063957214,
3004
- "learning_rate": 2.8414205773767223e-05,
3005
- "loss": 0.016230446100234986,
3006
- "step": 8540
3007
- },
3008
- {
3009
- "epoch": 0.8010894879426167,
3010
- "grad_norm": 0.46086356043815613,
3011
- "learning_rate": 2.83309783281826e-05,
3012
- "loss": 0.013964855670928955,
3013
- "step": 8560
3014
- },
3015
- {
3016
- "epoch": 0.8029611923536976,
3017
- "grad_norm": 1.1401137113571167,
3018
- "learning_rate": 2.8247713281417924e-05,
3019
- "loss": 0.01552264392375946,
3020
- "step": 8580
3021
- },
3022
- {
3023
- "epoch": 0.8048328967647784,
3024
- "grad_norm": 0.02414649911224842,
3025
- "learning_rate": 2.8164411573396444e-05,
3026
- "loss": 0.00505053773522377,
3027
- "step": 8600
3028
- },
3029
- {
3030
- "epoch": 0.8067046011758593,
3031
- "grad_norm": 0.029010778293013573,
3032
- "learning_rate": 2.8081074144455276e-05,
3033
- "loss": 0.008068422973155975,
3034
- "step": 8620
3035
- },
3036
- {
3037
- "epoch": 0.8085763055869402,
3038
- "grad_norm": 0.024924319237470627,
3039
- "learning_rate": 2.7997701935334747e-05,
3040
- "loss": 0.021529987454414368,
3041
- "step": 8640
3042
- },
3043
- {
3044
- "epoch": 0.810448009998021,
3045
- "grad_norm": 0.3544171154499054,
3046
- "learning_rate": 2.791429588716782e-05,
3047
- "loss": 0.008264218270778657,
3048
- "step": 8660
3049
- },
3050
- {
3051
- "epoch": 0.8123197144091019,
3052
- "grad_norm": 0.011211074888706207,
3053
- "learning_rate": 2.7830856941469407e-05,
3054
- "loss": 0.013752134144306183,
3055
- "step": 8680
3056
- },
3057
- {
3058
- "epoch": 0.8141914188201829,
3059
- "grad_norm": 0.30479249358177185,
3060
- "learning_rate": 2.7747386040125807e-05,
3061
- "loss": 0.01313515156507492,
3062
- "step": 8700
3063
- },
3064
- {
3065
- "epoch": 0.8160631232312637,
3066
- "grad_norm": 3.1079516410827637,
3067
- "learning_rate": 2.766388412538404e-05,
3068
- "loss": 0.013471932709217071,
3069
- "step": 8720
3070
- },
3071
- {
3072
- "epoch": 0.8179348276423446,
3073
- "grad_norm": 0.011288405396044254,
3074
- "learning_rate": 2.758035213984121e-05,
3075
- "loss": 0.011207062005996703,
3076
- "step": 8740
3077
- },
3078
- {
3079
- "epoch": 0.8198065320534255,
3080
- "grad_norm": 0.011481484398245811,
3081
- "learning_rate": 2.749679102643387e-05,
3082
- "loss": 0.018254657089710236,
3083
- "step": 8760
3084
- },
3085
- {
3086
- "epoch": 0.8216782364645063,
3087
- "grad_norm": 0.037564992904663086,
3088
- "learning_rate": 2.7413201728427372e-05,
3089
- "loss": 0.024057184159755707,
3090
- "step": 8780
3091
- },
3092
- {
3093
- "epoch": 0.8235499408755872,
3094
- "grad_norm": 0.03808968514204025,
3095
- "learning_rate": 2.7329585189405253e-05,
3096
- "loss": 0.006051592528820038,
3097
- "step": 8800
3098
- },
3099
- {
3100
- "epoch": 0.8254216452866681,
3101
- "grad_norm": 0.07610247284173965,
3102
- "learning_rate": 2.724594235325852e-05,
3103
- "loss": 0.025592076778411865,
3104
- "step": 8820
3105
- },
3106
- {
3107
- "epoch": 0.827293349697749,
3108
- "grad_norm": 0.019049810245633125,
3109
- "learning_rate": 2.716227416417505e-05,
3110
- "loss": 0.0037486787885427477,
3111
- "step": 8840
3112
- },
3113
- {
3114
- "epoch": 0.8291650541088299,
3115
- "grad_norm": 0.6380273699760437,
3116
- "learning_rate": 2.7078581566628897e-05,
3117
- "loss": 0.015487492084503174,
3118
- "step": 8860
3119
- },
3120
- {
3121
- "epoch": 0.8310367585199108,
3122
- "grad_norm": 0.05775881186127663,
3123
- "learning_rate": 2.699486550536968e-05,
3124
- "loss": 0.03133237063884735,
3125
- "step": 8880
3126
- },
3127
- {
3128
- "epoch": 0.8329084629309916,
3129
- "grad_norm": 0.047411222010850906,
3130
- "learning_rate": 2.6911126925411845e-05,
3131
- "loss": 0.00861177071928978,
3132
- "step": 8900
3133
- },
3134
- {
3135
- "epoch": 0.8347801673420725,
3136
- "grad_norm": 0.23981286585330963,
3137
- "learning_rate": 2.682736677202406e-05,
3138
- "loss": 0.01839599907398224,
3139
- "step": 8920
3140
- },
3141
- {
3142
- "epoch": 0.8366518717531534,
3143
- "grad_norm": 0.36887305974960327,
3144
- "learning_rate": 2.6743585990718505e-05,
3145
- "loss": 0.01008533239364624,
3146
- "step": 8940
3147
- },
3148
- {
3149
- "epoch": 0.8385235761642342,
3150
- "grad_norm": 0.8994531035423279,
3151
- "learning_rate": 2.6659785527240233e-05,
3152
- "loss": 0.027107802033424378,
3153
- "step": 8960
3154
- },
3155
- {
3156
- "epoch": 0.8403952805753151,
3157
- "grad_norm": 0.12780402600765228,
3158
- "learning_rate": 2.6575966327556458e-05,
3159
- "loss": 0.03549482524394989,
3160
- "step": 8980
3161
- },
3162
- {
3163
- "epoch": 0.8422669849863961,
3164
- "grad_norm": 0.3294568359851837,
3165
- "learning_rate": 2.649212933784591e-05,
3166
- "loss": 0.02797776460647583,
3167
- "step": 9000
3168
- },
3169
- {
3170
- "epoch": 0.8441386893974769,
3171
- "grad_norm": 0.019461506977677345,
3172
- "learning_rate": 2.640827550448812e-05,
3173
- "loss": 0.010047334432601928,
3174
- "step": 9020
3175
- },
3176
- {
3177
- "epoch": 0.8460103938085578,
3178
- "grad_norm": 0.056546472012996674,
3179
- "learning_rate": 2.6324405774052784e-05,
3180
- "loss": 0.02831721007823944,
3181
- "step": 9040
3182
- },
3183
- {
3184
- "epoch": 0.8478820982196387,
3185
- "grad_norm": 0.017190299928188324,
3186
- "learning_rate": 2.6240521093289022e-05,
3187
- "loss": 0.019623257219791412,
3188
- "step": 9060
3189
- },
3190
- {
3191
- "epoch": 0.8497538026307195,
3192
- "grad_norm": 0.04793965816497803,
3193
- "learning_rate": 2.6156622409114728e-05,
3194
- "loss": 0.011966148018836975,
3195
- "step": 9080
3196
- },
3197
- {
3198
- "epoch": 0.8516255070418004,
3199
- "grad_norm": 0.006742037367075682,
3200
- "learning_rate": 2.607271066860587e-05,
3201
- "loss": 0.013694784045219422,
3202
- "step": 9100
3203
- },
3204
- {
3205
- "epoch": 0.8534972114528813,
3206
- "grad_norm": 0.03113027848303318,
3207
- "learning_rate": 2.5988786818985812e-05,
3208
- "loss": 0.05338943004608154,
3209
- "step": 9120
3210
- },
3211
- {
3212
- "epoch": 0.8553689158639621,
3213
- "grad_norm": 0.6589255928993225,
3214
- "learning_rate": 2.5904851807614588e-05,
3215
- "loss": 0.01305432766675949,
3216
- "step": 9140
3217
- },
3218
- {
3219
- "epoch": 0.8572406202750431,
3220
- "grad_norm": 0.3030281960964203,
3221
- "learning_rate": 2.582090658197825e-05,
3222
- "loss": 0.03663805425167084,
3223
- "step": 9160
3224
- },
3225
- {
3226
- "epoch": 0.859112324686124,
3227
- "grad_norm": 0.37101081013679504,
3228
- "learning_rate": 2.573695208967814e-05,
3229
- "loss": 0.016968609392642976,
3230
- "step": 9180
3231
- },
3232
- {
3233
- "epoch": 0.8609840290972048,
3234
- "grad_norm": 0.7480998039245605,
3235
- "learning_rate": 2.5652989278420197e-05,
3236
- "loss": 0.021240857243537904,
3237
- "step": 9200
3238
- },
3239
- {
3240
- "epoch": 0.8628557335082857,
3241
- "grad_norm": 0.017131274566054344,
3242
- "learning_rate": 2.5569019096004304e-05,
3243
- "loss": 0.004783949628472328,
3244
- "step": 9220
3245
- },
3246
- {
3247
- "epoch": 0.8647274379193666,
3248
- "grad_norm": 1.1544040441513062,
3249
- "learning_rate": 2.5485042490313504e-05,
3250
- "loss": 0.02356208860874176,
3251
- "step": 9240
3252
- },
3253
- {
3254
- "epoch": 0.8665991423304474,
3255
- "grad_norm": 0.13512635231018066,
3256
- "learning_rate": 2.540106040930338e-05,
3257
- "loss": 0.009329542517662048,
3258
- "step": 9260
3259
- },
3260
- {
3261
- "epoch": 0.8684708467415283,
3262
- "grad_norm": 0.018427839502692223,
3263
- "learning_rate": 2.5317073800991304e-05,
3264
- "loss": 0.007472375035285949,
3265
- "step": 9280
3266
- },
3267
- {
3268
- "epoch": 0.8703425511526093,
3269
- "grad_norm": 0.02722800336778164,
3270
- "learning_rate": 2.5233083613445778e-05,
3271
- "loss": 0.020304642617702484,
3272
- "step": 9300
3273
- },
3274
- {
3275
- "epoch": 0.8722142555636901,
3276
- "grad_norm": 0.051702745258808136,
3277
- "learning_rate": 2.5149090794775675e-05,
3278
- "loss": 0.02955295443534851,
3279
- "step": 9320
3280
- },
3281
- {
3282
- "epoch": 0.874085959974771,
3283
- "grad_norm": 0.1535400152206421,
3284
- "learning_rate": 2.5065096293119604e-05,
3285
- "loss": 0.030047640204429626,
3286
- "step": 9340
3287
- },
3288
- {
3289
- "epoch": 0.8759576643858519,
3290
- "grad_norm": 0.383573979139328,
3291
- "learning_rate": 2.498110105663513e-05,
3292
- "loss": 0.011377302557229995,
3293
- "step": 9360
3294
- },
3295
- {
3296
- "epoch": 0.8778293687969327,
3297
- "grad_norm": 0.23541487753391266,
3298
- "learning_rate": 2.489710603348817e-05,
3299
- "loss": 0.02304387390613556,
3300
- "step": 9380
3301
- },
3302
- {
3303
- "epoch": 0.8797010732080136,
3304
- "grad_norm": 0.029004938900470734,
3305
- "learning_rate": 2.4813112171842162e-05,
3306
- "loss": 0.020582889020442963,
3307
- "step": 9400
3308
- },
3309
- {
3310
- "epoch": 0.8815727776190945,
3311
- "grad_norm": 0.06564116477966309,
3312
- "learning_rate": 2.4729120419847498e-05,
3313
- "loss": 0.014207787811756134,
3314
- "step": 9420
3315
- },
3316
- {
3317
- "epoch": 0.8834444820301753,
3318
- "grad_norm": 0.01633615791797638,
3319
- "learning_rate": 2.464513172563072e-05,
3320
- "loss": 0.01756283938884735,
3321
- "step": 9440
3322
- },
3323
- {
3324
- "epoch": 0.8853161864412563,
3325
- "grad_norm": 0.01287770178169012,
3326
- "learning_rate": 2.456114703728386e-05,
3327
- "loss": 0.003737853467464447,
3328
- "step": 9460
3329
- },
3330
- {
3331
- "epoch": 0.8871878908523372,
3332
- "grad_norm": 0.05004064738750458,
3333
- "learning_rate": 2.448136615728485e-05,
3334
- "loss": 0.0324675589799881,
3335
- "step": 9480
3336
- },
3337
- {
3338
- "epoch": 0.889059595263418,
3339
- "grad_norm": 1.20869779586792,
3340
- "learning_rate": 2.4397392007153162e-05,
3341
- "loss": 0.007156150788068772,
3342
- "step": 9500
3343
- },
3344
- {
3345
- "epoch": 0.8909312996744989,
3346
- "grad_norm": 1.1070218086242676,
3347
- "learning_rate": 2.43134246594589e-05,
3348
- "loss": 0.009275762736797333,
3349
- "step": 9520
3350
- },
3351
- {
3352
- "epoch": 0.8928030040855798,
3353
- "grad_norm": 0.878593385219574,
3354
- "learning_rate": 2.4229465062053136e-05,
3355
- "loss": 0.018170186877250673,
3356
- "step": 9540
3357
- },
3358
- {
3359
- "epoch": 2.2363022211823886,
3360
- "grad_norm": 0.008350222371518612,
3361
- "learning_rate": 1.4461640332194936e-05,
3362
- "loss": 0.0004116921336390078,
3363
- "step": 9560
3364
- },
3365
- {
3366
- "epoch": 2.24098147308699,
3367
- "grad_norm": 0.007046359125524759,
3368
- "learning_rate": 1.4366537531356394e-05,
3369
- "loss": 0.002331317216157913,
3370
- "step": 9580
3371
- },
3372
- {
3373
- "epoch": 2.245660724991592,
3374
- "grad_norm": 0.017349600791931152,
3375
- "learning_rate": 1.4271622228435674e-05,
3376
- "loss": 0.002835669182240963,
3377
- "step": 9600
3378
- },
3379
- {
3380
- "epoch": 2.2503399768961936,
3381
- "grad_norm": 0.002660916419699788,
3382
- "learning_rate": 1.4176896097057135e-05,
3383
- "loss": 0.0046301551163196565,
3384
- "step": 9620
3385
- },
3386
- {
3387
- "epoch": 2.2550192288007955,
3388
- "grad_norm": 0.0053788539953529835,
3389
- "learning_rate": 1.4082360807509482e-05,
3390
- "loss": 0.0025884199887514113,
3391
- "step": 9640
3392
- },
3393
- {
3394
- "epoch": 2.2596984807053975,
3395
- "grad_norm": 0.008494540117681026,
3396
- "learning_rate": 1.3988018026716371e-05,
3397
- "loss": 0.004505794495344162,
3398
- "step": 9660
3399
- },
3400
- {
3401
- "epoch": 2.264377732609999,
3402
- "grad_norm": 0.0039060732815414667,
3403
- "learning_rate": 1.3893869418206949e-05,
3404
- "loss": 0.006675707548856736,
3405
- "step": 9680
3406
- },
3407
- {
3408
- "epoch": 2.269056984514601,
3409
- "grad_norm": 0.009458056651055813,
3410
- "learning_rate": 1.3799916642086585e-05,
3411
- "loss": 0.0005204954650253057,
3412
- "step": 9700
3413
- },
3414
- {
3415
- "epoch": 2.2737362364192024,
3416
- "grad_norm": 0.003356020897626877,
3417
- "learning_rate": 1.3706161355007579e-05,
3418
- "loss": 0.0003609266597777605,
3419
- "step": 9720
3420
- },
3421
- {
3422
- "epoch": 2.2784154883238044,
3423
- "grad_norm": 0.5002136826515198,
3424
- "learning_rate": 1.3612605210139912e-05,
3425
- "loss": 0.004545193165540695,
3426
- "step": 9740
3427
- },
3428
- {
3429
- "epoch": 2.283094740228406,
3430
- "grad_norm": 0.005455829668790102,
3431
- "learning_rate": 1.3519249857142147e-05,
3432
- "loss": 0.0071854725480079654,
3433
- "step": 9760
3434
- },
3435
- {
3436
- "epoch": 2.287773992133008,
3437
- "grad_norm": 0.0034075307194143534,
3438
- "learning_rate": 1.3426096942132305e-05,
3439
- "loss": 0.0009716464206576348,
3440
- "step": 9780
3441
- },
3442
- {
3443
- "epoch": 2.2924532440376093,
3444
- "grad_norm": 0.027845729142427444,
3445
- "learning_rate": 1.3333148107658883e-05,
3446
- "loss": 0.002121881954371929,
3447
- "step": 9800
3448
- },
3449
- {
3450
- "epoch": 2.2971324959422112,
3451
- "grad_norm": 0.09180603921413422,
3452
- "learning_rate": 1.3240404992671823e-05,
3453
- "loss": 0.0004960776772350073,
3454
- "step": 9820
3455
- },
3456
- {
3457
- "epoch": 2.3018117478468128,
3458
- "grad_norm": 0.002785895951092243,
3459
- "learning_rate": 1.3147869232493698e-05,
3460
- "loss": 0.0003569391556084156,
3461
- "step": 9840
3462
- },
3463
- {
3464
- "epoch": 2.3064909997514147,
3465
- "grad_norm": 0.0052960398606956005,
3466
- "learning_rate": 1.305554245879079e-05,
3467
- "loss": 0.006173171475529671,
3468
- "step": 9860
3469
- },
3470
- {
3471
- "epoch": 2.3111702516560166,
3472
- "grad_norm": 0.011150095611810684,
3473
- "learning_rate": 1.296342629954439e-05,
3474
- "loss": 0.0003610009793192148,
3475
- "step": 9880
3476
- },
3477
- {
3478
- "epoch": 2.315849503560618,
3479
- "grad_norm": 0.005413333419710398,
3480
- "learning_rate": 1.2871522379022038e-05,
3481
- "loss": 0.00034034508280456066,
3482
- "step": 9900
3483
- },
3484
- {
3485
- "epoch": 2.32052875546522,
3486
- "grad_norm": 0.005048416554927826,
3487
- "learning_rate": 1.2779832317748933e-05,
3488
- "loss": 0.0004146155435591936,
3489
- "step": 9920
3490
- },
3491
- {
3492
- "epoch": 2.3252080073698216,
3493
- "grad_norm": 0.0036182717885822058,
3494
- "learning_rate": 1.2688357732479303e-05,
3495
- "loss": 0.0004476548172533512,
3496
- "step": 9940
3497
- },
3498
- {
3499
- "epoch": 2.3298872592744235,
3500
- "grad_norm": 0.003401585388928652,
3501
- "learning_rate": 1.2597100236167963e-05,
3502
- "loss": 0.010583753883838653,
3503
- "step": 9960
3504
- },
3505
- {
3506
- "epoch": 2.334566511179025,
3507
- "grad_norm": 0.007459722459316254,
3508
- "learning_rate": 1.2506061437941804e-05,
3509
- "loss": 0.0008749734610319137,
3510
- "step": 9980
3511
- },
3512
- {
3513
- "epoch": 2.339245763083627,
3514
- "grad_norm": 0.0029236485715955496,
3515
- "learning_rate": 1.241524294307147e-05,
3516
- "loss": 0.01898992955684662,
3517
- "step": 10000
3518
- },
3519
- {
3520
- "epoch": 2.343925014988229,
3521
- "grad_norm": 0.012698110193014145,
3522
- "learning_rate": 1.232464635294302e-05,
3523
- "loss": 0.00044077420607209207,
3524
- "step": 10020
3525
- },
3526
- {
3527
- "epoch": 2.3486042668928304,
3528
- "grad_norm": 0.004794010892510414,
3529
- "learning_rate": 1.2234273265029742e-05,
3530
- "loss": 0.0007495431229472161,
3531
- "step": 10040
3532
- },
3533
- {
3534
- "epoch": 2.3532835187974324,
3535
- "grad_norm": 0.0034349120687693357,
3536
- "learning_rate": 1.2144125272863905e-05,
3537
- "loss": 0.003268691524863243,
3538
- "step": 10060
3539
- }
3540
- ],
3541
- "logging_steps": 20,
3542
- "max_steps": 14963,
3543
- "num_input_tokens_seen": 0,
3544
- "num_train_epochs": 4,
3545
- "save_steps": 1000000000,
3546
- "stateful_callbacks": {
3547
- "TrainerControl": {
3548
- "args": {
3549
- "should_epoch_stop": false,
3550
- "should_evaluate": false,
3551
- "should_log": false,
3552
- "should_save": true,
3553
- "should_training_stop": false
3554
- },
3555
- "attributes": {}
3556
- }
3557
- },
3558
- "total_flos": 3.863966946718694e+16,
3559
- "train_batch_size": 1,
3560
- "trial_name": null,
3561
- "trial_params": null
3562
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/10/checkpoint-10075/training_args.bin DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:66430bba102a8f3dc245713cd6268a99c212c508aacce1d8b9768464f5df26ec
3
- size 5201
 
 
 
 
slots/10/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:10", "checkpoint": "slots/10/checkpoint-10075", "step": 10075, "updated_at": 1776816260}
 
 
slots/11/checkpoint-10018/config.json DELETED
@@ -1,24 +0,0 @@
1
- {
2
- "architectures": [
3
- "TwinyForCausalLM"
4
- ],
5
- "attention_dropout": 0.0,
6
- "dtype": "float32",
7
- "hidden_dropout": 0.0,
8
- "hidden_size": 768,
9
- "initializer_range": 0.02,
10
- "intermediate_size": 3072,
11
- "max_position_embeddings": 128,
12
- "model_type": "twiny",
13
- "neftune_alpha": 0.0,
14
- "num_attention_heads": 12,
15
- "num_hidden_layers": 3,
16
- "num_key_value_heads": 3,
17
- "qk_norm": true,
18
- "rezero_init": 1.0,
19
- "rms_norm_eps": 1e-06,
20
- "rope_theta": 10000.0,
21
- "transformers_version": "5.0.0",
22
- "use_cache": false,
23
- "vocab_size": 32000
24
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/11/checkpoint-10018/model.safetensors DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:bc385e0ba2997d889c222255cc32afd608ff9a7becbc9b801a4ddf466b56965a
3
- size 306388092
 
 
 
 
slots/11/checkpoint-10018/optimizer.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:0cb5b5c3221bbb44ed59fc9d517d754c22206f83f715c4b3f5045db7b5dadace
3
- size 302484555
 
 
 
 
slots/11/checkpoint-10018/rng_state.pth DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
3
- size 14645
 
 
 
 
slots/11/checkpoint-10018/scaler.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:93218919383530af8961c39d5c4b5f375fe2736cffa9fc9e0924598bb8b36350
3
- size 1383
 
 
 
 
slots/11/checkpoint-10018/scheduler.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:e311f2d14f1c14c28988e6e35b49c2006cef0f3031ae333e9760372424fc79da
3
- size 1465
 
 
 
 
slots/11/checkpoint-10018/trainer_state.json DELETED
@@ -1,3541 +0,0 @@
1
- {
2
- "best_global_step": null,
3
- "best_metric": null,
4
- "best_model_checkpoint": null,
5
- "epoch": 2.3434579268426425,
6
- "eval_steps": 500,
7
- "global_step": 10018,
8
- "is_hyper_param_search": false,
9
- "is_local_process_zero": true,
10
- "is_world_process_zero": true,
11
- "log_history": [
12
- {
13
- "epoch": 0.0001336931908386741,
14
- "grad_norm": Infinity,
15
- "learning_rate": 5e-05,
16
- "loss": 129.80032348632812,
17
- "step": 1
18
- },
19
- {
20
- "epoch": 0.002673863816773482,
21
- "grad_norm": 63.64365768432617,
22
- "learning_rate": 4.999995392022967e-05,
23
- "loss": 63.88374408922697,
24
- "step": 20
25
- },
26
- {
27
- "epoch": 0.005347727633546964,
28
- "grad_norm": 24.627853393554688,
29
- "learning_rate": 4.999976672145381e-05,
30
- "loss": 12.65963363647461,
31
- "step": 40
32
- },
33
- {
34
- "epoch": 0.008021591450320446,
35
- "grad_norm": 14.29983901977539,
36
- "learning_rate": 4.999943552476422e-05,
37
- "loss": 5.90204963684082,
38
- "step": 60
39
- },
40
- {
41
- "epoch": 0.010695455267093928,
42
- "grad_norm": 15.690323829650879,
43
- "learning_rate": 4.999896033206858e-05,
44
- "loss": 3.9918922424316405,
45
- "step": 80
46
- },
47
- {
48
- "epoch": 0.01336931908386741,
49
- "grad_norm": 31.583160400390625,
50
- "learning_rate": 4.999834114610398e-05,
51
- "loss": 2.9675426483154297,
52
- "step": 100
53
- },
54
- {
55
- "epoch": 0.01604318290064089,
56
- "grad_norm": 13.034649848937988,
57
- "learning_rate": 4.999757797043691e-05,
58
- "loss": 2.725296401977539,
59
- "step": 120
60
- },
61
- {
62
- "epoch": 0.018717046717414372,
63
- "grad_norm": 8.362203598022461,
64
- "learning_rate": 4.999667080946324e-05,
65
- "loss": 2.2478992462158205,
66
- "step": 140
67
- },
68
- {
69
- "epoch": 0.021390910534187856,
70
- "grad_norm": 8.726786613464355,
71
- "learning_rate": 4.999561966840821e-05,
72
- "loss": 1.8447845458984375,
73
- "step": 160
74
- },
75
- {
76
- "epoch": 0.024064774350961337,
77
- "grad_norm": 10.092752456665039,
78
- "learning_rate": 4.9994424553326335e-05,
79
- "loss": 1.5611843109130858,
80
- "step": 180
81
- },
82
- {
83
- "epoch": 0.02673863816773482,
84
- "grad_norm": 9.090085983276367,
85
- "learning_rate": 4.999308547110146e-05,
86
- "loss": 1.520334815979004,
87
- "step": 200
88
- },
89
- {
90
- "epoch": 0.029412501984508302,
91
- "grad_norm": 9.668124198913574,
92
- "learning_rate": 4.999160242944665e-05,
93
- "loss": 1.2818055152893066,
94
- "step": 220
95
- },
96
- {
97
- "epoch": 0.03208636580128178,
98
- "grad_norm": 9.182533264160156,
99
- "learning_rate": 4.998997543690418e-05,
100
- "loss": 1.0428407669067383,
101
- "step": 240
102
- },
103
- {
104
- "epoch": 0.03476022961805526,
105
- "grad_norm": 5.745838165283203,
106
- "learning_rate": 4.998820450284549e-05,
107
- "loss": 1.2343652725219727,
108
- "step": 260
109
- },
110
- {
111
- "epoch": 0.037434093434828744,
112
- "grad_norm": 8.651643753051758,
113
- "learning_rate": 4.99862896374711e-05,
114
- "loss": 0.8859601020812988,
115
- "step": 280
116
- },
117
- {
118
- "epoch": 0.04010795725160223,
119
- "grad_norm": 10.765266418457031,
120
- "learning_rate": 4.998423085181056e-05,
121
- "loss": 0.989600658416748,
122
- "step": 300
123
- },
124
- {
125
- "epoch": 0.04278182106837571,
126
- "grad_norm": 6.092499256134033,
127
- "learning_rate": 4.998202815772245e-05,
128
- "loss": 0.7189463615417481,
129
- "step": 320
130
- },
131
- {
132
- "epoch": 0.04545568488514919,
133
- "grad_norm": 6.352876663208008,
134
- "learning_rate": 4.9979681567894195e-05,
135
- "loss": 0.7489545345306396,
136
- "step": 340
137
- },
138
- {
139
- "epoch": 0.048129548701922674,
140
- "grad_norm": 4.620656490325928,
141
- "learning_rate": 4.997719109584209e-05,
142
- "loss": 0.7381401538848877,
143
- "step": 360
144
- },
145
- {
146
- "epoch": 0.050803412518696155,
147
- "grad_norm": 7.796917915344238,
148
- "learning_rate": 4.997455675591119e-05,
149
- "loss": 0.5687405109405518,
150
- "step": 380
151
- },
152
- {
153
- "epoch": 0.05347727633546964,
154
- "grad_norm": 2.837172508239746,
155
- "learning_rate": 4.9971778563275204e-05,
156
- "loss": 0.5686865329742432,
157
- "step": 400
158
- },
159
- {
160
- "epoch": 0.05615114015224312,
161
- "grad_norm": 3.3103690147399902,
162
- "learning_rate": 4.9968856533936436e-05,
163
- "loss": 0.625730562210083,
164
- "step": 420
165
- },
166
- {
167
- "epoch": 0.058825003969016604,
168
- "grad_norm": 3.5682132244110107,
169
- "learning_rate": 4.99657906847257e-05,
170
- "loss": 0.6125466346740722,
171
- "step": 440
172
- },
173
- {
174
- "epoch": 0.061498867785790085,
175
- "grad_norm": 5.63640832901001,
176
- "learning_rate": 4.996258103330218e-05,
177
- "loss": 0.6182214260101319,
178
- "step": 460
179
- },
180
- {
181
- "epoch": 0.06417273160256357,
182
- "grad_norm": 4.698945999145508,
183
- "learning_rate": 4.995922759815339e-05,
184
- "loss": 0.43828091621398924,
185
- "step": 480
186
- },
187
- {
188
- "epoch": 0.06684659541933705,
189
- "grad_norm": 2.1976189613342285,
190
- "learning_rate": 4.995573039859501e-05,
191
- "loss": 0.4459230899810791,
192
- "step": 500
193
- },
194
- {
195
- "epoch": 0.06952045923611053,
196
- "grad_norm": 3.8809523582458496,
197
- "learning_rate": 4.995208945477081e-05,
198
- "loss": 0.3821882963180542,
199
- "step": 520
200
- },
201
- {
202
- "epoch": 0.07219432305288401,
203
- "grad_norm": 3.75144100189209,
204
- "learning_rate": 4.994830478765251e-05,
205
- "loss": 0.5800807476043701,
206
- "step": 540
207
- },
208
- {
209
- "epoch": 0.07486818686965749,
210
- "grad_norm": 3.0038585662841797,
211
- "learning_rate": 4.9944376419039684e-05,
212
- "loss": 0.3928264617919922,
213
- "step": 560
214
- },
215
- {
216
- "epoch": 0.07754205068643098,
217
- "grad_norm": 3.614591598510742,
218
- "learning_rate": 4.994030437155961e-05,
219
- "loss": 0.48637890815734863,
220
- "step": 580
221
- },
222
- {
223
- "epoch": 0.08021591450320446,
224
- "grad_norm": 4.143443584442139,
225
- "learning_rate": 4.993608866866718e-05,
226
- "loss": 0.3650153160095215,
227
- "step": 600
228
- },
229
- {
230
- "epoch": 0.08288977831997794,
231
- "grad_norm": 6.692712783813477,
232
- "learning_rate": 4.993172933464471e-05,
233
- "loss": 0.3677916288375854,
234
- "step": 620
235
- },
236
- {
237
- "epoch": 0.08556364213675142,
238
- "grad_norm": 8.383441925048828,
239
- "learning_rate": 4.9927226394601815e-05,
240
- "loss": 0.3399480104446411,
241
- "step": 640
242
- },
243
- {
244
- "epoch": 0.0882375059535249,
245
- "grad_norm": 5.566338062286377,
246
- "learning_rate": 4.992257987447532e-05,
247
- "loss": 0.28104052543640134,
248
- "step": 660
249
- },
250
- {
251
- "epoch": 0.09091136977029839,
252
- "grad_norm": 3.1196420192718506,
253
- "learning_rate": 4.991778980102904e-05,
254
- "loss": 0.351950478553772,
255
- "step": 680
256
- },
257
- {
258
- "epoch": 0.09358523358707187,
259
- "grad_norm": 3.47979736328125,
260
- "learning_rate": 4.9912856201853644e-05,
261
- "loss": 0.27501535415649414,
262
- "step": 700
263
- },
264
- {
265
- "epoch": 0.09625909740384535,
266
- "grad_norm": 5.446717262268066,
267
- "learning_rate": 4.990777910536653e-05,
268
- "loss": 0.2651593923568726,
269
- "step": 720
270
- },
271
- {
272
- "epoch": 0.09893296122061883,
273
- "grad_norm": 7.6145339012146,
274
- "learning_rate": 4.990255854081161e-05,
275
- "loss": 0.35140380859375,
276
- "step": 740
277
- },
278
- {
279
- "epoch": 0.10160682503739231,
280
- "grad_norm": 8.445616722106934,
281
- "learning_rate": 4.989719453825918e-05,
282
- "loss": 0.2961219072341919,
283
- "step": 760
284
- },
285
- {
286
- "epoch": 0.10428068885416579,
287
- "grad_norm": 6.339537620544434,
288
- "learning_rate": 4.9891687128605744e-05,
289
- "loss": 0.24962289333343507,
290
- "step": 780
291
- },
292
- {
293
- "epoch": 0.10695455267093928,
294
- "grad_norm": 3.3369436264038086,
295
- "learning_rate": 4.988603634357383e-05,
296
- "loss": 0.2124847412109375,
297
- "step": 800
298
- },
299
- {
300
- "epoch": 0.10962841648771277,
301
- "grad_norm": 2.2909045219421387,
302
- "learning_rate": 4.988024221571177e-05,
303
- "loss": 0.24679112434387207,
304
- "step": 820
305
- },
306
- {
307
- "epoch": 0.11230228030448625,
308
- "grad_norm": 3.1149911880493164,
309
- "learning_rate": 4.9874304778393574e-05,
310
- "loss": 0.22161397933959961,
311
- "step": 840
312
- },
313
- {
314
- "epoch": 0.11497614412125973,
315
- "grad_norm": 14.802160263061523,
316
- "learning_rate": 4.9868224065818706e-05,
317
- "loss": 0.2623537302017212,
318
- "step": 860
319
- },
320
- {
321
- "epoch": 0.11765000793803321,
322
- "grad_norm": 5.586325168609619,
323
- "learning_rate": 4.98620001130119e-05,
324
- "loss": 0.3560942649841309,
325
- "step": 880
326
- },
327
- {
328
- "epoch": 0.12032387175480669,
329
- "grad_norm": 3.390017032623291,
330
- "learning_rate": 4.9855632955822916e-05,
331
- "loss": 0.16934787034988402,
332
- "step": 900
333
- },
334
- {
335
- "epoch": 0.12299773557158017,
336
- "grad_norm": 6.070940971374512,
337
- "learning_rate": 4.984912263092641e-05,
338
- "loss": 0.2131197214126587,
339
- "step": 920
340
- },
341
- {
342
- "epoch": 0.12567159938835365,
343
- "grad_norm": 1.4912281036376953,
344
- "learning_rate": 4.984246917582166e-05,
345
- "loss": 0.25128653049468996,
346
- "step": 940
347
- },
348
- {
349
- "epoch": 0.12834546320512713,
350
- "grad_norm": 7.000472545623779,
351
- "learning_rate": 4.9835672628832366e-05,
352
- "loss": 0.2653592586517334,
353
- "step": 960
354
- },
355
- {
356
- "epoch": 0.1310193270219006,
357
- "grad_norm": 5.427223205566406,
358
- "learning_rate": 4.9828733029106434e-05,
359
- "loss": 0.1653295636177063,
360
- "step": 980
361
- },
362
- {
363
- "epoch": 0.1336931908386741,
364
- "grad_norm": 1.9502102136611938,
365
- "learning_rate": 4.982165041661575e-05,
366
- "loss": 0.2250870943069458,
367
- "step": 1000
368
- },
369
- {
370
- "epoch": 0.13636705465544757,
371
- "grad_norm": 0.6216259598731995,
372
- "learning_rate": 4.981442483215595e-05,
373
- "loss": 0.18943849802017212,
374
- "step": 1020
375
- },
376
- {
377
- "epoch": 0.13904091847222105,
378
- "grad_norm": 2.3363687992095947,
379
- "learning_rate": 4.98070563173462e-05,
380
- "loss": 0.1673592209815979,
381
- "step": 1040
382
- },
383
- {
384
- "epoch": 0.14171478228899453,
385
- "grad_norm": 1.040717601776123,
386
- "learning_rate": 4.979954491462892e-05,
387
- "loss": 0.2113173007965088,
388
- "step": 1060
389
- },
390
- {
391
- "epoch": 0.14438864610576801,
392
- "grad_norm": 2.735522747039795,
393
- "learning_rate": 4.979189066726955e-05,
394
- "loss": 0.17504971027374266,
395
- "step": 1080
396
- },
397
- {
398
- "epoch": 0.1470625099225415,
399
- "grad_norm": 4.701151371002197,
400
- "learning_rate": 4.978409361935636e-05,
401
- "loss": 0.15881222486495972,
402
- "step": 1100
403
- },
404
- {
405
- "epoch": 0.14973637373931498,
406
- "grad_norm": 2.735919237136841,
407
- "learning_rate": 4.9776153815800075e-05,
408
- "loss": 0.14044179916381835,
409
- "step": 1120
410
- },
411
- {
412
- "epoch": 0.15241023755608848,
413
- "grad_norm": 3.5479538440704346,
414
- "learning_rate": 4.976807130233375e-05,
415
- "loss": 0.18565714359283447,
416
- "step": 1140
417
- },
418
- {
419
- "epoch": 0.15508410137286197,
420
- "grad_norm": 3.2167458534240723,
421
- "learning_rate": 4.975984612551243e-05,
422
- "loss": 0.13236271142959594,
423
- "step": 1160
424
- },
425
- {
426
- "epoch": 0.15775796518963545,
427
- "grad_norm": 1.0206760168075562,
428
- "learning_rate": 4.975147833271288e-05,
429
- "loss": 0.19124728441238403,
430
- "step": 1180
431
- },
432
- {
433
- "epoch": 0.16043182900640893,
434
- "grad_norm": 4.194457530975342,
435
- "learning_rate": 4.9742967972133335e-05,
436
- "loss": 0.144741427898407,
437
- "step": 1200
438
- },
439
- {
440
- "epoch": 0.1631056928231824,
441
- "grad_norm": 3.0225746631622314,
442
- "learning_rate": 4.973431509279323e-05,
443
- "loss": 0.1374324679374695,
444
- "step": 1220
445
- },
446
- {
447
- "epoch": 0.1657795566399559,
448
- "grad_norm": 4.243523120880127,
449
- "learning_rate": 4.972551974453287e-05,
450
- "loss": 0.13663809299468993,
451
- "step": 1240
452
- },
453
- {
454
- "epoch": 0.16845342045672937,
455
- "grad_norm": 2.4990086555480957,
456
- "learning_rate": 4.971658197801322e-05,
457
- "loss": 0.16817957162857056,
458
- "step": 1260
459
- },
460
- {
461
- "epoch": 0.17112728427350285,
462
- "grad_norm": 4.983982563018799,
463
- "learning_rate": 4.9707501844715554e-05,
464
- "loss": 0.13795313835144044,
465
- "step": 1280
466
- },
467
- {
468
- "epoch": 0.17380114809027633,
469
- "grad_norm": 3.6780316829681396,
470
- "learning_rate": 4.969827939694115e-05,
471
- "loss": 0.1637880802154541,
472
- "step": 1300
473
- },
474
- {
475
- "epoch": 0.1764750119070498,
476
- "grad_norm": 0.7950732707977295,
477
- "learning_rate": 4.968891468781105e-05,
478
- "loss": 0.10979138612747193,
479
- "step": 1320
480
- },
481
- {
482
- "epoch": 0.1791488757238233,
483
- "grad_norm": 1.2414121627807617,
484
- "learning_rate": 4.967940777126569e-05,
485
- "loss": 0.13692171573638917,
486
- "step": 1340
487
- },
488
- {
489
- "epoch": 0.18182273954059677,
490
- "grad_norm": 2.1383633613586426,
491
- "learning_rate": 4.9669758702064636e-05,
492
- "loss": 0.07821698188781738,
493
- "step": 1360
494
- },
495
- {
496
- "epoch": 0.18449660335737025,
497
- "grad_norm": 5.061275959014893,
498
- "learning_rate": 4.965996753578623e-05,
499
- "loss": 0.19053516387939454,
500
- "step": 1380
501
- },
502
- {
503
- "epoch": 0.18717046717414373,
504
- "grad_norm": 6.151792049407959,
505
- "learning_rate": 4.9650034328827305e-05,
506
- "loss": 0.11360721588134766,
507
- "step": 1400
508
- },
509
- {
510
- "epoch": 0.18984433099091721,
511
- "grad_norm": 1.0604305267333984,
512
- "learning_rate": 4.963995913840284e-05,
513
- "loss": 0.13138024806976317,
514
- "step": 1420
515
- },
516
- {
517
- "epoch": 0.1925181948076907,
518
- "grad_norm": 1.7159489393234253,
519
- "learning_rate": 4.9629742022545623e-05,
520
- "loss": 0.08657677173614502,
521
- "step": 1440
522
- },
523
- {
524
- "epoch": 0.19519205862446418,
525
- "grad_norm": 2.4207754135131836,
526
- "learning_rate": 4.961938304010595e-05,
527
- "loss": 0.10309149026870727,
528
- "step": 1460
529
- },
530
- {
531
- "epoch": 0.19786592244123766,
532
- "grad_norm": 1.532060146331787,
533
- "learning_rate": 4.9608882250751245e-05,
534
- "loss": 0.13628544807434081,
535
- "step": 1480
536
- },
537
- {
538
- "epoch": 0.20053978625801114,
539
- "grad_norm": 6.409943580627441,
540
- "learning_rate": 4.959823971496574e-05,
541
- "loss": 0.10584845542907714,
542
- "step": 1500
543
- },
544
- {
545
- "epoch": 0.20321365007478462,
546
- "grad_norm": 2.452012538909912,
547
- "learning_rate": 4.9587455494050136e-05,
548
- "loss": 0.06506187915802002,
549
- "step": 1520
550
- },
551
- {
552
- "epoch": 0.2058875138915581,
553
- "grad_norm": 5.3016533851623535,
554
- "learning_rate": 4.9576529650121214e-05,
555
- "loss": 0.11848526000976563,
556
- "step": 1540
557
- },
558
- {
559
- "epoch": 0.20856137770833158,
560
- "grad_norm": 4.341775894165039,
561
- "learning_rate": 4.956546224611152e-05,
562
- "loss": 0.11318533420562744,
563
- "step": 1560
564
- },
565
- {
566
- "epoch": 0.21123524152510506,
567
- "grad_norm": 1.9056169986724854,
568
- "learning_rate": 4.9554253345768965e-05,
569
- "loss": 0.12768398523330687,
570
- "step": 1580
571
- },
572
- {
573
- "epoch": 0.21390910534187857,
574
- "grad_norm": 1.8939746618270874,
575
- "learning_rate": 4.9542903013656486e-05,
576
- "loss": 0.10782338380813598,
577
- "step": 1600
578
- },
579
- {
580
- "epoch": 0.21658296915865205,
581
- "grad_norm": 8.53671932220459,
582
- "learning_rate": 4.9531411315151654e-05,
583
- "loss": 0.1733921766281128,
584
- "step": 1620
585
- },
586
- {
587
- "epoch": 0.21925683297542553,
588
- "grad_norm": 2.0152978897094727,
589
- "learning_rate": 4.951977831644632e-05,
590
- "loss": 0.11197054386138916,
591
- "step": 1640
592
- },
593
- {
594
- "epoch": 0.221930696792199,
595
- "grad_norm": 3.8422367572784424,
596
- "learning_rate": 4.95080040845462e-05,
597
- "loss": 0.11441781520843505,
598
- "step": 1660
599
- },
600
- {
601
- "epoch": 0.2246045606089725,
602
- "grad_norm": 1.819858193397522,
603
- "learning_rate": 4.949608868727053e-05,
604
- "loss": 0.11403474807739258,
605
- "step": 1680
606
- },
607
- {
608
- "epoch": 0.22727842442574597,
609
- "grad_norm": 7.45100212097168,
610
- "learning_rate": 4.948403219325163e-05,
611
- "loss": 0.13117753267288207,
612
- "step": 1700
613
- },
614
- {
615
- "epoch": 0.22995228824251945,
616
- "grad_norm": 0.6526040434837341,
617
- "learning_rate": 4.947183467193456e-05,
618
- "loss": 0.07524924874305725,
619
- "step": 1720
620
- },
621
- {
622
- "epoch": 0.23262615205929293,
623
- "grad_norm": 3.814746856689453,
624
- "learning_rate": 4.945949619357668e-05,
625
- "loss": 0.07659345269203185,
626
- "step": 1740
627
- },
628
- {
629
- "epoch": 0.23530001587606642,
630
- "grad_norm": 2.373124122619629,
631
- "learning_rate": 4.944701682924726e-05,
632
- "loss": 0.1147496223449707,
633
- "step": 1760
634
- },
635
- {
636
- "epoch": 0.2379738796928399,
637
- "grad_norm": 0.11161285638809204,
638
- "learning_rate": 4.943439665082707e-05,
639
- "loss": 0.07256829738616943,
640
- "step": 1780
641
- },
642
- {
643
- "epoch": 0.24064774350961338,
644
- "grad_norm": 0.45990192890167236,
645
- "learning_rate": 4.942163573100794e-05,
646
- "loss": 0.07726740837097168,
647
- "step": 1800
648
- },
649
- {
650
- "epoch": 0.24332160732638686,
651
- "grad_norm": 4.2301926612854,
652
- "learning_rate": 4.940873414329242e-05,
653
- "loss": 0.09349535703659058,
654
- "step": 1820
655
- },
656
- {
657
- "epoch": 0.24599547114316034,
658
- "grad_norm": 2.442178726196289,
659
- "learning_rate": 4.939569196199325e-05,
660
- "loss": 0.12413722276687622,
661
- "step": 1840
662
- },
663
- {
664
- "epoch": 0.24866933495993382,
665
- "grad_norm": 2.523683786392212,
666
- "learning_rate": 4.938250926223302e-05,
667
- "loss": 0.08566288352012634,
668
- "step": 1860
669
- },
670
- {
671
- "epoch": 0.2513431987767073,
672
- "grad_norm": 3.511075258255005,
673
- "learning_rate": 4.936918611994368e-05,
674
- "loss": 0.08007702231407166,
675
- "step": 1880
676
- },
677
- {
678
- "epoch": 0.2540170625934808,
679
- "grad_norm": 6.254627704620361,
680
- "learning_rate": 4.935572261186614e-05,
681
- "loss": 0.10983954668045044,
682
- "step": 1900
683
- },
684
- {
685
- "epoch": 0.25669092641025426,
686
- "grad_norm": 1.5211899280548096,
687
- "learning_rate": 4.934211881554981e-05,
688
- "loss": 0.09120344519615173,
689
- "step": 1920
690
- },
691
- {
692
- "epoch": 0.25936479022702774,
693
- "grad_norm": 2.5893588066101074,
694
- "learning_rate": 4.932837480935214e-05,
695
- "loss": 0.08754412531852722,
696
- "step": 1940
697
- },
698
- {
699
- "epoch": 0.2620386540438012,
700
- "grad_norm": 6.878556251525879,
701
- "learning_rate": 4.931449067243821e-05,
702
- "loss": 0.08636274933815002,
703
- "step": 1960
704
- },
705
- {
706
- "epoch": 0.2647125178605747,
707
- "grad_norm": 2.9078798294067383,
708
- "learning_rate": 4.9300466484780226e-05,
709
- "loss": 0.09582929015159607,
710
- "step": 1980
711
- },
712
- {
713
- "epoch": 0.2673863816773482,
714
- "grad_norm": 3.391852855682373,
715
- "learning_rate": 4.92863023271571e-05,
716
- "loss": 0.0850919783115387,
717
- "step": 2000
718
- },
719
- {
720
- "epoch": 0.27006024549412166,
721
- "grad_norm": 5.522103309631348,
722
- "learning_rate": 4.927199828115395e-05,
723
- "loss": 0.050999772548675534,
724
- "step": 2020
725
- },
726
- {
727
- "epoch": 0.27273410931089515,
728
- "grad_norm": 0.90350741147995,
729
- "learning_rate": 4.925755442916167e-05,
730
- "loss": 0.10100446939468384,
731
- "step": 2040
732
- },
733
- {
734
- "epoch": 0.2754079731276686,
735
- "grad_norm": 1.602030634880066,
736
- "learning_rate": 4.924297085437641e-05,
737
- "loss": 0.0468633770942688,
738
- "step": 2060
739
- },
740
- {
741
- "epoch": 0.2780818369444421,
742
- "grad_norm": 1.5823460817337036,
743
- "learning_rate": 4.922824764079913e-05,
744
- "loss": 0.06786358952522278,
745
- "step": 2080
746
- },
747
- {
748
- "epoch": 0.2807557007612156,
749
- "grad_norm": 1.6624343395233154,
750
- "learning_rate": 4.92133848732351e-05,
751
- "loss": 0.05772828459739685,
752
- "step": 2100
753
- },
754
- {
755
- "epoch": 0.28342956457798907,
756
- "grad_norm": 0.947078287601471,
757
- "learning_rate": 4.9198382637293424e-05,
758
- "loss": 0.08012173175811768,
759
- "step": 2120
760
- },
761
- {
762
- "epoch": 0.28610342839476255,
763
- "grad_norm": 0.2919924259185791,
764
- "learning_rate": 4.918324101938653e-05,
765
- "loss": 0.1208539366722107,
766
- "step": 2140
767
- },
768
- {
769
- "epoch": 0.28877729221153603,
770
- "grad_norm": 9.258247375488281,
771
- "learning_rate": 4.916796010672969e-05,
772
- "loss": 0.10037034749984741,
773
- "step": 2160
774
- },
775
- {
776
- "epoch": 0.2914511560283095,
777
- "grad_norm": 4.0920491218566895,
778
- "learning_rate": 4.915253998734051e-05,
779
- "loss": 0.061488878726959226,
780
- "step": 2180
781
- },
782
- {
783
- "epoch": 0.294125019845083,
784
- "grad_norm": 6.1126627922058105,
785
- "learning_rate": 4.913698075003841e-05,
786
- "loss": 0.0862967312335968,
787
- "step": 2200
788
- },
789
- {
790
- "epoch": 0.29679888366185647,
791
- "grad_norm": 2.585484743118286,
792
- "learning_rate": 4.912128248444414e-05,
793
- "loss": 0.05393874645233154,
794
- "step": 2220
795
- },
796
- {
797
- "epoch": 0.29947274747862995,
798
- "grad_norm": 6.944481372833252,
799
- "learning_rate": 4.9105445280979256e-05,
800
- "loss": 0.08570566773414612,
801
- "step": 2240
802
- },
803
- {
804
- "epoch": 0.30214661129540343,
805
- "grad_norm": 1.3824089765548706,
806
- "learning_rate": 4.908946923086556e-05,
807
- "loss": 0.09689127206802368,
808
- "step": 2260
809
- },
810
- {
811
- "epoch": 0.30482047511217697,
812
- "grad_norm": 3.4861342906951904,
813
- "learning_rate": 4.907335442612464e-05,
814
- "loss": 0.12550976276397705,
815
- "step": 2280
816
- },
817
- {
818
- "epoch": 0.30749433892895045,
819
- "grad_norm": 3.668980121612549,
820
- "learning_rate": 4.905710095957728e-05,
821
- "loss": 0.09089353680610657,
822
- "step": 2300
823
- },
824
- {
825
- "epoch": 0.31016820274572393,
826
- "grad_norm": 1.093095064163208,
827
- "learning_rate": 4.904070892484298e-05,
828
- "loss": 0.03925192356109619,
829
- "step": 2320
830
- },
831
- {
832
- "epoch": 0.3128420665624974,
833
- "grad_norm": 0.8169485926628113,
834
- "learning_rate": 4.9024178416339364e-05,
835
- "loss": 0.0979581356048584,
836
- "step": 2340
837
- },
838
- {
839
- "epoch": 0.3155159303792709,
840
- "grad_norm": 1.892451286315918,
841
- "learning_rate": 4.900750952928166e-05,
842
- "loss": 0.05913209915161133,
843
- "step": 2360
844
- },
845
- {
846
- "epoch": 0.3181897941960444,
847
- "grad_norm": 0.24644255638122559,
848
- "learning_rate": 4.8990702359682184e-05,
849
- "loss": 0.06815173625946044,
850
- "step": 2380
851
- },
852
- {
853
- "epoch": 0.32086365801281785,
854
- "grad_norm": 2.1861305236816406,
855
- "learning_rate": 4.897375700434972e-05,
856
- "loss": 0.04142785966396332,
857
- "step": 2400
858
- },
859
- {
860
- "epoch": 0.32353752182959133,
861
- "grad_norm": 2.6643004417419434,
862
- "learning_rate": 4.8956673560889013e-05,
863
- "loss": 0.05177200436592102,
864
- "step": 2420
865
- },
866
- {
867
- "epoch": 0.3262113856463648,
868
- "grad_norm": 2.588113784790039,
869
- "learning_rate": 4.8939452127700195e-05,
870
- "loss": 0.05783546566963196,
871
- "step": 2440
872
- },
873
- {
874
- "epoch": 0.3288852494631383,
875
- "grad_norm": 2.419644594192505,
876
- "learning_rate": 4.8922092803978203e-05,
877
- "loss": 0.08906854391098022,
878
- "step": 2460
879
- },
880
- {
881
- "epoch": 0.3315591132799118,
882
- "grad_norm": 0.16949939727783203,
883
- "learning_rate": 4.890459568971223e-05,
884
- "loss": 0.10305211544036866,
885
- "step": 2480
886
- },
887
- {
888
- "epoch": 0.33423297709668526,
889
- "grad_norm": 0.10032984614372253,
890
- "learning_rate": 4.8886960885685126e-05,
891
- "loss": 0.06348527669906616,
892
- "step": 2500
893
- },
894
- {
895
- "epoch": 0.33690684091345874,
896
- "grad_norm": 3.3658738136291504,
897
- "learning_rate": 4.8869188493472854e-05,
898
- "loss": 0.06826075911521912,
899
- "step": 2520
900
- },
901
- {
902
- "epoch": 0.3395807047302322,
903
- "grad_norm": 0.8656186461448669,
904
- "learning_rate": 4.885127861544386e-05,
905
- "loss": 0.05929765701293945,
906
- "step": 2540
907
- },
908
- {
909
- "epoch": 0.3422545685470057,
910
- "grad_norm": 0.1492065042257309,
911
- "learning_rate": 4.8833231354758496e-05,
912
- "loss": 0.09429731965065002,
913
- "step": 2560
914
- },
915
- {
916
- "epoch": 0.3449284323637792,
917
- "grad_norm": 0.6010928153991699,
918
- "learning_rate": 4.881504681536846e-05,
919
- "loss": 0.06262240409851075,
920
- "step": 2580
921
- },
922
- {
923
- "epoch": 0.34760229618055266,
924
- "grad_norm": 1.6506450176239014,
925
- "learning_rate": 4.879672510201616e-05,
926
- "loss": 0.061688083410263064,
927
- "step": 2600
928
- },
929
- {
930
- "epoch": 0.35027615999732614,
931
- "grad_norm": 0.2703142464160919,
932
- "learning_rate": 4.877826632023412e-05,
933
- "loss": 0.06175137162208557,
934
- "step": 2620
935
- },
936
- {
937
- "epoch": 0.3529500238140996,
938
- "grad_norm": 3.1056365966796875,
939
- "learning_rate": 4.875967057634437e-05,
940
- "loss": 0.07828506827354431,
941
- "step": 2640
942
- },
943
- {
944
- "epoch": 0.3556238876308731,
945
- "grad_norm": 0.28790283203125,
946
- "learning_rate": 4.874093797745784e-05,
947
- "loss": 0.11355981826782227,
948
- "step": 2660
949
- },
950
- {
951
- "epoch": 0.3582977514476466,
952
- "grad_norm": 2.3372068405151367,
953
- "learning_rate": 4.8722068631473746e-05,
954
- "loss": 0.048267871141433716,
955
- "step": 2680
956
- },
957
- {
958
- "epoch": 0.36097161526442006,
959
- "grad_norm": 0.12767371535301208,
960
- "learning_rate": 4.8703062647078976e-05,
961
- "loss": 0.04319801032543182,
962
- "step": 2700
963
- },
964
- {
965
- "epoch": 0.36364547908119355,
966
- "grad_norm": 0.5145738124847412,
967
- "learning_rate": 4.868392013374741e-05,
968
- "loss": 0.0773090660572052,
969
- "step": 2720
970
- },
971
- {
972
- "epoch": 0.366319342897967,
973
- "grad_norm": 0.8518500328063965,
974
- "learning_rate": 4.866464120173937e-05,
975
- "loss": 0.05149460434913635,
976
- "step": 2740
977
- },
978
- {
979
- "epoch": 0.3689932067147405,
980
- "grad_norm": 3.6726584434509277,
981
- "learning_rate": 4.8645225962100924e-05,
982
- "loss": 0.06896821856498718,
983
- "step": 2760
984
- },
985
- {
986
- "epoch": 0.371667070531514,
987
- "grad_norm": 1.5626497268676758,
988
- "learning_rate": 4.862567452666329e-05,
989
- "loss": 0.047730174660682675,
990
- "step": 2780
991
- },
992
- {
993
- "epoch": 0.37434093434828747,
994
- "grad_norm": 6.562028884887695,
995
- "learning_rate": 4.8605987008042144e-05,
996
- "loss": 0.07060698866844177,
997
- "step": 2800
998
- },
999
- {
1000
- "epoch": 0.37701479816506095,
1001
- "grad_norm": 0.7631726861000061,
1002
- "learning_rate": 4.8586163519637005e-05,
1003
- "loss": 0.04944324493408203,
1004
- "step": 2820
1005
- },
1006
- {
1007
- "epoch": 0.37968866198183443,
1008
- "grad_norm": 1.6982293128967285,
1009
- "learning_rate": 4.8566204175630595e-05,
1010
- "loss": 0.03000348210334778,
1011
- "step": 2840
1012
- },
1013
- {
1014
- "epoch": 0.3823625257986079,
1015
- "grad_norm": 0.6487429141998291,
1016
- "learning_rate": 4.854610909098812e-05,
1017
- "loss": 0.06691416501998901,
1018
- "step": 2860
1019
- },
1020
- {
1021
- "epoch": 0.3850363896153814,
1022
- "grad_norm": 0.7648892402648926,
1023
- "learning_rate": 4.852587838145668e-05,
1024
- "loss": 0.05529783964157105,
1025
- "step": 2880
1026
- },
1027
- {
1028
- "epoch": 0.38771025343215487,
1029
- "grad_norm": 0.11601298302412033,
1030
- "learning_rate": 4.850551216356457e-05,
1031
- "loss": 0.07780832052230835,
1032
- "step": 2900
1033
- },
1034
- {
1035
- "epoch": 0.39038411724892835,
1036
- "grad_norm": 0.9443137645721436,
1037
- "learning_rate": 4.8485010554620594e-05,
1038
- "loss": 0.08007023930549621,
1039
- "step": 2920
1040
- },
1041
- {
1042
- "epoch": 0.39305798106570183,
1043
- "grad_norm": 0.8828252553939819,
1044
- "learning_rate": 4.846437367271341e-05,
1045
- "loss": 0.03541453182697296,
1046
- "step": 2940
1047
- },
1048
- {
1049
- "epoch": 0.3957318448824753,
1050
- "grad_norm": 0.21668888628482819,
1051
- "learning_rate": 4.844360163671083e-05,
1052
- "loss": 0.08354364633560181,
1053
- "step": 2960
1054
- },
1055
- {
1056
- "epoch": 0.3984057086992488,
1057
- "grad_norm": 0.6840483546257019,
1058
- "learning_rate": 4.8422694566259194e-05,
1059
- "loss": 0.045807772874832155,
1060
- "step": 2980
1061
- },
1062
- {
1063
- "epoch": 0.4010795725160223,
1064
- "grad_norm": 1.2754698991775513,
1065
- "learning_rate": 4.8401652581782584e-05,
1066
- "loss": 0.053487342596054074,
1067
- "step": 3000
1068
- },
1069
- {
1070
- "epoch": 0.40375343633279576,
1071
- "grad_norm": 0.19012756645679474,
1072
- "learning_rate": 4.838047580448222e-05,
1073
- "loss": 0.05881953239440918,
1074
- "step": 3020
1075
- },
1076
- {
1077
- "epoch": 0.40642730014956924,
1078
- "grad_norm": 2.1057698726654053,
1079
- "learning_rate": 4.835916435633569e-05,
1080
- "loss": 0.031065690517425536,
1081
- "step": 3040
1082
- },
1083
- {
1084
- "epoch": 0.4091011639663427,
1085
- "grad_norm": 4.188559055328369,
1086
- "learning_rate": 4.833771836009633e-05,
1087
- "loss": 0.07205432653427124,
1088
- "step": 3060
1089
- },
1090
- {
1091
- "epoch": 0.4117750277831162,
1092
- "grad_norm": 6.975829124450684,
1093
- "learning_rate": 4.831613793929242e-05,
1094
- "loss": 0.04953635036945343,
1095
- "step": 3080
1096
- },
1097
- {
1098
- "epoch": 0.4144488915998897,
1099
- "grad_norm": 4.725269317626953,
1100
- "learning_rate": 4.8294423218226546e-05,
1101
- "loss": 0.05965519547462463,
1102
- "step": 3100
1103
- },
1104
- {
1105
- "epoch": 0.41712275541666316,
1106
- "grad_norm": 1.7124755382537842,
1107
- "learning_rate": 4.827257432197486e-05,
1108
- "loss": 0.039625433087348935,
1109
- "step": 3120
1110
- },
1111
- {
1112
- "epoch": 0.41979661923343664,
1113
- "grad_norm": 2.6687324047088623,
1114
- "learning_rate": 4.825059137638636e-05,
1115
- "loss": 0.05020809769630432,
1116
- "step": 3140
1117
- },
1118
- {
1119
- "epoch": 0.4224704830502101,
1120
- "grad_norm": 1.111640214920044,
1121
- "learning_rate": 4.822847450808215e-05,
1122
- "loss": 0.04404452443122864,
1123
- "step": 3160
1124
- },
1125
- {
1126
- "epoch": 0.42514434686698366,
1127
- "grad_norm": 0.2128070890903473,
1128
- "learning_rate": 4.8206223844454744e-05,
1129
- "loss": 0.08283355236053466,
1130
- "step": 3180
1131
- },
1132
- {
1133
- "epoch": 0.42781821068375714,
1134
- "grad_norm": 0.10757248103618622,
1135
- "learning_rate": 4.818383951366729e-05,
1136
- "loss": 0.08568671345710754,
1137
- "step": 3200
1138
- },
1139
- {
1140
- "epoch": 0.4304920745005306,
1141
- "grad_norm": 0.08344592899084091,
1142
- "learning_rate": 4.816132164465289e-05,
1143
- "loss": 0.0426956832408905,
1144
- "step": 3220
1145
- },
1146
- {
1147
- "epoch": 0.4331659383173041,
1148
- "grad_norm": 0.5657751560211182,
1149
- "learning_rate": 4.813867036711378e-05,
1150
- "loss": 0.04971776902675629,
1151
- "step": 3240
1152
- },
1153
- {
1154
- "epoch": 0.4358398021340776,
1155
- "grad_norm": 2.1529288291931152,
1156
- "learning_rate": 4.8115885811520654e-05,
1157
- "loss": 0.025386181473731995,
1158
- "step": 3260
1159
- },
1160
- {
1161
- "epoch": 0.43851366595085106,
1162
- "grad_norm": 4.228519916534424,
1163
- "learning_rate": 4.809296810911188e-05,
1164
- "loss": 0.06401395201683044,
1165
- "step": 3280
1166
- },
1167
- {
1168
- "epoch": 0.44118752976762454,
1169
- "grad_norm": 6.770420551300049,
1170
- "learning_rate": 4.806991739189274e-05,
1171
- "loss": 0.16425553560256959,
1172
- "step": 3300
1173
- },
1174
- {
1175
- "epoch": 0.443861393584398,
1176
- "grad_norm": 0.5303187370300293,
1177
- "learning_rate": 4.804673379263467e-05,
1178
- "loss": 0.045900467038154605,
1179
- "step": 3320
1180
- },
1181
- {
1182
- "epoch": 0.4465352574011715,
1183
- "grad_norm": 0.221473827958107,
1184
- "learning_rate": 4.802341744487453e-05,
1185
- "loss": 0.07529735565185547,
1186
- "step": 3340
1187
- },
1188
- {
1189
- "epoch": 0.449209121217945,
1190
- "grad_norm": 3.48736834526062,
1191
- "learning_rate": 4.799996848291378e-05,
1192
- "loss": 0.062433135509490964,
1193
- "step": 3360
1194
- },
1195
- {
1196
- "epoch": 0.45188298503471847,
1197
- "grad_norm": 2.650038242340088,
1198
- "learning_rate": 4.797638704181774e-05,
1199
- "loss": 0.03762982189655304,
1200
- "step": 3380
1201
- },
1202
- {
1203
- "epoch": 0.45455684885149195,
1204
- "grad_norm": 3.159665584564209,
1205
- "learning_rate": 4.795267325741483e-05,
1206
- "loss": 0.04745924174785614,
1207
- "step": 3400
1208
- },
1209
- {
1210
- "epoch": 0.4572307126682654,
1211
- "grad_norm": 0.8763885498046875,
1212
- "learning_rate": 4.7928827266295715e-05,
1213
- "loss": 0.07380253076553345,
1214
- "step": 3420
1215
- },
1216
- {
1217
- "epoch": 0.4599045764850389,
1218
- "grad_norm": 0.1779366433620453,
1219
- "learning_rate": 4.790484920581262e-05,
1220
- "loss": 0.045916372537612916,
1221
- "step": 3440
1222
- },
1223
- {
1224
- "epoch": 0.4625784403018124,
1225
- "grad_norm": 1.1228729486465454,
1226
- "learning_rate": 4.7880739214078454e-05,
1227
- "loss": 0.04461723566055298,
1228
- "step": 3460
1229
- },
1230
- {
1231
- "epoch": 0.46525230411858587,
1232
- "grad_norm": 0.1629919707775116,
1233
- "learning_rate": 4.785649742996605e-05,
1234
- "loss": 0.017159442603588104,
1235
- "step": 3480
1236
- },
1237
- {
1238
- "epoch": 0.46792616793535935,
1239
- "grad_norm": 3.583951473236084,
1240
- "learning_rate": 4.783212399310737e-05,
1241
- "loss": 0.047145146131515506,
1242
- "step": 3500
1243
- },
1244
- {
1245
- "epoch": 0.47060003175213283,
1246
- "grad_norm": 0.9766237139701843,
1247
- "learning_rate": 4.780761904389267e-05,
1248
- "loss": 0.050229442119598386,
1249
- "step": 3520
1250
- },
1251
- {
1252
- "epoch": 0.4732738955689063,
1253
- "grad_norm": 0.05617872253060341,
1254
- "learning_rate": 4.778298272346976e-05,
1255
- "loss": 0.024862812459468843,
1256
- "step": 3540
1257
- },
1258
- {
1259
- "epoch": 0.4759477593856798,
1260
- "grad_norm": 1.3586453199386597,
1261
- "learning_rate": 4.775821517374308e-05,
1262
- "loss": 0.02117772251367569,
1263
- "step": 3560
1264
- },
1265
- {
1266
- "epoch": 0.4786216232024533,
1267
- "grad_norm": 1.2116742134094238,
1268
- "learning_rate": 4.7733316537373006e-05,
1269
- "loss": 0.03060794174671173,
1270
- "step": 3580
1271
- },
1272
- {
1273
- "epoch": 0.48129548701922675,
1274
- "grad_norm": 0.39403238892555237,
1275
- "learning_rate": 4.770828695777493e-05,
1276
- "loss": 0.05482668280601501,
1277
- "step": 3600
1278
- },
1279
- {
1280
- "epoch": 0.48396935083600023,
1281
- "grad_norm": 0.9248486161231995,
1282
- "learning_rate": 4.7683126579118495e-05,
1283
- "loss": 0.03612814247608185,
1284
- "step": 3620
1285
- },
1286
- {
1287
- "epoch": 0.4866432146527737,
1288
- "grad_norm": 0.1624649167060852,
1289
- "learning_rate": 4.7657835546326736e-05,
1290
- "loss": 0.04334873259067536,
1291
- "step": 3640
1292
- },
1293
- {
1294
- "epoch": 0.4893170784695472,
1295
- "grad_norm": 0.5321119427680969,
1296
- "learning_rate": 4.763241400507524e-05,
1297
- "loss": 0.0461233913898468,
1298
- "step": 3660
1299
- },
1300
- {
1301
- "epoch": 0.4919909422863207,
1302
- "grad_norm": 0.34861093759536743,
1303
- "learning_rate": 4.760686210179133e-05,
1304
- "loss": 0.024829554557800292,
1305
- "step": 3680
1306
- },
1307
- {
1308
- "epoch": 0.49466480610309416,
1309
- "grad_norm": 1.2561241388320923,
1310
- "learning_rate": 4.758117998365322e-05,
1311
- "loss": 0.03157005608081818,
1312
- "step": 3700
1313
- },
1314
- {
1315
- "epoch": 0.49733866991986764,
1316
- "grad_norm": 0.8691341280937195,
1317
- "learning_rate": 4.7555367798589146e-05,
1318
- "loss": 0.04310203492641449,
1319
- "step": 3720
1320
- },
1321
- {
1322
- "epoch": 0.5000125337366411,
1323
- "grad_norm": 0.3134572505950928,
1324
- "learning_rate": 4.752942569527653e-05,
1325
- "loss": 0.03796039223670959,
1326
- "step": 3740
1327
- },
1328
- {
1329
- "epoch": 0.5026863975534146,
1330
- "grad_norm": 2.3359289169311523,
1331
- "learning_rate": 4.75033538231411e-05,
1332
- "loss": 0.055599170923233035,
1333
- "step": 3760
1334
- },
1335
- {
1336
- "epoch": 0.5053602613701881,
1337
- "grad_norm": 7.426175594329834,
1338
- "learning_rate": 4.747715233235608e-05,
1339
- "loss": 0.054436272382736205,
1340
- "step": 3780
1341
- },
1342
- {
1343
- "epoch": 0.5080341251869616,
1344
- "grad_norm": 0.5940203070640564,
1345
- "learning_rate": 4.745082137384128e-05,
1346
- "loss": 0.03682814538478851,
1347
- "step": 3800
1348
- },
1349
- {
1350
- "epoch": 0.510707989003735,
1351
- "grad_norm": 0.22821389138698578,
1352
- "learning_rate": 4.7424361099262225e-05,
1353
- "loss": 0.051123309135437014,
1354
- "step": 3820
1355
- },
1356
- {
1357
- "epoch": 0.5133818528205085,
1358
- "grad_norm": 8.20633602142334,
1359
- "learning_rate": 4.739777166102932e-05,
1360
- "loss": 0.0704378604888916,
1361
- "step": 3840
1362
- },
1363
- {
1364
- "epoch": 0.516055716637282,
1365
- "grad_norm": 3.023848533630371,
1366
- "learning_rate": 4.737105321229694e-05,
1367
- "loss": 0.03368058800697327,
1368
- "step": 3860
1369
- },
1370
- {
1371
- "epoch": 0.5187295804540555,
1372
- "grad_norm": 0.07666649669408798,
1373
- "learning_rate": 4.7344205906962555e-05,
1374
- "loss": 0.03665303289890289,
1375
- "step": 3880
1376
- },
1377
- {
1378
- "epoch": 0.521403444270829,
1379
- "grad_norm": 0.7571629881858826,
1380
- "learning_rate": 4.731722989966585e-05,
1381
- "loss": 0.058415502309799194,
1382
- "step": 3900
1383
- },
1384
- {
1385
- "epoch": 0.5240773080876024,
1386
- "grad_norm": 3.2599120140075684,
1387
- "learning_rate": 4.7290125345787816e-05,
1388
- "loss": 0.07323018908500671,
1389
- "step": 3920
1390
- },
1391
- {
1392
- "epoch": 0.5267511719043759,
1393
- "grad_norm": 0.28930988907814026,
1394
- "learning_rate": 4.7262892401449886e-05,
1395
- "loss": 0.054371267557144165,
1396
- "step": 3940
1397
- },
1398
- {
1399
- "epoch": 0.5294250357211494,
1400
- "grad_norm": 2.2296454906463623,
1401
- "learning_rate": 4.7235531223513004e-05,
1402
- "loss": 0.040819621086120604,
1403
- "step": 3960
1404
- },
1405
- {
1406
- "epoch": 0.5320988995379229,
1407
- "grad_norm": 0.11608211696147919,
1408
- "learning_rate": 4.720804196957675e-05,
1409
- "loss": 0.05215579271316528,
1410
- "step": 3980
1411
- },
1412
- {
1413
- "epoch": 0.5347727633546964,
1414
- "grad_norm": 1.1587547063827515,
1415
- "learning_rate": 4.7180424797978415e-05,
1416
- "loss": 0.026277875900268553,
1417
- "step": 4000
1418
- },
1419
- {
1420
- "epoch": 0.5374466271714698,
1421
- "grad_norm": 0.06253435462713242,
1422
- "learning_rate": 4.7152679867792074e-05,
1423
- "loss": 0.02574407756328583,
1424
- "step": 4020
1425
- },
1426
- {
1427
- "epoch": 0.5401204909882433,
1428
- "grad_norm": 1.3441458940505981,
1429
- "learning_rate": 4.71248073388277e-05,
1430
- "loss": 0.05538107752799988,
1431
- "step": 4040
1432
- },
1433
- {
1434
- "epoch": 0.5427943548050168,
1435
- "grad_norm": 0.48076340556144714,
1436
- "learning_rate": 4.7096807371630236e-05,
1437
- "loss": 0.047986540198326114,
1438
- "step": 4060
1439
- },
1440
- {
1441
- "epoch": 0.5454682186217903,
1442
- "grad_norm": 0.5924936532974243,
1443
- "learning_rate": 4.706868012747867e-05,
1444
- "loss": 0.05463914275169372,
1445
- "step": 4080
1446
- },
1447
- {
1448
- "epoch": 0.7673995566395854,
1449
- "grad_norm": 0.05143728107213974,
1450
- "learning_rate": 4.431151627307268e-05,
1451
- "loss": 0.00959376593430837,
1452
- "step": 4100
1453
- },
1454
- {
1455
- "epoch": 0.771142969110998,
1456
- "grad_norm": 1.2308074235916138,
1457
- "learning_rate": 4.425806509248848e-05,
1458
- "loss": 0.002745623141527176,
1459
- "step": 4120
1460
- },
1461
- {
1462
- "epoch": 0.7748863815824106,
1463
- "grad_norm": 2.080223798751831,
1464
- "learning_rate": 4.420439652052499e-05,
1465
- "loss": 0.012390998750925064,
1466
- "step": 4140
1467
- },
1468
- {
1469
- "epoch": 0.7786297940538233,
1470
- "grad_norm": 0.049312230199575424,
1471
- "learning_rate": 4.415051116301072e-05,
1472
- "loss": 0.004607534408569336,
1473
- "step": 4160
1474
- },
1475
- {
1476
- "epoch": 0.7823732065252359,
1477
- "grad_norm": 0.07747476547956467,
1478
- "learning_rate": 4.409640962822132e-05,
1479
- "loss": 0.034441503882408145,
1480
- "step": 4180
1481
- },
1482
- {
1483
- "epoch": 0.7861166189966485,
1484
- "grad_norm": 0.021327875554561615,
1485
- "learning_rate": 4.404209252687275e-05,
1486
- "loss": 0.009768449515104295,
1487
- "step": 4200
1488
- },
1489
- {
1490
- "epoch": 0.789860031468061,
1491
- "grad_norm": 2.406580924987793,
1492
- "learning_rate": 4.398756047211431e-05,
1493
- "loss": 0.005304037779569626,
1494
- "step": 4220
1495
- },
1496
- {
1497
- "epoch": 0.7936034439394737,
1498
- "grad_norm": 0.027869906276464462,
1499
- "learning_rate": 4.39328140795218e-05,
1500
- "loss": 0.00896073654294014,
1501
- "step": 4240
1502
- },
1503
- {
1504
- "epoch": 0.7973468564108863,
1505
- "grad_norm": 0.09702044725418091,
1506
- "learning_rate": 4.387785396709052e-05,
1507
- "loss": 0.0117533378303051,
1508
- "step": 4260
1509
- },
1510
- {
1511
- "epoch": 0.801090268882299,
1512
- "grad_norm": 0.529065728187561,
1513
- "learning_rate": 4.382268075522831e-05,
1514
- "loss": 0.0037526611238718035,
1515
- "step": 4280
1516
- },
1517
- {
1518
- "epoch": 0.8048336813537116,
1519
- "grad_norm": 0.015109462663531303,
1520
- "learning_rate": 4.3767295066748564e-05,
1521
- "loss": 0.0025708725675940513,
1522
- "step": 4300
1523
- },
1524
- {
1525
- "epoch": 0.8085770938251241,
1526
- "grad_norm": 0.7257627248764038,
1527
- "learning_rate": 4.371169752686316e-05,
1528
- "loss": 0.006234285607933998,
1529
- "step": 4320
1530
- },
1531
- {
1532
- "epoch": 0.8123205062965367,
1533
- "grad_norm": 0.016853008419275284,
1534
- "learning_rate": 4.3655888763175436e-05,
1535
- "loss": 0.0023587727919220924,
1536
- "step": 4340
1537
- },
1538
- {
1539
- "epoch": 0.8160639187679494,
1540
- "grad_norm": 0.017816167324781418,
1541
- "learning_rate": 4.3599869405673085e-05,
1542
- "loss": 0.0012389549054205417,
1543
- "step": 4360
1544
- },
1545
- {
1546
- "epoch": 0.819807331239362,
1547
- "grad_norm": 0.014672616496682167,
1548
- "learning_rate": 4.354364008672106e-05,
1549
- "loss": 0.002244691364467144,
1550
- "step": 4380
1551
- },
1552
- {
1553
- "epoch": 0.8235507437107746,
1554
- "grad_norm": 0.044869400560855865,
1555
- "learning_rate": 4.3487201441054435e-05,
1556
- "loss": 0.007713723182678223,
1557
- "step": 4400
1558
- },
1559
- {
1560
- "epoch": 0.8272941561821872,
1561
- "grad_norm": 0.06367291510105133,
1562
- "learning_rate": 4.343055410577122e-05,
1563
- "loss": 0.005743256583809852,
1564
- "step": 4420
1565
- },
1566
- {
1567
- "epoch": 0.8310375686535998,
1568
- "grad_norm": 0.1354215145111084,
1569
- "learning_rate": 4.3373698720325176e-05,
1570
- "loss": 0.009635470807552338,
1571
- "step": 4440
1572
- },
1573
- {
1574
- "epoch": 0.8347809811250124,
1575
- "grad_norm": 0.9089844822883606,
1576
- "learning_rate": 4.331663592651862e-05,
1577
- "loss": 0.01007603257894516,
1578
- "step": 4460
1579
- },
1580
- {
1581
- "epoch": 0.838524393596425,
1582
- "grad_norm": 0.025831619277596474,
1583
- "learning_rate": 4.3259366368495167e-05,
1584
- "loss": 0.006179215386509895,
1585
- "step": 4480
1586
- },
1587
- {
1588
- "epoch": 0.8422678060678377,
1589
- "grad_norm": 0.016653764992952347,
1590
- "learning_rate": 4.320189069273243e-05,
1591
- "loss": 0.0025156451389193534,
1592
- "step": 4500
1593
- },
1594
- {
1595
- "epoch": 0.8460112185392502,
1596
- "grad_norm": 0.27361780405044556,
1597
- "learning_rate": 4.3144209548034766e-05,
1598
- "loss": 0.002235286869108677,
1599
- "step": 4520
1600
- },
1601
- {
1602
- "epoch": 0.8497546310106628,
1603
- "grad_norm": 2.6958701610565186,
1604
- "learning_rate": 4.3086323585525915e-05,
1605
- "loss": 0.03571180701255798,
1606
- "step": 4540
1607
- },
1608
- {
1609
- "epoch": 0.8534980434820755,
1610
- "grad_norm": 0.1260778158903122,
1611
- "learning_rate": 4.3028233458641696e-05,
1612
- "loss": 0.0036518506705760954,
1613
- "step": 4560
1614
- },
1615
- {
1616
- "epoch": 0.8572414559534881,
1617
- "grad_norm": 0.2445528209209442,
1618
- "learning_rate": 4.2969939823122586e-05,
1619
- "loss": 0.024949796497821808,
1620
- "step": 4580
1621
- },
1622
- {
1623
- "epoch": 0.8609848684249007,
1624
- "grad_norm": 0.1674242913722992,
1625
- "learning_rate": 4.291144333700633e-05,
1626
- "loss": 0.002089798077940941,
1627
- "step": 4600
1628
- },
1629
- {
1630
- "epoch": 0.8647282808963134,
1631
- "grad_norm": 0.05161884427070618,
1632
- "learning_rate": 4.2852744660620515e-05,
1633
- "loss": 0.007847145944833756,
1634
- "step": 4620
1635
- },
1636
- {
1637
- "epoch": 0.8684716933677259,
1638
- "grad_norm": 0.019796324893832207,
1639
- "learning_rate": 4.279384445657514e-05,
1640
- "loss": 0.0023555334657430647,
1641
- "step": 4640
1642
- },
1643
- {
1644
- "epoch": 0.8722151058391385,
1645
- "grad_norm": 0.0647754967212677,
1646
- "learning_rate": 4.2734743389755096e-05,
1647
- "loss": 0.009586349129676819,
1648
- "step": 4660
1649
- },
1650
- {
1651
- "epoch": 0.8759585183105512,
1652
- "grad_norm": 0.015243460424244404,
1653
- "learning_rate": 4.267544212731268e-05,
1654
- "loss": 0.017788709700107576,
1655
- "step": 4680
1656
- },
1657
- {
1658
- "epoch": 0.8797019307819638,
1659
- "grad_norm": 0.05756703019142151,
1660
- "learning_rate": 4.261594133866007e-05,
1661
- "loss": 0.014256520569324494,
1662
- "step": 4700
1663
- },
1664
- {
1665
- "epoch": 0.8834453432533764,
1666
- "grad_norm": 0.2002931535243988,
1667
- "learning_rate": 4.255624169546175e-05,
1668
- "loss": 0.0014025470241904258,
1669
- "step": 4720
1670
- },
1671
- {
1672
- "epoch": 0.887188755724789,
1673
- "grad_norm": 0.04325389489531517,
1674
- "learning_rate": 4.249634387162696e-05,
1675
- "loss": 0.010552891343832017,
1676
- "step": 4740
1677
- },
1678
- {
1679
- "epoch": 0.8909321681962016,
1680
- "grad_norm": 0.8975178599357605,
1681
- "learning_rate": 4.243624854330206e-05,
1682
- "loss": 0.0032475266605615618,
1683
- "step": 4760
1684
- },
1685
- {
1686
- "epoch": 0.8946755806676142,
1687
- "grad_norm": 0.01541830413043499,
1688
- "learning_rate": 4.237595638886288e-05,
1689
- "loss": 0.003157203644514084,
1690
- "step": 4780
1691
- },
1692
- {
1693
- "epoch": 0.8984189931390268,
1694
- "grad_norm": 1.673305869102478,
1695
- "learning_rate": 4.231546808890713e-05,
1696
- "loss": 0.0028239911422133445,
1697
- "step": 4800
1698
- },
1699
- {
1700
- "epoch": 0.9021624056104395,
1701
- "grad_norm": 0.021689629182219505,
1702
- "learning_rate": 4.225478432624665e-05,
1703
- "loss": 0.0026885712519288062,
1704
- "step": 4820
1705
- },
1706
- {
1707
- "epoch": 0.905905818081852,
1708
- "grad_norm": 0.019590798765420914,
1709
- "learning_rate": 4.219390578589973e-05,
1710
- "loss": 0.00780024379491806,
1711
- "step": 4840
1712
- },
1713
- {
1714
- "epoch": 0.9096492305532646,
1715
- "grad_norm": 0.024581020697951317,
1716
- "learning_rate": 4.213283315508337e-05,
1717
- "loss": 0.006697511672973633,
1718
- "step": 4860
1719
- },
1720
- {
1721
- "epoch": 0.9133926430246773,
1722
- "grad_norm": 0.20615583658218384,
1723
- "learning_rate": 4.207156712320555e-05,
1724
- "loss": 0.007314208894968033,
1725
- "step": 4880
1726
- },
1727
- {
1728
- "epoch": 0.9171360554960899,
1729
- "grad_norm": 0.015673745423555374,
1730
- "learning_rate": 4.20101083818574e-05,
1731
- "loss": 0.004841562733054161,
1732
- "step": 4900
1733
- },
1734
- {
1735
- "epoch": 0.9208794679675025,
1736
- "grad_norm": 0.008306623436510563,
1737
- "learning_rate": 4.194845762480544e-05,
1738
- "loss": 0.0010150263085961341,
1739
- "step": 4920
1740
- },
1741
- {
1742
- "epoch": 0.9246228804389152,
1743
- "grad_norm": 0.051861703395843506,
1744
- "learning_rate": 4.188661554798369e-05,
1745
- "loss": 0.011043114960193634,
1746
- "step": 4940
1747
- },
1748
- {
1749
- "epoch": 0.9283662929103277,
1750
- "grad_norm": 1.7019767761230469,
1751
- "learning_rate": 4.1824582849485884e-05,
1752
- "loss": 0.004985674470663071,
1753
- "step": 4960
1754
- },
1755
- {
1756
- "epoch": 0.9321097053817403,
1757
- "grad_norm": 0.021240154281258583,
1758
- "learning_rate": 4.176236022955755e-05,
1759
- "loss": 0.04885836541652679,
1760
- "step": 4980
1761
- },
1762
- {
1763
- "epoch": 0.935853117853153,
1764
- "grad_norm": 0.016504865139722824,
1765
- "learning_rate": 4.16999483905881e-05,
1766
- "loss": 0.0027378931641578673,
1767
- "step": 5000
1768
- },
1769
- {
1770
- "epoch": 0.9395965303245656,
1771
- "grad_norm": 0.014015628024935722,
1772
- "learning_rate": 4.163734803710294e-05,
1773
- "loss": 0.012781022489070893,
1774
- "step": 5020
1775
- },
1776
- {
1777
- "epoch": 0.9433399427959782,
1778
- "grad_norm": 0.013812500052154064,
1779
- "learning_rate": 4.157455987575545e-05,
1780
- "loss": 0.007508871704339981,
1781
- "step": 5040
1782
- },
1783
- {
1784
- "epoch": 0.9470833552673907,
1785
- "grad_norm": 0.01622290164232254,
1786
- "learning_rate": 4.1511584615319075e-05,
1787
- "loss": 0.0014614147134125234,
1788
- "step": 5060
1789
- },
1790
- {
1791
- "epoch": 0.9508267677388034,
1792
- "grad_norm": 0.01259149145334959,
1793
- "learning_rate": 4.144842296667929e-05,
1794
- "loss": 0.006202424317598343,
1795
- "step": 5080
1796
- },
1797
- {
1798
- "epoch": 0.954570180210216,
1799
- "grad_norm": 0.012383027002215385,
1800
- "learning_rate": 4.138507564282558e-05,
1801
- "loss": 0.006122353300452232,
1802
- "step": 5100
1803
- },
1804
- {
1805
- "epoch": 0.9583135926816286,
1806
- "grad_norm": 0.006499920971691608,
1807
- "learning_rate": 4.1321543358843385e-05,
1808
- "loss": 0.0008865024894475937,
1809
- "step": 5120
1810
- },
1811
- {
1812
- "epoch": 0.9620570051530413,
1813
- "grad_norm": 0.00830752868205309,
1814
- "learning_rate": 4.125782683190606e-05,
1815
- "loss": 0.0008420860394835472,
1816
- "step": 5140
1817
- },
1818
- {
1819
- "epoch": 0.9658004176244538,
1820
- "grad_norm": 0.01525857299566269,
1821
- "learning_rate": 4.119392678126673e-05,
1822
- "loss": 0.00587364137172699,
1823
- "step": 5160
1824
- },
1825
- {
1826
- "epoch": 0.9695438300958664,
1827
- "grad_norm": 0.01072095800191164,
1828
- "learning_rate": 4.11298439282502e-05,
1829
- "loss": 0.00853007659316063,
1830
- "step": 5180
1831
- },
1832
- {
1833
- "epoch": 0.973287242567279,
1834
- "grad_norm": 0.030316641554236412,
1835
- "learning_rate": 4.106557899624482e-05,
1836
- "loss": 0.0058747071772813795,
1837
- "step": 5200
1838
- },
1839
- {
1840
- "epoch": 0.9770306550386917,
1841
- "grad_norm": 0.0391647033393383,
1842
- "learning_rate": 4.1001132710694304e-05,
1843
- "loss": 0.0034765828400850295,
1844
- "step": 5220
1845
- },
1846
- {
1847
- "epoch": 0.9807740675101043,
1848
- "grad_norm": 0.04938298836350441,
1849
- "learning_rate": 4.093650579908953e-05,
1850
- "loss": 0.007594724744558334,
1851
- "step": 5240
1852
- },
1853
- {
1854
- "epoch": 0.984517479981517,
1855
- "grad_norm": 0.005873252172023058,
1856
- "learning_rate": 4.087169899096037e-05,
1857
- "loss": 0.013347607851028443,
1858
- "step": 5260
1859
- },
1860
- {
1861
- "epoch": 0.9882608924529295,
1862
- "grad_norm": 1.2757259607315063,
1863
- "learning_rate": 4.080671301786741e-05,
1864
- "loss": 0.004837355017662049,
1865
- "step": 5280
1866
- },
1867
- {
1868
- "epoch": 0.9920043049243421,
1869
- "grad_norm": 0.00920735765248537,
1870
- "learning_rate": 4.0741548613393675e-05,
1871
- "loss": 0.007415445148944854,
1872
- "step": 5300
1873
- },
1874
- {
1875
- "epoch": 0.9957477173957547,
1876
- "grad_norm": 0.5702093839645386,
1877
- "learning_rate": 4.067620651313647e-05,
1878
- "loss": 0.00406576506793499,
1879
- "step": 5320
1880
- },
1881
- {
1882
- "epoch": 0.9994911298671674,
1883
- "grad_norm": 1.8361051082611084,
1884
- "learning_rate": 4.0610687454698906e-05,
1885
- "loss": 0.00997612327337265,
1886
- "step": 5340
1887
- },
1888
- {
1889
- "epoch": 1.0031819006007008,
1890
- "grad_norm": 3.335326910018921,
1891
- "learning_rate": 4.0544992177681685e-05,
1892
- "loss": 0.008442799001932145,
1893
- "step": 5360
1894
- },
1895
- {
1896
- "epoch": 1.0069253130721134,
1897
- "grad_norm": 0.03184954449534416,
1898
- "learning_rate": 4.047912142367473e-05,
1899
- "loss": 0.008095134049654007,
1900
- "step": 5380
1901
- },
1902
- {
1903
- "epoch": 1.010668725543526,
1904
- "grad_norm": 0.029989074915647507,
1905
- "learning_rate": 4.04130759362488e-05,
1906
- "loss": 0.0012585990130901336,
1907
- "step": 5400
1908
- },
1909
- {
1910
- "epoch": 1.0144121380149385,
1911
- "grad_norm": 0.08727464079856873,
1912
- "learning_rate": 4.034685646094711e-05,
1913
- "loss": 0.012588074803352356,
1914
- "step": 5420
1915
- },
1916
- {
1917
- "epoch": 1.018155550486351,
1918
- "grad_norm": 0.018498806282877922,
1919
- "learning_rate": 4.028046374527689e-05,
1920
- "loss": 0.001854238100349903,
1921
- "step": 5440
1922
- },
1923
- {
1924
- "epoch": 1.0218989629577637,
1925
- "grad_norm": 0.013779236935079098,
1926
- "learning_rate": 4.021389853870095e-05,
1927
- "loss": 0.0008004569448530674,
1928
- "step": 5460
1929
- },
1930
- {
1931
- "epoch": 1.0256423754291764,
1932
- "grad_norm": 0.028235070407390594,
1933
- "learning_rate": 4.0147161592629306e-05,
1934
- "loss": 0.002274145185947418,
1935
- "step": 5480
1936
- },
1937
- {
1938
- "epoch": 1.029385787900589,
1939
- "grad_norm": 0.023030120879411697,
1940
- "learning_rate": 4.008025366041055e-05,
1941
- "loss": 0.008717305958271027,
1942
- "step": 5500
1943
- },
1944
- {
1945
- "epoch": 1.0331292003720016,
1946
- "grad_norm": 0.018347155302762985,
1947
- "learning_rate": 4.001317549732345e-05,
1948
- "loss": 0.00244256854057312,
1949
- "step": 5520
1950
- },
1951
- {
1952
- "epoch": 1.0368726128434143,
1953
- "grad_norm": 0.03449391946196556,
1954
- "learning_rate": 3.99459278605684e-05,
1955
- "loss": 0.0039924226701259615,
1956
- "step": 5540
1957
- },
1958
- {
1959
- "epoch": 1.0406160253148269,
1960
- "grad_norm": 0.030406463891267776,
1961
- "learning_rate": 3.9878511509258866e-05,
1962
- "loss": 0.0021008485928177834,
1963
- "step": 5560
1964
- },
1965
- {
1966
- "epoch": 1.0443594377862395,
1967
- "grad_norm": 0.01783100888133049,
1968
- "learning_rate": 3.9810927204412803e-05,
1969
- "loss": 0.0006656501442193985,
1970
- "step": 5580
1971
- },
1972
- {
1973
- "epoch": 1.0481028502576522,
1974
- "grad_norm": 0.05360455811023712,
1975
- "learning_rate": 3.974317570894413e-05,
1976
- "loss": 0.005278818309307098,
1977
- "step": 5600
1978
- },
1979
- {
1980
- "epoch": 1.0518462627290646,
1981
- "grad_norm": 0.008699169382452965,
1982
- "learning_rate": 3.9675257787654e-05,
1983
- "loss": 0.005309444293379784,
1984
- "step": 5620
1985
- },
1986
- {
1987
- "epoch": 1.0555896752004772,
1988
- "grad_norm": 0.036641959100961685,
1989
- "learning_rate": 3.960717420722227e-05,
1990
- "loss": 0.0034692320972681046,
1991
- "step": 5640
1992
- },
1993
- {
1994
- "epoch": 1.0593330876718898,
1995
- "grad_norm": 0.012212110683321953,
1996
- "learning_rate": 3.953892573619883e-05,
1997
- "loss": 0.005343861132860184,
1998
- "step": 5660
1999
- },
2000
- {
2001
- "epoch": 1.0630765001433025,
2002
- "grad_norm": 0.011296284385025501,
2003
- "learning_rate": 3.947051314499489e-05,
2004
- "loss": 0.0038058970123529432,
2005
- "step": 5680
2006
- },
2007
- {
2008
- "epoch": 1.066819912614715,
2009
- "grad_norm": 0.05954049900174141,
2010
- "learning_rate": 3.94019372058743e-05,
2011
- "loss": 0.008142991364002228,
2012
- "step": 5700
2013
- },
2014
- {
2015
- "epoch": 1.0705633250861277,
2016
- "grad_norm": 0.03478416055440903,
2017
- "learning_rate": 3.933319869294483e-05,
2018
- "loss": 0.0075227849185466765,
2019
- "step": 5720
2020
- },
2021
- {
2022
- "epoch": 1.0743067375575404,
2023
- "grad_norm": 0.014586996287107468,
2024
- "learning_rate": 3.9264298382149455e-05,
2025
- "loss": 0.0036750122904777526,
2026
- "step": 5740
2027
- },
2028
- {
2029
- "epoch": 1.078050150028953,
2030
- "grad_norm": 0.025754544883966446,
2031
- "learning_rate": 3.919523705125757e-05,
2032
- "loss": 0.004151013493537903,
2033
- "step": 5760
2034
- },
2035
- {
2036
- "epoch": 1.0817935625003656,
2037
- "grad_norm": 0.03239905461668968,
2038
- "learning_rate": 3.9126015479856205e-05,
2039
- "loss": 0.00861695185303688,
2040
- "step": 5780
2041
- },
2042
- {
2043
- "epoch": 1.0855369749717783,
2044
- "grad_norm": 0.03506994619965553,
2045
- "learning_rate": 3.9056634449341256e-05,
2046
- "loss": 0.003123755753040314,
2047
- "step": 5800
2048
- },
2049
- {
2050
- "epoch": 1.089280387443191,
2051
- "grad_norm": 0.0286911278963089,
2052
- "learning_rate": 3.898709474290864e-05,
2053
- "loss": 0.002537376619875431,
2054
- "step": 5820
2055
- },
2056
- {
2057
- "epoch": 1.0930237999146033,
2058
- "grad_norm": 0.03490692004561424,
2059
- "learning_rate": 3.8917397145545454e-05,
2060
- "loss": 0.0010227372869849205,
2061
- "step": 5840
2062
- },
2063
- {
2064
- "epoch": 1.096767212386016,
2065
- "grad_norm": 0.013748899102210999,
2066
- "learning_rate": 3.884754244402113e-05,
2067
- "loss": 0.011847371608018875,
2068
- "step": 5860
2069
- },
2070
- {
2071
- "epoch": 1.1005106248574286,
2072
- "grad_norm": 0.035458195954561234,
2073
- "learning_rate": 3.877753142687852e-05,
2074
- "loss": 0.009741749614477158,
2075
- "step": 5880
2076
- },
2077
- {
2078
- "epoch": 1.1042540373288412,
2079
- "grad_norm": 0.012493673712015152,
2080
- "learning_rate": 3.8707364884425064e-05,
2081
- "loss": 0.006607493013143539,
2082
- "step": 5900
2083
- },
2084
- {
2085
- "epoch": 1.1079974498002538,
2086
- "grad_norm": 0.018607834354043007,
2087
- "learning_rate": 3.863704360872378e-05,
2088
- "loss": 0.0016217166557908058,
2089
- "step": 5920
2090
- },
2091
- {
2092
- "epoch": 1.1117408622716665,
2093
- "grad_norm": 0.0283930953592062,
2094
- "learning_rate": 3.8566568393584366e-05,
2095
- "loss": 0.002083975449204445,
2096
- "step": 5940
2097
- },
2098
- {
2099
- "epoch": 1.115484274743079,
2100
- "grad_norm": 0.05229801684617996,
2101
- "learning_rate": 3.8495940034554283e-05,
2102
- "loss": 0.0014217685908079146,
2103
- "step": 5960
2104
- },
2105
- {
2106
- "epoch": 1.1192276872144917,
2107
- "grad_norm": 0.008808930404484272,
2108
- "learning_rate": 3.8425159328909684e-05,
2109
- "loss": 0.0022570645436644555,
2110
- "step": 5980
2111
- },
2112
- {
2113
- "epoch": 1.1229710996859044,
2114
- "grad_norm": 0.020502232015132904,
2115
- "learning_rate": 3.835422707564648e-05,
2116
- "loss": 0.003745942190289497,
2117
- "step": 6000
2118
- },
2119
- {
2120
- "epoch": 1.126714512157317,
2121
- "grad_norm": 0.032347094267606735,
2122
- "learning_rate": 3.82831440754713e-05,
2123
- "loss": 0.003347185626626015,
2124
- "step": 6020
2125
- },
2126
- {
2127
- "epoch": 1.1304579246287294,
2128
- "grad_norm": 0.020310478284955025,
2129
- "learning_rate": 3.821191113079246e-05,
2130
- "loss": 0.006166417896747589,
2131
- "step": 6040
2132
- },
2133
- {
2134
- "epoch": 1.134201337100142,
2135
- "grad_norm": 0.06390372663736343,
2136
- "learning_rate": 3.8140529045710876e-05,
2137
- "loss": 0.0013674044981598853,
2138
- "step": 6060
2139
- },
2140
- {
2141
- "epoch": 1.1379447495715547,
2142
- "grad_norm": 1.1938918828964233,
2143
- "learning_rate": 3.806899862601105e-05,
2144
- "loss": 0.010550644248723984,
2145
- "step": 6080
2146
- },
2147
- {
2148
- "epoch": 1.1416881620429673,
2149
- "grad_norm": 0.035355549305677414,
2150
- "learning_rate": 3.799732067915189e-05,
2151
- "loss": 0.0069750770926475525,
2152
- "step": 6100
2153
- },
2154
- {
2155
- "epoch": 1.14543157451438,
2156
- "grad_norm": 0.009921093471348286,
2157
- "learning_rate": 3.792549601425767e-05,
2158
- "loss": 0.0027949588373303415,
2159
- "step": 6120
2160
- },
2161
- {
2162
- "epoch": 1.1491749869857926,
2163
- "grad_norm": 0.06172063946723938,
2164
- "learning_rate": 3.785352544210884e-05,
2165
- "loss": 0.0009372101165354251,
2166
- "step": 6140
2167
- },
2168
- {
2169
- "epoch": 1.1529183994572052,
2170
- "grad_norm": 0.008572470396757126,
2171
- "learning_rate": 3.778140977513294e-05,
2172
- "loss": 0.0029502738267183303,
2173
- "step": 6160
2174
- },
2175
- {
2176
- "epoch": 1.1566618119286178,
2177
- "grad_norm": 0.4211727976799011,
2178
- "learning_rate": 3.770914982739534e-05,
2179
- "loss": 0.014692296087741853,
2180
- "step": 6180
2181
- },
2182
- {
2183
- "epoch": 1.1604052244000305,
2184
- "grad_norm": 0.02292146533727646,
2185
- "learning_rate": 3.7636746414590126e-05,
2186
- "loss": 0.0020170681178569793,
2187
- "step": 6200
2188
- },
2189
- {
2190
- "epoch": 1.164148636871443,
2191
- "grad_norm": 0.11247449368238449,
2192
- "learning_rate": 3.756420035403086e-05,
2193
- "loss": 0.006851900368928909,
2194
- "step": 6220
2195
- },
2196
- {
2197
- "epoch": 1.1678920493428557,
2198
- "grad_norm": 0.020755017176270485,
2199
- "learning_rate": 3.749151246464137e-05,
2200
- "loss": 0.0021739909425377846,
2201
- "step": 6240
2202
- },
2203
- {
2204
- "epoch": 1.1716354618142684,
2205
- "grad_norm": 0.017202025279402733,
2206
- "learning_rate": 3.741868356694647e-05,
2207
- "loss": 0.002353278361260891,
2208
- "step": 6260
2209
- },
2210
- {
2211
- "epoch": 1.1753788742856808,
2212
- "grad_norm": 0.014947429299354553,
2213
- "learning_rate": 3.734571448306274e-05,
2214
- "loss": 0.0010860362090170383,
2215
- "step": 6280
2216
- },
2217
- {
2218
- "epoch": 1.1791222867570934,
2219
- "grad_norm": 1.5391262769699097,
2220
- "learning_rate": 3.727260603668922e-05,
2221
- "loss": 0.01233254000544548,
2222
- "step": 6300
2223
- },
2224
- {
2225
- "epoch": 1.182865699228506,
2226
- "grad_norm": 0.4759792387485504,
2227
- "learning_rate": 3.7199359053098133e-05,
2228
- "loss": 0.0028501398861408233,
2229
- "step": 6320
2230
- },
2231
- {
2232
- "epoch": 1.1866091116999187,
2233
- "grad_norm": 0.01719040609896183,
2234
- "learning_rate": 3.7125974359125536e-05,
2235
- "loss": 0.00934450700879097,
2236
- "step": 6340
2237
- },
2238
- {
2239
- "epoch": 1.1903525241713313,
2240
- "grad_norm": 2.4766688346862793,
2241
- "learning_rate": 3.7052452783162015e-05,
2242
- "loss": 0.018582724034786224,
2243
- "step": 6360
2244
- },
2245
- {
2246
- "epoch": 1.194095936642744,
2247
- "grad_norm": 0.11404932290315628,
2248
- "learning_rate": 3.6978795155143326e-05,
2249
- "loss": 0.01815672367811203,
2250
- "step": 6380
2251
- },
2252
- {
2253
- "epoch": 1.1978393491141566,
2254
- "grad_norm": 0.021365633234381676,
2255
- "learning_rate": 3.690500230654103e-05,
2256
- "loss": 0.004123781993985176,
2257
- "step": 6400
2258
- },
2259
- {
2260
- "epoch": 1.2015827615855692,
2261
- "grad_norm": 0.022478772327303886,
2262
- "learning_rate": 3.68310750703531e-05,
2263
- "loss": 0.0038731731474399567,
2264
- "step": 6420
2265
- },
2266
- {
2267
- "epoch": 1.2053261740569818,
2268
- "grad_norm": 0.15531578660011292,
2269
- "learning_rate": 3.67570142810945e-05,
2270
- "loss": 0.002076444961130619,
2271
- "step": 6440
2272
- },
2273
- {
2274
- "epoch": 1.2090695865283942,
2275
- "grad_norm": 0.012458150275051594,
2276
- "learning_rate": 3.668282077478783e-05,
2277
- "loss": 0.0027592860162258146,
2278
- "step": 6460
2279
- },
2280
- {
2281
- "epoch": 1.2128129989998069,
2282
- "grad_norm": 0.01572798565030098,
2283
- "learning_rate": 3.66084953889538e-05,
2284
- "loss": 0.002740098722279072,
2285
- "step": 6480
2286
- },
2287
- {
2288
- "epoch": 1.2165564114712195,
2289
- "grad_norm": 0.13682503998279572,
2290
- "learning_rate": 3.6534038962601835e-05,
2291
- "loss": 0.000705425813794136,
2292
- "step": 6500
2293
- },
2294
- {
2295
- "epoch": 1.2202998239426321,
2296
- "grad_norm": 0.030630914494395256,
2297
- "learning_rate": 3.64594523362206e-05,
2298
- "loss": 0.012480729073286057,
2299
- "step": 6520
2300
- },
2301
- {
2302
- "epoch": 1.2240432364140448,
2303
- "grad_norm": 0.024804554879665375,
2304
- "learning_rate": 3.638473635176848e-05,
2305
- "loss": 0.0007834361866116523,
2306
- "step": 6540
2307
- },
2308
- {
2309
- "epoch": 1.2277866488854574,
2310
- "grad_norm": 0.011334752663969994,
2311
- "learning_rate": 3.630989185266411e-05,
2312
- "loss": 0.022086825966835023,
2313
- "step": 6560
2314
- },
2315
- {
2316
- "epoch": 1.23153006135687,
2317
- "grad_norm": 0.020346902310848236,
2318
- "learning_rate": 3.623491968377684e-05,
2319
- "loss": 0.018024472892284392,
2320
- "step": 6580
2321
- },
2322
- {
2323
- "epoch": 1.2352734738282827,
2324
- "grad_norm": 0.015177210792899132,
2325
- "learning_rate": 3.615982069141719e-05,
2326
- "loss": 0.005251453071832657,
2327
- "step": 6600
2328
- },
2329
- {
2330
- "epoch": 1.2390168862996953,
2331
- "grad_norm": 0.013680647127330303,
2332
- "learning_rate": 3.608459572332733e-05,
2333
- "loss": 0.006734563410282135,
2334
- "step": 6620
2335
- },
2336
- {
2337
- "epoch": 1.242760298771108,
2338
- "grad_norm": 0.17980872094631195,
2339
- "learning_rate": 3.600924562867144e-05,
2340
- "loss": 0.003970410302281379,
2341
- "step": 6640
2342
- },
2343
- {
2344
- "epoch": 1.2465037112425206,
2345
- "grad_norm": 0.015203841030597687,
2346
- "learning_rate": 3.593377125802622e-05,
2347
- "loss": 0.0032148901373147964,
2348
- "step": 6660
2349
- },
2350
- {
2351
- "epoch": 1.2502471237139332,
2352
- "grad_norm": 0.017300931736826897,
2353
- "learning_rate": 3.585817346337119e-05,
2354
- "loss": 0.00467667318880558,
2355
- "step": 6680
2356
- },
2357
- {
2358
- "epoch": 1.2539905361853458,
2359
- "grad_norm": 0.028181765228509903,
2360
- "learning_rate": 3.5782453098079175e-05,
2361
- "loss": 0.0015515764243900776,
2362
- "step": 6700
2363
- },
2364
- {
2365
- "epoch": 1.2577339486567582,
2366
- "grad_norm": 0.01730780117213726,
2367
- "learning_rate": 3.570661101690657e-05,
2368
- "loss": 0.007991334050893783,
2369
- "step": 6720
2370
- },
2371
- {
2372
- "epoch": 1.2614773611281709,
2373
- "grad_norm": 0.014216347597539425,
2374
- "learning_rate": 3.5630648075983763e-05,
2375
- "loss": 0.002533360943198204,
2376
- "step": 6740
2377
- },
2378
- {
2379
- "epoch": 1.2652207735995835,
2380
- "grad_norm": 0.1556195169687271,
2381
- "learning_rate": 3.555456513280544e-05,
2382
- "loss": 0.0032653655856847764,
2383
- "step": 6760
2384
- },
2385
- {
2386
- "epoch": 1.2689641860709961,
2387
- "grad_norm": 0.023955868557095528,
2388
- "learning_rate": 3.5478363046220915e-05,
2389
- "loss": 0.00850408971309662,
2390
- "step": 6780
2391
- },
2392
- {
2393
- "epoch": 1.2727075985424088,
2394
- "grad_norm": 0.17874136567115784,
2395
- "learning_rate": 3.5402042676424424e-05,
2396
- "loss": 0.0032720811665058135,
2397
- "step": 6800
2398
- },
2399
- {
2400
- "epoch": 1.2764510110138214,
2401
- "grad_norm": 0.0899379625916481,
2402
- "learning_rate": 3.5325604884945434e-05,
2403
- "loss": 0.003243798017501831,
2404
- "step": 6820
2405
- },
2406
- {
2407
- "epoch": 1.280194423485234,
2408
- "grad_norm": 0.413362056016922,
2409
- "learning_rate": 3.5249050534638906e-05,
2410
- "loss": 0.0036127623170614243,
2411
- "step": 6840
2412
- },
2413
- {
2414
- "epoch": 1.2839378359566467,
2415
- "grad_norm": 0.02790931612253189,
2416
- "learning_rate": 3.517238048967554e-05,
2417
- "loss": 0.008225285261869431,
2418
- "step": 6860
2419
- },
2420
- {
2421
- "epoch": 1.287681248428059,
2422
- "grad_norm": 0.6761110424995422,
2423
- "learning_rate": 3.5095595615532056e-05,
2424
- "loss": 0.00199942234903574,
2425
- "step": 6880
2426
- },
2427
- {
2428
- "epoch": 1.2914246608994717,
2429
- "grad_norm": 4.593618869781494,
2430
- "learning_rate": 3.5018696778981385e-05,
2431
- "loss": 0.007301987707614898,
2432
- "step": 6900
2433
- },
2434
- {
2435
- "epoch": 1.2951680733708844,
2436
- "grad_norm": 0.09392693638801575,
2437
- "learning_rate": 3.494168484808293e-05,
2438
- "loss": 0.009008315950632095,
2439
- "step": 6920
2440
- },
2441
- {
2442
- "epoch": 1.298911485842297,
2443
- "grad_norm": 0.008239852264523506,
2444
- "learning_rate": 3.48645606921727e-05,
2445
- "loss": 0.012661360204219818,
2446
- "step": 6940
2447
- },
2448
- {
2449
- "epoch": 1.3026548983137096,
2450
- "grad_norm": 0.05141177773475647,
2451
- "learning_rate": 3.4787325181853576e-05,
2452
- "loss": 0.0007553372532129287,
2453
- "step": 6960
2454
- },
2455
- {
2456
- "epoch": 1.3063983107851223,
2457
- "grad_norm": 0.024333903566002846,
2458
- "learning_rate": 3.470997918898541e-05,
2459
- "loss": 0.0016128463670611382,
2460
- "step": 6980
2461
- },
2462
- {
2463
- "epoch": 1.3101417232565349,
2464
- "grad_norm": 0.0337531715631485,
2465
- "learning_rate": 3.4632523586675254e-05,
2466
- "loss": 0.003253454715013504,
2467
- "step": 7000
2468
- },
2469
- {
2470
- "epoch": 1.3138851357279475,
2471
- "grad_norm": 0.05121550336480141,
2472
- "learning_rate": 3.4554959249267436e-05,
2473
- "loss": 0.0026307271793484686,
2474
- "step": 7020
2475
- },
2476
- {
2477
- "epoch": 1.3176285481993602,
2478
- "grad_norm": 0.025997543707489967,
2479
- "learning_rate": 3.447728705233374e-05,
2480
- "loss": 0.0012719514779746532,
2481
- "step": 7040
2482
- },
2483
- {
2484
- "epoch": 1.3213719606707728,
2485
- "grad_norm": 0.009486268274486065,
2486
- "learning_rate": 3.4399507872663494e-05,
2487
- "loss": 0.002009082958102226,
2488
- "step": 7060
2489
- },
2490
- {
2491
- "epoch": 1.3251153731421854,
2492
- "grad_norm": 0.016816232353448868,
2493
- "learning_rate": 3.432162258825369e-05,
2494
- "loss": 0.0005956823006272316,
2495
- "step": 7080
2496
- },
2497
- {
2498
- "epoch": 1.328858785613598,
2499
- "grad_norm": 0.004733961541205645,
2500
- "learning_rate": 3.424363207829906e-05,
2501
- "loss": 0.003636709600687027,
2502
- "step": 7100
2503
- },
2504
- {
2505
- "epoch": 1.3326021980850107,
2506
- "grad_norm": 3.666203498840332,
2507
- "learning_rate": 3.4165537223182155e-05,
2508
- "loss": 0.010488419234752655,
2509
- "step": 7120
2510
- },
2511
- {
2512
- "epoch": 1.336345610556423,
2513
- "grad_norm": 0.021471882238984108,
2514
- "learning_rate": 3.408733890446341e-05,
2515
- "loss": 0.0009709249250590801,
2516
- "step": 7140
2517
- },
2518
- {
2519
- "epoch": 1.3400890230278357,
2520
- "grad_norm": 0.007639541756361723,
2521
- "learning_rate": 3.40090380048712e-05,
2522
- "loss": 0.0030905861407518388,
2523
- "step": 7160
2524
- },
2525
- {
2526
- "epoch": 1.3438324354992484,
2527
- "grad_norm": 0.16878941655158997,
2528
- "learning_rate": 3.393063540829186e-05,
2529
- "loss": 0.0036965351551771163,
2530
- "step": 7180
2531
- },
2532
- {
2533
- "epoch": 1.347575847970661,
2534
- "grad_norm": 0.07014094293117523,
2535
- "learning_rate": 3.385213199975971e-05,
2536
- "loss": 0.0005677144508808851,
2537
- "step": 7200
2538
- },
2539
- {
2540
- "epoch": 1.3513192604420736,
2541
- "grad_norm": 0.008626374416053295,
2542
- "learning_rate": 3.377352866544706e-05,
2543
- "loss": 0.0005447934381663799,
2544
- "step": 7220
2545
- },
2546
- {
2547
- "epoch": 1.3550626729134863,
2548
- "grad_norm": 0.013825134374201298,
2549
- "learning_rate": 3.3694826292654246e-05,
2550
- "loss": 0.004854041337966919,
2551
- "step": 7240
2552
- },
2553
- {
2554
- "epoch": 1.3588060853848989,
2555
- "grad_norm": 0.025015883147716522,
2556
- "learning_rate": 3.361602576979956e-05,
2557
- "loss": 0.004542553424835205,
2558
- "step": 7260
2559
- },
2560
- {
2561
- "epoch": 1.3625494978563115,
2562
- "grad_norm": 0.009614030830562115,
2563
- "learning_rate": 3.353712798640923e-05,
2564
- "loss": 0.0008775785565376282,
2565
- "step": 7280
2566
- },
2567
- {
2568
- "epoch": 1.366292910327724,
2569
- "grad_norm": 3.8835268020629883,
2570
- "learning_rate": 3.345813383310744e-05,
2571
- "loss": 0.0063879616558551785,
2572
- "step": 7300
2573
- },
2574
- {
2575
- "epoch": 1.3700363227991366,
2576
- "grad_norm": 0.005518193822354078,
2577
- "learning_rate": 3.337904420160618e-05,
2578
- "loss": 0.0010956574231386184,
2579
- "step": 7320
2580
- },
2581
- {
2582
- "epoch": 1.3737797352705492,
2583
- "grad_norm": 0.005018322728574276,
2584
- "learning_rate": 3.329985998469526e-05,
2585
- "loss": 0.0012317843735218047,
2586
- "step": 7340
2587
- },
2588
- {
2589
- "epoch": 0.6887872232777639,
2590
- "grad_norm": 0.3108454942703247,
2591
- "learning_rate": 3.322058207623218e-05,
2592
- "loss": 0.010070423781871795,
2593
- "step": 7360
2594
- },
2595
- {
2596
- "epoch": 0.6906589276888447,
2597
- "grad_norm": 0.3556046783924103,
2598
- "learning_rate": 3.314121137113209e-05,
2599
- "loss": 0.0278738796710968,
2600
- "step": 7380
2601
- },
2602
- {
2603
- "epoch": 0.6925306320999256,
2604
- "grad_norm": 4.041794300079346,
2605
- "learning_rate": 3.306174876535762e-05,
2606
- "loss": 0.025335192680358887,
2607
- "step": 7400
2608
- },
2609
- {
2610
- "epoch": 0.6944023365110065,
2611
- "grad_norm": 0.04647493362426758,
2612
- "learning_rate": 3.2982195155908845e-05,
2613
- "loss": 0.05056847333908081,
2614
- "step": 7420
2615
- },
2616
- {
2617
- "epoch": 0.6962740409220873,
2618
- "grad_norm": 0.6827419400215149,
2619
- "learning_rate": 3.290653575270209e-05,
2620
- "loss": 0.036053261160850524,
2621
- "step": 7440
2622
- },
2623
- {
2624
- "epoch": 0.6981457453331683,
2625
- "grad_norm": 0.256136029958725,
2626
- "learning_rate": 3.2826807269966064e-05,
2627
- "loss": 0.020640365779399872,
2628
- "step": 7460
2629
- },
2630
- {
2631
- "epoch": 0.7000174497442492,
2632
- "grad_norm": 0.2054845094680786,
2633
- "learning_rate": 3.274699043565268e-05,
2634
- "loss": 0.03456352353096008,
2635
- "step": 7480
2636
- },
2637
- {
2638
- "epoch": 0.70188915415533,
2639
- "grad_norm": 0.2027648538351059,
2640
- "learning_rate": 3.266708615076064e-05,
2641
- "loss": 0.00846734493970871,
2642
- "step": 7500
2643
- },
2644
- {
2645
- "epoch": 0.7037608585664109,
2646
- "grad_norm": 1.6423311233520508,
2647
- "learning_rate": 3.258709531727582e-05,
2648
- "loss": 0.054978948831558225,
2649
- "step": 7520
2650
- },
2651
- {
2652
- "epoch": 0.7056325629774918,
2653
- "grad_norm": 1.775089144706726,
2654
- "learning_rate": 3.2507018838161085e-05,
2655
- "loss": 0.03238933086395264,
2656
- "step": 7540
2657
- },
2658
- {
2659
- "epoch": 0.7075042673885726,
2660
- "grad_norm": 0.06917860358953476,
2661
- "learning_rate": 3.242685761734609e-05,
2662
- "loss": 0.016849520802497863,
2663
- "step": 7560
2664
- },
2665
- {
2666
- "epoch": 0.7093759717996535,
2667
- "grad_norm": 0.051443129777908325,
2668
- "learning_rate": 3.2346612559717094e-05,
2669
- "loss": 0.048251998424530027,
2670
- "step": 7580
2671
- },
2672
- {
2673
- "epoch": 0.7112476762107344,
2674
- "grad_norm": 0.06533925980329514,
2675
- "learning_rate": 3.226628457110672e-05,
2676
- "loss": 0.03696450293064117,
2677
- "step": 7600
2678
- },
2679
- {
2680
- "epoch": 0.7131193806218153,
2681
- "grad_norm": 0.45661595463752747,
2682
- "learning_rate": 3.218587455828377e-05,
2683
- "loss": 0.05503013730049133,
2684
- "step": 7620
2685
- },
2686
- {
2687
- "epoch": 0.7149910850328962,
2688
- "grad_norm": 2.0205914974212646,
2689
- "learning_rate": 3.210538342894291e-05,
2690
- "loss": 0.033562681078910826,
2691
- "step": 7640
2692
- },
2693
- {
2694
- "epoch": 0.7168627894439771,
2695
- "grad_norm": 2.4842448234558105,
2696
- "learning_rate": 3.202481209169455e-05,
2697
- "loss": 0.019278638064861298,
2698
- "step": 7660
2699
- },
2700
- {
2701
- "epoch": 0.7187344938550579,
2702
- "grad_norm": 0.10550081729888916,
2703
- "learning_rate": 3.1944161456054436e-05,
2704
- "loss": 0.01638232171535492,
2705
- "step": 7680
2706
- },
2707
- {
2708
- "epoch": 0.7206061982661388,
2709
- "grad_norm": 1.606436014175415,
2710
- "learning_rate": 3.1863432432433506e-05,
2711
- "loss": 0.020552067458629607,
2712
- "step": 7700
2713
- },
2714
- {
2715
- "epoch": 0.7224779026772197,
2716
- "grad_norm": 0.2617719769477844,
2717
- "learning_rate": 3.178262593212757e-05,
2718
- "loss": 0.02315783053636551,
2719
- "step": 7720
2720
- },
2721
- {
2722
- "epoch": 0.7243496070883005,
2723
- "grad_norm": 0.9734074473381042,
2724
- "learning_rate": 3.1701742867307e-05,
2725
- "loss": 0.01938771307468414,
2726
- "step": 7740
2727
- },
2728
- {
2729
- "epoch": 0.7262213114993814,
2730
- "grad_norm": 0.5882985591888428,
2731
- "learning_rate": 3.162078415100647e-05,
2732
- "loss": 0.011305707693099975,
2733
- "step": 7760
2734
- },
2735
- {
2736
- "epoch": 0.7280930159104624,
2737
- "grad_norm": 0.04298723489046097,
2738
- "learning_rate": 3.15397506971146e-05,
2739
- "loss": 0.04238930344581604,
2740
- "step": 7780
2741
- },
2742
- {
2743
- "epoch": 0.7299647203215432,
2744
- "grad_norm": 6.2729315757751465,
2745
- "learning_rate": 3.145864342036372e-05,
2746
- "loss": 0.030225831270217895,
2747
- "step": 7800
2748
- },
2749
- {
2750
- "epoch": 0.7318364247326241,
2751
- "grad_norm": 0.026423340663313866,
2752
- "learning_rate": 3.1377463236319476e-05,
2753
- "loss": 0.012169972807168961,
2754
- "step": 7820
2755
- },
2756
- {
2757
- "epoch": 0.733708129143705,
2758
- "grad_norm": 0.0296376533806324,
2759
- "learning_rate": 3.1296211061370495e-05,
2760
- "loss": 0.015344823896884918,
2761
- "step": 7840
2762
- },
2763
- {
2764
- "epoch": 0.7355798335547858,
2765
- "grad_norm": 0.029524821788072586,
2766
- "learning_rate": 3.1214887812718094e-05,
2767
- "loss": 0.028345003724098206,
2768
- "step": 7860
2769
- },
2770
- {
2771
- "epoch": 0.7374515379658667,
2772
- "grad_norm": 0.06847794353961945,
2773
- "learning_rate": 3.113349440836588e-05,
2774
- "loss": 0.020069575309753417,
2775
- "step": 7880
2776
- },
2777
- {
2778
- "epoch": 0.7393232423769476,
2779
- "grad_norm": 0.024868430569767952,
2780
- "learning_rate": 3.1052031767109376e-05,
2781
- "loss": 0.014262473583221436,
2782
- "step": 7900
2783
- },
2784
- {
2785
- "epoch": 0.7411949467880286,
2786
- "grad_norm": 0.24450063705444336,
2787
- "learning_rate": 3.097050080852573e-05,
2788
- "loss": 0.04350808262825012,
2789
- "step": 7920
2790
- },
2791
- {
2792
- "epoch": 0.7430666511991094,
2793
- "grad_norm": 0.06978324800729752,
2794
- "learning_rate": 3.088890245296322e-05,
2795
- "loss": 0.015559709072113037,
2796
- "step": 7940
2797
- },
2798
- {
2799
- "epoch": 0.7449383556101903,
2800
- "grad_norm": 0.12675604224205017,
2801
- "learning_rate": 3.0807237621530964e-05,
2802
- "loss": 0.013867451250553131,
2803
- "step": 7960
2804
- },
2805
- {
2806
- "epoch": 0.7468100600212711,
2807
- "grad_norm": 0.2605513334274292,
2808
- "learning_rate": 3.072550723608846e-05,
2809
- "loss": 0.012869009375572204,
2810
- "step": 7980
2811
- },
2812
- {
2813
- "epoch": 0.748681764432352,
2814
- "grad_norm": 3.325530529022217,
2815
- "learning_rate": 3.064371221923521e-05,
2816
- "loss": 0.03036353886127472,
2817
- "step": 8000
2818
- },
2819
- {
2820
- "epoch": 0.7505534688434329,
2821
- "grad_norm": 0.22703051567077637,
2822
- "learning_rate": 3.0561853494300294e-05,
2823
- "loss": 0.009017374366521835,
2824
- "step": 8020
2825
- },
2826
- {
2827
- "epoch": 0.7524251732545137,
2828
- "grad_norm": 6.404862880706787,
2829
- "learning_rate": 3.047993198533195e-05,
2830
- "loss": 0.020604299008846284,
2831
- "step": 8040
2832
- },
2833
- {
2834
- "epoch": 0.7542968776655946,
2835
- "grad_norm": 0.06491954624652863,
2836
- "learning_rate": 3.039794861708714e-05,
2837
- "loss": 0.014963623881340028,
2838
- "step": 8060
2839
- },
2840
- {
2841
- "epoch": 0.7561685820766756,
2842
- "grad_norm": 0.4990088641643524,
2843
- "learning_rate": 3.0315904315021128e-05,
2844
- "loss": 0.02046530395746231,
2845
- "step": 8080
2846
- },
2847
- {
2848
- "epoch": 0.7580402864877565,
2849
- "grad_norm": 0.3174229562282562,
2850
- "learning_rate": 3.023380000527699e-05,
2851
- "loss": 0.013621781766414643,
2852
- "step": 8100
2853
- },
2854
- {
2855
- "epoch": 0.7599119908988373,
2856
- "grad_norm": 0.07161428034305573,
2857
- "learning_rate": 3.0151636614675218e-05,
2858
- "loss": 0.008043503761291504,
2859
- "step": 8120
2860
- },
2861
- {
2862
- "epoch": 0.7617836953099182,
2863
- "grad_norm": 0.6772736310958862,
2864
- "learning_rate": 3.0069415070703217e-05,
2865
- "loss": 0.03563189804553986,
2866
- "step": 8140
2867
- },
2868
- {
2869
- "epoch": 0.763655399720999,
2870
- "grad_norm": 0.07689516246318817,
2871
- "learning_rate": 2.998713630150485e-05,
2872
- "loss": 0.008622632920742035,
2873
- "step": 8160
2874
- },
2875
- {
2876
- "epoch": 0.7655271041320799,
2877
- "grad_norm": 0.014181110076606274,
2878
- "learning_rate": 2.990480123586994e-05,
2879
- "loss": 0.012368627637624741,
2880
- "step": 8180
2881
- },
2882
- {
2883
- "epoch": 0.7673988085431608,
2884
- "grad_norm": 4.4751715660095215,
2885
- "learning_rate": 2.9822410803223822e-05,
2886
- "loss": 0.02100955694913864,
2887
- "step": 8200
2888
- },
2889
- {
2890
- "epoch": 0.7692705129542416,
2891
- "grad_norm": 0.12694527208805084,
2892
- "learning_rate": 2.9739965933616825e-05,
2893
- "loss": 0.018182000517845152,
2894
- "step": 8220
2895
- },
2896
- {
2897
- "epoch": 0.7711422173653226,
2898
- "grad_norm": 0.13789872825145721,
2899
- "learning_rate": 2.9657467557713792e-05,
2900
- "loss": 0.008949784934520722,
2901
- "step": 8240
2902
- },
2903
- {
2904
- "epoch": 0.7730139217764035,
2905
- "grad_norm": 0.04048463702201843,
2906
- "learning_rate": 2.957491660678354e-05,
2907
- "loss": 0.03582434058189392,
2908
- "step": 8260
2909
- },
2910
- {
2911
- "epoch": 0.7748856261874844,
2912
- "grad_norm": 0.7825964689254761,
2913
- "learning_rate": 2.9492314012688378e-05,
2914
- "loss": 0.012679101526737213,
2915
- "step": 8280
2916
- },
2917
- {
2918
- "epoch": 0.7767573305985652,
2919
- "grad_norm": 0.14350314438343048,
2920
- "learning_rate": 2.9409660707873597e-05,
2921
- "loss": 0.010909486562013626,
2922
- "step": 8300
2923
- },
2924
- {
2925
- "epoch": 0.7786290350096461,
2926
- "grad_norm": 0.17676737904548645,
2927
- "learning_rate": 2.932695762535691e-05,
2928
- "loss": 0.01464642733335495,
2929
- "step": 8320
2930
- },
2931
- {
2932
- "epoch": 0.780500739420727,
2933
- "grad_norm": 0.5979751348495483,
2934
- "learning_rate": 2.9244205698717943e-05,
2935
- "loss": 0.028799059987068176,
2936
- "step": 8340
2937
- },
2938
- {
2939
- "epoch": 0.7823724438318078,
2940
- "grad_norm": 0.08448052406311035,
2941
- "learning_rate": 2.9161405862087676e-05,
2942
- "loss": 0.014056096971035003,
2943
- "step": 8360
2944
- },
2945
- {
2946
- "epoch": 0.7842441482428888,
2947
- "grad_norm": 0.5616207122802734,
2948
- "learning_rate": 2.9078559050137955e-05,
2949
- "loss": 0.008744364231824875,
2950
- "step": 8380
2951
- },
2952
- {
2953
- "epoch": 0.7861158526539697,
2954
- "grad_norm": 0.7264829277992249,
2955
- "learning_rate": 2.8995666198070836e-05,
2956
- "loss": 0.014575870335102081,
2957
- "step": 8400
2958
- },
2959
- {
2960
- "epoch": 0.7879875570650505,
2961
- "grad_norm": 1.444239616394043,
2962
- "learning_rate": 2.891272824160815e-05,
2963
- "loss": 0.01230706349015236,
2964
- "step": 8420
2965
- },
2966
- {
2967
- "epoch": 0.7898592614761314,
2968
- "grad_norm": 0.02643579989671707,
2969
- "learning_rate": 2.882974611698084e-05,
2970
- "loss": 0.01713460832834244,
2971
- "step": 8440
2972
- },
2973
- {
2974
- "epoch": 0.7917309658872123,
2975
- "grad_norm": 0.19893163442611694,
2976
- "learning_rate": 2.8746720760918457e-05,
2977
- "loss": 0.009562552720308305,
2978
- "step": 8460
2979
- },
2980
- {
2981
- "epoch": 0.7936026702982931,
2982
- "grad_norm": 1.8813897371292114,
2983
- "learning_rate": 2.866365311063855e-05,
2984
- "loss": 0.01966284364461899,
2985
- "step": 8480
2986
- },
2987
- {
2988
- "epoch": 0.795474374709374,
2989
- "grad_norm": 0.1820579618215561,
2990
- "learning_rate": 2.8580544103836114e-05,
2991
- "loss": 0.023943188786506652,
2992
- "step": 8500
2993
- },
2994
- {
2995
- "epoch": 0.7973460791204549,
2996
- "grad_norm": 1.3913259506225586,
2997
- "learning_rate": 2.849739467867298e-05,
2998
- "loss": 0.02233349084854126,
2999
- "step": 8520
3000
- },
3001
- {
3002
- "epoch": 0.7992177835315358,
3003
- "grad_norm": 0.28450486063957214,
3004
- "learning_rate": 2.8414205773767223e-05,
3005
- "loss": 0.016230446100234986,
3006
- "step": 8540
3007
- },
3008
- {
3009
- "epoch": 0.8010894879426167,
3010
- "grad_norm": 0.46086356043815613,
3011
- "learning_rate": 2.83309783281826e-05,
3012
- "loss": 0.013964855670928955,
3013
- "step": 8560
3014
- },
3015
- {
3016
- "epoch": 0.8029611923536976,
3017
- "grad_norm": 1.1401137113571167,
3018
- "learning_rate": 2.8247713281417924e-05,
3019
- "loss": 0.01552264392375946,
3020
- "step": 8580
3021
- },
3022
- {
3023
- "epoch": 0.8048328967647784,
3024
- "grad_norm": 0.02414649911224842,
3025
- "learning_rate": 2.8164411573396444e-05,
3026
- "loss": 0.00505053773522377,
3027
- "step": 8600
3028
- },
3029
- {
3030
- "epoch": 0.8067046011758593,
3031
- "grad_norm": 0.029010778293013573,
3032
- "learning_rate": 2.8081074144455276e-05,
3033
- "loss": 0.008068422973155975,
3034
- "step": 8620
3035
- },
3036
- {
3037
- "epoch": 0.8085763055869402,
3038
- "grad_norm": 0.024924319237470627,
3039
- "learning_rate": 2.7997701935334747e-05,
3040
- "loss": 0.021529987454414368,
3041
- "step": 8640
3042
- },
3043
- {
3044
- "epoch": 0.810448009998021,
3045
- "grad_norm": 0.3544171154499054,
3046
- "learning_rate": 2.791429588716782e-05,
3047
- "loss": 0.008264218270778657,
3048
- "step": 8660
3049
- },
3050
- {
3051
- "epoch": 0.8123197144091019,
3052
- "grad_norm": 0.011211074888706207,
3053
- "learning_rate": 2.7830856941469407e-05,
3054
- "loss": 0.013752134144306183,
3055
- "step": 8680
3056
- },
3057
- {
3058
- "epoch": 0.8141914188201829,
3059
- "grad_norm": 0.30479249358177185,
3060
- "learning_rate": 2.7747386040125807e-05,
3061
- "loss": 0.01313515156507492,
3062
- "step": 8700
3063
- },
3064
- {
3065
- "epoch": 0.8160631232312637,
3066
- "grad_norm": 3.1079516410827637,
3067
- "learning_rate": 2.766388412538404e-05,
3068
- "loss": 0.013471932709217071,
3069
- "step": 8720
3070
- },
3071
- {
3072
- "epoch": 0.8179348276423446,
3073
- "grad_norm": 0.011288405396044254,
3074
- "learning_rate": 2.758035213984121e-05,
3075
- "loss": 0.011207062005996703,
3076
- "step": 8740
3077
- },
3078
- {
3079
- "epoch": 0.8198065320534255,
3080
- "grad_norm": 0.011481484398245811,
3081
- "learning_rate": 2.749679102643387e-05,
3082
- "loss": 0.018254657089710236,
3083
- "step": 8760
3084
- },
3085
- {
3086
- "epoch": 0.8216782364645063,
3087
- "grad_norm": 0.037564992904663086,
3088
- "learning_rate": 2.7413201728427372e-05,
3089
- "loss": 0.024057184159755707,
3090
- "step": 8780
3091
- },
3092
- {
3093
- "epoch": 0.8235499408755872,
3094
- "grad_norm": 0.03808968514204025,
3095
- "learning_rate": 2.7329585189405253e-05,
3096
- "loss": 0.006051592528820038,
3097
- "step": 8800
3098
- },
3099
- {
3100
- "epoch": 0.8254216452866681,
3101
- "grad_norm": 0.07610247284173965,
3102
- "learning_rate": 2.724594235325852e-05,
3103
- "loss": 0.025592076778411865,
3104
- "step": 8820
3105
- },
3106
- {
3107
- "epoch": 0.827293349697749,
3108
- "grad_norm": 0.019049810245633125,
3109
- "learning_rate": 2.716227416417505e-05,
3110
- "loss": 0.0037486787885427477,
3111
- "step": 8840
3112
- },
3113
- {
3114
- "epoch": 0.8291650541088299,
3115
- "grad_norm": 0.6380273699760437,
3116
- "learning_rate": 2.7078581566628897e-05,
3117
- "loss": 0.015487492084503174,
3118
- "step": 8860
3119
- },
3120
- {
3121
- "epoch": 0.8310367585199108,
3122
- "grad_norm": 0.05775881186127663,
3123
- "learning_rate": 2.699486550536968e-05,
3124
- "loss": 0.03133237063884735,
3125
- "step": 8880
3126
- },
3127
- {
3128
- "epoch": 0.8329084629309916,
3129
- "grad_norm": 0.047411222010850906,
3130
- "learning_rate": 2.6911126925411845e-05,
3131
- "loss": 0.00861177071928978,
3132
- "step": 8900
3133
- },
3134
- {
3135
- "epoch": 0.8347801673420725,
3136
- "grad_norm": 0.23981286585330963,
3137
- "learning_rate": 2.682736677202406e-05,
3138
- "loss": 0.01839599907398224,
3139
- "step": 8920
3140
- },
3141
- {
3142
- "epoch": 0.8366518717531534,
3143
- "grad_norm": 0.36887305974960327,
3144
- "learning_rate": 2.6743585990718505e-05,
3145
- "loss": 0.01008533239364624,
3146
- "step": 8940
3147
- },
3148
- {
3149
- "epoch": 0.8385235761642342,
3150
- "grad_norm": 0.8994531035423279,
3151
- "learning_rate": 2.6659785527240233e-05,
3152
- "loss": 0.027107802033424378,
3153
- "step": 8960
3154
- },
3155
- {
3156
- "epoch": 0.8403952805753151,
3157
- "grad_norm": 0.12780402600765228,
3158
- "learning_rate": 2.6575966327556458e-05,
3159
- "loss": 0.03549482524394989,
3160
- "step": 8980
3161
- },
3162
- {
3163
- "epoch": 0.8422669849863961,
3164
- "grad_norm": 0.3294568359851837,
3165
- "learning_rate": 2.649212933784591e-05,
3166
- "loss": 0.02797776460647583,
3167
- "step": 9000
3168
- },
3169
- {
3170
- "epoch": 0.8441386893974769,
3171
- "grad_norm": 0.019461506977677345,
3172
- "learning_rate": 2.640827550448812e-05,
3173
- "loss": 0.010047334432601928,
3174
- "step": 9020
3175
- },
3176
- {
3177
- "epoch": 0.8460103938085578,
3178
- "grad_norm": 0.056546472012996674,
3179
- "learning_rate": 2.6324405774052784e-05,
3180
- "loss": 0.02831721007823944,
3181
- "step": 9040
3182
- },
3183
- {
3184
- "epoch": 0.8478820982196387,
3185
- "grad_norm": 0.017190299928188324,
3186
- "learning_rate": 2.6240521093289022e-05,
3187
- "loss": 0.019623257219791412,
3188
- "step": 9060
3189
- },
3190
- {
3191
- "epoch": 0.8497538026307195,
3192
- "grad_norm": 0.04793965816497803,
3193
- "learning_rate": 2.6156622409114728e-05,
3194
- "loss": 0.011966148018836975,
3195
- "step": 9080
3196
- },
3197
- {
3198
- "epoch": 0.8516255070418004,
3199
- "grad_norm": 0.006742037367075682,
3200
- "learning_rate": 2.607271066860587e-05,
3201
- "loss": 0.013694784045219422,
3202
- "step": 9100
3203
- },
3204
- {
3205
- "epoch": 0.8534972114528813,
3206
- "grad_norm": 0.03113027848303318,
3207
- "learning_rate": 2.5988786818985812e-05,
3208
- "loss": 0.05338943004608154,
3209
- "step": 9120
3210
- },
3211
- {
3212
- "epoch": 0.8553689158639621,
3213
- "grad_norm": 0.6589255928993225,
3214
- "learning_rate": 2.5904851807614588e-05,
3215
- "loss": 0.01305432766675949,
3216
- "step": 9140
3217
- },
3218
- {
3219
- "epoch": 0.8572406202750431,
3220
- "grad_norm": 0.3030281960964203,
3221
- "learning_rate": 2.582090658197825e-05,
3222
- "loss": 0.03663805425167084,
3223
- "step": 9160
3224
- },
3225
- {
3226
- "epoch": 0.859112324686124,
3227
- "grad_norm": 0.37101081013679504,
3228
- "learning_rate": 2.573695208967814e-05,
3229
- "loss": 0.016968609392642976,
3230
- "step": 9180
3231
- },
3232
- {
3233
- "epoch": 0.8609840290972048,
3234
- "grad_norm": 0.7480998039245605,
3235
- "learning_rate": 2.5652989278420197e-05,
3236
- "loss": 0.021240857243537904,
3237
- "step": 9200
3238
- },
3239
- {
3240
- "epoch": 0.8628557335082857,
3241
- "grad_norm": 0.017131274566054344,
3242
- "learning_rate": 2.5569019096004304e-05,
3243
- "loss": 0.004783949628472328,
3244
- "step": 9220
3245
- },
3246
- {
3247
- "epoch": 0.8647274379193666,
3248
- "grad_norm": 1.1544040441513062,
3249
- "learning_rate": 2.5485042490313504e-05,
3250
- "loss": 0.02356208860874176,
3251
- "step": 9240
3252
- },
3253
- {
3254
- "epoch": 0.8665991423304474,
3255
- "grad_norm": 0.13512635231018066,
3256
- "learning_rate": 2.540106040930338e-05,
3257
- "loss": 0.009329542517662048,
3258
- "step": 9260
3259
- },
3260
- {
3261
- "epoch": 0.8684708467415283,
3262
- "grad_norm": 0.018427839502692223,
3263
- "learning_rate": 2.5317073800991304e-05,
3264
- "loss": 0.007472375035285949,
3265
- "step": 9280
3266
- },
3267
- {
3268
- "epoch": 0.8703425511526093,
3269
- "grad_norm": 0.02722800336778164,
3270
- "learning_rate": 2.5233083613445778e-05,
3271
- "loss": 0.020304642617702484,
3272
- "step": 9300
3273
- },
3274
- {
3275
- "epoch": 0.8722142555636901,
3276
- "grad_norm": 0.051702745258808136,
3277
- "learning_rate": 2.5149090794775675e-05,
3278
- "loss": 0.02955295443534851,
3279
- "step": 9320
3280
- },
3281
- {
3282
- "epoch": 0.874085959974771,
3283
- "grad_norm": 0.1535400152206421,
3284
- "learning_rate": 2.5065096293119604e-05,
3285
- "loss": 0.030047640204429626,
3286
- "step": 9340
3287
- },
3288
- {
3289
- "epoch": 0.8759576643858519,
3290
- "grad_norm": 0.383573979139328,
3291
- "learning_rate": 2.498110105663513e-05,
3292
- "loss": 0.011377302557229995,
3293
- "step": 9360
3294
- },
3295
- {
3296
- "epoch": 0.8778293687969327,
3297
- "grad_norm": 0.23541487753391266,
3298
- "learning_rate": 2.489710603348817e-05,
3299
- "loss": 0.02304387390613556,
3300
- "step": 9380
3301
- },
3302
- {
3303
- "epoch": 0.8797010732080136,
3304
- "grad_norm": 0.029004938900470734,
3305
- "learning_rate": 2.4813112171842162e-05,
3306
- "loss": 0.020582889020442963,
3307
- "step": 9400
3308
- },
3309
- {
3310
- "epoch": 0.8815727776190945,
3311
- "grad_norm": 0.06564116477966309,
3312
- "learning_rate": 2.4729120419847498e-05,
3313
- "loss": 0.014207787811756134,
3314
- "step": 9420
3315
- },
3316
- {
3317
- "epoch": 0.8834444820301753,
3318
- "grad_norm": 0.01633615791797638,
3319
- "learning_rate": 2.464513172563072e-05,
3320
- "loss": 0.01756283938884735,
3321
- "step": 9440
3322
- },
3323
- {
3324
- "epoch": 0.8853161864412563,
3325
- "grad_norm": 0.01287770178169012,
3326
- "learning_rate": 2.456114703728386e-05,
3327
- "loss": 0.003737853467464447,
3328
- "step": 9460
3329
- },
3330
- {
3331
- "epoch": 0.8871878908523372,
3332
- "grad_norm": 0.05004064738750458,
3333
- "learning_rate": 2.448136615728485e-05,
3334
- "loss": 0.0324675589799881,
3335
- "step": 9480
3336
- },
3337
- {
3338
- "epoch": 0.889059595263418,
3339
- "grad_norm": 1.20869779586792,
3340
- "learning_rate": 2.4397392007153162e-05,
3341
- "loss": 0.007156150788068772,
3342
- "step": 9500
3343
- },
3344
- {
3345
- "epoch": 0.8909312996744989,
3346
- "grad_norm": 1.1070218086242676,
3347
- "learning_rate": 2.43134246594589e-05,
3348
- "loss": 0.009275762736797333,
3349
- "step": 9520
3350
- },
3351
- {
3352
- "epoch": 0.8928030040855798,
3353
- "grad_norm": 0.878593385219574,
3354
- "learning_rate": 2.4229465062053136e-05,
3355
- "loss": 0.018170186877250673,
3356
- "step": 9540
3357
- },
3358
- {
3359
- "epoch": 2.236302797078385,
3360
- "grad_norm": 0.03912261128425598,
3361
- "learning_rate": 1.4461640332194936e-05,
3362
- "loss": 0.0013993863249197602,
3363
- "step": 9560
3364
- },
3365
- {
3366
- "epoch": 2.2409820603868678,
3367
- "grad_norm": 0.2482009381055832,
3368
- "learning_rate": 1.4366537531356394e-05,
3369
- "loss": 0.006357508152723313,
3370
- "step": 9580
3371
- },
3372
- {
3373
- "epoch": 2.2456613236953507,
3374
- "grad_norm": 0.011289082467556,
3375
- "learning_rate": 1.4271622228435674e-05,
3376
- "loss": 0.020982606709003447,
3377
- "step": 9600
3378
- },
3379
- {
3380
- "epoch": 2.2503405870038335,
3381
- "grad_norm": 0.022541223093867302,
3382
- "learning_rate": 1.4176896097057135e-05,
3383
- "loss": 0.00703481137752533,
3384
- "step": 9620
3385
- },
3386
- {
3387
- "epoch": 2.2550198503123164,
3388
- "grad_norm": 0.1335306018590927,
3389
- "learning_rate": 1.4082360807509482e-05,
3390
- "loss": 0.007030846178531646,
3391
- "step": 9640
3392
- },
3393
- {
3394
- "epoch": 2.2596991136207993,
3395
- "grad_norm": 0.20317842066287994,
3396
- "learning_rate": 1.3988018026716371e-05,
3397
- "loss": 0.006802820414304733,
3398
- "step": 9660
3399
- },
3400
- {
3401
- "epoch": 2.2643783769292822,
3402
- "grad_norm": 0.02236269973218441,
3403
- "learning_rate": 1.3893869418206949e-05,
3404
- "loss": 0.007227703183889389,
3405
- "step": 9680
3406
- },
3407
- {
3408
- "epoch": 2.269057640237765,
3409
- "grad_norm": 0.014223535545170307,
3410
- "learning_rate": 1.3799916642086585e-05,
3411
- "loss": 0.0067868843674659726,
3412
- "step": 9700
3413
- },
3414
- {
3415
- "epoch": 2.273736903546248,
3416
- "grad_norm": 0.02096005715429783,
3417
- "learning_rate": 1.3706161355007579e-05,
3418
- "loss": 0.014182762801647186,
3419
- "step": 9720
3420
- },
3421
- {
3422
- "epoch": 2.278416166854731,
3423
- "grad_norm": 0.022602779790759087,
3424
- "learning_rate": 1.3612605210139912e-05,
3425
- "loss": 0.007886608690023422,
3426
- "step": 9740
3427
- },
3428
- {
3429
- "epoch": 2.283095430163214,
3430
- "grad_norm": 0.5981806516647339,
3431
- "learning_rate": 1.3519249857142147e-05,
3432
- "loss": 0.002214055508375168,
3433
- "step": 9760
3434
- },
3435
- {
3436
- "epoch": 2.2877746934716967,
3437
- "grad_norm": 0.014210161752998829,
3438
- "learning_rate": 1.3426096942132305e-05,
3439
- "loss": 0.0067164845764637,
3440
- "step": 9780
3441
- },
3442
- {
3443
- "epoch": 2.2924539567801796,
3444
- "grad_norm": 0.1347479671239853,
3445
- "learning_rate": 1.3333148107658883e-05,
3446
- "loss": 0.009656199812889099,
3447
- "step": 9800
3448
- },
3449
- {
3450
- "epoch": 2.2971332200886625,
3451
- "grad_norm": 0.01877514459192753,
3452
- "learning_rate": 1.3240404992671823e-05,
3453
- "loss": 0.008465659618377686,
3454
- "step": 9820
3455
- },
3456
- {
3457
- "epoch": 2.3018124833971454,
3458
- "grad_norm": 0.046075042337179184,
3459
- "learning_rate": 1.3147869232493698e-05,
3460
- "loss": 0.010561748594045638,
3461
- "step": 9840
3462
- },
3463
- {
3464
- "epoch": 2.306491746705628,
3465
- "grad_norm": 0.01830120198428631,
3466
- "learning_rate": 1.305554245879079e-05,
3467
- "loss": 0.0038456227630376816,
3468
- "step": 9860
3469
- },
3470
- {
3471
- "epoch": 2.3111710100141107,
3472
- "grad_norm": 0.7911403179168701,
3473
- "learning_rate": 1.296342629954439e-05,
3474
- "loss": 0.009874989837408065,
3475
- "step": 9880
3476
- },
3477
- {
3478
- "epoch": 2.3158502733225936,
3479
- "grad_norm": 0.012944846414029598,
3480
- "learning_rate": 1.2871522379022038e-05,
3481
- "loss": 0.004237812012434006,
3482
- "step": 9900
3483
- },
3484
- {
3485
- "epoch": 2.3205295366310765,
3486
- "grad_norm": 0.018642093986272812,
3487
- "learning_rate": 1.2779832317748933e-05,
3488
- "loss": 0.013542568683624268,
3489
- "step": 9920
3490
- },
3491
- {
3492
- "epoch": 2.3252087999395594,
3493
- "grad_norm": 2.968116044998169,
3494
- "learning_rate": 1.2688357732479303e-05,
3495
- "loss": 0.013356439769268036,
3496
- "step": 9940
3497
- },
3498
- {
3499
- "epoch": 2.3298880632480423,
3500
- "grad_norm": 0.7037340402603149,
3501
- "learning_rate": 1.2597100236167963e-05,
3502
- "loss": 0.008408596366643905,
3503
- "step": 9960
3504
- },
3505
- {
3506
- "epoch": 2.334567326556525,
3507
- "grad_norm": 1.47929847240448,
3508
- "learning_rate": 1.2506061437941804e-05,
3509
- "loss": 0.012505564093589782,
3510
- "step": 9980
3511
- },
3512
- {
3513
- "epoch": 2.339246589865008,
3514
- "grad_norm": 1.5857082605361938,
3515
- "learning_rate": 1.241524294307147e-05,
3516
- "loss": 0.007822493463754654,
3517
- "step": 10000
3518
- }
3519
- ],
3520
- "logging_steps": 20,
3521
- "max_steps": 14963,
3522
- "num_input_tokens_seen": 0,
3523
- "num_train_epochs": 4,
3524
- "save_steps": 1000000000,
3525
- "stateful_callbacks": {
3526
- "TrainerControl": {
3527
- "args": {
3528
- "should_epoch_stop": false,
3529
- "should_evaluate": false,
3530
- "should_log": false,
3531
- "should_save": true,
3532
- "should_training_stop": false
3533
- },
3534
- "attributes": {}
3535
- }
3536
- },
3537
- "total_flos": 3.842105679776333e+16,
3538
- "train_batch_size": 1,
3539
- "trial_name": null,
3540
- "trial_params": null
3541
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/11/checkpoint-10018/training_args.bin DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:66430bba102a8f3dc245713cd6268a99c212c508aacce1d8b9768464f5df26ec
3
- size 5201
 
 
 
 
slots/11/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:11", "checkpoint": "slots/11/checkpoint-10018", "step": 10018, "updated_at": 1776816036}
 
 
slots/12/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:12", "checkpoint": "slots/12/checkpoint-9896", "step": 9896, "updated_at": 1776815553}
 
 
slots/13/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:13", "checkpoint": "slots/13/checkpoint-9966", "step": 9966, "updated_at": 1776815459}
 
 
slots/14/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:14", "checkpoint": "slots/14/checkpoint-8908", "step": 8908, "updated_at": 1776778471}
 
 
slots/15/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:15", "checkpoint": "slots/15/checkpoint-9384", "step": 9384, "updated_at": 1776780468}
 
 
slots/16/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:16", "checkpoint": "slots/16/checkpoint-9287", "step": 9287, "updated_at": 1776779956}
 
 
slots/17/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:17", "checkpoint": "slots/17/checkpoint-8838", "step": 8838, "updated_at": 1776778390}
 
 
slots/18/latest.json DELETED
@@ -1 +0,0 @@
1
- {"worker_id": "slot:18", "checkpoint": "slots/18/checkpoint-9331", "step": 9331, "updated_at": 1776780123}
 
 
slots/19/checkpoint-10023/config.json DELETED
@@ -1,24 +0,0 @@
1
- {
2
- "architectures": [
3
- "TwinyForCausalLM"
4
- ],
5
- "attention_dropout": 0.0,
6
- "dtype": "float32",
7
- "hidden_dropout": 0.0,
8
- "hidden_size": 768,
9
- "initializer_range": 0.02,
10
- "intermediate_size": 3072,
11
- "max_position_embeddings": 128,
12
- "model_type": "twiny",
13
- "neftune_alpha": 0.0,
14
- "num_attention_heads": 12,
15
- "num_hidden_layers": 3,
16
- "num_key_value_heads": 3,
17
- "qk_norm": true,
18
- "rezero_init": 1.0,
19
- "rms_norm_eps": 1e-06,
20
- "rope_theta": 10000.0,
21
- "transformers_version": "5.0.0",
22
- "use_cache": false,
23
- "vocab_size": 32000
24
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/19/checkpoint-10023/model.safetensors DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:819aea5f86a06a93c16af51942db633b244dd089a97562358af76aa64a22047f
3
- size 306388092
 
 
 
 
slots/19/checkpoint-10023/optimizer.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:99cf036a910feeb7978abafa1d3f67329deb2e33088213ef5c6ec4008413c0e5
3
- size 302484555
 
 
 
 
slots/19/checkpoint-10023/rng_state.pth DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
3
- size 14645
 
 
 
 
slots/19/checkpoint-10023/scaler.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:6422bc21ecb2b7504951d040f397a9c52919ccb608b4183918ca8112df61d802
3
- size 1383
 
 
 
 
slots/19/checkpoint-10023/scheduler.pt DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:85e89ecb4d905ed3a8dd10fec2190ee523da26980c6b2a97f0ec2d74d35647f2
3
- size 1465
 
 
 
 
slots/19/checkpoint-10023/trainer_state.json DELETED
@@ -1,3548 +0,0 @@
1
- {
2
- "best_global_step": null,
3
- "best_metric": null,
4
- "best_model_checkpoint": null,
5
- "epoch": 2.3446277426697635,
6
- "eval_steps": 500,
7
- "global_step": 10023,
8
- "is_hyper_param_search": false,
9
- "is_local_process_zero": true,
10
- "is_world_process_zero": true,
11
- "log_history": [
12
- {
13
- "epoch": 0.0001336931908386741,
14
- "grad_norm": Infinity,
15
- "learning_rate": 5e-05,
16
- "loss": 129.80032348632812,
17
- "step": 1
18
- },
19
- {
20
- "epoch": 0.002673863816773482,
21
- "grad_norm": 63.64365768432617,
22
- "learning_rate": 4.999995392022967e-05,
23
- "loss": 63.88374408922697,
24
- "step": 20
25
- },
26
- {
27
- "epoch": 0.005347727633546964,
28
- "grad_norm": 24.627853393554688,
29
- "learning_rate": 4.999976672145381e-05,
30
- "loss": 12.65963363647461,
31
- "step": 40
32
- },
33
- {
34
- "epoch": 0.008021591450320446,
35
- "grad_norm": 14.29983901977539,
36
- "learning_rate": 4.999943552476422e-05,
37
- "loss": 5.90204963684082,
38
- "step": 60
39
- },
40
- {
41
- "epoch": 0.010695455267093928,
42
- "grad_norm": 15.690323829650879,
43
- "learning_rate": 4.999896033206858e-05,
44
- "loss": 3.9918922424316405,
45
- "step": 80
46
- },
47
- {
48
- "epoch": 0.01336931908386741,
49
- "grad_norm": 31.583160400390625,
50
- "learning_rate": 4.999834114610398e-05,
51
- "loss": 2.9675426483154297,
52
- "step": 100
53
- },
54
- {
55
- "epoch": 0.01604318290064089,
56
- "grad_norm": 13.034649848937988,
57
- "learning_rate": 4.999757797043691e-05,
58
- "loss": 2.725296401977539,
59
- "step": 120
60
- },
61
- {
62
- "epoch": 0.018717046717414372,
63
- "grad_norm": 8.362203598022461,
64
- "learning_rate": 4.999667080946324e-05,
65
- "loss": 2.2478992462158205,
66
- "step": 140
67
- },
68
- {
69
- "epoch": 0.021390910534187856,
70
- "grad_norm": 8.726786613464355,
71
- "learning_rate": 4.999561966840821e-05,
72
- "loss": 1.8447845458984375,
73
- "step": 160
74
- },
75
- {
76
- "epoch": 0.024064774350961337,
77
- "grad_norm": 10.092752456665039,
78
- "learning_rate": 4.9994424553326335e-05,
79
- "loss": 1.5611843109130858,
80
- "step": 180
81
- },
82
- {
83
- "epoch": 0.02673863816773482,
84
- "grad_norm": 9.090085983276367,
85
- "learning_rate": 4.999308547110146e-05,
86
- "loss": 1.520334815979004,
87
- "step": 200
88
- },
89
- {
90
- "epoch": 0.029412501984508302,
91
- "grad_norm": 9.668124198913574,
92
- "learning_rate": 4.999160242944665e-05,
93
- "loss": 1.2818055152893066,
94
- "step": 220
95
- },
96
- {
97
- "epoch": 0.03208636580128178,
98
- "grad_norm": 9.182533264160156,
99
- "learning_rate": 4.998997543690418e-05,
100
- "loss": 1.0428407669067383,
101
- "step": 240
102
- },
103
- {
104
- "epoch": 0.03476022961805526,
105
- "grad_norm": 5.745838165283203,
106
- "learning_rate": 4.998820450284549e-05,
107
- "loss": 1.2343652725219727,
108
- "step": 260
109
- },
110
- {
111
- "epoch": 0.037434093434828744,
112
- "grad_norm": 8.651643753051758,
113
- "learning_rate": 4.99862896374711e-05,
114
- "loss": 0.8859601020812988,
115
- "step": 280
116
- },
117
- {
118
- "epoch": 0.04010795725160223,
119
- "grad_norm": 10.765266418457031,
120
- "learning_rate": 4.998423085181056e-05,
121
- "loss": 0.989600658416748,
122
- "step": 300
123
- },
124
- {
125
- "epoch": 0.04278182106837571,
126
- "grad_norm": 6.092499256134033,
127
- "learning_rate": 4.998202815772245e-05,
128
- "loss": 0.7189463615417481,
129
- "step": 320
130
- },
131
- {
132
- "epoch": 0.04545568488514919,
133
- "grad_norm": 6.352876663208008,
134
- "learning_rate": 4.9979681567894195e-05,
135
- "loss": 0.7489545345306396,
136
- "step": 340
137
- },
138
- {
139
- "epoch": 0.048129548701922674,
140
- "grad_norm": 4.620656490325928,
141
- "learning_rate": 4.997719109584209e-05,
142
- "loss": 0.7381401538848877,
143
- "step": 360
144
- },
145
- {
146
- "epoch": 0.050803412518696155,
147
- "grad_norm": 7.796917915344238,
148
- "learning_rate": 4.997455675591119e-05,
149
- "loss": 0.5687405109405518,
150
- "step": 380
151
- },
152
- {
153
- "epoch": 0.05347727633546964,
154
- "grad_norm": 2.837172508239746,
155
- "learning_rate": 4.9971778563275204e-05,
156
- "loss": 0.5686865329742432,
157
- "step": 400
158
- },
159
- {
160
- "epoch": 0.05615114015224312,
161
- "grad_norm": 3.3103690147399902,
162
- "learning_rate": 4.9968856533936436e-05,
163
- "loss": 0.625730562210083,
164
- "step": 420
165
- },
166
- {
167
- "epoch": 0.058825003969016604,
168
- "grad_norm": 3.5682132244110107,
169
- "learning_rate": 4.99657906847257e-05,
170
- "loss": 0.6125466346740722,
171
- "step": 440
172
- },
173
- {
174
- "epoch": 0.061498867785790085,
175
- "grad_norm": 5.63640832901001,
176
- "learning_rate": 4.996258103330218e-05,
177
- "loss": 0.6182214260101319,
178
- "step": 460
179
- },
180
- {
181
- "epoch": 0.06417273160256357,
182
- "grad_norm": 4.698945999145508,
183
- "learning_rate": 4.995922759815339e-05,
184
- "loss": 0.43828091621398924,
185
- "step": 480
186
- },
187
- {
188
- "epoch": 0.06684659541933705,
189
- "grad_norm": 2.1976189613342285,
190
- "learning_rate": 4.995573039859501e-05,
191
- "loss": 0.4459230899810791,
192
- "step": 500
193
- },
194
- {
195
- "epoch": 0.06952045923611053,
196
- "grad_norm": 3.8809523582458496,
197
- "learning_rate": 4.995208945477081e-05,
198
- "loss": 0.3821882963180542,
199
- "step": 520
200
- },
201
- {
202
- "epoch": 0.07219432305288401,
203
- "grad_norm": 3.75144100189209,
204
- "learning_rate": 4.994830478765251e-05,
205
- "loss": 0.5800807476043701,
206
- "step": 540
207
- },
208
- {
209
- "epoch": 0.07486818686965749,
210
- "grad_norm": 3.0038585662841797,
211
- "learning_rate": 4.9944376419039684e-05,
212
- "loss": 0.3928264617919922,
213
- "step": 560
214
- },
215
- {
216
- "epoch": 0.07754205068643098,
217
- "grad_norm": 3.614591598510742,
218
- "learning_rate": 4.994030437155961e-05,
219
- "loss": 0.48637890815734863,
220
- "step": 580
221
- },
222
- {
223
- "epoch": 0.08021591450320446,
224
- "grad_norm": 4.143443584442139,
225
- "learning_rate": 4.993608866866718e-05,
226
- "loss": 0.3650153160095215,
227
- "step": 600
228
- },
229
- {
230
- "epoch": 0.08288977831997794,
231
- "grad_norm": 6.692712783813477,
232
- "learning_rate": 4.993172933464471e-05,
233
- "loss": 0.3677916288375854,
234
- "step": 620
235
- },
236
- {
237
- "epoch": 0.08556364213675142,
238
- "grad_norm": 8.383441925048828,
239
- "learning_rate": 4.9927226394601815e-05,
240
- "loss": 0.3399480104446411,
241
- "step": 640
242
- },
243
- {
244
- "epoch": 0.0882375059535249,
245
- "grad_norm": 5.566338062286377,
246
- "learning_rate": 4.992257987447532e-05,
247
- "loss": 0.28104052543640134,
248
- "step": 660
249
- },
250
- {
251
- "epoch": 0.09091136977029839,
252
- "grad_norm": 3.1196420192718506,
253
- "learning_rate": 4.991778980102904e-05,
254
- "loss": 0.351950478553772,
255
- "step": 680
256
- },
257
- {
258
- "epoch": 0.09358523358707187,
259
- "grad_norm": 3.47979736328125,
260
- "learning_rate": 4.9912856201853644e-05,
261
- "loss": 0.27501535415649414,
262
- "step": 700
263
- },
264
- {
265
- "epoch": 0.09625909740384535,
266
- "grad_norm": 5.446717262268066,
267
- "learning_rate": 4.990777910536653e-05,
268
- "loss": 0.2651593923568726,
269
- "step": 720
270
- },
271
- {
272
- "epoch": 0.09893296122061883,
273
- "grad_norm": 7.6145339012146,
274
- "learning_rate": 4.990255854081161e-05,
275
- "loss": 0.35140380859375,
276
- "step": 740
277
- },
278
- {
279
- "epoch": 0.10160682503739231,
280
- "grad_norm": 8.445616722106934,
281
- "learning_rate": 4.989719453825918e-05,
282
- "loss": 0.2961219072341919,
283
- "step": 760
284
- },
285
- {
286
- "epoch": 0.10428068885416579,
287
- "grad_norm": 6.339537620544434,
288
- "learning_rate": 4.9891687128605744e-05,
289
- "loss": 0.24962289333343507,
290
- "step": 780
291
- },
292
- {
293
- "epoch": 0.10695455267093928,
294
- "grad_norm": 3.3369436264038086,
295
- "learning_rate": 4.988603634357383e-05,
296
- "loss": 0.2124847412109375,
297
- "step": 800
298
- },
299
- {
300
- "epoch": 0.10962841648771277,
301
- "grad_norm": 2.2909045219421387,
302
- "learning_rate": 4.988024221571177e-05,
303
- "loss": 0.24679112434387207,
304
- "step": 820
305
- },
306
- {
307
- "epoch": 0.11230228030448625,
308
- "grad_norm": 3.1149911880493164,
309
- "learning_rate": 4.9874304778393574e-05,
310
- "loss": 0.22161397933959961,
311
- "step": 840
312
- },
313
- {
314
- "epoch": 0.11497614412125973,
315
- "grad_norm": 14.802160263061523,
316
- "learning_rate": 4.9868224065818706e-05,
317
- "loss": 0.2623537302017212,
318
- "step": 860
319
- },
320
- {
321
- "epoch": 0.11765000793803321,
322
- "grad_norm": 5.586325168609619,
323
- "learning_rate": 4.98620001130119e-05,
324
- "loss": 0.3560942649841309,
325
- "step": 880
326
- },
327
- {
328
- "epoch": 0.12032387175480669,
329
- "grad_norm": 3.390017032623291,
330
- "learning_rate": 4.9855632955822916e-05,
331
- "loss": 0.16934787034988402,
332
- "step": 900
333
- },
334
- {
335
- "epoch": 0.12299773557158017,
336
- "grad_norm": 6.070940971374512,
337
- "learning_rate": 4.984912263092641e-05,
338
- "loss": 0.2131197214126587,
339
- "step": 920
340
- },
341
- {
342
- "epoch": 0.12567159938835365,
343
- "grad_norm": 1.4912281036376953,
344
- "learning_rate": 4.984246917582166e-05,
345
- "loss": 0.25128653049468996,
346
- "step": 940
347
- },
348
- {
349
- "epoch": 0.12834546320512713,
350
- "grad_norm": 7.000472545623779,
351
- "learning_rate": 4.9835672628832366e-05,
352
- "loss": 0.2653592586517334,
353
- "step": 960
354
- },
355
- {
356
- "epoch": 0.1310193270219006,
357
- "grad_norm": 5.427223205566406,
358
- "learning_rate": 4.9828733029106434e-05,
359
- "loss": 0.1653295636177063,
360
- "step": 980
361
- },
362
- {
363
- "epoch": 0.1336931908386741,
364
- "grad_norm": 1.9502102136611938,
365
- "learning_rate": 4.982165041661575e-05,
366
- "loss": 0.2250870943069458,
367
- "step": 1000
368
- },
369
- {
370
- "epoch": 0.13636705465544757,
371
- "grad_norm": 0.6216259598731995,
372
- "learning_rate": 4.981442483215595e-05,
373
- "loss": 0.18943849802017212,
374
- "step": 1020
375
- },
376
- {
377
- "epoch": 0.13904091847222105,
378
- "grad_norm": 2.3363687992095947,
379
- "learning_rate": 4.98070563173462e-05,
380
- "loss": 0.1673592209815979,
381
- "step": 1040
382
- },
383
- {
384
- "epoch": 0.14171478228899453,
385
- "grad_norm": 1.040717601776123,
386
- "learning_rate": 4.979954491462892e-05,
387
- "loss": 0.2113173007965088,
388
- "step": 1060
389
- },
390
- {
391
- "epoch": 0.14438864610576801,
392
- "grad_norm": 2.735522747039795,
393
- "learning_rate": 4.979189066726955e-05,
394
- "loss": 0.17504971027374266,
395
- "step": 1080
396
- },
397
- {
398
- "epoch": 0.1470625099225415,
399
- "grad_norm": 4.701151371002197,
400
- "learning_rate": 4.978409361935636e-05,
401
- "loss": 0.15881222486495972,
402
- "step": 1100
403
- },
404
- {
405
- "epoch": 0.14973637373931498,
406
- "grad_norm": 2.735919237136841,
407
- "learning_rate": 4.9776153815800075e-05,
408
- "loss": 0.14044179916381835,
409
- "step": 1120
410
- },
411
- {
412
- "epoch": 0.15241023755608848,
413
- "grad_norm": 3.5479538440704346,
414
- "learning_rate": 4.976807130233375e-05,
415
- "loss": 0.18565714359283447,
416
- "step": 1140
417
- },
418
- {
419
- "epoch": 0.15508410137286197,
420
- "grad_norm": 3.2167458534240723,
421
- "learning_rate": 4.975984612551243e-05,
422
- "loss": 0.13236271142959594,
423
- "step": 1160
424
- },
425
- {
426
- "epoch": 0.15775796518963545,
427
- "grad_norm": 1.0206760168075562,
428
- "learning_rate": 4.975147833271288e-05,
429
- "loss": 0.19124728441238403,
430
- "step": 1180
431
- },
432
- {
433
- "epoch": 0.16043182900640893,
434
- "grad_norm": 4.194457530975342,
435
- "learning_rate": 4.9742967972133335e-05,
436
- "loss": 0.144741427898407,
437
- "step": 1200
438
- },
439
- {
440
- "epoch": 0.1631056928231824,
441
- "grad_norm": 3.0225746631622314,
442
- "learning_rate": 4.973431509279323e-05,
443
- "loss": 0.1374324679374695,
444
- "step": 1220
445
- },
446
- {
447
- "epoch": 0.1657795566399559,
448
- "grad_norm": 4.243523120880127,
449
- "learning_rate": 4.972551974453287e-05,
450
- "loss": 0.13663809299468993,
451
- "step": 1240
452
- },
453
- {
454
- "epoch": 0.16845342045672937,
455
- "grad_norm": 2.4990086555480957,
456
- "learning_rate": 4.971658197801322e-05,
457
- "loss": 0.16817957162857056,
458
- "step": 1260
459
- },
460
- {
461
- "epoch": 0.17112728427350285,
462
- "grad_norm": 4.983982563018799,
463
- "learning_rate": 4.9707501844715554e-05,
464
- "loss": 0.13795313835144044,
465
- "step": 1280
466
- },
467
- {
468
- "epoch": 0.17380114809027633,
469
- "grad_norm": 3.6780316829681396,
470
- "learning_rate": 4.969827939694115e-05,
471
- "loss": 0.1637880802154541,
472
- "step": 1300
473
- },
474
- {
475
- "epoch": 0.1764750119070498,
476
- "grad_norm": 0.7950732707977295,
477
- "learning_rate": 4.968891468781105e-05,
478
- "loss": 0.10979138612747193,
479
- "step": 1320
480
- },
481
- {
482
- "epoch": 0.1791488757238233,
483
- "grad_norm": 1.2414121627807617,
484
- "learning_rate": 4.967940777126569e-05,
485
- "loss": 0.13692171573638917,
486
- "step": 1340
487
- },
488
- {
489
- "epoch": 0.18182273954059677,
490
- "grad_norm": 2.1383633613586426,
491
- "learning_rate": 4.9669758702064636e-05,
492
- "loss": 0.07821698188781738,
493
- "step": 1360
494
- },
495
- {
496
- "epoch": 0.18449660335737025,
497
- "grad_norm": 5.061275959014893,
498
- "learning_rate": 4.965996753578623e-05,
499
- "loss": 0.19053516387939454,
500
- "step": 1380
501
- },
502
- {
503
- "epoch": 0.18717046717414373,
504
- "grad_norm": 6.151792049407959,
505
- "learning_rate": 4.9650034328827305e-05,
506
- "loss": 0.11360721588134766,
507
- "step": 1400
508
- },
509
- {
510
- "epoch": 0.18984433099091721,
511
- "grad_norm": 1.0604305267333984,
512
- "learning_rate": 4.963995913840284e-05,
513
- "loss": 0.13138024806976317,
514
- "step": 1420
515
- },
516
- {
517
- "epoch": 0.1925181948076907,
518
- "grad_norm": 1.7159489393234253,
519
- "learning_rate": 4.9629742022545623e-05,
520
- "loss": 0.08657677173614502,
521
- "step": 1440
522
- },
523
- {
524
- "epoch": 0.19519205862446418,
525
- "grad_norm": 2.4207754135131836,
526
- "learning_rate": 4.961938304010595e-05,
527
- "loss": 0.10309149026870727,
528
- "step": 1460
529
- },
530
- {
531
- "epoch": 0.19786592244123766,
532
- "grad_norm": 1.532060146331787,
533
- "learning_rate": 4.9608882250751245e-05,
534
- "loss": 0.13628544807434081,
535
- "step": 1480
536
- },
537
- {
538
- "epoch": 0.20053978625801114,
539
- "grad_norm": 6.409943580627441,
540
- "learning_rate": 4.959823971496574e-05,
541
- "loss": 0.10584845542907714,
542
- "step": 1500
543
- },
544
- {
545
- "epoch": 0.20321365007478462,
546
- "grad_norm": 2.452012538909912,
547
- "learning_rate": 4.9587455494050136e-05,
548
- "loss": 0.06506187915802002,
549
- "step": 1520
550
- },
551
- {
552
- "epoch": 0.2058875138915581,
553
- "grad_norm": 5.3016533851623535,
554
- "learning_rate": 4.9576529650121214e-05,
555
- "loss": 0.11848526000976563,
556
- "step": 1540
557
- },
558
- {
559
- "epoch": 0.20856137770833158,
560
- "grad_norm": 4.341775894165039,
561
- "learning_rate": 4.956546224611152e-05,
562
- "loss": 0.11318533420562744,
563
- "step": 1560
564
- },
565
- {
566
- "epoch": 0.21123524152510506,
567
- "grad_norm": 1.9056169986724854,
568
- "learning_rate": 4.9554253345768965e-05,
569
- "loss": 0.12768398523330687,
570
- "step": 1580
571
- },
572
- {
573
- "epoch": 0.21390910534187857,
574
- "grad_norm": 1.8939746618270874,
575
- "learning_rate": 4.9542903013656486e-05,
576
- "loss": 0.10782338380813598,
577
- "step": 1600
578
- },
579
- {
580
- "epoch": 0.21658296915865205,
581
- "grad_norm": 8.53671932220459,
582
- "learning_rate": 4.9531411315151654e-05,
583
- "loss": 0.1733921766281128,
584
- "step": 1620
585
- },
586
- {
587
- "epoch": 0.21925683297542553,
588
- "grad_norm": 2.0152978897094727,
589
- "learning_rate": 4.951977831644632e-05,
590
- "loss": 0.11197054386138916,
591
- "step": 1640
592
- },
593
- {
594
- "epoch": 0.221930696792199,
595
- "grad_norm": 3.8422367572784424,
596
- "learning_rate": 4.95080040845462e-05,
597
- "loss": 0.11441781520843505,
598
- "step": 1660
599
- },
600
- {
601
- "epoch": 0.2246045606089725,
602
- "grad_norm": 1.819858193397522,
603
- "learning_rate": 4.949608868727053e-05,
604
- "loss": 0.11403474807739258,
605
- "step": 1680
606
- },
607
- {
608
- "epoch": 0.22727842442574597,
609
- "grad_norm": 7.45100212097168,
610
- "learning_rate": 4.948403219325163e-05,
611
- "loss": 0.13117753267288207,
612
- "step": 1700
613
- },
614
- {
615
- "epoch": 0.22995228824251945,
616
- "grad_norm": 0.6526040434837341,
617
- "learning_rate": 4.947183467193456e-05,
618
- "loss": 0.07524924874305725,
619
- "step": 1720
620
- },
621
- {
622
- "epoch": 0.23262615205929293,
623
- "grad_norm": 3.814746856689453,
624
- "learning_rate": 4.945949619357668e-05,
625
- "loss": 0.07659345269203185,
626
- "step": 1740
627
- },
628
- {
629
- "epoch": 0.23530001587606642,
630
- "grad_norm": 2.373124122619629,
631
- "learning_rate": 4.944701682924726e-05,
632
- "loss": 0.1147496223449707,
633
- "step": 1760
634
- },
635
- {
636
- "epoch": 0.2379738796928399,
637
- "grad_norm": 0.11161285638809204,
638
- "learning_rate": 4.943439665082707e-05,
639
- "loss": 0.07256829738616943,
640
- "step": 1780
641
- },
642
- {
643
- "epoch": 0.24064774350961338,
644
- "grad_norm": 0.45990192890167236,
645
- "learning_rate": 4.942163573100794e-05,
646
- "loss": 0.07726740837097168,
647
- "step": 1800
648
- },
649
- {
650
- "epoch": 0.24332160732638686,
651
- "grad_norm": 4.2301926612854,
652
- "learning_rate": 4.940873414329242e-05,
653
- "loss": 0.09349535703659058,
654
- "step": 1820
655
- },
656
- {
657
- "epoch": 0.24599547114316034,
658
- "grad_norm": 2.442178726196289,
659
- "learning_rate": 4.939569196199325e-05,
660
- "loss": 0.12413722276687622,
661
- "step": 1840
662
- },
663
- {
664
- "epoch": 0.24866933495993382,
665
- "grad_norm": 2.523683786392212,
666
- "learning_rate": 4.938250926223302e-05,
667
- "loss": 0.08566288352012634,
668
- "step": 1860
669
- },
670
- {
671
- "epoch": 0.2513431987767073,
672
- "grad_norm": 3.511075258255005,
673
- "learning_rate": 4.936918611994368e-05,
674
- "loss": 0.08007702231407166,
675
- "step": 1880
676
- },
677
- {
678
- "epoch": 0.2540170625934808,
679
- "grad_norm": 6.254627704620361,
680
- "learning_rate": 4.935572261186614e-05,
681
- "loss": 0.10983954668045044,
682
- "step": 1900
683
- },
684
- {
685
- "epoch": 0.25669092641025426,
686
- "grad_norm": 1.5211899280548096,
687
- "learning_rate": 4.934211881554981e-05,
688
- "loss": 0.09120344519615173,
689
- "step": 1920
690
- },
691
- {
692
- "epoch": 0.25936479022702774,
693
- "grad_norm": 2.5893588066101074,
694
- "learning_rate": 4.932837480935214e-05,
695
- "loss": 0.08754412531852722,
696
- "step": 1940
697
- },
698
- {
699
- "epoch": 0.2620386540438012,
700
- "grad_norm": 6.878556251525879,
701
- "learning_rate": 4.931449067243821e-05,
702
- "loss": 0.08636274933815002,
703
- "step": 1960
704
- },
705
- {
706
- "epoch": 0.2647125178605747,
707
- "grad_norm": 2.9078798294067383,
708
- "learning_rate": 4.9300466484780226e-05,
709
- "loss": 0.09582929015159607,
710
- "step": 1980
711
- },
712
- {
713
- "epoch": 0.2673863816773482,
714
- "grad_norm": 3.391852855682373,
715
- "learning_rate": 4.92863023271571e-05,
716
- "loss": 0.0850919783115387,
717
- "step": 2000
718
- },
719
- {
720
- "epoch": 0.27006024549412166,
721
- "grad_norm": 5.522103309631348,
722
- "learning_rate": 4.927199828115395e-05,
723
- "loss": 0.050999772548675534,
724
- "step": 2020
725
- },
726
- {
727
- "epoch": 0.27273410931089515,
728
- "grad_norm": 0.90350741147995,
729
- "learning_rate": 4.925755442916167e-05,
730
- "loss": 0.10100446939468384,
731
- "step": 2040
732
- },
733
- {
734
- "epoch": 0.2754079731276686,
735
- "grad_norm": 1.602030634880066,
736
- "learning_rate": 4.924297085437641e-05,
737
- "loss": 0.0468633770942688,
738
- "step": 2060
739
- },
740
- {
741
- "epoch": 0.2780818369444421,
742
- "grad_norm": 1.5823460817337036,
743
- "learning_rate": 4.922824764079913e-05,
744
- "loss": 0.06786358952522278,
745
- "step": 2080
746
- },
747
- {
748
- "epoch": 0.2807557007612156,
749
- "grad_norm": 1.6624343395233154,
750
- "learning_rate": 4.92133848732351e-05,
751
- "loss": 0.05772828459739685,
752
- "step": 2100
753
- },
754
- {
755
- "epoch": 0.28342956457798907,
756
- "grad_norm": 0.947078287601471,
757
- "learning_rate": 4.9198382637293424e-05,
758
- "loss": 0.08012173175811768,
759
- "step": 2120
760
- },
761
- {
762
- "epoch": 0.28610342839476255,
763
- "grad_norm": 0.2919924259185791,
764
- "learning_rate": 4.918324101938653e-05,
765
- "loss": 0.1208539366722107,
766
- "step": 2140
767
- },
768
- {
769
- "epoch": 0.28877729221153603,
770
- "grad_norm": 9.258247375488281,
771
- "learning_rate": 4.916796010672969e-05,
772
- "loss": 0.10037034749984741,
773
- "step": 2160
774
- },
775
- {
776
- "epoch": 0.2914511560283095,
777
- "grad_norm": 4.0920491218566895,
778
- "learning_rate": 4.915253998734051e-05,
779
- "loss": 0.061488878726959226,
780
- "step": 2180
781
- },
782
- {
783
- "epoch": 0.294125019845083,
784
- "grad_norm": 6.1126627922058105,
785
- "learning_rate": 4.913698075003841e-05,
786
- "loss": 0.0862967312335968,
787
- "step": 2200
788
- },
789
- {
790
- "epoch": 0.29679888366185647,
791
- "grad_norm": 2.585484743118286,
792
- "learning_rate": 4.912128248444414e-05,
793
- "loss": 0.05393874645233154,
794
- "step": 2220
795
- },
796
- {
797
- "epoch": 0.29947274747862995,
798
- "grad_norm": 6.944481372833252,
799
- "learning_rate": 4.9105445280979256e-05,
800
- "loss": 0.08570566773414612,
801
- "step": 2240
802
- },
803
- {
804
- "epoch": 0.30214661129540343,
805
- "grad_norm": 1.3824089765548706,
806
- "learning_rate": 4.908946923086556e-05,
807
- "loss": 0.09689127206802368,
808
- "step": 2260
809
- },
810
- {
811
- "epoch": 0.30482047511217697,
812
- "grad_norm": 3.4861342906951904,
813
- "learning_rate": 4.907335442612464e-05,
814
- "loss": 0.12550976276397705,
815
- "step": 2280
816
- },
817
- {
818
- "epoch": 0.30749433892895045,
819
- "grad_norm": 3.668980121612549,
820
- "learning_rate": 4.905710095957728e-05,
821
- "loss": 0.09089353680610657,
822
- "step": 2300
823
- },
824
- {
825
- "epoch": 0.31016820274572393,
826
- "grad_norm": 1.093095064163208,
827
- "learning_rate": 4.904070892484298e-05,
828
- "loss": 0.03925192356109619,
829
- "step": 2320
830
- },
831
- {
832
- "epoch": 0.3128420665624974,
833
- "grad_norm": 0.8169485926628113,
834
- "learning_rate": 4.9024178416339364e-05,
835
- "loss": 0.0979581356048584,
836
- "step": 2340
837
- },
838
- {
839
- "epoch": 0.3155159303792709,
840
- "grad_norm": 1.892451286315918,
841
- "learning_rate": 4.900750952928166e-05,
842
- "loss": 0.05913209915161133,
843
- "step": 2360
844
- },
845
- {
846
- "epoch": 0.3181897941960444,
847
- "grad_norm": 0.24644255638122559,
848
- "learning_rate": 4.8990702359682184e-05,
849
- "loss": 0.06815173625946044,
850
- "step": 2380
851
- },
852
- {
853
- "epoch": 0.32086365801281785,
854
- "grad_norm": 2.1861305236816406,
855
- "learning_rate": 4.897375700434972e-05,
856
- "loss": 0.04142785966396332,
857
- "step": 2400
858
- },
859
- {
860
- "epoch": 0.32353752182959133,
861
- "grad_norm": 2.6643004417419434,
862
- "learning_rate": 4.8956673560889013e-05,
863
- "loss": 0.05177200436592102,
864
- "step": 2420
865
- },
866
- {
867
- "epoch": 0.3262113856463648,
868
- "grad_norm": 2.588113784790039,
869
- "learning_rate": 4.8939452127700195e-05,
870
- "loss": 0.05783546566963196,
871
- "step": 2440
872
- },
873
- {
874
- "epoch": 0.3288852494631383,
875
- "grad_norm": 2.419644594192505,
876
- "learning_rate": 4.8922092803978203e-05,
877
- "loss": 0.08906854391098022,
878
- "step": 2460
879
- },
880
- {
881
- "epoch": 0.3315591132799118,
882
- "grad_norm": 0.16949939727783203,
883
- "learning_rate": 4.890459568971223e-05,
884
- "loss": 0.10305211544036866,
885
- "step": 2480
886
- },
887
- {
888
- "epoch": 0.33423297709668526,
889
- "grad_norm": 0.10032984614372253,
890
- "learning_rate": 4.8886960885685126e-05,
891
- "loss": 0.06348527669906616,
892
- "step": 2500
893
- },
894
- {
895
- "epoch": 0.33690684091345874,
896
- "grad_norm": 3.3658738136291504,
897
- "learning_rate": 4.8869188493472854e-05,
898
- "loss": 0.06826075911521912,
899
- "step": 2520
900
- },
901
- {
902
- "epoch": 0.3395807047302322,
903
- "grad_norm": 0.8656186461448669,
904
- "learning_rate": 4.885127861544386e-05,
905
- "loss": 0.05929765701293945,
906
- "step": 2540
907
- },
908
- {
909
- "epoch": 0.3422545685470057,
910
- "grad_norm": 0.1492065042257309,
911
- "learning_rate": 4.8833231354758496e-05,
912
- "loss": 0.09429731965065002,
913
- "step": 2560
914
- },
915
- {
916
- "epoch": 0.3449284323637792,
917
- "grad_norm": 0.6010928153991699,
918
- "learning_rate": 4.881504681536846e-05,
919
- "loss": 0.06262240409851075,
920
- "step": 2580
921
- },
922
- {
923
- "epoch": 0.34760229618055266,
924
- "grad_norm": 1.6506450176239014,
925
- "learning_rate": 4.879672510201616e-05,
926
- "loss": 0.061688083410263064,
927
- "step": 2600
928
- },
929
- {
930
- "epoch": 0.35027615999732614,
931
- "grad_norm": 0.2703142464160919,
932
- "learning_rate": 4.877826632023412e-05,
933
- "loss": 0.06175137162208557,
934
- "step": 2620
935
- },
936
- {
937
- "epoch": 0.3529500238140996,
938
- "grad_norm": 3.1056365966796875,
939
- "learning_rate": 4.875967057634437e-05,
940
- "loss": 0.07828506827354431,
941
- "step": 2640
942
- },
943
- {
944
- "epoch": 0.3556238876308731,
945
- "grad_norm": 0.28790283203125,
946
- "learning_rate": 4.874093797745784e-05,
947
- "loss": 0.11355981826782227,
948
- "step": 2660
949
- },
950
- {
951
- "epoch": 0.3582977514476466,
952
- "grad_norm": 2.3372068405151367,
953
- "learning_rate": 4.8722068631473746e-05,
954
- "loss": 0.048267871141433716,
955
- "step": 2680
956
- },
957
- {
958
- "epoch": 0.36097161526442006,
959
- "grad_norm": 0.12767371535301208,
960
- "learning_rate": 4.8703062647078976e-05,
961
- "loss": 0.04319801032543182,
962
- "step": 2700
963
- },
964
- {
965
- "epoch": 0.36364547908119355,
966
- "grad_norm": 0.5145738124847412,
967
- "learning_rate": 4.868392013374741e-05,
968
- "loss": 0.0773090660572052,
969
- "step": 2720
970
- },
971
- {
972
- "epoch": 0.366319342897967,
973
- "grad_norm": 0.8518500328063965,
974
- "learning_rate": 4.866464120173937e-05,
975
- "loss": 0.05149460434913635,
976
- "step": 2740
977
- },
978
- {
979
- "epoch": 0.3689932067147405,
980
- "grad_norm": 3.6726584434509277,
981
- "learning_rate": 4.8645225962100924e-05,
982
- "loss": 0.06896821856498718,
983
- "step": 2760
984
- },
985
- {
986
- "epoch": 0.371667070531514,
987
- "grad_norm": 1.5626497268676758,
988
- "learning_rate": 4.862567452666329e-05,
989
- "loss": 0.047730174660682675,
990
- "step": 2780
991
- },
992
- {
993
- "epoch": 0.37434093434828747,
994
- "grad_norm": 6.562028884887695,
995
- "learning_rate": 4.8605987008042144e-05,
996
- "loss": 0.07060698866844177,
997
- "step": 2800
998
- },
999
- {
1000
- "epoch": 0.37701479816506095,
1001
- "grad_norm": 0.7631726861000061,
1002
- "learning_rate": 4.8586163519637005e-05,
1003
- "loss": 0.04944324493408203,
1004
- "step": 2820
1005
- },
1006
- {
1007
- "epoch": 0.37968866198183443,
1008
- "grad_norm": 1.6982293128967285,
1009
- "learning_rate": 4.8566204175630595e-05,
1010
- "loss": 0.03000348210334778,
1011
- "step": 2840
1012
- },
1013
- {
1014
- "epoch": 0.3823625257986079,
1015
- "grad_norm": 0.6487429141998291,
1016
- "learning_rate": 4.854610909098812e-05,
1017
- "loss": 0.06691416501998901,
1018
- "step": 2860
1019
- },
1020
- {
1021
- "epoch": 0.3850363896153814,
1022
- "grad_norm": 0.7648892402648926,
1023
- "learning_rate": 4.852587838145668e-05,
1024
- "loss": 0.05529783964157105,
1025
- "step": 2880
1026
- },
1027
- {
1028
- "epoch": 0.38771025343215487,
1029
- "grad_norm": 0.11601298302412033,
1030
- "learning_rate": 4.850551216356457e-05,
1031
- "loss": 0.07780832052230835,
1032
- "step": 2900
1033
- },
1034
- {
1035
- "epoch": 0.39038411724892835,
1036
- "grad_norm": 0.9443137645721436,
1037
- "learning_rate": 4.8485010554620594e-05,
1038
- "loss": 0.08007023930549621,
1039
- "step": 2920
1040
- },
1041
- {
1042
- "epoch": 0.39305798106570183,
1043
- "grad_norm": 0.8828252553939819,
1044
- "learning_rate": 4.846437367271341e-05,
1045
- "loss": 0.03541453182697296,
1046
- "step": 2940
1047
- },
1048
- {
1049
- "epoch": 0.3957318448824753,
1050
- "grad_norm": 0.21668888628482819,
1051
- "learning_rate": 4.844360163671083e-05,
1052
- "loss": 0.08354364633560181,
1053
- "step": 2960
1054
- },
1055
- {
1056
- "epoch": 0.3984057086992488,
1057
- "grad_norm": 0.6840483546257019,
1058
- "learning_rate": 4.8422694566259194e-05,
1059
- "loss": 0.045807772874832155,
1060
- "step": 2980
1061
- },
1062
- {
1063
- "epoch": 0.4010795725160223,
1064
- "grad_norm": 1.2754698991775513,
1065
- "learning_rate": 4.8401652581782584e-05,
1066
- "loss": 0.053487342596054074,
1067
- "step": 3000
1068
- },
1069
- {
1070
- "epoch": 0.40375343633279576,
1071
- "grad_norm": 0.19012756645679474,
1072
- "learning_rate": 4.838047580448222e-05,
1073
- "loss": 0.05881953239440918,
1074
- "step": 3020
1075
- },
1076
- {
1077
- "epoch": 0.40642730014956924,
1078
- "grad_norm": 2.1057698726654053,
1079
- "learning_rate": 4.835916435633569e-05,
1080
- "loss": 0.031065690517425536,
1081
- "step": 3040
1082
- },
1083
- {
1084
- "epoch": 0.4091011639663427,
1085
- "grad_norm": 4.188559055328369,
1086
- "learning_rate": 4.833771836009633e-05,
1087
- "loss": 0.07205432653427124,
1088
- "step": 3060
1089
- },
1090
- {
1091
- "epoch": 0.4117750277831162,
1092
- "grad_norm": 6.975829124450684,
1093
- "learning_rate": 4.831613793929242e-05,
1094
- "loss": 0.04953635036945343,
1095
- "step": 3080
1096
- },
1097
- {
1098
- "epoch": 0.4144488915998897,
1099
- "grad_norm": 4.725269317626953,
1100
- "learning_rate": 4.8294423218226546e-05,
1101
- "loss": 0.05965519547462463,
1102
- "step": 3100
1103
- },
1104
- {
1105
- "epoch": 0.41712275541666316,
1106
- "grad_norm": 1.7124755382537842,
1107
- "learning_rate": 4.827257432197486e-05,
1108
- "loss": 0.039625433087348935,
1109
- "step": 3120
1110
- },
1111
- {
1112
- "epoch": 0.41979661923343664,
1113
- "grad_norm": 2.6687324047088623,
1114
- "learning_rate": 4.825059137638636e-05,
1115
- "loss": 0.05020809769630432,
1116
- "step": 3140
1117
- },
1118
- {
1119
- "epoch": 0.4224704830502101,
1120
- "grad_norm": 1.111640214920044,
1121
- "learning_rate": 4.822847450808215e-05,
1122
- "loss": 0.04404452443122864,
1123
- "step": 3160
1124
- },
1125
- {
1126
- "epoch": 0.42514434686698366,
1127
- "grad_norm": 0.2128070890903473,
1128
- "learning_rate": 4.8206223844454744e-05,
1129
- "loss": 0.08283355236053466,
1130
- "step": 3180
1131
- },
1132
- {
1133
- "epoch": 0.42781821068375714,
1134
- "grad_norm": 0.10757248103618622,
1135
- "learning_rate": 4.818383951366729e-05,
1136
- "loss": 0.08568671345710754,
1137
- "step": 3200
1138
- },
1139
- {
1140
- "epoch": 0.4304920745005306,
1141
- "grad_norm": 0.08344592899084091,
1142
- "learning_rate": 4.816132164465289e-05,
1143
- "loss": 0.0426956832408905,
1144
- "step": 3220
1145
- },
1146
- {
1147
- "epoch": 0.4331659383173041,
1148
- "grad_norm": 0.5657751560211182,
1149
- "learning_rate": 4.813867036711378e-05,
1150
- "loss": 0.04971776902675629,
1151
- "step": 3240
1152
- },
1153
- {
1154
- "epoch": 0.4358398021340776,
1155
- "grad_norm": 2.1529288291931152,
1156
- "learning_rate": 4.8115885811520654e-05,
1157
- "loss": 0.025386181473731995,
1158
- "step": 3260
1159
- },
1160
- {
1161
- "epoch": 0.43851366595085106,
1162
- "grad_norm": 4.228519916534424,
1163
- "learning_rate": 4.809296810911188e-05,
1164
- "loss": 0.06401395201683044,
1165
- "step": 3280
1166
- },
1167
- {
1168
- "epoch": 0.44118752976762454,
1169
- "grad_norm": 6.770420551300049,
1170
- "learning_rate": 4.806991739189274e-05,
1171
- "loss": 0.16425553560256959,
1172
- "step": 3300
1173
- },
1174
- {
1175
- "epoch": 0.443861393584398,
1176
- "grad_norm": 0.5303187370300293,
1177
- "learning_rate": 4.804673379263467e-05,
1178
- "loss": 0.045900467038154605,
1179
- "step": 3320
1180
- },
1181
- {
1182
- "epoch": 0.4465352574011715,
1183
- "grad_norm": 0.221473827958107,
1184
- "learning_rate": 4.802341744487453e-05,
1185
- "loss": 0.07529735565185547,
1186
- "step": 3340
1187
- },
1188
- {
1189
- "epoch": 0.449209121217945,
1190
- "grad_norm": 3.48736834526062,
1191
- "learning_rate": 4.799996848291378e-05,
1192
- "loss": 0.062433135509490964,
1193
- "step": 3360
1194
- },
1195
- {
1196
- "epoch": 0.45188298503471847,
1197
- "grad_norm": 2.650038242340088,
1198
- "learning_rate": 4.797638704181774e-05,
1199
- "loss": 0.03762982189655304,
1200
- "step": 3380
1201
- },
1202
- {
1203
- "epoch": 0.45455684885149195,
1204
- "grad_norm": 3.159665584564209,
1205
- "learning_rate": 4.795267325741483e-05,
1206
- "loss": 0.04745924174785614,
1207
- "step": 3400
1208
- },
1209
- {
1210
- "epoch": 0.4572307126682654,
1211
- "grad_norm": 0.8763885498046875,
1212
- "learning_rate": 4.7928827266295715e-05,
1213
- "loss": 0.07380253076553345,
1214
- "step": 3420
1215
- },
1216
- {
1217
- "epoch": 0.4599045764850389,
1218
- "grad_norm": 0.1779366433620453,
1219
- "learning_rate": 4.790484920581262e-05,
1220
- "loss": 0.045916372537612916,
1221
- "step": 3440
1222
- },
1223
- {
1224
- "epoch": 0.4625784403018124,
1225
- "grad_norm": 1.1228729486465454,
1226
- "learning_rate": 4.7880739214078454e-05,
1227
- "loss": 0.04461723566055298,
1228
- "step": 3460
1229
- },
1230
- {
1231
- "epoch": 0.46525230411858587,
1232
- "grad_norm": 0.1629919707775116,
1233
- "learning_rate": 4.785649742996605e-05,
1234
- "loss": 0.017159442603588104,
1235
- "step": 3480
1236
- },
1237
- {
1238
- "epoch": 0.46792616793535935,
1239
- "grad_norm": 3.583951473236084,
1240
- "learning_rate": 4.783212399310737e-05,
1241
- "loss": 0.047145146131515506,
1242
- "step": 3500
1243
- },
1244
- {
1245
- "epoch": 0.47060003175213283,
1246
- "grad_norm": 0.9766237139701843,
1247
- "learning_rate": 4.780761904389267e-05,
1248
- "loss": 0.050229442119598386,
1249
- "step": 3520
1250
- },
1251
- {
1252
- "epoch": 0.4732738955689063,
1253
- "grad_norm": 0.05617872253060341,
1254
- "learning_rate": 4.778298272346976e-05,
1255
- "loss": 0.024862812459468843,
1256
- "step": 3540
1257
- },
1258
- {
1259
- "epoch": 0.4759477593856798,
1260
- "grad_norm": 1.3586453199386597,
1261
- "learning_rate": 4.775821517374308e-05,
1262
- "loss": 0.02117772251367569,
1263
- "step": 3560
1264
- },
1265
- {
1266
- "epoch": 0.4786216232024533,
1267
- "grad_norm": 1.2116742134094238,
1268
- "learning_rate": 4.7733316537373006e-05,
1269
- "loss": 0.03060794174671173,
1270
- "step": 3580
1271
- },
1272
- {
1273
- "epoch": 0.48129548701922675,
1274
- "grad_norm": 0.39403238892555237,
1275
- "learning_rate": 4.770828695777493e-05,
1276
- "loss": 0.05482668280601501,
1277
- "step": 3600
1278
- },
1279
- {
1280
- "epoch": 0.48396935083600023,
1281
- "grad_norm": 0.9248486161231995,
1282
- "learning_rate": 4.7683126579118495e-05,
1283
- "loss": 0.03612814247608185,
1284
- "step": 3620
1285
- },
1286
- {
1287
- "epoch": 0.4866432146527737,
1288
- "grad_norm": 0.1624649167060852,
1289
- "learning_rate": 4.7657835546326736e-05,
1290
- "loss": 0.04334873259067536,
1291
- "step": 3640
1292
- },
1293
- {
1294
- "epoch": 0.4893170784695472,
1295
- "grad_norm": 0.5321119427680969,
1296
- "learning_rate": 4.763241400507524e-05,
1297
- "loss": 0.0461233913898468,
1298
- "step": 3660
1299
- },
1300
- {
1301
- "epoch": 0.4919909422863207,
1302
- "grad_norm": 0.34861093759536743,
1303
- "learning_rate": 4.760686210179133e-05,
1304
- "loss": 0.024829554557800292,
1305
- "step": 3680
1306
- },
1307
- {
1308
- "epoch": 0.49466480610309416,
1309
- "grad_norm": 1.2561241388320923,
1310
- "learning_rate": 4.758117998365322e-05,
1311
- "loss": 0.03157005608081818,
1312
- "step": 3700
1313
- },
1314
- {
1315
- "epoch": 0.49733866991986764,
1316
- "grad_norm": 0.8691341280937195,
1317
- "learning_rate": 4.7555367798589146e-05,
1318
- "loss": 0.04310203492641449,
1319
- "step": 3720
1320
- },
1321
- {
1322
- "epoch": 0.5000125337366411,
1323
- "grad_norm": 0.3134572505950928,
1324
- "learning_rate": 4.752942569527653e-05,
1325
- "loss": 0.03796039223670959,
1326
- "step": 3740
1327
- },
1328
- {
1329
- "epoch": 0.5026863975534146,
1330
- "grad_norm": 2.3359289169311523,
1331
- "learning_rate": 4.75033538231411e-05,
1332
- "loss": 0.055599170923233035,
1333
- "step": 3760
1334
- },
1335
- {
1336
- "epoch": 0.5053602613701881,
1337
- "grad_norm": 7.426175594329834,
1338
- "learning_rate": 4.747715233235608e-05,
1339
- "loss": 0.054436272382736205,
1340
- "step": 3780
1341
- },
1342
- {
1343
- "epoch": 0.5080341251869616,
1344
- "grad_norm": 0.5940203070640564,
1345
- "learning_rate": 4.745082137384128e-05,
1346
- "loss": 0.03682814538478851,
1347
- "step": 3800
1348
- },
1349
- {
1350
- "epoch": 0.510707989003735,
1351
- "grad_norm": 0.22821389138698578,
1352
- "learning_rate": 4.7424361099262225e-05,
1353
- "loss": 0.051123309135437014,
1354
- "step": 3820
1355
- },
1356
- {
1357
- "epoch": 0.5133818528205085,
1358
- "grad_norm": 8.20633602142334,
1359
- "learning_rate": 4.739777166102932e-05,
1360
- "loss": 0.0704378604888916,
1361
- "step": 3840
1362
- },
1363
- {
1364
- "epoch": 0.516055716637282,
1365
- "grad_norm": 3.023848533630371,
1366
- "learning_rate": 4.737105321229694e-05,
1367
- "loss": 0.03368058800697327,
1368
- "step": 3860
1369
- },
1370
- {
1371
- "epoch": 0.5187295804540555,
1372
- "grad_norm": 0.07666649669408798,
1373
- "learning_rate": 4.7344205906962555e-05,
1374
- "loss": 0.03665303289890289,
1375
- "step": 3880
1376
- },
1377
- {
1378
- "epoch": 0.521403444270829,
1379
- "grad_norm": 0.7571629881858826,
1380
- "learning_rate": 4.731722989966585e-05,
1381
- "loss": 0.058415502309799194,
1382
- "step": 3900
1383
- },
1384
- {
1385
- "epoch": 0.5240773080876024,
1386
- "grad_norm": 3.2599120140075684,
1387
- "learning_rate": 4.7290125345787816e-05,
1388
- "loss": 0.07323018908500671,
1389
- "step": 3920
1390
- },
1391
- {
1392
- "epoch": 0.5267511719043759,
1393
- "grad_norm": 0.28930988907814026,
1394
- "learning_rate": 4.7262892401449886e-05,
1395
- "loss": 0.054371267557144165,
1396
- "step": 3940
1397
- },
1398
- {
1399
- "epoch": 0.5294250357211494,
1400
- "grad_norm": 2.2296454906463623,
1401
- "learning_rate": 4.7235531223513004e-05,
1402
- "loss": 0.040819621086120604,
1403
- "step": 3960
1404
- },
1405
- {
1406
- "epoch": 0.5320988995379229,
1407
- "grad_norm": 0.11608211696147919,
1408
- "learning_rate": 4.720804196957675e-05,
1409
- "loss": 0.05215579271316528,
1410
- "step": 3980
1411
- },
1412
- {
1413
- "epoch": 0.5347727633546964,
1414
- "grad_norm": 1.1587547063827515,
1415
- "learning_rate": 4.7180424797978415e-05,
1416
- "loss": 0.026277875900268553,
1417
- "step": 4000
1418
- },
1419
- {
1420
- "epoch": 0.5374466271714698,
1421
- "grad_norm": 0.06253435462713242,
1422
- "learning_rate": 4.7152679867792074e-05,
1423
- "loss": 0.02574407756328583,
1424
- "step": 4020
1425
- },
1426
- {
1427
- "epoch": 0.5401204909882433,
1428
- "grad_norm": 1.3441458940505981,
1429
- "learning_rate": 4.71248073388277e-05,
1430
- "loss": 0.05538107752799988,
1431
- "step": 4040
1432
- },
1433
- {
1434
- "epoch": 0.5427943548050168,
1435
- "grad_norm": 0.48076340556144714,
1436
- "learning_rate": 4.7096807371630236e-05,
1437
- "loss": 0.047986540198326114,
1438
- "step": 4060
1439
- },
1440
- {
1441
- "epoch": 0.5454682186217903,
1442
- "grad_norm": 0.5924936532974243,
1443
- "learning_rate": 4.706868012747867e-05,
1444
- "loss": 0.05463914275169372,
1445
- "step": 4080
1446
- },
1447
- {
1448
- "epoch": 0.7673995566395854,
1449
- "grad_norm": 0.05143728107213974,
1450
- "learning_rate": 4.431151627307268e-05,
1451
- "loss": 0.00959376593430837,
1452
- "step": 4100
1453
- },
1454
- {
1455
- "epoch": 0.771142969110998,
1456
- "grad_norm": 1.2308074235916138,
1457
- "learning_rate": 4.425806509248848e-05,
1458
- "loss": 0.002745623141527176,
1459
- "step": 4120
1460
- },
1461
- {
1462
- "epoch": 0.7748863815824106,
1463
- "grad_norm": 2.080223798751831,
1464
- "learning_rate": 4.420439652052499e-05,
1465
- "loss": 0.012390998750925064,
1466
- "step": 4140
1467
- },
1468
- {
1469
- "epoch": 0.7786297940538233,
1470
- "grad_norm": 0.049312230199575424,
1471
- "learning_rate": 4.415051116301072e-05,
1472
- "loss": 0.004607534408569336,
1473
- "step": 4160
1474
- },
1475
- {
1476
- "epoch": 0.7823732065252359,
1477
- "grad_norm": 0.07747476547956467,
1478
- "learning_rate": 4.409640962822132e-05,
1479
- "loss": 0.034441503882408145,
1480
- "step": 4180
1481
- },
1482
- {
1483
- "epoch": 0.7861166189966485,
1484
- "grad_norm": 0.021327875554561615,
1485
- "learning_rate": 4.404209252687275e-05,
1486
- "loss": 0.009768449515104295,
1487
- "step": 4200
1488
- },
1489
- {
1490
- "epoch": 0.789860031468061,
1491
- "grad_norm": 2.406580924987793,
1492
- "learning_rate": 4.398756047211431e-05,
1493
- "loss": 0.005304037779569626,
1494
- "step": 4220
1495
- },
1496
- {
1497
- "epoch": 0.7936034439394737,
1498
- "grad_norm": 0.027869906276464462,
1499
- "learning_rate": 4.39328140795218e-05,
1500
- "loss": 0.00896073654294014,
1501
- "step": 4240
1502
- },
1503
- {
1504
- "epoch": 0.7973468564108863,
1505
- "grad_norm": 0.09702044725418091,
1506
- "learning_rate": 4.387785396709052e-05,
1507
- "loss": 0.0117533378303051,
1508
- "step": 4260
1509
- },
1510
- {
1511
- "epoch": 0.801090268882299,
1512
- "grad_norm": 0.529065728187561,
1513
- "learning_rate": 4.382268075522831e-05,
1514
- "loss": 0.0037526611238718035,
1515
- "step": 4280
1516
- },
1517
- {
1518
- "epoch": 0.8048336813537116,
1519
- "grad_norm": 0.015109462663531303,
1520
- "learning_rate": 4.3767295066748564e-05,
1521
- "loss": 0.0025708725675940513,
1522
- "step": 4300
1523
- },
1524
- {
1525
- "epoch": 0.8085770938251241,
1526
- "grad_norm": 0.7257627248764038,
1527
- "learning_rate": 4.371169752686316e-05,
1528
- "loss": 0.006234285607933998,
1529
- "step": 4320
1530
- },
1531
- {
1532
- "epoch": 0.8123205062965367,
1533
- "grad_norm": 0.016853008419275284,
1534
- "learning_rate": 4.3655888763175436e-05,
1535
- "loss": 0.0023587727919220924,
1536
- "step": 4340
1537
- },
1538
- {
1539
- "epoch": 0.8160639187679494,
1540
- "grad_norm": 0.017816167324781418,
1541
- "learning_rate": 4.3599869405673085e-05,
1542
- "loss": 0.0012389549054205417,
1543
- "step": 4360
1544
- },
1545
- {
1546
- "epoch": 0.819807331239362,
1547
- "grad_norm": 0.014672616496682167,
1548
- "learning_rate": 4.354364008672106e-05,
1549
- "loss": 0.002244691364467144,
1550
- "step": 4380
1551
- },
1552
- {
1553
- "epoch": 0.8235507437107746,
1554
- "grad_norm": 0.044869400560855865,
1555
- "learning_rate": 4.3487201441054435e-05,
1556
- "loss": 0.007713723182678223,
1557
- "step": 4400
1558
- },
1559
- {
1560
- "epoch": 0.8272941561821872,
1561
- "grad_norm": 0.06367291510105133,
1562
- "learning_rate": 4.343055410577122e-05,
1563
- "loss": 0.005743256583809852,
1564
- "step": 4420
1565
- },
1566
- {
1567
- "epoch": 0.8310375686535998,
1568
- "grad_norm": 0.1354215145111084,
1569
- "learning_rate": 4.3373698720325176e-05,
1570
- "loss": 0.009635470807552338,
1571
- "step": 4440
1572
- },
1573
- {
1574
- "epoch": 0.8347809811250124,
1575
- "grad_norm": 0.9089844822883606,
1576
- "learning_rate": 4.331663592651862e-05,
1577
- "loss": 0.01007603257894516,
1578
- "step": 4460
1579
- },
1580
- {
1581
- "epoch": 0.838524393596425,
1582
- "grad_norm": 0.025831619277596474,
1583
- "learning_rate": 4.3259366368495167e-05,
1584
- "loss": 0.006179215386509895,
1585
- "step": 4480
1586
- },
1587
- {
1588
- "epoch": 0.8422678060678377,
1589
- "grad_norm": 0.016653764992952347,
1590
- "learning_rate": 4.320189069273243e-05,
1591
- "loss": 0.0025156451389193534,
1592
- "step": 4500
1593
- },
1594
- {
1595
- "epoch": 0.8460112185392502,
1596
- "grad_norm": 0.27361780405044556,
1597
- "learning_rate": 4.3144209548034766e-05,
1598
- "loss": 0.002235286869108677,
1599
- "step": 4520
1600
- },
1601
- {
1602
- "epoch": 0.8497546310106628,
1603
- "grad_norm": 2.6958701610565186,
1604
- "learning_rate": 4.3086323585525915e-05,
1605
- "loss": 0.03571180701255798,
1606
- "step": 4540
1607
- },
1608
- {
1609
- "epoch": 0.8534980434820755,
1610
- "grad_norm": 0.1260778158903122,
1611
- "learning_rate": 4.3028233458641696e-05,
1612
- "loss": 0.0036518506705760954,
1613
- "step": 4560
1614
- },
1615
- {
1616
- "epoch": 0.8572414559534881,
1617
- "grad_norm": 0.2445528209209442,
1618
- "learning_rate": 4.2969939823122586e-05,
1619
- "loss": 0.024949796497821808,
1620
- "step": 4580
1621
- },
1622
- {
1623
- "epoch": 0.8609848684249007,
1624
- "grad_norm": 0.1674242913722992,
1625
- "learning_rate": 4.291144333700633e-05,
1626
- "loss": 0.002089798077940941,
1627
- "step": 4600
1628
- },
1629
- {
1630
- "epoch": 0.8647282808963134,
1631
- "grad_norm": 0.05161884427070618,
1632
- "learning_rate": 4.2852744660620515e-05,
1633
- "loss": 0.007847145944833756,
1634
- "step": 4620
1635
- },
1636
- {
1637
- "epoch": 0.8684716933677259,
1638
- "grad_norm": 0.019796324893832207,
1639
- "learning_rate": 4.279384445657514e-05,
1640
- "loss": 0.0023555334657430647,
1641
- "step": 4640
1642
- },
1643
- {
1644
- "epoch": 0.8722151058391385,
1645
- "grad_norm": 0.0647754967212677,
1646
- "learning_rate": 4.2734743389755096e-05,
1647
- "loss": 0.009586349129676819,
1648
- "step": 4660
1649
- },
1650
- {
1651
- "epoch": 0.8759585183105512,
1652
- "grad_norm": 0.015243460424244404,
1653
- "learning_rate": 4.267544212731268e-05,
1654
- "loss": 0.017788709700107576,
1655
- "step": 4680
1656
- },
1657
- {
1658
- "epoch": 0.8797019307819638,
1659
- "grad_norm": 0.05756703019142151,
1660
- "learning_rate": 4.261594133866007e-05,
1661
- "loss": 0.014256520569324494,
1662
- "step": 4700
1663
- },
1664
- {
1665
- "epoch": 0.8834453432533764,
1666
- "grad_norm": 0.2002931535243988,
1667
- "learning_rate": 4.255624169546175e-05,
1668
- "loss": 0.0014025470241904258,
1669
- "step": 4720
1670
- },
1671
- {
1672
- "epoch": 0.887188755724789,
1673
- "grad_norm": 0.04325389489531517,
1674
- "learning_rate": 4.249634387162696e-05,
1675
- "loss": 0.010552891343832017,
1676
- "step": 4740
1677
- },
1678
- {
1679
- "epoch": 0.8909321681962016,
1680
- "grad_norm": 0.8975178599357605,
1681
- "learning_rate": 4.243624854330206e-05,
1682
- "loss": 0.0032475266605615618,
1683
- "step": 4760
1684
- },
1685
- {
1686
- "epoch": 0.8946755806676142,
1687
- "grad_norm": 0.01541830413043499,
1688
- "learning_rate": 4.237595638886288e-05,
1689
- "loss": 0.003157203644514084,
1690
- "step": 4780
1691
- },
1692
- {
1693
- "epoch": 0.8984189931390268,
1694
- "grad_norm": 1.673305869102478,
1695
- "learning_rate": 4.231546808890713e-05,
1696
- "loss": 0.0028239911422133445,
1697
- "step": 4800
1698
- },
1699
- {
1700
- "epoch": 0.9021624056104395,
1701
- "grad_norm": 0.021689629182219505,
1702
- "learning_rate": 4.225478432624665e-05,
1703
- "loss": 0.0026885712519288062,
1704
- "step": 4820
1705
- },
1706
- {
1707
- "epoch": 0.905905818081852,
1708
- "grad_norm": 0.019590798765420914,
1709
- "learning_rate": 4.219390578589973e-05,
1710
- "loss": 0.00780024379491806,
1711
- "step": 4840
1712
- },
1713
- {
1714
- "epoch": 0.9096492305532646,
1715
- "grad_norm": 0.024581020697951317,
1716
- "learning_rate": 4.213283315508337e-05,
1717
- "loss": 0.006697511672973633,
1718
- "step": 4860
1719
- },
1720
- {
1721
- "epoch": 0.9133926430246773,
1722
- "grad_norm": 0.20615583658218384,
1723
- "learning_rate": 4.207156712320555e-05,
1724
- "loss": 0.007314208894968033,
1725
- "step": 4880
1726
- },
1727
- {
1728
- "epoch": 0.9171360554960899,
1729
- "grad_norm": 0.015673745423555374,
1730
- "learning_rate": 4.20101083818574e-05,
1731
- "loss": 0.004841562733054161,
1732
- "step": 4900
1733
- },
1734
- {
1735
- "epoch": 0.9208794679675025,
1736
- "grad_norm": 0.008306623436510563,
1737
- "learning_rate": 4.194845762480544e-05,
1738
- "loss": 0.0010150263085961341,
1739
- "step": 4920
1740
- },
1741
- {
1742
- "epoch": 0.9246228804389152,
1743
- "grad_norm": 0.051861703395843506,
1744
- "learning_rate": 4.188661554798369e-05,
1745
- "loss": 0.011043114960193634,
1746
- "step": 4940
1747
- },
1748
- {
1749
- "epoch": 0.9283662929103277,
1750
- "grad_norm": 1.7019767761230469,
1751
- "learning_rate": 4.1824582849485884e-05,
1752
- "loss": 0.004985674470663071,
1753
- "step": 4960
1754
- },
1755
- {
1756
- "epoch": 0.9321097053817403,
1757
- "grad_norm": 0.021240154281258583,
1758
- "learning_rate": 4.176236022955755e-05,
1759
- "loss": 0.04885836541652679,
1760
- "step": 4980
1761
- },
1762
- {
1763
- "epoch": 0.935853117853153,
1764
- "grad_norm": 0.016504865139722824,
1765
- "learning_rate": 4.16999483905881e-05,
1766
- "loss": 0.0027378931641578673,
1767
- "step": 5000
1768
- },
1769
- {
1770
- "epoch": 0.9395965303245656,
1771
- "grad_norm": 0.014015628024935722,
1772
- "learning_rate": 4.163734803710294e-05,
1773
- "loss": 0.012781022489070893,
1774
- "step": 5020
1775
- },
1776
- {
1777
- "epoch": 0.9433399427959782,
1778
- "grad_norm": 0.013812500052154064,
1779
- "learning_rate": 4.157455987575545e-05,
1780
- "loss": 0.007508871704339981,
1781
- "step": 5040
1782
- },
1783
- {
1784
- "epoch": 0.9470833552673907,
1785
- "grad_norm": 0.01622290164232254,
1786
- "learning_rate": 4.1511584615319075e-05,
1787
- "loss": 0.0014614147134125234,
1788
- "step": 5060
1789
- },
1790
- {
1791
- "epoch": 0.9508267677388034,
1792
- "grad_norm": 0.01259149145334959,
1793
- "learning_rate": 4.144842296667929e-05,
1794
- "loss": 0.006202424317598343,
1795
- "step": 5080
1796
- },
1797
- {
1798
- "epoch": 0.954570180210216,
1799
- "grad_norm": 0.012383027002215385,
1800
- "learning_rate": 4.138507564282558e-05,
1801
- "loss": 0.006122353300452232,
1802
- "step": 5100
1803
- },
1804
- {
1805
- "epoch": 0.9583135926816286,
1806
- "grad_norm": 0.006499920971691608,
1807
- "learning_rate": 4.1321543358843385e-05,
1808
- "loss": 0.0008865024894475937,
1809
- "step": 5120
1810
- },
1811
- {
1812
- "epoch": 0.9620570051530413,
1813
- "grad_norm": 0.00830752868205309,
1814
- "learning_rate": 4.125782683190606e-05,
1815
- "loss": 0.0008420860394835472,
1816
- "step": 5140
1817
- },
1818
- {
1819
- "epoch": 0.9658004176244538,
1820
- "grad_norm": 0.01525857299566269,
1821
- "learning_rate": 4.119392678126673e-05,
1822
- "loss": 0.00587364137172699,
1823
- "step": 5160
1824
- },
1825
- {
1826
- "epoch": 0.9695438300958664,
1827
- "grad_norm": 0.01072095800191164,
1828
- "learning_rate": 4.11298439282502e-05,
1829
- "loss": 0.00853007659316063,
1830
- "step": 5180
1831
- },
1832
- {
1833
- "epoch": 0.973287242567279,
1834
- "grad_norm": 0.030316641554236412,
1835
- "learning_rate": 4.106557899624482e-05,
1836
- "loss": 0.0058747071772813795,
1837
- "step": 5200
1838
- },
1839
- {
1840
- "epoch": 0.9770306550386917,
1841
- "grad_norm": 0.0391647033393383,
1842
- "learning_rate": 4.1001132710694304e-05,
1843
- "loss": 0.0034765828400850295,
1844
- "step": 5220
1845
- },
1846
- {
1847
- "epoch": 0.9807740675101043,
1848
- "grad_norm": 0.04938298836350441,
1849
- "learning_rate": 4.093650579908953e-05,
1850
- "loss": 0.007594724744558334,
1851
- "step": 5240
1852
- },
1853
- {
1854
- "epoch": 0.984517479981517,
1855
- "grad_norm": 0.005873252172023058,
1856
- "learning_rate": 4.087169899096037e-05,
1857
- "loss": 0.013347607851028443,
1858
- "step": 5260
1859
- },
1860
- {
1861
- "epoch": 0.9882608924529295,
1862
- "grad_norm": 1.2757259607315063,
1863
- "learning_rate": 4.080671301786741e-05,
1864
- "loss": 0.004837355017662049,
1865
- "step": 5280
1866
- },
1867
- {
1868
- "epoch": 0.9920043049243421,
1869
- "grad_norm": 0.00920735765248537,
1870
- "learning_rate": 4.0741548613393675e-05,
1871
- "loss": 0.007415445148944854,
1872
- "step": 5300
1873
- },
1874
- {
1875
- "epoch": 0.9957477173957547,
1876
- "grad_norm": 0.5702093839645386,
1877
- "learning_rate": 4.067620651313647e-05,
1878
- "loss": 0.00406576506793499,
1879
- "step": 5320
1880
- },
1881
- {
1882
- "epoch": 0.9994911298671674,
1883
- "grad_norm": 1.8361051082611084,
1884
- "learning_rate": 4.0610687454698906e-05,
1885
- "loss": 0.00997612327337265,
1886
- "step": 5340
1887
- },
1888
- {
1889
- "epoch": 1.0031819006007008,
1890
- "grad_norm": 3.335326910018921,
1891
- "learning_rate": 4.0544992177681685e-05,
1892
- "loss": 0.008442799001932145,
1893
- "step": 5360
1894
- },
1895
- {
1896
- "epoch": 1.0069253130721134,
1897
- "grad_norm": 0.03184954449534416,
1898
- "learning_rate": 4.047912142367473e-05,
1899
- "loss": 0.008095134049654007,
1900
- "step": 5380
1901
- },
1902
- {
1903
- "epoch": 1.010668725543526,
1904
- "grad_norm": 0.029989074915647507,
1905
- "learning_rate": 4.04130759362488e-05,
1906
- "loss": 0.0012585990130901336,
1907
- "step": 5400
1908
- },
1909
- {
1910
- "epoch": 1.0144121380149385,
1911
- "grad_norm": 0.08727464079856873,
1912
- "learning_rate": 4.034685646094711e-05,
1913
- "loss": 0.012588074803352356,
1914
- "step": 5420
1915
- },
1916
- {
1917
- "epoch": 1.018155550486351,
1918
- "grad_norm": 0.018498806282877922,
1919
- "learning_rate": 4.028046374527689e-05,
1920
- "loss": 0.001854238100349903,
1921
- "step": 5440
1922
- },
1923
- {
1924
- "epoch": 1.0218989629577637,
1925
- "grad_norm": 0.013779236935079098,
1926
- "learning_rate": 4.021389853870095e-05,
1927
- "loss": 0.0008004569448530674,
1928
- "step": 5460
1929
- },
1930
- {
1931
- "epoch": 1.0256423754291764,
1932
- "grad_norm": 0.028235070407390594,
1933
- "learning_rate": 4.0147161592629306e-05,
1934
- "loss": 0.002274145185947418,
1935
- "step": 5480
1936
- },
1937
- {
1938
- "epoch": 1.029385787900589,
1939
- "grad_norm": 0.023030120879411697,
1940
- "learning_rate": 4.008025366041055e-05,
1941
- "loss": 0.008717305958271027,
1942
- "step": 5500
1943
- },
1944
- {
1945
- "epoch": 1.0331292003720016,
1946
- "grad_norm": 0.018347155302762985,
1947
- "learning_rate": 4.001317549732345e-05,
1948
- "loss": 0.00244256854057312,
1949
- "step": 5520
1950
- },
1951
- {
1952
- "epoch": 1.0368726128434143,
1953
- "grad_norm": 0.03449391946196556,
1954
- "learning_rate": 3.99459278605684e-05,
1955
- "loss": 0.0039924226701259615,
1956
- "step": 5540
1957
- },
1958
- {
1959
- "epoch": 1.0406160253148269,
1960
- "grad_norm": 0.030406463891267776,
1961
- "learning_rate": 3.9878511509258866e-05,
1962
- "loss": 0.0021008485928177834,
1963
- "step": 5560
1964
- },
1965
- {
1966
- "epoch": 1.0443594377862395,
1967
- "grad_norm": 0.01783100888133049,
1968
- "learning_rate": 3.9810927204412803e-05,
1969
- "loss": 0.0006656501442193985,
1970
- "step": 5580
1971
- },
1972
- {
1973
- "epoch": 1.0481028502576522,
1974
- "grad_norm": 0.05360455811023712,
1975
- "learning_rate": 3.974317570894413e-05,
1976
- "loss": 0.005278818309307098,
1977
- "step": 5600
1978
- },
1979
- {
1980
- "epoch": 1.0518462627290646,
1981
- "grad_norm": 0.008699169382452965,
1982
- "learning_rate": 3.9675257787654e-05,
1983
- "loss": 0.005309444293379784,
1984
- "step": 5620
1985
- },
1986
- {
1987
- "epoch": 1.0555896752004772,
1988
- "grad_norm": 0.036641959100961685,
1989
- "learning_rate": 3.960717420722227e-05,
1990
- "loss": 0.0034692320972681046,
1991
- "step": 5640
1992
- },
1993
- {
1994
- "epoch": 1.0593330876718898,
1995
- "grad_norm": 0.012212110683321953,
1996
- "learning_rate": 3.953892573619883e-05,
1997
- "loss": 0.005343861132860184,
1998
- "step": 5660
1999
- },
2000
- {
2001
- "epoch": 1.0630765001433025,
2002
- "grad_norm": 0.011296284385025501,
2003
- "learning_rate": 3.947051314499489e-05,
2004
- "loss": 0.0038058970123529432,
2005
- "step": 5680
2006
- },
2007
- {
2008
- "epoch": 1.066819912614715,
2009
- "grad_norm": 0.05954049900174141,
2010
- "learning_rate": 3.94019372058743e-05,
2011
- "loss": 0.008142991364002228,
2012
- "step": 5700
2013
- },
2014
- {
2015
- "epoch": 1.0705633250861277,
2016
- "grad_norm": 0.03478416055440903,
2017
- "learning_rate": 3.933319869294483e-05,
2018
- "loss": 0.0075227849185466765,
2019
- "step": 5720
2020
- },
2021
- {
2022
- "epoch": 1.0743067375575404,
2023
- "grad_norm": 0.014586996287107468,
2024
- "learning_rate": 3.9264298382149455e-05,
2025
- "loss": 0.0036750122904777526,
2026
- "step": 5740
2027
- },
2028
- {
2029
- "epoch": 1.078050150028953,
2030
- "grad_norm": 0.025754544883966446,
2031
- "learning_rate": 3.919523705125757e-05,
2032
- "loss": 0.004151013493537903,
2033
- "step": 5760
2034
- },
2035
- {
2036
- "epoch": 1.0817935625003656,
2037
- "grad_norm": 0.03239905461668968,
2038
- "learning_rate": 3.9126015479856205e-05,
2039
- "loss": 0.00861695185303688,
2040
- "step": 5780
2041
- },
2042
- {
2043
- "epoch": 1.0855369749717783,
2044
- "grad_norm": 0.03506994619965553,
2045
- "learning_rate": 3.9056634449341256e-05,
2046
- "loss": 0.003123755753040314,
2047
- "step": 5800
2048
- },
2049
- {
2050
- "epoch": 1.089280387443191,
2051
- "grad_norm": 0.0286911278963089,
2052
- "learning_rate": 3.898709474290864e-05,
2053
- "loss": 0.002537376619875431,
2054
- "step": 5820
2055
- },
2056
- {
2057
- "epoch": 1.0930237999146033,
2058
- "grad_norm": 0.03490692004561424,
2059
- "learning_rate": 3.8917397145545454e-05,
2060
- "loss": 0.0010227372869849205,
2061
- "step": 5840
2062
- },
2063
- {
2064
- "epoch": 1.096767212386016,
2065
- "grad_norm": 0.013748899102210999,
2066
- "learning_rate": 3.884754244402113e-05,
2067
- "loss": 0.011847371608018875,
2068
- "step": 5860
2069
- },
2070
- {
2071
- "epoch": 1.1005106248574286,
2072
- "grad_norm": 0.035458195954561234,
2073
- "learning_rate": 3.877753142687852e-05,
2074
- "loss": 0.009741749614477158,
2075
- "step": 5880
2076
- },
2077
- {
2078
- "epoch": 1.1042540373288412,
2079
- "grad_norm": 0.012493673712015152,
2080
- "learning_rate": 3.8707364884425064e-05,
2081
- "loss": 0.006607493013143539,
2082
- "step": 5900
2083
- },
2084
- {
2085
- "epoch": 1.1079974498002538,
2086
- "grad_norm": 0.018607834354043007,
2087
- "learning_rate": 3.863704360872378e-05,
2088
- "loss": 0.0016217166557908058,
2089
- "step": 5920
2090
- },
2091
- {
2092
- "epoch": 1.1117408622716665,
2093
- "grad_norm": 0.0283930953592062,
2094
- "learning_rate": 3.8566568393584366e-05,
2095
- "loss": 0.002083975449204445,
2096
- "step": 5940
2097
- },
2098
- {
2099
- "epoch": 1.115484274743079,
2100
- "grad_norm": 0.05229801684617996,
2101
- "learning_rate": 3.8495940034554283e-05,
2102
- "loss": 0.0014217685908079146,
2103
- "step": 5960
2104
- },
2105
- {
2106
- "epoch": 1.1192276872144917,
2107
- "grad_norm": 0.008808930404484272,
2108
- "learning_rate": 3.8425159328909684e-05,
2109
- "loss": 0.0022570645436644555,
2110
- "step": 5980
2111
- },
2112
- {
2113
- "epoch": 1.1229710996859044,
2114
- "grad_norm": 0.020502232015132904,
2115
- "learning_rate": 3.835422707564648e-05,
2116
- "loss": 0.003745942190289497,
2117
- "step": 6000
2118
- },
2119
- {
2120
- "epoch": 1.126714512157317,
2121
- "grad_norm": 0.032347094267606735,
2122
- "learning_rate": 3.82831440754713e-05,
2123
- "loss": 0.003347185626626015,
2124
- "step": 6020
2125
- },
2126
- {
2127
- "epoch": 1.1304579246287294,
2128
- "grad_norm": 0.020310478284955025,
2129
- "learning_rate": 3.821191113079246e-05,
2130
- "loss": 0.006166417896747589,
2131
- "step": 6040
2132
- },
2133
- {
2134
- "epoch": 1.134201337100142,
2135
- "grad_norm": 0.06390372663736343,
2136
- "learning_rate": 3.8140529045710876e-05,
2137
- "loss": 0.0013674044981598853,
2138
- "step": 6060
2139
- },
2140
- {
2141
- "epoch": 1.1379447495715547,
2142
- "grad_norm": 1.1938918828964233,
2143
- "learning_rate": 3.806899862601105e-05,
2144
- "loss": 0.010550644248723984,
2145
- "step": 6080
2146
- },
2147
- {
2148
- "epoch": 1.1416881620429673,
2149
- "grad_norm": 0.035355549305677414,
2150
- "learning_rate": 3.799732067915189e-05,
2151
- "loss": 0.0069750770926475525,
2152
- "step": 6100
2153
- },
2154
- {
2155
- "epoch": 1.14543157451438,
2156
- "grad_norm": 0.009921093471348286,
2157
- "learning_rate": 3.792549601425767e-05,
2158
- "loss": 0.0027949588373303415,
2159
- "step": 6120
2160
- },
2161
- {
2162
- "epoch": 1.1491749869857926,
2163
- "grad_norm": 0.06172063946723938,
2164
- "learning_rate": 3.785352544210884e-05,
2165
- "loss": 0.0009372101165354251,
2166
- "step": 6140
2167
- },
2168
- {
2169
- "epoch": 1.1529183994572052,
2170
- "grad_norm": 0.008572470396757126,
2171
- "learning_rate": 3.778140977513294e-05,
2172
- "loss": 0.0029502738267183303,
2173
- "step": 6160
2174
- },
2175
- {
2176
- "epoch": 1.1566618119286178,
2177
- "grad_norm": 0.4211727976799011,
2178
- "learning_rate": 3.770914982739534e-05,
2179
- "loss": 0.014692296087741853,
2180
- "step": 6180
2181
- },
2182
- {
2183
- "epoch": 1.1604052244000305,
2184
- "grad_norm": 0.02292146533727646,
2185
- "learning_rate": 3.7636746414590126e-05,
2186
- "loss": 0.0020170681178569793,
2187
- "step": 6200
2188
- },
2189
- {
2190
- "epoch": 1.164148636871443,
2191
- "grad_norm": 0.11247449368238449,
2192
- "learning_rate": 3.756420035403086e-05,
2193
- "loss": 0.006851900368928909,
2194
- "step": 6220
2195
- },
2196
- {
2197
- "epoch": 1.1678920493428557,
2198
- "grad_norm": 0.020755017176270485,
2199
- "learning_rate": 3.749151246464137e-05,
2200
- "loss": 0.0021739909425377846,
2201
- "step": 6240
2202
- },
2203
- {
2204
- "epoch": 1.1716354618142684,
2205
- "grad_norm": 0.017202025279402733,
2206
- "learning_rate": 3.741868356694647e-05,
2207
- "loss": 0.002353278361260891,
2208
- "step": 6260
2209
- },
2210
- {
2211
- "epoch": 1.1753788742856808,
2212
- "grad_norm": 0.014947429299354553,
2213
- "learning_rate": 3.734571448306274e-05,
2214
- "loss": 0.0010860362090170383,
2215
- "step": 6280
2216
- },
2217
- {
2218
- "epoch": 1.1791222867570934,
2219
- "grad_norm": 1.5391262769699097,
2220
- "learning_rate": 3.727260603668922e-05,
2221
- "loss": 0.01233254000544548,
2222
- "step": 6300
2223
- },
2224
- {
2225
- "epoch": 1.182865699228506,
2226
- "grad_norm": 0.4759792387485504,
2227
- "learning_rate": 3.7199359053098133e-05,
2228
- "loss": 0.0028501398861408233,
2229
- "step": 6320
2230
- },
2231
- {
2232
- "epoch": 1.1866091116999187,
2233
- "grad_norm": 0.01719040609896183,
2234
- "learning_rate": 3.7125974359125536e-05,
2235
- "loss": 0.00934450700879097,
2236
- "step": 6340
2237
- },
2238
- {
2239
- "epoch": 1.1903525241713313,
2240
- "grad_norm": 2.4766688346862793,
2241
- "learning_rate": 3.7052452783162015e-05,
2242
- "loss": 0.018582724034786224,
2243
- "step": 6360
2244
- },
2245
- {
2246
- "epoch": 1.194095936642744,
2247
- "grad_norm": 0.11404932290315628,
2248
- "learning_rate": 3.6978795155143326e-05,
2249
- "loss": 0.01815672367811203,
2250
- "step": 6380
2251
- },
2252
- {
2253
- "epoch": 1.1978393491141566,
2254
- "grad_norm": 0.021365633234381676,
2255
- "learning_rate": 3.690500230654103e-05,
2256
- "loss": 0.004123781993985176,
2257
- "step": 6400
2258
- },
2259
- {
2260
- "epoch": 1.2015827615855692,
2261
- "grad_norm": 0.022478772327303886,
2262
- "learning_rate": 3.68310750703531e-05,
2263
- "loss": 0.0038731731474399567,
2264
- "step": 6420
2265
- },
2266
- {
2267
- "epoch": 1.2053261740569818,
2268
- "grad_norm": 0.15531578660011292,
2269
- "learning_rate": 3.67570142810945e-05,
2270
- "loss": 0.002076444961130619,
2271
- "step": 6440
2272
- },
2273
- {
2274
- "epoch": 1.2090695865283942,
2275
- "grad_norm": 0.012458150275051594,
2276
- "learning_rate": 3.668282077478783e-05,
2277
- "loss": 0.0027592860162258146,
2278
- "step": 6460
2279
- },
2280
- {
2281
- "epoch": 1.2128129989998069,
2282
- "grad_norm": 0.01572798565030098,
2283
- "learning_rate": 3.66084953889538e-05,
2284
- "loss": 0.002740098722279072,
2285
- "step": 6480
2286
- },
2287
- {
2288
- "epoch": 1.2165564114712195,
2289
- "grad_norm": 0.13682503998279572,
2290
- "learning_rate": 3.6534038962601835e-05,
2291
- "loss": 0.000705425813794136,
2292
- "step": 6500
2293
- },
2294
- {
2295
- "epoch": 1.2202998239426321,
2296
- "grad_norm": 0.030630914494395256,
2297
- "learning_rate": 3.64594523362206e-05,
2298
- "loss": 0.012480729073286057,
2299
- "step": 6520
2300
- },
2301
- {
2302
- "epoch": 1.2240432364140448,
2303
- "grad_norm": 0.024804554879665375,
2304
- "learning_rate": 3.638473635176848e-05,
2305
- "loss": 0.0007834361866116523,
2306
- "step": 6540
2307
- },
2308
- {
2309
- "epoch": 1.2277866488854574,
2310
- "grad_norm": 0.011334752663969994,
2311
- "learning_rate": 3.630989185266411e-05,
2312
- "loss": 0.022086825966835023,
2313
- "step": 6560
2314
- },
2315
- {
2316
- "epoch": 1.23153006135687,
2317
- "grad_norm": 0.020346902310848236,
2318
- "learning_rate": 3.623491968377684e-05,
2319
- "loss": 0.018024472892284392,
2320
- "step": 6580
2321
- },
2322
- {
2323
- "epoch": 1.2352734738282827,
2324
- "grad_norm": 0.015177210792899132,
2325
- "learning_rate": 3.615982069141719e-05,
2326
- "loss": 0.005251453071832657,
2327
- "step": 6600
2328
- },
2329
- {
2330
- "epoch": 1.2390168862996953,
2331
- "grad_norm": 0.013680647127330303,
2332
- "learning_rate": 3.608459572332733e-05,
2333
- "loss": 0.006734563410282135,
2334
- "step": 6620
2335
- },
2336
- {
2337
- "epoch": 1.242760298771108,
2338
- "grad_norm": 0.17980872094631195,
2339
- "learning_rate": 3.600924562867144e-05,
2340
- "loss": 0.003970410302281379,
2341
- "step": 6640
2342
- },
2343
- {
2344
- "epoch": 1.2465037112425206,
2345
- "grad_norm": 0.015203841030597687,
2346
- "learning_rate": 3.593377125802622e-05,
2347
- "loss": 0.0032148901373147964,
2348
- "step": 6660
2349
- },
2350
- {
2351
- "epoch": 1.2502471237139332,
2352
- "grad_norm": 0.017300931736826897,
2353
- "learning_rate": 3.585817346337119e-05,
2354
- "loss": 0.00467667318880558,
2355
- "step": 6680
2356
- },
2357
- {
2358
- "epoch": 1.2539905361853458,
2359
- "grad_norm": 0.028181765228509903,
2360
- "learning_rate": 3.5782453098079175e-05,
2361
- "loss": 0.0015515764243900776,
2362
- "step": 6700
2363
- },
2364
- {
2365
- "epoch": 1.2577339486567582,
2366
- "grad_norm": 0.01730780117213726,
2367
- "learning_rate": 3.570661101690657e-05,
2368
- "loss": 0.007991334050893783,
2369
- "step": 6720
2370
- },
2371
- {
2372
- "epoch": 1.2614773611281709,
2373
- "grad_norm": 0.014216347597539425,
2374
- "learning_rate": 3.5630648075983763e-05,
2375
- "loss": 0.002533360943198204,
2376
- "step": 6740
2377
- },
2378
- {
2379
- "epoch": 1.2652207735995835,
2380
- "grad_norm": 0.1556195169687271,
2381
- "learning_rate": 3.555456513280544e-05,
2382
- "loss": 0.0032653655856847764,
2383
- "step": 6760
2384
- },
2385
- {
2386
- "epoch": 1.2689641860709961,
2387
- "grad_norm": 0.023955868557095528,
2388
- "learning_rate": 3.5478363046220915e-05,
2389
- "loss": 0.00850408971309662,
2390
- "step": 6780
2391
- },
2392
- {
2393
- "epoch": 1.2727075985424088,
2394
- "grad_norm": 0.17874136567115784,
2395
- "learning_rate": 3.5402042676424424e-05,
2396
- "loss": 0.0032720811665058135,
2397
- "step": 6800
2398
- },
2399
- {
2400
- "epoch": 1.2764510110138214,
2401
- "grad_norm": 0.0899379625916481,
2402
- "learning_rate": 3.5325604884945434e-05,
2403
- "loss": 0.003243798017501831,
2404
- "step": 6820
2405
- },
2406
- {
2407
- "epoch": 1.280194423485234,
2408
- "grad_norm": 0.413362056016922,
2409
- "learning_rate": 3.5249050534638906e-05,
2410
- "loss": 0.0036127623170614243,
2411
- "step": 6840
2412
- },
2413
- {
2414
- "epoch": 1.2839378359566467,
2415
- "grad_norm": 0.02790931612253189,
2416
- "learning_rate": 3.517238048967554e-05,
2417
- "loss": 0.008225285261869431,
2418
- "step": 6860
2419
- },
2420
- {
2421
- "epoch": 1.287681248428059,
2422
- "grad_norm": 0.6761110424995422,
2423
- "learning_rate": 3.5095595615532056e-05,
2424
- "loss": 0.00199942234903574,
2425
- "step": 6880
2426
- },
2427
- {
2428
- "epoch": 1.2914246608994717,
2429
- "grad_norm": 4.593618869781494,
2430
- "learning_rate": 3.5018696778981385e-05,
2431
- "loss": 0.007301987707614898,
2432
- "step": 6900
2433
- },
2434
- {
2435
- "epoch": 1.2951680733708844,
2436
- "grad_norm": 0.09392693638801575,
2437
- "learning_rate": 3.494168484808293e-05,
2438
- "loss": 0.009008315950632095,
2439
- "step": 6920
2440
- },
2441
- {
2442
- "epoch": 1.298911485842297,
2443
- "grad_norm": 0.008239852264523506,
2444
- "learning_rate": 3.48645606921727e-05,
2445
- "loss": 0.012661360204219818,
2446
- "step": 6940
2447
- },
2448
- {
2449
- "epoch": 1.3026548983137096,
2450
- "grad_norm": 0.05141177773475647,
2451
- "learning_rate": 3.4787325181853576e-05,
2452
- "loss": 0.0007553372532129287,
2453
- "step": 6960
2454
- },
2455
- {
2456
- "epoch": 1.3063983107851223,
2457
- "grad_norm": 0.024333903566002846,
2458
- "learning_rate": 3.470997918898541e-05,
2459
- "loss": 0.0016128463670611382,
2460
- "step": 6980
2461
- },
2462
- {
2463
- "epoch": 1.3101417232565349,
2464
- "grad_norm": 0.0337531715631485,
2465
- "learning_rate": 3.4632523586675254e-05,
2466
- "loss": 0.003253454715013504,
2467
- "step": 7000
2468
- },
2469
- {
2470
- "epoch": 1.3138851357279475,
2471
- "grad_norm": 0.05121550336480141,
2472
- "learning_rate": 3.4554959249267436e-05,
2473
- "loss": 0.0026307271793484686,
2474
- "step": 7020
2475
- },
2476
- {
2477
- "epoch": 1.3176285481993602,
2478
- "grad_norm": 0.025997543707489967,
2479
- "learning_rate": 3.447728705233374e-05,
2480
- "loss": 0.0012719514779746532,
2481
- "step": 7040
2482
- },
2483
- {
2484
- "epoch": 1.3213719606707728,
2485
- "grad_norm": 0.009486268274486065,
2486
- "learning_rate": 3.4399507872663494e-05,
2487
- "loss": 0.002009082958102226,
2488
- "step": 7060
2489
- },
2490
- {
2491
- "epoch": 1.3251153731421854,
2492
- "grad_norm": 0.016816232353448868,
2493
- "learning_rate": 3.432162258825369e-05,
2494
- "loss": 0.0005956823006272316,
2495
- "step": 7080
2496
- },
2497
- {
2498
- "epoch": 1.328858785613598,
2499
- "grad_norm": 0.004733961541205645,
2500
- "learning_rate": 3.424363207829906e-05,
2501
- "loss": 0.003636709600687027,
2502
- "step": 7100
2503
- },
2504
- {
2505
- "epoch": 1.3326021980850107,
2506
- "grad_norm": 3.666203498840332,
2507
- "learning_rate": 3.4165537223182155e-05,
2508
- "loss": 0.010488419234752655,
2509
- "step": 7120
2510
- },
2511
- {
2512
- "epoch": 1.336345610556423,
2513
- "grad_norm": 0.021471882238984108,
2514
- "learning_rate": 3.408733890446341e-05,
2515
- "loss": 0.0009709249250590801,
2516
- "step": 7140
2517
- },
2518
- {
2519
- "epoch": 1.3400890230278357,
2520
- "grad_norm": 0.007639541756361723,
2521
- "learning_rate": 3.40090380048712e-05,
2522
- "loss": 0.0030905861407518388,
2523
- "step": 7160
2524
- },
2525
- {
2526
- "epoch": 1.3438324354992484,
2527
- "grad_norm": 0.16878941655158997,
2528
- "learning_rate": 3.393063540829186e-05,
2529
- "loss": 0.0036965351551771163,
2530
- "step": 7180
2531
- },
2532
- {
2533
- "epoch": 1.347575847970661,
2534
- "grad_norm": 0.07014094293117523,
2535
- "learning_rate": 3.385213199975971e-05,
2536
- "loss": 0.0005677144508808851,
2537
- "step": 7200
2538
- },
2539
- {
2540
- "epoch": 1.3513192604420736,
2541
- "grad_norm": 0.008626374416053295,
2542
- "learning_rate": 3.377352866544706e-05,
2543
- "loss": 0.0005447934381663799,
2544
- "step": 7220
2545
- },
2546
- {
2547
- "epoch": 1.3550626729134863,
2548
- "grad_norm": 0.013825134374201298,
2549
- "learning_rate": 3.3694826292654246e-05,
2550
- "loss": 0.004854041337966919,
2551
- "step": 7240
2552
- },
2553
- {
2554
- "epoch": 1.3588060853848989,
2555
- "grad_norm": 0.025015883147716522,
2556
- "learning_rate": 3.361602576979956e-05,
2557
- "loss": 0.004542553424835205,
2558
- "step": 7260
2559
- },
2560
- {
2561
- "epoch": 1.3625494978563115,
2562
- "grad_norm": 0.009614030830562115,
2563
- "learning_rate": 3.353712798640923e-05,
2564
- "loss": 0.0008775785565376282,
2565
- "step": 7280
2566
- },
2567
- {
2568
- "epoch": 1.366292910327724,
2569
- "grad_norm": 3.8835268020629883,
2570
- "learning_rate": 3.345813383310744e-05,
2571
- "loss": 0.0063879616558551785,
2572
- "step": 7300
2573
- },
2574
- {
2575
- "epoch": 1.3700363227991366,
2576
- "grad_norm": 0.005518193822354078,
2577
- "learning_rate": 3.337904420160618e-05,
2578
- "loss": 0.0010956574231386184,
2579
- "step": 7320
2580
- },
2581
- {
2582
- "epoch": 1.3737797352705492,
2583
- "grad_norm": 0.005018322728574276,
2584
- "learning_rate": 3.329985998469526e-05,
2585
- "loss": 0.0012317843735218047,
2586
- "step": 7340
2587
- },
2588
- {
2589
- "epoch": 0.6887872232777639,
2590
- "grad_norm": 0.3108454942703247,
2591
- "learning_rate": 3.322058207623218e-05,
2592
- "loss": 0.010070423781871795,
2593
- "step": 7360
2594
- },
2595
- {
2596
- "epoch": 0.6906589276888447,
2597
- "grad_norm": 0.3556046783924103,
2598
- "learning_rate": 3.314121137113209e-05,
2599
- "loss": 0.0278738796710968,
2600
- "step": 7380
2601
- },
2602
- {
2603
- "epoch": 0.6925306320999256,
2604
- "grad_norm": 4.041794300079346,
2605
- "learning_rate": 3.306174876535762e-05,
2606
- "loss": 0.025335192680358887,
2607
- "step": 7400
2608
- },
2609
- {
2610
- "epoch": 0.6944023365110065,
2611
- "grad_norm": 0.04647493362426758,
2612
- "learning_rate": 3.2982195155908845e-05,
2613
- "loss": 0.05056847333908081,
2614
- "step": 7420
2615
- },
2616
- {
2617
- "epoch": 0.6962740409220873,
2618
- "grad_norm": 0.6827419400215149,
2619
- "learning_rate": 3.290653575270209e-05,
2620
- "loss": 0.036053261160850524,
2621
- "step": 7440
2622
- },
2623
- {
2624
- "epoch": 0.6981457453331683,
2625
- "grad_norm": 0.256136029958725,
2626
- "learning_rate": 3.2826807269966064e-05,
2627
- "loss": 0.020640365779399872,
2628
- "step": 7460
2629
- },
2630
- {
2631
- "epoch": 0.7000174497442492,
2632
- "grad_norm": 0.2054845094680786,
2633
- "learning_rate": 3.274699043565268e-05,
2634
- "loss": 0.03456352353096008,
2635
- "step": 7480
2636
- },
2637
- {
2638
- "epoch": 0.70188915415533,
2639
- "grad_norm": 0.2027648538351059,
2640
- "learning_rate": 3.266708615076064e-05,
2641
- "loss": 0.00846734493970871,
2642
- "step": 7500
2643
- },
2644
- {
2645
- "epoch": 0.7037608585664109,
2646
- "grad_norm": 1.6423311233520508,
2647
- "learning_rate": 3.258709531727582e-05,
2648
- "loss": 0.054978948831558225,
2649
- "step": 7520
2650
- },
2651
- {
2652
- "epoch": 0.7056325629774918,
2653
- "grad_norm": 1.775089144706726,
2654
- "learning_rate": 3.2507018838161085e-05,
2655
- "loss": 0.03238933086395264,
2656
- "step": 7540
2657
- },
2658
- {
2659
- "epoch": 0.7075042673885726,
2660
- "grad_norm": 0.06917860358953476,
2661
- "learning_rate": 3.242685761734609e-05,
2662
- "loss": 0.016849520802497863,
2663
- "step": 7560
2664
- },
2665
- {
2666
- "epoch": 0.7093759717996535,
2667
- "grad_norm": 0.051443129777908325,
2668
- "learning_rate": 3.2346612559717094e-05,
2669
- "loss": 0.048251998424530027,
2670
- "step": 7580
2671
- },
2672
- {
2673
- "epoch": 0.7112476762107344,
2674
- "grad_norm": 0.06533925980329514,
2675
- "learning_rate": 3.226628457110672e-05,
2676
- "loss": 0.03696450293064117,
2677
- "step": 7600
2678
- },
2679
- {
2680
- "epoch": 0.7131193806218153,
2681
- "grad_norm": 0.45661595463752747,
2682
- "learning_rate": 3.218587455828377e-05,
2683
- "loss": 0.05503013730049133,
2684
- "step": 7620
2685
- },
2686
- {
2687
- "epoch": 0.7149910850328962,
2688
- "grad_norm": 2.0205914974212646,
2689
- "learning_rate": 3.210538342894291e-05,
2690
- "loss": 0.033562681078910826,
2691
- "step": 7640
2692
- },
2693
- {
2694
- "epoch": 0.7168627894439771,
2695
- "grad_norm": 2.4842448234558105,
2696
- "learning_rate": 3.202481209169455e-05,
2697
- "loss": 0.019278638064861298,
2698
- "step": 7660
2699
- },
2700
- {
2701
- "epoch": 0.7187344938550579,
2702
- "grad_norm": 0.10550081729888916,
2703
- "learning_rate": 3.1944161456054436e-05,
2704
- "loss": 0.01638232171535492,
2705
- "step": 7680
2706
- },
2707
- {
2708
- "epoch": 0.7206061982661388,
2709
- "grad_norm": 1.606436014175415,
2710
- "learning_rate": 3.1863432432433506e-05,
2711
- "loss": 0.020552067458629607,
2712
- "step": 7700
2713
- },
2714
- {
2715
- "epoch": 0.7224779026772197,
2716
- "grad_norm": 0.2617719769477844,
2717
- "learning_rate": 3.178262593212757e-05,
2718
- "loss": 0.02315783053636551,
2719
- "step": 7720
2720
- },
2721
- {
2722
- "epoch": 0.7243496070883005,
2723
- "grad_norm": 0.9734074473381042,
2724
- "learning_rate": 3.1701742867307e-05,
2725
- "loss": 0.01938771307468414,
2726
- "step": 7740
2727
- },
2728
- {
2729
- "epoch": 0.7262213114993814,
2730
- "grad_norm": 0.5882985591888428,
2731
- "learning_rate": 3.162078415100647e-05,
2732
- "loss": 0.011305707693099975,
2733
- "step": 7760
2734
- },
2735
- {
2736
- "epoch": 0.7280930159104624,
2737
- "grad_norm": 0.04298723489046097,
2738
- "learning_rate": 3.15397506971146e-05,
2739
- "loss": 0.04238930344581604,
2740
- "step": 7780
2741
- },
2742
- {
2743
- "epoch": 0.7299647203215432,
2744
- "grad_norm": 6.2729315757751465,
2745
- "learning_rate": 3.145864342036372e-05,
2746
- "loss": 0.030225831270217895,
2747
- "step": 7800
2748
- },
2749
- {
2750
- "epoch": 0.7318364247326241,
2751
- "grad_norm": 0.026423340663313866,
2752
- "learning_rate": 3.1377463236319476e-05,
2753
- "loss": 0.012169972807168961,
2754
- "step": 7820
2755
- },
2756
- {
2757
- "epoch": 0.733708129143705,
2758
- "grad_norm": 0.0296376533806324,
2759
- "learning_rate": 3.1296211061370495e-05,
2760
- "loss": 0.015344823896884918,
2761
- "step": 7840
2762
- },
2763
- {
2764
- "epoch": 0.7355798335547858,
2765
- "grad_norm": 0.029524821788072586,
2766
- "learning_rate": 3.1214887812718094e-05,
2767
- "loss": 0.028345003724098206,
2768
- "step": 7860
2769
- },
2770
- {
2771
- "epoch": 0.7374515379658667,
2772
- "grad_norm": 0.06847794353961945,
2773
- "learning_rate": 3.113349440836588e-05,
2774
- "loss": 0.020069575309753417,
2775
- "step": 7880
2776
- },
2777
- {
2778
- "epoch": 0.7393232423769476,
2779
- "grad_norm": 0.024868430569767952,
2780
- "learning_rate": 3.1052031767109376e-05,
2781
- "loss": 0.014262473583221436,
2782
- "step": 7900
2783
- },
2784
- {
2785
- "epoch": 0.7411949467880286,
2786
- "grad_norm": 0.24450063705444336,
2787
- "learning_rate": 3.097050080852573e-05,
2788
- "loss": 0.04350808262825012,
2789
- "step": 7920
2790
- },
2791
- {
2792
- "epoch": 0.7430666511991094,
2793
- "grad_norm": 0.06978324800729752,
2794
- "learning_rate": 3.088890245296322e-05,
2795
- "loss": 0.015559709072113037,
2796
- "step": 7940
2797
- },
2798
- {
2799
- "epoch": 0.7449383556101903,
2800
- "grad_norm": 0.12675604224205017,
2801
- "learning_rate": 3.0807237621530964e-05,
2802
- "loss": 0.013867451250553131,
2803
- "step": 7960
2804
- },
2805
- {
2806
- "epoch": 0.7468100600212711,
2807
- "grad_norm": 0.2605513334274292,
2808
- "learning_rate": 3.072550723608846e-05,
2809
- "loss": 0.012869009375572204,
2810
- "step": 7980
2811
- },
2812
- {
2813
- "epoch": 0.748681764432352,
2814
- "grad_norm": 3.325530529022217,
2815
- "learning_rate": 3.064371221923521e-05,
2816
- "loss": 0.03036353886127472,
2817
- "step": 8000
2818
- },
2819
- {
2820
- "epoch": 0.7505534688434329,
2821
- "grad_norm": 0.22703051567077637,
2822
- "learning_rate": 3.0561853494300294e-05,
2823
- "loss": 0.009017374366521835,
2824
- "step": 8020
2825
- },
2826
- {
2827
- "epoch": 0.7524251732545137,
2828
- "grad_norm": 6.404862880706787,
2829
- "learning_rate": 3.047993198533195e-05,
2830
- "loss": 0.020604299008846284,
2831
- "step": 8040
2832
- },
2833
- {
2834
- "epoch": 0.7542968776655946,
2835
- "grad_norm": 0.06491954624652863,
2836
- "learning_rate": 3.039794861708714e-05,
2837
- "loss": 0.014963623881340028,
2838
- "step": 8060
2839
- },
2840
- {
2841
- "epoch": 0.7561685820766756,
2842
- "grad_norm": 0.4990088641643524,
2843
- "learning_rate": 3.0315904315021128e-05,
2844
- "loss": 0.02046530395746231,
2845
- "step": 8080
2846
- },
2847
- {
2848
- "epoch": 0.7580402864877565,
2849
- "grad_norm": 0.3174229562282562,
2850
- "learning_rate": 3.023380000527699e-05,
2851
- "loss": 0.013621781766414643,
2852
- "step": 8100
2853
- },
2854
- {
2855
- "epoch": 0.7599119908988373,
2856
- "grad_norm": 0.07161428034305573,
2857
- "learning_rate": 3.0151636614675218e-05,
2858
- "loss": 0.008043503761291504,
2859
- "step": 8120
2860
- },
2861
- {
2862
- "epoch": 0.7617836953099182,
2863
- "grad_norm": 0.6772736310958862,
2864
- "learning_rate": 3.0069415070703217e-05,
2865
- "loss": 0.03563189804553986,
2866
- "step": 8140
2867
- },
2868
- {
2869
- "epoch": 0.763655399720999,
2870
- "grad_norm": 0.07689516246318817,
2871
- "learning_rate": 2.998713630150485e-05,
2872
- "loss": 0.008622632920742035,
2873
- "step": 8160
2874
- },
2875
- {
2876
- "epoch": 0.7655271041320799,
2877
- "grad_norm": 0.014181110076606274,
2878
- "learning_rate": 2.990480123586994e-05,
2879
- "loss": 0.012368627637624741,
2880
- "step": 8180
2881
- },
2882
- {
2883
- "epoch": 0.7673988085431608,
2884
- "grad_norm": 4.4751715660095215,
2885
- "learning_rate": 2.9822410803223822e-05,
2886
- "loss": 0.02100955694913864,
2887
- "step": 8200
2888
- },
2889
- {
2890
- "epoch": 0.7692705129542416,
2891
- "grad_norm": 0.12694527208805084,
2892
- "learning_rate": 2.9739965933616825e-05,
2893
- "loss": 0.018182000517845152,
2894
- "step": 8220
2895
- },
2896
- {
2897
- "epoch": 0.7711422173653226,
2898
- "grad_norm": 0.13789872825145721,
2899
- "learning_rate": 2.9657467557713792e-05,
2900
- "loss": 0.008949784934520722,
2901
- "step": 8240
2902
- },
2903
- {
2904
- "epoch": 0.7730139217764035,
2905
- "grad_norm": 0.04048463702201843,
2906
- "learning_rate": 2.957491660678354e-05,
2907
- "loss": 0.03582434058189392,
2908
- "step": 8260
2909
- },
2910
- {
2911
- "epoch": 0.7748856261874844,
2912
- "grad_norm": 0.7825964689254761,
2913
- "learning_rate": 2.9492314012688378e-05,
2914
- "loss": 0.012679101526737213,
2915
- "step": 8280
2916
- },
2917
- {
2918
- "epoch": 0.7767573305985652,
2919
- "grad_norm": 0.14350314438343048,
2920
- "learning_rate": 2.9409660707873597e-05,
2921
- "loss": 0.010909486562013626,
2922
- "step": 8300
2923
- },
2924
- {
2925
- "epoch": 0.7786290350096461,
2926
- "grad_norm": 0.17676737904548645,
2927
- "learning_rate": 2.932695762535691e-05,
2928
- "loss": 0.01464642733335495,
2929
- "step": 8320
2930
- },
2931
- {
2932
- "epoch": 0.780500739420727,
2933
- "grad_norm": 0.5979751348495483,
2934
- "learning_rate": 2.9244205698717943e-05,
2935
- "loss": 0.028799059987068176,
2936
- "step": 8340
2937
- },
2938
- {
2939
- "epoch": 0.7823724438318078,
2940
- "grad_norm": 0.08448052406311035,
2941
- "learning_rate": 2.9161405862087676e-05,
2942
- "loss": 0.014056096971035003,
2943
- "step": 8360
2944
- },
2945
- {
2946
- "epoch": 0.7842441482428888,
2947
- "grad_norm": 0.5616207122802734,
2948
- "learning_rate": 2.9078559050137955e-05,
2949
- "loss": 0.008744364231824875,
2950
- "step": 8380
2951
- },
2952
- {
2953
- "epoch": 0.7861158526539697,
2954
- "grad_norm": 0.7264829277992249,
2955
- "learning_rate": 2.8995666198070836e-05,
2956
- "loss": 0.014575870335102081,
2957
- "step": 8400
2958
- },
2959
- {
2960
- "epoch": 0.7879875570650505,
2961
- "grad_norm": 1.444239616394043,
2962
- "learning_rate": 2.891272824160815e-05,
2963
- "loss": 0.01230706349015236,
2964
- "step": 8420
2965
- },
2966
- {
2967
- "epoch": 0.7898592614761314,
2968
- "grad_norm": 0.02643579989671707,
2969
- "learning_rate": 2.882974611698084e-05,
2970
- "loss": 0.01713460832834244,
2971
- "step": 8440
2972
- },
2973
- {
2974
- "epoch": 0.7917309658872123,
2975
- "grad_norm": 0.19893163442611694,
2976
- "learning_rate": 2.8746720760918457e-05,
2977
- "loss": 0.009562552720308305,
2978
- "step": 8460
2979
- },
2980
- {
2981
- "epoch": 0.7936026702982931,
2982
- "grad_norm": 1.8813897371292114,
2983
- "learning_rate": 2.866365311063855e-05,
2984
- "loss": 0.01966284364461899,
2985
- "step": 8480
2986
- },
2987
- {
2988
- "epoch": 0.795474374709374,
2989
- "grad_norm": 0.1820579618215561,
2990
- "learning_rate": 2.8580544103836114e-05,
2991
- "loss": 0.023943188786506652,
2992
- "step": 8500
2993
- },
2994
- {
2995
- "epoch": 0.7973460791204549,
2996
- "grad_norm": 1.3913259506225586,
2997
- "learning_rate": 2.849739467867298e-05,
2998
- "loss": 0.02233349084854126,
2999
- "step": 8520
3000
- },
3001
- {
3002
- "epoch": 0.7992177835315358,
3003
- "grad_norm": 0.28450486063957214,
3004
- "learning_rate": 2.8414205773767223e-05,
3005
- "loss": 0.016230446100234986,
3006
- "step": 8540
3007
- },
3008
- {
3009
- "epoch": 0.8010894879426167,
3010
- "grad_norm": 0.46086356043815613,
3011
- "learning_rate": 2.83309783281826e-05,
3012
- "loss": 0.013964855670928955,
3013
- "step": 8560
3014
- },
3015
- {
3016
- "epoch": 0.8029611923536976,
3017
- "grad_norm": 1.1401137113571167,
3018
- "learning_rate": 2.8247713281417924e-05,
3019
- "loss": 0.01552264392375946,
3020
- "step": 8580
3021
- },
3022
- {
3023
- "epoch": 0.8048328967647784,
3024
- "grad_norm": 0.02414649911224842,
3025
- "learning_rate": 2.8164411573396444e-05,
3026
- "loss": 0.00505053773522377,
3027
- "step": 8600
3028
- },
3029
- {
3030
- "epoch": 0.8067046011758593,
3031
- "grad_norm": 0.029010778293013573,
3032
- "learning_rate": 2.8081074144455276e-05,
3033
- "loss": 0.008068422973155975,
3034
- "step": 8620
3035
- },
3036
- {
3037
- "epoch": 0.8085763055869402,
3038
- "grad_norm": 0.024924319237470627,
3039
- "learning_rate": 2.7997701935334747e-05,
3040
- "loss": 0.021529987454414368,
3041
- "step": 8640
3042
- },
3043
- {
3044
- "epoch": 0.810448009998021,
3045
- "grad_norm": 0.3544171154499054,
3046
- "learning_rate": 2.791429588716782e-05,
3047
- "loss": 0.008264218270778657,
3048
- "step": 8660
3049
- },
3050
- {
3051
- "epoch": 0.8123197144091019,
3052
- "grad_norm": 0.011211074888706207,
3053
- "learning_rate": 2.7830856941469407e-05,
3054
- "loss": 0.013752134144306183,
3055
- "step": 8680
3056
- },
3057
- {
3058
- "epoch": 0.8141914188201829,
3059
- "grad_norm": 0.30479249358177185,
3060
- "learning_rate": 2.7747386040125807e-05,
3061
- "loss": 0.01313515156507492,
3062
- "step": 8700
3063
- },
3064
- {
3065
- "epoch": 0.8160631232312637,
3066
- "grad_norm": 3.1079516410827637,
3067
- "learning_rate": 2.766388412538404e-05,
3068
- "loss": 0.013471932709217071,
3069
- "step": 8720
3070
- },
3071
- {
3072
- "epoch": 0.8179348276423446,
3073
- "grad_norm": 0.011288405396044254,
3074
- "learning_rate": 2.758035213984121e-05,
3075
- "loss": 0.011207062005996703,
3076
- "step": 8740
3077
- },
3078
- {
3079
- "epoch": 0.8198065320534255,
3080
- "grad_norm": 0.011481484398245811,
3081
- "learning_rate": 2.749679102643387e-05,
3082
- "loss": 0.018254657089710236,
3083
- "step": 8760
3084
- },
3085
- {
3086
- "epoch": 0.8216782364645063,
3087
- "grad_norm": 0.037564992904663086,
3088
- "learning_rate": 2.7413201728427372e-05,
3089
- "loss": 0.024057184159755707,
3090
- "step": 8780
3091
- },
3092
- {
3093
- "epoch": 0.8235499408755872,
3094
- "grad_norm": 0.03808968514204025,
3095
- "learning_rate": 2.7329585189405253e-05,
3096
- "loss": 0.006051592528820038,
3097
- "step": 8800
3098
- },
3099
- {
3100
- "epoch": 0.8254216452866681,
3101
- "grad_norm": 0.07610247284173965,
3102
- "learning_rate": 2.724594235325852e-05,
3103
- "loss": 0.025592076778411865,
3104
- "step": 8820
3105
- },
3106
- {
3107
- "epoch": 0.827293349697749,
3108
- "grad_norm": 0.019049810245633125,
3109
- "learning_rate": 2.716227416417505e-05,
3110
- "loss": 0.0037486787885427477,
3111
- "step": 8840
3112
- },
3113
- {
3114
- "epoch": 0.8291650541088299,
3115
- "grad_norm": 0.6380273699760437,
3116
- "learning_rate": 2.7078581566628897e-05,
3117
- "loss": 0.015487492084503174,
3118
- "step": 8860
3119
- },
3120
- {
3121
- "epoch": 0.8310367585199108,
3122
- "grad_norm": 0.05775881186127663,
3123
- "learning_rate": 2.699486550536968e-05,
3124
- "loss": 0.03133237063884735,
3125
- "step": 8880
3126
- },
3127
- {
3128
- "epoch": 0.8329084629309916,
3129
- "grad_norm": 0.047411222010850906,
3130
- "learning_rate": 2.6911126925411845e-05,
3131
- "loss": 0.00861177071928978,
3132
- "step": 8900
3133
- },
3134
- {
3135
- "epoch": 0.8347801673420725,
3136
- "grad_norm": 0.23981286585330963,
3137
- "learning_rate": 2.682736677202406e-05,
3138
- "loss": 0.01839599907398224,
3139
- "step": 8920
3140
- },
3141
- {
3142
- "epoch": 0.8366518717531534,
3143
- "grad_norm": 0.36887305974960327,
3144
- "learning_rate": 2.6743585990718505e-05,
3145
- "loss": 0.01008533239364624,
3146
- "step": 8940
3147
- },
3148
- {
3149
- "epoch": 0.8385235761642342,
3150
- "grad_norm": 0.8994531035423279,
3151
- "learning_rate": 2.6659785527240233e-05,
3152
- "loss": 0.027107802033424378,
3153
- "step": 8960
3154
- },
3155
- {
3156
- "epoch": 0.8403952805753151,
3157
- "grad_norm": 0.12780402600765228,
3158
- "learning_rate": 2.6575966327556458e-05,
3159
- "loss": 0.03549482524394989,
3160
- "step": 8980
3161
- },
3162
- {
3163
- "epoch": 0.8422669849863961,
3164
- "grad_norm": 0.3294568359851837,
3165
- "learning_rate": 2.649212933784591e-05,
3166
- "loss": 0.02797776460647583,
3167
- "step": 9000
3168
- },
3169
- {
3170
- "epoch": 0.8441386893974769,
3171
- "grad_norm": 0.019461506977677345,
3172
- "learning_rate": 2.640827550448812e-05,
3173
- "loss": 0.010047334432601928,
3174
- "step": 9020
3175
- },
3176
- {
3177
- "epoch": 0.8460103938085578,
3178
- "grad_norm": 0.056546472012996674,
3179
- "learning_rate": 2.6324405774052784e-05,
3180
- "loss": 0.02831721007823944,
3181
- "step": 9040
3182
- },
3183
- {
3184
- "epoch": 0.8478820982196387,
3185
- "grad_norm": 0.017190299928188324,
3186
- "learning_rate": 2.6240521093289022e-05,
3187
- "loss": 0.019623257219791412,
3188
- "step": 9060
3189
- },
3190
- {
3191
- "epoch": 0.8497538026307195,
3192
- "grad_norm": 0.04793965816497803,
3193
- "learning_rate": 2.6156622409114728e-05,
3194
- "loss": 0.011966148018836975,
3195
- "step": 9080
3196
- },
3197
- {
3198
- "epoch": 0.8516255070418004,
3199
- "grad_norm": 0.006742037367075682,
3200
- "learning_rate": 2.607271066860587e-05,
3201
- "loss": 0.013694784045219422,
3202
- "step": 9100
3203
- },
3204
- {
3205
- "epoch": 0.8534972114528813,
3206
- "grad_norm": 0.03113027848303318,
3207
- "learning_rate": 2.5988786818985812e-05,
3208
- "loss": 0.05338943004608154,
3209
- "step": 9120
3210
- },
3211
- {
3212
- "epoch": 0.8553689158639621,
3213
- "grad_norm": 0.6589255928993225,
3214
- "learning_rate": 2.5904851807614588e-05,
3215
- "loss": 0.01305432766675949,
3216
- "step": 9140
3217
- },
3218
- {
3219
- "epoch": 0.8572406202750431,
3220
- "grad_norm": 0.3030281960964203,
3221
- "learning_rate": 2.582090658197825e-05,
3222
- "loss": 0.03663805425167084,
3223
- "step": 9160
3224
- },
3225
- {
3226
- "epoch": 0.859112324686124,
3227
- "grad_norm": 0.37101081013679504,
3228
- "learning_rate": 2.573695208967814e-05,
3229
- "loss": 0.016968609392642976,
3230
- "step": 9180
3231
- },
3232
- {
3233
- "epoch": 0.8609840290972048,
3234
- "grad_norm": 0.7480998039245605,
3235
- "learning_rate": 2.5652989278420197e-05,
3236
- "loss": 0.021240857243537904,
3237
- "step": 9200
3238
- },
3239
- {
3240
- "epoch": 0.8628557335082857,
3241
- "grad_norm": 0.017131274566054344,
3242
- "learning_rate": 2.5569019096004304e-05,
3243
- "loss": 0.004783949628472328,
3244
- "step": 9220
3245
- },
3246
- {
3247
- "epoch": 0.8647274379193666,
3248
- "grad_norm": 1.1544040441513062,
3249
- "learning_rate": 2.5485042490313504e-05,
3250
- "loss": 0.02356208860874176,
3251
- "step": 9240
3252
- },
3253
- {
3254
- "epoch": 0.8665991423304474,
3255
- "grad_norm": 0.13512635231018066,
3256
- "learning_rate": 2.540106040930338e-05,
3257
- "loss": 0.009329542517662048,
3258
- "step": 9260
3259
- },
3260
- {
3261
- "epoch": 0.8684708467415283,
3262
- "grad_norm": 0.018427839502692223,
3263
- "learning_rate": 2.5317073800991304e-05,
3264
- "loss": 0.007472375035285949,
3265
- "step": 9280
3266
- },
3267
- {
3268
- "epoch": 0.8703425511526093,
3269
- "grad_norm": 0.02722800336778164,
3270
- "learning_rate": 2.5233083613445778e-05,
3271
- "loss": 0.020304642617702484,
3272
- "step": 9300
3273
- },
3274
- {
3275
- "epoch": 0.8722142555636901,
3276
- "grad_norm": 0.051702745258808136,
3277
- "learning_rate": 2.5149090794775675e-05,
3278
- "loss": 0.02955295443534851,
3279
- "step": 9320
3280
- },
3281
- {
3282
- "epoch": 0.874085959974771,
3283
- "grad_norm": 0.1535400152206421,
3284
- "learning_rate": 2.5065096293119604e-05,
3285
- "loss": 0.030047640204429626,
3286
- "step": 9340
3287
- },
3288
- {
3289
- "epoch": 0.8759576643858519,
3290
- "grad_norm": 0.383573979139328,
3291
- "learning_rate": 2.498110105663513e-05,
3292
- "loss": 0.011377302557229995,
3293
- "step": 9360
3294
- },
3295
- {
3296
- "epoch": 0.8778293687969327,
3297
- "grad_norm": 0.23541487753391266,
3298
- "learning_rate": 2.489710603348817e-05,
3299
- "loss": 0.02304387390613556,
3300
- "step": 9380
3301
- },
3302
- {
3303
- "epoch": 0.8797010732080136,
3304
- "grad_norm": 0.029004938900470734,
3305
- "learning_rate": 2.4813112171842162e-05,
3306
- "loss": 0.020582889020442963,
3307
- "step": 9400
3308
- },
3309
- {
3310
- "epoch": 0.8815727776190945,
3311
- "grad_norm": 0.06564116477966309,
3312
- "learning_rate": 2.4729120419847498e-05,
3313
- "loss": 0.014207787811756134,
3314
- "step": 9420
3315
- },
3316
- {
3317
- "epoch": 0.8834444820301753,
3318
- "grad_norm": 0.01633615791797638,
3319
- "learning_rate": 2.464513172563072e-05,
3320
- "loss": 0.01756283938884735,
3321
- "step": 9440
3322
- },
3323
- {
3324
- "epoch": 0.8853161864412563,
3325
- "grad_norm": 0.01287770178169012,
3326
- "learning_rate": 2.456114703728386e-05,
3327
- "loss": 0.003737853467464447,
3328
- "step": 9460
3329
- },
3330
- {
3331
- "epoch": 0.8871878908523372,
3332
- "grad_norm": 0.05004064738750458,
3333
- "learning_rate": 2.448136615728485e-05,
3334
- "loss": 0.0324675589799881,
3335
- "step": 9480
3336
- },
3337
- {
3338
- "epoch": 0.889059595263418,
3339
- "grad_norm": 1.20869779586792,
3340
- "learning_rate": 2.4397392007153162e-05,
3341
- "loss": 0.007156150788068772,
3342
- "step": 9500
3343
- },
3344
- {
3345
- "epoch": 0.8909312996744989,
3346
- "grad_norm": 1.1070218086242676,
3347
- "learning_rate": 2.43134246594589e-05,
3348
- "loss": 0.009275762736797333,
3349
- "step": 9520
3350
- },
3351
- {
3352
- "epoch": 0.8928030040855798,
3353
- "grad_norm": 0.878593385219574,
3354
- "learning_rate": 2.4229465062053136e-05,
3355
- "loss": 0.018170186877250673,
3356
- "step": 9540
3357
- },
3358
- {
3359
- "epoch": 2.236302797078385,
3360
- "grad_norm": 0.043156858533620834,
3361
- "learning_rate": 1.4461640332194936e-05,
3362
- "loss": 0.0786406546831131,
3363
- "step": 9560
3364
- },
3365
- {
3366
- "epoch": 2.2409820603868678,
3367
- "grad_norm": 5.726193904876709,
3368
- "learning_rate": 1.4366537531356394e-05,
3369
- "loss": 0.15552978515625,
3370
- "step": 9580
3371
- },
3372
- {
3373
- "epoch": 2.2456613236953507,
3374
- "grad_norm": 0.18552646040916443,
3375
- "learning_rate": 1.4271622228435674e-05,
3376
- "loss": 0.14015564918518067,
3377
- "step": 9600
3378
- },
3379
- {
3380
- "epoch": 2.2503405870038335,
3381
- "grad_norm": 0.08301093429327011,
3382
- "learning_rate": 1.4176896097057135e-05,
3383
- "loss": 0.0925659716129303,
3384
- "step": 9620
3385
- },
3386
- {
3387
- "epoch": 2.2550198503123164,
3388
- "grad_norm": 0.026666201651096344,
3389
- "learning_rate": 1.4082360807509482e-05,
3390
- "loss": 0.10548268556594849,
3391
- "step": 9640
3392
- },
3393
- {
3394
- "epoch": 2.2596991136207993,
3395
- "grad_norm": 1.1046574115753174,
3396
- "learning_rate": 1.3988018026716371e-05,
3397
- "loss": 0.04000181555747986,
3398
- "step": 9660
3399
- },
3400
- {
3401
- "epoch": 2.2643783769292822,
3402
- "grad_norm": 1.3641736507415771,
3403
- "learning_rate": 1.3893869418206949e-05,
3404
- "loss": 0.08331295847892761,
3405
- "step": 9680
3406
- },
3407
- {
3408
- "epoch": 2.269057640237765,
3409
- "grad_norm": 0.6985445022583008,
3410
- "learning_rate": 1.3799916642086585e-05,
3411
- "loss": 0.09075057506561279,
3412
- "step": 9700
3413
- },
3414
- {
3415
- "epoch": 2.273736903546248,
3416
- "grad_norm": 0.0306988712400198,
3417
- "learning_rate": 1.3706161355007579e-05,
3418
- "loss": 0.13399437665939332,
3419
- "step": 9720
3420
- },
3421
- {
3422
- "epoch": 2.278416166854731,
3423
- "grad_norm": 0.2675832509994507,
3424
- "learning_rate": 1.3612605210139912e-05,
3425
- "loss": 0.1272665500640869,
3426
- "step": 9740
3427
- },
3428
- {
3429
- "epoch": 2.283095430163214,
3430
- "grad_norm": 10.038541793823242,
3431
- "learning_rate": 1.3519249857142147e-05,
3432
- "loss": 0.118126380443573,
3433
- "step": 9760
3434
- },
3435
- {
3436
- "epoch": 2.2877746934716967,
3437
- "grad_norm": 0.015401734039187431,
3438
- "learning_rate": 1.3426096942132305e-05,
3439
- "loss": 0.08764986395835876,
3440
- "step": 9780
3441
- },
3442
- {
3443
- "epoch": 2.2924539567801796,
3444
- "grad_norm": 0.030456993728876114,
3445
- "learning_rate": 1.3333148107658883e-05,
3446
- "loss": 0.11266089677810669,
3447
- "step": 9800
3448
- },
3449
- {
3450
- "epoch": 2.2971332200886625,
3451
- "grad_norm": 0.11291567236185074,
3452
- "learning_rate": 1.3240404992671823e-05,
3453
- "loss": 0.05411486625671387,
3454
- "step": 9820
3455
- },
3456
- {
3457
- "epoch": 2.3018124833971454,
3458
- "grad_norm": 5.381721496582031,
3459
- "learning_rate": 1.3147869232493698e-05,
3460
- "loss": 0.17104675769805908,
3461
- "step": 9840
3462
- },
3463
- {
3464
- "epoch": 2.306491746705628,
3465
- "grad_norm": 0.05387361720204353,
3466
- "learning_rate": 1.305554245879079e-05,
3467
- "loss": 0.03889726996421814,
3468
- "step": 9860
3469
- },
3470
- {
3471
- "epoch": 2.3111710100141107,
3472
- "grad_norm": 0.1429348886013031,
3473
- "learning_rate": 1.296342629954439e-05,
3474
- "loss": 0.11462880373001098,
3475
- "step": 9880
3476
- },
3477
- {
3478
- "epoch": 2.3158502733225936,
3479
- "grad_norm": 0.8317188024520874,
3480
- "learning_rate": 1.2871522379022038e-05,
3481
- "loss": 0.04742775857448578,
3482
- "step": 9900
3483
- },
3484
- {
3485
- "epoch": 2.3205295366310765,
3486
- "grad_norm": 0.12162027508020401,
3487
- "learning_rate": 1.2779832317748933e-05,
3488
- "loss": 0.10024887323379517,
3489
- "step": 9920
3490
- },
3491
- {
3492
- "epoch": 2.3252087999395594,
3493
- "grad_norm": 11.173067092895508,
3494
- "learning_rate": 1.2688357732479303e-05,
3495
- "loss": 0.10983879566192627,
3496
- "step": 9940
3497
- },
3498
- {
3499
- "epoch": 2.3298880632480423,
3500
- "grad_norm": 0.03047860600054264,
3501
- "learning_rate": 1.2597100236167963e-05,
3502
- "loss": 0.08037717342376709,
3503
- "step": 9960
3504
- },
3505
- {
3506
- "epoch": 2.334567326556525,
3507
- "grad_norm": 0.0170467309653759,
3508
- "learning_rate": 1.2506061437941804e-05,
3509
- "loss": 0.033829569816589355,
3510
- "step": 9980
3511
- },
3512
- {
3513
- "epoch": 2.339246589865008,
3514
- "grad_norm": 0.07754386961460114,
3515
- "learning_rate": 1.241524294307147e-05,
3516
- "loss": 0.04207524955272675,
3517
- "step": 10000
3518
- },
3519
- {
3520
- "epoch": 2.343925853173491,
3521
- "grad_norm": 0.08229111135005951,
3522
- "learning_rate": 1.232464635294302e-05,
3523
- "loss": 0.04404653012752533,
3524
- "step": 10020
3525
- }
3526
- ],
3527
- "logging_steps": 20,
3528
- "max_steps": 14963,
3529
- "num_input_tokens_seen": 0,
3530
- "num_train_epochs": 4,
3531
- "save_steps": 1000000000,
3532
- "stateful_callbacks": {
3533
- "TrainerControl": {
3534
- "args": {
3535
- "should_epoch_stop": false,
3536
- "should_evaluate": false,
3537
- "should_log": false,
3538
- "should_save": true,
3539
- "should_training_stop": false
3540
- },
3541
- "attributes": {}
3542
- }
3543
- },
3544
- "total_flos": 3.844023334771277e+16,
3545
- "train_batch_size": 1,
3546
- "trial_name": null,
3547
- "trial_params": null
3548
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/19/checkpoint-10023/training_args.bin DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:66430bba102a8f3dc245713cd6268a99c212c508aacce1d8b9768464f5df26ec
3
- size 5201