aixk commited on
Commit
9f81969
·
1 Parent(s): 580891a

update slot resume pointers for step 8030

Browse files
slots/13/checkpoint-7867/config.json DELETED
@@ -1,24 +0,0 @@
1
- {
2
- "architectures": [
3
- "IsaiahForCausalLM"
4
- ],
5
- "attention_dropout": 0.0,
6
- "dtype": "float32",
7
- "hidden_dropout": 0.0,
8
- "hidden_size": 1024,
9
- "initializer_range": 0.02,
10
- "intermediate_size": 4096,
11
- "max_position_embeddings": 160,
12
- "model_type": "isaiah",
13
- "neftune_alpha": 0.0,
14
- "num_attention_heads": 16,
15
- "num_hidden_layers": 16,
16
- "num_key_value_heads": 4,
17
- "qk_norm": true,
18
- "rezero_init": 1.0,
19
- "rms_norm_eps": 1e-06,
20
- "rope_theta": 10000.0,
21
- "transformers_version": "5.0.0",
22
- "use_cache": false,
23
- "vocab_size": 32000
24
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/13/checkpoint-7867/trainer_state.json DELETED
@@ -1,2792 +0,0 @@
1
- {
2
- "best_global_step": null,
3
- "best_metric": null,
4
- "best_model_checkpoint": null,
5
- "epoch": 0.34127961781194444,
6
- "eval_steps": 500,
7
- "global_step": 7867,
8
- "is_hyper_param_search": false,
9
- "is_local_process_zero": true,
10
- "is_world_process_zero": true,
11
- "log_history": [
12
- {
13
- "epoch": 0.00015183386844227941,
14
- "grad_norm": 91.41053771972656,
15
- "learning_rate": 5e-05,
16
- "loss": 1013.596923828125,
17
- "step": 1
18
- },
19
- {
20
- "epoch": 0.003036677368845588,
21
- "grad_norm": 128.77392578125,
22
- "learning_rate": 4.99998526084367e-05,
23
- "loss": 928.9828330592105,
24
- "step": 20
25
- },
26
- {
27
- "epoch": 0.006073354737691176,
28
- "grad_norm": 89.98699951171875,
29
- "learning_rate": 4.9999410435484726e-05,
30
- "loss": 811.4373046875,
31
- "step": 40
32
- },
33
- {
34
- "epoch": 0.009110032106536764,
35
- "grad_norm": 52.5091438293457,
36
- "learning_rate": 4.9998573407405316e-05,
37
- "loss": 761.7615234375,
38
- "step": 60
39
- },
40
- {
41
- "epoch": 0.012146709475382352,
42
- "grad_norm": 43.218017578125,
43
- "learning_rate": 4.999737247039103e-05,
44
- "loss": 741.289501953125,
45
- "step": 80
46
- },
47
- {
48
- "epoch": 0.015183386844227941,
49
- "grad_norm": 53.97433853149414,
50
- "learning_rate": 4.9995807641924135e-05,
51
- "loss": 725.4333984375,
52
- "step": 100
53
- },
54
- {
55
- "epoch": 0.01822006421307353,
56
- "grad_norm": 58.722232818603516,
57
- "learning_rate": 4.9993878944784136e-05,
58
- "loss": 715.616015625,
59
- "step": 120
60
- },
61
- {
62
- "epoch": 0.021256741581919116,
63
- "grad_norm": 63.764610290527344,
64
- "learning_rate": 4.999158640704742e-05,
65
- "loss": 698.364794921875,
66
- "step": 140
67
- },
68
- {
69
- "epoch": 0.024293418950764704,
70
- "grad_norm": 81.58174896240234,
71
- "learning_rate": 4.998893006208691e-05,
72
- "loss": 685.3453125,
73
- "step": 160
74
- },
75
- {
76
- "epoch": 0.027330096319610295,
77
- "grad_norm": 75.00901794433594,
78
- "learning_rate": 4.9985909948571527e-05,
79
- "loss": 675.01171875,
80
- "step": 180
81
- },
82
- {
83
- "epoch": 0.030366773688455882,
84
- "grad_norm": 106.4965591430664,
85
- "learning_rate": 4.998252611046561e-05,
86
- "loss": 661.97890625,
87
- "step": 200
88
- },
89
- {
90
- "epoch": 0.03340345105730147,
91
- "grad_norm": 66.66131591796875,
92
- "learning_rate": 4.997877859702834e-05,
93
- "loss": 656.54736328125,
94
- "step": 220
95
- },
96
- {
97
- "epoch": 0.03644012842614706,
98
- "grad_norm": 100.64048767089844,
99
- "learning_rate": 4.9974667462812965e-05,
100
- "loss": 650.53447265625,
101
- "step": 240
102
- },
103
- {
104
- "epoch": 0.039476805794992645,
105
- "grad_norm": 76.53395080566406,
106
- "learning_rate": 4.9970192767666044e-05,
107
- "loss": 639.15849609375,
108
- "step": 260
109
- },
110
- {
111
- "epoch": 0.04251348316383823,
112
- "grad_norm": 88.33858489990234,
113
- "learning_rate": 4.996535457672656e-05,
114
- "loss": 633.5654296875,
115
- "step": 280
116
- },
117
- {
118
- "epoch": 0.04555016053268382,
119
- "grad_norm": 84.0911865234375,
120
- "learning_rate": 4.996015296042497e-05,
121
- "loss": 634.099951171875,
122
- "step": 300
123
- },
124
- {
125
- "epoch": 0.04858691474672964,
126
- "grad_norm": 94.41912078857422,
127
- "learning_rate": 4.9999897644716974e-05,
128
- "loss": 711.8211167279412,
129
- "step": 320
130
- },
131
- {
132
- "epoch": 0.05162359691840024,
133
- "grad_norm": 91.57540893554688,
134
- "learning_rate": 4.999944273403803e-05,
135
- "loss": 691.16796875,
136
- "step": 340
137
- },
138
- {
139
- "epoch": 0.05466027909007084,
140
- "grad_norm": 102.95606994628906,
141
- "learning_rate": 4.9998673486357894e-05,
142
- "loss": 684.7939453125,
143
- "step": 360
144
- },
145
- {
146
- "epoch": 0.05769696126174144,
147
- "grad_norm": 99.65682983398438,
148
- "learning_rate": 4.999750893953781e-05,
149
- "loss": 680.48828125,
150
- "step": 380
151
- },
152
- {
153
- "epoch": 0.060733643433412046,
154
- "grad_norm": 112.4695816040039,
155
- "learning_rate": 4.9995980499278494e-05,
156
- "loss": 675.817822265625,
157
- "step": 400
158
- },
159
- {
160
- "epoch": 0.06377032560508265,
161
- "grad_norm": 82.0074691772461,
162
- "learning_rate": 4.9994088187829756e-05,
163
- "loss": 663.119140625,
164
- "step": 420
165
- },
166
- {
167
- "epoch": 0.06680700777675325,
168
- "grad_norm": 96.62723541259766,
169
- "learning_rate": 4.999183203273833e-05,
170
- "loss": 661.77353515625,
171
- "step": 440
172
- },
173
- {
174
- "epoch": 0.06984368994842385,
175
- "grad_norm": 99.35919952392578,
176
- "learning_rate": 4.998921206684748e-05,
177
- "loss": 656.063134765625,
178
- "step": 460
179
- },
180
- {
181
- "epoch": 0.07288037212009445,
182
- "grad_norm": 97.6092758178711,
183
- "learning_rate": 4.998622832829655e-05,
184
- "loss": 658.578466796875,
185
- "step": 480
186
- },
187
- {
188
- "epoch": 0.07591705429176505,
189
- "grad_norm": 88.02263641357422,
190
- "learning_rate": 4.9982880860520386e-05,
191
- "loss": 656.30810546875,
192
- "step": 500
193
- },
194
- {
195
- "epoch": 0.07895373646343566,
196
- "grad_norm": 117.71761322021484,
197
- "learning_rate": 4.99791697122487e-05,
198
- "loss": 652.0546875,
199
- "step": 520
200
- },
201
- {
202
- "epoch": 0.023425828602828273,
203
- "grad_norm": 114.52953338623047,
204
- "learning_rate": 4.9999993722319546e-05,
205
- "loss": 680.5703776041667,
206
- "step": 540
207
- },
208
- {
209
- "epoch": 0.024293451884414504,
210
- "grad_norm": 112.35067749023438,
211
- "learning_rate": 4.999995954797362e-05,
212
- "loss": 666.2451171875,
213
- "step": 560
214
- },
215
- {
216
- "epoch": 0.025161075166000735,
217
- "grad_norm": 84.08537292480469,
218
- "learning_rate": 4.999989565684691e-05,
219
- "loss": 664.393359375,
220
- "step": 580
221
- },
222
- {
223
- "epoch": 0.026028698447586967,
224
- "grad_norm": 130.15928649902344,
225
- "learning_rate": 4.9999802049015365e-05,
226
- "loss": 662.348291015625,
227
- "step": 600
228
- },
229
- {
230
- "epoch": 0.026896321729173202,
231
- "grad_norm": 103.99536895751953,
232
- "learning_rate": 4.999967872459026e-05,
233
- "loss": 659.2578125,
234
- "step": 620
235
- },
236
- {
237
- "epoch": 0.027763945010759433,
238
- "grad_norm": 101.37040710449219,
239
- "learning_rate": 4.9999525683718174e-05,
240
- "loss": 658.54638671875,
241
- "step": 640
242
- },
243
- {
244
- "epoch": 0.028631568292345665,
245
- "grad_norm": 98.98956298828125,
246
- "learning_rate": 4.999934292658104e-05,
247
- "loss": 652.716845703125,
248
- "step": 660
249
- },
250
- {
251
- "epoch": 0.0688314262698175,
252
- "grad_norm": 114.9826431274414,
253
- "learning_rate": 4.999993448199386e-05,
254
- "loss": 676.5150390625,
255
- "step": 680
256
- },
257
- {
258
- "epoch": 0.07085587998363567,
259
- "grad_norm": 97.52400207519531,
260
- "learning_rate": 4.999970800043822e-05,
261
- "loss": 672.913720703125,
262
- "step": 700
263
- },
264
- {
265
- "epoch": 0.07288033369745382,
266
- "grad_norm": 119.27461242675781,
267
- "learning_rate": 4.9999319747933995e-05,
268
- "loss": 668.961376953125,
269
- "step": 720
270
- },
271
- {
272
- "epoch": 0.07490478741127199,
273
- "grad_norm": 108.82205963134766,
274
- "learning_rate": 4.999876972699352e-05,
275
- "loss": 665.568994140625,
276
- "step": 740
277
- },
278
- {
279
- "epoch": 0.07692924112509016,
280
- "grad_norm": 143.65585327148438,
281
- "learning_rate": 4.999805794117596e-05,
282
- "loss": 661.4259765625,
283
- "step": 760
284
- },
285
- {
286
- "epoch": 0.07895369483890831,
287
- "grad_norm": 101.48106384277344,
288
- "learning_rate": 4.9997231914115064e-05,
289
- "loss": 660.966015625,
290
- "step": 780
291
- },
292
- {
293
- "epoch": 0.08097814855272648,
294
- "grad_norm": 118.77201843261719,
295
- "learning_rate": 4.9996204700988264e-05,
296
- "loss": 654.88798828125,
297
- "step": 800
298
- },
299
- {
300
- "epoch": 0.08300260226654464,
301
- "grad_norm": 97.97103881835938,
302
- "learning_rate": 4.9995015739582426e-05,
303
- "loss": 655.855517578125,
304
- "step": 820
305
- },
306
- {
307
- "epoch": 0.0850270559803628,
308
- "grad_norm": 112.38823699951172,
309
- "learning_rate": 4.9993665037591234e-05,
310
- "loss": 649.156201171875,
311
- "step": 840
312
- },
313
- {
314
- "epoch": 0.08705150969418096,
315
- "grad_norm": 98.14862060546875,
316
- "learning_rate": 4.9992152603754935e-05,
317
- "loss": 652.241064453125,
318
- "step": 860
319
- },
320
- {
321
- "epoch": 0.08907596340799913,
322
- "grad_norm": 107.33179473876953,
323
- "learning_rate": 4.9990478447860365e-05,
324
- "loss": 649.800537109375,
325
- "step": 880
326
- },
327
- {
328
- "epoch": 0.09110041712181728,
329
- "grad_norm": 89.38690948486328,
330
- "learning_rate": 4.998864258074086e-05,
331
- "loss": 644.5462890625,
332
- "step": 900
333
- },
334
- {
335
- "epoch": 0.09312487083563545,
336
- "grad_norm": Infinity,
337
- "learning_rate": 4.9986645014276134e-05,
338
- "loss": 645.86826171875,
339
- "step": 920
340
- },
341
- {
342
- "epoch": 0.09514932454945361,
343
- "grad_norm": 125.2510757446289,
344
- "learning_rate": 4.9984597563877464e-05,
345
- "loss": 643.441357421875,
346
- "step": 940
347
- },
348
- {
349
- "epoch": 0.09717377826327177,
350
- "grad_norm": Infinity,
351
- "learning_rate": 5e-05,
352
- "loss": 599.23876953125,
353
- "step": 960
354
- },
355
- {
356
- "epoch": 0.09919823197708993,
357
- "grad_norm": 124.58181762695312,
358
- "learning_rate": 4.999992700000298e-05,
359
- "loss": 565.266455078125,
360
- "step": 980
361
- },
362
- {
363
- "epoch": 0.10122268569090809,
364
- "grad_norm": 97.4952163696289,
365
- "learning_rate": 4.999969242985639e-05,
366
- "loss": 552.871435546875,
367
- "step": 1000
368
- },
369
- {
370
- "epoch": 0.10324713940472625,
371
- "grad_norm": 91.78075408935547,
372
- "learning_rate": 4.999929608886198e-05,
373
- "loss": 553.4515625,
374
- "step": 1020
375
- },
376
- {
377
- "epoch": 0.10527159311854442,
378
- "grad_norm": 90.69072723388672,
379
- "learning_rate": 4.999876972699352e-05,
380
- "loss": 545.360595703125,
381
- "step": 1040
382
- },
383
- {
384
- "epoch": 0.10729604683236257,
385
- "grad_norm": 82.90885925292969,
386
- "learning_rate": 4.999805794117596e-05,
387
- "loss": 545.597119140625,
388
- "step": 1060
389
- },
390
- {
391
- "epoch": 0.10932050054618074,
392
- "grad_norm": 109.15331268310547,
393
- "learning_rate": 4.99971843950872e-05,
394
- "loss": 540.0650390625,
395
- "step": 1080
396
- },
397
- {
398
- "epoch": 0.11134495425999891,
399
- "grad_norm": 96.9873275756836,
400
- "learning_rate": 4.999614909437988e-05,
401
- "loss": 534.475830078125,
402
- "step": 1100
403
- },
404
- {
405
- "epoch": 0.11336940797381706,
406
- "grad_norm": 86.17156982421875,
407
- "learning_rate": 4.9994952045753366e-05,
408
- "loss": 539.829296875,
409
- "step": 1120
410
- },
411
- {
412
- "epoch": 0.11539386168763523,
413
- "grad_norm": 122.1972427368164,
414
- "learning_rate": 4.999359325695363e-05,
415
- "loss": 536.82841796875,
416
- "step": 1140
417
- },
418
- {
419
- "epoch": 0.1174183154014534,
420
- "grad_norm": 80.08365631103516,
421
- "learning_rate": 4.9992072736773275e-05,
422
- "loss": 524.685400390625,
423
- "step": 1160
424
- },
425
- {
426
- "epoch": 0.11944276911527155,
427
- "grad_norm": 85.38316345214844,
428
- "learning_rate": 4.999039049505148e-05,
429
- "loss": 527.760791015625,
430
- "step": 1180
431
- },
432
- {
433
- "epoch": 0.12146722282908971,
434
- "grad_norm": 116.98209381103516,
435
- "learning_rate": 4.998854654267387e-05,
436
- "loss": 530.089306640625,
437
- "step": 1200
438
- },
439
- {
440
- "epoch": 0.12349167654290788,
441
- "grad_norm": 81.59492492675781,
442
- "learning_rate": 4.998654089157249e-05,
443
- "loss": 524.530908203125,
444
- "step": 1220
445
- },
446
- {
447
- "epoch": 0.12551613025672603,
448
- "grad_norm": 87.97933959960938,
449
- "learning_rate": 4.998437355472576e-05,
450
- "loss": 520.95693359375,
451
- "step": 1240
452
- },
453
- {
454
- "epoch": 0.12754058397054419,
455
- "grad_norm": 88.46687316894531,
456
- "learning_rate": 4.998204454615831e-05,
457
- "loss": 517.149560546875,
458
- "step": 1260
459
- },
460
- {
461
- "epoch": 0.12956503768436237,
462
- "grad_norm": 97.07532501220703,
463
- "learning_rate": 4.997955388094097e-05,
464
- "loss": 516.886376953125,
465
- "step": 1280
466
- },
467
- {
468
- "epoch": 0.13158949139818052,
469
- "grad_norm": 105.70747375488281,
470
- "learning_rate": 4.997690157519059e-05,
471
- "loss": 517.590673828125,
472
- "step": 1300
473
- },
474
- {
475
- "epoch": 0.13361394511199867,
476
- "grad_norm": 114.41730499267578,
477
- "learning_rate": 4.997408764607005e-05,
478
- "loss": 515.4822265625,
479
- "step": 1320
480
- },
481
- {
482
- "epoch": 0.13563839882581685,
483
- "grad_norm": 86.80391693115234,
484
- "learning_rate": 4.997111211178801e-05,
485
- "loss": 512.03515625,
486
- "step": 1340
487
- },
488
- {
489
- "epoch": 0.137662852539635,
490
- "grad_norm": 80.7691421508789,
491
- "learning_rate": 4.996797499159892e-05,
492
- "loss": 506.872998046875,
493
- "step": 1360
494
- },
495
- {
496
- "epoch": 0.13968730625345316,
497
- "grad_norm": 91.66568756103516,
498
- "learning_rate": 4.9964676305802794e-05,
499
- "loss": 514.529248046875,
500
- "step": 1380
501
- },
502
- {
503
- "epoch": 0.14171175996727134,
504
- "grad_norm": 89.29586791992188,
505
- "learning_rate": 4.9961216075745145e-05,
506
- "loss": 508.17666015625,
507
- "step": 1400
508
- },
509
- {
510
- "epoch": 0.1437362136810895,
511
- "grad_norm": 109.5767593383789,
512
- "learning_rate": 4.9957594323816834e-05,
513
- "loss": 503.719482421875,
514
- "step": 1420
515
- },
516
- {
517
- "epoch": 0.14576066739490764,
518
- "grad_norm": 88.2542495727539,
519
- "learning_rate": 4.995381107345389e-05,
520
- "loss": 499.80751953125,
521
- "step": 1440
522
- },
523
- {
524
- "epoch": 0.14778512110872583,
525
- "grad_norm": 98.4202651977539,
526
- "learning_rate": 4.9949866349137414e-05,
527
- "loss": 497.896435546875,
528
- "step": 1460
529
- },
530
- {
531
- "epoch": 0.14980957482254398,
532
- "grad_norm": 101.47189331054688,
533
- "learning_rate": 4.994576017639336e-05,
534
- "loss": 497.0865234375,
535
- "step": 1480
536
- },
537
- {
538
- "epoch": 0.15183402853636213,
539
- "grad_norm": 99.08831787109375,
540
- "learning_rate": 4.9941492581792434e-05,
541
- "loss": 498.08486328125,
542
- "step": 1500
543
- },
544
- {
545
- "epoch": 0.1538584822501803,
546
- "grad_norm": 90.61394500732422,
547
- "learning_rate": 4.993706359294986e-05,
548
- "loss": 492.168408203125,
549
- "step": 1520
550
- },
551
- {
552
- "epoch": 0.15588293596399846,
553
- "grad_norm": 110.01075744628906,
554
- "learning_rate": 4.9932473238525247e-05,
555
- "loss": 495.432958984375,
556
- "step": 1540
557
- },
558
- {
559
- "epoch": 0.15790738967781662,
560
- "grad_norm": 100.31326293945312,
561
- "learning_rate": 4.9927721548222374e-05,
562
- "loss": 488.998291015625,
563
- "step": 1560
564
- },
565
- {
566
- "epoch": 0.1599318433916348,
567
- "grad_norm": 79.81046295166016,
568
- "learning_rate": 4.992280855278903e-05,
569
- "loss": 486.6220703125,
570
- "step": 1580
571
- },
572
- {
573
- "epoch": 0.16195629710545295,
574
- "grad_norm": 103.98905944824219,
575
- "learning_rate": 4.991773428401676e-05,
576
- "loss": 486.88388671875,
577
- "step": 1600
578
- },
579
- {
580
- "epoch": 0.1639807508192711,
581
- "grad_norm": 91.88626861572266,
582
- "learning_rate": 4.991249877474075e-05,
583
- "loss": 487.03994140625,
584
- "step": 1620
585
- },
586
- {
587
- "epoch": 0.16600520453308928,
588
- "grad_norm": 99.99327850341797,
589
- "learning_rate": 4.9907102058839504e-05,
590
- "loss": 487.4203125,
591
- "step": 1640
592
- },
593
- {
594
- "epoch": 0.16802965824690744,
595
- "grad_norm": 101.7360610961914,
596
- "learning_rate": 4.990154417123472e-05,
597
- "loss": 485.78876953125,
598
- "step": 1660
599
- },
600
- {
601
- "epoch": 0.1700541119607256,
602
- "grad_norm": 84.13375091552734,
603
- "learning_rate": 4.9895825147891e-05,
604
- "loss": 486.884326171875,
605
- "step": 1680
606
- },
607
- {
608
- "epoch": 0.17207856567454377,
609
- "grad_norm": 109.67373657226562,
610
- "learning_rate": 4.988994502581565e-05,
611
- "loss": 485.81005859375,
612
- "step": 1700
613
- },
614
- {
615
- "epoch": 0.17410301938836192,
616
- "grad_norm": 83.98812103271484,
617
- "learning_rate": 4.988390384305843e-05,
618
- "loss": 483.68251953125,
619
- "step": 1720
620
- },
621
- {
622
- "epoch": 0.10567650614643256,
623
- "grad_norm": Infinity,
624
- "learning_rate": 5e-05,
625
- "loss": 638.3512573242188,
626
- "step": 1740
627
- },
628
- {
629
- "epoch": 0.10689117863087431,
630
- "grad_norm": 119.68628692626953,
631
- "learning_rate": 4.9999976411601244e-05,
632
- "loss": 612.46064453125,
633
- "step": 1760
634
- },
635
- {
636
- "epoch": 0.10810585111531607,
637
- "grad_norm": 177.01918029785156,
638
- "learning_rate": 4.999990033178544e-05,
639
- "loss": 602.578076171875,
640
- "step": 1780
641
- },
642
- {
643
- "epoch": 0.10932052359975783,
644
- "grad_norm": 171.78785705566406,
645
- "learning_rate": 4.9999763461114946e-05,
646
- "loss": 595.524169921875,
647
- "step": 1800
648
- },
649
- {
650
- "epoch": 0.11053519608419958,
651
- "grad_norm": 127.83625793457031,
652
- "learning_rate": 4.999956834803778e-05,
653
- "loss": 593.985400390625,
654
- "step": 1820
655
- },
656
- {
657
- "epoch": 0.11174986856864133,
658
- "grad_norm": 118.50973510742188,
659
- "learning_rate": 4.9999314993008504e-05,
660
- "loss": 593.784814453125,
661
- "step": 1840
662
- },
663
- {
664
- "epoch": 0.11296454105308308,
665
- "grad_norm": 173.1148681640625,
666
- "learning_rate": 4.999900339661735e-05,
667
- "loss": 592.070361328125,
668
- "step": 1860
669
- },
670
- {
671
- "epoch": 0.11417921353752485,
672
- "grad_norm": 136.09713745117188,
673
- "learning_rate": 4.9998633559590266e-05,
674
- "loss": 589.0634765625,
675
- "step": 1880
676
- },
677
- {
678
- "epoch": 0.1153938860219666,
679
- "grad_norm": 122.50788879394531,
680
- "learning_rate": 4.999820548278885e-05,
681
- "loss": 582.531005859375,
682
- "step": 1900
683
- },
684
- {
685
- "epoch": 0.11660855850640835,
686
- "grad_norm": 105.60628509521484,
687
- "learning_rate": 4.999771916721042e-05,
688
- "loss": 590.70634765625,
689
- "step": 1920
690
- },
691
- {
692
- "epoch": 0.1178232309908501,
693
- "grad_norm": 111.0425796508789,
694
- "learning_rate": 4.999717461398794e-05,
695
- "loss": 581.921240234375,
696
- "step": 1940
697
- },
698
- {
699
- "epoch": 0.11903790347529185,
700
- "grad_norm": 136.53347778320312,
701
- "learning_rate": 4.9996571824390065e-05,
702
- "loss": 577.843115234375,
703
- "step": 1960
704
- },
705
- {
706
- "epoch": 0.12025257595973361,
707
- "grad_norm": 103.87166595458984,
708
- "learning_rate": 4.9995910799821134e-05,
709
- "loss": 581.935009765625,
710
- "step": 1980
711
- },
712
- {
713
- "epoch": 0.12146724844417536,
714
- "grad_norm": 122.83851623535156,
715
- "learning_rate": 4.999519154182114e-05,
716
- "loss": 581.473779296875,
717
- "step": 2000
718
- },
719
- {
720
- "epoch": 0.30670489933873085,
721
- "grad_norm": 118.4366455078125,
722
- "learning_rate": 5e-05,
723
- "loss": 566.3182373046875,
724
- "step": 2020
725
- },
726
- {
727
- "epoch": 0.30974158151040143,
728
- "grad_norm": 93.9906997680664,
729
- "learning_rate": 4.999983577670253e-05,
730
- "loss": 572.564208984375,
731
- "step": 2040
732
- },
733
- {
734
- "epoch": 0.312778263682072,
735
- "grad_norm": 117.0743637084961,
736
- "learning_rate": 4.999934310896764e-05,
737
- "loss": 563.7841796875,
738
- "step": 2060
739
- },
740
- {
741
- "epoch": 0.31581494585374265,
742
- "grad_norm": 115.43646240234375,
743
- "learning_rate": 4.999846968935902e-05,
744
- "loss": 560.27802734375,
745
- "step": 2080
746
- },
747
- {
748
- "epoch": 0.3188516280254132,
749
- "grad_norm": 114.64088439941406,
750
- "learning_rate": 4.999723236232536e-05,
751
- "loss": 561.4779296875,
752
- "step": 2100
753
- },
754
- {
755
- "epoch": 0.32188831019708386,
756
- "grad_norm": 115.49713134765625,
757
- "learning_rate": 4.9995631145878675e-05,
758
- "loss": 569.9380859375,
759
- "step": 2120
760
- },
761
- {
762
- "epoch": 0.32492499236875444,
763
- "grad_norm": 90.72515869140625,
764
- "learning_rate": 4.999366606332817e-05,
765
- "loss": 560.292333984375,
766
- "step": 2140
767
- },
768
- {
769
- "epoch": 0.327961674540425,
770
- "grad_norm": 94.22215270996094,
771
- "learning_rate": 4.999133714327992e-05,
772
- "loss": 553.107666015625,
773
- "step": 2160
774
- },
775
- {
776
- "epoch": 0.33099835671209565,
777
- "grad_norm": 102.5918960571289,
778
- "learning_rate": 4.998864441963643e-05,
779
- "loss": 556.195361328125,
780
- "step": 2180
781
- },
782
- {
783
- "epoch": 0.33403503888376623,
784
- "grad_norm": 130.70706176757812,
785
- "learning_rate": 4.998558793159622e-05,
786
- "loss": 556.1953125,
787
- "step": 2200
788
- },
789
- {
790
- "epoch": 0.33707172105543687,
791
- "grad_norm": 111.88673400878906,
792
- "learning_rate": 4.998216772365315e-05,
793
- "loss": 557.0876953125,
794
- "step": 2220
795
- },
796
- {
797
- "epoch": 0.34010840322710745,
798
- "grad_norm": 117.71963500976562,
799
- "learning_rate": 4.9978383845595826e-05,
800
- "loss": 557.620068359375,
801
- "step": 2240
802
- },
803
- {
804
- "epoch": 0.343145085398778,
805
- "grad_norm": 97.68840026855469,
806
- "learning_rate": 4.9974236352506874e-05,
807
- "loss": 555.032373046875,
808
- "step": 2260
809
- },
810
- {
811
- "epoch": 0.34618176757044866,
812
- "grad_norm": 110.69097900390625,
813
- "learning_rate": 4.996972530476213e-05,
814
- "loss": 554.2564453125,
815
- "step": 2280
816
- },
817
- {
818
- "epoch": 0.34921844974211924,
819
- "grad_norm": 117.8437728881836,
820
- "learning_rate": 4.996485076802976e-05,
821
- "loss": 553.471826171875,
822
- "step": 2300
823
- },
824
- {
825
- "epoch": 0.3522551319137899,
826
- "grad_norm": 93.11846923828125,
827
- "learning_rate": 4.995961281326932e-05,
828
- "loss": 547.875341796875,
829
- "step": 2320
830
- },
831
- {
832
- "epoch": 0.35529181408546046,
833
- "grad_norm": 112.87896728515625,
834
- "learning_rate": 4.99540115167307e-05,
835
- "loss": 555.697265625,
836
- "step": 2340
837
- },
838
- {
839
- "epoch": 0.3583284962571311,
840
- "grad_norm": 97.52216339111328,
841
- "learning_rate": 4.994804695995303e-05,
842
- "loss": 546.91748046875,
843
- "step": 2360
844
- },
845
- {
846
- "epoch": 0.36136517842880167,
847
- "grad_norm": 104.06327056884766,
848
- "learning_rate": 4.994171922976348e-05,
849
- "loss": 545.298828125,
850
- "step": 2380
851
- },
852
- {
853
- "epoch": 0.36440186060047225,
854
- "grad_norm": 110.4811019897461,
855
- "learning_rate": 4.993502841827601e-05,
856
- "loss": 545.938232421875,
857
- "step": 2400
858
- },
859
- {
860
- "epoch": 0.3674385427721429,
861
- "grad_norm": 94.96924591064453,
862
- "learning_rate": 4.992797462289002e-05,
863
- "loss": 543.59873046875,
864
- "step": 2420
865
- },
866
- {
867
- "epoch": 0.37047522494381346,
868
- "grad_norm": 105.82535552978516,
869
- "learning_rate": 4.9920557946288946e-05,
870
- "loss": 546.985009765625,
871
- "step": 2440
872
- },
873
- {
874
- "epoch": 0.3735119071154841,
875
- "grad_norm": 116.1602554321289,
876
- "learning_rate": 4.991277849643873e-05,
877
- "loss": 543.735498046875,
878
- "step": 2460
879
- },
880
- {
881
- "epoch": 0.3765485892871547,
882
- "grad_norm": 114.22776794433594,
883
- "learning_rate": 4.990463638658629e-05,
884
- "loss": 541.33115234375,
885
- "step": 2480
886
- },
887
- {
888
- "epoch": 0.37958527145882526,
889
- "grad_norm": 110.11952209472656,
890
- "learning_rate": 4.989613173525786e-05,
891
- "loss": 539.22998046875,
892
- "step": 2500
893
- },
894
- {
895
- "epoch": 0.3826219536304959,
896
- "grad_norm": 100.76897430419922,
897
- "learning_rate": 4.9887264666257225e-05,
898
- "loss": 534.1103515625,
899
- "step": 2520
900
- },
901
- {
902
- "epoch": 0.38565863580216647,
903
- "grad_norm": 143.88633728027344,
904
- "learning_rate": 4.9878035308664005e-05,
905
- "loss": 542.872705078125,
906
- "step": 2540
907
- },
908
- {
909
- "epoch": 0.3886953179738371,
910
- "grad_norm": 141.91552734375,
911
- "learning_rate": 4.9868443796831686e-05,
912
- "loss": 540.77744140625,
913
- "step": 2560
914
- },
915
- {
916
- "epoch": 0.3917320001455077,
917
- "grad_norm": 107.48712158203125,
918
- "learning_rate": 4.985849027038571e-05,
919
- "loss": 535.156103515625,
920
- "step": 2580
921
- },
922
- {
923
- "epoch": 0.39476868231717827,
924
- "grad_norm": 108.82980346679688,
925
- "learning_rate": 4.984817487422142e-05,
926
- "loss": 537.34169921875,
927
- "step": 2600
928
- },
929
- {
930
- "epoch": 0.3978053644888489,
931
- "grad_norm": 144.6007080078125,
932
- "learning_rate": 4.983749775850199e-05,
933
- "loss": 538.90009765625,
934
- "step": 2620
935
- },
936
- {
937
- "epoch": 0.4008420466605195,
938
- "grad_norm": 137.44659423828125,
939
- "learning_rate": 4.9826459078656194e-05,
940
- "loss": 542.628076171875,
941
- "step": 2640
942
- },
943
- {
944
- "epoch": 0.4038787288321901,
945
- "grad_norm": 115.24795532226562,
946
- "learning_rate": 4.981505899537619e-05,
947
- "loss": 533.2291015625,
948
- "step": 2660
949
- },
950
- {
951
- "epoch": 0.4069154110038607,
952
- "grad_norm": 114.89422607421875,
953
- "learning_rate": 4.980329767461511e-05,
954
- "loss": 532.064208984375,
955
- "step": 2680
956
- },
957
- {
958
- "epoch": 0.4099520931755313,
959
- "grad_norm": 134.90200805664062,
960
- "learning_rate": 4.9791175287584725e-05,
961
- "loss": 537.6201171875,
962
- "step": 2700
963
- },
964
- {
965
- "epoch": 0.4129887753472019,
966
- "grad_norm": 133.92173767089844,
967
- "learning_rate": 4.9778692010752903e-05,
968
- "loss": 531.06826171875,
969
- "step": 2720
970
- },
971
- {
972
- "epoch": 0.4160254575188725,
973
- "grad_norm": 104.6704330444336,
974
- "learning_rate": 4.976584802584105e-05,
975
- "loss": 536.9376953125,
976
- "step": 2740
977
- },
978
- {
979
- "epoch": 0.4190621396905431,
980
- "grad_norm": 101.63923645019531,
981
- "learning_rate": 4.9752643519821477e-05,
982
- "loss": 536.770458984375,
983
- "step": 2760
984
- },
985
- {
986
- "epoch": 0.4220988218622137,
987
- "grad_norm": 100.10745239257812,
988
- "learning_rate": 4.9739078684914656e-05,
989
- "loss": 536.27080078125,
990
- "step": 2780
991
- },
992
- {
993
- "epoch": 0.42513550403388434,
994
- "grad_norm": 106.5391616821289,
995
- "learning_rate": 4.9725153718586426e-05,
996
- "loss": 529.2302734375,
997
- "step": 2800
998
- },
999
- {
1000
- "epoch": 0.4281721862055549,
1001
- "grad_norm": 117.57733154296875,
1002
- "learning_rate": 4.971086882354516e-05,
1003
- "loss": 527.634326171875,
1004
- "step": 2820
1005
- },
1006
- {
1007
- "epoch": 0.4312088683772255,
1008
- "grad_norm": 111.12049102783203,
1009
- "learning_rate": 4.969622420773876e-05,
1010
- "loss": 522.284521484375,
1011
- "step": 2840
1012
- },
1013
- {
1014
- "epoch": 0.43424555054889613,
1015
- "grad_norm": 120.52484893798828,
1016
- "learning_rate": 4.968122008435166e-05,
1017
- "loss": 530.725,
1018
- "step": 2860
1019
- },
1020
- {
1021
- "epoch": 0.4372822327205667,
1022
- "grad_norm": 99.64852142333984,
1023
- "learning_rate": 4.966585667180168e-05,
1024
- "loss": 524.964111328125,
1025
- "step": 2880
1026
- },
1027
- {
1028
- "epoch": 0.44031891489223735,
1029
- "grad_norm": 106.82322692871094,
1030
- "learning_rate": 4.965013419373693e-05,
1031
- "loss": 522.35517578125,
1032
- "step": 2900
1033
- },
1034
- {
1035
- "epoch": 0.4433555970639079,
1036
- "grad_norm": 87.97702026367188,
1037
- "learning_rate": 4.963405287903246e-05,
1038
- "loss": 528.875732421875,
1039
- "step": 2920
1040
- },
1041
- {
1042
- "epoch": 0.4463922792355785,
1043
- "grad_norm": 100.42816162109375,
1044
- "learning_rate": 4.9617612961787016e-05,
1045
- "loss": 528.40126953125,
1046
- "step": 2940
1047
- },
1048
- {
1049
- "epoch": 0.44942896140724914,
1050
- "grad_norm": 110.56478118896484,
1051
- "learning_rate": 4.960081468131954e-05,
1052
- "loss": 526.7787109375,
1053
- "step": 2960
1054
- },
1055
- {
1056
- "epoch": 0.4524656435789197,
1057
- "grad_norm": 112.1586685180664,
1058
- "learning_rate": 4.958365828216579e-05,
1059
- "loss": 526.75107421875,
1060
- "step": 2980
1061
- },
1062
- {
1063
- "epoch": 0.45550232575059035,
1064
- "grad_norm": 96.77159881591797,
1065
- "learning_rate": 4.956614401407468e-05,
1066
- "loss": 518.793896484375,
1067
- "step": 3000
1068
- },
1069
- {
1070
- "epoch": 0.45853900792226093,
1071
- "grad_norm": 104.14801025390625,
1072
- "learning_rate": 4.954827213200469e-05,
1073
- "loss": 523.8990234375,
1074
- "step": 3020
1075
- },
1076
- {
1077
- "epoch": 0.4615756900939315,
1078
- "grad_norm": 121.8068618774414,
1079
- "learning_rate": 4.953004289612019e-05,
1080
- "loss": 525.7564453125,
1081
- "step": 3040
1082
- },
1083
- {
1084
- "epoch": 0.13274636208269353,
1085
- "grad_norm": 126.11927795410156,
1086
- "learning_rate": 4.9999999665685646e-05,
1087
- "loss": 555.1658528645834,
1088
- "step": 3060
1089
- },
1090
- {
1091
- "epoch": 0.13361398536427976,
1092
- "grad_norm": 105.76728820800781,
1093
- "learning_rate": 4.999998202131891e-05,
1094
- "loss": 552.33125,
1095
- "step": 3080
1096
- },
1097
- {
1098
- "epoch": 0.134481608645866,
1099
- "grad_norm": 140.261962890625,
1100
- "learning_rate": 4.999993447441449e-05,
1101
- "loss": 545.12216796875,
1102
- "step": 3100
1103
- },
1104
- {
1105
- "epoch": 0.13534923192745224,
1106
- "grad_norm": 136.40731811523438,
1107
- "learning_rate": 4.9999857210759095e-05,
1108
- "loss": 544.97294921875,
1109
- "step": 3120
1110
- },
1111
- {
1112
- "epoch": 0.13621685520903848,
1113
- "grad_norm": 115.48565673828125,
1114
- "learning_rate": 4.999975023044456e-05,
1115
- "loss": 543.114306640625,
1116
- "step": 3140
1117
- },
1118
- {
1119
- "epoch": 0.1370844784906247,
1120
- "grad_norm": 144.88966369628906,
1121
- "learning_rate": 4.9999613533598065e-05,
1122
- "loss": 543.839453125,
1123
- "step": 3160
1124
- },
1125
- {
1126
- "epoch": 0.13795210177221093,
1127
- "grad_norm": 105.20838928222656,
1128
- "learning_rate": 4.9999447120382094e-05,
1129
- "loss": 545.475341796875,
1130
- "step": 3180
1131
- },
1132
- {
1133
- "epoch": 0.13881972505379717,
1134
- "grad_norm": 120.91262817382812,
1135
- "learning_rate": 4.999925099099444e-05,
1136
- "loss": 540.4140625,
1137
- "step": 3200
1138
- },
1139
- {
1140
- "epoch": 0.1396873483353834,
1141
- "grad_norm": 128.4713897705078,
1142
- "learning_rate": 4.9999025145668256e-05,
1143
- "loss": 543.10029296875,
1144
- "step": 3220
1145
- },
1146
- {
1147
- "epoch": 0.14055497161696962,
1148
- "grad_norm": 129.53460693359375,
1149
- "learning_rate": 4.999876958467199e-05,
1150
- "loss": 543.0662109375,
1151
- "step": 3240
1152
- },
1153
- {
1154
- "epoch": 0.14142259489855585,
1155
- "grad_norm": 110.85163116455078,
1156
- "learning_rate": 4.9998484308309424e-05,
1157
- "loss": 535.75615234375,
1158
- "step": 3260
1159
- },
1160
- {
1161
- "epoch": 0.1422902181801421,
1162
- "grad_norm": 135.63595581054688,
1163
- "learning_rate": 4.9998169316919654e-05,
1164
- "loss": 537.56318359375,
1165
- "step": 3280
1166
- },
1167
- {
1168
- "epoch": 0.14315784146172833,
1169
- "grad_norm": 141.77488708496094,
1170
- "learning_rate": 4.999782461087711e-05,
1171
- "loss": 530.75205078125,
1172
- "step": 3300
1173
- },
1174
- {
1175
- "epoch": 0.14402546474331457,
1176
- "grad_norm": 110.59537506103516,
1177
- "learning_rate": 4.999745019059153e-05,
1178
- "loss": 532.930029296875,
1179
- "step": 3320
1180
- },
1181
- {
1182
- "epoch": 0.14489308802490078,
1183
- "grad_norm": 140.21958923339844,
1184
- "learning_rate": 4.999704605650797e-05,
1185
- "loss": 528.147265625,
1186
- "step": 3340
1187
- },
1188
- {
1189
- "epoch": 0.14576071130648702,
1190
- "grad_norm": 115.93759155273438,
1191
- "learning_rate": 4.999661220910682e-05,
1192
- "loss": 525.59267578125,
1193
- "step": 3360
1194
- },
1195
- {
1196
- "epoch": 0.14662833458807326,
1197
- "grad_norm": 127.13153076171875,
1198
- "learning_rate": 4.9996148648903794e-05,
1199
- "loss": 533.487939453125,
1200
- "step": 3380
1201
- },
1202
- {
1203
- "epoch": 0.1474959578696595,
1204
- "grad_norm": 125.50680541992188,
1205
- "learning_rate": 4.999565537644989e-05,
1206
- "loss": 536.21201171875,
1207
- "step": 3400
1208
- },
1209
- {
1210
- "epoch": 0.1483635811512457,
1211
- "grad_norm": 111.38420867919922,
1212
- "learning_rate": 4.9995132392331464e-05,
1213
- "loss": 537.491796875,
1214
- "step": 3420
1215
- },
1216
- {
1217
- "epoch": 0.14923120443283194,
1218
- "grad_norm": 124.7078628540039,
1219
- "learning_rate": 4.999457969717017e-05,
1220
- "loss": 534.454248046875,
1221
- "step": 3440
1222
- },
1223
- {
1224
- "epoch": 0.15009882771441818,
1225
- "grad_norm": 112.11663818359375,
1226
- "learning_rate": 4.999399729162299e-05,
1227
- "loss": 533.73837890625,
1228
- "step": 3460
1229
- },
1230
- {
1231
- "epoch": 0.15096645099600442,
1232
- "grad_norm": 110.18434143066406,
1233
- "learning_rate": 4.9993385176382204e-05,
1234
- "loss": 526.227197265625,
1235
- "step": 3480
1236
- },
1237
- {
1238
- "epoch": 0.15183407427759066,
1239
- "grad_norm": 119.18470001220703,
1240
- "learning_rate": 4.9992743352175406e-05,
1241
- "loss": 531.402294921875,
1242
- "step": 3500
1243
- },
1244
- {
1245
- "epoch": 0.15270169755917687,
1246
- "grad_norm": 108.84284210205078,
1247
- "learning_rate": 4.999207181976553e-05,
1248
- "loss": 525.888916015625,
1249
- "step": 3520
1250
- },
1251
- {
1252
- "epoch": 0.1535693208407631,
1253
- "grad_norm": 138.86341857910156,
1254
- "learning_rate": 4.9991370579950816e-05,
1255
- "loss": 528.5728515625,
1256
- "step": 3540
1257
- },
1258
- {
1259
- "epoch": 0.15443694412234935,
1260
- "grad_norm": 126.5429916381836,
1261
- "learning_rate": 4.999063963356479e-05,
1262
- "loss": 522.498193359375,
1263
- "step": 3560
1264
- },
1265
- {
1266
- "epoch": 0.15530456740393558,
1267
- "grad_norm": 110.31175231933594,
1268
- "learning_rate": 4.998987898147632e-05,
1269
- "loss": 518.47783203125,
1270
- "step": 3580
1271
- },
1272
- {
1273
- "epoch": 0.1561721906855218,
1274
- "grad_norm": 128.57266235351562,
1275
- "learning_rate": 4.998908862458957e-05,
1276
- "loss": 525.023291015625,
1277
- "step": 3600
1278
- },
1279
- {
1280
- "epoch": 0.15703981396710803,
1281
- "grad_norm": 130.7259063720703,
1282
- "learning_rate": 4.998826856384402e-05,
1283
- "loss": 525.17392578125,
1284
- "step": 3620
1285
- },
1286
- {
1287
- "epoch": 0.15790743724869427,
1288
- "grad_norm": 115.61829376220703,
1289
- "learning_rate": 4.998741880021444e-05,
1290
- "loss": 524.6423828125,
1291
- "step": 3640
1292
- },
1293
- {
1294
- "epoch": 0.1587750605302805,
1295
- "grad_norm": 146.49696350097656,
1296
- "learning_rate": 4.998653933471094e-05,
1297
- "loss": 526.362353515625,
1298
- "step": 3660
1299
- },
1300
- {
1301
- "epoch": 0.15964268381186675,
1302
- "grad_norm": 113.15586853027344,
1303
- "learning_rate": 4.998563016837891e-05,
1304
- "loss": 516.53994140625,
1305
- "step": 3680
1306
- },
1307
- {
1308
- "epoch": 0.16051030709345296,
1309
- "grad_norm": 131.8157501220703,
1310
- "learning_rate": 4.998469130229904e-05,
1311
- "loss": 522.711962890625,
1312
- "step": 3700
1313
- },
1314
- {
1315
- "epoch": 0.22592908210616616,
1316
- "grad_norm": 106.28179931640625,
1317
- "learning_rate": 4.999999473993204e-05,
1318
- "loss": 509.725,
1319
- "step": 3720
1320
- },
1321
- {
1322
- "epoch": 0.22714375459060793,
1323
- "grad_norm": 103.63924407958984,
1324
- "learning_rate": 4.9999975082933945e-05,
1325
- "loss": 497.84814453125,
1326
- "step": 3740
1327
- },
1328
- {
1329
- "epoch": 0.2283584270750497,
1330
- "grad_norm": 115.9745864868164,
1331
- "learning_rate": 4.99999408652088e-05,
1332
- "loss": 507.36953125,
1333
- "step": 3760
1334
- },
1335
- {
1336
- "epoch": 0.22957309955949143,
1337
- "grad_norm": 135.81298828125,
1338
- "learning_rate": 4.999989208677655e-05,
1339
- "loss": 494.7404296875,
1340
- "step": 3780
1341
- },
1342
- {
1343
- "epoch": 0.2307877720439332,
1344
- "grad_norm": 100.2100830078125,
1345
- "learning_rate": 4.999982874766558e-05,
1346
- "loss": 506.553466796875,
1347
- "step": 3800
1348
- },
1349
- {
1350
- "epoch": 0.23200244452837493,
1351
- "grad_norm": 104.41744232177734,
1352
- "learning_rate": 4.999975084791281e-05,
1353
- "loss": 500.2984375,
1354
- "step": 3820
1355
- },
1356
- {
1357
- "epoch": 0.2332171170128167,
1358
- "grad_norm": 121.0761947631836,
1359
- "learning_rate": 4.9999658387563584e-05,
1360
- "loss": 505.133544921875,
1361
- "step": 3840
1362
- },
1363
- {
1364
- "epoch": 0.23443178949725846,
1365
- "grad_norm": 108.8710708618164,
1366
- "learning_rate": 4.999955706352832e-05,
1367
- "loss": 500.802880859375,
1368
- "step": 3860
1369
- },
1370
- {
1371
- "epoch": 0.2356464619817002,
1372
- "grad_norm": 100.03910064697266,
1373
- "learning_rate": 4.999943621017866e-05,
1374
- "loss": 494.677685546875,
1375
- "step": 3880
1376
- },
1377
- {
1378
- "epoch": 0.23686113446614196,
1379
- "grad_norm": 106.42415618896484,
1380
- "learning_rate": 4.9999300796415804e-05,
1381
- "loss": 495.926708984375,
1382
- "step": 3900
1383
- },
1384
- {
1385
- "epoch": 0.2380758069505837,
1386
- "grad_norm": 104.84850311279297,
1387
- "learning_rate": 4.999915082231863e-05,
1388
- "loss": 497.875634765625,
1389
- "step": 3920
1390
- },
1391
- {
1392
- "epoch": 0.23929047943502546,
1393
- "grad_norm": 110.93647766113281,
1394
- "learning_rate": 4.9998986287974494e-05,
1395
- "loss": 496.6908203125,
1396
- "step": 3940
1397
- },
1398
- {
1399
- "epoch": 0.24050515191946722,
1400
- "grad_norm": 112.61176300048828,
1401
- "learning_rate": 4.999880719347921e-05,
1402
- "loss": 495.96689453125,
1403
- "step": 3960
1404
- },
1405
- {
1406
- "epoch": 0.24171982440390896,
1407
- "grad_norm": 152.41073608398438,
1408
- "learning_rate": 4.9998613538937095e-05,
1409
- "loss": 492.7263671875,
1410
- "step": 3980
1411
- },
1412
- {
1413
- "epoch": 0.24293449688835073,
1414
- "grad_norm": 114.2176284790039,
1415
- "learning_rate": 4.999840532446094e-05,
1416
- "loss": 483.372607421875,
1417
- "step": 4000
1418
- },
1419
- {
1420
- "epoch": 0.24414916937279246,
1421
- "grad_norm": 97.44127655029297,
1422
- "learning_rate": 4.999818255017202e-05,
1423
- "loss": 492.37529296875,
1424
- "step": 4020
1425
- },
1426
- {
1427
- "epoch": 0.24536384185723423,
1428
- "grad_norm": 124.07328033447266,
1429
- "learning_rate": 4.999794521620008e-05,
1430
- "loss": 485.87412109375,
1431
- "step": 4040
1432
- },
1433
- {
1434
- "epoch": 0.246578514341676,
1435
- "grad_norm": 106.4791030883789,
1436
- "learning_rate": 4.9997693322683346e-05,
1437
- "loss": 491.435498046875,
1438
- "step": 4060
1439
- },
1440
- {
1441
- "epoch": 0.24779318682611773,
1442
- "grad_norm": 117.6468505859375,
1443
- "learning_rate": 4.999742686976853e-05,
1444
- "loss": 482.93173828125,
1445
- "step": 4080
1446
- },
1447
- {
1448
- "epoch": 0.2490078593105595,
1449
- "grad_norm": 117.31262969970703,
1450
- "learning_rate": 4.9997145857610836e-05,
1451
- "loss": 484.386865234375,
1452
- "step": 4100
1453
- },
1454
- {
1455
- "epoch": 0.25022253179500126,
1456
- "grad_norm": 131.6193084716797,
1457
- "learning_rate": 4.999685028637392e-05,
1458
- "loss": 487.89892578125,
1459
- "step": 4120
1460
- },
1461
- {
1462
- "epoch": 0.251437204279443,
1463
- "grad_norm": 123.34525299072266,
1464
- "learning_rate": 4.999654015622993e-05,
1465
- "loss": 488.15224609375,
1466
- "step": 4140
1467
- },
1468
- {
1469
- "epoch": 0.25265187676388473,
1470
- "grad_norm": 111.39379119873047,
1471
- "learning_rate": 4.9996215467359504e-05,
1472
- "loss": 481.15263671875,
1473
- "step": 4160
1474
- },
1475
- {
1476
- "epoch": 0.2538665492483265,
1477
- "grad_norm": 110.37937927246094,
1478
- "learning_rate": 4.9995876219951744e-05,
1479
- "loss": 484.3240234375,
1480
- "step": 4180
1481
- },
1482
- {
1483
- "epoch": 0.25508122173276826,
1484
- "grad_norm": 126.56339263916016,
1485
- "learning_rate": 4.999552241420424e-05,
1486
- "loss": 482.1533203125,
1487
- "step": 4200
1488
- },
1489
- {
1490
- "epoch": 0.25629589421721,
1491
- "grad_norm": 100.58653259277344,
1492
- "learning_rate": 4.9995154050323054e-05,
1493
- "loss": 479.80693359375,
1494
- "step": 4220
1495
- },
1496
- {
1497
- "epoch": 0.2575105667016518,
1498
- "grad_norm": 109.23738861083984,
1499
- "learning_rate": 4.999477112852275e-05,
1500
- "loss": 476.910205078125,
1501
- "step": 4240
1502
- },
1503
- {
1504
- "epoch": 0.2587252391860935,
1505
- "grad_norm": 120.3822250366211,
1506
- "learning_rate": 4.999437364902633e-05,
1507
- "loss": 479.670556640625,
1508
- "step": 4260
1509
- },
1510
- {
1511
- "epoch": 0.25993991167053526,
1512
- "grad_norm": 106.20853424072266,
1513
- "learning_rate": 4.999396161206531e-05,
1514
- "loss": 478.95908203125,
1515
- "step": 4280
1516
- },
1517
- {
1518
- "epoch": 0.261154584154977,
1519
- "grad_norm": 99.83069610595703,
1520
- "learning_rate": 4.9993535017879663e-05,
1521
- "loss": 481.247998046875,
1522
- "step": 4300
1523
- },
1524
- {
1525
- "epoch": 0.2623692566394188,
1526
- "grad_norm": 108.5458984375,
1527
- "learning_rate": 4.9993093866717866e-05,
1528
- "loss": 478.165966796875,
1529
- "step": 4320
1530
- },
1531
- {
1532
- "epoch": 0.2635839291238605,
1533
- "grad_norm": 107.90129852294922,
1534
- "learning_rate": 4.999263815883685e-05,
1535
- "loss": 486.360400390625,
1536
- "step": 4340
1537
- },
1538
- {
1539
- "epoch": 0.26479860160830226,
1540
- "grad_norm": 116.5055160522461,
1541
- "learning_rate": 4.999216789450203e-05,
1542
- "loss": 471.4162109375,
1543
- "step": 4360
1544
- },
1545
- {
1546
- "epoch": 0.26601327409274406,
1547
- "grad_norm": 131.4321746826172,
1548
- "learning_rate": 4.99916830739873e-05,
1549
- "loss": 469.025537109375,
1550
- "step": 4380
1551
- },
1552
- {
1553
- "epoch": 0.2672279465771858,
1554
- "grad_norm": 118.11991882324219,
1555
- "learning_rate": 4.999118369757505e-05,
1556
- "loss": 483.506201171875,
1557
- "step": 4400
1558
- },
1559
- {
1560
- "epoch": 0.26844261906162753,
1561
- "grad_norm": 106.02652740478516,
1562
- "learning_rate": 4.999066976555611e-05,
1563
- "loss": 478.2771484375,
1564
- "step": 4420
1565
- },
1566
- {
1567
- "epoch": 0.2696572915460693,
1568
- "grad_norm": 117.4029541015625,
1569
- "learning_rate": 4.9990141278229825e-05,
1570
- "loss": 477.311279296875,
1571
- "step": 4440
1572
- },
1573
- {
1574
- "epoch": 0.27087196403051106,
1575
- "grad_norm": 132.9343719482422,
1576
- "learning_rate": 4.998959823590399e-05,
1577
- "loss": 472.3001953125,
1578
- "step": 4460
1579
- },
1580
- {
1581
- "epoch": 0.2720866365149528,
1582
- "grad_norm": 125.26654052734375,
1583
- "learning_rate": 4.9989040638894904e-05,
1584
- "loss": 473.738671875,
1585
- "step": 4480
1586
- },
1587
- {
1588
- "epoch": 0.2733013089993946,
1589
- "grad_norm": 130.5485076904297,
1590
- "learning_rate": 4.9988468487527306e-05,
1591
- "loss": 468.090087890625,
1592
- "step": 4500
1593
- },
1594
- {
1595
- "epoch": 0.2745159814838363,
1596
- "grad_norm": 99.37794494628906,
1597
- "learning_rate": 4.998788178213446e-05,
1598
- "loss": 476.109765625,
1599
- "step": 4520
1600
- },
1601
- {
1602
- "epoch": 0.27573065396827806,
1603
- "grad_norm": 108.37550354003906,
1604
- "learning_rate": 4.998728052305806e-05,
1605
- "loss": 473.056884765625,
1606
- "step": 4540
1607
- },
1608
- {
1609
- "epoch": 0.2769453264527198,
1610
- "grad_norm": 107.37875366210938,
1611
- "learning_rate": 4.99866647106483e-05,
1612
- "loss": 479.7654296875,
1613
- "step": 4560
1614
- },
1615
- {
1616
- "epoch": 0.2781599989371616,
1617
- "grad_norm": 134.2859649658203,
1618
- "learning_rate": 4.998603434526387e-05,
1619
- "loss": 473.32333984375,
1620
- "step": 4580
1621
- },
1622
- {
1623
- "epoch": 0.2793746714216033,
1624
- "grad_norm": 130.39781188964844,
1625
- "learning_rate": 4.998538942727188e-05,
1626
- "loss": 473.8544921875,
1627
- "step": 4600
1628
- },
1629
- {
1630
- "epoch": 0.2922806590232955,
1631
- "grad_norm": 82.23613739013672,
1632
- "learning_rate": 4.999999802498301e-05,
1633
- "loss": 224.93673001802884,
1634
- "step": 4620
1635
- },
1636
- {
1637
- "epoch": 0.28180401639048686,
1638
- "grad_norm": Infinity,
1639
- "learning_rate": 4.999999998736047e-05,
1640
- "loss": 522.9669189453125,
1641
- "step": 4640
1642
- },
1643
- {
1644
- "epoch": 0.2830186888749286,
1645
- "grad_norm": 128.01324462890625,
1646
- "learning_rate": 4.9999995437128654e-05,
1647
- "loss": 509.814208984375,
1648
- "step": 4660
1649
- },
1650
- {
1651
- "epoch": 0.28423336135937033,
1652
- "grad_norm": 124.84363555908203,
1653
- "learning_rate": 4.9999980775272446e-05,
1654
- "loss": 506.356494140625,
1655
- "step": 4680
1656
- },
1657
- {
1658
- "epoch": 0.2854480338438121,
1659
- "grad_norm": 147.43655395507812,
1660
- "learning_rate": 4.9999956001797785e-05,
1661
- "loss": 513.00703125,
1662
- "step": 4700
1663
- },
1664
- {
1665
- "epoch": 0.28666270632825386,
1666
- "grad_norm": 146.66969299316406,
1667
- "learning_rate": 4.9999921116714695e-05,
1668
- "loss": 507.043310546875,
1669
- "step": 4720
1670
- },
1671
- {
1672
- "epoch": 0.2878773788126956,
1673
- "grad_norm": 107.6183853149414,
1674
- "learning_rate": 4.9999876120037284e-05,
1675
- "loss": 506.249169921875,
1676
- "step": 4740
1677
- },
1678
- {
1679
- "epoch": 0.28909205129713733,
1680
- "grad_norm": 135.1703338623047,
1681
- "learning_rate": 4.999982101178373e-05,
1682
- "loss": 498.55283203125,
1683
- "step": 4760
1684
- },
1685
- {
1686
- "epoch": 0.2903067237815791,
1687
- "grad_norm": 129.0010986328125,
1688
- "learning_rate": 4.999975579197635e-05,
1689
- "loss": 494.26435546875,
1690
- "step": 4780
1691
- },
1692
- {
1693
- "epoch": 0.29152139626602086,
1694
- "grad_norm": 104.45521545410156,
1695
- "learning_rate": 4.999968046064152e-05,
1696
- "loss": 500.8259765625,
1697
- "step": 4800
1698
- },
1699
- {
1700
- "epoch": 0.2927360687504626,
1701
- "grad_norm": 122.8540267944336,
1702
- "learning_rate": 4.9999595017809696e-05,
1703
- "loss": 491.134375,
1704
- "step": 4820
1705
- },
1706
- {
1707
- "epoch": 0.2939507412349044,
1708
- "grad_norm": 110.6492919921875,
1709
- "learning_rate": 4.999949946351544e-05,
1710
- "loss": 491.937548828125,
1711
- "step": 4840
1712
- },
1713
- {
1714
- "epoch": 0.2951654137193461,
1715
- "grad_norm": 122.96728515625,
1716
- "learning_rate": 4.9999393797797404e-05,
1717
- "loss": 493.3181640625,
1718
- "step": 4860
1719
- },
1720
- {
1721
- "epoch": 0.29638008620378786,
1722
- "grad_norm": 109.75753784179688,
1723
- "learning_rate": 4.999927802069833e-05,
1724
- "loss": 495.562451171875,
1725
- "step": 4880
1726
- },
1727
- {
1728
- "epoch": 0.29759475868822965,
1729
- "grad_norm": 113.73827362060547,
1730
- "learning_rate": 4.999915213226504e-05,
1731
- "loss": 494.584033203125,
1732
- "step": 4900
1733
- },
1734
- {
1735
- "epoch": 0.2988094311726714,
1736
- "grad_norm": 166.45193481445312,
1737
- "learning_rate": 4.999901613254845e-05,
1738
- "loss": 497.014306640625,
1739
- "step": 4920
1740
- },
1741
- {
1742
- "epoch": 0.30002410365711313,
1743
- "grad_norm": 125.07030487060547,
1744
- "learning_rate": 4.999887002160356e-05,
1745
- "loss": 491.55986328125,
1746
- "step": 4940
1747
- },
1748
- {
1749
- "epoch": 0.3012387761415549,
1750
- "grad_norm": 101.7028579711914,
1751
- "learning_rate": 4.999871379948949e-05,
1752
- "loss": 495.484912109375,
1753
- "step": 4960
1754
- },
1755
- {
1756
- "epoch": 0.30245344862599666,
1757
- "grad_norm": 120.32843017578125,
1758
- "learning_rate": 4.9998547466269406e-05,
1759
- "loss": 488.6263671875,
1760
- "step": 4980
1761
- },
1762
- {
1763
- "epoch": 0.3036681211104384,
1764
- "grad_norm": 117.14525604248047,
1765
- "learning_rate": 4.999837102201059e-05,
1766
- "loss": 488.448876953125,
1767
- "step": 5000
1768
- },
1769
- {
1770
- "epoch": 0.30488279359488013,
1771
- "grad_norm": 129.26194763183594,
1772
- "learning_rate": 4.9998184466784416e-05,
1773
- "loss": 489.488525390625,
1774
- "step": 5020
1775
- },
1776
- {
1777
- "epoch": 0.3060974660793219,
1778
- "grad_norm": 148.86119079589844,
1779
- "learning_rate": 4.9997987800666326e-05,
1780
- "loss": 488.17734375,
1781
- "step": 5040
1782
- },
1783
- {
1784
- "epoch": 0.30731213856376366,
1785
- "grad_norm": 125.63531494140625,
1786
- "learning_rate": 4.999778102373587e-05,
1787
- "loss": 482.14873046875,
1788
- "step": 5060
1789
- },
1790
- {
1791
- "epoch": 0.3085268110482054,
1792
- "grad_norm": 128.2238311767578,
1793
- "learning_rate": 4.999756413607668e-05,
1794
- "loss": 495.12177734375,
1795
- "step": 5080
1796
- },
1797
- {
1798
- "epoch": 0.3097414835326472,
1799
- "grad_norm": 139.5421905517578,
1800
- "learning_rate": 4.999733713777648e-05,
1801
- "loss": 488.80283203125,
1802
- "step": 5100
1803
- },
1804
- {
1805
- "epoch": 0.3109561560170889,
1806
- "grad_norm": 118.46855163574219,
1807
- "learning_rate": 4.9997100028927086e-05,
1808
- "loss": 492.863134765625,
1809
- "step": 5120
1810
- },
1811
- {
1812
- "epoch": 0.31217082850153066,
1813
- "grad_norm": 109.22224426269531,
1814
- "learning_rate": 4.999685280962439e-05,
1815
- "loss": 493.7431640625,
1816
- "step": 5140
1817
- },
1818
- {
1819
- "epoch": 0.31338550098597245,
1820
- "grad_norm": 114.17903900146484,
1821
- "learning_rate": 4.999659547996841e-05,
1822
- "loss": 485.016796875,
1823
- "step": 5160
1824
- },
1825
- {
1826
- "epoch": 0.3146001734704142,
1827
- "grad_norm": 109.17562103271484,
1828
- "learning_rate": 4.99963280400632e-05,
1829
- "loss": 488.472265625,
1830
- "step": 5180
1831
- },
1832
- {
1833
- "epoch": 0.3158148459548559,
1834
- "grad_norm": 115.13211059570312,
1835
- "learning_rate": 4.999605049001694e-05,
1836
- "loss": 479.812939453125,
1837
- "step": 5200
1838
- },
1839
- {
1840
- "epoch": 0.31702951843929766,
1841
- "grad_norm": 139.9939727783203,
1842
- "learning_rate": 4.9995762829941885e-05,
1843
- "loss": 485.855517578125,
1844
- "step": 5220
1845
- },
1846
- {
1847
- "epoch": 0.31824419092373946,
1848
- "grad_norm": 135.5021514892578,
1849
- "learning_rate": 4.999546505995439e-05,
1850
- "loss": 488.666552734375,
1851
- "step": 5240
1852
- },
1853
- {
1854
- "epoch": 0.3194588634081812,
1855
- "grad_norm": 99.49887084960938,
1856
- "learning_rate": 4.9995157180174886e-05,
1857
- "loss": 471.69619140625,
1858
- "step": 5260
1859
- },
1860
- {
1861
- "epoch": 0.32067353589262293,
1862
- "grad_norm": 110.44123077392578,
1863
- "learning_rate": 4.9994839190727904e-05,
1864
- "loss": 480.227587890625,
1865
- "step": 5280
1866
- },
1867
- {
1868
- "epoch": 0.3218882083770647,
1869
- "grad_norm": 117.12146759033203,
1870
- "learning_rate": 4.999451109174206e-05,
1871
- "loss": 484.912548828125,
1872
- "step": 5300
1873
- },
1874
- {
1875
- "epoch": 0.32310288086150646,
1876
- "grad_norm": 104.73037719726562,
1877
- "learning_rate": 4.9994172883350054e-05,
1878
- "loss": 480.243798828125,
1879
- "step": 5320
1880
- },
1881
- {
1882
- "epoch": 0.3243175533459482,
1883
- "grad_norm": 111.67479705810547,
1884
- "learning_rate": 4.9993824565688685e-05,
1885
- "loss": 482.366259765625,
1886
- "step": 5340
1887
- },
1888
- {
1889
- "epoch": 0.32553222583039,
1890
- "grad_norm": 137.9676513671875,
1891
- "learning_rate": 4.999346613889883e-05,
1892
- "loss": 487.56142578125,
1893
- "step": 5360
1894
- },
1895
- {
1896
- "epoch": 0.3267468983148317,
1897
- "grad_norm": 125.0929183959961,
1898
- "learning_rate": 4.9993097603125466e-05,
1899
- "loss": 480.0265625,
1900
- "step": 5380
1901
- },
1902
- {
1903
- "epoch": 0.32796157079927346,
1904
- "grad_norm": 133.99122619628906,
1905
- "learning_rate": 4.999271895851765e-05,
1906
- "loss": 473.62099609375,
1907
- "step": 5400
1908
- },
1909
- {
1910
- "epoch": 0.32917624328371525,
1911
- "grad_norm": 128.70616149902344,
1912
- "learning_rate": 4.9992330205228536e-05,
1913
- "loss": 476.02734375,
1914
- "step": 5420
1915
- },
1916
- {
1917
- "epoch": 0.330390915768157,
1918
- "grad_norm": 143.84982299804688,
1919
- "learning_rate": 4.999193134341534e-05,
1920
- "loss": 467.562109375,
1921
- "step": 5440
1922
- },
1923
- {
1924
- "epoch": 0.3316055882525987,
1925
- "grad_norm": 168.56112670898438,
1926
- "learning_rate": 4.9991522373239414e-05,
1927
- "loss": 477.2583984375,
1928
- "step": 5460
1929
- },
1930
- {
1931
- "epoch": 0.33282026073704046,
1932
- "grad_norm": 136.1503143310547,
1933
- "learning_rate": 4.999110329486616e-05,
1934
- "loss": 474.83203125,
1935
- "step": 5480
1936
- },
1937
- {
1938
- "epoch": 0.33403493322148226,
1939
- "grad_norm": 116.25304412841797,
1940
- "learning_rate": 4.9990674108465074e-05,
1941
- "loss": 476.651708984375,
1942
- "step": 5500
1943
- },
1944
- {
1945
- "epoch": 0.335249605705924,
1946
- "grad_norm": 138.05633544921875,
1947
- "learning_rate": 4.999023481420977e-05,
1948
- "loss": 472.470263671875,
1949
- "step": 5520
1950
- },
1951
- {
1952
- "epoch": 0.33646427819036573,
1953
- "grad_norm": 106.01046752929688,
1954
- "learning_rate": 4.99897854122779e-05,
1955
- "loss": 472.5498046875,
1956
- "step": 5540
1957
- },
1958
- {
1959
- "epoch": 0.3376789506748075,
1960
- "grad_norm": 116.29874420166016,
1961
- "learning_rate": 4.998932590285125e-05,
1962
- "loss": 471.28046875,
1963
- "step": 5560
1964
- },
1965
- {
1966
- "epoch": 0.33889362315924926,
1967
- "grad_norm": 108.59446716308594,
1968
- "learning_rate": 4.998885628611566e-05,
1969
- "loss": 473.924267578125,
1970
- "step": 5580
1971
- },
1972
- {
1973
- "epoch": 0.340108295643691,
1974
- "grad_norm": 108.22511291503906,
1975
- "learning_rate": 4.9988376562261085e-05,
1976
- "loss": 469.3677734375,
1977
- "step": 5600
1978
- },
1979
- {
1980
- "epoch": 0.3413229681281328,
1981
- "grad_norm": 119.11192321777344,
1982
- "learning_rate": 4.9999999949441866e-05,
1983
- "loss": 457.769189453125,
1984
- "step": 5620
1985
- },
1986
- {
1987
- "epoch": 0.3425376406125745,
1988
- "grad_norm": 114.36215209960938,
1989
- "learning_rate": 4.9999993882466175e-05,
1990
- "loss": 459.95791015625,
1991
- "step": 5640
1992
- },
1993
- {
1994
- "epoch": 0.34375231309701626,
1995
- "grad_norm": 121.7007827758789,
1996
- "learning_rate": 4.9999977703866726e-05,
1997
- "loss": 457.78818359375,
1998
- "step": 5660
1999
- },
2000
- {
2001
- "epoch": 0.34496698558145805,
2002
- "grad_norm": 125.85967254638672,
2003
- "learning_rate": 4.9999951413650066e-05,
2004
- "loss": 459.223193359375,
2005
- "step": 5680
2006
- },
2007
- {
2008
- "epoch": 0.3461816580658998,
2009
- "grad_norm": 117.03638458251953,
2010
- "learning_rate": 4.9999915011826826e-05,
2011
- "loss": 452.325439453125,
2012
- "step": 5700
2013
- },
2014
- {
2015
- "epoch": 0.3473963305503415,
2016
- "grad_norm": 111.20164489746094,
2017
- "learning_rate": 4.999986849841173e-05,
2018
- "loss": 456.363916015625,
2019
- "step": 5720
2020
- },
2021
- {
2022
- "epoch": 0.34861100303478326,
2023
- "grad_norm": 106.04707336425781,
2024
- "learning_rate": 4.9999811873423586e-05,
2025
- "loss": 449.553466796875,
2026
- "step": 5740
2027
- },
2028
- {
2029
- "epoch": 0.34982567551922505,
2030
- "grad_norm": 121.10123443603516,
2031
- "learning_rate": 4.9999745136885306e-05,
2032
- "loss": 453.322314453125,
2033
- "step": 5760
2034
- },
2035
- {
2036
- "epoch": 0.3510403480036668,
2037
- "grad_norm": 102.19346618652344,
2038
- "learning_rate": 4.9999672371375163e-05,
2039
- "loss": 445.2501953125,
2040
- "step": 5780
2041
- },
2042
- {
2043
- "epoch": 0.35225502048810853,
2044
- "grad_norm": 126.20061492919922,
2045
- "learning_rate": 4.999958591739547e-05,
2046
- "loss": 451.185205078125,
2047
- "step": 5800
2048
- },
2049
- {
2050
- "epoch": 0.3534696929725503,
2051
- "grad_norm": 126.69395446777344,
2052
- "learning_rate": 4.9999489351957034e-05,
2053
- "loss": 443.0,
2054
- "step": 5820
2055
- },
2056
- {
2057
- "epoch": 0.35468436545699206,
2058
- "grad_norm": 120.10934448242188,
2059
- "learning_rate": 4.9999382675098905e-05,
2060
- "loss": 439.477001953125,
2061
- "step": 5840
2062
- },
2063
- {
2064
- "epoch": 0.3558990379414338,
2065
- "grad_norm": 109.93563079833984,
2066
- "learning_rate": 4.999926588686423e-05,
2067
- "loss": 439.631103515625,
2068
- "step": 5860
2069
- },
2070
- {
2071
- "epoch": 0.3571137104258756,
2072
- "grad_norm": 117.47706604003906,
2073
- "learning_rate": 4.9999138987300246e-05,
2074
- "loss": 441.124560546875,
2075
- "step": 5880
2076
- },
2077
- {
2078
- "epoch": 0.3583283829103173,
2079
- "grad_norm": 99.2137222290039,
2080
- "learning_rate": 4.999900197645829e-05,
2081
- "loss": 439.1115234375,
2082
- "step": 5900
2083
- },
2084
- {
2085
- "epoch": 0.35954305539475906,
2086
- "grad_norm": 97.20148468017578,
2087
- "learning_rate": 4.999885485439376e-05,
2088
- "loss": 446.5513671875,
2089
- "step": 5920
2090
- },
2091
- {
2092
- "epoch": 0.3607577278792008,
2093
- "grad_norm": 133.8880615234375,
2094
- "learning_rate": 4.999869762116617e-05,
2095
- "loss": 436.385302734375,
2096
- "step": 5940
2097
- },
2098
- {
2099
- "epoch": 0.3619724003636426,
2100
- "grad_norm": 110.88639831542969,
2101
- "learning_rate": 4.999853027683912e-05,
2102
- "loss": 438.487548828125,
2103
- "step": 5960
2104
- },
2105
- {
2106
- "epoch": 0.3631870728480843,
2107
- "grad_norm": 122.55818939208984,
2108
- "learning_rate": 4.9998352821480295e-05,
2109
- "loss": 433.748681640625,
2110
- "step": 5980
2111
- },
2112
- {
2113
- "epoch": 0.36440174533252606,
2114
- "grad_norm": 112.45657348632812,
2115
- "learning_rate": 4.9998165255161455e-05,
2116
- "loss": 446.138623046875,
2117
- "step": 6000
2118
- },
2119
- {
2120
- "epoch": 0.36561641781696785,
2121
- "grad_norm": 112.1351089477539,
2122
- "learning_rate": 4.999796757795848e-05,
2123
- "loss": 441.529248046875,
2124
- "step": 6020
2125
- },
2126
- {
2127
- "epoch": 0.3668310903014096,
2128
- "grad_norm": 109.1108169555664,
2129
- "learning_rate": 4.999775978995133e-05,
2130
- "loss": 435.71748046875,
2131
- "step": 6040
2132
- },
2133
- {
2134
- "epoch": 0.3680457627858513,
2135
- "grad_norm": 113.85139465332031,
2136
- "learning_rate": 4.999754189122402e-05,
2137
- "loss": 441.027294921875,
2138
- "step": 6060
2139
- },
2140
- {
2141
- "epoch": 0.3692604352702931,
2142
- "grad_norm": 146.5244598388672,
2143
- "learning_rate": 4.99973138818647e-05,
2144
- "loss": 436.488623046875,
2145
- "step": 6080
2146
- },
2147
- {
2148
- "epoch": 0.37047510775473486,
2149
- "grad_norm": 103.91339111328125,
2150
- "learning_rate": 4.999707576196559e-05,
2151
- "loss": 440.46455078125,
2152
- "step": 6100
2153
- },
2154
- {
2155
- "epoch": 0.3716897802391766,
2156
- "grad_norm": 121.91517639160156,
2157
- "learning_rate": 4.9996827531623014e-05,
2158
- "loss": 433.736279296875,
2159
- "step": 6120
2160
- },
2161
- {
2162
- "epoch": 0.3729044527236184,
2163
- "grad_norm": 131.15545654296875,
2164
- "learning_rate": 4.999656919093735e-05,
2165
- "loss": 437.878955078125,
2166
- "step": 6140
2167
- },
2168
- {
2169
- "epoch": 0.3741191252080601,
2170
- "grad_norm": 109.45008850097656,
2171
- "learning_rate": 4.99963007400131e-05,
2172
- "loss": 434.235888671875,
2173
- "step": 6160
2174
- },
2175
- {
2176
- "epoch": 0.37533379769250186,
2177
- "grad_norm": 102.5931625366211,
2178
- "learning_rate": 4.999602217895884e-05,
2179
- "loss": 428.64306640625,
2180
- "step": 6180
2181
- },
2182
- {
2183
- "epoch": 0.3765484701769436,
2184
- "grad_norm": 108.3375015258789,
2185
- "learning_rate": 4.999573350788724e-05,
2186
- "loss": 432.224609375,
2187
- "step": 6200
2188
- },
2189
- {
2190
- "epoch": 0.3777631426613854,
2191
- "grad_norm": 105.30213928222656,
2192
- "learning_rate": 4.9995434726915055e-05,
2193
- "loss": 434.313720703125,
2194
- "step": 6220
2195
- },
2196
- {
2197
- "epoch": 0.3789778151458271,
2198
- "grad_norm": 111.43559265136719,
2199
- "learning_rate": 4.9995125836163136e-05,
2200
- "loss": 426.7763671875,
2201
- "step": 6240
2202
- },
2203
- {
2204
- "epoch": 0.38019248763026886,
2205
- "grad_norm": 122.2061538696289,
2206
- "learning_rate": 4.999480683575641e-05,
2207
- "loss": 433.124267578125,
2208
- "step": 6260
2209
- },
2210
- {
2211
- "epoch": 0.38140716011471065,
2212
- "grad_norm": 128.8978729248047,
2213
- "learning_rate": 4.999447772582391e-05,
2214
- "loss": 430.33837890625,
2215
- "step": 6280
2216
- },
2217
- {
2218
- "epoch": 0.3826218325991524,
2219
- "grad_norm": 99.80685424804688,
2220
- "learning_rate": 4.999413850649875e-05,
2221
- "loss": 439.00517578125,
2222
- "step": 6300
2223
- },
2224
- {
2225
- "epoch": 0.3838365050835941,
2226
- "grad_norm": 128.85317993164062,
2227
- "learning_rate": 4.9993789177918124e-05,
2228
- "loss": 426.54765625,
2229
- "step": 6320
2230
- },
2231
- {
2232
- "epoch": 0.3850511775680359,
2233
- "grad_norm": 122.83307647705078,
2234
- "learning_rate": 4.999342974022333e-05,
2235
- "loss": 431.87216796875,
2236
- "step": 6340
2237
- },
2238
- {
2239
- "epoch": 0.38626585005247766,
2240
- "grad_norm": 110.61914825439453,
2241
- "learning_rate": 4.999306019355974e-05,
2242
- "loss": 428.231591796875,
2243
- "step": 6360
2244
- },
2245
- {
2246
- "epoch": 0.3874805225369194,
2247
- "grad_norm": 118.25730895996094,
2248
- "learning_rate": 4.999268053807683e-05,
2249
- "loss": 427.494970703125,
2250
- "step": 6380
2251
- },
2252
- {
2253
- "epoch": 0.38869519502136113,
2254
- "grad_norm": 159.15020751953125,
2255
- "learning_rate": 4.999229077392816e-05,
2256
- "loss": 428.88037109375,
2257
- "step": 6400
2258
- },
2259
- {
2260
- "epoch": 0.3899098675058029,
2261
- "grad_norm": 115.5860595703125,
2262
- "learning_rate": 4.999189090127138e-05,
2263
- "loss": 421.6064453125,
2264
- "step": 6420
2265
- },
2266
- {
2267
- "epoch": 0.39112453999024466,
2268
- "grad_norm": 109.9117202758789,
2269
- "learning_rate": 4.9991480920268205e-05,
2270
- "loss": 434.52431640625,
2271
- "step": 6440
2272
- },
2273
- {
2274
- "epoch": 0.3923392124746864,
2275
- "grad_norm": 108.77495574951172,
2276
- "learning_rate": 4.999999817990724e-05,
2277
- "loss": 466.3345052083333,
2278
- "step": 6460
2279
- },
2280
- {
2281
- "epoch": 0.3935538849591282,
2282
- "grad_norm": 106.6700439453125,
2283
- "learning_rate": 4.9999987057119104e-05,
2284
- "loss": 463.743310546875,
2285
- "step": 6480
2286
- },
2287
- {
2288
- "epoch": 0.3947685574435699,
2289
- "grad_norm": 114.01268768310547,
2290
- "learning_rate": 4.999996582270998e-05,
2291
- "loss": 454.19453125,
2292
- "step": 6500
2293
- },
2294
- {
2295
- "epoch": 0.39598322992801166,
2296
- "grad_norm": 108.73348236083984,
2297
- "learning_rate": 4.999993447668844e-05,
2298
- "loss": 457.237109375,
2299
- "step": 6520
2300
- },
2301
- {
2302
- "epoch": 0.39719790241245345,
2303
- "grad_norm": 108.1834716796875,
2304
- "learning_rate": 4.9999893019067175e-05,
2305
- "loss": 453.765087890625,
2306
- "step": 6540
2307
- },
2308
- {
2309
- "epoch": 0.3984125748968952,
2310
- "grad_norm": 123.11573028564453,
2311
- "learning_rate": 4.999984144986295e-05,
2312
- "loss": 457.87333984375,
2313
- "step": 6560
2314
- },
2315
- {
2316
- "epoch": 0.3996272473813369,
2317
- "grad_norm": 111.18988800048828,
2318
- "learning_rate": 4.9999779769096624e-05,
2319
- "loss": 455.51279296875,
2320
- "step": 6580
2321
- },
2322
- {
2323
- "epoch": 0.4008419198657787,
2324
- "grad_norm": 115.29268646240234,
2325
- "learning_rate": 4.9999711806556894e-05,
2326
- "loss": 447.592626953125,
2327
- "step": 6600
2328
- },
2329
- {
2330
- "epoch": 0.40205659235022045,
2331
- "grad_norm": 114.5698013305664,
2332
- "learning_rate": 4.999963040831994e-05,
2333
- "loss": 456.120166015625,
2334
- "step": 6620
2335
- },
2336
- {
2337
- "epoch": 0.4032712648346622,
2338
- "grad_norm": 144.33851623535156,
2339
- "learning_rate": 4.9999538898606254e-05,
2340
- "loss": 452.684326171875,
2341
- "step": 6640
2342
- },
2343
- {
2344
- "epoch": 0.4044859373191039,
2345
- "grad_norm": 106.46892547607422,
2346
- "learning_rate": 4.9999437277452834e-05,
2347
- "loss": 454.87333984375,
2348
- "step": 6660
2349
- },
2350
- {
2351
- "epoch": 0.4057006098035457,
2352
- "grad_norm": 116.46212768554688,
2353
- "learning_rate": 4.999932554490078e-05,
2354
- "loss": 454.346142578125,
2355
- "step": 6680
2356
- },
2357
- {
2358
- "epoch": 0.40691528228798746,
2359
- "grad_norm": 136.41693115234375,
2360
- "learning_rate": 4.999920370099529e-05,
2361
- "loss": 451.74169921875,
2362
- "step": 6700
2363
- },
2364
- {
2365
- "epoch": 0.4081299547724292,
2366
- "grad_norm": 111.75225830078125,
2367
- "learning_rate": 4.999907174578565e-05,
2368
- "loss": 451.062451171875,
2369
- "step": 6720
2370
- },
2371
- {
2372
- "epoch": 0.409344627256871,
2373
- "grad_norm": 117.8348617553711,
2374
- "learning_rate": 4.999892967932522e-05,
2375
- "loss": 448.330615234375,
2376
- "step": 6740
2377
- },
2378
- {
2379
- "epoch": 0.4105592997413127,
2380
- "grad_norm": 99.80577087402344,
2381
- "learning_rate": 4.999877750167147e-05,
2382
- "loss": 450.1162109375,
2383
- "step": 6760
2384
- },
2385
- {
2386
- "epoch": 0.41177397222575446,
2387
- "grad_norm": 142.496826171875,
2388
- "learning_rate": 4.999861521288595e-05,
2389
- "loss": 451.98525390625,
2390
- "step": 6780
2391
- },
2392
- {
2393
- "epoch": 0.41298864471019625,
2394
- "grad_norm": 112.31470489501953,
2395
- "learning_rate": 4.999844281303429e-05,
2396
- "loss": 454.02314453125,
2397
- "step": 6800
2398
- },
2399
- {
2400
- "epoch": 0.414203317194638,
2401
- "grad_norm": 130.9207000732422,
2402
- "learning_rate": 4.999999919106988e-05,
2403
- "loss": 434.83544921875,
2404
- "step": 6820
2405
- },
2406
- {
2407
- "epoch": 0.4154179896790797,
2408
- "grad_norm": 107.9826889038086,
2409
- "learning_rate": 4.999999009060662e-05,
2410
- "loss": 431.314208984375,
2411
- "step": 6840
2412
- },
2413
- {
2414
- "epoch": 0.41663266216352146,
2415
- "grad_norm": 112.3042221069336,
2416
- "learning_rate": 4.9999970878521126e-05,
2417
- "loss": 445.6931640625,
2418
- "step": 6860
2419
- },
2420
- {
2421
- "epoch": 0.41784733464796325,
2422
- "grad_norm": 114.62458038330078,
2423
- "learning_rate": 4.99999415548212e-05,
2424
- "loss": 438.76865234375,
2425
- "step": 6880
2426
- },
2427
- {
2428
- "epoch": 0.419062007132405,
2429
- "grad_norm": 105.3339614868164,
2430
- "learning_rate": 4.999990211951866e-05,
2431
- "loss": 433.6736328125,
2432
- "step": 6900
2433
- },
2434
- {
2435
- "epoch": 0.4202766796168467,
2436
- "grad_norm": 108.74405670166016,
2437
- "learning_rate": 4.999985257262949e-05,
2438
- "loss": 429.842138671875,
2439
- "step": 6920
2440
- },
2441
- {
2442
- "epoch": 0.4214913521012885,
2443
- "grad_norm": 122.67109680175781,
2444
- "learning_rate": 4.999979291417372e-05,
2445
- "loss": 436.727734375,
2446
- "step": 6940
2447
- },
2448
- {
2449
- "epoch": 0.42270602458573026,
2450
- "grad_norm": 112.16912078857422,
2451
- "learning_rate": 4.9999723144175475e-05,
2452
- "loss": 431.93212890625,
2453
- "step": 6960
2454
- },
2455
- {
2456
- "epoch": 0.423920697070172,
2457
- "grad_norm": 108.9756088256836,
2458
- "learning_rate": 4.999964326266298e-05,
2459
- "loss": 423.93974609375,
2460
- "step": 6980
2461
- },
2462
- {
2463
- "epoch": 0.4251353695546138,
2464
- "grad_norm": 109.26213073730469,
2465
- "learning_rate": 4.9999553269668544e-05,
2466
- "loss": 429.35048828125,
2467
- "step": 7000
2468
- },
2469
- {
2470
- "epoch": 0.4263500420390555,
2471
- "grad_norm": 128.8697052001953,
2472
- "learning_rate": 4.999945316522856e-05,
2473
- "loss": 432.916650390625,
2474
- "step": 7020
2475
- },
2476
- {
2477
- "epoch": 0.42756471452349726,
2478
- "grad_norm": 116.16033172607422,
2479
- "learning_rate": 4.999934294938352e-05,
2480
- "loss": 425.26083984375,
2481
- "step": 7040
2482
- },
2483
- {
2484
- "epoch": 0.42877938700793905,
2485
- "grad_norm": 112.03089141845703,
2486
- "learning_rate": 4.9999222622178e-05,
2487
- "loss": 426.267236328125,
2488
- "step": 7060
2489
- },
2490
- {
2491
- "epoch": 0.4299940594923808,
2492
- "grad_norm": 113.0052261352539,
2493
- "learning_rate": 4.9999092183660675e-05,
2494
- "loss": 425.38056640625,
2495
- "step": 7080
2496
- },
2497
- {
2498
- "epoch": 0.4312087319768225,
2499
- "grad_norm": 103.9638900756836,
2500
- "learning_rate": 4.999895163388431e-05,
2501
- "loss": 421.51259765625,
2502
- "step": 7100
2503
- },
2504
- {
2505
- "epoch": 0.43242340446126426,
2506
- "grad_norm": 105.279541015625,
2507
- "learning_rate": 4.9998800972905736e-05,
2508
- "loss": 426.773291015625,
2509
- "step": 7120
2510
- },
2511
- {
2512
- "epoch": 0.43363807694570605,
2513
- "grad_norm": 111.30103302001953,
2514
- "learning_rate": 4.999864020078589e-05,
2515
- "loss": 426.06201171875,
2516
- "step": 7140
2517
- },
2518
- {
2519
- "epoch": 0.4348527494301478,
2520
- "grad_norm": 99.83489227294922,
2521
- "learning_rate": 4.999846931758981e-05,
2522
- "loss": 421.738671875,
2523
- "step": 7160
2524
- },
2525
- {
2526
- "epoch": 0.4360674219145895,
2527
- "grad_norm": 111.20061492919922,
2528
- "learning_rate": 4.999828832338661e-05,
2529
- "loss": 426.967919921875,
2530
- "step": 7180
2531
- },
2532
- {
2533
- "epoch": 0.4372820943990313,
2534
- "grad_norm": 116.54100036621094,
2535
- "learning_rate": 4.999809721824949e-05,
2536
- "loss": 419.972900390625,
2537
- "step": 7200
2538
- },
2539
- {
2540
- "epoch": 0.43849676688347305,
2541
- "grad_norm": 117.1341781616211,
2542
- "learning_rate": 4.999789600225574e-05,
2543
- "loss": 412.59365234375,
2544
- "step": 7220
2545
- },
2546
- {
2547
- "epoch": 0.4397114393679148,
2548
- "grad_norm": 104.19764709472656,
2549
- "learning_rate": 4.999768467548675e-05,
2550
- "loss": 419.56875,
2551
- "step": 7240
2552
- },
2553
- {
2554
- "epoch": 0.4409261118523566,
2555
- "grad_norm": 104.99066925048828,
2556
- "learning_rate": 4.999746323802802e-05,
2557
- "loss": 420.034375,
2558
- "step": 7260
2559
- },
2560
- {
2561
- "epoch": 0.4421407843367983,
2562
- "grad_norm": 117.05961608886719,
2563
- "learning_rate": 4.999723168996907e-05,
2564
- "loss": 421.9271484375,
2565
- "step": 7280
2566
- },
2567
- {
2568
- "epoch": 0.44335545682124006,
2569
- "grad_norm": 140.603271484375,
2570
- "learning_rate": 4.9996990031403586e-05,
2571
- "loss": 414.878369140625,
2572
- "step": 7300
2573
- },
2574
- {
2575
- "epoch": 0.4445701293056818,
2576
- "grad_norm": 114.2315902709961,
2577
- "learning_rate": 4.999673826242929e-05,
2578
- "loss": 415.910205078125,
2579
- "step": 7320
2580
- },
2581
- {
2582
- "epoch": 0.4457848017901236,
2583
- "grad_norm": 107.20604705810547,
2584
- "learning_rate": 4.9996476383148024e-05,
2585
- "loss": 417.096337890625,
2586
- "step": 7340
2587
- },
2588
- {
2589
- "epoch": 0.4469994742745653,
2590
- "grad_norm": 120.31047821044922,
2591
- "learning_rate": 4.9996204393665716e-05,
2592
- "loss": 422.905029296875,
2593
- "step": 7360
2594
- },
2595
- {
2596
- "epoch": 0.44821414675900706,
2597
- "grad_norm": 118.30343627929688,
2598
- "learning_rate": 4.999592229409236e-05,
2599
- "loss": 418.848193359375,
2600
- "step": 7380
2601
- },
2602
- {
2603
- "epoch": 0.44942881924344885,
2604
- "grad_norm": 106.66614532470703,
2605
- "learning_rate": 4.999563008454207e-05,
2606
- "loss": 419.152685546875,
2607
- "step": 7400
2608
- },
2609
- {
2610
- "epoch": 0.4506434917278906,
2611
- "grad_norm": 109.3532943725586,
2612
- "learning_rate": 4.999532776513301e-05,
2613
- "loss": 415.478466796875,
2614
- "step": 7420
2615
- },
2616
- {
2617
- "epoch": 0.4518581642123323,
2618
- "grad_norm": 122.94757843017578,
2619
- "learning_rate": 4.9995015335987497e-05,
2620
- "loss": 415.234130859375,
2621
- "step": 7440
2622
- },
2623
- {
2624
- "epoch": 0.4530728366967741,
2625
- "grad_norm": 108.08473205566406,
2626
- "learning_rate": 4.999469279723187e-05,
2627
- "loss": 411.04873046875,
2628
- "step": 7460
2629
- },
2630
- {
2631
- "epoch": 0.45428750918121585,
2632
- "grad_norm": 104.21884155273438,
2633
- "learning_rate": 4.9994360148996586e-05,
2634
- "loss": 414.63203125,
2635
- "step": 7480
2636
- },
2637
- {
2638
- "epoch": 0.4555021816656576,
2639
- "grad_norm": 108.63338470458984,
2640
- "learning_rate": 4.999401739141619e-05,
2641
- "loss": 418.697509765625,
2642
- "step": 7500
2643
- },
2644
- {
2645
- "epoch": 0.4567168541500994,
2646
- "grad_norm": 119.93159484863281,
2647
- "learning_rate": 4.999366452462933e-05,
2648
- "loss": 412.669287109375,
2649
- "step": 7520
2650
- },
2651
- {
2652
- "epoch": 0.4579315266345411,
2653
- "grad_norm": 113.58409118652344,
2654
- "learning_rate": 4.9993301548778705e-05,
2655
- "loss": 412.94091796875,
2656
- "step": 7540
2657
- },
2658
- {
2659
- "epoch": 0.45914619911898286,
2660
- "grad_norm": 129.66651916503906,
2661
- "learning_rate": 4.9992928464011144e-05,
2662
- "loss": 411.043701171875,
2663
- "step": 7560
2664
- },
2665
- {
2666
- "epoch": 0.4603608716034246,
2667
- "grad_norm": 98.4170913696289,
2668
- "learning_rate": 4.9992545270477545e-05,
2669
- "loss": 401.46005859375,
2670
- "step": 7580
2671
- },
2672
- {
2673
- "epoch": 0.4615755440878664,
2674
- "grad_norm": 174.97955322265625,
2675
- "learning_rate": 4.999215196833289e-05,
2676
- "loss": 419.571337890625,
2677
- "step": 7600
2678
- },
2679
- {
2680
- "epoch": 0.4627902165723081,
2681
- "grad_norm": 116.11487579345703,
2682
- "learning_rate": 4.999174855773626e-05,
2683
- "loss": 409.20986328125,
2684
- "step": 7620
2685
- },
2686
- {
2687
- "epoch": 0.46400488905674986,
2688
- "grad_norm": 123.58662414550781,
2689
- "learning_rate": 4.9991335038850826e-05,
2690
- "loss": 418.3943359375,
2691
- "step": 7640
2692
- },
2693
- {
2694
- "epoch": 0.46521956154119165,
2695
- "grad_norm": 118.61854553222656,
2696
- "learning_rate": 4.9990911411843824e-05,
2697
- "loss": 410.848095703125,
2698
- "step": 7660
2699
- },
2700
- {
2701
- "epoch": 0.4664342340256334,
2702
- "grad_norm": 145.44140625,
2703
- "learning_rate": 4.999047767688661e-05,
2704
- "loss": 415.935986328125,
2705
- "step": 7680
2706
- },
2707
- {
2708
- "epoch": 0.4676489065100751,
2709
- "grad_norm": 137.12423706054688,
2710
- "learning_rate": 4.999003383415462e-05,
2711
- "loss": 409.5922607421875,
2712
- "step": 7700
2713
- },
2714
- {
2715
- "epoch": 0.3349025866922857,
2716
- "grad_norm": 114.64236450195312,
2717
- "learning_rate": 4.999999634717499e-05,
2718
- "loss": 436.261962890625,
2719
- "step": 7720
2720
- },
2721
- {
2722
- "epoch": 0.3357702099738719,
2723
- "grad_norm": 108.62358856201172,
2724
- "learning_rate": 4.9999982696481026e-05,
2725
- "loss": 435.9900390625,
2726
- "step": 7740
2727
- },
2728
- {
2729
- "epoch": 0.3366378332554581,
2730
- "grad_norm": 101.00037384033203,
2731
- "learning_rate": 4.999995893416784e-05,
2732
- "loss": 426.57451171875,
2733
- "step": 7760
2734
- },
2735
- {
2736
- "epoch": 0.33750545653704433,
2737
- "grad_norm": 131.40341186523438,
2738
- "learning_rate": 4.999992506024501e-05,
2739
- "loss": 424.60693359375,
2740
- "step": 7780
2741
- },
2742
- {
2743
- "epoch": 0.3383730798186306,
2744
- "grad_norm": 149.4034881591797,
2745
- "learning_rate": 4.999988107472628e-05,
2746
- "loss": 426.798583984375,
2747
- "step": 7800
2748
- },
2749
- {
2750
- "epoch": 0.3392407031002168,
2751
- "grad_norm": 116.280029296875,
2752
- "learning_rate": 4.9999826977629415e-05,
2753
- "loss": 425.104736328125,
2754
- "step": 7820
2755
- },
2756
- {
2757
- "epoch": 0.34010832638180305,
2758
- "grad_norm": 115.36983489990234,
2759
- "learning_rate": 4.99997627689763e-05,
2760
- "loss": 425.567724609375,
2761
- "step": 7840
2762
- },
2763
- {
2764
- "epoch": 0.3409759496633893,
2765
- "grad_norm": 110.69808959960938,
2766
- "learning_rate": 4.9999692404950473e-05,
2767
- "loss": 430.336962890625,
2768
- "step": 7860
2769
- }
2770
- ],
2771
- "logging_steps": 20,
2772
- "max_steps": 98796,
2773
- "num_input_tokens_seen": 0,
2774
- "num_train_epochs": 5,
2775
- "save_steps": 1000000000,
2776
- "stateful_callbacks": {
2777
- "TrainerControl": {
2778
- "args": {
2779
- "should_epoch_stop": false,
2780
- "should_evaluate": false,
2781
- "should_log": false,
2782
- "should_save": true,
2783
- "should_training_stop": false
2784
- },
2785
- "attributes": {}
2786
- }
2787
- },
2788
- "total_flos": 2.1190890769883136e+17,
2789
- "train_batch_size": 1,
2790
- "trial_name": null,
2791
- "trial_params": null
2792
- }
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
slots/13/latest.json CHANGED
@@ -1 +1 @@
1
- {"worker_id": "slot:13", "checkpoint": "slots/13/checkpoint-7867", "step": 7867, "updated_at": 1776561656}
 
1
+ {"worker_id": "slot:13", "checkpoint": "slots/13/checkpoint-8030", "step": 8030, "updated_at": 1776564293}