karanjaWakaba commited on
Commit
07fab2d
·
verified ·
1 Parent(s): 314bd4d

Upload checkpoint-875 (shard 3, 0:506)

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ad9957c6732464d4155353123efc916169f2a1d59b6df5402f3b29b7575ea956
3
  size 154116312
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:966b222a3b7f9bdc4e973aa5f6308cbfbda82657a2d60102bcab79bd8510174b
3
  size 154116312
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d8f9c2caca1a25b43618b00293b9db43f57882645ddebe56f1f8f239d4a6bfb7
3
  size 308668611
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a20efd67b670b3358df43dda9be51461cce1ffcb8b3a06b239b7b692fafd946e
3
  size 308668611
trainer_state.json CHANGED
@@ -11,1752 +11,1752 @@
11
  "log_history": [
12
  {
13
  "epoch": 0.007905138339920948,
14
- "grad_norm": 37.5876579284668,
15
  "learning_rate": 0.0,
16
  "loss": 6.8345,
17
  "step": 1
18
  },
19
  {
20
  "epoch": 0.015810276679841896,
21
- "grad_norm": 14.87977409362793,
22
  "learning_rate": 2.5e-05,
23
  "loss": 6.6279,
24
  "step": 2
25
  },
26
  {
27
  "epoch": 0.023715415019762844,
28
- "grad_norm": 16.453094482421875,
29
  "learning_rate": 5e-05,
30
- "loss": 6.7811,
31
  "step": 3
32
  },
33
  {
34
  "epoch": 0.03162055335968379,
35
- "grad_norm": 9.101632118225098,
36
  "learning_rate": 7.500000000000001e-05,
37
- "loss": 5.66,
38
  "step": 4
39
  },
40
  {
41
  "epoch": 0.039525691699604744,
42
- "grad_norm": 5.45641565322876,
43
  "learning_rate": 0.0001,
44
- "loss": 4.8428,
45
  "step": 5
46
  },
47
  {
48
  "epoch": 0.04743083003952569,
49
- "grad_norm": 4.674358367919922,
50
  "learning_rate": 0.000125,
51
- "loss": 4.0043,
52
  "step": 6
53
  },
54
  {
55
  "epoch": 0.05533596837944664,
56
- "grad_norm": 4.011600017547607,
57
  "learning_rate": 0.00015000000000000001,
58
- "loss": 4.102,
59
  "step": 7
60
  },
61
  {
62
  "epoch": 0.06324110671936758,
63
- "grad_norm": 2.9474167823791504,
64
  "learning_rate": 0.000175,
65
- "loss": 3.0249,
66
  "step": 8
67
  },
68
  {
69
  "epoch": 0.07114624505928854,
70
- "grad_norm": 2.8972344398498535,
71
  "learning_rate": 0.0002,
72
- "loss": 3.0272,
73
  "step": 9
74
  },
75
  {
76
  "epoch": 0.07905138339920949,
77
- "grad_norm": 2.332426071166992,
78
  "learning_rate": 0.0001999915737775817,
79
- "loss": 2.4029,
80
  "step": 10
81
  },
82
  {
83
  "epoch": 0.08695652173913043,
84
- "grad_norm": 2.9309306144714355,
85
  "learning_rate": 0.00019996629653035126,
86
- "loss": 2.1172,
87
  "step": 11
88
  },
89
  {
90
  "epoch": 0.09486166007905138,
91
- "grad_norm": 2.907116174697876,
92
  "learning_rate": 0.00019992417251814282,
93
- "loss": 1.8977,
94
  "step": 12
95
  },
96
  {
97
  "epoch": 0.10276679841897234,
98
- "grad_norm": 2.2385010719299316,
99
  "learning_rate": 0.00019986520883988232,
100
- "loss": 1.463,
101
  "step": 13
102
  },
103
  {
104
  "epoch": 0.11067193675889328,
105
- "grad_norm": 2.3392879962921143,
106
  "learning_rate": 0.0001997894154323911,
107
- "loss": 1.3303,
108
  "step": 14
109
  },
110
  {
111
  "epoch": 0.11857707509881422,
112
- "grad_norm": 2.8780765533447266,
113
  "learning_rate": 0.00019969680506871137,
114
- "loss": 1.1526,
115
  "step": 15
116
  },
117
  {
118
  "epoch": 0.12648221343873517,
119
- "grad_norm": 2.6122989654541016,
120
  "learning_rate": 0.0001995873933559535,
121
- "loss": 0.9236,
122
  "step": 16
123
  },
124
  {
125
  "epoch": 0.13438735177865613,
126
- "grad_norm": 3.0627999305725098,
127
  "learning_rate": 0.00019946119873266613,
128
- "loss": 0.7549,
129
  "step": 17
130
  },
131
  {
132
  "epoch": 0.1422924901185771,
133
- "grad_norm": 2.3931822776794434,
134
  "learning_rate": 0.0001993182424657285,
135
- "loss": 0.782,
136
  "step": 18
137
  },
138
  {
139
  "epoch": 0.15019762845849802,
140
- "grad_norm": 1.717180848121643,
141
  "learning_rate": 0.00019915854864676664,
142
- "loss": 0.7529,
143
  "step": 19
144
  },
145
  {
146
  "epoch": 0.15810276679841898,
147
- "grad_norm": 2.4214677810668945,
148
  "learning_rate": 0.0001989821441880933,
149
- "loss": 0.6544,
150
  "step": 20
151
  },
152
  {
153
  "epoch": 0.16600790513833993,
154
- "grad_norm": 1.7936805486679077,
155
  "learning_rate": 0.00019878905881817252,
156
- "loss": 0.6009,
157
  "step": 21
158
  },
159
  {
160
  "epoch": 0.17391304347826086,
161
- "grad_norm": 3.7155938148498535,
162
  "learning_rate": 0.0001985793250766098,
163
- "loss": 0.6768,
164
  "step": 22
165
  },
166
  {
167
  "epoch": 0.18181818181818182,
168
- "grad_norm": 1.343880534172058,
169
  "learning_rate": 0.00019835297830866826,
170
- "loss": 0.5198,
171
  "step": 23
172
  },
173
  {
174
  "epoch": 0.18972332015810275,
175
- "grad_norm": 1.1089560985565186,
176
  "learning_rate": 0.00019811005665931205,
177
- "loss": 0.425,
178
  "step": 24
179
  },
180
  {
181
  "epoch": 0.1976284584980237,
182
- "grad_norm": 2.3267531394958496,
183
  "learning_rate": 0.00019785060106677818,
184
- "loss": 0.8532,
185
  "step": 25
186
  },
187
  {
188
  "epoch": 0.20553359683794467,
189
- "grad_norm": 1.536291241645813,
190
  "learning_rate": 0.0001975746552556772,
191
- "loss": 0.4212,
192
  "step": 26
193
  },
194
  {
195
  "epoch": 0.2134387351778656,
196
- "grad_norm": 1.1441535949707031,
197
  "learning_rate": 0.00019728226572962473,
198
- "loss": 0.4482,
199
  "step": 27
200
  },
201
  {
202
  "epoch": 0.22134387351778656,
203
- "grad_norm": 1.1318137645721436,
204
  "learning_rate": 0.0001969734817634044,
205
- "loss": 0.6573,
206
  "step": 28
207
  },
208
  {
209
  "epoch": 0.22924901185770752,
210
- "grad_norm": 1.5648777484893799,
211
  "learning_rate": 0.0001966483553946637,
212
- "loss": 0.6438,
213
  "step": 29
214
  },
215
  {
216
  "epoch": 0.23715415019762845,
217
- "grad_norm": 1.3132728338241577,
218
  "learning_rate": 0.00019630694141514464,
219
- "loss": 0.3222,
220
  "step": 30
221
  },
222
  {
223
  "epoch": 0.2450592885375494,
224
- "grad_norm": 1.2373923063278198,
225
  "learning_rate": 0.00019594929736144976,
226
- "loss": 0.3504,
227
  "step": 31
228
  },
229
  {
230
  "epoch": 0.25296442687747034,
231
- "grad_norm": 1.2690372467041016,
232
  "learning_rate": 0.0001955754835053459,
233
- "loss": 0.724,
234
  "step": 32
235
  },
236
  {
237
  "epoch": 0.2608695652173913,
238
- "grad_norm": 1.5825968980789185,
239
  "learning_rate": 0.00019518556284360696,
240
- "loss": 0.4321,
241
  "step": 33
242
  },
243
  {
244
  "epoch": 0.26877470355731226,
245
- "grad_norm": 1.175012230873108,
246
  "learning_rate": 0.0001947796010873974,
247
- "loss": 0.3895,
248
  "step": 34
249
  },
250
  {
251
  "epoch": 0.2766798418972332,
252
- "grad_norm": 1.0333178043365479,
253
  "learning_rate": 0.0001943576666511982,
254
- "loss": 0.5972,
255
  "step": 35
256
  },
257
  {
258
  "epoch": 0.2845849802371542,
259
- "grad_norm": 1.1397666931152344,
260
  "learning_rate": 0.0001939198306412775,
261
- "loss": 0.6173,
262
  "step": 36
263
  },
264
  {
265
  "epoch": 0.2924901185770751,
266
- "grad_norm": 1.1599067449569702,
267
  "learning_rate": 0.0001934661668437073,
268
- "loss": 0.3916,
269
  "step": 37
270
  },
271
  {
272
  "epoch": 0.30039525691699603,
273
- "grad_norm": 1.0097579956054688,
274
  "learning_rate": 0.0001929967517119289,
275
- "loss": 0.6569,
276
  "step": 38
277
  },
278
  {
279
  "epoch": 0.308300395256917,
280
- "grad_norm": 1.6274114847183228,
281
  "learning_rate": 0.0001925116643538684,
282
- "loss": 0.2624,
283
  "step": 39
284
  },
285
  {
286
  "epoch": 0.31620553359683795,
287
- "grad_norm": 1.0551433563232422,
288
  "learning_rate": 0.0001920109865186052,
289
- "loss": 0.6816,
290
  "step": 40
291
  },
292
  {
293
  "epoch": 0.3241106719367589,
294
- "grad_norm": 0.9606983661651611,
295
  "learning_rate": 0.00019149480258259533,
296
- "loss": 0.4485,
297
  "step": 41
298
  },
299
  {
300
  "epoch": 0.33201581027667987,
301
- "grad_norm": 1.1261677742004395,
302
  "learning_rate": 0.00019096319953545185,
303
- "loss": 0.3185,
304
  "step": 42
305
  },
306
  {
307
  "epoch": 0.33992094861660077,
308
- "grad_norm": 1.820938229560852,
309
  "learning_rate": 0.00019041626696528503,
310
- "loss": 0.277,
311
  "step": 43
312
  },
313
  {
314
  "epoch": 0.34782608695652173,
315
- "grad_norm": 1.1593023538589478,
316
  "learning_rate": 0.00018985409704360456,
317
- "loss": 0.6395,
318
  "step": 44
319
  },
320
  {
321
  "epoch": 0.3557312252964427,
322
- "grad_norm": 0.8903545141220093,
323
  "learning_rate": 0.0001892767845097864,
324
- "loss": 0.4733,
325
  "step": 45
326
  },
327
  {
328
  "epoch": 0.36363636363636365,
329
- "grad_norm": 0.7684641480445862,
330
  "learning_rate": 0.00018868442665510678,
331
- "loss": 0.3804,
332
  "step": 46
333
  },
334
  {
335
  "epoch": 0.3715415019762846,
336
- "grad_norm": 1.0813274383544922,
337
  "learning_rate": 0.00018807712330634642,
338
- "loss": 0.428,
339
  "step": 47
340
  },
341
  {
342
  "epoch": 0.3794466403162055,
343
- "grad_norm": 0.8424346446990967,
344
  "learning_rate": 0.00018745497680896722,
345
- "loss": 0.381,
346
  "step": 48
347
  },
348
  {
349
  "epoch": 0.38735177865612647,
350
- "grad_norm": 0.7333454489707947,
351
  "learning_rate": 0.0001868180920098644,
352
- "loss": 0.4397,
353
  "step": 49
354
  },
355
  {
356
  "epoch": 0.3952569169960474,
357
- "grad_norm": 1.145660161972046,
358
  "learning_rate": 0.0001861665762396974,
359
- "loss": 0.813,
360
  "step": 50
361
  },
362
  {
363
  "epoch": 0.4031620553359684,
364
- "grad_norm": 1.0778045654296875,
365
  "learning_rate": 0.00018550053929480202,
366
- "loss": 0.3169,
367
  "step": 51
368
  },
369
  {
370
  "epoch": 0.41106719367588934,
371
- "grad_norm": 1.2810466289520264,
372
  "learning_rate": 0.00018482009341868697,
373
- "loss": 0.2757,
374
  "step": 52
375
  },
376
  {
377
  "epoch": 0.4189723320158103,
378
- "grad_norm": 1.754908800125122,
379
  "learning_rate": 0.00018412535328311814,
380
- "loss": 0.3722,
381
  "step": 53
382
  },
383
  {
384
  "epoch": 0.4268774703557312,
385
- "grad_norm": 1.2411037683486938,
386
  "learning_rate": 0.00018341643596879367,
387
- "loss": 0.8517,
388
  "step": 54
389
  },
390
  {
391
  "epoch": 0.43478260869565216,
392
- "grad_norm": 0.9490335583686829,
393
  "learning_rate": 0.0001826934609456129,
394
- "loss": 0.4454,
395
  "step": 55
396
  },
397
  {
398
  "epoch": 0.4426877470355731,
399
- "grad_norm": 0.5774851441383362,
400
  "learning_rate": 0.00018195655005254273,
401
- "loss": 0.2006,
402
  "step": 56
403
  },
404
  {
405
  "epoch": 0.4505928853754941,
406
- "grad_norm": 0.771795928478241,
407
  "learning_rate": 0.00018120582747708502,
408
- "loss": 0.2744,
409
  "step": 57
410
  },
411
  {
412
  "epoch": 0.45849802371541504,
413
- "grad_norm": 0.7947430610656738,
414
  "learning_rate": 0.00018044141973434758,
415
- "loss": 0.3595,
416
  "step": 58
417
  },
418
  {
419
  "epoch": 0.466403162055336,
420
- "grad_norm": 0.8362589478492737,
421
  "learning_rate": 0.0001796634556457236,
422
- "loss": 0.2472,
423
  "step": 59
424
  },
425
  {
426
  "epoch": 0.4743083003952569,
427
- "grad_norm": 1.265906572341919,
428
  "learning_rate": 0.00017887206631718203,
429
- "loss": 0.3196,
430
  "step": 60
431
  },
432
  {
433
  "epoch": 0.48221343873517786,
434
- "grad_norm": 0.9433225989341736,
435
  "learning_rate": 0.0001780673851171728,
436
- "loss": 0.4213,
437
  "step": 61
438
  },
439
  {
440
  "epoch": 0.4901185770750988,
441
- "grad_norm": 1.061390995979309,
442
  "learning_rate": 0.00017724954765415137,
443
- "loss": 0.2079,
444
  "step": 62
445
  },
446
  {
447
  "epoch": 0.4980237154150198,
448
- "grad_norm": 0.7185953259468079,
449
  "learning_rate": 0.00017641869175372493,
450
- "loss": 0.2292,
451
  "step": 63
452
  },
453
  {
454
  "epoch": 0.5059288537549407,
455
- "grad_norm": 2.011293649673462,
456
  "learning_rate": 0.00017557495743542585,
457
- "loss": 0.4257,
458
  "step": 64
459
  },
460
  {
461
  "epoch": 0.5138339920948617,
462
- "grad_norm": 1.008697271347046,
463
  "learning_rate": 0.00017471848688911464,
464
- "loss": 0.3885,
465
  "step": 65
466
  },
467
  {
468
  "epoch": 0.5217391304347826,
469
- "grad_norm": 0.6567645072937012,
470
  "learning_rate": 0.00017384942445101772,
471
- "loss": 0.1438,
472
  "step": 66
473
  },
474
  {
475
  "epoch": 0.5296442687747036,
476
- "grad_norm": 0.7839428186416626,
477
  "learning_rate": 0.000172967916579403,
478
- "loss": 0.3432,
479
  "step": 67
480
  },
481
  {
482
  "epoch": 0.5375494071146245,
483
- "grad_norm": 0.6802240610122681,
484
  "learning_rate": 0.00017207411182989832,
485
- "loss": 0.2519,
486
  "step": 68
487
  },
488
  {
489
  "epoch": 0.5454545454545454,
490
- "grad_norm": 0.7788658142089844,
491
  "learning_rate": 0.00017116816083045602,
492
- "loss": 0.2402,
493
  "step": 69
494
  },
495
  {
496
  "epoch": 0.5533596837944664,
497
- "grad_norm": 1.4981237649917603,
498
  "learning_rate": 0.00017025021625596853,
499
- "loss": 0.2386,
500
  "step": 70
501
  },
502
  {
503
  "epoch": 0.5612648221343873,
504
- "grad_norm": 1.2055702209472656,
505
  "learning_rate": 0.0001693204328025389,
506
- "loss": 0.5334,
507
  "step": 71
508
  },
509
  {
510
  "epoch": 0.5691699604743083,
511
- "grad_norm": 0.8050393462181091,
512
  "learning_rate": 0.0001683789671614107,
513
- "loss": 0.3503,
514
  "step": 72
515
  },
516
  {
517
  "epoch": 0.5770750988142292,
518
- "grad_norm": 1.388447880744934,
519
  "learning_rate": 0.00016742597799256182,
520
- "loss": 0.2713,
521
  "step": 73
522
  },
523
  {
524
  "epoch": 0.5849802371541502,
525
- "grad_norm": 1.34609854221344,
526
  "learning_rate": 0.00016646162589796615,
527
- "loss": 0.3561,
528
  "step": 74
529
  },
530
  {
531
  "epoch": 0.5928853754940712,
532
- "grad_norm": 0.6840114593505859,
533
  "learning_rate": 0.00016548607339452853,
534
- "loss": 0.3319,
535
  "step": 75
536
  },
537
  {
538
  "epoch": 0.6007905138339921,
539
- "grad_norm": 0.8626895546913147,
540
  "learning_rate": 0.00016449948488669639,
541
- "loss": 0.3875,
542
  "step": 76
543
  },
544
  {
545
  "epoch": 0.6086956521739131,
546
- "grad_norm": 0.6978746652603149,
547
  "learning_rate": 0.00016350202663875386,
548
- "loss": 0.3392,
549
  "step": 77
550
  },
551
  {
552
  "epoch": 0.616600790513834,
553
- "grad_norm": 1.2156915664672852,
554
  "learning_rate": 0.00016249386674680184,
555
- "loss": 0.4685,
556
  "step": 78
557
  },
558
  {
559
  "epoch": 0.6245059288537549,
560
- "grad_norm": 1.4607609510421753,
561
  "learning_rate": 0.0001614751751104301,
562
- "loss": 0.2612,
563
  "step": 79
564
  },
565
  {
566
  "epoch": 0.6324110671936759,
567
- "grad_norm": 1.203145146369934,
568
  "learning_rate": 0.00016044612340408466,
569
- "loss": 0.2867,
570
  "step": 80
571
  },
572
  {
573
  "epoch": 0.6403162055335968,
574
- "grad_norm": 0.5245752930641174,
575
  "learning_rate": 0.00015940688504813662,
576
- "loss": 0.1539,
577
  "step": 81
578
  },
579
  {
580
  "epoch": 0.6482213438735178,
581
- "grad_norm": 0.959148108959198,
582
  "learning_rate": 0.00015835763517965673,
583
- "loss": 0.5396,
584
  "step": 82
585
  },
586
  {
587
  "epoch": 0.6561264822134387,
588
- "grad_norm": 1.129942536354065,
589
  "learning_rate": 0.00015729855062290022,
590
- "loss": 0.2542,
591
  "step": 83
592
  },
593
  {
594
  "epoch": 0.6640316205533597,
595
- "grad_norm": 1.5355336666107178,
596
  "learning_rate": 0.0001562298098595078,
597
- "loss": 0.41,
598
  "step": 84
599
  },
600
  {
601
  "epoch": 0.6719367588932806,
602
- "grad_norm": 1.1144013404846191,
603
  "learning_rate": 0.00015515159299842707,
604
- "loss": 0.3745,
605
  "step": 85
606
  },
607
  {
608
  "epoch": 0.6798418972332015,
609
- "grad_norm": 0.7561334371566772,
610
  "learning_rate": 0.00015406408174555976,
611
- "loss": 0.2736,
612
  "step": 86
613
  },
614
  {
615
  "epoch": 0.6877470355731226,
616
- "grad_norm": 0.8727364540100098,
617
  "learning_rate": 0.00015296745937313987,
618
- "loss": 0.2456,
619
  "step": 87
620
  },
621
  {
622
  "epoch": 0.6956521739130435,
623
- "grad_norm": 0.9084362983703613,
624
  "learning_rate": 0.00015186191068884775,
625
- "loss": 0.5981,
626
  "step": 88
627
  },
628
  {
629
  "epoch": 0.7035573122529645,
630
- "grad_norm": 0.9988125562667847,
631
  "learning_rate": 0.00015074762200466556,
632
- "loss": 0.6487,
633
  "step": 89
634
  },
635
  {
636
  "epoch": 0.7114624505928854,
637
- "grad_norm": 0.9429134130477905,
638
  "learning_rate": 0.00014962478110547918,
639
- "loss": 0.4248,
640
  "step": 90
641
  },
642
  {
643
  "epoch": 0.7193675889328063,
644
- "grad_norm": 0.7329612970352173,
645
  "learning_rate": 0.00014849357721743168,
646
- "loss": 0.1729,
647
  "step": 91
648
  },
649
  {
650
  "epoch": 0.7272727272727273,
651
- "grad_norm": 1.2303996086120605,
652
  "learning_rate": 0.0001473542009760343,
653
- "loss": 0.4279,
654
  "step": 92
655
  },
656
  {
657
  "epoch": 0.7351778656126482,
658
- "grad_norm": 1.3390841484069824,
659
  "learning_rate": 0.00014620684439403962,
660
- "loss": 0.4451,
661
  "step": 93
662
  },
663
  {
664
  "epoch": 0.7430830039525692,
665
- "grad_norm": 0.8936579823493958,
666
  "learning_rate": 0.0001450517008290827,
667
- "loss": 0.2279,
668
  "step": 94
669
  },
670
  {
671
  "epoch": 0.7509881422924901,
672
- "grad_norm": 0.6139077544212341,
673
  "learning_rate": 0.0001438889649510956,
674
- "loss": 0.2379,
675
  "step": 95
676
  },
677
  {
678
  "epoch": 0.758893280632411,
679
- "grad_norm": 0.6658306121826172,
680
  "learning_rate": 0.00014271883270950073,
681
- "loss": 0.2763,
682
  "step": 96
683
  },
684
  {
685
  "epoch": 0.766798418972332,
686
- "grad_norm": 1.5102399587631226,
687
  "learning_rate": 0.00014154150130018866,
688
- "loss": 0.3528,
689
  "step": 97
690
  },
691
  {
692
  "epoch": 0.7747035573122529,
693
- "grad_norm": 0.6491991877555847,
694
  "learning_rate": 0.00014035716913228568,
695
- "loss": 0.1745,
696
  "step": 98
697
  },
698
  {
699
  "epoch": 0.782608695652174,
700
- "grad_norm": 1.1244672536849976,
701
  "learning_rate": 0.00013916603579471705,
702
- "loss": 1.0632,
703
  "step": 99
704
  },
705
  {
706
  "epoch": 0.7905138339920948,
707
- "grad_norm": 1.0054899454116821,
708
  "learning_rate": 0.0001379683020225714,
709
- "loss": 0.3859,
710
  "step": 100
711
  },
712
  {
713
  "epoch": 0.7984189723320159,
714
- "grad_norm": 1.1216827630996704,
715
  "learning_rate": 0.000136764169663272,
716
- "loss": 0.1602,
717
  "step": 101
718
  },
719
  {
720
  "epoch": 0.8063241106719368,
721
- "grad_norm": 1.0952600240707397,
722
  "learning_rate": 0.00013555384164256048,
723
- "loss": 0.2047,
724
  "step": 102
725
  },
726
  {
727
  "epoch": 0.8142292490118577,
728
- "grad_norm": 0.6201446652412415,
729
  "learning_rate": 0.00013433752193029886,
730
- "loss": 0.2862,
731
  "step": 103
732
  },
733
  {
734
  "epoch": 0.8221343873517787,
735
- "grad_norm": 0.7657504677772522,
736
  "learning_rate": 0.00013311541550609565,
737
- "loss": 0.468,
738
  "step": 104
739
  },
740
  {
741
  "epoch": 0.8300395256916996,
742
- "grad_norm": 0.5368217825889587,
743
  "learning_rate": 0.00013188772832476188,
744
  "loss": 0.1356,
745
  "step": 105
746
  },
747
  {
748
  "epoch": 0.8379446640316206,
749
- "grad_norm": 0.6289976835250854,
750
  "learning_rate": 0.00013065466728160252,
751
- "loss": 0.1638,
752
  "step": 106
753
  },
754
  {
755
  "epoch": 0.8458498023715415,
756
- "grad_norm": 1.216394066810608,
757
  "learning_rate": 0.00012941644017754964,
758
- "loss": 0.3181,
759
  "step": 107
760
  },
761
  {
762
  "epoch": 0.8537549407114624,
763
- "grad_norm": 0.6963629722595215,
764
  "learning_rate": 0.00012817325568414297,
765
- "loss": 0.418,
766
  "step": 108
767
  },
768
  {
769
  "epoch": 0.8616600790513834,
770
- "grad_norm": 1.0949358940124512,
771
  "learning_rate": 0.00012692532330836346,
772
- "loss": 0.2907,
773
  "step": 109
774
  },
775
  {
776
  "epoch": 0.8695652173913043,
777
- "grad_norm": 0.7999882102012634,
778
  "learning_rate": 0.00012567285335732633,
779
- "loss": 0.3369,
780
  "step": 110
781
  },
782
  {
783
  "epoch": 0.8774703557312253,
784
- "grad_norm": 0.7669695019721985,
785
  "learning_rate": 0.00012441605690283915,
786
- "loss": 0.2744,
787
  "step": 111
788
  },
789
  {
790
  "epoch": 0.8853754940711462,
791
- "grad_norm": 0.8140245079994202,
792
  "learning_rate": 0.00012315514574583113,
793
- "loss": 0.2297,
794
  "step": 112
795
  },
796
  {
797
  "epoch": 0.8932806324110671,
798
- "grad_norm": 1.2144274711608887,
799
  "learning_rate": 0.0001218903323806595,
800
- "loss": 0.4247,
801
  "step": 113
802
  },
803
  {
804
  "epoch": 0.9011857707509882,
805
- "grad_norm": 0.8045055866241455,
806
  "learning_rate": 0.00012062182995929882,
807
- "loss": 0.3203,
808
  "step": 114
809
  },
810
  {
811
  "epoch": 0.9090909090909091,
812
- "grad_norm": 4.573957443237305,
813
  "learning_rate": 0.00011934985225541998,
814
- "loss": 0.4917,
815
  "step": 115
816
  },
817
  {
818
  "epoch": 0.9169960474308301,
819
- "grad_norm": 1.2436349391937256,
820
  "learning_rate": 0.0001180746136283638,
821
- "loss": 0.3548,
822
  "step": 116
823
  },
824
  {
825
  "epoch": 0.924901185770751,
826
- "grad_norm": 1.3303828239440918,
827
  "learning_rate": 0.00011679632898701649,
828
- "loss": 0.3161,
829
  "step": 117
830
  },
831
  {
832
  "epoch": 0.932806324110672,
833
- "grad_norm": 0.7288329005241394,
834
  "learning_rate": 0.00011551521375359206,
835
- "loss": 0.2748,
836
  "step": 118
837
  },
838
  {
839
  "epoch": 0.9407114624505929,
840
- "grad_norm": 0.94376140832901,
841
  "learning_rate": 0.00011423148382732853,
842
- "loss": 0.2465,
843
  "step": 119
844
  },
845
  {
846
  "epoch": 0.9486166007905138,
847
- "grad_norm": 0.5832346081733704,
848
  "learning_rate": 0.00011294535554810354,
849
- "loss": 0.1955,
850
  "step": 120
851
  },
852
  {
853
  "epoch": 0.9565217391304348,
854
- "grad_norm": 0.6223639845848083,
855
  "learning_rate": 0.00011165704565997593,
856
- "loss": 0.1401,
857
  "step": 121
858
  },
859
  {
860
  "epoch": 0.9644268774703557,
861
- "grad_norm": 0.8612600564956665,
862
  "learning_rate": 0.00011036677127465889,
863
- "loss": 0.3112,
864
  "step": 122
865
  },
866
  {
867
  "epoch": 0.9723320158102767,
868
- "grad_norm": 1.0104589462280273,
869
  "learning_rate": 0.00010907474983493144,
870
- "loss": 0.426,
871
  "step": 123
872
  },
873
  {
874
  "epoch": 0.9802371541501976,
875
- "grad_norm": 1.0083054304122925,
876
  "learning_rate": 0.00010778119907799398,
877
- "loss": 0.4125,
878
  "step": 124
879
  },
880
  {
881
  "epoch": 0.9881422924901185,
882
- "grad_norm": 2.0528476238250732,
883
  "learning_rate": 0.0001064863369987743,
884
- "loss": 0.2398,
885
  "step": 125
886
  },
887
  {
888
  "epoch": 0.9960474308300395,
889
- "grad_norm": 1.8364521265029907,
890
  "learning_rate": 0.00010519038181318999,
891
- "loss": 0.2789,
892
  "step": 126
893
  },
894
  {
895
  "epoch": 1.0,
896
- "grad_norm": 1.1836934089660645,
897
  "learning_rate": 0.00010389355192137377,
898
- "loss": 0.3988,
899
  "step": 127
900
  },
901
  {
902
  "epoch": 1.007905138339921,
903
- "grad_norm": 0.7436236143112183,
904
  "learning_rate": 0.00010259606587086783,
905
- "loss": 0.296,
906
  "step": 128
907
  },
908
  {
909
  "epoch": 1.0158102766798418,
910
- "grad_norm": 0.6589778661727905,
911
  "learning_rate": 0.0001012981423197931,
912
- "loss": 0.4009,
913
  "step": 129
914
  },
915
  {
916
  "epoch": 1.023715415019763,
917
- "grad_norm": 0.5743900537490845,
918
  "learning_rate": 0.0001,
919
- "loss": 0.1445,
920
  "step": 130
921
  },
922
  {
923
  "epoch": 1.0316205533596838,
924
- "grad_norm": 1.7947680950164795,
925
  "learning_rate": 9.870185768020693e-05,
926
- "loss": 0.2082,
927
  "step": 131
928
  },
929
  {
930
  "epoch": 1.0395256916996047,
931
- "grad_norm": 0.9778440594673157,
932
  "learning_rate": 9.740393412913219e-05,
933
- "loss": 0.3782,
934
  "step": 132
935
  },
936
  {
937
  "epoch": 1.0474308300395256,
938
- "grad_norm": 0.6362202167510986,
939
  "learning_rate": 9.610644807862625e-05,
940
- "loss": 0.2059,
941
  "step": 133
942
  },
943
  {
944
  "epoch": 1.0553359683794465,
945
- "grad_norm": 0.7074435353279114,
946
  "learning_rate": 9.480961818681004e-05,
947
- "loss": 0.2698,
948
  "step": 134
949
  },
950
  {
951
  "epoch": 1.0632411067193677,
952
- "grad_norm": 0.8866583704948425,
953
  "learning_rate": 9.35136630012257e-05,
954
- "loss": 0.1588,
955
  "step": 135
956
  },
957
  {
958
  "epoch": 1.0711462450592886,
959
- "grad_norm": 0.5219342708587646,
960
  "learning_rate": 9.221880092200601e-05,
961
- "loss": 0.1926,
962
  "step": 136
963
  },
964
  {
965
  "epoch": 1.0790513833992095,
966
- "grad_norm": 0.7011678218841553,
967
  "learning_rate": 9.092525016506858e-05,
968
- "loss": 0.2249,
969
  "step": 137
970
  },
971
  {
972
  "epoch": 1.0869565217391304,
973
- "grad_norm": 0.5657678246498108,
974
  "learning_rate": 8.963322872534114e-05,
975
- "loss": 0.1683,
976
  "step": 138
977
  },
978
  {
979
  "epoch": 1.0948616600790513,
980
- "grad_norm": 8.20474910736084,
981
  "learning_rate": 8.83429543400241e-05,
982
- "loss": 0.3678,
983
  "step": 139
984
  },
985
  {
986
  "epoch": 1.1027667984189724,
987
- "grad_norm": 0.7418918013572693,
988
  "learning_rate": 8.705464445189647e-05,
989
- "loss": 0.1955,
990
  "step": 140
991
  },
992
  {
993
  "epoch": 1.1106719367588933,
994
- "grad_norm": 0.733155369758606,
995
  "learning_rate": 8.57685161726715e-05,
996
- "loss": 0.3882,
997
  "step": 141
998
  },
999
  {
1000
  "epoch": 1.1185770750988142,
1001
- "grad_norm": 0.6813409924507141,
1002
  "learning_rate": 8.448478624640797e-05,
1003
- "loss": 0.1533,
1004
  "step": 142
1005
  },
1006
  {
1007
  "epoch": 1.1264822134387351,
1008
- "grad_norm": 0.6259405016899109,
1009
  "learning_rate": 8.320367101298351e-05,
1010
- "loss": 0.2233,
1011
  "step": 143
1012
  },
1013
  {
1014
  "epoch": 1.1343873517786562,
1015
- "grad_norm": 0.6203911304473877,
1016
  "learning_rate": 8.192538637163621e-05,
1017
- "loss": 0.167,
1018
  "step": 144
1019
  },
1020
  {
1021
  "epoch": 1.1422924901185771,
1022
- "grad_norm": 0.6209132075309753,
1023
  "learning_rate": 8.065014774458003e-05,
1024
- "loss": 0.2,
1025
  "step": 145
1026
  },
1027
  {
1028
  "epoch": 1.150197628458498,
1029
- "grad_norm": 0.5935210585594177,
1030
  "learning_rate": 7.93781700407012e-05,
1031
- "loss": 0.176,
1032
  "step": 146
1033
  },
1034
  {
1035
  "epoch": 1.158102766798419,
1036
- "grad_norm": 0.5734385251998901,
1037
  "learning_rate": 7.810966761934053e-05,
1038
- "loss": 0.1797,
1039
  "step": 147
1040
  },
1041
  {
1042
  "epoch": 1.1660079051383399,
1043
- "grad_norm": 0.7462530136108398,
1044
  "learning_rate": 7.684485425416888e-05,
1045
- "loss": 0.1302,
1046
  "step": 148
1047
  },
1048
  {
1049
  "epoch": 1.1739130434782608,
1050
- "grad_norm": 0.5157163739204407,
1051
  "learning_rate": 7.558394309716088e-05,
1052
- "loss": 0.109,
1053
  "step": 149
1054
  },
1055
  {
1056
  "epoch": 1.1818181818181819,
1057
- "grad_norm": 0.5993911027908325,
1058
  "learning_rate": 7.432714664267373e-05,
1059
- "loss": 0.1918,
1060
  "step": 150
1061
  },
1062
  {
1063
  "epoch": 1.1897233201581028,
1064
- "grad_norm": 0.6078954339027405,
1065
  "learning_rate": 7.307467669163655e-05,
1066
- "loss": 0.1903,
1067
  "step": 151
1068
  },
1069
  {
1070
  "epoch": 1.1976284584980237,
1071
- "grad_norm": 0.7795295119285583,
1072
  "learning_rate": 7.182674431585704e-05,
1073
- "loss": 0.2494,
1074
  "step": 152
1075
  },
1076
  {
1077
  "epoch": 1.2055335968379446,
1078
- "grad_norm": 0.6875370144844055,
1079
  "learning_rate": 7.058355982245037e-05,
1080
- "loss": 0.165,
1081
  "step": 153
1082
  },
1083
  {
1084
  "epoch": 1.2134387351778657,
1085
- "grad_norm": 1.2836542129516602,
1086
  "learning_rate": 6.934533271839752e-05,
1087
- "loss": 0.2879,
1088
  "step": 154
1089
  },
1090
  {
1091
  "epoch": 1.2213438735177866,
1092
- "grad_norm": 0.6149235963821411,
1093
  "learning_rate": 6.811227167523815e-05,
1094
- "loss": 0.3759,
1095
  "step": 155
1096
  },
1097
  {
1098
  "epoch": 1.2292490118577075,
1099
- "grad_norm": 0.6558827757835388,
1100
  "learning_rate": 6.688458449390437e-05,
1101
- "loss": 0.2317,
1102
  "step": 156
1103
  },
1104
  {
1105
  "epoch": 1.2371541501976284,
1106
- "grad_norm": 0.5832497477531433,
1107
  "learning_rate": 6.566247806970119e-05,
1108
- "loss": 0.243,
1109
  "step": 157
1110
  },
1111
  {
1112
  "epoch": 1.2450592885375493,
1113
- "grad_norm": 0.7867661714553833,
1114
  "learning_rate": 6.444615835743955e-05,
1115
- "loss": 0.291,
1116
  "step": 158
1117
  },
1118
  {
1119
  "epoch": 1.2529644268774702,
1120
- "grad_norm": 1.1524978876113892,
1121
  "learning_rate": 6.323583033672799e-05,
1122
- "loss": 0.2394,
1123
  "step": 159
1124
  },
1125
  {
1126
  "epoch": 1.2608695652173914,
1127
- "grad_norm": 1.0739554166793823,
1128
  "learning_rate": 6.203169797742861e-05,
1129
- "loss": 0.3626,
1130
  "step": 160
1131
  },
1132
  {
1133
  "epoch": 1.2687747035573123,
1134
- "grad_norm": 1.4459284543991089,
1135
  "learning_rate": 6.083396420528298e-05,
1136
- "loss": 0.2245,
1137
  "step": 161
1138
  },
1139
  {
1140
  "epoch": 1.2766798418972332,
1141
- "grad_norm": 1.0734719038009644,
1142
  "learning_rate": 5.964283086771435e-05,
1143
- "loss": 0.4054,
1144
  "step": 162
1145
  },
1146
  {
1147
  "epoch": 1.2845849802371543,
1148
- "grad_norm": 0.7080317139625549,
1149
  "learning_rate": 5.845849869981137e-05,
1150
- "loss": 0.1684,
1151
  "step": 163
1152
  },
1153
  {
1154
  "epoch": 1.2924901185770752,
1155
- "grad_norm": 0.9621386528015137,
1156
  "learning_rate": 5.728116729049928e-05,
1157
- "loss": 0.5877,
1158
  "step": 164
1159
  },
1160
  {
1161
  "epoch": 1.300395256916996,
1162
- "grad_norm": 0.511576771736145,
1163
  "learning_rate": 5.611103504890444e-05,
1164
- "loss": 0.0844,
1165
  "step": 165
1166
  },
1167
  {
1168
  "epoch": 1.308300395256917,
1169
- "grad_norm": 0.8402789235115051,
1170
  "learning_rate": 5.4948299170917325e-05,
1171
- "loss": 0.2352,
1172
  "step": 166
1173
  },
1174
  {
1175
  "epoch": 1.316205533596838,
1176
- "grad_norm": 0.7360251545906067,
1177
  "learning_rate": 5.379315560596038e-05,
1178
- "loss": 0.2368,
1179
  "step": 167
1180
  },
1181
  {
1182
  "epoch": 1.3241106719367588,
1183
- "grad_norm": 0.8452273011207581,
1184
  "learning_rate": 5.26457990239657e-05,
1185
- "loss": 0.2075,
1186
  "step": 168
1187
  },
1188
  {
1189
  "epoch": 1.33201581027668,
1190
- "grad_norm": 1.056742787361145,
1191
  "learning_rate": 5.1506422782568345e-05,
1192
- "loss": 0.2835,
1193
  "step": 169
1194
  },
1195
  {
1196
  "epoch": 1.3399209486166008,
1197
- "grad_norm": 0.4637269079685211,
1198
  "learning_rate": 5.0375218894520834e-05,
1199
- "loss": 0.0961,
1200
  "step": 170
1201
  },
1202
  {
1203
  "epoch": 1.3478260869565217,
1204
- "grad_norm": 1.0665563344955444,
1205
  "learning_rate": 4.9252377995334444e-05,
1206
- "loss": 0.1613,
1207
  "step": 171
1208
  },
1209
  {
1210
  "epoch": 1.3557312252964426,
1211
- "grad_norm": 0.6855564713478088,
1212
  "learning_rate": 4.813808931115228e-05,
1213
- "loss": 0.1832,
1214
  "step": 172
1215
  },
1216
  {
1217
  "epoch": 1.3636363636363638,
1218
- "grad_norm": 1.3846145868301392,
1219
  "learning_rate": 4.703254062686017e-05,
1220
- "loss": 0.4217,
1221
  "step": 173
1222
  },
1223
  {
1224
  "epoch": 1.3715415019762847,
1225
- "grad_norm": 0.9569350481033325,
1226
  "learning_rate": 4.593591825444028e-05,
1227
- "loss": 0.3381,
1228
  "step": 174
1229
  },
1230
  {
1231
  "epoch": 1.3794466403162056,
1232
- "grad_norm": 2.7899603843688965,
1233
  "learning_rate": 4.484840700157295e-05,
1234
- "loss": 0.2466,
1235
  "step": 175
1236
  },
1237
  {
1238
  "epoch": 1.3873517786561265,
1239
- "grad_norm": 0.5576080679893494,
1240
  "learning_rate": 4.377019014049223e-05,
1241
- "loss": 0.1441,
1242
  "step": 176
1243
  },
1244
  {
1245
  "epoch": 1.3952569169960474,
1246
- "grad_norm": 0.9455075263977051,
1247
  "learning_rate": 4.270144937709981e-05,
1248
- "loss": 0.1785,
1249
  "step": 177
1250
  },
1251
  {
1252
  "epoch": 1.4031620553359683,
1253
- "grad_norm": 0.9868407845497131,
1254
  "learning_rate": 4.164236482034327e-05,
1255
- "loss": 0.3179,
1256
  "step": 178
1257
  },
1258
  {
1259
  "epoch": 1.4110671936758894,
1260
- "grad_norm": 0.39552775025367737,
1261
  "learning_rate": 4.059311495186338e-05,
1262
- "loss": 0.1057,
1263
  "step": 179
1264
  },
1265
  {
1266
  "epoch": 1.4189723320158103,
1267
- "grad_norm": 1.4461482763290405,
1268
  "learning_rate": 3.9553876595915375e-05,
1269
- "loss": 0.086,
1270
  "step": 180
1271
  },
1272
  {
1273
  "epoch": 1.4268774703557312,
1274
- "grad_norm": 0.5234783887863159,
1275
  "learning_rate": 3.852482488956992e-05,
1276
- "loss": 0.1233,
1277
  "step": 181
1278
  },
1279
  {
1280
  "epoch": 1.434782608695652,
1281
- "grad_norm": 1.636184811592102,
1282
  "learning_rate": 3.750613325319817e-05,
1283
- "loss": 0.2031,
1284
  "step": 182
1285
  },
1286
  {
1287
  "epoch": 1.4426877470355732,
1288
- "grad_norm": 0.6264592409133911,
1289
  "learning_rate": 3.649797336124615e-05,
1290
- "loss": 0.1644,
1291
  "step": 183
1292
  },
1293
  {
1294
  "epoch": 1.4505928853754941,
1295
- "grad_norm": 0.6155117750167847,
1296
  "learning_rate": 3.550051511330361e-05,
1297
- "loss": 0.2239,
1298
  "step": 184
1299
  },
1300
  {
1301
  "epoch": 1.458498023715415,
1302
- "grad_norm": 1.329161524772644,
1303
  "learning_rate": 3.45139266054715e-05,
1304
- "loss": 0.2775,
1305
  "step": 185
1306
  },
1307
  {
1308
  "epoch": 1.466403162055336,
1309
- "grad_norm": 0.8846868872642517,
1310
  "learning_rate": 3.3538374102033866e-05,
1311
- "loss": 0.1838,
1312
  "step": 186
1313
  },
1314
  {
1315
  "epoch": 1.4743083003952568,
1316
- "grad_norm": 0.929398238658905,
1317
  "learning_rate": 3.257402200743821e-05,
1318
- "loss": 0.171,
1319
  "step": 187
1320
  },
1321
  {
1322
  "epoch": 1.4822134387351777,
1323
- "grad_norm": 0.7083112597465515,
1324
  "learning_rate": 3.1621032838589305e-05,
1325
- "loss": 0.1866,
1326
  "step": 188
1327
  },
1328
  {
1329
  "epoch": 1.4901185770750989,
1330
- "grad_norm": 1.1155579090118408,
1331
  "learning_rate": 3.0679567197461134e-05,
1332
- "loss": 0.299,
1333
  "step": 189
1334
  },
1335
  {
1336
  "epoch": 1.4980237154150198,
1337
- "grad_norm": 0.7512155175209045,
1338
  "learning_rate": 2.974978374403147e-05,
1339
- "loss": 0.2418,
1340
  "step": 190
1341
  },
1342
  {
1343
  "epoch": 1.5059288537549407,
1344
- "grad_norm": 0.7041618824005127,
1345
  "learning_rate": 2.8831839169543996e-05,
1346
- "loss": 0.216,
1347
  "step": 191
1348
  },
1349
  {
1350
  "epoch": 1.5138339920948618,
1351
- "grad_norm": 0.5851369500160217,
1352
  "learning_rate": 2.7925888170101665e-05,
1353
- "loss": 0.0778,
1354
  "step": 192
1355
  },
1356
  {
1357
  "epoch": 1.5217391304347827,
1358
- "grad_norm": 0.7017596364021301,
1359
  "learning_rate": 2.7032083420597e-05,
1360
- "loss": 0.1147,
1361
  "step": 193
1362
  },
1363
  {
1364
  "epoch": 1.5296442687747036,
1365
- "grad_norm": 0.8783608078956604,
1366
  "learning_rate": 2.6150575548982292e-05,
1367
- "loss": 0.3006,
1368
  "step": 194
1369
  },
1370
  {
1371
  "epoch": 1.5375494071146245,
1372
- "grad_norm": 1.0361592769622803,
1373
  "learning_rate": 2.528151311088537e-05,
1374
- "loss": 0.1789,
1375
  "step": 195
1376
  },
1377
  {
1378
  "epoch": 1.5454545454545454,
1379
- "grad_norm": 0.7505379319190979,
1380
  "learning_rate": 2.4425042564574184e-05,
1381
- "loss": 0.1592,
1382
  "step": 196
1383
  },
1384
  {
1385
  "epoch": 1.5533596837944663,
1386
- "grad_norm": 0.8229113221168518,
1387
  "learning_rate": 2.3581308246275103e-05,
1388
- "loss": 0.1244,
1389
  "step": 197
1390
  },
1391
  {
1392
  "epoch": 1.5612648221343872,
1393
- "grad_norm": 1.0748467445373535,
1394
  "learning_rate": 2.2750452345848682e-05,
1395
- "loss": 0.2833,
1396
  "step": 198
1397
  },
1398
  {
1399
  "epoch": 1.5691699604743083,
1400
- "grad_norm": 0.7150699496269226,
1401
  "learning_rate": 2.1932614882827197e-05,
1402
- "loss": 0.1917,
1403
  "step": 199
1404
  },
1405
  {
1406
  "epoch": 1.5770750988142292,
1407
- "grad_norm": 0.5945517420768738,
1408
  "learning_rate": 2.112793368281799e-05,
1409
- "loss": 0.193,
1410
  "step": 200
1411
  },
1412
  {
1413
  "epoch": 1.5849802371541502,
1414
- "grad_norm": 0.5897226929664612,
1415
  "learning_rate": 2.03365443542764e-05,
1416
- "loss": 0.1404,
1417
  "step": 201
1418
  },
1419
  {
1420
  "epoch": 1.5928853754940713,
1421
- "grad_norm": 1.019797921180725,
1422
  "learning_rate": 1.9558580265652448e-05,
1423
- "loss": 0.2734,
1424
  "step": 202
1425
  },
1426
  {
1427
  "epoch": 1.6007905138339922,
1428
- "grad_norm": 0.6552490592002869,
1429
  "learning_rate": 1.879417252291502e-05,
1430
- "loss": 0.1588,
1431
  "step": 203
1432
  },
1433
  {
1434
  "epoch": 1.608695652173913,
1435
- "grad_norm": 0.6750946044921875,
1436
  "learning_rate": 1.804344994745727e-05,
1437
- "loss": 0.1418,
1438
  "step": 204
1439
  },
1440
  {
1441
  "epoch": 1.616600790513834,
1442
- "grad_norm": 0.7633326053619385,
1443
  "learning_rate": 1.730653905438714e-05,
1444
- "loss": 0.2295,
1445
  "step": 205
1446
  },
1447
  {
1448
  "epoch": 1.6245059288537549,
1449
- "grad_norm": 1.0973371267318726,
1450
  "learning_rate": 1.6583564031206357e-05,
1451
- "loss": 0.1814,
1452
  "step": 206
1453
  },
1454
  {
1455
  "epoch": 1.6324110671936758,
1456
- "grad_norm": 0.7115572094917297,
1457
  "learning_rate": 1.587464671688187e-05,
1458
- "loss": 0.2119,
1459
  "step": 207
1460
  },
1461
  {
1462
  "epoch": 1.6403162055335967,
1463
- "grad_norm": 0.9038087725639343,
1464
  "learning_rate": 1.5179906581313064e-05,
1465
- "loss": 0.2032,
1466
  "step": 208
1467
  },
1468
  {
1469
  "epoch": 1.6482213438735178,
1470
- "grad_norm": 0.8214746117591858,
1471
  "learning_rate": 1.4499460705197998e-05,
1472
- "loss": 0.3846,
1473
  "step": 209
1474
  },
1475
  {
1476
  "epoch": 1.6561264822134387,
1477
- "grad_norm": 0.7156324982643127,
1478
  "learning_rate": 1.3833423760302611e-05,
1479
- "loss": 0.1685,
1480
  "step": 210
1481
  },
1482
  {
1483
  "epoch": 1.6640316205533598,
1484
- "grad_norm": 0.8988309502601624,
1485
  "learning_rate": 1.3181907990135622e-05,
1486
- "loss": 0.1499,
1487
  "step": 211
1488
  },
1489
  {
1490
  "epoch": 1.6719367588932808,
1491
- "grad_norm": 0.6503781676292419,
1492
  "learning_rate": 1.2545023191032801e-05,
1493
- "loss": 0.1936,
1494
  "step": 212
1495
  },
1496
  {
1497
  "epoch": 1.6798418972332017,
1498
- "grad_norm": 1.4845696687698364,
1499
  "learning_rate": 1.1922876693653585e-05,
1500
- "loss": 0.1949,
1501
  "step": 213
1502
  },
1503
  {
1504
  "epoch": 1.6877470355731226,
1505
- "grad_norm": 1.4460773468017578,
1506
  "learning_rate": 1.131557334489326e-05,
1507
- "loss": 0.2512,
1508
  "step": 214
1509
  },
1510
  {
1511
  "epoch": 1.6956521739130435,
1512
- "grad_norm": 2.0067126750946045,
1513
  "learning_rate": 1.0723215490213634e-05,
1514
- "loss": 0.2433,
1515
  "step": 215
1516
  },
1517
  {
1518
  "epoch": 1.7035573122529644,
1519
- "grad_norm": 0.6824133992195129,
1520
  "learning_rate": 1.0145902956395447e-05,
1521
- "loss": 0.2181,
1522
  "step": 216
1523
  },
1524
  {
1525
  "epoch": 1.7114624505928853,
1526
- "grad_norm": 1.23275887966156,
1527
  "learning_rate": 9.583733034714981e-06,
1528
- "loss": 0.4743,
1529
  "step": 217
1530
  },
1531
  {
1532
  "epoch": 1.7193675889328062,
1533
- "grad_norm": 0.6075592041015625,
1534
  "learning_rate": 9.036800464548157e-06,
1535
- "loss": 0.1184,
1536
  "step": 218
1537
  },
1538
  {
1539
  "epoch": 1.7272727272727273,
1540
- "grad_norm": 0.8228341937065125,
1541
  "learning_rate": 8.505197417404687e-06,
1542
- "loss": 0.1745,
1543
  "step": 219
1544
  },
1545
  {
1546
  "epoch": 1.7351778656126482,
1547
- "grad_norm": 0.7998052835464478,
1548
  "learning_rate": 7.989013481394814e-06,
1549
- "loss": 0.3358,
1550
  "step": 220
1551
  },
1552
  {
1553
  "epoch": 1.7430830039525693,
1554
- "grad_norm": 0.9460540413856506,
1555
  "learning_rate": 7.488335646131628e-06,
1556
- "loss": 0.3009,
1557
  "step": 221
1558
  },
1559
  {
1560
  "epoch": 1.7509881422924902,
1561
- "grad_norm": 1.0127474069595337,
1562
  "learning_rate": 7.003248288071118e-06,
1563
- "loss": 0.3223,
1564
  "step": 222
1565
  },
1566
  {
1567
  "epoch": 1.7588932806324111,
1568
- "grad_norm": 1.1740081310272217,
1569
  "learning_rate": 6.533833156292679e-06,
1570
- "loss": 0.1361,
1571
  "step": 223
1572
  },
1573
  {
1574
  "epoch": 1.766798418972332,
1575
- "grad_norm": 1.0067321062088013,
1576
  "learning_rate": 6.08016935872251e-06,
1577
- "loss": 0.2048,
1578
  "step": 224
1579
  },
1580
  {
1581
  "epoch": 1.774703557312253,
1582
- "grad_norm": 0.8940996527671814,
1583
  "learning_rate": 5.6423333488018095e-06,
1584
- "loss": 0.3323,
1585
  "step": 225
1586
  },
1587
  {
1588
  "epoch": 1.7826086956521738,
1589
- "grad_norm": 0.6231039762496948,
1590
  "learning_rate": 5.22039891260262e-06,
1591
- "loss": 0.1062,
1592
  "step": 226
1593
  },
1594
  {
1595
  "epoch": 1.7905138339920947,
1596
- "grad_norm": 0.628740668296814,
1597
  "learning_rate": 4.8144371563930476e-06,
1598
- "loss": 0.1944,
1599
  "step": 227
1600
  },
1601
  {
1602
  "epoch": 1.7984189723320159,
1603
- "grad_norm": 0.766796350479126,
1604
  "learning_rate": 4.424516494654118e-06,
1605
- "loss": 0.1936,
1606
  "step": 228
1607
  },
1608
  {
1609
  "epoch": 1.8063241106719368,
1610
- "grad_norm": 1.4939095973968506,
1611
  "learning_rate": 4.050702638550275e-06,
1612
- "loss": 0.2269,
1613
  "step": 229
1614
  },
1615
  {
1616
  "epoch": 1.8142292490118577,
1617
- "grad_norm": 1.01512610912323,
1618
  "learning_rate": 3.693058584855369e-06,
1619
- "loss": 0.4442,
1620
  "step": 230
1621
  },
1622
  {
1623
  "epoch": 1.8221343873517788,
1624
- "grad_norm": 0.6523633003234863,
1625
  "learning_rate": 3.3516446053363015e-06,
1626
- "loss": 0.182,
1627
  "step": 231
1628
  },
1629
  {
1630
  "epoch": 1.8300395256916997,
1631
- "grad_norm": 0.6220389008522034,
1632
  "learning_rate": 3.026518236595621e-06,
1633
- "loss": 0.1633,
1634
  "step": 232
1635
  },
1636
  {
1637
  "epoch": 1.8379446640316206,
1638
- "grad_norm": 0.6830483078956604,
1639
  "learning_rate": 2.717734270375272e-06,
1640
- "loss": 0.1698,
1641
  "step": 233
1642
  },
1643
  {
1644
  "epoch": 1.8458498023715415,
1645
- "grad_norm": 2.016892194747925,
1646
  "learning_rate": 2.4253447443228106e-06,
1647
- "loss": 0.2407,
1648
  "step": 234
1649
  },
1650
  {
1651
  "epoch": 1.8537549407114624,
1652
- "grad_norm": 1.519871711730957,
1653
  "learning_rate": 2.1493989332218468e-06,
1654
- "loss": 0.6052,
1655
  "step": 235
1656
  },
1657
  {
1658
  "epoch": 1.8616600790513833,
1659
- "grad_norm": 0.8474094867706299,
1660
  "learning_rate": 1.8899433406879608e-06,
1661
- "loss": 0.1317,
1662
  "step": 236
1663
  },
1664
  {
1665
  "epoch": 1.8695652173913042,
1666
- "grad_norm": 1.0883585214614868,
1667
  "learning_rate": 1.6470216913317626e-06,
1668
- "loss": 0.205,
1669
  "step": 237
1670
  },
1671
  {
1672
  "epoch": 1.8774703557312253,
1673
- "grad_norm": 0.5493878126144409,
1674
  "learning_rate": 1.4206749233902084e-06,
1675
- "loss": 0.1517,
1676
  "step": 238
1677
  },
1678
  {
1679
  "epoch": 1.8853754940711462,
1680
- "grad_norm": 0.5892478227615356,
1681
  "learning_rate": 1.2109411818274852e-06,
1682
- "loss": 0.1239,
1683
  "step": 239
1684
  },
1685
  {
1686
  "epoch": 1.8932806324110671,
1687
- "grad_norm": 0.6910550594329834,
1688
  "learning_rate": 1.0178558119067315e-06,
1689
- "loss": 0.146,
1690
  "step": 240
1691
  },
1692
  {
1693
  "epoch": 1.9011857707509883,
1694
- "grad_norm": 2.088679790496826,
1695
  "learning_rate": 8.41451353233369e-07,
1696
- "loss": 0.2145,
1697
  "step": 241
1698
  },
1699
  {
1700
  "epoch": 1.9090909090909092,
1701
- "grad_norm": 1.0188775062561035,
1702
  "learning_rate": 6.817575342714988e-07,
1703
- "loss": 0.4285,
1704
  "step": 242
1705
  },
1706
  {
1707
  "epoch": 1.91699604743083,
1708
- "grad_norm": 0.9871934056282043,
1709
  "learning_rate": 5.388012673338661e-07,
1710
- "loss": 0.248,
1711
  "step": 243
1712
  },
1713
  {
1714
  "epoch": 1.924901185770751,
1715
- "grad_norm": 0.7955995798110962,
1716
  "learning_rate": 4.126066440464982e-07,
1717
- "loss": 0.3334,
1718
  "step": 244
1719
  },
1720
  {
1721
  "epoch": 1.9328063241106719,
1722
- "grad_norm": 1.2158209085464478,
1723
  "learning_rate": 3.0319493128866396e-07,
1724
- "loss": 0.3475,
1725
  "step": 245
1726
  },
1727
  {
1728
  "epoch": 1.9407114624505928,
1729
- "grad_norm": 3.033383369445801,
1730
  "learning_rate": 2.1058456760891798e-07,
1731
- "loss": 0.2237,
1732
  "step": 246
1733
  },
1734
  {
1735
  "epoch": 1.9486166007905137,
1736
- "grad_norm": 0.9176952242851257,
1737
  "learning_rate": 1.3479116011769767e-07,
1738
- "loss": 0.2966,
1739
  "step": 247
1740
  },
1741
  {
1742
  "epoch": 1.9565217391304348,
1743
- "grad_norm": 0.9858683943748474,
1744
  "learning_rate": 7.582748185719358e-08,
1745
- "loss": 0.339,
1746
  "step": 248
1747
  },
1748
  {
1749
  "epoch": 1.9644268774703557,
1750
- "grad_norm": 1.3175891637802124,
1751
  "learning_rate": 3.370346964876036e-08,
1752
- "loss": 0.4174,
1753
  "step": 249
1754
  },
1755
  {
1756
  "epoch": 1.9723320158102768,
1757
- "grad_norm": 1.8579566478729248,
1758
  "learning_rate": 8.426222418311814e-09,
1759
- "loss": 0.611,
1760
  "step": 250
1761
  }
1762
  ],
 
11
  "log_history": [
12
  {
13
  "epoch": 0.007905138339920948,
14
+ "grad_norm": 29.443620681762695,
15
  "learning_rate": 0.0,
16
  "loss": 6.8345,
17
  "step": 1
18
  },
19
  {
20
  "epoch": 0.015810276679841896,
21
+ "grad_norm": 14.875253677368164,
22
  "learning_rate": 2.5e-05,
23
  "loss": 6.6279,
24
  "step": 2
25
  },
26
  {
27
  "epoch": 0.023715415019762844,
28
+ "grad_norm": 60.56179428100586,
29
  "learning_rate": 5e-05,
30
+ "loss": 6.7804,
31
  "step": 3
32
  },
33
  {
34
  "epoch": 0.03162055335968379,
35
+ "grad_norm": 8.8980712890625,
36
  "learning_rate": 7.500000000000001e-05,
37
+ "loss": 5.7093,
38
  "step": 4
39
  },
40
  {
41
  "epoch": 0.039525691699604744,
42
+ "grad_norm": 11.861969947814941,
43
  "learning_rate": 0.0001,
44
+ "loss": 4.9035,
45
  "step": 5
46
  },
47
  {
48
  "epoch": 0.04743083003952569,
49
+ "grad_norm": 5.465580940246582,
50
  "learning_rate": 0.000125,
51
+ "loss": 4.0769,
52
  "step": 6
53
  },
54
  {
55
  "epoch": 0.05533596837944664,
56
+ "grad_norm": 3.910144329071045,
57
  "learning_rate": 0.00015000000000000001,
58
+ "loss": 4.1908,
59
  "step": 7
60
  },
61
  {
62
  "epoch": 0.06324110671936758,
63
+ "grad_norm": 2.9628067016601562,
64
  "learning_rate": 0.000175,
65
+ "loss": 3.0805,
66
  "step": 8
67
  },
68
  {
69
  "epoch": 0.07114624505928854,
70
+ "grad_norm": 3.2732276916503906,
71
  "learning_rate": 0.0002,
72
+ "loss": 3.063,
73
  "step": 9
74
  },
75
  {
76
  "epoch": 0.07905138339920949,
77
+ "grad_norm": 2.3448641300201416,
78
  "learning_rate": 0.0001999915737775817,
79
+ "loss": 2.4361,
80
  "step": 10
81
  },
82
  {
83
  "epoch": 0.08695652173913043,
84
+ "grad_norm": 3.226670265197754,
85
  "learning_rate": 0.00019996629653035126,
86
+ "loss": 2.142,
87
  "step": 11
88
  },
89
  {
90
  "epoch": 0.09486166007905138,
91
+ "grad_norm": 2.9033336639404297,
92
  "learning_rate": 0.00019992417251814282,
93
+ "loss": 1.928,
94
  "step": 12
95
  },
96
  {
97
  "epoch": 0.10276679841897234,
98
+ "grad_norm": 2.5437309741973877,
99
  "learning_rate": 0.00019986520883988232,
100
+ "loss": 1.4877,
101
  "step": 13
102
  },
103
  {
104
  "epoch": 0.11067193675889328,
105
+ "grad_norm": 2.364232301712036,
106
  "learning_rate": 0.0001997894154323911,
107
+ "loss": 1.3451,
108
  "step": 14
109
  },
110
  {
111
  "epoch": 0.11857707509881422,
112
+ "grad_norm": 2.6934092044830322,
113
  "learning_rate": 0.00019969680506871137,
114
+ "loss": 1.1716,
115
  "step": 15
116
  },
117
  {
118
  "epoch": 0.12648221343873517,
119
+ "grad_norm": 2.518855333328247,
120
  "learning_rate": 0.0001995873933559535,
121
+ "loss": 0.9187,
122
  "step": 16
123
  },
124
  {
125
  "epoch": 0.13438735177865613,
126
+ "grad_norm": 2.960550546646118,
127
  "learning_rate": 0.00019946119873266613,
128
+ "loss": 0.7536,
129
  "step": 17
130
  },
131
  {
132
  "epoch": 0.1422924901185771,
133
+ "grad_norm": 2.3193135261535645,
134
  "learning_rate": 0.0001993182424657285,
135
+ "loss": 0.7687,
136
  "step": 18
137
  },
138
  {
139
  "epoch": 0.15019762845849802,
140
+ "grad_norm": 1.7276065349578857,
141
  "learning_rate": 0.00019915854864676664,
142
+ "loss": 0.7496,
143
  "step": 19
144
  },
145
  {
146
  "epoch": 0.15810276679841898,
147
+ "grad_norm": 1.7833150625228882,
148
  "learning_rate": 0.0001989821441880933,
149
+ "loss": 0.6497,
150
  "step": 20
151
  },
152
  {
153
  "epoch": 0.16600790513833993,
154
+ "grad_norm": 1.5743191242218018,
155
  "learning_rate": 0.00019878905881817252,
156
+ "loss": 0.5612,
157
  "step": 21
158
  },
159
  {
160
  "epoch": 0.17391304347826086,
161
+ "grad_norm": 1.4150418043136597,
162
  "learning_rate": 0.0001985793250766098,
163
+ "loss": 0.6368,
164
  "step": 22
165
  },
166
  {
167
  "epoch": 0.18181818181818182,
168
+ "grad_norm": 2.5285849571228027,
169
  "learning_rate": 0.00019835297830866826,
170
+ "loss": 0.51,
171
  "step": 23
172
  },
173
  {
174
  "epoch": 0.18972332015810275,
175
+ "grad_norm": 1.3967912197113037,
176
  "learning_rate": 0.00019811005665931205,
177
+ "loss": 0.4095,
178
  "step": 24
179
  },
180
  {
181
  "epoch": 0.1976284584980237,
182
+ "grad_norm": 1.952337384223938,
183
  "learning_rate": 0.00019785060106677818,
184
+ "loss": 0.8365,
185
  "step": 25
186
  },
187
  {
188
  "epoch": 0.20553359683794467,
189
+ "grad_norm": 1.570603609085083,
190
  "learning_rate": 0.0001975746552556772,
191
+ "loss": 0.3903,
192
  "step": 26
193
  },
194
  {
195
  "epoch": 0.2134387351778656,
196
+ "grad_norm": 1.3032807111740112,
197
  "learning_rate": 0.00019728226572962473,
198
+ "loss": 0.4507,
199
  "step": 27
200
  },
201
  {
202
  "epoch": 0.22134387351778656,
203
+ "grad_norm": 1.129608392715454,
204
  "learning_rate": 0.0001969734817634044,
205
+ "loss": 0.6392,
206
  "step": 28
207
  },
208
  {
209
  "epoch": 0.22924901185770752,
210
+ "grad_norm": 2.1530044078826904,
211
  "learning_rate": 0.0001966483553946637,
212
+ "loss": 0.5927,
213
  "step": 29
214
  },
215
  {
216
  "epoch": 0.23715415019762845,
217
+ "grad_norm": 1.7631202936172485,
218
  "learning_rate": 0.00019630694141514464,
219
+ "loss": 0.317,
220
  "step": 30
221
  },
222
  {
223
  "epoch": 0.2450592885375494,
224
+ "grad_norm": 3.5597596168518066,
225
  "learning_rate": 0.00019594929736144976,
226
+ "loss": 0.3338,
227
  "step": 31
228
  },
229
  {
230
  "epoch": 0.25296442687747034,
231
+ "grad_norm": 1.4273171424865723,
232
  "learning_rate": 0.0001955754835053459,
233
+ "loss": 0.7187,
234
  "step": 32
235
  },
236
  {
237
  "epoch": 0.2608695652173913,
238
+ "grad_norm": 2.1714446544647217,
239
  "learning_rate": 0.00019518556284360696,
240
+ "loss": 0.4304,
241
  "step": 33
242
  },
243
  {
244
  "epoch": 0.26877470355731226,
245
+ "grad_norm": 1.3923094272613525,
246
  "learning_rate": 0.0001947796010873974,
247
+ "loss": 0.3955,
248
  "step": 34
249
  },
250
  {
251
  "epoch": 0.2766798418972332,
252
+ "grad_norm": 1.089962124824524,
253
  "learning_rate": 0.0001943576666511982,
254
+ "loss": 0.6046,
255
  "step": 35
256
  },
257
  {
258
  "epoch": 0.2845849802371542,
259
+ "grad_norm": 0.9553408622741699,
260
  "learning_rate": 0.0001939198306412775,
261
+ "loss": 0.6164,
262
  "step": 36
263
  },
264
  {
265
  "epoch": 0.2924901185770751,
266
+ "grad_norm": 0.9228238463401794,
267
  "learning_rate": 0.0001934661668437073,
268
+ "loss": 0.4104,
269
  "step": 37
270
  },
271
  {
272
  "epoch": 0.30039525691699603,
273
+ "grad_norm": 0.8698107004165649,
274
  "learning_rate": 0.0001929967517119289,
275
+ "loss": 0.6589,
276
  "step": 38
277
  },
278
  {
279
  "epoch": 0.308300395256917,
280
+ "grad_norm": 0.7418029308319092,
281
  "learning_rate": 0.0001925116643538684,
282
+ "loss": 0.2634,
283
  "step": 39
284
  },
285
  {
286
  "epoch": 0.31620553359683795,
287
+ "grad_norm": 1.038150668144226,
288
  "learning_rate": 0.0001920109865186052,
289
+ "loss": 0.6815,
290
  "step": 40
291
  },
292
  {
293
  "epoch": 0.3241106719367589,
294
+ "grad_norm": 0.7771694660186768,
295
  "learning_rate": 0.00019149480258259533,
296
+ "loss": 0.4593,
297
  "step": 41
298
  },
299
  {
300
  "epoch": 0.33201581027667987,
301
+ "grad_norm": 1.0811573266983032,
302
  "learning_rate": 0.00019096319953545185,
303
+ "loss": 0.3129,
304
  "step": 42
305
  },
306
  {
307
  "epoch": 0.33992094861660077,
308
+ "grad_norm": 1.2685577869415283,
309
  "learning_rate": 0.00019041626696528503,
310
+ "loss": 0.2788,
311
  "step": 43
312
  },
313
  {
314
  "epoch": 0.34782608695652173,
315
+ "grad_norm": 1.1799741983413696,
316
  "learning_rate": 0.00018985409704360456,
317
+ "loss": 0.6224,
318
  "step": 44
319
  },
320
  {
321
  "epoch": 0.3557312252964427,
322
+ "grad_norm": 1.3152222633361816,
323
  "learning_rate": 0.0001892767845097864,
324
+ "loss": 0.4609,
325
  "step": 45
326
  },
327
  {
328
  "epoch": 0.36363636363636365,
329
+ "grad_norm": 0.8674153089523315,
330
  "learning_rate": 0.00018868442665510678,
331
+ "loss": 0.3661,
332
  "step": 46
333
  },
334
  {
335
  "epoch": 0.3715415019762846,
336
+ "grad_norm": 1.9650135040283203,
337
  "learning_rate": 0.00018807712330634642,
338
+ "loss": 0.4214,
339
  "step": 47
340
  },
341
  {
342
  "epoch": 0.3794466403162055,
343
+ "grad_norm": 0.8908179402351379,
344
  "learning_rate": 0.00018745497680896722,
345
+ "loss": 0.3789,
346
  "step": 48
347
  },
348
  {
349
  "epoch": 0.38735177865612647,
350
+ "grad_norm": 0.8767942786216736,
351
  "learning_rate": 0.0001868180920098644,
352
+ "loss": 0.432,
353
  "step": 49
354
  },
355
  {
356
  "epoch": 0.3952569169960474,
357
+ "grad_norm": 1.3174779415130615,
358
  "learning_rate": 0.0001861665762396974,
359
+ "loss": 0.8093,
360
  "step": 50
361
  },
362
  {
363
  "epoch": 0.4031620553359684,
364
+ "grad_norm": 1.12623929977417,
365
  "learning_rate": 0.00018550053929480202,
366
+ "loss": 0.3248,
367
  "step": 51
368
  },
369
  {
370
  "epoch": 0.41106719367588934,
371
+ "grad_norm": 2.023007392883301,
372
  "learning_rate": 0.00018482009341868697,
373
+ "loss": 0.2736,
374
  "step": 52
375
  },
376
  {
377
  "epoch": 0.4189723320158103,
378
+ "grad_norm": 0.981887936592102,
379
  "learning_rate": 0.00018412535328311814,
380
+ "loss": 0.3832,
381
  "step": 53
382
  },
383
  {
384
  "epoch": 0.4268774703557312,
385
+ "grad_norm": 2.4076719284057617,
386
  "learning_rate": 0.00018341643596879367,
387
+ "loss": 0.857,
388
  "step": 54
389
  },
390
  {
391
  "epoch": 0.43478260869565216,
392
+ "grad_norm": 1.1959154605865479,
393
  "learning_rate": 0.0001826934609456129,
394
+ "loss": 0.4592,
395
  "step": 55
396
  },
397
  {
398
  "epoch": 0.4426877470355731,
399
+ "grad_norm": 0.5865926742553711,
400
  "learning_rate": 0.00018195655005254273,
401
+ "loss": 0.1814,
402
  "step": 56
403
  },
404
  {
405
  "epoch": 0.4505928853754941,
406
+ "grad_norm": 0.8474725484848022,
407
  "learning_rate": 0.00018120582747708502,
408
+ "loss": 0.2844,
409
  "step": 57
410
  },
411
  {
412
  "epoch": 0.45849802371541504,
413
+ "grad_norm": 1.0415821075439453,
414
  "learning_rate": 0.00018044141973434758,
415
+ "loss": 0.3637,
416
  "step": 58
417
  },
418
  {
419
  "epoch": 0.466403162055336,
420
+ "grad_norm": 1.8770055770874023,
421
  "learning_rate": 0.0001796634556457236,
422
+ "loss": 0.2462,
423
  "step": 59
424
  },
425
  {
426
  "epoch": 0.4743083003952569,
427
+ "grad_norm": 0.9714164733886719,
428
  "learning_rate": 0.00017887206631718203,
429
+ "loss": 0.3059,
430
  "step": 60
431
  },
432
  {
433
  "epoch": 0.48221343873517786,
434
+ "grad_norm": 0.9178167581558228,
435
  "learning_rate": 0.0001780673851171728,
436
+ "loss": 0.4233,
437
  "step": 61
438
  },
439
  {
440
  "epoch": 0.4901185770750988,
441
+ "grad_norm": 0.7472209930419922,
442
  "learning_rate": 0.00017724954765415137,
443
+ "loss": 0.1977,
444
  "step": 62
445
  },
446
  {
447
  "epoch": 0.4980237154150198,
448
+ "grad_norm": 0.7857463955879211,
449
  "learning_rate": 0.00017641869175372493,
450
+ "loss": 0.2279,
451
  "step": 63
452
  },
453
  {
454
  "epoch": 0.5059288537549407,
455
+ "grad_norm": 2.13358211517334,
456
  "learning_rate": 0.00017557495743542585,
457
+ "loss": 0.4481,
458
  "step": 64
459
  },
460
  {
461
  "epoch": 0.5138339920948617,
462
+ "grad_norm": 0.9242135882377625,
463
  "learning_rate": 0.00017471848688911464,
464
+ "loss": 0.3843,
465
  "step": 65
466
  },
467
  {
468
  "epoch": 0.5217391304347826,
469
+ "grad_norm": 0.7868145704269409,
470
  "learning_rate": 0.00017384942445101772,
471
+ "loss": 0.1393,
472
  "step": 66
473
  },
474
  {
475
  "epoch": 0.5296442687747036,
476
+ "grad_norm": 0.6896469593048096,
477
  "learning_rate": 0.000172967916579403,
478
+ "loss": 0.3294,
479
  "step": 67
480
  },
481
  {
482
  "epoch": 0.5375494071146245,
483
+ "grad_norm": 0.691632866859436,
484
  "learning_rate": 0.00017207411182989832,
485
+ "loss": 0.2405,
486
  "step": 68
487
  },
488
  {
489
  "epoch": 0.5454545454545454,
490
+ "grad_norm": 0.6870527267456055,
491
  "learning_rate": 0.00017116816083045602,
492
+ "loss": 0.2379,
493
  "step": 69
494
  },
495
  {
496
  "epoch": 0.5533596837944664,
497
+ "grad_norm": 0.6751531958580017,
498
  "learning_rate": 0.00017025021625596853,
499
+ "loss": 0.2365,
500
  "step": 70
501
  },
502
  {
503
  "epoch": 0.5612648221343873,
504
+ "grad_norm": 1.061668872833252,
505
  "learning_rate": 0.0001693204328025389,
506
+ "loss": 0.5389,
507
  "step": 71
508
  },
509
  {
510
  "epoch": 0.5691699604743083,
511
+ "grad_norm": 0.7164187431335449,
512
  "learning_rate": 0.0001683789671614107,
513
+ "loss": 0.3441,
514
  "step": 72
515
  },
516
  {
517
  "epoch": 0.5770750988142292,
518
+ "grad_norm": 1.1519713401794434,
519
  "learning_rate": 0.00016742597799256182,
520
+ "loss": 0.2715,
521
  "step": 73
522
  },
523
  {
524
  "epoch": 0.5849802371541502,
525
+ "grad_norm": 1.568219542503357,
526
  "learning_rate": 0.00016646162589796615,
527
+ "loss": 0.3667,
528
  "step": 74
529
  },
530
  {
531
  "epoch": 0.5928853754940712,
532
+ "grad_norm": 0.7082597017288208,
533
  "learning_rate": 0.00016548607339452853,
534
+ "loss": 0.3271,
535
  "step": 75
536
  },
537
  {
538
  "epoch": 0.6007905138339921,
539
+ "grad_norm": 0.7822222709655762,
540
  "learning_rate": 0.00016449948488669639,
541
+ "loss": 0.395,
542
  "step": 76
543
  },
544
  {
545
  "epoch": 0.6086956521739131,
546
+ "grad_norm": 0.70323646068573,
547
  "learning_rate": 0.00016350202663875386,
548
+ "loss": 0.3593,
549
  "step": 77
550
  },
551
  {
552
  "epoch": 0.616600790513834,
553
+ "grad_norm": 0.8593727350234985,
554
  "learning_rate": 0.00016249386674680184,
555
+ "loss": 0.4751,
556
  "step": 78
557
  },
558
  {
559
  "epoch": 0.6245059288537549,
560
+ "grad_norm": 0.8436718583106995,
561
  "learning_rate": 0.0001614751751104301,
562
+ "loss": 0.2788,
563
  "step": 79
564
  },
565
  {
566
  "epoch": 0.6324110671936759,
567
+ "grad_norm": 1.0489970445632935,
568
  "learning_rate": 0.00016044612340408466,
569
+ "loss": 0.2804,
570
  "step": 80
571
  },
572
  {
573
  "epoch": 0.6403162055335968,
574
+ "grad_norm": 0.4728718101978302,
575
  "learning_rate": 0.00015940688504813662,
576
+ "loss": 0.1463,
577
  "step": 81
578
  },
579
  {
580
  "epoch": 0.6482213438735178,
581
+ "grad_norm": 0.8874382972717285,
582
  "learning_rate": 0.00015835763517965673,
583
+ "loss": 0.547,
584
  "step": 82
585
  },
586
  {
587
  "epoch": 0.6561264822134387,
588
+ "grad_norm": 0.9559019804000854,
589
  "learning_rate": 0.00015729855062290022,
590
+ "loss": 0.2586,
591
  "step": 83
592
  },
593
  {
594
  "epoch": 0.6640316205533597,
595
+ "grad_norm": 1.4548382759094238,
596
  "learning_rate": 0.0001562298098595078,
597
+ "loss": 0.4085,
598
  "step": 84
599
  },
600
  {
601
  "epoch": 0.6719367588932806,
602
+ "grad_norm": 1.6104789972305298,
603
  "learning_rate": 0.00015515159299842707,
604
+ "loss": 0.3712,
605
  "step": 85
606
  },
607
  {
608
  "epoch": 0.6798418972332015,
609
+ "grad_norm": 0.7389092445373535,
610
  "learning_rate": 0.00015406408174555976,
611
+ "loss": 0.2789,
612
  "step": 86
613
  },
614
  {
615
  "epoch": 0.6877470355731226,
616
+ "grad_norm": 0.6817464232444763,
617
  "learning_rate": 0.00015296745937313987,
618
+ "loss": 0.2501,
619
  "step": 87
620
  },
621
  {
622
  "epoch": 0.6956521739130435,
623
+ "grad_norm": 0.9103575348854065,
624
  "learning_rate": 0.00015186191068884775,
625
+ "loss": 0.5931,
626
  "step": 88
627
  },
628
  {
629
  "epoch": 0.7035573122529645,
630
+ "grad_norm": 0.9242210388183594,
631
  "learning_rate": 0.00015074762200466556,
632
+ "loss": 0.6431,
633
  "step": 89
634
  },
635
  {
636
  "epoch": 0.7114624505928854,
637
+ "grad_norm": 0.9366337060928345,
638
  "learning_rate": 0.00014962478110547918,
639
+ "loss": 0.4411,
640
  "step": 90
641
  },
642
  {
643
  "epoch": 0.7193675889328063,
644
+ "grad_norm": 0.531251072883606,
645
  "learning_rate": 0.00014849357721743168,
646
+ "loss": 0.1745,
647
  "step": 91
648
  },
649
  {
650
  "epoch": 0.7272727272727273,
651
+ "grad_norm": 1.2808730602264404,
652
  "learning_rate": 0.0001473542009760343,
653
+ "loss": 0.4046,
654
  "step": 92
655
  },
656
  {
657
  "epoch": 0.7351778656126482,
658
+ "grad_norm": 1.19551682472229,
659
  "learning_rate": 0.00014620684439403962,
660
+ "loss": 0.4524,
661
  "step": 93
662
  },
663
  {
664
  "epoch": 0.7430830039525692,
665
+ "grad_norm": 0.8160001039505005,
666
  "learning_rate": 0.0001450517008290827,
667
+ "loss": 0.2237,
668
  "step": 94
669
  },
670
  {
671
  "epoch": 0.7509881422924901,
672
+ "grad_norm": 0.5796943306922913,
673
  "learning_rate": 0.0001438889649510956,
674
+ "loss": 0.2322,
675
  "step": 95
676
  },
677
  {
678
  "epoch": 0.758893280632411,
679
+ "grad_norm": 0.6521222591400146,
680
  "learning_rate": 0.00014271883270950073,
681
+ "loss": 0.2682,
682
  "step": 96
683
  },
684
  {
685
  "epoch": 0.766798418972332,
686
+ "grad_norm": 1.001668095588684,
687
  "learning_rate": 0.00014154150130018866,
688
+ "loss": 0.3352,
689
  "step": 97
690
  },
691
  {
692
  "epoch": 0.7747035573122529,
693
+ "grad_norm": 0.8112585544586182,
694
  "learning_rate": 0.00014035716913228568,
695
+ "loss": 0.173,
696
  "step": 98
697
  },
698
  {
699
  "epoch": 0.782608695652174,
700
+ "grad_norm": 1.2103630304336548,
701
  "learning_rate": 0.00013916603579471705,
702
+ "loss": 1.0565,
703
  "step": 99
704
  },
705
  {
706
  "epoch": 0.7905138339920948,
707
+ "grad_norm": 1.0214811563491821,
708
  "learning_rate": 0.0001379683020225714,
709
+ "loss": 0.3749,
710
  "step": 100
711
  },
712
  {
713
  "epoch": 0.7984189723320159,
714
+ "grad_norm": 0.6681635975837708,
715
  "learning_rate": 0.000136764169663272,
716
+ "loss": 0.1641,
717
  "step": 101
718
  },
719
  {
720
  "epoch": 0.8063241106719368,
721
+ "grad_norm": 0.9718304872512817,
722
  "learning_rate": 0.00013555384164256048,
723
+ "loss": 0.1989,
724
  "step": 102
725
  },
726
  {
727
  "epoch": 0.8142292490118577,
728
+ "grad_norm": 0.5994592905044556,
729
  "learning_rate": 0.00013433752193029886,
730
+ "loss": 0.2865,
731
  "step": 103
732
  },
733
  {
734
  "epoch": 0.8221343873517787,
735
+ "grad_norm": 0.7605760097503662,
736
  "learning_rate": 0.00013311541550609565,
737
+ "loss": 0.4609,
738
  "step": 104
739
  },
740
  {
741
  "epoch": 0.8300395256916996,
742
+ "grad_norm": 0.4863194227218628,
743
  "learning_rate": 0.00013188772832476188,
744
  "loss": 0.1356,
745
  "step": 105
746
  },
747
  {
748
  "epoch": 0.8379446640316206,
749
+ "grad_norm": 0.4657331705093384,
750
  "learning_rate": 0.00013065466728160252,
751
+ "loss": 0.1501,
752
  "step": 106
753
  },
754
  {
755
  "epoch": 0.8458498023715415,
756
+ "grad_norm": 0.6451147794723511,
757
  "learning_rate": 0.00012941644017754964,
758
+ "loss": 0.3072,
759
  "step": 107
760
  },
761
  {
762
  "epoch": 0.8537549407114624,
763
+ "grad_norm": 0.7699165344238281,
764
  "learning_rate": 0.00012817325568414297,
765
+ "loss": 0.4145,
766
  "step": 108
767
  },
768
  {
769
  "epoch": 0.8616600790513834,
770
+ "grad_norm": 1.160872459411621,
771
  "learning_rate": 0.00012692532330836346,
772
+ "loss": 0.2784,
773
  "step": 109
774
  },
775
  {
776
  "epoch": 0.8695652173913043,
777
+ "grad_norm": 0.9029427766799927,
778
  "learning_rate": 0.00012567285335732633,
779
+ "loss": 0.3273,
780
  "step": 110
781
  },
782
  {
783
  "epoch": 0.8774703557312253,
784
+ "grad_norm": 0.7525882720947266,
785
  "learning_rate": 0.00012441605690283915,
786
+ "loss": 0.2811,
787
  "step": 111
788
  },
789
  {
790
  "epoch": 0.8853754940711462,
791
+ "grad_norm": 0.7249767184257507,
792
  "learning_rate": 0.00012315514574583113,
793
+ "loss": 0.2133,
794
  "step": 112
795
  },
796
  {
797
  "epoch": 0.8932806324110671,
798
+ "grad_norm": 2.000819683074951,
799
  "learning_rate": 0.0001218903323806595,
800
+ "loss": 0.4112,
801
  "step": 113
802
  },
803
  {
804
  "epoch": 0.9011857707509882,
805
+ "grad_norm": 0.751440703868866,
806
  "learning_rate": 0.00012062182995929882,
807
+ "loss": 0.3087,
808
  "step": 114
809
  },
810
  {
811
  "epoch": 0.9090909090909091,
812
+ "grad_norm": 1.0243513584136963,
813
  "learning_rate": 0.00011934985225541998,
814
+ "loss": 0.4851,
815
  "step": 115
816
  },
817
  {
818
  "epoch": 0.9169960474308301,
819
+ "grad_norm": 0.7862813472747803,
820
  "learning_rate": 0.0001180746136283638,
821
+ "loss": 0.3612,
822
  "step": 116
823
  },
824
  {
825
  "epoch": 0.924901185770751,
826
+ "grad_norm": 1.0955418348312378,
827
  "learning_rate": 0.00011679632898701649,
828
+ "loss": 0.3377,
829
  "step": 117
830
  },
831
  {
832
  "epoch": 0.932806324110672,
833
+ "grad_norm": 0.8309126496315002,
834
  "learning_rate": 0.00011551521375359206,
835
+ "loss": 0.282,
836
  "step": 118
837
  },
838
  {
839
  "epoch": 0.9407114624505929,
840
+ "grad_norm": 1.5201857089996338,
841
  "learning_rate": 0.00011423148382732853,
842
+ "loss": 0.2581,
843
  "step": 119
844
  },
845
  {
846
  "epoch": 0.9486166007905138,
847
+ "grad_norm": 0.6001629829406738,
848
  "learning_rate": 0.00011294535554810354,
849
+ "loss": 0.2002,
850
  "step": 120
851
  },
852
  {
853
  "epoch": 0.9565217391304348,
854
+ "grad_norm": 0.5865480899810791,
855
  "learning_rate": 0.00011165704565997593,
856
+ "loss": 0.137,
857
  "step": 121
858
  },
859
  {
860
  "epoch": 0.9644268774703557,
861
+ "grad_norm": 0.8828125596046448,
862
  "learning_rate": 0.00011036677127465889,
863
+ "loss": 0.3052,
864
  "step": 122
865
  },
866
  {
867
  "epoch": 0.9723320158102767,
868
+ "grad_norm": 0.6774571537971497,
869
  "learning_rate": 0.00010907474983493144,
870
+ "loss": 0.4175,
871
  "step": 123
872
  },
873
  {
874
  "epoch": 0.9802371541501976,
875
+ "grad_norm": 0.9369196891784668,
876
  "learning_rate": 0.00010778119907799398,
877
+ "loss": 0.4036,
878
  "step": 124
879
  },
880
  {
881
  "epoch": 0.9881422924901185,
882
+ "grad_norm": 0.9793416261672974,
883
  "learning_rate": 0.0001064863369987743,
884
+ "loss": 0.2515,
885
  "step": 125
886
  },
887
  {
888
  "epoch": 0.9960474308300395,
889
+ "grad_norm": 1.6688363552093506,
890
  "learning_rate": 0.00010519038181318999,
891
+ "loss": 0.2686,
892
  "step": 126
893
  },
894
  {
895
  "epoch": 1.0,
896
+ "grad_norm": 1.589106559753418,
897
  "learning_rate": 0.00010389355192137377,
898
+ "loss": 0.3921,
899
  "step": 127
900
  },
901
  {
902
  "epoch": 1.007905138339921,
903
+ "grad_norm": 0.6045113205909729,
904
  "learning_rate": 0.00010259606587086783,
905
+ "loss": 0.2638,
906
  "step": 128
907
  },
908
  {
909
  "epoch": 1.0158102766798418,
910
+ "grad_norm": 0.6287718415260315,
911
  "learning_rate": 0.0001012981423197931,
912
+ "loss": 0.3818,
913
  "step": 129
914
  },
915
  {
916
  "epoch": 1.023715415019763,
917
+ "grad_norm": 0.6705343723297119,
918
  "learning_rate": 0.0001,
919
+ "loss": 0.1436,
920
  "step": 130
921
  },
922
  {
923
  "epoch": 1.0316205533596838,
924
+ "grad_norm": 0.7970353960990906,
925
  "learning_rate": 9.870185768020693e-05,
926
+ "loss": 0.1986,
927
  "step": 131
928
  },
929
  {
930
  "epoch": 1.0395256916996047,
931
+ "grad_norm": 1.4546546936035156,
932
  "learning_rate": 9.740393412913219e-05,
933
+ "loss": 0.3551,
934
  "step": 132
935
  },
936
  {
937
  "epoch": 1.0474308300395256,
938
+ "grad_norm": 0.5461708307266235,
939
  "learning_rate": 9.610644807862625e-05,
940
+ "loss": 0.2015,
941
  "step": 133
942
  },
943
  {
944
  "epoch": 1.0553359683794465,
945
+ "grad_norm": 1.8389110565185547,
946
  "learning_rate": 9.480961818681004e-05,
947
+ "loss": 0.2769,
948
  "step": 134
949
  },
950
  {
951
  "epoch": 1.0632411067193677,
952
+ "grad_norm": 0.6100041270256042,
953
  "learning_rate": 9.35136630012257e-05,
954
+ "loss": 0.1516,
955
  "step": 135
956
  },
957
  {
958
  "epoch": 1.0711462450592886,
959
+ "grad_norm": 0.5065872669219971,
960
  "learning_rate": 9.221880092200601e-05,
961
+ "loss": 0.1945,
962
  "step": 136
963
  },
964
  {
965
  "epoch": 1.0790513833992095,
966
+ "grad_norm": 1.9398545026779175,
967
  "learning_rate": 9.092525016506858e-05,
968
+ "loss": 0.2246,
969
  "step": 137
970
  },
971
  {
972
  "epoch": 1.0869565217391304,
973
+ "grad_norm": 0.6197378635406494,
974
  "learning_rate": 8.963322872534114e-05,
975
+ "loss": 0.1768,
976
  "step": 138
977
  },
978
  {
979
  "epoch": 1.0948616600790513,
980
+ "grad_norm": 1.256683349609375,
981
  "learning_rate": 8.83429543400241e-05,
982
+ "loss": 0.3742,
983
  "step": 139
984
  },
985
  {
986
  "epoch": 1.1027667984189724,
987
+ "grad_norm": 0.8401638865470886,
988
  "learning_rate": 8.705464445189647e-05,
989
+ "loss": 0.1974,
990
  "step": 140
991
  },
992
  {
993
  "epoch": 1.1106719367588933,
994
+ "grad_norm": 0.7496947646141052,
995
  "learning_rate": 8.57685161726715e-05,
996
+ "loss": 0.3825,
997
  "step": 141
998
  },
999
  {
1000
  "epoch": 1.1185770750988142,
1001
+ "grad_norm": 1.0039342641830444,
1002
  "learning_rate": 8.448478624640797e-05,
1003
+ "loss": 0.1535,
1004
  "step": 142
1005
  },
1006
  {
1007
  "epoch": 1.1264822134387351,
1008
+ "grad_norm": 0.5387095808982849,
1009
  "learning_rate": 8.320367101298351e-05,
1010
+ "loss": 0.2106,
1011
  "step": 143
1012
  },
1013
  {
1014
  "epoch": 1.1343873517786562,
1015
+ "grad_norm": 0.5525783896446228,
1016
  "learning_rate": 8.192538637163621e-05,
1017
+ "loss": 0.169,
1018
  "step": 144
1019
  },
1020
  {
1021
  "epoch": 1.1422924901185771,
1022
+ "grad_norm": 0.6670098304748535,
1023
  "learning_rate": 8.065014774458003e-05,
1024
+ "loss": 0.1897,
1025
  "step": 145
1026
  },
1027
  {
1028
  "epoch": 1.150197628458498,
1029
+ "grad_norm": 0.701342761516571,
1030
  "learning_rate": 7.93781700407012e-05,
1031
+ "loss": 0.1784,
1032
  "step": 146
1033
  },
1034
  {
1035
  "epoch": 1.158102766798419,
1036
+ "grad_norm": 0.52852463722229,
1037
  "learning_rate": 7.810966761934053e-05,
1038
+ "loss": 0.1712,
1039
  "step": 147
1040
  },
1041
  {
1042
  "epoch": 1.1660079051383399,
1043
+ "grad_norm": 0.5911440849304199,
1044
  "learning_rate": 7.684485425416888e-05,
1045
+ "loss": 0.1378,
1046
  "step": 148
1047
  },
1048
  {
1049
  "epoch": 1.1739130434782608,
1050
+ "grad_norm": 0.7355263829231262,
1051
  "learning_rate": 7.558394309716088e-05,
1052
+ "loss": 0.1088,
1053
  "step": 149
1054
  },
1055
  {
1056
  "epoch": 1.1818181818181819,
1057
+ "grad_norm": 0.5206398367881775,
1058
  "learning_rate": 7.432714664267373e-05,
1059
+ "loss": 0.1724,
1060
  "step": 150
1061
  },
1062
  {
1063
  "epoch": 1.1897233201581028,
1064
+ "grad_norm": 0.5356054902076721,
1065
  "learning_rate": 7.307467669163655e-05,
1066
+ "loss": 0.1792,
1067
  "step": 151
1068
  },
1069
  {
1070
  "epoch": 1.1976284584980237,
1071
+ "grad_norm": 0.5152002573013306,
1072
  "learning_rate": 7.182674431585704e-05,
1073
+ "loss": 0.2179,
1074
  "step": 152
1075
  },
1076
  {
1077
  "epoch": 1.2055335968379446,
1078
+ "grad_norm": 0.6617997288703918,
1079
  "learning_rate": 7.058355982245037e-05,
1080
+ "loss": 0.1654,
1081
  "step": 153
1082
  },
1083
  {
1084
  "epoch": 1.2134387351778657,
1085
+ "grad_norm": 1.776577115058899,
1086
  "learning_rate": 6.934533271839752e-05,
1087
+ "loss": 0.3008,
1088
  "step": 154
1089
  },
1090
  {
1091
  "epoch": 1.2213438735177866,
1092
+ "grad_norm": 0.5596933364868164,
1093
  "learning_rate": 6.811227167523815e-05,
1094
+ "loss": 0.3617,
1095
  "step": 155
1096
  },
1097
  {
1098
  "epoch": 1.2292490118577075,
1099
+ "grad_norm": 0.5993364453315735,
1100
  "learning_rate": 6.688458449390437e-05,
1101
+ "loss": 0.244,
1102
  "step": 156
1103
  },
1104
  {
1105
  "epoch": 1.2371541501976284,
1106
+ "grad_norm": 0.9282941818237305,
1107
  "learning_rate": 6.566247806970119e-05,
1108
+ "loss": 0.2579,
1109
  "step": 157
1110
  },
1111
  {
1112
  "epoch": 1.2450592885375493,
1113
+ "grad_norm": 0.677804172039032,
1114
  "learning_rate": 6.444615835743955e-05,
1115
+ "loss": 0.2758,
1116
  "step": 158
1117
  },
1118
  {
1119
  "epoch": 1.2529644268774702,
1120
+ "grad_norm": 3.5637006759643555,
1121
  "learning_rate": 6.323583033672799e-05,
1122
+ "loss": 0.2121,
1123
  "step": 159
1124
  },
1125
  {
1126
  "epoch": 1.2608695652173914,
1127
+ "grad_norm": 0.7661057710647583,
1128
  "learning_rate": 6.203169797742861e-05,
1129
+ "loss": 0.3532,
1130
  "step": 160
1131
  },
1132
  {
1133
  "epoch": 1.2687747035573123,
1134
+ "grad_norm": 1.0855592489242554,
1135
  "learning_rate": 6.083396420528298e-05,
1136
+ "loss": 0.1676,
1137
  "step": 161
1138
  },
1139
  {
1140
  "epoch": 1.2766798418972332,
1141
+ "grad_norm": 1.2014670372009277,
1142
  "learning_rate": 5.964283086771435e-05,
1143
+ "loss": 0.3823,
1144
  "step": 162
1145
  },
1146
  {
1147
  "epoch": 1.2845849802371543,
1148
+ "grad_norm": 1.5054898262023926,
1149
  "learning_rate": 5.845849869981137e-05,
1150
+ "loss": 0.1683,
1151
  "step": 163
1152
  },
1153
  {
1154
  "epoch": 1.2924901185770752,
1155
+ "grad_norm": 1.071014404296875,
1156
  "learning_rate": 5.728116729049928e-05,
1157
+ "loss": 0.6714,
1158
  "step": 164
1159
  },
1160
  {
1161
  "epoch": 1.300395256916996,
1162
+ "grad_norm": 0.34447920322418213,
1163
  "learning_rate": 5.611103504890444e-05,
1164
+ "loss": 0.0817,
1165
  "step": 165
1166
  },
1167
  {
1168
  "epoch": 1.308300395256917,
1169
+ "grad_norm": 0.7190909385681152,
1170
  "learning_rate": 5.4948299170917325e-05,
1171
+ "loss": 0.2317,
1172
  "step": 166
1173
  },
1174
  {
1175
  "epoch": 1.316205533596838,
1176
+ "grad_norm": 1.5183690786361694,
1177
  "learning_rate": 5.379315560596038e-05,
1178
+ "loss": 0.2293,
1179
  "step": 167
1180
  },
1181
  {
1182
  "epoch": 1.3241106719367588,
1183
+ "grad_norm": 1.6111899614334106,
1184
  "learning_rate": 5.26457990239657e-05,
1185
+ "loss": 0.1938,
1186
  "step": 168
1187
  },
1188
  {
1189
  "epoch": 1.33201581027668,
1190
+ "grad_norm": 1.1006243228912354,
1191
  "learning_rate": 5.1506422782568345e-05,
1192
+ "loss": 0.2764,
1193
  "step": 169
1194
  },
1195
  {
1196
  "epoch": 1.3399209486166008,
1197
+ "grad_norm": 0.48925891518592834,
1198
  "learning_rate": 5.0375218894520834e-05,
1199
+ "loss": 0.0881,
1200
  "step": 170
1201
  },
1202
  {
1203
  "epoch": 1.3478260869565217,
1204
+ "grad_norm": 1.2127503156661987,
1205
  "learning_rate": 4.9252377995334444e-05,
1206
+ "loss": 0.1581,
1207
  "step": 171
1208
  },
1209
  {
1210
  "epoch": 1.3557312252964426,
1211
+ "grad_norm": 0.70034259557724,
1212
  "learning_rate": 4.813808931115228e-05,
1213
+ "loss": 0.1765,
1214
  "step": 172
1215
  },
1216
  {
1217
  "epoch": 1.3636363636363638,
1218
+ "grad_norm": 0.9129422307014465,
1219
  "learning_rate": 4.703254062686017e-05,
1220
+ "loss": 0.4467,
1221
  "step": 173
1222
  },
1223
  {
1224
  "epoch": 1.3715415019762847,
1225
+ "grad_norm": 1.0346431732177734,
1226
  "learning_rate": 4.593591825444028e-05,
1227
+ "loss": 0.324,
1228
  "step": 174
1229
  },
1230
  {
1231
  "epoch": 1.3794466403162056,
1232
+ "grad_norm": 1.1604621410369873,
1233
  "learning_rate": 4.484840700157295e-05,
1234
+ "loss": 0.2579,
1235
  "step": 175
1236
  },
1237
  {
1238
  "epoch": 1.3873517786561265,
1239
+ "grad_norm": 0.5738621354103088,
1240
  "learning_rate": 4.377019014049223e-05,
1241
+ "loss": 0.1351,
1242
  "step": 176
1243
  },
1244
  {
1245
  "epoch": 1.3952569169960474,
1246
+ "grad_norm": 0.8380118608474731,
1247
  "learning_rate": 4.270144937709981e-05,
1248
+ "loss": 0.1808,
1249
  "step": 177
1250
  },
1251
  {
1252
  "epoch": 1.4031620553359683,
1253
+ "grad_norm": 0.9386733770370483,
1254
  "learning_rate": 4.164236482034327e-05,
1255
+ "loss": 0.2689,
1256
  "step": 178
1257
  },
1258
  {
1259
  "epoch": 1.4110671936758894,
1260
+ "grad_norm": 0.451817125082016,
1261
  "learning_rate": 4.059311495186338e-05,
1262
+ "loss": 0.1063,
1263
  "step": 179
1264
  },
1265
  {
1266
  "epoch": 1.4189723320158103,
1267
+ "grad_norm": 0.9198683500289917,
1268
  "learning_rate": 3.9553876595915375e-05,
1269
+ "loss": 0.0927,
1270
  "step": 180
1271
  },
1272
  {
1273
  "epoch": 1.4268774703557312,
1274
+ "grad_norm": 0.5517873167991638,
1275
  "learning_rate": 3.852482488956992e-05,
1276
+ "loss": 0.1326,
1277
  "step": 181
1278
  },
1279
  {
1280
  "epoch": 1.434782608695652,
1281
+ "grad_norm": 2.099898338317871,
1282
  "learning_rate": 3.750613325319817e-05,
1283
+ "loss": 0.2189,
1284
  "step": 182
1285
  },
1286
  {
1287
  "epoch": 1.4426877470355732,
1288
+ "grad_norm": 0.5490242838859558,
1289
  "learning_rate": 3.649797336124615e-05,
1290
+ "loss": 0.1408,
1291
  "step": 183
1292
  },
1293
  {
1294
  "epoch": 1.4505928853754941,
1295
+ "grad_norm": 0.6548390984535217,
1296
  "learning_rate": 3.550051511330361e-05,
1297
+ "loss": 0.2264,
1298
  "step": 184
1299
  },
1300
  {
1301
  "epoch": 1.458498023715415,
1302
+ "grad_norm": 1.2147459983825684,
1303
  "learning_rate": 3.45139266054715e-05,
1304
+ "loss": 0.2715,
1305
  "step": 185
1306
  },
1307
  {
1308
  "epoch": 1.466403162055336,
1309
+ "grad_norm": 0.9193414449691772,
1310
  "learning_rate": 3.3538374102033866e-05,
1311
+ "loss": 0.1903,
1312
  "step": 186
1313
  },
1314
  {
1315
  "epoch": 1.4743083003952568,
1316
+ "grad_norm": 0.8377665281295776,
1317
  "learning_rate": 3.257402200743821e-05,
1318
+ "loss": 0.1726,
1319
  "step": 187
1320
  },
1321
  {
1322
  "epoch": 1.4822134387351777,
1323
+ "grad_norm": 1.05824613571167,
1324
  "learning_rate": 3.1621032838589305e-05,
1325
+ "loss": 0.1822,
1326
  "step": 188
1327
  },
1328
  {
1329
  "epoch": 1.4901185770750989,
1330
+ "grad_norm": 0.8356701731681824,
1331
  "learning_rate": 3.0679567197461134e-05,
1332
+ "loss": 0.289,
1333
  "step": 189
1334
  },
1335
  {
1336
  "epoch": 1.4980237154150198,
1337
+ "grad_norm": 1.1289795637130737,
1338
  "learning_rate": 2.974978374403147e-05,
1339
+ "loss": 0.25,
1340
  "step": 190
1341
  },
1342
  {
1343
  "epoch": 1.5059288537549407,
1344
+ "grad_norm": 0.7377334237098694,
1345
  "learning_rate": 2.8831839169543996e-05,
1346
+ "loss": 0.2193,
1347
  "step": 191
1348
  },
1349
  {
1350
  "epoch": 1.5138339920948618,
1351
+ "grad_norm": 0.6371282935142517,
1352
  "learning_rate": 2.7925888170101665e-05,
1353
+ "loss": 0.0678,
1354
  "step": 192
1355
  },
1356
  {
1357
  "epoch": 1.5217391304347827,
1358
+ "grad_norm": 0.5883315801620483,
1359
  "learning_rate": 2.7032083420597e-05,
1360
+ "loss": 0.0967,
1361
  "step": 193
1362
  },
1363
  {
1364
  "epoch": 1.5296442687747036,
1365
+ "grad_norm": 0.9382833242416382,
1366
  "learning_rate": 2.6150575548982292e-05,
1367
+ "loss": 0.297,
1368
  "step": 194
1369
  },
1370
  {
1371
  "epoch": 1.5375494071146245,
1372
+ "grad_norm": 0.8458752036094666,
1373
  "learning_rate": 2.528151311088537e-05,
1374
+ "loss": 0.1853,
1375
  "step": 195
1376
  },
1377
  {
1378
  "epoch": 1.5454545454545454,
1379
+ "grad_norm": 0.5695004463195801,
1380
  "learning_rate": 2.4425042564574184e-05,
1381
+ "loss": 0.1407,
1382
  "step": 196
1383
  },
1384
  {
1385
  "epoch": 1.5533596837944663,
1386
+ "grad_norm": 0.46086326241493225,
1387
  "learning_rate": 2.3581308246275103e-05,
1388
+ "loss": 0.1084,
1389
  "step": 197
1390
  },
1391
  {
1392
  "epoch": 1.5612648221343872,
1393
+ "grad_norm": 0.9662849307060242,
1394
  "learning_rate": 2.2750452345848682e-05,
1395
+ "loss": 0.2847,
1396
  "step": 198
1397
  },
1398
  {
1399
  "epoch": 1.5691699604743083,
1400
+ "grad_norm": 0.799304723739624,
1401
  "learning_rate": 2.1932614882827197e-05,
1402
+ "loss": 0.189,
1403
  "step": 199
1404
  },
1405
  {
1406
  "epoch": 1.5770750988142292,
1407
+ "grad_norm": 0.6747804880142212,
1408
  "learning_rate": 2.112793368281799e-05,
1409
+ "loss": 0.1797,
1410
  "step": 200
1411
  },
1412
  {
1413
  "epoch": 1.5849802371541502,
1414
+ "grad_norm": 0.5679678320884705,
1415
  "learning_rate": 2.03365443542764e-05,
1416
+ "loss": 0.1284,
1417
  "step": 201
1418
  },
1419
  {
1420
  "epoch": 1.5928853754940713,
1421
+ "grad_norm": 0.669952929019928,
1422
  "learning_rate": 1.9558580265652448e-05,
1423
+ "loss": 0.2349,
1424
  "step": 202
1425
  },
1426
  {
1427
  "epoch": 1.6007905138339922,
1428
+ "grad_norm": 0.5827800035476685,
1429
  "learning_rate": 1.879417252291502e-05,
1430
+ "loss": 0.1668,
1431
  "step": 203
1432
  },
1433
  {
1434
  "epoch": 1.608695652173913,
1435
+ "grad_norm": 0.8047837018966675,
1436
  "learning_rate": 1.804344994745727e-05,
1437
+ "loss": 0.1244,
1438
  "step": 204
1439
  },
1440
  {
1441
  "epoch": 1.616600790513834,
1442
+ "grad_norm": 0.7034929990768433,
1443
  "learning_rate": 1.730653905438714e-05,
1444
+ "loss": 0.2241,
1445
  "step": 205
1446
  },
1447
  {
1448
  "epoch": 1.6245059288537549,
1449
+ "grad_norm": 0.9926624894142151,
1450
  "learning_rate": 1.6583564031206357e-05,
1451
+ "loss": 0.1807,
1452
  "step": 206
1453
  },
1454
  {
1455
  "epoch": 1.6324110671936758,
1456
+ "grad_norm": 0.7195786833763123,
1457
  "learning_rate": 1.587464671688187e-05,
1458
+ "loss": 0.2133,
1459
  "step": 207
1460
  },
1461
  {
1462
  "epoch": 1.6403162055335967,
1463
+ "grad_norm": 0.6933628916740417,
1464
  "learning_rate": 1.5179906581313064e-05,
1465
+ "loss": 0.1928,
1466
  "step": 208
1467
  },
1468
  {
1469
  "epoch": 1.6482213438735178,
1470
+ "grad_norm": 1.1264605522155762,
1471
  "learning_rate": 1.4499460705197998e-05,
1472
+ "loss": 0.3693,
1473
  "step": 209
1474
  },
1475
  {
1476
  "epoch": 1.6561264822134387,
1477
+ "grad_norm": 0.7283610701560974,
1478
  "learning_rate": 1.3833423760302611e-05,
1479
+ "loss": 0.1677,
1480
  "step": 210
1481
  },
1482
  {
1483
  "epoch": 1.6640316205533598,
1484
+ "grad_norm": 1.039823055267334,
1485
  "learning_rate": 1.3181907990135622e-05,
1486
+ "loss": 0.1639,
1487
  "step": 211
1488
  },
1489
  {
1490
  "epoch": 1.6719367588932808,
1491
+ "grad_norm": 0.933429479598999,
1492
  "learning_rate": 1.2545023191032801e-05,
1493
+ "loss": 0.1798,
1494
  "step": 212
1495
  },
1496
  {
1497
  "epoch": 1.6798418972332017,
1498
+ "grad_norm": 1.0857698917388916,
1499
  "learning_rate": 1.1922876693653585e-05,
1500
+ "loss": 0.2107,
1501
  "step": 213
1502
  },
1503
  {
1504
  "epoch": 1.6877470355731226,
1505
+ "grad_norm": 1.2482712268829346,
1506
  "learning_rate": 1.131557334489326e-05,
1507
+ "loss": 0.2459,
1508
  "step": 214
1509
  },
1510
  {
1511
  "epoch": 1.6956521739130435,
1512
+ "grad_norm": 0.8419239521026611,
1513
  "learning_rate": 1.0723215490213634e-05,
1514
+ "loss": 0.2451,
1515
  "step": 215
1516
  },
1517
  {
1518
  "epoch": 1.7035573122529644,
1519
+ "grad_norm": 0.8410497903823853,
1520
  "learning_rate": 1.0145902956395447e-05,
1521
+ "loss": 0.2175,
1522
  "step": 216
1523
  },
1524
  {
1525
  "epoch": 1.7114624505928853,
1526
+ "grad_norm": 1.390134334564209,
1527
  "learning_rate": 9.583733034714981e-06,
1528
+ "loss": 0.4648,
1529
  "step": 217
1530
  },
1531
  {
1532
  "epoch": 1.7193675889328062,
1533
+ "grad_norm": 0.5143908262252808,
1534
  "learning_rate": 9.036800464548157e-06,
1535
+ "loss": 0.112,
1536
  "step": 218
1537
  },
1538
  {
1539
  "epoch": 1.7272727272727273,
1540
+ "grad_norm": 0.6791729927062988,
1541
  "learning_rate": 8.505197417404687e-06,
1542
+ "loss": 0.1596,
1543
  "step": 219
1544
  },
1545
  {
1546
  "epoch": 1.7351778656126482,
1547
+ "grad_norm": 0.794528603553772,
1548
  "learning_rate": 7.989013481394814e-06,
1549
+ "loss": 0.3435,
1550
  "step": 220
1551
  },
1552
  {
1553
  "epoch": 1.7430830039525693,
1554
+ "grad_norm": 0.7834582328796387,
1555
  "learning_rate": 7.488335646131628e-06,
1556
+ "loss": 0.2931,
1557
  "step": 221
1558
  },
1559
  {
1560
  "epoch": 1.7509881422924902,
1561
+ "grad_norm": 2.8932089805603027,
1562
  "learning_rate": 7.003248288071118e-06,
1563
+ "loss": 0.3275,
1564
  "step": 222
1565
  },
1566
  {
1567
  "epoch": 1.7588932806324111,
1568
+ "grad_norm": 0.5584789514541626,
1569
  "learning_rate": 6.533833156292679e-06,
1570
+ "loss": 0.1267,
1571
  "step": 223
1572
  },
1573
  {
1574
  "epoch": 1.766798418972332,
1575
+ "grad_norm": 0.9573125839233398,
1576
  "learning_rate": 6.08016935872251e-06,
1577
+ "loss": 0.215,
1578
  "step": 224
1579
  },
1580
  {
1581
  "epoch": 1.774703557312253,
1582
+ "grad_norm": 0.8806841969490051,
1583
  "learning_rate": 5.6423333488018095e-06,
1584
+ "loss": 0.3208,
1585
  "step": 225
1586
  },
1587
  {
1588
  "epoch": 1.7826086956521738,
1589
+ "grad_norm": 0.49562156200408936,
1590
  "learning_rate": 5.22039891260262e-06,
1591
+ "loss": 0.093,
1592
  "step": 226
1593
  },
1594
  {
1595
  "epoch": 1.7905138339920947,
1596
+ "grad_norm": 0.5696113705635071,
1597
  "learning_rate": 4.8144371563930476e-06,
1598
+ "loss": 0.1829,
1599
  "step": 227
1600
  },
1601
  {
1602
  "epoch": 1.7984189723320159,
1603
+ "grad_norm": 0.7890591621398926,
1604
  "learning_rate": 4.424516494654118e-06,
1605
+ "loss": 0.1888,
1606
  "step": 228
1607
  },
1608
  {
1609
  "epoch": 1.8063241106719368,
1610
+ "grad_norm": 1.111238718032837,
1611
  "learning_rate": 4.050702638550275e-06,
1612
+ "loss": 0.2312,
1613
  "step": 229
1614
  },
1615
  {
1616
  "epoch": 1.8142292490118577,
1617
+ "grad_norm": 1.0172678232192993,
1618
  "learning_rate": 3.693058584855369e-06,
1619
+ "loss": 0.4459,
1620
  "step": 230
1621
  },
1622
  {
1623
  "epoch": 1.8221343873517788,
1624
+ "grad_norm": 0.6409620642662048,
1625
  "learning_rate": 3.3516446053363015e-06,
1626
+ "loss": 0.1838,
1627
  "step": 231
1628
  },
1629
  {
1630
  "epoch": 1.8300395256916997,
1631
+ "grad_norm": 1.010557770729065,
1632
  "learning_rate": 3.026518236595621e-06,
1633
+ "loss": 0.1648,
1634
  "step": 232
1635
  },
1636
  {
1637
  "epoch": 1.8379446640316206,
1638
+ "grad_norm": 0.7010674476623535,
1639
  "learning_rate": 2.717734270375272e-06,
1640
+ "loss": 0.1565,
1641
  "step": 233
1642
  },
1643
  {
1644
  "epoch": 1.8458498023715415,
1645
+ "grad_norm": 0.8774541616439819,
1646
  "learning_rate": 2.4253447443228106e-06,
1647
+ "loss": 0.2482,
1648
  "step": 234
1649
  },
1650
  {
1651
  "epoch": 1.8537549407114624,
1652
+ "grad_norm": 1.4902609586715698,
1653
  "learning_rate": 2.1493989332218468e-06,
1654
+ "loss": 0.6009,
1655
  "step": 235
1656
  },
1657
  {
1658
  "epoch": 1.8616600790513833,
1659
+ "grad_norm": 0.8265174627304077,
1660
  "learning_rate": 1.8899433406879608e-06,
1661
+ "loss": 0.1213,
1662
  "step": 236
1663
  },
1664
  {
1665
  "epoch": 1.8695652173913042,
1666
+ "grad_norm": 2.709406852722168,
1667
  "learning_rate": 1.6470216913317626e-06,
1668
+ "loss": 0.1897,
1669
  "step": 237
1670
  },
1671
  {
1672
  "epoch": 1.8774703557312253,
1673
+ "grad_norm": 0.6855682730674744,
1674
  "learning_rate": 1.4206749233902084e-06,
1675
+ "loss": 0.1564,
1676
  "step": 238
1677
  },
1678
  {
1679
  "epoch": 1.8853754940711462,
1680
+ "grad_norm": 0.5468905568122864,
1681
  "learning_rate": 1.2109411818274852e-06,
1682
+ "loss": 0.1241,
1683
  "step": 239
1684
  },
1685
  {
1686
  "epoch": 1.8932806324110671,
1687
+ "grad_norm": 0.5691235661506653,
1688
  "learning_rate": 1.0178558119067315e-06,
1689
+ "loss": 0.1394,
1690
  "step": 240
1691
  },
1692
  {
1693
  "epoch": 1.9011857707509883,
1694
+ "grad_norm": 0.8554819822311401,
1695
  "learning_rate": 8.41451353233369e-07,
1696
+ "loss": 0.2113,
1697
  "step": 241
1698
  },
1699
  {
1700
  "epoch": 1.9090909090909092,
1701
+ "grad_norm": 1.5547891855239868,
1702
  "learning_rate": 6.817575342714988e-07,
1703
+ "loss": 0.4036,
1704
  "step": 242
1705
  },
1706
  {
1707
  "epoch": 1.91699604743083,
1708
+ "grad_norm": 1.505486249923706,
1709
  "learning_rate": 5.388012673338661e-07,
1710
+ "loss": 0.2284,
1711
  "step": 243
1712
  },
1713
  {
1714
  "epoch": 1.924901185770751,
1715
+ "grad_norm": 0.9467947483062744,
1716
  "learning_rate": 4.126066440464982e-07,
1717
+ "loss": 0.3383,
1718
  "step": 244
1719
  },
1720
  {
1721
  "epoch": 1.9328063241106719,
1722
+ "grad_norm": 1.066933274269104,
1723
  "learning_rate": 3.0319493128866396e-07,
1724
+ "loss": 0.3404,
1725
  "step": 245
1726
  },
1727
  {
1728
  "epoch": 1.9407114624505928,
1729
+ "grad_norm": 1.2586652040481567,
1730
  "learning_rate": 2.1058456760891798e-07,
1731
+ "loss": 0.2501,
1732
  "step": 246
1733
  },
1734
  {
1735
  "epoch": 1.9486166007905137,
1736
+ "grad_norm": 1.629897117614746,
1737
  "learning_rate": 1.3479116011769767e-07,
1738
+ "loss": 0.3085,
1739
  "step": 247
1740
  },
1741
  {
1742
  "epoch": 1.9565217391304348,
1743
+ "grad_norm": 0.8343656063079834,
1744
  "learning_rate": 7.582748185719358e-08,
1745
+ "loss": 0.3449,
1746
  "step": 248
1747
  },
1748
  {
1749
  "epoch": 1.9644268774703557,
1750
+ "grad_norm": 1.270969271659851,
1751
  "learning_rate": 3.370346964876036e-08,
1752
+ "loss": 0.4198,
1753
  "step": 249
1754
  },
1755
  {
1756
  "epoch": 1.9723320158102768,
1757
+ "grad_norm": 1.3988014459609985,
1758
  "learning_rate": 8.426222418311814e-09,
1759
+ "loss": 0.619,
1760
  "step": 250
1761
  }
1762
  ],
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:870d6061a3cfd60bcc0dcabc7a4c223e02ed071b6cad5e90dd66a232cf240cc3
3
  size 6353
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4e77794bbdd2eb0fb1754c2e6637d987d75bed42f3093d2f32cb758d7ef33e8
3
  size 6353