sjudicke commited on
Commit
8e6b8bc
·
verified ·
1 Parent(s): e968f5c

Full run push

Browse files
Files changed (1) hide show
  1. trainer_state.json +210 -700
trainer_state.json CHANGED
@@ -4,866 +4,376 @@
4
  "best_model_checkpoint": null,
5
  "epoch": 1.0,
6
  "eval_steps": 500,
7
- "global_step": 60000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
- "epoch": 0.008333333333333333,
14
- "grad_norm": 1.734326958656311,
15
- "learning_rate": 8.316666666666665e-05,
16
- "loss": 0.5142,
17
  "step": 500
18
  },
19
  {
20
- "epoch": 0.016666666666666666,
21
- "grad_norm": 0.7779222726821899,
22
- "learning_rate": 0.0001665,
23
- "loss": 0.3832,
24
  "step": 1000
25
  },
26
  {
27
- "epoch": 0.025,
28
- "grad_norm": 1.3082212209701538,
29
- "learning_rate": 0.0002498333333333333,
30
- "loss": 0.3418,
31
  "step": 1500
32
  },
33
  {
34
- "epoch": 0.03333333333333333,
35
- "grad_norm": 1.115393877029419,
36
- "learning_rate": 0.000299991345997501,
37
- "loss": 0.3593,
38
  "step": 2000
39
  },
40
  {
41
- "epoch": 0.041666666666666664,
42
- "grad_norm": 1.1185020208358765,
43
- "learning_rate": 0.0002998932377135537,
44
- "loss": 0.3316,
45
  "step": 2500
46
  },
47
  {
48
- "epoch": 0.05,
49
- "grad_norm": 0.44978195428848267,
50
- "learning_rate": 0.0002996859478276907,
51
- "loss": 0.3364,
52
  "step": 3000
53
  },
54
  {
55
- "epoch": 0.058333333333333334,
56
- "grad_norm": 1.157468318939209,
57
- "learning_rate": 0.0002993696273289902,
58
- "loss": 0.3145,
59
  "step": 3500
60
  },
61
  {
62
- "epoch": 0.06666666666666667,
63
- "grad_norm": 1.247792363166809,
64
- "learning_rate": 0.00029894450662396884,
65
- "loss": 0.3201,
66
  "step": 4000
67
  },
68
  {
69
- "epoch": 0.075,
70
- "grad_norm": 0.9549034833908081,
71
- "learning_rate": 0.00029841089536875444,
72
- "loss": 0.3189,
73
  "step": 4500
74
  },
75
  {
76
- "epoch": 0.08333333333333333,
77
- "grad_norm": 0.8676638007164001,
78
- "learning_rate": 0.00029776918224353393,
79
- "loss": 0.3224,
80
  "step": 5000
81
  },
82
  {
83
- "epoch": 0.09166666666666666,
84
- "grad_norm": 1.1023201942443848,
85
- "learning_rate": 0.00029701983466944016,
86
- "loss": 0.3048,
87
  "step": 5500
88
  },
89
  {
90
- "epoch": 0.1,
91
- "grad_norm": 1.559238076210022,
92
- "learning_rate": 0.00029616339846808443,
93
- "loss": 0.3166,
94
  "step": 6000
95
  },
96
  {
97
- "epoch": 0.10833333333333334,
98
- "grad_norm": 0.6283588409423828,
99
- "learning_rate": 0.0002952004974639823,
100
- "loss": 0.3118,
101
  "step": 6500
102
  },
103
  {
104
- "epoch": 0.11666666666666667,
105
- "grad_norm": 0.8453167080879211,
106
- "learning_rate": 0.0002941318330301624,
107
- "loss": 0.2962,
108
  "step": 7000
109
  },
110
  {
111
- "epoch": 0.125,
112
- "grad_norm": 1.476069688796997,
113
- "learning_rate": 0.00029295818357728945,
114
- "loss": 0.3151,
115
  "step": 7500
116
  },
117
  {
118
- "epoch": 0.13333333333333333,
119
- "grad_norm": 0.8654290437698364,
120
- "learning_rate": 0.000291680403986673,
121
- "loss": 0.297,
122
  "step": 8000
123
  },
124
  {
125
- "epoch": 0.14166666666666666,
126
- "grad_norm": 1.922337293624878,
127
- "learning_rate": 0.00029029942498757556,
128
- "loss": 0.3089,
129
  "step": 8500
130
  },
131
  {
132
- "epoch": 0.15,
133
- "grad_norm": 1.667548418045044,
134
- "learning_rate": 0.00028881625247927344,
135
- "loss": 0.295,
136
  "step": 9000
137
  },
138
  {
139
- "epoch": 0.15833333333333333,
140
- "grad_norm": 0.7707281112670898,
141
- "learning_rate": 0.0002872319667983639,
142
- "loss": 0.2889,
143
  "step": 9500
144
  },
145
  {
146
- "epoch": 0.16666666666666666,
147
- "grad_norm": 1.3987542390823364,
148
- "learning_rate": 0.0002855477219318523,
149
- "loss": 0.2831,
150
  "step": 10000
151
  },
152
  {
153
- "epoch": 0.175,
154
- "grad_norm": 0.8910896182060242,
155
- "learning_rate": 0.0002837647446765933,
156
- "loss": 0.2928,
157
  "step": 10500
158
  },
159
  {
160
- "epoch": 0.18333333333333332,
161
- "grad_norm": 1.34634268283844,
162
- "learning_rate": 0.0002818843337456967,
163
- "loss": 0.2866,
164
  "step": 11000
165
  },
166
  {
167
- "epoch": 0.19166666666666668,
168
- "grad_norm": 2.1172733306884766,
169
- "learning_rate": 0.00027990785882255076,
170
- "loss": 0.2869,
171
  "step": 11500
172
  },
173
  {
174
- "epoch": 0.2,
175
- "grad_norm": 1.0616984367370605,
176
- "learning_rate": 0.0002778367595631503,
177
- "loss": 0.2924,
178
  "step": 12000
179
  },
180
  {
181
- "epoch": 0.20833333333333334,
182
- "grad_norm": 0.6745150089263916,
183
- "learning_rate": 0.0002756725445474574,
184
- "loss": 0.289,
185
  "step": 12500
186
  },
187
  {
188
- "epoch": 0.21666666666666667,
189
- "grad_norm": 0.9809184670448303,
190
- "learning_rate": 0.00027341679018055815,
191
- "loss": 0.2821,
192
  "step": 13000
193
  },
194
  {
195
- "epoch": 0.225,
196
- "grad_norm": 0.9942313432693481,
197
- "learning_rate": 0.0002710711395444158,
198
- "loss": 0.2867,
199
  "step": 13500
200
  },
201
  {
202
- "epoch": 0.23333333333333334,
203
- "grad_norm": 0.7905780673027039,
204
- "learning_rate": 0.00026863730120105694,
205
- "loss": 0.2965,
206
  "step": 14000
207
  },
208
  {
209
- "epoch": 0.24166666666666667,
210
- "grad_norm": 0.4196673631668091,
211
- "learning_rate": 0.0002661170479480619,
212
- "loss": 0.2869,
213
  "step": 14500
214
  },
215
  {
216
- "epoch": 0.25,
217
- "grad_norm": 0.975186824798584,
218
- "learning_rate": 0.0002635122155272666,
219
- "loss": 0.276,
220
  "step": 15000
221
  },
222
  {
223
- "epoch": 0.25833333333333336,
224
- "grad_norm": 1.2537420988082886,
225
- "learning_rate": 0.00026082470128761597,
226
- "loss": 0.2794,
227
  "step": 15500
228
  },
229
  {
230
- "epoch": 0.26666666666666666,
231
- "grad_norm": 1.1740987300872803,
232
- "learning_rate": 0.0002580564628031429,
233
- "loss": 0.2794,
234
  "step": 16000
235
  },
236
  {
237
- "epoch": 0.275,
238
- "grad_norm": 1.9777884483337402,
239
- "learning_rate": 0.00025520951644707966,
240
- "loss": 0.2871,
241
  "step": 16500
242
  },
243
  {
244
- "epoch": 0.2833333333333333,
245
- "grad_norm": 1.662049412727356,
246
- "learning_rate": 0.0002522859359231401,
247
- "loss": 0.288,
248
  "step": 17000
249
  },
250
  {
251
- "epoch": 0.2916666666666667,
252
- "grad_norm": 0.8431689739227295,
253
- "learning_rate": 0.0002492878507550424,
254
- "loss": 0.2752,
255
  "step": 17500
256
  },
257
  {
258
- "epoch": 0.3,
259
- "grad_norm": 1.1322907209396362,
260
- "learning_rate": 0.00024621744473537365,
261
- "loss": 0.2834,
262
  "step": 18000
263
  },
264
  {
265
- "epoch": 0.30833333333333335,
266
- "grad_norm": 0.751252293586731,
267
- "learning_rate": 0.00024307695433492364,
268
- "loss": 0.2817,
269
  "step": 18500
270
  },
271
  {
272
- "epoch": 0.31666666666666665,
273
- "grad_norm": 0.9835771918296814,
274
- "learning_rate": 0.00023986866707364964,
275
- "loss": 0.2651,
276
  "step": 19000
277
  },
278
  {
279
- "epoch": 0.325,
280
- "grad_norm": 1.3762648105621338,
281
- "learning_rate": 0.0002365949198544562,
282
- "loss": 0.2679,
283
  "step": 19500
284
  },
285
  {
286
- "epoch": 0.3333333333333333,
287
- "grad_norm": 1.1998765468597412,
288
- "learning_rate": 0.0002332580972610051,
289
- "loss": 0.2751,
290
  "step": 20000
291
  },
292
  {
293
- "epoch": 0.3416666666666667,
294
- "grad_norm": 0.4611862599849701,
295
- "learning_rate": 0.00022986062982079458,
296
- "loss": 0.2779,
297
  "step": 20500
298
  },
299
  {
300
- "epoch": 0.35,
301
- "grad_norm": 0.7198874354362488,
302
- "learning_rate": 0.00022640499223477339,
303
- "loss": 0.2666,
304
  "step": 21000
305
  },
306
  {
307
- "epoch": 0.35833333333333334,
308
- "grad_norm": 1.37840735912323,
309
- "learning_rate": 0.000222893701574779,
310
- "loss": 0.2698,
311
  "step": 21500
312
  },
313
  {
314
- "epoch": 0.36666666666666664,
315
- "grad_norm": 1.549021601676941,
316
- "learning_rate": 0.00021932931545011323,
317
- "loss": 0.2672,
318
  "step": 22000
319
  },
320
  {
321
- "epoch": 0.375,
322
- "grad_norm": 1.489937663078308,
323
- "learning_rate": 0.00021571443014459024,
324
- "loss": 0.2611,
325
  "step": 22500
326
  },
327
  {
328
- "epoch": 0.38333333333333336,
329
- "grad_norm": 1.0012102127075195,
330
- "learning_rate": 0.0002120516787254146,
331
- "loss": 0.2613,
332
  "step": 23000
333
  },
334
  {
335
- "epoch": 0.39166666666666666,
336
- "grad_norm": 0.3051554560661316,
337
- "learning_rate": 0.00020834372912526596,
338
- "loss": 0.2662,
339
  "step": 23500
340
  },
341
  {
342
- "epoch": 0.4,
343
- "grad_norm": 0.6066364049911499,
344
- "learning_rate": 0.0002045932821989884,
345
- "loss": 0.2653,
346
  "step": 24000
347
  },
348
  {
349
- "epoch": 0.4083333333333333,
350
- "grad_norm": 0.881126344203949,
351
- "learning_rate": 0.000200803069756299,
352
- "loss": 0.2563,
353
  "step": 24500
354
  },
355
- {
356
- "epoch": 0.4166666666666667,
357
- "grad_norm": 0.9933512210845947,
358
- "learning_rate": 0.0001969758525719492,
359
- "loss": 0.2592,
360
- "step": 25000
361
- },
362
- {
363
- "epoch": 0.425,
364
- "grad_norm": 0.8219375610351562,
365
- "learning_rate": 0.00019311441837478816,
366
- "loss": 0.272,
367
- "step": 25500
368
- },
369
- {
370
- "epoch": 0.43333333333333335,
371
- "grad_norm": 1.2546143531799316,
372
- "learning_rate": 0.0001892215798171928,
373
- "loss": 0.2567,
374
- "step": 26000
375
- },
376
- {
377
- "epoch": 0.44166666666666665,
378
- "grad_norm": 1.4476374387741089,
379
- "learning_rate": 0.00018530017242634363,
380
- "loss": 0.2588,
381
- "step": 26500
382
- },
383
- {
384
- "epoch": 0.45,
385
- "grad_norm": 1.356984257698059,
386
- "learning_rate": 0.0001813530525388389,
387
- "loss": 0.2556,
388
- "step": 27000
389
- },
390
- {
391
- "epoch": 0.4583333333333333,
392
- "grad_norm": 0.0,
393
- "learning_rate": 0.00017738309522015073,
394
- "loss": 0.2477,
395
- "step": 27500
396
- },
397
- {
398
- "epoch": 0.4666666666666667,
399
- "grad_norm": 1.395007848739624,
400
- "learning_rate": 0.00017339319217043995,
401
- "loss": 0.2498,
402
- "step": 28000
403
- },
404
- {
405
- "epoch": 0.475,
406
- "grad_norm": 0.7972742319107056,
407
- "learning_rate": 0.00016938624961825358,
408
- "loss": 0.2473,
409
- "step": 28500
410
- },
411
- {
412
- "epoch": 0.48333333333333334,
413
- "grad_norm": 0.8678386807441711,
414
- "learning_rate": 0.0001653651862036404,
415
- "loss": 0.2534,
416
- "step": 29000
417
- },
418
- {
419
- "epoch": 0.49166666666666664,
420
- "grad_norm": 1.0032129287719727,
421
- "learning_rate": 0.00016133293085222585,
422
- "loss": 0.2458,
423
- "step": 29500
424
- },
425
- {
426
- "epoch": 0.5,
427
- "grad_norm": 0.9749704599380493,
428
- "learning_rate": 0.00015729242064179487,
429
- "loss": 0.2516,
430
- "step": 30000
431
- },
432
- {
433
- "epoch": 0.5083333333333333,
434
- "grad_norm": 1.6964690685272217,
435
- "learning_rate": 0.0001532465986629368,
436
- "loss": 0.2452,
437
- "step": 30500
438
- },
439
- {
440
- "epoch": 0.5166666666666667,
441
- "grad_norm": 1.2840642929077148,
442
- "learning_rate": 0.0001491984118753108,
443
- "loss": 0.247,
444
- "step": 31000
445
- },
446
- {
447
- "epoch": 0.525,
448
- "grad_norm": 1.1751660108566284,
449
- "learning_rate": 0.00014515080896109272,
450
- "loss": 0.2561,
451
- "step": 31500
452
- },
453
- {
454
- "epoch": 0.5333333333333333,
455
- "grad_norm": 0.4990275204181671,
456
- "learning_rate": 0.00014110673817716756,
457
- "loss": 0.2429,
458
- "step": 32000
459
- },
460
- {
461
- "epoch": 0.5416666666666666,
462
- "grad_norm": 1.0772459506988525,
463
- "learning_rate": 0.0001370691452076314,
464
- "loss": 0.2622,
465
- "step": 32500
466
- },
467
- {
468
- "epoch": 0.55,
469
- "grad_norm": 1.0913983583450317,
470
- "learning_rate": 0.00013304097101816766,
471
- "loss": 0.2406,
472
- "step": 33000
473
- },
474
- {
475
- "epoch": 0.5583333333333333,
476
- "grad_norm": 0.7937314510345459,
477
- "learning_rate": 0.0001290251497138601,
478
- "loss": 0.2317,
479
- "step": 33500
480
- },
481
- {
482
- "epoch": 0.5666666666666667,
483
- "grad_norm": 0.866894006729126,
484
- "learning_rate": 0.0001250246064020032,
485
- "loss": 0.2381,
486
- "step": 34000
487
- },
488
- {
489
- "epoch": 0.575,
490
- "grad_norm": 0.904768705368042,
491
- "learning_rate": 0.000121042255061466,
492
- "loss": 0.2416,
493
- "step": 34500
494
- },
495
- {
496
- "epoch": 0.5833333333333334,
497
- "grad_norm": 2.5710256099700928,
498
- "learning_rate": 0.00011708099642016254,
499
- "loss": 0.2501,
500
- "step": 35000
501
- },
502
- {
503
- "epoch": 0.5916666666666667,
504
- "grad_norm": 0.9502021074295044,
505
- "learning_rate": 0.00011314371584217354,
506
- "loss": 0.2462,
507
- "step": 35500
508
- },
509
- {
510
- "epoch": 0.6,
511
- "grad_norm": 1.1951791048049927,
512
- "learning_rate": 0.00010923328122605982,
513
- "loss": 0.2437,
514
- "step": 36000
515
- },
516
- {
517
- "epoch": 0.6083333333333333,
518
- "grad_norm": 1.0552036762237549,
519
- "learning_rate": 0.00010535254091589667,
520
- "loss": 0.2426,
521
- "step": 36500
522
- },
523
- {
524
- "epoch": 0.6166666666666667,
525
- "grad_norm": 1.1212034225463867,
526
- "learning_rate": 0.00010150432162655218,
527
- "loss": 0.2454,
528
- "step": 37000
529
- },
530
- {
531
- "epoch": 0.625,
532
- "grad_norm": 0.7416337132453918,
533
- "learning_rate": 9.769142638472033e-05,
534
- "loss": 0.2401,
535
- "step": 37500
536
- },
537
- {
538
- "epoch": 0.6333333333333333,
539
- "grad_norm": 0.6174165606498718,
540
- "learning_rate": 9.391663248720767e-05,
541
- "loss": 0.2462,
542
- "step": 38000
543
- },
544
- {
545
- "epoch": 0.6416666666666667,
546
- "grad_norm": 1.7195667028427124,
547
- "learning_rate": 9.01826894779624e-05,
548
- "loss": 0.2404,
549
- "step": 38500
550
- },
551
- {
552
- "epoch": 0.65,
553
- "grad_norm": 0.8892576098442078,
554
- "learning_rate": 8.649231714531805e-05,
555
- "loss": 0.237,
556
- "step": 39000
557
- },
558
- {
559
- "epoch": 0.6583333333333333,
560
- "grad_norm": 0.5483108758926392,
561
- "learning_rate": 8.284820354091123e-05,
562
- "loss": 0.2458,
563
- "step": 39500
564
- },
565
- {
566
- "epoch": 0.6666666666666666,
567
- "grad_norm": 0.9700618982315063,
568
- "learning_rate": 7.925300302171602e-05,
569
- "loss": 0.24,
570
- "step": 40000
571
- },
572
- {
573
- "epoch": 0.675,
574
- "grad_norm": 0.8393011689186096,
575
- "learning_rate": 7.570933431662156e-05,
576
- "loss": 0.2334,
577
- "step": 40500
578
- },
579
- {
580
- "epoch": 0.6833333333333333,
581
- "grad_norm": 1.7267228364944458,
582
- "learning_rate": 7.221977861896105e-05,
583
- "loss": 0.2454,
584
- "step": 41000
585
- },
586
- {
587
- "epoch": 0.6916666666666667,
588
- "grad_norm": 1.5230600833892822,
589
- "learning_rate": 6.878687770638148e-05,
590
- "loss": 0.2291,
591
- "step": 41500
592
- },
593
- {
594
- "epoch": 0.7,
595
- "grad_norm": 0.8894439935684204,
596
- "learning_rate": 6.541313208942333e-05,
597
- "loss": 0.2304,
598
- "step": 42000
599
- },
600
- {
601
- "epoch": 0.7083333333333334,
602
- "grad_norm": 0.6637595891952515,
603
- "learning_rate": 6.210099919015931e-05,
604
- "loss": 0.2256,
605
- "step": 42500
606
- },
607
- {
608
- "epoch": 0.7166666666666667,
609
- "grad_norm": 1.5464119911193848,
610
- "learning_rate": 5.8852891552218674e-05,
611
- "loss": 0.2296,
612
- "step": 43000
613
- },
614
- {
615
- "epoch": 0.725,
616
- "grad_norm": 1.361809492111206,
617
- "learning_rate": 5.567117508350033e-05,
618
- "loss": 0.225,
619
- "step": 43500
620
- },
621
- {
622
- "epoch": 0.7333333333333333,
623
- "grad_norm": 1.100778341293335,
624
- "learning_rate": 5.2558167332855614e-05,
625
- "loss": 0.2171,
626
- "step": 44000
627
- },
628
- {
629
- "epoch": 0.7416666666666667,
630
- "grad_norm": 0.8792382478713989,
631
- "learning_rate": 4.951613580199569e-05,
632
- "loss": 0.2253,
633
- "step": 44500
634
- },
635
- {
636
- "epoch": 0.75,
637
- "grad_norm": 1.008772611618042,
638
- "learning_rate": 4.65472962938525e-05,
639
- "loss": 0.2185,
640
- "step": 45000
641
- },
642
- {
643
- "epoch": 0.7583333333333333,
644
- "grad_norm": 1.769035816192627,
645
- "learning_rate": 4.365381129859762e-05,
646
- "loss": 0.2323,
647
- "step": 45500
648
- },
649
- {
650
- "epoch": 0.7666666666666667,
651
- "grad_norm": 1.0002933740615845,
652
- "learning_rate": 4.0837788418493234e-05,
653
- "loss": 0.2258,
654
- "step": 46000
655
- },
656
- {
657
- "epoch": 0.775,
658
- "grad_norm": 0.6770097613334656,
659
- "learning_rate": 3.810127883272383e-05,
660
- "loss": 0.2237,
661
- "step": 46500
662
- },
663
- {
664
- "epoch": 0.7833333333333333,
665
- "grad_norm": 1.1669566631317139,
666
- "learning_rate": 3.544627580332564e-05,
667
- "loss": 0.2106,
668
- "step": 47000
669
- },
670
- {
671
- "epoch": 0.7916666666666666,
672
- "grad_norm": 0.6947309374809265,
673
- "learning_rate": 3.2874713223303216e-05,
674
- "loss": 0.2198,
675
- "step": 47500
676
- },
677
- {
678
- "epoch": 0.8,
679
- "grad_norm": 0.6739930510520935,
680
- "learning_rate": 3.038846420798978e-05,
681
- "loss": 0.2183,
682
- "step": 48000
683
- },
684
- {
685
- "epoch": 0.8083333333333333,
686
- "grad_norm": 1.489799976348877,
687
- "learning_rate": 2.7989339730678078e-05,
688
- "loss": 0.2189,
689
- "step": 48500
690
- },
691
- {
692
- "epoch": 0.8166666666666667,
693
- "grad_norm": 0.8515140414237976,
694
- "learning_rate": 2.5679087303514894e-05,
695
- "loss": 0.2244,
696
- "step": 49000
697
- },
698
- {
699
- "epoch": 0.825,
700
- "grad_norm": 0.49479931592941284,
701
- "learning_rate": 2.345938970462068e-05,
702
- "loss": 0.2369,
703
- "step": 49500
704
- },
705
- {
706
- "epoch": 0.8333333333333334,
707
- "grad_norm": 0.8055633902549744,
708
- "learning_rate": 2.1331863752360973e-05,
709
- "loss": 0.2217,
710
- "step": 50000
711
- },
712
- {
713
- "epoch": 0.8416666666666667,
714
- "grad_norm": 2.17622447013855,
715
- "learning_rate": 1.9298059127662975e-05,
716
- "loss": 0.2087,
717
- "step": 50500
718
- },
719
- {
720
- "epoch": 0.85,
721
- "grad_norm": 1.8723386526107788,
722
- "learning_rate": 1.7359457245234156e-05,
723
- "loss": 0.223,
724
- "step": 51000
725
- },
726
- {
727
- "epoch": 0.8583333333333333,
728
- "grad_norm": 1.4284367561340332,
729
- "learning_rate": 1.5517470174506246e-05,
730
- "loss": 0.2201,
731
- "step": 51500
732
- },
733
- {
734
- "epoch": 0.8666666666666667,
735
- "grad_norm": 1.5737581253051758,
736
- "learning_rate": 1.3773439611089832e-05,
737
- "loss": 0.224,
738
- "step": 52000
739
- },
740
- {
741
- "epoch": 0.875,
742
- "grad_norm": 1.9173991680145264,
743
- "learning_rate": 1.212863589948883e-05,
744
- "loss": 0.2316,
745
- "step": 52500
746
- },
747
- {
748
- "epoch": 0.8833333333333333,
749
- "grad_norm": 0.9126625657081604,
750
- "learning_rate": 1.058425710778692e-05,
751
- "loss": 0.2099,
752
- "step": 53000
753
- },
754
- {
755
- "epoch": 0.8916666666666667,
756
- "grad_norm": 0.9519773721694946,
757
- "learning_rate": 9.141428154979886e-06,
758
- "loss": 0.2231,
759
- "step": 53500
760
- },
761
- {
762
- "epoch": 0.9,
763
- "grad_norm": 1.7559552192687988,
764
- "learning_rate": 7.801199991589335e-06,
765
- "loss": 0.2203,
766
- "step": 54000
767
- },
768
- {
769
- "epoch": 0.9083333333333333,
770
- "grad_norm": 1.3599870204925537,
771
- "learning_rate": 6.564548834154759e-06,
772
- "loss": 0.2224,
773
- "step": 54500
774
- },
775
- {
776
- "epoch": 0.9166666666666666,
777
- "grad_norm": 1.5323917865753174,
778
- "learning_rate": 5.432375454161458e-06,
779
- "loss": 0.2131,
780
- "step": 55000
781
- },
782
- {
783
- "epoch": 0.925,
784
- "grad_norm": 0.8116886615753174,
785
- "learning_rate": 4.405504521922571e-06,
786
- "loss": 0.2122,
787
- "step": 55500
788
- },
789
- {
790
- "epoch": 0.9333333333333333,
791
- "grad_norm": 0.9112006425857544,
792
- "learning_rate": 3.484684005892502e-06,
793
- "loss": 0.2184,
794
- "step": 56000
795
- },
796
- {
797
- "epoch": 0.9416666666666667,
798
- "grad_norm": 0.6394028663635254,
799
- "learning_rate": 2.6705846278499532e-06,
800
- "loss": 0.238,
801
- "step": 56500
802
- },
803
- {
804
- "epoch": 0.95,
805
- "grad_norm": 0.9545285701751709,
806
- "learning_rate": 1.9637993743470525e-06,
807
- "loss": 0.226,
808
- "step": 57000
809
- },
810
- {
811
- "epoch": 0.9583333333333334,
812
- "grad_norm": 0.7243571877479553,
813
- "learning_rate": 1.36484306478033e-06,
814
- "loss": 0.2236,
815
- "step": 57500
816
- },
817
- {
818
- "epoch": 0.9666666666666667,
819
- "grad_norm": 0.8191093802452087,
820
- "learning_rate": 8.741519763985627e-07,
821
- "loss": 0.217,
822
- "step": 58000
823
- },
824
- {
825
- "epoch": 0.975,
826
- "grad_norm": 1.4871535301208496,
827
- "learning_rate": 4.920835265201595e-07,
828
- "loss": 0.2176,
829
- "step": 58500
830
- },
831
- {
832
- "epoch": 0.9833333333333333,
833
- "grad_norm": 0.9401077628135681,
834
- "learning_rate": 2.1891601219199417e-07,
835
- "loss": 0.2267,
836
- "step": 59000
837
- },
838
- {
839
- "epoch": 0.9916666666666667,
840
- "grad_norm": 1.3500021696090698,
841
- "learning_rate": 5.484840747892461e-08,
842
- "loss": 0.2189,
843
- "step": 59500
844
- },
845
  {
846
  "epoch": 1.0,
847
- "grad_norm": 0.5481218695640564,
848
- "learning_rate": 2.1853199250188025e-13,
849
- "loss": 0.2222,
850
- "step": 60000
851
  },
852
  {
853
  "epoch": 1.0,
854
- "step": 60000,
855
- "total_flos": 6.731455156851671e+17,
856
- "train_loss": 0.2601620175679525,
857
- "train_runtime": 10691.1388,
858
- "train_samples_per_second": 5.612,
859
- "train_steps_per_second": 5.612
860
  }
861
  ],
862
  "logging_steps": 500,
863
- "max_steps": 60000,
864
  "num_input_tokens_seen": 0,
865
  "num_train_epochs": 1,
866
- "save_steps": 10000,
867
  "stateful_callbacks": {
868
  "TrainerControl": {
869
  "args": {
@@ -876,7 +386,7 @@
876
  "attributes": {}
877
  }
878
  },
879
- "total_flos": 6.731455156851671e+17,
880
  "train_batch_size": 1,
881
  "trial_name": null,
882
  "trial_params": null
 
4
  "best_model_checkpoint": null,
5
  "epoch": 1.0,
6
  "eval_steps": 500,
7
+ "global_step": 25000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.02,
14
+ "grad_norm": 1.1523245573043823,
15
+ "learning_rate": 0.00019959999999999997,
16
+ "loss": 0.4793,
17
  "step": 500
18
  },
19
  {
20
+ "epoch": 0.04,
21
+ "grad_norm": 1.207442283630371,
22
+ "learning_rate": 0.0002999219633608753,
23
+ "loss": 0.365,
24
  "step": 1000
25
  },
26
  {
27
+ "epoch": 0.06,
28
+ "grad_norm": 1.608832836151123,
29
+ "learning_rate": 0.0002992943970692375,
30
+ "loss": 0.3408,
31
  "step": 1500
32
  },
33
  {
34
+ "epoch": 0.08,
35
+ "grad_norm": 1.6748807430267334,
36
+ "learning_rate": 0.0002980406381928192,
37
+ "loss": 0.3432,
38
  "step": 2000
39
  },
40
  {
41
+ "epoch": 0.1,
42
+ "grad_norm": 1.1549451351165771,
43
+ "learning_rate": 0.0002961659454320601,
44
+ "loss": 0.3337,
45
  "step": 2500
46
  },
47
  {
48
+ "epoch": 0.12,
49
+ "grad_norm": 1.3943244218826294,
50
+ "learning_rate": 0.0002936781818999006,
51
+ "loss": 0.328,
52
  "step": 3000
53
  },
54
  {
55
+ "epoch": 0.14,
56
+ "grad_norm": 0.8221294283866882,
57
+ "learning_rate": 0.0002905877821411536,
58
+ "loss": 0.3184,
59
  "step": 3500
60
  },
61
  {
62
+ "epoch": 0.16,
63
+ "grad_norm": 0.8499279022216797,
64
+ "learning_rate": 0.00028690770836639715,
65
+ "loss": 0.312,
66
  "step": 4000
67
  },
68
  {
69
+ "epoch": 0.18,
70
+ "grad_norm": 1.1005589962005615,
71
+ "learning_rate": 0.0002826533960839586,
72
+ "loss": 0.3175,
73
  "step": 4500
74
  },
75
  {
76
+ "epoch": 0.2,
77
+ "grad_norm": 1.239676594734192,
78
+ "learning_rate": 0.0002778426893580286,
79
+ "loss": 0.3139,
80
  "step": 5000
81
  },
82
  {
83
+ "epoch": 0.22,
84
+ "grad_norm": 0.5692813396453857,
85
+ "learning_rate": 0.00027249576596445455,
86
+ "loss": 0.3065,
87
  "step": 5500
88
  },
89
  {
90
+ "epoch": 0.24,
91
+ "grad_norm": 0.6223649382591248,
92
+ "learning_rate": 0.00026663505275813633,
93
+ "loss": 0.3015,
94
  "step": 6000
95
  },
96
  {
97
+ "epoch": 0.26,
98
+ "grad_norm": 1.6326464414596558,
99
+ "learning_rate": 0.0002602851316070032,
100
+ "loss": 0.298,
101
  "step": 6500
102
  },
103
  {
104
+ "epoch": 0.28,
105
+ "grad_norm": 0.44571417570114136,
106
+ "learning_rate": 0.0002534726362871166,
107
+ "loss": 0.3043,
108
  "step": 7000
109
  },
110
  {
111
+ "epoch": 0.3,
112
+ "grad_norm": 0.7266321182250977,
113
+ "learning_rate": 0.00024622614077135773,
114
+ "loss": 0.2949,
115
  "step": 7500
116
  },
117
  {
118
+ "epoch": 0.32,
119
+ "grad_norm": 1.133889079093933,
120
+ "learning_rate": 0.00023857603938025494,
121
+ "loss": 0.2826,
122
  "step": 8000
123
  },
124
  {
125
+ "epoch": 0.34,
126
+ "grad_norm": 0.7410082817077637,
127
+ "learning_rate": 0.00023055441929764077,
128
+ "loss": 0.2836,
129
  "step": 8500
130
  },
131
  {
132
+ "epoch": 0.36,
133
+ "grad_norm": 0.5899648070335388,
134
+ "learning_rate": 0.00022219492598585185,
135
+ "loss": 0.2868,
136
  "step": 9000
137
  },
138
  {
139
+ "epoch": 0.38,
140
+ "grad_norm": 1.3609607219696045,
141
+ "learning_rate": 0.00021353262206496714,
142
+ "loss": 0.3002,
143
  "step": 9500
144
  },
145
  {
146
+ "epoch": 0.4,
147
+ "grad_norm": 1.7143217325210571,
148
+ "learning_rate": 0.0002046038402479944,
149
+ "loss": 0.2734,
150
  "step": 10000
151
  },
152
  {
153
+ "epoch": 0.42,
154
+ "grad_norm": 0.9960472583770752,
155
+ "learning_rate": 0.0001954460309488451,
156
+ "loss": 0.2824,
157
  "step": 10500
158
  },
159
  {
160
+ "epoch": 0.44,
161
+ "grad_norm": 0.9902260899543762,
162
+ "learning_rate": 0.00018609760520228364,
163
+ "loss": 0.2802,
164
  "step": 11000
165
  },
166
  {
167
+ "epoch": 0.46,
168
+ "grad_norm": 1.1902357339859009,
169
+ "learning_rate": 0.00017659777355469886,
170
+ "loss": 0.2848,
171
  "step": 11500
172
  },
173
  {
174
+ "epoch": 0.48,
175
+ "grad_norm": 0.7066996097564697,
176
+ "learning_rate": 0.0001669863816014457,
177
+ "loss": 0.2723,
178
  "step": 12000
179
  },
180
  {
181
+ "epoch": 0.5,
182
+ "grad_norm": 0.8586142063140869,
183
+ "learning_rate": 0.00015730374286057098,
184
+ "loss": 0.2661,
185
  "step": 12500
186
  },
187
  {
188
+ "epoch": 0.52,
189
+ "grad_norm": 1.3139828443527222,
190
+ "learning_rate": 0.00014759046968390891,
191
+ "loss": 0.27,
192
  "step": 13000
193
  },
194
  {
195
+ "epoch": 0.54,
196
+ "grad_norm": 2.092033624649048,
197
+ "learning_rate": 0.00013788730291476348,
198
+ "loss": 0.2626,
199
  "step": 13500
200
  },
201
  {
202
+ "epoch": 0.56,
203
+ "grad_norm": 0.6759353876113892,
204
+ "learning_rate": 0.00012823494100665345,
205
+ "loss": 0.2713,
206
  "step": 14000
207
  },
208
  {
209
+ "epoch": 0.58,
210
+ "grad_norm": 0.7745094299316406,
211
+ "learning_rate": 0.0001186738693198545,
212
+ "loss": 0.2659,
213
  "step": 14500
214
  },
215
  {
216
+ "epoch": 0.6,
217
+ "grad_norm": 1.1789864301681519,
218
+ "learning_rate": 0.00010924419031172836,
219
+ "loss": 0.2621,
220
  "step": 15000
221
  },
222
  {
223
+ "epoch": 0.62,
224
+ "grad_norm": 0.7983564138412476,
225
+ "learning_rate": 9.998545533308028e-05,
226
+ "loss": 0.2485,
227
  "step": 15500
228
  },
229
  {
230
+ "epoch": 0.64,
231
+ "grad_norm": 2.2566275596618652,
232
+ "learning_rate": 9.093649873604878e-05,
233
+ "loss": 0.2499,
234
  "step": 16000
235
  },
236
  {
237
+ "epoch": 0.66,
238
+ "grad_norm": 2.405757188796997,
239
+ "learning_rate": 8.213527498933654e-05,
240
+ "loss": 0.2648,
241
  "step": 16500
242
  },
243
  {
244
+ "epoch": 0.68,
245
+ "grad_norm": 0.706387996673584,
246
+ "learning_rate": 7.361869948397888e-05,
247
+ "loss": 0.248,
248
  "step": 17000
249
  },
250
  {
251
+ "epoch": 0.7,
252
+ "grad_norm": 0.9889776110649109,
253
+ "learning_rate": 6.542249369736452e-05,
254
+ "loss": 0.2533,
255
  "step": 17500
256
  },
257
  {
258
+ "epoch": 0.72,
259
+ "grad_norm": 0.3792021572589874,
260
+ "learning_rate": 5.758103536494548e-05,
261
+ "loss": 0.2464,
262
  "step": 18000
263
  },
264
  {
265
+ "epoch": 0.74,
266
+ "grad_norm": 1.4570865631103516,
267
+ "learning_rate": 5.012721428806742e-05,
268
+ "loss": 0.2469,
269
  "step": 18500
270
  },
271
  {
272
+ "epoch": 0.76,
273
+ "grad_norm": 0.3031163811683655,
274
+ "learning_rate": 4.30922943827128e-05,
275
+ "loss": 0.2563,
276
  "step": 19000
277
  },
278
  {
279
+ "epoch": 0.78,
280
+ "grad_norm": 0.5329792499542236,
281
+ "learning_rate": 3.6505782547772205e-05,
282
+ "loss": 0.2409,
283
  "step": 19500
284
  },
285
  {
286
+ "epoch": 0.8,
287
+ "grad_norm": 1.900152325630188,
288
+ "learning_rate": 3.0395304902856126e-05,
289
+ "loss": 0.2413,
290
  "step": 20000
291
  },
292
  {
293
+ "epoch": 0.82,
294
+ "grad_norm": 0.79344642162323,
295
+ "learning_rate": 2.4786490914748508e-05,
296
+ "loss": 0.241,
297
  "step": 20500
298
  },
299
  {
300
+ "epoch": 0.84,
301
+ "grad_norm": 2.6573524475097656,
302
+ "learning_rate": 1.970286589851618e-05,
303
+ "loss": 0.2447,
304
  "step": 21000
305
  },
306
  {
307
+ "epoch": 0.86,
308
+ "grad_norm": 0.92716383934021,
309
+ "learning_rate": 1.516575234416183e-05,
310
+ "loss": 0.2513,
311
  "step": 21500
312
  },
313
  {
314
+ "epoch": 0.88,
315
+ "grad_norm": 0.8475908041000366,
316
+ "learning_rate": 1.1194180482690935e-05,
317
+ "loss": 0.2425,
318
  "step": 22000
319
  },
320
  {
321
+ "epoch": 0.9,
322
+ "grad_norm": 0.6743385195732117,
323
+ "learning_rate": 7.804808466709245e-06,
324
+ "loss": 0.2372,
325
  "step": 22500
326
  },
327
  {
328
+ "epoch": 0.92,
329
+ "grad_norm": 0.7676027417182922,
330
+ "learning_rate": 5.011852500341956e-06,
331
+ "loss": 0.2429,
332
  "step": 23000
333
  },
334
  {
335
+ "epoch": 0.94,
336
+ "grad_norm": 2.600247621536255,
337
+ "learning_rate": 2.827027211532812e-06,
338
+ "loss": 0.2351,
339
  "step": 23500
340
  },
341
  {
342
+ "epoch": 0.96,
343
+ "grad_norm": 0.2377513349056244,
344
+ "learning_rate": 1.2594965168235604e-06,
345
+ "loss": 0.2464,
346
  "step": 24000
347
  },
348
  {
349
+ "epoch": 0.98,
350
+ "grad_norm": 3.111140012741089,
351
+ "learning_rate": 3.1583518470324476e-07,
352
+ "loss": 0.2387,
353
  "step": 24500
354
  },
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
355
  {
356
  "epoch": 1.0,
357
+ "grad_norm": 1.134462833404541,
358
+ "learning_rate": 1.2587443087852533e-12,
359
+ "loss": 0.2547,
360
+ "step": 25000
361
  },
362
  {
363
  "epoch": 1.0,
364
+ "step": 25000,
365
+ "total_flos": 2.8066019659471258e+17,
366
+ "train_loss": 0.2806466256713867,
367
+ "train_runtime": 4375.9007,
368
+ "train_samples_per_second": 5.713,
369
+ "train_steps_per_second": 5.713
370
  }
371
  ],
372
  "logging_steps": 500,
373
+ "max_steps": 25000,
374
  "num_input_tokens_seen": 0,
375
  "num_train_epochs": 1,
376
+ "save_steps": 12500,
377
  "stateful_callbacks": {
378
  "TrainerControl": {
379
  "args": {
 
386
  "attributes": {}
387
  }
388
  },
389
+ "total_flos": 2.8066019659471258e+17,
390
  "train_batch_size": 1,
391
  "trial_name": null,
392
  "trial_params": null