{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 209.0,
  "eval_steps": 500,
  "global_step": 78375,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 5.3125,
      "learning_rate": 9e-06,
      "loss": 1.3367,
      "step": 10
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 3.703125,
      "learning_rate": 1.9e-05,
      "loss": 1.1824,
      "step": 20
    },
    {
      "epoch": 0.08,
      "grad_norm": 36.5,
      "learning_rate": 2.9000000000000004e-05,
      "loss": 1.099,
      "step": 30
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 27.625,
      "learning_rate": 3.9e-05,
      "loss": 1.0526,
      "step": 40
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 24.25,
      "learning_rate": 4.9000000000000005e-05,
      "loss": 0.9671,
      "step": 50
    },
    {
      "epoch": 0.16,
      "grad_norm": 6.15625,
      "learning_rate": 5.9e-05,
      "loss": 0.8796,
      "step": 60
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 51.25,
      "learning_rate": 6.900000000000001e-05,
      "loss": 0.8943,
      "step": 70
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 17.125,
      "learning_rate": 7.9e-05,
      "loss": 1.0641,
      "step": 80
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.4375,
      "learning_rate": 8.9e-05,
      "loss": 0.7461,
      "step": 90
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 32.25,
      "learning_rate": 9.900000000000001e-05,
      "loss": 0.794,
      "step": 100
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 9.5625,
      "learning_rate": 0.000109,
      "loss": 0.7961,
      "step": 110
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.3125,
      "learning_rate": 0.00011899999999999999,
      "loss": 0.7733,
      "step": 120
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00012900000000000002,
      "loss": 0.7313,
      "step": 130
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 27.75,
      "learning_rate": 0.00013900000000000002,
      "loss": 0.7616,
      "step": 140
    },
    {
      "epoch": 0.4,
      "grad_norm": 6.5,
      "learning_rate": 0.000149,
      "loss": 0.8072,
      "step": 150
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 13.8125,
      "learning_rate": 0.00015900000000000002,
      "loss": 0.7331,
      "step": 160
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 11.625,
      "learning_rate": 0.00016900000000000002,
      "loss": 0.743,
      "step": 170
    },
    {
      "epoch": 0.48,
      "grad_norm": 24.75,
      "learning_rate": 0.000179,
      "loss": 0.7827,
      "step": 180
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 37.5,
      "learning_rate": 0.000189,
      "loss": 0.9353,
      "step": 190
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 3.28125,
      "learning_rate": 0.000199,
      "loss": 0.7651,
      "step": 200
    },
    {
      "epoch": 0.56,
      "grad_norm": 8.5625,
      "learning_rate": 0.00020899999999999998,
      "loss": 0.7216,
      "step": 210
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 3.640625,
      "learning_rate": 0.000219,
      "loss": 0.6977,
      "step": 220
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 7.5,
      "learning_rate": 0.000229,
      "loss": 0.6921,
      "step": 230
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00023899999999999998,
      "loss": 0.6739,
      "step": 240
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 9.5,
      "learning_rate": 0.000249,
      "loss": 0.7126,
      "step": 250
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 17.75,
      "learning_rate": 0.000259,
      "loss": 0.7635,
      "step": 260
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00026900000000000003,
      "loss": 0.6687,
      "step": 270
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 1.078125,
      "learning_rate": 0.000279,
      "loss": 0.6598,
      "step": 280
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 5.625,
      "learning_rate": 0.000289,
      "loss": 0.6839,
      "step": 290
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.171875,
      "learning_rate": 0.000299,
      "loss": 0.6751,
      "step": 300
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 3.71875,
      "learning_rate": 0.00030900000000000003,
      "loss": 0.6606,
      "step": 310
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.69921875,
      "learning_rate": 0.000319,
      "loss": 0.6375,
      "step": 320
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00032900000000000003,
      "loss": 0.6087,
      "step": 330
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 3.546875,
      "learning_rate": 0.00033900000000000005,
      "loss": 0.6182,
      "step": 340
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 3.921875,
      "learning_rate": 0.00034899999999999997,
      "loss": 0.6035,
      "step": 350
    },
    {
      "epoch": 0.96,
      "grad_norm": 12.5625,
      "learning_rate": 0.000359,
      "loss": 0.625,
      "step": 360
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 6.59375,
      "learning_rate": 0.000369,
      "loss": 0.6316,
      "step": 370
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.6012489199638367,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.2753,
      "eval_samples_per_second": 1.557,
      "eval_steps_per_second": 0.097,
      "step": 375
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 1.3359375,
      "learning_rate": 0.000379,
      "loss": 0.6093,
      "step": 380
    },
    {
      "epoch": 1.04,
      "grad_norm": 6.25,
      "learning_rate": 0.000389,
      "loss": 0.6407,
      "step": 390
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 4.875,
      "learning_rate": 0.00039900000000000005,
      "loss": 0.6221,
      "step": 400
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 2.703125,
      "learning_rate": 0.00040899999999999997,
      "loss": 0.5996,
      "step": 410
    },
    {
      "epoch": 1.12,
      "grad_norm": 2.359375,
      "learning_rate": 0.000419,
      "loss": 0.5921,
      "step": 420
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 3.765625,
      "learning_rate": 0.000429,
      "loss": 0.6062,
      "step": 430
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 3.390625,
      "learning_rate": 0.000439,
      "loss": 0.5903,
      "step": 440
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000449,
      "loss": 0.5929,
      "step": 450
    },
    {
      "epoch": 1.2266666666666666,
      "grad_norm": 2.640625,
      "learning_rate": 0.00045900000000000004,
      "loss": 0.5979,
      "step": 460
    },
    {
      "epoch": 1.2533333333333334,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00046899999999999996,
      "loss": 0.5772,
      "step": 470
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000479,
      "loss": 0.6067,
      "step": 480
    },
    {
      "epoch": 1.3066666666666666,
      "grad_norm": 8.9375,
      "learning_rate": 0.000489,
      "loss": 0.5896,
      "step": 490
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 4.0625,
      "learning_rate": 0.000499,
      "loss": 0.6056,
      "step": 500
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0004999999998221101,
      "loss": 0.5801,
      "step": 510
    },
    {
      "epoch": 1.3866666666666667,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0004999999992071816,
      "loss": 0.5629,
      "step": 520
    },
    {
      "epoch": 1.4133333333333333,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0004999999981530188,
      "loss": 0.5518,
      "step": 530
    },
    {
      "epoch": 1.44,
      "grad_norm": 2.671875,
      "learning_rate": 0.0004999999966596214,
      "loss": 0.5552,
      "step": 540
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 1.2890625,
      "learning_rate": 0.0004999999947269895,
      "loss": 0.5581,
      "step": 550
    },
    {
      "epoch": 1.4933333333333334,
      "grad_norm": 2.3125,
      "learning_rate": 0.000499999992355123,
      "loss": 0.5481,
      "step": 560
    },
    {
      "epoch": 1.52,
      "grad_norm": 2.359375,
      "learning_rate": 0.000499999989544022,
      "loss": 0.5408,
      "step": 570
    },
    {
      "epoch": 1.5466666666666666,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0004999999862936865,
      "loss": 0.5321,
      "step": 580
    },
    {
      "epoch": 1.5733333333333333,
      "grad_norm": 2.0,
      "learning_rate": 0.0004999999826041164,
      "loss": 0.5273,
      "step": 590
    },
    {
      "epoch": 1.6,
      "grad_norm": 2.015625,
      "learning_rate": 0.0004999999784753119,
      "loss": 0.5224,
      "step": 600
    },
    {
      "epoch": 1.6266666666666667,
      "grad_norm": 1.71875,
      "learning_rate": 0.000499999973907273,
      "loss": 0.5028,
      "step": 610
    },
    {
      "epoch": 1.6533333333333333,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004999999688999994,
      "loss": 0.5226,
      "step": 620
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 2.25,
      "learning_rate": 0.0004999999634534915,
      "loss": 0.5117,
      "step": 630
    },
    {
      "epoch": 1.7066666666666666,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0004999999575677489,
      "loss": 0.5115,
      "step": 640
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 2.125,
      "learning_rate": 0.0004999999512427719,
      "loss": 0.531,
      "step": 650
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.9375,
      "learning_rate": 0.0004999999444785606,
      "loss": 0.5313,
      "step": 660
    },
    {
      "epoch": 1.7866666666666666,
      "grad_norm": 1.796875,
      "learning_rate": 0.0004999999372751148,
      "loss": 0.5266,
      "step": 670
    },
    {
      "epoch": 1.8133333333333335,
      "grad_norm": 1.5625,
      "learning_rate": 0.0004999999296324346,
      "loss": 0.5099,
      "step": 680
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 2.390625,
      "learning_rate": 0.0004999999215505199,
      "loss": 0.5172,
      "step": 690
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0004999999130293709,
      "loss": 0.5121,
      "step": 700
    },
    {
      "epoch": 1.8933333333333333,
      "grad_norm": 1.234375,
      "learning_rate": 0.0004999999040689874,
      "loss": 0.5034,
      "step": 710
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004999998946693697,
      "loss": 0.5201,
      "step": 720
    },
    {
      "epoch": 1.9466666666666668,
      "grad_norm": 1.65625,
      "learning_rate": 0.0004999998848305176,
      "loss": 0.507,
      "step": 730
    },
    {
      "epoch": 1.9733333333333334,
      "grad_norm": 1.171875,
      "learning_rate": 0.000499999874552431,
      "loss": 0.5157,
      "step": 740
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.765625,
      "learning_rate": 0.0004999998638351102,
      "loss": 0.5026,
      "step": 750
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.518104076385498,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.1096,
      "eval_samples_per_second": 1.583,
      "eval_steps_per_second": 0.099,
      "step": 750
    },
    {
      "epoch": 2.026666666666667,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0004999998526785551,
      "loss": 0.5192,
      "step": 760
    },
    {
      "epoch": 2.0533333333333332,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0004999998410827658,
      "loss": 0.5238,
      "step": 770
    },
    {
      "epoch": 2.08,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0004999998290477421,
      "loss": 0.5122,
      "step": 780
    },
    {
      "epoch": 2.1066666666666665,
      "grad_norm": 1.921875,
      "learning_rate": 0.0004999998165734843,
      "loss": 0.5049,
      "step": 790
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004999998036599923,
      "loss": 0.5085,
      "step": 800
    },
    {
      "epoch": 2.16,
      "grad_norm": 1.0546875,
      "learning_rate": 0.000499999790307266,
      "loss": 0.5109,
      "step": 810
    },
    {
      "epoch": 2.1866666666666665,
      "grad_norm": 1.34375,
      "learning_rate": 0.0004999997765153056,
      "loss": 0.5024,
      "step": 820
    },
    {
      "epoch": 2.2133333333333334,
      "grad_norm": 1.203125,
      "learning_rate": 0.0004999997622841109,
      "loss": 0.4982,
      "step": 830
    },
    {
      "epoch": 2.24,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0004999997476136823,
      "loss": 0.4989,
      "step": 840
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004999997325040196,
      "loss": 0.5008,
      "step": 850
    },
    {
      "epoch": 2.2933333333333334,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0004999997169551227,
      "loss": 0.4922,
      "step": 860
    },
    {
      "epoch": 2.32,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0004999997009669918,
      "loss": 0.4957,
      "step": 870
    },
    {
      "epoch": 2.3466666666666667,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004999996845396269,
      "loss": 0.5048,
      "step": 880
    },
    {
      "epoch": 2.3733333333333335,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004999996676730281,
      "loss": 0.4992,
      "step": 890
    },
    {
      "epoch": 2.4,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0004999996503671952,
      "loss": 0.4932,
      "step": 900
    },
    {
      "epoch": 2.4266666666666667,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0004999996326221284,
      "loss": 0.4977,
      "step": 910
    },
    {
      "epoch": 2.453333333333333,
      "grad_norm": 2.140625,
      "learning_rate": 0.0004999996144378279,
      "loss": 0.5019,
      "step": 920
    },
    {
      "epoch": 2.48,
      "grad_norm": 2.3125,
      "learning_rate": 0.0004999995958142933,
      "loss": 0.508,
      "step": 930
    },
    {
      "epoch": 2.506666666666667,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000499999576751525,
      "loss": 0.4981,
      "step": 940
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000499999557249523,
      "loss": 0.4856,
      "step": 950
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000499999537308287,
      "loss": 0.4876,
      "step": 960
    },
    {
      "epoch": 2.586666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0004999995169278174,
      "loss": 0.4812,
      "step": 970
    },
    {
      "epoch": 2.6133333333333333,
      "grad_norm": 0.140625,
      "learning_rate": 0.0004999994961081142,
      "loss": 0.4651,
      "step": 980
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004999994748491773,
      "loss": 0.4687,
      "step": 990
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004999994531510067,
      "loss": 0.4854,
      "step": 1000
    },
    {
      "epoch": 2.6933333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0004999994310136025,
      "loss": 0.4672,
      "step": 1010
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": 0.80078125,
      "learning_rate": 0.0004999994084369649,
      "loss": 0.4839,
      "step": 1020
    },
    {
      "epoch": 2.7466666666666666,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004999993854210938,
      "loss": 0.4919,
      "step": 1030
    },
    {
      "epoch": 2.7733333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004999993619659892,
      "loss": 0.4968,
      "step": 1040
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0004999993380716512,
      "loss": 0.4806,
      "step": 1050
    },
    {
      "epoch": 2.8266666666666667,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004999993137380798,
      "loss": 0.4736,
      "step": 1060
    },
    {
      "epoch": 2.8533333333333335,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004999992889652751,
      "loss": 0.4831,
      "step": 1070
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004999992637532371,
      "loss": 0.4691,
      "step": 1080
    },
    {
      "epoch": 2.9066666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004999992381019659,
      "loss": 0.4713,
      "step": 1090
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0004999992120114614,
      "loss": 0.4727,
      "step": 1100
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004999991854817238,
      "loss": 0.4699,
      "step": 1110
    },
    {
      "epoch": 2.986666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999991585127532,
      "loss": 0.4851,
      "step": 1120
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.4860386550426483,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.2604,
      "eval_samples_per_second": 1.559,
      "eval_steps_per_second": 0.097,
      "step": 1125
    },
    {
      "epoch": 3.013333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004999991311045494,
      "loss": 0.4724,
      "step": 1130
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.421875,
      "learning_rate": 0.0004999991032571126,
      "loss": 0.496,
      "step": 1140
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004999990749704429,
      "loss": 0.4826,
      "step": 1150
    },
    {
      "epoch": 3.0933333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999990462445403,
      "loss": 0.4802,
      "step": 1160
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004999990170794047,
      "loss": 0.4735,
      "step": 1170
    },
    {
      "epoch": 3.1466666666666665,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004999989874750365,
      "loss": 0.4807,
      "step": 1180
    },
    {
      "epoch": 3.1733333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004999989574314354,
      "loss": 0.4713,
      "step": 1190
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004999989269486016,
      "loss": 0.4694,
      "step": 1200
    },
    {
      "epoch": 3.2266666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999988960265353,
      "loss": 0.4661,
      "step": 1210
    },
    {
      "epoch": 3.2533333333333334,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0004999988646652362,
      "loss": 0.4645,
      "step": 1220
    },
    {
      "epoch": 3.2800000000000002,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999988328647047,
      "loss": 0.4779,
      "step": 1230
    },
    {
      "epoch": 3.3066666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004999988006249407,
      "loss": 0.4581,
      "step": 1240
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004999987679459442,
      "loss": 0.4728,
      "step": 1250
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004999987348277154,
      "loss": 0.4756,
      "step": 1260
    },
    {
      "epoch": 3.3866666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004999987012702543,
      "loss": 0.4663,
      "step": 1270
    },
    {
      "epoch": 3.413333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004999986672735608,
      "loss": 0.4698,
      "step": 1280
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004999986328376352,
      "loss": 0.4722,
      "step": 1290
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004999985979624776,
      "loss": 0.4819,
      "step": 1300
    },
    {
      "epoch": 3.493333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004999985626480877,
      "loss": 0.4719,
      "step": 1310
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000499998526894466,
      "loss": 0.4663,
      "step": 1320
    },
    {
      "epoch": 3.546666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004999984907016121,
      "loss": 0.461,
      "step": 1330
    },
    {
      "epoch": 3.5733333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999984540695266,
      "loss": 0.4602,
      "step": 1340
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004999984169982092,
      "loss": 0.4524,
      "step": 1350
    },
    {
      "epoch": 3.626666666666667,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004999983794876599,
      "loss": 0.4403,
      "step": 1360
    },
    {
      "epoch": 3.6533333333333333,
      "grad_norm": 2.21875,
      "learning_rate": 0.000499998341537879,
      "loss": 0.4621,
      "step": 1370
    },
    {
      "epoch": 3.68,
      "grad_norm": 1.3125,
      "learning_rate": 0.0004999983031488666,
      "loss": 0.4539,
      "step": 1380
    },
    {
      "epoch": 3.7066666666666666,
      "grad_norm": 2.140625,
      "learning_rate": 0.0004999982643206224,
      "loss": 0.4524,
      "step": 1390
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004999982250531469,
      "loss": 0.4715,
      "step": 1400
    },
    {
      "epoch": 3.76,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004999981853464399,
      "loss": 0.471,
      "step": 1410
    },
    {
      "epoch": 3.7866666666666666,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0004999981452005016,
      "loss": 0.4688,
      "step": 1420
    },
    {
      "epoch": 3.8133333333333335,
      "grad_norm": 1.703125,
      "learning_rate": 0.000499998104615332,
      "loss": 0.4543,
      "step": 1430
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0004999980635909312,
      "loss": 0.4591,
      "step": 1440
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0004999980221272993,
      "loss": 0.4572,
      "step": 1450
    },
    {
      "epoch": 3.8933333333333335,
      "grad_norm": 1.75,
      "learning_rate": 0.0004999979802244363,
      "loss": 0.448,
      "step": 1460
    },
    {
      "epoch": 3.92,
      "grad_norm": 1.640625,
      "learning_rate": 0.0004999979378823423,
      "loss": 0.4589,
      "step": 1470
    },
    {
      "epoch": 3.9466666666666668,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0004999978951010174,
      "loss": 0.4516,
      "step": 1480
    },
    {
      "epoch": 3.9733333333333336,
      "grad_norm": 2.09375,
      "learning_rate": 0.0004999978518804616,
      "loss": 0.4633,
      "step": 1490
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004999978082206752,
      "loss": 0.4506,
      "step": 1500
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.46845948696136475,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.1765,
      "eval_samples_per_second": 1.572,
      "eval_steps_per_second": 0.098,
      "step": 1500
    },
    {
      "epoch": 4.026666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000499997764121658,
      "loss": 0.4713,
      "step": 1510
    },
    {
      "epoch": 4.053333333333334,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0004999977195834102,
      "loss": 0.476,
      "step": 1520
    },
    {
      "epoch": 4.08,
      "grad_norm": 0.203125,
      "learning_rate": 0.000499997674605932,
      "loss": 0.4623,
      "step": 1530
    },
    {
      "epoch": 4.1066666666666665,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004999976291892231,
      "loss": 0.4578,
      "step": 1540
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004999975833332841,
      "loss": 0.4594,
      "step": 1550
    },
    {
      "epoch": 4.16,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0004999975370381146,
      "loss": 0.4627,
      "step": 1560
    },
    {
      "epoch": 4.1866666666666665,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000499997490303715,
      "loss": 0.454,
      "step": 1570
    },
    {
      "epoch": 4.213333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004999974431300852,
      "loss": 0.4484,
      "step": 1580
    },
    {
      "epoch": 4.24,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0004999973955172255,
      "loss": 0.4527,
      "step": 1590
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0004999973474651356,
      "loss": 0.4569,
      "step": 1600
    },
    {
      "epoch": 4.293333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000499997298973816,
      "loss": 0.4504,
      "step": 1610
    },
    {
      "epoch": 4.32,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004999972500432665,
      "loss": 0.453,
      "step": 1620
    },
    {
      "epoch": 4.346666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004999972006734874,
      "loss": 0.4619,
      "step": 1630
    },
    {
      "epoch": 4.373333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004999971508644788,
      "loss": 0.4556,
      "step": 1640
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.138671875,
      "learning_rate": 0.0004999971006162405,
      "loss": 0.4528,
      "step": 1650
    },
    {
      "epoch": 4.426666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004999970499287727,
      "loss": 0.4573,
      "step": 1660
    },
    {
      "epoch": 4.453333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004999969988020757,
      "loss": 0.4628,
      "step": 1670
    },
    {
      "epoch": 4.48,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004999969472361494,
      "loss": 0.4668,
      "step": 1680
    },
    {
      "epoch": 4.506666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004999968952309939,
      "loss": 0.4554,
      "step": 1690
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0004999968427866093,
      "loss": 0.4482,
      "step": 1700
    },
    {
      "epoch": 4.5600000000000005,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004999967899029957,
      "loss": 0.4488,
      "step": 1710
    },
    {
      "epoch": 4.586666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004999967365801533,
      "loss": 0.4459,
      "step": 1720
    },
    {
      "epoch": 4.613333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000499996682818082,
      "loss": 0.4307,
      "step": 1730
    },
    {
      "epoch": 4.64,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999966286167821,
      "loss": 0.4364,
      "step": 1740
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0004999965739762534,
      "loss": 0.4518,
      "step": 1750
    },
    {
      "epoch": 4.693333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999965188964964,
      "loss": 0.4348,
      "step": 1760
    },
    {
      "epoch": 4.72,
      "grad_norm": 0.25,
      "learning_rate": 0.0004999964633775108,
      "loss": 0.4517,
      "step": 1770
    },
    {
      "epoch": 4.746666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004999964074192969,
      "loss": 0.454,
      "step": 1780
    },
    {
      "epoch": 4.773333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000499996351021855,
      "loss": 0.4625,
      "step": 1790
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004999962941851847,
      "loss": 0.4496,
      "step": 1800
    },
    {
      "epoch": 4.826666666666666,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0004999962369092865,
      "loss": 0.4427,
      "step": 1810
    },
    {
      "epoch": 4.8533333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004999961791941604,
      "loss": 0.45,
      "step": 1820
    },
    {
      "epoch": 4.88,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004999961210398064,
      "loss": 0.4395,
      "step": 1830
    },
    {
      "epoch": 4.906666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004999960624462248,
      "loss": 0.4425,
      "step": 1840
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004999960034134154,
      "loss": 0.4431,
      "step": 1850
    },
    {
      "epoch": 4.96,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004999959439413786,
      "loss": 0.4409,
      "step": 1860
    },
    {
      "epoch": 4.986666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0004999958840301145,
      "loss": 0.4585,
      "step": 1870
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.46095505356788635,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.1877,
      "eval_samples_per_second": 1.571,
      "eval_steps_per_second": 0.098,
      "step": 1875
    },
    {
      "epoch": 5.013333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004999958236796229,
      "loss": 0.4451,
      "step": 1880
    },
    {
      "epoch": 5.04,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0004999957628899042,
      "loss": 0.4681,
      "step": 1890
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004999957016609583,
      "loss": 0.4541,
      "step": 1900
    },
    {
      "epoch": 5.093333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0004999956399927855,
      "loss": 0.4496,
      "step": 1910
    },
    {
      "epoch": 5.12,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004999955778853859,
      "loss": 0.4455,
      "step": 1920
    },
    {
      "epoch": 5.1466666666666665,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004999955153387594,
      "loss": 0.4515,
      "step": 1930
    },
    {
      "epoch": 5.173333333333334,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004999954523529064,
      "loss": 0.4437,
      "step": 1940
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004999953889278267,
      "loss": 0.4414,
      "step": 1950
    },
    {
      "epoch": 5.226666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004999953250635206,
      "loss": 0.438,
      "step": 1960
    },
    {
      "epoch": 5.253333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004999952607599883,
      "loss": 0.4386,
      "step": 1970
    },
    {
      "epoch": 5.28,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004999951960172296,
      "loss": 0.4534,
      "step": 1980
    },
    {
      "epoch": 5.306666666666667,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0004999951308352449,
      "loss": 0.4333,
      "step": 1990
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0004999950652140343,
      "loss": 0.4482,
      "step": 2000
    },
    {
      "epoch": 5.36,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004999949991535978,
      "loss": 0.4479,
      "step": 2010
    },
    {
      "epoch": 5.386666666666667,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0004999949326539354,
      "loss": 0.4409,
      "step": 2020
    },
    {
      "epoch": 5.413333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0004999948657150475,
      "loss": 0.4463,
      "step": 2030
    },
    {
      "epoch": 5.44,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.000499994798336934,
      "loss": 0.4486,
      "step": 2040
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999947305195953,
      "loss": 0.4563,
      "step": 2050
    },
    {
      "epoch": 5.493333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0004999946622630311,
      "loss": 0.4465,
      "step": 2060
    },
    {
      "epoch": 5.52,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004999945935672418,
      "loss": 0.4424,
      "step": 2070
    },
    {
      "epoch": 5.546666666666667,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0004999945244322276,
      "loss": 0.4368,
      "step": 2080
    },
    {
      "epoch": 5.573333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004999944548579883,
      "loss": 0.4377,
      "step": 2090
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004999943848445243,
      "loss": 0.4293,
      "step": 2100
    },
    {
      "epoch": 5.626666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004999943143918357,
      "loss": 0.4199,
      "step": 2110
    },
    {
      "epoch": 5.653333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004999942434999224,
      "loss": 0.4383,
      "step": 2120
    },
    {
      "epoch": 5.68,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004999941721687848,
      "loss": 0.4292,
      "step": 2130
    },
    {
      "epoch": 5.706666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0004999941003984229,
      "loss": 0.4291,
      "step": 2140
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004999940281888368,
      "loss": 0.4488,
      "step": 2150
    },
    {
      "epoch": 5.76,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004999939555400266,
      "loss": 0.4472,
      "step": 2160
    },
    {
      "epoch": 5.786666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004999938824519926,
      "loss": 0.4481,
      "step": 2170
    },
    {
      "epoch": 5.8133333333333335,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004999938089247347,
      "loss": 0.4325,
      "step": 2180
    },
    {
      "epoch": 5.84,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0004999937349582531,
      "loss": 0.4368,
      "step": 2190
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004999936605525481,
      "loss": 0.4358,
      "step": 2200
    },
    {
      "epoch": 5.8933333333333335,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004999935857076197,
      "loss": 0.4272,
      "step": 2210
    },
    {
      "epoch": 5.92,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004999935104234679,
      "loss": 0.4382,
      "step": 2220
    },
    {
      "epoch": 5.946666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004999934347000931,
      "loss": 0.4313,
      "step": 2230
    },
    {
      "epoch": 5.973333333333334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004999933585374953,
      "loss": 0.4428,
      "step": 2240
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004999932819356745,
      "loss": 0.43,
      "step": 2250
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.45286816358566284,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9926,
      "eval_samples_per_second": 1.456,
      "eval_steps_per_second": 0.091,
      "step": 2250
    },
    {
      "epoch": 6.026666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004999932048946311,
      "loss": 0.4507,
      "step": 2260
    },
    {
      "epoch": 6.053333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000499993127414365,
      "loss": 0.4542,
      "step": 2270
    },
    {
      "epoch": 6.08,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0004999930494948765,
      "loss": 0.4414,
      "step": 2280
    },
    {
      "epoch": 6.1066666666666665,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0004999929711361657,
      "loss": 0.437,
      "step": 2290
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0004999928923382327,
      "loss": 0.4372,
      "step": 2300
    },
    {
      "epoch": 6.16,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004999928131010777,
      "loss": 0.4412,
      "step": 2310
    },
    {
      "epoch": 6.1866666666666665,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0004999927334247007,
      "loss": 0.4339,
      "step": 2320
    },
    {
      "epoch": 6.213333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004999926533091019,
      "loss": 0.4269,
      "step": 2330
    },
    {
      "epoch": 6.24,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004999925727542816,
      "loss": 0.4314,
      "step": 2340
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004999924917602397,
      "loss": 0.4379,
      "step": 2350
    },
    {
      "epoch": 6.293333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004999924103269765,
      "loss": 0.4318,
      "step": 2360
    },
    {
      "epoch": 6.32,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004999923284544921,
      "loss": 0.4326,
      "step": 2370
    },
    {
      "epoch": 6.346666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004999922461427867,
      "loss": 0.4407,
      "step": 2380
    },
    {
      "epoch": 6.373333333333333,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004999921633918604,
      "loss": 0.4351,
      "step": 2390
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004999920802017132,
      "loss": 0.4329,
      "step": 2400
    },
    {
      "epoch": 6.426666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004999919965723455,
      "loss": 0.4373,
      "step": 2410
    },
    {
      "epoch": 6.453333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004999919125037572,
      "loss": 0.4424,
      "step": 2420
    },
    {
      "epoch": 6.48,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004999918279959487,
      "loss": 0.4453,
      "step": 2430
    },
    {
      "epoch": 6.506666666666667,
      "grad_norm": 0.265625,
      "learning_rate": 0.00049999174304892,
      "loss": 0.4357,
      "step": 2440
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999916576626712,
      "loss": 0.4293,
      "step": 2450
    },
    {
      "epoch": 6.5600000000000005,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004999915718372026,
      "loss": 0.4304,
      "step": 2460
    },
    {
      "epoch": 6.586666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004999914855725142,
      "loss": 0.4263,
      "step": 2470
    },
    {
      "epoch": 6.613333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999913988686063,
      "loss": 0.4124,
      "step": 2480
    },
    {
      "epoch": 6.64,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000499991311725479,
      "loss": 0.4182,
      "step": 2490
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004999912241431323,
      "loss": 0.4334,
      "step": 2500
    },
    {
      "epoch": 6.693333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004999911361215666,
      "loss": 0.4161,
      "step": 2510
    },
    {
      "epoch": 6.72,
      "grad_norm": 0.1455078125,
      "learning_rate": 0.0004999910476607819,
      "loss": 0.4329,
      "step": 2520
    },
    {
      "epoch": 6.746666666666667,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0004999909587607784,
      "loss": 0.435,
      "step": 2530
    },
    {
      "epoch": 6.773333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004999908694215561,
      "loss": 0.4441,
      "step": 2540
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004999907796431155,
      "loss": 0.4312,
      "step": 2550
    },
    {
      "epoch": 6.826666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004999906894254566,
      "loss": 0.4237,
      "step": 2560
    },
    {
      "epoch": 6.8533333333333335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004999905987685793,
      "loss": 0.43,
      "step": 2570
    },
    {
      "epoch": 6.88,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0004999905076724842,
      "loss": 0.4213,
      "step": 2580
    },
    {
      "epoch": 6.906666666666666,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004999904161371711,
      "loss": 0.4239,
      "step": 2590
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0004999903241626404,
      "loss": 0.4259,
      "step": 2600
    },
    {
      "epoch": 6.96,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999902317488921,
      "loss": 0.4224,
      "step": 2610
    },
    {
      "epoch": 6.986666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004999901388959264,
      "loss": 0.4405,
      "step": 2620
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.44747602939605713,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6989,
      "eval_samples_per_second": 1.495,
      "eval_steps_per_second": 0.093,
      "step": 2625
    },
    {
      "epoch": 7.013333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999900456037436,
      "loss": 0.4268,
      "step": 2630
    },
    {
      "epoch": 7.04,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004999899518723436,
      "loss": 0.4506,
      "step": 2640
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0004999898577017269,
      "loss": 0.4371,
      "step": 2650
    },
    {
      "epoch": 7.093333333333334,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004999897630918933,
      "loss": 0.4329,
      "step": 2660
    },
    {
      "epoch": 7.12,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004999896680428433,
      "loss": 0.4283,
      "step": 2670
    },
    {
      "epoch": 7.1466666666666665,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004999895725545769,
      "loss": 0.4332,
      "step": 2680
    },
    {
      "epoch": 7.173333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004999894766270943,
      "loss": 0.426,
      "step": 2690
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004999893802603955,
      "loss": 0.4249,
      "step": 2700
    },
    {
      "epoch": 7.226666666666667,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004999892834544809,
      "loss": 0.421,
      "step": 2710
    },
    {
      "epoch": 7.253333333333333,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004999891862093506,
      "loss": 0.421,
      "step": 2720
    },
    {
      "epoch": 7.28,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004999890885250049,
      "loss": 0.4372,
      "step": 2730
    },
    {
      "epoch": 7.306666666666667,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004999889904014436,
      "loss": 0.4163,
      "step": 2740
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004999888918386673,
      "loss": 0.4308,
      "step": 2750
    },
    {
      "epoch": 7.36,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004999887928366759,
      "loss": 0.4294,
      "step": 2760
    },
    {
      "epoch": 7.386666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004999886933954697,
      "loss": 0.4238,
      "step": 2770
    },
    {
      "epoch": 7.413333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004999885935150488,
      "loss": 0.4291,
      "step": 2780
    },
    {
      "epoch": 7.44,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004999884931954134,
      "loss": 0.4322,
      "step": 2790
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004999883924365635,
      "loss": 0.4398,
      "step": 2800
    },
    {
      "epoch": 7.493333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0004999882912384997,
      "loss": 0.4289,
      "step": 2810
    },
    {
      "epoch": 7.52,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004999881896012219,
      "loss": 0.4269,
      "step": 2820
    },
    {
      "epoch": 7.546666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004999880875247303,
      "loss": 0.4211,
      "step": 2830
    },
    {
      "epoch": 7.573333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0004999879850090251,
      "loss": 0.4223,
      "step": 2840
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0004999878820541064,
      "loss": 0.4124,
      "step": 2850
    },
    {
      "epoch": 7.626666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0004999877786599746,
      "loss": 0.406,
      "step": 2860
    },
    {
      "epoch": 7.653333333333333,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0004999876748266296,
      "loss": 0.4233,
      "step": 2870
    },
    {
      "epoch": 7.68,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004999875705540718,
      "loss": 0.4137,
      "step": 2880
    },
    {
      "epoch": 7.706666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004999874658423013,
      "loss": 0.4137,
      "step": 2890
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004999873606913182,
      "loss": 0.4338,
      "step": 2900
    },
    {
      "epoch": 7.76,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0004999872551011228,
      "loss": 0.4325,
      "step": 2910
    },
    {
      "epoch": 7.786666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004999871490717153,
      "loss": 0.4326,
      "step": 2920
    },
    {
      "epoch": 7.8133333333333335,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999870426030958,
      "loss": 0.417,
      "step": 2930
    },
    {
      "epoch": 7.84,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004999869356952645,
      "loss": 0.4204,
      "step": 2940
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004999868283482217,
      "loss": 0.4184,
      "step": 2950
    },
    {
      "epoch": 7.8933333333333335,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004999867205619675,
      "loss": 0.4122,
      "step": 2960
    },
    {
      "epoch": 7.92,
      "grad_norm": 0.25,
      "learning_rate": 0.0004999866123365021,
      "loss": 0.4223,
      "step": 2970
    },
    {
      "epoch": 7.946666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004999865036718257,
      "loss": 0.4169,
      "step": 2980
    },
    {
      "epoch": 7.973333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0004999863945679383,
      "loss": 0.4285,
      "step": 2990
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004999862850248405,
      "loss": 0.4152,
      "step": 3000
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.44355833530426025,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1914,
      "eval_samples_per_second": 1.43,
      "eval_steps_per_second": 0.089,
      "step": 3000
    },
    {
      "epoch": 8.026666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004999861750425322,
      "loss": 0.4366,
      "step": 3010
    },
    {
      "epoch": 8.053333333333333,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0004999860646210136,
      "loss": 0.4397,
      "step": 3020
    },
    {
      "epoch": 8.08,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000499985953760285,
      "loss": 0.4271,
      "step": 3030
    },
    {
      "epoch": 8.106666666666667,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0004999858424603465,
      "loss": 0.424,
      "step": 3040
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004999857307211984,
      "loss": 0.4228,
      "step": 3050
    },
    {
      "epoch": 8.16,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004999856185428407,
      "loss": 0.426,
      "step": 3060
    },
    {
      "epoch": 8.186666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0004999855059252739,
      "loss": 0.4195,
      "step": 3070
    },
    {
      "epoch": 8.213333333333333,
      "grad_norm": 0.625,
      "learning_rate": 0.0004999853928684979,
      "loss": 0.4123,
      "step": 3080
    },
    {
      "epoch": 8.24,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004999852793725131,
      "loss": 0.4175,
      "step": 3090
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004999851654373197,
      "loss": 0.4235,
      "step": 3100
    },
    {
      "epoch": 8.293333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004999850510629177,
      "loss": 0.4169,
      "step": 3110
    },
    {
      "epoch": 8.32,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999849362493074,
      "loss": 0.4186,
      "step": 3120
    },
    {
      "epoch": 8.346666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0004999848209964891,
      "loss": 0.4257,
      "step": 3130
    },
    {
      "epoch": 8.373333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004999847053044629,
      "loss": 0.4201,
      "step": 3140
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0004999845891732291,
      "loss": 0.4195,
      "step": 3150
    },
    {
      "epoch": 8.426666666666666,
      "grad_norm": 0.484375,
      "learning_rate": 0.0004999844726027878,
      "loss": 0.4223,
      "step": 3160
    },
    {
      "epoch": 8.453333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004999843555931392,
      "loss": 0.4295,
      "step": 3170
    },
    {
      "epoch": 8.48,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004999842381442837,
      "loss": 0.4305,
      "step": 3180
    },
    {
      "epoch": 8.506666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999841202562212,
      "loss": 0.4225,
      "step": 3190
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0004999840019289521,
      "loss": 0.4157,
      "step": 3200
    },
    {
      "epoch": 8.56,
      "grad_norm": 0.8125,
      "learning_rate": 0.0004999838831624767,
      "loss": 0.416,
      "step": 3210
    },
    {
      "epoch": 8.586666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004999837639567949,
      "loss": 0.4125,
      "step": 3220
    },
    {
      "epoch": 8.613333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004999836443119072,
      "loss": 0.3995,
      "step": 3230
    },
    {
      "epoch": 8.64,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004999835242278137,
      "loss": 0.4058,
      "step": 3240
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004999834037045145,
      "loss": 0.4209,
      "step": 3250
    },
    {
      "epoch": 8.693333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.00049998328274201,
      "loss": 0.4026,
      "step": 3260
    },
    {
      "epoch": 8.72,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004999831613403003,
      "loss": 0.4198,
      "step": 3270
    },
    {
      "epoch": 8.746666666666666,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999830394993857,
      "loss": 0.4213,
      "step": 3280
    },
    {
      "epoch": 8.773333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999829172192664,
      "loss": 0.4307,
      "step": 3290
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0004999827944999426,
      "loss": 0.4184,
      "step": 3300
    },
    {
      "epoch": 8.826666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004999826713414144,
      "loss": 0.41,
      "step": 3310
    },
    {
      "epoch": 8.853333333333333,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004999825477436822,
      "loss": 0.4143,
      "step": 3320
    },
    {
      "epoch": 8.88,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.000499982423706746,
      "loss": 0.4079,
      "step": 3330
    },
    {
      "epoch": 8.906666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004999822992306062,
      "loss": 0.4123,
      "step": 3340
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999821743152629,
      "loss": 0.4128,
      "step": 3350
    },
    {
      "epoch": 8.96,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004999820489607165,
      "loss": 0.4088,
      "step": 3360
    },
    {
      "epoch": 8.986666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004999819231669671,
      "loss": 0.4274,
      "step": 3370
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.4391622543334961,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6475,
      "eval_samples_per_second": 1.503,
      "eval_steps_per_second": 0.094,
      "step": 3375
    },
    {
      "epoch": 9.013333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0004999817969340148,
      "loss": 0.4137,
      "step": 3380
    },
    {
      "epoch": 9.04,
      "grad_norm": 0.3125,
      "learning_rate": 0.00049998167026186,
      "loss": 0.4373,
      "step": 3390
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004999815431505029,
      "loss": 0.4231,
      "step": 3400
    },
    {
      "epoch": 9.093333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004999814155999437,
      "loss": 0.4202,
      "step": 3410
    },
    {
      "epoch": 9.12,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004999812876101827,
      "loss": 0.4158,
      "step": 3420
    },
    {
      "epoch": 9.146666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0004999811591812199,
      "loss": 0.4198,
      "step": 3430
    },
    {
      "epoch": 9.173333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004999810303130557,
      "loss": 0.4149,
      "step": 3440
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004999809010056903,
      "loss": 0.4114,
      "step": 3450
    },
    {
      "epoch": 9.226666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.000499980771259124,
      "loss": 0.408,
      "step": 3460
    },
    {
      "epoch": 9.253333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0004999806410733569,
      "loss": 0.4075,
      "step": 3470
    },
    {
      "epoch": 9.28,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004999805104483892,
      "loss": 0.4256,
      "step": 3480
    },
    {
      "epoch": 9.306666666666667,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0004999803793842212,
      "loss": 0.4041,
      "step": 3490
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004999802478808532,
      "loss": 0.4184,
      "step": 3500
    },
    {
      "epoch": 9.36,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0004999801159382854,
      "loss": 0.4169,
      "step": 3510
    },
    {
      "epoch": 9.386666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004999799835565179,
      "loss": 0.4111,
      "step": 3520
    },
    {
      "epoch": 9.413333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004999798507355512,
      "loss": 0.4168,
      "step": 3530
    },
    {
      "epoch": 9.44,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999797174753852,
      "loss": 0.4196,
      "step": 3540
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004999795837760204,
      "loss": 0.4277,
      "step": 3550
    },
    {
      "epoch": 9.493333333333334,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004999794496374569,
      "loss": 0.4162,
      "step": 3560
    },
    {
      "epoch": 9.52,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999793150596949,
      "loss": 0.4152,
      "step": 3570
    },
    {
      "epoch": 9.546666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999791800427348,
      "loss": 0.4091,
      "step": 3580
    },
    {
      "epoch": 9.573333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0004999790445865767,
      "loss": 0.4096,
      "step": 3590
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000499978908691221,
      "loss": 0.4003,
      "step": 3600
    },
    {
      "epoch": 9.626666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004999787723566677,
      "loss": 0.394,
      "step": 3610
    },
    {
      "epoch": 9.653333333333332,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004999786355829171,
      "loss": 0.4115,
      "step": 3620
    },
    {
      "epoch": 9.68,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004999784983699696,
      "loss": 0.4011,
      "step": 3630
    },
    {
      "epoch": 9.706666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004999783607178254,
      "loss": 0.4015,
      "step": 3640
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004999782226264846,
      "loss": 0.4213,
      "step": 3650
    },
    {
      "epoch": 9.76,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0004999780840959475,
      "loss": 0.4197,
      "step": 3660
    },
    {
      "epoch": 9.786666666666667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0004999779451262145,
      "loss": 0.4209,
      "step": 3670
    },
    {
      "epoch": 9.813333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004999778057172856,
      "loss": 0.4046,
      "step": 3680
    },
    {
      "epoch": 9.84,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999776658691611,
      "loss": 0.4078,
      "step": 3690
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004999775255818414,
      "loss": 0.4054,
      "step": 3700
    },
    {
      "epoch": 9.893333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004999773848553266,
      "loss": 0.4005,
      "step": 3710
    },
    {
      "epoch": 9.92,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004999772436896171,
      "loss": 0.4113,
      "step": 3720
    },
    {
      "epoch": 9.946666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004999771020847129,
      "loss": 0.4048,
      "step": 3730
    },
    {
      "epoch": 9.973333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004999769600406146,
      "loss": 0.4166,
      "step": 3740
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000499976817557322,
      "loss": 0.4035,
      "step": 3750
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.4371285140514374,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.7886,
      "eval_samples_per_second": 1.357,
      "eval_steps_per_second": 0.085,
      "step": 3750
    },
    {
      "epoch": 10.026666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004999766746348358,
      "loss": 0.4254,
      "step": 3760
    },
    {
      "epoch": 10.053333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004999765312731559,
      "loss": 0.4295,
      "step": 3770
    },
    {
      "epoch": 10.08,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0004999763874722827,
      "loss": 0.4154,
      "step": 3780
    },
    {
      "epoch": 10.106666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004999762432322166,
      "loss": 0.4118,
      "step": 3790
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004999760985529575,
      "loss": 0.411,
      "step": 3800
    },
    {
      "epoch": 10.16,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000499975953434506,
      "loss": 0.4143,
      "step": 3810
    },
    {
      "epoch": 10.186666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0004999758078768622,
      "loss": 0.4078,
      "step": 3820
    },
    {
      "epoch": 10.213333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004999756618800263,
      "loss": 0.4006,
      "step": 3830
    },
    {
      "epoch": 10.24,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0004999755154439987,
      "loss": 0.4055,
      "step": 3840
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004999753685687796,
      "loss": 0.412,
      "step": 3850
    },
    {
      "epoch": 10.293333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004999752212543693,
      "loss": 0.4056,
      "step": 3860
    },
    {
      "epoch": 10.32,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004999750735007678,
      "loss": 0.4078,
      "step": 3870
    },
    {
      "epoch": 10.346666666666668,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999749253079756,
      "loss": 0.414,
      "step": 3880
    },
    {
      "epoch": 10.373333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000499974776675993,
      "loss": 0.4082,
      "step": 3890
    },
    {
      "epoch": 10.4,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004999746276048201,
      "loss": 0.4076,
      "step": 3900
    },
    {
      "epoch": 10.426666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004999744780944574,
      "loss": 0.4113,
      "step": 3910
    },
    {
      "epoch": 10.453333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.000499974328144905,
      "loss": 0.4186,
      "step": 3920
    },
    {
      "epoch": 10.48,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004999741777561629,
      "loss": 0.4192,
      "step": 3930
    },
    {
      "epoch": 10.506666666666666,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004999740269282318,
      "loss": 0.4101,
      "step": 3940
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0004999738756611119,
      "loss": 0.4042,
      "step": 3950
    },
    {
      "epoch": 10.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004999737239548032,
      "loss": 0.4049,
      "step": 3960
    },
    {
      "epoch": 10.586666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999735718093062,
      "loss": 0.4018,
      "step": 3970
    },
    {
      "epoch": 10.613333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999734192246212,
      "loss": 0.389,
      "step": 3980
    },
    {
      "epoch": 10.64,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004999732662007482,
      "loss": 0.3956,
      "step": 3990
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0004999731127376877,
      "loss": 0.4102,
      "step": 4000
    },
    {
      "epoch": 10.693333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004999729588354399,
      "loss": 0.3926,
      "step": 4010
    },
    {
      "epoch": 10.72,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000499972804494005,
      "loss": 0.409,
      "step": 4020
    },
    {
      "epoch": 10.746666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999726497133835,
      "loss": 0.4098,
      "step": 4030
    },
    {
      "epoch": 10.773333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004999724944935754,
      "loss": 0.4209,
      "step": 4040
    },
    {
      "epoch": 10.8,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999723388345812,
      "loss": 0.4077,
      "step": 4050
    },
    {
      "epoch": 10.826666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999721827364009,
      "loss": 0.399,
      "step": 4060
    },
    {
      "epoch": 10.853333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000499972026199035,
      "loss": 0.4031,
      "step": 4070
    },
    {
      "epoch": 10.88,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004999718692224838,
      "loss": 0.3974,
      "step": 4080
    },
    {
      "epoch": 10.906666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004999717118067474,
      "loss": 0.4017,
      "step": 4090
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0004999715539518262,
      "loss": 0.403,
      "step": 4100
    },
    {
      "epoch": 10.96,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004999713956577204,
      "loss": 0.3987,
      "step": 4110
    },
    {
      "epoch": 10.986666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004999712369244304,
      "loss": 0.4172,
      "step": 4120
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.43250614404678345,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.9102,
      "eval_samples_per_second": 1.239,
      "eval_steps_per_second": 0.077,
      "step": 4125
    },
    {
      "epoch": 11.013333333333334,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004999710777519563,
      "loss": 0.4041,
      "step": 4130
    },
    {
      "epoch": 11.04,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999709181402986,
      "loss": 0.4272,
      "step": 4140
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004999707580894574,
      "loss": 0.4131,
      "step": 4150
    },
    {
      "epoch": 11.093333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000499970597599433,
      "loss": 0.4102,
      "step": 4160
    },
    {
      "epoch": 11.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.0004999704366702258,
      "loss": 0.4058,
      "step": 4170
    },
    {
      "epoch": 11.146666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000499970275301836,
      "loss": 0.4091,
      "step": 4180
    },
    {
      "epoch": 11.173333333333334,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004999701134942638,
      "loss": 0.4049,
      "step": 4190
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004999699512475096,
      "loss": 0.4017,
      "step": 4200
    },
    {
      "epoch": 11.226666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004999697885615737,
      "loss": 0.3982,
      "step": 4210
    },
    {
      "epoch": 11.253333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0004999696254364564,
      "loss": 0.3979,
      "step": 4220
    },
    {
      "epoch": 11.28,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004999694618721579,
      "loss": 0.4147,
      "step": 4230
    },
    {
      "epoch": 11.306666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004999692978686784,
      "loss": 0.395,
      "step": 4240
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999691334260185,
      "loss": 0.4091,
      "step": 4250
    },
    {
      "epoch": 11.36,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004999689685441781,
      "loss": 0.4059,
      "step": 4260
    },
    {
      "epoch": 11.386666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004999688032231577,
      "loss": 0.4011,
      "step": 4270
    },
    {
      "epoch": 11.413333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004999686374629577,
      "loss": 0.4064,
      "step": 4280
    },
    {
      "epoch": 11.44,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004999684712635782,
      "loss": 0.4103,
      "step": 4290
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0004999683046250196,
      "loss": 0.4174,
      "step": 4300
    },
    {
      "epoch": 11.493333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004999681375472821,
      "loss": 0.4065,
      "step": 4310
    },
    {
      "epoch": 11.52,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0004999679700303661,
      "loss": 0.4056,
      "step": 4320
    },
    {
      "epoch": 11.546666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004999678020742718,
      "loss": 0.399,
      "step": 4330
    },
    {
      "epoch": 11.573333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0004999676336789996,
      "loss": 0.4006,
      "step": 4340
    },
    {
      "epoch": 11.6,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004999674648445496,
      "loss": 0.3914,
      "step": 4350
    },
    {
      "epoch": 11.626666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999672955709223,
      "loss": 0.3851,
      "step": 4360
    },
    {
      "epoch": 11.653333333333332,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004999671258581179,
      "loss": 0.4033,
      "step": 4370
    },
    {
      "epoch": 11.68,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004999669557061368,
      "loss": 0.392,
      "step": 4380
    },
    {
      "epoch": 11.706666666666667,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0004999667851149791,
      "loss": 0.3926,
      "step": 4390
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004999666140846452,
      "loss": 0.4121,
      "step": 4400
    },
    {
      "epoch": 11.76,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004999664426151355,
      "loss": 0.4108,
      "step": 4410
    },
    {
      "epoch": 11.786666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004999662707064503,
      "loss": 0.4104,
      "step": 4420
    },
    {
      "epoch": 11.813333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004999660983585898,
      "loss": 0.3947,
      "step": 4430
    },
    {
      "epoch": 11.84,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004999659255715543,
      "loss": 0.3974,
      "step": 4440
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004999657523453441,
      "loss": 0.3959,
      "step": 4450
    },
    {
      "epoch": 11.893333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004999655786799595,
      "loss": 0.3919,
      "step": 4460
    },
    {
      "epoch": 11.92,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000499965404575401,
      "loss": 0.4014,
      "step": 4470
    },
    {
      "epoch": 11.946666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004999652300316686,
      "loss": 0.3967,
      "step": 4480
    },
    {
      "epoch": 11.973333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0004999650550487628,
      "loss": 0.4073,
      "step": 4490
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004999648796266838,
      "loss": 0.395,
      "step": 4500
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.4319377839565277,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.0057,
      "eval_samples_per_second": 1.333,
      "eval_steps_per_second": 0.083,
      "step": 4500
    },
    {
      "epoch": 12.026666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999647037654321,
      "loss": 0.4159,
      "step": 4510
    },
    {
      "epoch": 12.053333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004999645274650077,
      "loss": 0.4195,
      "step": 4520
    },
    {
      "epoch": 12.08,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004999643507254113,
      "loss": 0.4057,
      "step": 4530
    },
    {
      "epoch": 12.106666666666667,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004999641735466429,
      "loss": 0.4037,
      "step": 4540
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004999639959287029,
      "loss": 0.4022,
      "step": 4550
    },
    {
      "epoch": 12.16,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004999638178715916,
      "loss": 0.4057,
      "step": 4560
    },
    {
      "epoch": 12.186666666666667,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004999636393753093,
      "loss": 0.3987,
      "step": 4570
    },
    {
      "epoch": 12.213333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004999634604398565,
      "loss": 0.3908,
      "step": 4580
    },
    {
      "epoch": 12.24,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004999632810652331,
      "loss": 0.3966,
      "step": 4590
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0004999631012514399,
      "loss": 0.403,
      "step": 4600
    },
    {
      "epoch": 12.293333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000499962920998477,
      "loss": 0.3966,
      "step": 4610
    },
    {
      "epoch": 12.32,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004999627403063446,
      "loss": 0.3994,
      "step": 4620
    },
    {
      "epoch": 12.346666666666668,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004999625591750431,
      "loss": 0.4056,
      "step": 4630
    },
    {
      "epoch": 12.373333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000499962377604573,
      "loss": 0.3989,
      "step": 4640
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.25,
      "learning_rate": 0.0004999621955949344,
      "loss": 0.3981,
      "step": 4650
    },
    {
      "epoch": 12.426666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004999620131461277,
      "loss": 0.4027,
      "step": 4660
    },
    {
      "epoch": 12.453333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0004999618302581531,
      "loss": 0.4103,
      "step": 4670
    },
    {
      "epoch": 12.48,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004999616469310111,
      "loss": 0.4103,
      "step": 4680
    },
    {
      "epoch": 12.506666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.000499961463164702,
      "loss": 0.4022,
      "step": 4690
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.166015625,
      "learning_rate": 0.000499961278959226,
      "loss": 0.3966,
      "step": 4700
    },
    {
      "epoch": 12.56,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004999610943145834,
      "loss": 0.3963,
      "step": 4710
    },
    {
      "epoch": 12.586666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004999609092307749,
      "loss": 0.3937,
      "step": 4720
    },
    {
      "epoch": 12.613333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999607237078003,
      "loss": 0.3806,
      "step": 4730
    },
    {
      "epoch": 12.64,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999605377456602,
      "loss": 0.3876,
      "step": 4740
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.169921875,
      "learning_rate": 0.000499960351344355,
      "loss": 0.4024,
      "step": 4750
    },
    {
      "epoch": 12.693333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004999601645038848,
      "loss": 0.3833,
      "step": 4760
    },
    {
      "epoch": 12.72,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004999599772242502,
      "loss": 0.4003,
      "step": 4770
    },
    {
      "epoch": 12.746666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004999597895054513,
      "loss": 0.4023,
      "step": 4780
    },
    {
      "epoch": 12.773333333333333,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004999596013474885,
      "loss": 0.4123,
      "step": 4790
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004999594127503621,
      "loss": 0.3987,
      "step": 4800
    },
    {
      "epoch": 12.826666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004999592237140727,
      "loss": 0.3897,
      "step": 4810
    },
    {
      "epoch": 12.853333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004999590342386202,
      "loss": 0.3935,
      "step": 4820
    },
    {
      "epoch": 12.88,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004999588443240051,
      "loss": 0.3886,
      "step": 4830
    },
    {
      "epoch": 12.906666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004999586539702279,
      "loss": 0.3931,
      "step": 4840
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004999584631772887,
      "loss": 0.3942,
      "step": 4850
    },
    {
      "epoch": 12.96,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000499958271945188,
      "loss": 0.3909,
      "step": 4860
    },
    {
      "epoch": 12.986666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004999580802739262,
      "loss": 0.4098,
      "step": 4870
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.4278475046157837,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5283,
      "eval_samples_per_second": 1.388,
      "eval_steps_per_second": 0.087,
      "step": 4875
    },
    {
      "epoch": 13.013333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004999578881635034,
      "loss": 0.3957,
      "step": 4880
    },
    {
      "epoch": 13.04,
      "grad_norm": 0.162109375,
      "learning_rate": 0.00049995769561392,
      "loss": 0.4191,
      "step": 4890
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004999575026251765,
      "loss": 0.4041,
      "step": 4900
    },
    {
      "epoch": 13.093333333333334,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000499957309197273,
      "loss": 0.4016,
      "step": 4910
    },
    {
      "epoch": 13.12,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00049995711533021,
      "loss": 0.3984,
      "step": 4920
    },
    {
      "epoch": 13.146666666666667,
      "grad_norm": 0.4609375,
      "learning_rate": 0.000499956921023988,
      "loss": 0.402,
      "step": 4930
    },
    {
      "epoch": 13.173333333333334,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000499956726278607,
      "loss": 0.3974,
      "step": 4940
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0004999565310940675,
      "loss": 0.3933,
      "step": 4950
    },
    {
      "epoch": 13.226666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004999563354703698,
      "loss": 0.3895,
      "step": 4960
    },
    {
      "epoch": 13.253333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004999561394075143,
      "loss": 0.39,
      "step": 4970
    },
    {
      "epoch": 13.28,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004999559429055012,
      "loss": 0.4078,
      "step": 4980
    },
    {
      "epoch": 13.306666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004999557459643313,
      "loss": 0.3872,
      "step": 4990
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004999555485840043,
      "loss": 0.4012,
      "step": 5000
    },
    {
      "epoch": 13.36,
      "grad_norm": 0.76171875,
      "learning_rate": 0.000499955350764521,
      "loss": 0.3969,
      "step": 5010
    },
    {
      "epoch": 13.386666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004999551525058817,
      "loss": 0.393,
      "step": 5020
    },
    {
      "epoch": 13.413333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0004999549538080865,
      "loss": 0.3987,
      "step": 5030
    },
    {
      "epoch": 13.44,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000499954754671136,
      "loss": 0.4015,
      "step": 5040
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004999545550950304,
      "loss": 0.4095,
      "step": 5050
    },
    {
      "epoch": 13.493333333333334,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004999543550797702,
      "loss": 0.3988,
      "step": 5060
    },
    {
      "epoch": 13.52,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004999541546253555,
      "loss": 0.3984,
      "step": 5070
    },
    {
      "epoch": 13.546666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004999539537317869,
      "loss": 0.3913,
      "step": 5080
    },
    {
      "epoch": 13.573333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004999537523990647,
      "loss": 0.392,
      "step": 5090
    },
    {
      "epoch": 13.6,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004999535506271893,
      "loss": 0.3839,
      "step": 5100
    },
    {
      "epoch": 13.626666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004999533484161608,
      "loss": 0.3784,
      "step": 5110
    },
    {
      "epoch": 13.653333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0004999531457659798,
      "loss": 0.3952,
      "step": 5120
    },
    {
      "epoch": 13.68,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004999529426766465,
      "loss": 0.3849,
      "step": 5130
    },
    {
      "epoch": 13.706666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004999527391481614,
      "loss": 0.385,
      "step": 5140
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004999525351805249,
      "loss": 0.4048,
      "step": 5150
    },
    {
      "epoch": 13.76,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004999523307737372,
      "loss": 0.4032,
      "step": 5160
    },
    {
      "epoch": 13.786666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004999521259277987,
      "loss": 0.4031,
      "step": 5170
    },
    {
      "epoch": 13.813333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004999519206427097,
      "loss": 0.3874,
      "step": 5180
    },
    {
      "epoch": 13.84,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004999517149184708,
      "loss": 0.3892,
      "step": 5190
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000499951508755082,
      "loss": 0.3883,
      "step": 5200
    },
    {
      "epoch": 13.893333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000499951302152544,
      "loss": 0.3841,
      "step": 5210
    },
    {
      "epoch": 13.92,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000499951095110857,
      "loss": 0.3938,
      "step": 5220
    },
    {
      "epoch": 13.946666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004999508876300214,
      "loss": 0.39,
      "step": 5230
    },
    {
      "epoch": 13.973333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004999506797100375,
      "loss": 0.3994,
      "step": 5240
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0004999504713509058,
      "loss": 0.3871,
      "step": 5250
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.4258194863796234,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8592,
      "eval_samples_per_second": 1.473,
      "eval_steps_per_second": 0.092,
      "step": 5250
    },
    {
      "epoch": 14.026666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004999502625526265,
      "loss": 0.4094,
      "step": 5260
    },
    {
      "epoch": 14.053333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004999500533152,
      "loss": 0.4122,
      "step": 5270
    },
    {
      "epoch": 14.08,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004999498436386268,
      "loss": 0.3986,
      "step": 5280
    },
    {
      "epoch": 14.106666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004999496335229073,
      "loss": 0.3961,
      "step": 5290
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999494229680415,
      "loss": 0.3944,
      "step": 5300
    },
    {
      "epoch": 14.16,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999492119740303,
      "loss": 0.3984,
      "step": 5310
    },
    {
      "epoch": 14.186666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999490005408736,
      "loss": 0.3919,
      "step": 5320
    },
    {
      "epoch": 14.213333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000499948788668572,
      "loss": 0.3834,
      "step": 5330
    },
    {
      "epoch": 14.24,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004999485763571259,
      "loss": 0.3888,
      "step": 5340
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004999483636065356,
      "loss": 0.3962,
      "step": 5350
    },
    {
      "epoch": 14.293333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004999481504168015,
      "loss": 0.3893,
      "step": 5360
    },
    {
      "epoch": 14.32,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000499947936787924,
      "loss": 0.3928,
      "step": 5370
    },
    {
      "epoch": 14.346666666666668,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004999477227199033,
      "loss": 0.398,
      "step": 5380
    },
    {
      "epoch": 14.373333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00049994750821274,
      "loss": 0.3912,
      "step": 5390
    },
    {
      "epoch": 14.4,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004999472932664343,
      "loss": 0.3915,
      "step": 5400
    },
    {
      "epoch": 14.426666666666666,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004999470778809868,
      "loss": 0.3949,
      "step": 5410
    },
    {
      "epoch": 14.453333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004999468620563976,
      "loss": 0.4025,
      "step": 5420
    },
    {
      "epoch": 14.48,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0004999466457926673,
      "loss": 0.4029,
      "step": 5430
    },
    {
      "epoch": 14.506666666666666,
      "grad_norm": 0.546875,
      "learning_rate": 0.0004999464290897963,
      "loss": 0.3955,
      "step": 5440
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004999462119477848,
      "loss": 0.3895,
      "step": 5450
    },
    {
      "epoch": 14.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999459943666332,
      "loss": 0.3891,
      "step": 5460
    },
    {
      "epoch": 14.586666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000499945776346342,
      "loss": 0.3868,
      "step": 5470
    },
    {
      "epoch": 14.613333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004999455578869116,
      "loss": 0.374,
      "step": 5480
    },
    {
      "epoch": 14.64,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004999453389883423,
      "loss": 0.3799,
      "step": 5490
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004999451196506344,
      "loss": 0.3955,
      "step": 5500
    },
    {
      "epoch": 14.693333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0004999448998737884,
      "loss": 0.377,
      "step": 5510
    },
    {
      "epoch": 14.72,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0004999446796578048,
      "loss": 0.393,
      "step": 5520
    },
    {
      "epoch": 14.746666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004999444590026837,
      "loss": 0.3946,
      "step": 5530
    },
    {
      "epoch": 14.773333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0004999442379084258,
      "loss": 0.4051,
      "step": 5540
    },
    {
      "epoch": 14.8,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999440163750313,
      "loss": 0.3927,
      "step": 5550
    },
    {
      "epoch": 14.826666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004999437944025006,
      "loss": 0.3827,
      "step": 5560
    },
    {
      "epoch": 14.853333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000499943571990834,
      "loss": 0.3866,
      "step": 5570
    },
    {
      "epoch": 14.88,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004999433491400322,
      "loss": 0.382,
      "step": 5580
    },
    {
      "epoch": 14.906666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004999431258500953,
      "loss": 0.3864,
      "step": 5590
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004999429021210238,
      "loss": 0.387,
      "step": 5600
    },
    {
      "epoch": 14.96,
      "grad_norm": 0.21875,
      "learning_rate": 0.000499942677952818,
      "loss": 0.3841,
      "step": 5610
    },
    {
      "epoch": 14.986666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004999424533454785,
      "loss": 0.4025,
      "step": 5620
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.4256788492202759,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.2126,
      "eval_samples_per_second": 1.31,
      "eval_steps_per_second": 0.082,
      "step": 5625
    },
    {
      "epoch": 15.013333333333334,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0004999422282990055,
      "loss": 0.389,
      "step": 5630
    },
    {
      "epoch": 15.04,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004999420028133995,
      "loss": 0.4128,
      "step": 5640
    },
    {
      "epoch": 15.066666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004999417768886608,
      "loss": 0.3985,
      "step": 5650
    },
    {
      "epoch": 15.093333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.00049994155052479,
      "loss": 0.3954,
      "step": 5660
    },
    {
      "epoch": 15.12,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004999413237217873,
      "loss": 0.3912,
      "step": 5670
    },
    {
      "epoch": 15.146666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.000499941096479653,
      "loss": 0.3942,
      "step": 5680
    },
    {
      "epoch": 15.173333333333334,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004999408687983878,
      "loss": 0.3902,
      "step": 5690
    },
    {
      "epoch": 15.2,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004999406406779919,
      "loss": 0.3866,
      "step": 5700
    },
    {
      "epoch": 15.226666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004999404121184658,
      "loss": 0.382,
      "step": 5710
    },
    {
      "epoch": 15.253333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004999401831198098,
      "loss": 0.3827,
      "step": 5720
    },
    {
      "epoch": 15.28,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004999399536820245,
      "loss": 0.4002,
      "step": 5730
    },
    {
      "epoch": 15.306666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004999397238051101,
      "loss": 0.3798,
      "step": 5740
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000499939493489067,
      "loss": 0.3951,
      "step": 5750
    },
    {
      "epoch": 15.36,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004999392627338956,
      "loss": 0.3903,
      "step": 5760
    },
    {
      "epoch": 15.386666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004999390315395965,
      "loss": 0.3862,
      "step": 5770
    },
    {
      "epoch": 15.413333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.00049993879990617,
      "loss": 0.391,
      "step": 5780
    },
    {
      "epoch": 15.44,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004999385678336165,
      "loss": 0.3952,
      "step": 5790
    },
    {
      "epoch": 15.466666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004999383353219364,
      "loss": 0.402,
      "step": 5800
    },
    {
      "epoch": 15.493333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004999381023711299,
      "loss": 0.3905,
      "step": 5810
    },
    {
      "epoch": 15.52,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004999378689811979,
      "loss": 0.3922,
      "step": 5820
    },
    {
      "epoch": 15.546666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0004999376351521403,
      "loss": 0.385,
      "step": 5830
    },
    {
      "epoch": 15.573333333333334,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0004999374008839579,
      "loss": 0.3861,
      "step": 5840
    },
    {
      "epoch": 15.6,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0004999371661766509,
      "loss": 0.3766,
      "step": 5850
    },
    {
      "epoch": 15.626666666666667,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004999369310302197,
      "loss": 0.3724,
      "step": 5860
    },
    {
      "epoch": 15.653333333333332,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004999366954446648,
      "loss": 0.3888,
      "step": 5870
    },
    {
      "epoch": 15.68,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004999364594199865,
      "loss": 0.3783,
      "step": 5880
    },
    {
      "epoch": 15.706666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004999362229561855,
      "loss": 0.3785,
      "step": 5890
    },
    {
      "epoch": 15.733333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004999359860532619,
      "loss": 0.3979,
      "step": 5900
    },
    {
      "epoch": 15.76,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004999357487112163,
      "loss": 0.3969,
      "step": 5910
    },
    {
      "epoch": 15.786666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000499935510930049,
      "loss": 0.3972,
      "step": 5920
    },
    {
      "epoch": 15.813333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004999352727097604,
      "loss": 0.381,
      "step": 5930
    },
    {
      "epoch": 15.84,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000499935034050351,
      "loss": 0.3825,
      "step": 5940
    },
    {
      "epoch": 15.866666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004999347949518213,
      "loss": 0.3812,
      "step": 5950
    },
    {
      "epoch": 15.893333333333333,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004999345554141716,
      "loss": 0.3787,
      "step": 5960
    },
    {
      "epoch": 15.92,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004999343154374023,
      "loss": 0.3875,
      "step": 5970
    },
    {
      "epoch": 15.946666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004999340750215139,
      "loss": 0.383,
      "step": 5980
    },
    {
      "epoch": 15.973333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0004999338341665069,
      "loss": 0.3937,
      "step": 5990
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004999335928723814,
      "loss": 0.3803,
      "step": 6000
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.4223533570766449,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4124,
      "eval_samples_per_second": 1.402,
      "eval_steps_per_second": 0.088,
      "step": 6000
    },
    {
      "epoch": 16.026666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004999333511391382,
      "loss": 0.4038,
      "step": 6010
    },
    {
      "epoch": 16.053333333333335,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004999331089667775,
      "loss": 0.4072,
      "step": 6020
    },
    {
      "epoch": 16.08,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004999328663552998,
      "loss": 0.392,
      "step": 6030
    },
    {
      "epoch": 16.106666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004999326233047055,
      "loss": 0.3909,
      "step": 6040
    },
    {
      "epoch": 16.133333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000499932379814995,
      "loss": 0.3884,
      "step": 6050
    },
    {
      "epoch": 16.16,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999321358861688,
      "loss": 0.3917,
      "step": 6060
    },
    {
      "epoch": 16.186666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004999318915182274,
      "loss": 0.3859,
      "step": 6070
    },
    {
      "epoch": 16.213333333333335,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004999316467111711,
      "loss": 0.3777,
      "step": 6080
    },
    {
      "epoch": 16.24,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004999314014650002,
      "loss": 0.3828,
      "step": 6090
    },
    {
      "epoch": 16.266666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004999311557797154,
      "loss": 0.389,
      "step": 6100
    },
    {
      "epoch": 16.293333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.000499930909655317,
      "loss": 0.383,
      "step": 6110
    },
    {
      "epoch": 16.32,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004999306630918054,
      "loss": 0.387,
      "step": 6120
    },
    {
      "epoch": 16.346666666666668,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004999304160891812,
      "loss": 0.392,
      "step": 6130
    },
    {
      "epoch": 16.373333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004999301686474446,
      "loss": 0.3842,
      "step": 6140
    },
    {
      "epoch": 16.4,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004999299207665963,
      "loss": 0.3849,
      "step": 6150
    },
    {
      "epoch": 16.426666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004999296724466365,
      "loss": 0.3891,
      "step": 6160
    },
    {
      "epoch": 16.453333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004999294236875658,
      "loss": 0.3974,
      "step": 6170
    },
    {
      "epoch": 16.48,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004999291744893845,
      "loss": 0.3959,
      "step": 6180
    },
    {
      "epoch": 16.506666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0004999289248520931,
      "loss": 0.3885,
      "step": 6190
    },
    {
      "epoch": 16.533333333333335,
      "grad_norm": 0.236328125,
      "learning_rate": 0.000499928674775692,
      "loss": 0.3831,
      "step": 6200
    },
    {
      "epoch": 16.56,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0004999284242601817,
      "loss": 0.3829,
      "step": 6210
    },
    {
      "epoch": 16.586666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004999281733055626,
      "loss": 0.3802,
      "step": 6220
    },
    {
      "epoch": 16.613333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004999279219118352,
      "loss": 0.3685,
      "step": 6230
    },
    {
      "epoch": 16.64,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999276700789999,
      "loss": 0.3753,
      "step": 6240
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004999274178070572,
      "loss": 0.39,
      "step": 6250
    },
    {
      "epoch": 16.693333333333335,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004999271650960074,
      "loss": 0.3707,
      "step": 6260
    },
    {
      "epoch": 16.72,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000499926911945851,
      "loss": 0.3873,
      "step": 6270
    },
    {
      "epoch": 16.746666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004999266583565886,
      "loss": 0.3892,
      "step": 6280
    },
    {
      "epoch": 16.773333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004999264043282205,
      "loss": 0.3995,
      "step": 6290
    },
    {
      "epoch": 16.8,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004999261498607471,
      "loss": 0.3863,
      "step": 6300
    },
    {
      "epoch": 16.826666666666668,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000499925894954169,
      "loss": 0.3768,
      "step": 6310
    },
    {
      "epoch": 16.85333333333333,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0004999256396084864,
      "loss": 0.3802,
      "step": 6320
    },
    {
      "epoch": 16.88,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0004999253838237001,
      "loss": 0.3761,
      "step": 6330
    },
    {
      "epoch": 16.906666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004999251275998102,
      "loss": 0.381,
      "step": 6340
    },
    {
      "epoch": 16.933333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004999248709368175,
      "loss": 0.3817,
      "step": 6350
    },
    {
      "epoch": 16.96,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004999246138347221,
      "loss": 0.3785,
      "step": 6360
    },
    {
      "epoch": 16.986666666666668,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004999243562935246,
      "loss": 0.3964,
      "step": 6370
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.42185091972351074,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5685,
      "eval_samples_per_second": 1.273,
      "eval_steps_per_second": 0.08,
      "step": 6375
    },
    {
      "epoch": 17.013333333333332,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004999240983132255,
      "loss": 0.3828,
      "step": 6380
    },
    {
      "epoch": 17.04,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004999238398938253,
      "loss": 0.4075,
      "step": 6390
    },
    {
      "epoch": 17.066666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004999235810353243,
      "loss": 0.3922,
      "step": 6400
    },
    {
      "epoch": 17.093333333333334,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000499923321737723,
      "loss": 0.3904,
      "step": 6410
    },
    {
      "epoch": 17.12,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000499923062001022,
      "loss": 0.386,
      "step": 6420
    },
    {
      "epoch": 17.14666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004999228018252216,
      "loss": 0.3891,
      "step": 6430
    },
    {
      "epoch": 17.173333333333332,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004999225412103222,
      "loss": 0.3853,
      "step": 6440
    },
    {
      "epoch": 17.2,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0004999222801563244,
      "loss": 0.3813,
      "step": 6450
    },
    {
      "epoch": 17.226666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004999220186632287,
      "loss": 0.376,
      "step": 6460
    },
    {
      "epoch": 17.253333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999217567310354,
      "loss": 0.377,
      "step": 6470
    },
    {
      "epoch": 17.28,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000499921494359745,
      "loss": 0.3952,
      "step": 6480
    },
    {
      "epoch": 17.306666666666665,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004999212315493581,
      "loss": 0.3749,
      "step": 6490
    },
    {
      "epoch": 17.333333333333332,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000499920968299875,
      "loss": 0.3886,
      "step": 6500
    },
    {
      "epoch": 17.36,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004999207046112962,
      "loss": 0.3839,
      "step": 6510
    },
    {
      "epoch": 17.386666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004999204404836222,
      "loss": 0.3805,
      "step": 6520
    },
    {
      "epoch": 17.413333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004999201759168535,
      "loss": 0.3852,
      "step": 6530
    },
    {
      "epoch": 17.44,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004999199109109904,
      "loss": 0.3896,
      "step": 6540
    },
    {
      "epoch": 17.466666666666665,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004999196454660335,
      "loss": 0.3966,
      "step": 6550
    },
    {
      "epoch": 17.493333333333332,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0004999193795819833,
      "loss": 0.3851,
      "step": 6560
    },
    {
      "epoch": 17.52,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999191132588402,
      "loss": 0.3859,
      "step": 6570
    },
    {
      "epoch": 17.546666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004999188464966047,
      "loss": 0.3794,
      "step": 6580
    },
    {
      "epoch": 17.573333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004999185792952771,
      "loss": 0.3813,
      "step": 6590
    },
    {
      "epoch": 17.6,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004999183116548582,
      "loss": 0.3722,
      "step": 6600
    },
    {
      "epoch": 17.626666666666665,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004999180435753482,
      "loss": 0.3674,
      "step": 6610
    },
    {
      "epoch": 17.653333333333332,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004999177750567476,
      "loss": 0.3832,
      "step": 6620
    },
    {
      "epoch": 17.68,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004999175060990571,
      "loss": 0.3741,
      "step": 6630
    },
    {
      "epoch": 17.706666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004999172367022768,
      "loss": 0.373,
      "step": 6640
    },
    {
      "epoch": 17.733333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004999169668664076,
      "loss": 0.392,
      "step": 6650
    },
    {
      "epoch": 17.76,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0004999166965914496,
      "loss": 0.3921,
      "step": 6660
    },
    {
      "epoch": 17.786666666666665,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004999164258774034,
      "loss": 0.3918,
      "step": 6670
    },
    {
      "epoch": 17.813333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004999161547242695,
      "loss": 0.3747,
      "step": 6680
    },
    {
      "epoch": 17.84,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004999158831320484,
      "loss": 0.3763,
      "step": 6690
    },
    {
      "epoch": 17.866666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004999156111007406,
      "loss": 0.3754,
      "step": 6700
    },
    {
      "epoch": 17.893333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0004999153386303465,
      "loss": 0.3727,
      "step": 6710
    },
    {
      "epoch": 17.92,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004999150657208665,
      "loss": 0.3817,
      "step": 6720
    },
    {
      "epoch": 17.946666666666665,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004999147923723014,
      "loss": 0.3778,
      "step": 6730
    },
    {
      "epoch": 17.973333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004999145185846514,
      "loss": 0.3884,
      "step": 6740
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000499914244357917,
      "loss": 0.3754,
      "step": 6750
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.41967928409576416,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8544,
      "eval_samples_per_second": 1.474,
      "eval_steps_per_second": 0.092,
      "step": 6750
    },
    {
      "epoch": 18.026666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004999139696920987,
      "loss": 0.3973,
      "step": 6760
    },
    {
      "epoch": 18.053333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000499913694587197,
      "loss": 0.4016,
      "step": 6770
    },
    {
      "epoch": 18.08,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004999134190432125,
      "loss": 0.3868,
      "step": 6780
    },
    {
      "epoch": 18.106666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004999131430601456,
      "loss": 0.3847,
      "step": 6790
    },
    {
      "epoch": 18.133333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004999128666379968,
      "loss": 0.3825,
      "step": 6800
    },
    {
      "epoch": 18.16,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004999125897767663,
      "loss": 0.3868,
      "step": 6810
    },
    {
      "epoch": 18.186666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004999123124764551,
      "loss": 0.3806,
      "step": 6820
    },
    {
      "epoch": 18.213333333333335,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004999120347370633,
      "loss": 0.3719,
      "step": 6830
    },
    {
      "epoch": 18.24,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004999117565585915,
      "loss": 0.3774,
      "step": 6840
    },
    {
      "epoch": 18.266666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999114779410403,
      "loss": 0.3841,
      "step": 6850
    },
    {
      "epoch": 18.293333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00049991119888441,
      "loss": 0.3777,
      "step": 6860
    },
    {
      "epoch": 18.32,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004999109193887012,
      "loss": 0.3817,
      "step": 6870
    },
    {
      "epoch": 18.346666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0004999106394539144,
      "loss": 0.3858,
      "step": 6880
    },
    {
      "epoch": 18.373333333333335,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0004999103590800501,
      "loss": 0.3792,
      "step": 6890
    },
    {
      "epoch": 18.4,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004999100782671087,
      "loss": 0.3794,
      "step": 6900
    },
    {
      "epoch": 18.426666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004999097970150908,
      "loss": 0.3836,
      "step": 6910
    },
    {
      "epoch": 18.453333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004999095153239969,
      "loss": 0.3924,
      "step": 6920
    },
    {
      "epoch": 18.48,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004999092331938273,
      "loss": 0.3904,
      "step": 6930
    },
    {
      "epoch": 18.506666666666668,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004999089506245827,
      "loss": 0.3835,
      "step": 6940
    },
    {
      "epoch": 18.533333333333335,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004999086676162636,
      "loss": 0.3785,
      "step": 6950
    },
    {
      "epoch": 18.56,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004999083841688703,
      "loss": 0.3772,
      "step": 6960
    },
    {
      "epoch": 18.586666666666666,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004999081002824034,
      "loss": 0.3757,
      "step": 6970
    },
    {
      "epoch": 18.613333333333333,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004999078159568636,
      "loss": 0.3639,
      "step": 6980
    },
    {
      "epoch": 18.64,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004999075311922512,
      "loss": 0.3703,
      "step": 6990
    },
    {
      "epoch": 18.666666666666668,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004999072459885666,
      "loss": 0.3843,
      "step": 7000
    },
    {
      "epoch": 18.693333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004999069603458105,
      "loss": 0.3657,
      "step": 7010
    },
    {
      "epoch": 18.72,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004999066742639832,
      "loss": 0.3827,
      "step": 7020
    },
    {
      "epoch": 18.746666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0004999063877430856,
      "loss": 0.3839,
      "step": 7030
    },
    {
      "epoch": 18.773333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999061007831178,
      "loss": 0.3941,
      "step": 7040
    },
    {
      "epoch": 18.8,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004999058133840804,
      "loss": 0.3813,
      "step": 7050
    },
    {
      "epoch": 18.826666666666668,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000499905525545974,
      "loss": 0.3711,
      "step": 7060
    },
    {
      "epoch": 18.85333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000499905237268799,
      "loss": 0.3752,
      "step": 7070
    },
    {
      "epoch": 18.88,
      "grad_norm": 0.259765625,
      "learning_rate": 0.000499904948552556,
      "loss": 0.371,
      "step": 7080
    },
    {
      "epoch": 18.906666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004999046593972455,
      "loss": 0.3759,
      "step": 7090
    },
    {
      "epoch": 18.933333333333334,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004999043698028678,
      "loss": 0.3766,
      "step": 7100
    },
    {
      "epoch": 18.96,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004999040797694237,
      "loss": 0.3734,
      "step": 7110
    },
    {
      "epoch": 18.986666666666668,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004999037892969136,
      "loss": 0.3905,
      "step": 7120
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.4191161096096039,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9577,
      "eval_samples_per_second": 1.338,
      "eval_steps_per_second": 0.084,
      "step": 7125
    },
    {
      "epoch": 19.013333333333332,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004999034983853381,
      "loss": 0.3779,
      "step": 7130
    },
    {
      "epoch": 19.04,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004999032070346974,
      "loss": 0.4022,
      "step": 7140
    },
    {
      "epoch": 19.066666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004999029152449924,
      "loss": 0.3876,
      "step": 7150
    },
    {
      "epoch": 19.093333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004999026230162233,
      "loss": 0.3847,
      "step": 7160
    },
    {
      "epoch": 19.12,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004999023303483909,
      "loss": 0.3803,
      "step": 7170
    },
    {
      "epoch": 19.14666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004999020372414955,
      "loss": 0.3837,
      "step": 7180
    },
    {
      "epoch": 19.173333333333332,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004999017436955376,
      "loss": 0.3798,
      "step": 7190
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004999014497105179,
      "loss": 0.3756,
      "step": 7200
    },
    {
      "epoch": 19.226666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004999011552864367,
      "loss": 0.371,
      "step": 7210
    },
    {
      "epoch": 19.253333333333334,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004999008604232947,
      "loss": 0.3712,
      "step": 7220
    },
    {
      "epoch": 19.28,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004999005651210923,
      "loss": 0.3895,
      "step": 7230
    },
    {
      "epoch": 19.306666666666665,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0004999002693798301,
      "loss": 0.3701,
      "step": 7240
    },
    {
      "epoch": 19.333333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004998999731995087,
      "loss": 0.384,
      "step": 7250
    },
    {
      "epoch": 19.36,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004998996765801283,
      "loss": 0.3781,
      "step": 7260
    },
    {
      "epoch": 19.386666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004998993795216898,
      "loss": 0.3757,
      "step": 7270
    },
    {
      "epoch": 19.413333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004998990820241935,
      "loss": 0.3805,
      "step": 7280
    },
    {
      "epoch": 19.44,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004998987840876399,
      "loss": 0.3847,
      "step": 7290
    },
    {
      "epoch": 19.466666666666665,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004998984857120297,
      "loss": 0.3918,
      "step": 7300
    },
    {
      "epoch": 19.493333333333332,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004998981868973632,
      "loss": 0.3796,
      "step": 7310
    },
    {
      "epoch": 19.52,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004998978876436411,
      "loss": 0.3816,
      "step": 7320
    },
    {
      "epoch": 19.546666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004998975879508639,
      "loss": 0.3739,
      "step": 7330
    },
    {
      "epoch": 19.573333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004998972878190321,
      "loss": 0.3754,
      "step": 7340
    },
    {
      "epoch": 19.6,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004998969872481462,
      "loss": 0.3673,
      "step": 7350
    },
    {
      "epoch": 19.626666666666665,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004998966862382067,
      "loss": 0.3631,
      "step": 7360
    },
    {
      "epoch": 19.653333333333332,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004998963847892142,
      "loss": 0.3784,
      "step": 7370
    },
    {
      "epoch": 19.68,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004998960829011693,
      "loss": 0.3683,
      "step": 7380
    },
    {
      "epoch": 19.706666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004998957805740723,
      "loss": 0.3676,
      "step": 7390
    },
    {
      "epoch": 19.733333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.000499895477807924,
      "loss": 0.3874,
      "step": 7400
    },
    {
      "epoch": 19.76,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004998951746027247,
      "loss": 0.3865,
      "step": 7410
    },
    {
      "epoch": 19.786666666666665,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004998948709584751,
      "loss": 0.3871,
      "step": 7420
    },
    {
      "epoch": 19.813333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0004998945668751757,
      "loss": 0.3699,
      "step": 7430
    },
    {
      "epoch": 19.84,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004998942623528269,
      "loss": 0.3714,
      "step": 7440
    },
    {
      "epoch": 19.866666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004998939573914294,
      "loss": 0.3707,
      "step": 7450
    },
    {
      "epoch": 19.893333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004998936519909837,
      "loss": 0.3685,
      "step": 7460
    },
    {
      "epoch": 19.92,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004998933461514903,
      "loss": 0.3766,
      "step": 7470
    },
    {
      "epoch": 19.946666666666665,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004998930398729497,
      "loss": 0.3736,
      "step": 7480
    },
    {
      "epoch": 19.973333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004998927331553625,
      "loss": 0.3829,
      "step": 7490
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004998924259987293,
      "loss": 0.3711,
      "step": 7500
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.4190915524959564,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.1866,
      "eval_samples_per_second": 1.313,
      "eval_steps_per_second": 0.082,
      "step": 7500
    },
    {
      "epoch": 20.026666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998921184030505,
      "loss": 0.3922,
      "step": 7510
    },
    {
      "epoch": 20.053333333333335,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004998918103683267,
      "loss": 0.3968,
      "step": 7520
    },
    {
      "epoch": 20.08,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004998915018945585,
      "loss": 0.3824,
      "step": 7530
    },
    {
      "epoch": 20.106666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004998911929817464,
      "loss": 0.3808,
      "step": 7540
    },
    {
      "epoch": 20.133333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004998908836298908,
      "loss": 0.3777,
      "step": 7550
    },
    {
      "epoch": 20.16,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004998905738389925,
      "loss": 0.3816,
      "step": 7560
    },
    {
      "epoch": 20.186666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004998902636090519,
      "loss": 0.3758,
      "step": 7570
    },
    {
      "epoch": 20.213333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004998899529400695,
      "loss": 0.3664,
      "step": 7580
    },
    {
      "epoch": 20.24,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000499889641832046,
      "loss": 0.3724,
      "step": 7590
    },
    {
      "epoch": 20.266666666666666,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004998893302849819,
      "loss": 0.3791,
      "step": 7600
    },
    {
      "epoch": 20.293333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004998890182988776,
      "loss": 0.3731,
      "step": 7610
    },
    {
      "epoch": 20.32,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004998887058737338,
      "loss": 0.3765,
      "step": 7620
    },
    {
      "epoch": 20.346666666666668,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004998883930095509,
      "loss": 0.381,
      "step": 7630
    },
    {
      "epoch": 20.373333333333335,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004998880797063296,
      "loss": 0.3742,
      "step": 7640
    },
    {
      "epoch": 20.4,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004998877659640705,
      "loss": 0.3751,
      "step": 7650
    },
    {
      "epoch": 20.426666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004998874517827739,
      "loss": 0.3785,
      "step": 7660
    },
    {
      "epoch": 20.453333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004998871371624407,
      "loss": 0.3877,
      "step": 7670
    },
    {
      "epoch": 20.48,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004998868221030711,
      "loss": 0.3863,
      "step": 7680
    },
    {
      "epoch": 20.506666666666668,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0004998865066046658,
      "loss": 0.3783,
      "step": 7690
    },
    {
      "epoch": 20.533333333333335,
      "grad_norm": 0.375,
      "learning_rate": 0.0004998861906672256,
      "loss": 0.3733,
      "step": 7700
    },
    {
      "epoch": 20.56,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004998858742907505,
      "loss": 0.3724,
      "step": 7710
    },
    {
      "epoch": 20.586666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004998855574752416,
      "loss": 0.3716,
      "step": 7720
    },
    {
      "epoch": 20.613333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004998852402206991,
      "loss": 0.3599,
      "step": 7730
    },
    {
      "epoch": 20.64,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998849225271237,
      "loss": 0.3649,
      "step": 7740
    },
    {
      "epoch": 20.666666666666668,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000499884604394516,
      "loss": 0.3804,
      "step": 7750
    },
    {
      "epoch": 20.693333333333335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004998842858228766,
      "loss": 0.3617,
      "step": 7760
    },
    {
      "epoch": 20.72,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004998839668122058,
      "loss": 0.3773,
      "step": 7770
    },
    {
      "epoch": 20.746666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004998836473625043,
      "loss": 0.3789,
      "step": 7780
    },
    {
      "epoch": 20.773333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004998833274737728,
      "loss": 0.3901,
      "step": 7790
    },
    {
      "epoch": 20.8,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004998830071460118,
      "loss": 0.3767,
      "step": 7800
    },
    {
      "epoch": 20.826666666666668,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004998826863792218,
      "loss": 0.3661,
      "step": 7810
    },
    {
      "epoch": 20.85333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004998823651734033,
      "loss": 0.3703,
      "step": 7820
    },
    {
      "epoch": 20.88,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000499882043528557,
      "loss": 0.3665,
      "step": 7830
    },
    {
      "epoch": 20.906666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004998817214446834,
      "loss": 0.3715,
      "step": 7840
    },
    {
      "epoch": 20.933333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000499881398921783,
      "loss": 0.3714,
      "step": 7850
    },
    {
      "epoch": 20.96,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004998810759598564,
      "loss": 0.3689,
      "step": 7860
    },
    {
      "epoch": 20.986666666666668,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004998807525589044,
      "loss": 0.3859,
      "step": 7870
    },
    {
      "epoch": 21.0,
      "eval_loss": 0.4177466034889221,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.767,
      "eval_samples_per_second": 1.253,
      "eval_steps_per_second": 0.078,
      "step": 7875
    },
    {
      "epoch": 21.013333333333332,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004998804287189273,
      "loss": 0.3736,
      "step": 7880
    },
    {
      "epoch": 21.04,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004998801044399256,
      "loss": 0.398,
      "step": 7890
    },
    {
      "epoch": 21.066666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004998797797219002,
      "loss": 0.3825,
      "step": 7900
    },
    {
      "epoch": 21.093333333333334,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004998794545648514,
      "loss": 0.3806,
      "step": 7910
    },
    {
      "epoch": 21.12,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004998791289687798,
      "loss": 0.3765,
      "step": 7920
    },
    {
      "epoch": 21.14666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0004998788029336862,
      "loss": 0.3792,
      "step": 7930
    },
    {
      "epoch": 21.173333333333332,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004998784764595708,
      "loss": 0.3759,
      "step": 7940
    },
    {
      "epoch": 21.2,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0004998781495464345,
      "loss": 0.371,
      "step": 7950
    },
    {
      "epoch": 21.226666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004998778221942777,
      "loss": 0.3659,
      "step": 7960
    },
    {
      "epoch": 21.253333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004998774944031011,
      "loss": 0.3669,
      "step": 7970
    },
    {
      "epoch": 21.28,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004998771661729051,
      "loss": 0.3853,
      "step": 7980
    },
    {
      "epoch": 21.306666666666665,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004998768375036904,
      "loss": 0.3648,
      "step": 7990
    },
    {
      "epoch": 21.333333333333332,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004998765083954576,
      "loss": 0.3802,
      "step": 8000
    },
    {
      "epoch": 21.36,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004998761788482072,
      "loss": 0.3729,
      "step": 8010
    },
    {
      "epoch": 21.386666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004998758488619398,
      "loss": 0.3706,
      "step": 8020
    },
    {
      "epoch": 21.413333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000499875518436656,
      "loss": 0.3754,
      "step": 8030
    },
    {
      "epoch": 21.44,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0004998751875723564,
      "loss": 0.3799,
      "step": 8040
    },
    {
      "epoch": 21.466666666666665,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004998748562690415,
      "loss": 0.3869,
      "step": 8050
    },
    {
      "epoch": 21.493333333333332,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000499874524526712,
      "loss": 0.3754,
      "step": 8060
    },
    {
      "epoch": 21.52,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004998741923453685,
      "loss": 0.3777,
      "step": 8070
    },
    {
      "epoch": 21.546666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004998738597250113,
      "loss": 0.3696,
      "step": 8080
    },
    {
      "epoch": 21.573333333333334,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004998735266656412,
      "loss": 0.3715,
      "step": 8090
    },
    {
      "epoch": 21.6,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004998731931672588,
      "loss": 0.3632,
      "step": 8100
    },
    {
      "epoch": 21.626666666666665,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004998728592298648,
      "loss": 0.3598,
      "step": 8110
    },
    {
      "epoch": 21.653333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.0004998725248534595,
      "loss": 0.3748,
      "step": 8120
    },
    {
      "epoch": 21.68,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004998721900380437,
      "loss": 0.3638,
      "step": 8130
    },
    {
      "epoch": 21.706666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004998718547836178,
      "loss": 0.364,
      "step": 8140
    },
    {
      "epoch": 21.733333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004998715190901827,
      "loss": 0.383,
      "step": 8150
    },
    {
      "epoch": 21.76,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004998711829577387,
      "loss": 0.3825,
      "step": 8160
    },
    {
      "epoch": 21.786666666666665,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004998708463862864,
      "loss": 0.3826,
      "step": 8170
    },
    {
      "epoch": 21.813333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.0004998705093758266,
      "loss": 0.3665,
      "step": 8180
    },
    {
      "epoch": 21.84,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004998701719263598,
      "loss": 0.3667,
      "step": 8190
    },
    {
      "epoch": 21.866666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004998698340378864,
      "loss": 0.367,
      "step": 8200
    },
    {
      "epoch": 21.893333333333334,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004998694957104073,
      "loss": 0.3644,
      "step": 8210
    },
    {
      "epoch": 21.92,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004998691569439229,
      "loss": 0.3723,
      "step": 8220
    },
    {
      "epoch": 21.946666666666665,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004998688177384338,
      "loss": 0.3684,
      "step": 8230
    },
    {
      "epoch": 21.973333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004998684780939407,
      "loss": 0.379,
      "step": 8240
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004998681380104442,
      "loss": 0.3661,
      "step": 8250
    },
    {
      "epoch": 22.0,
      "eval_loss": 0.41831234097480774,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5951,
      "eval_samples_per_second": 1.27,
      "eval_steps_per_second": 0.079,
      "step": 8250
    },
    {
      "epoch": 22.026666666666667,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004998677974879448,
      "loss": 0.3882,
      "step": 8260
    },
    {
      "epoch": 22.053333333333335,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000499867456526443,
      "loss": 0.3933,
      "step": 8270
    },
    {
      "epoch": 22.08,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004998671151259398,
      "loss": 0.3777,
      "step": 8280
    },
    {
      "epoch": 22.106666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004998667732864353,
      "loss": 0.377,
      "step": 8290
    },
    {
      "epoch": 22.133333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004998664310079305,
      "loss": 0.3734,
      "step": 8300
    },
    {
      "epoch": 22.16,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004998660882904257,
      "loss": 0.3783,
      "step": 8310
    },
    {
      "epoch": 22.186666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0004998657451339217,
      "loss": 0.3717,
      "step": 8320
    },
    {
      "epoch": 22.213333333333335,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004998654015384191,
      "loss": 0.3629,
      "step": 8330
    },
    {
      "epoch": 22.24,
      "grad_norm": 2.53125,
      "learning_rate": 0.0004998650575039183,
      "loss": 0.3689,
      "step": 8340
    },
    {
      "epoch": 22.266666666666666,
      "grad_norm": 1.90625,
      "learning_rate": 0.0004998647130304201,
      "loss": 0.3786,
      "step": 8350
    },
    {
      "epoch": 22.293333333333333,
      "grad_norm": 1.1484375,
      "learning_rate": 0.0004998643681179252,
      "loss": 0.3701,
      "step": 8360
    },
    {
      "epoch": 22.32,
      "grad_norm": 1.0078125,
      "learning_rate": 0.000499864022766434,
      "loss": 0.3741,
      "step": 8370
    },
    {
      "epoch": 22.346666666666668,
      "grad_norm": 1.328125,
      "learning_rate": 0.000499863676975947,
      "loss": 0.3776,
      "step": 8380
    },
    {
      "epoch": 22.373333333333335,
      "grad_norm": 1.453125,
      "learning_rate": 0.0004998633307464652,
      "loss": 0.3688,
      "step": 8390
    },
    {
      "epoch": 22.4,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0004998629840779888,
      "loss": 0.37,
      "step": 8400
    },
    {
      "epoch": 22.426666666666666,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0004998626369705187,
      "loss": 0.3736,
      "step": 8410
    },
    {
      "epoch": 22.453333333333333,
      "grad_norm": 1.390625,
      "learning_rate": 0.0004998622894240554,
      "loss": 0.3818,
      "step": 8420
    },
    {
      "epoch": 22.48,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0004998619414385995,
      "loss": 0.3806,
      "step": 8430
    },
    {
      "epoch": 22.506666666666668,
      "grad_norm": 1.0,
      "learning_rate": 0.0004998615930141516,
      "loss": 0.3739,
      "step": 8440
    },
    {
      "epoch": 22.533333333333335,
      "grad_norm": 1.03125,
      "learning_rate": 0.0004998612441507123,
      "loss": 0.368,
      "step": 8450
    },
    {
      "epoch": 22.56,
      "grad_norm": 1.421875,
      "learning_rate": 0.0004998608948482824,
      "loss": 0.3668,
      "step": 8460
    },
    {
      "epoch": 22.586666666666666,
      "grad_norm": 1.59375,
      "learning_rate": 0.0004998605451068622,
      "loss": 0.3664,
      "step": 8470
    },
    {
      "epoch": 22.613333333333333,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0004998601949264526,
      "loss": 0.355,
      "step": 8480
    },
    {
      "epoch": 22.64,
      "grad_norm": 0.6953125,
      "learning_rate": 0.000499859844307054,
      "loss": 0.3635,
      "step": 8490
    },
    {
      "epoch": 22.666666666666668,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004998594932486671,
      "loss": 0.3749,
      "step": 8500
    },
    {
      "epoch": 22.693333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004998591417512926,
      "loss": 0.3552,
      "step": 8510
    },
    {
      "epoch": 22.72,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004998587898149311,
      "loss": 0.3714,
      "step": 8520
    },
    {
      "epoch": 22.746666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0004998584374395831,
      "loss": 0.3736,
      "step": 8530
    },
    {
      "epoch": 22.773333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004998580846252491,
      "loss": 0.3846,
      "step": 8540
    },
    {
      "epoch": 22.8,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004998577313719302,
      "loss": 0.3708,
      "step": 8550
    },
    {
      "epoch": 22.826666666666668,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004998573776796265,
      "loss": 0.3603,
      "step": 8560
    },
    {
      "epoch": 22.85333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.000499857023548339,
      "loss": 0.3645,
      "step": 8570
    },
    {
      "epoch": 22.88,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004998566689780681,
      "loss": 0.3615,
      "step": 8580
    },
    {
      "epoch": 22.906666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004998563139688145,
      "loss": 0.3657,
      "step": 8590
    },
    {
      "epoch": 22.933333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004998559585205788,
      "loss": 0.3665,
      "step": 8600
    },
    {
      "epoch": 22.96,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004998556026333616,
      "loss": 0.3636,
      "step": 8610
    },
    {
      "epoch": 22.986666666666668,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004998552463071636,
      "loss": 0.3803,
      "step": 8620
    },
    {
      "epoch": 23.0,
      "eval_loss": 0.4175701141357422,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.6359,
      "eval_samples_per_second": 1.375,
      "eval_steps_per_second": 0.086,
      "step": 8625
    },
    {
      "epoch": 23.013333333333332,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004998548895419853,
      "loss": 0.3677,
      "step": 8630
    },
    {
      "epoch": 23.04,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004998545323378276,
      "loss": 0.3934,
      "step": 8640
    },
    {
      "epoch": 23.066666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004998541746946908,
      "loss": 0.3781,
      "step": 8650
    },
    {
      "epoch": 23.093333333333334,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004998538166125757,
      "loss": 0.3764,
      "step": 8660
    },
    {
      "epoch": 23.12,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004998534580914829,
      "loss": 0.3713,
      "step": 8670
    },
    {
      "epoch": 23.14666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004998530991314131,
      "loss": 0.3739,
      "step": 8680
    },
    {
      "epoch": 23.173333333333332,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004998527397323668,
      "loss": 0.3709,
      "step": 8690
    },
    {
      "epoch": 23.2,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004998523798943447,
      "loss": 0.3667,
      "step": 8700
    },
    {
      "epoch": 23.226666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004998520196173474,
      "loss": 0.3622,
      "step": 8710
    },
    {
      "epoch": 23.253333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004998516589013756,
      "loss": 0.3643,
      "step": 8720
    },
    {
      "epoch": 23.28,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004998512977464298,
      "loss": 0.3827,
      "step": 8730
    },
    {
      "epoch": 23.306666666666665,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004998509361525108,
      "loss": 0.3625,
      "step": 8740
    },
    {
      "epoch": 23.333333333333332,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004998505741196192,
      "loss": 0.3766,
      "step": 8750
    },
    {
      "epoch": 23.36,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004998502116477556,
      "loss": 0.3707,
      "step": 8760
    },
    {
      "epoch": 23.386666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004998498487369205,
      "loss": 0.3681,
      "step": 8770
    },
    {
      "epoch": 23.413333333333334,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004998494853871147,
      "loss": 0.3727,
      "step": 8780
    },
    {
      "epoch": 23.44,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000499849121598339,
      "loss": 0.3776,
      "step": 8790
    },
    {
      "epoch": 23.466666666666665,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004998487573705937,
      "loss": 0.3829,
      "step": 8800
    },
    {
      "epoch": 23.493333333333332,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004998483927038795,
      "loss": 0.3721,
      "step": 8810
    },
    {
      "epoch": 23.52,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004998480275981973,
      "loss": 0.3733,
      "step": 8820
    },
    {
      "epoch": 23.546666666666667,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004998476620535475,
      "loss": 0.3661,
      "step": 8830
    },
    {
      "epoch": 23.573333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004998472960699307,
      "loss": 0.3674,
      "step": 8840
    },
    {
      "epoch": 23.6,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004998469296473479,
      "loss": 0.3595,
      "step": 8850
    },
    {
      "epoch": 23.626666666666665,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004998465627857993,
      "loss": 0.3562,
      "step": 8860
    },
    {
      "epoch": 23.653333333333332,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004998461954852858,
      "loss": 0.3709,
      "step": 8870
    },
    {
      "epoch": 23.68,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000499845827745808,
      "loss": 0.3599,
      "step": 8880
    },
    {
      "epoch": 23.706666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004998454595673666,
      "loss": 0.3604,
      "step": 8890
    },
    {
      "epoch": 23.733333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004998450909499621,
      "loss": 0.3787,
      "step": 8900
    },
    {
      "epoch": 23.76,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004998447218935953,
      "loss": 0.3787,
      "step": 8910
    },
    {
      "epoch": 23.786666666666665,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004998443523982666,
      "loss": 0.3788,
      "step": 8920
    },
    {
      "epoch": 23.813333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000499843982463977,
      "loss": 0.3611,
      "step": 8930
    },
    {
      "epoch": 23.84,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000499843612090727,
      "loss": 0.3623,
      "step": 8940
    },
    {
      "epoch": 23.866666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004998432412785171,
      "loss": 0.3623,
      "step": 8950
    },
    {
      "epoch": 23.893333333333334,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004998428700273481,
      "loss": 0.3606,
      "step": 8960
    },
    {
      "epoch": 23.92,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998424983372207,
      "loss": 0.367,
      "step": 8970
    },
    {
      "epoch": 23.946666666666665,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004998421262081355,
      "loss": 0.364,
      "step": 8980
    },
    {
      "epoch": 23.973333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004998417536400931,
      "loss": 0.3752,
      "step": 8990
    },
    {
      "epoch": 24.0,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004998413806330943,
      "loss": 0.3626,
      "step": 9000
    },
    {
      "epoch": 24.0,
      "eval_loss": 0.41412800550460815,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8414,
      "eval_samples_per_second": 1.476,
      "eval_steps_per_second": 0.092,
      "step": 9000
    },
    {
      "epoch": 24.026666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004998410071871394,
      "loss": 0.3841,
      "step": 9010
    },
    {
      "epoch": 24.053333333333335,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004998406333022295,
      "loss": 0.3891,
      "step": 9020
    },
    {
      "epoch": 24.08,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.000499840258978365,
      "loss": 0.3745,
      "step": 9030
    },
    {
      "epoch": 24.106666666666666,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004998398842155467,
      "loss": 0.3738,
      "step": 9040
    },
    {
      "epoch": 24.133333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004998395090137751,
      "loss": 0.3697,
      "step": 9050
    },
    {
      "epoch": 24.16,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000499839133373051,
      "loss": 0.3734,
      "step": 9060
    },
    {
      "epoch": 24.186666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004998387572933749,
      "loss": 0.3676,
      "step": 9070
    },
    {
      "epoch": 24.213333333333335,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004998383807747476,
      "loss": 0.3583,
      "step": 9080
    },
    {
      "epoch": 24.24,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004998380038171697,
      "loss": 0.365,
      "step": 9090
    },
    {
      "epoch": 24.266666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004998376264206419,
      "loss": 0.3725,
      "step": 9100
    },
    {
      "epoch": 24.293333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004998372485851649,
      "loss": 0.3663,
      "step": 9110
    },
    {
      "epoch": 24.32,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004998368703107392,
      "loss": 0.3706,
      "step": 9120
    },
    {
      "epoch": 24.346666666666668,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004998364915973657,
      "loss": 0.3741,
      "step": 9130
    },
    {
      "epoch": 24.373333333333335,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004998361124450448,
      "loss": 0.3659,
      "step": 9140
    },
    {
      "epoch": 24.4,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004998357328537775,
      "loss": 0.3668,
      "step": 9150
    },
    {
      "epoch": 24.426666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004998353528235641,
      "loss": 0.371,
      "step": 9160
    },
    {
      "epoch": 24.453333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004998349723544054,
      "loss": 0.3798,
      "step": 9170
    },
    {
      "epoch": 24.48,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004998345914463023,
      "loss": 0.3783,
      "step": 9180
    },
    {
      "epoch": 24.506666666666668,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004998342100992552,
      "loss": 0.3717,
      "step": 9190
    },
    {
      "epoch": 24.533333333333335,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004998338283132647,
      "loss": 0.366,
      "step": 9200
    },
    {
      "epoch": 24.56,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004998334460883318,
      "loss": 0.3649,
      "step": 9210
    },
    {
      "epoch": 24.586666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004998330634244569,
      "loss": 0.3645,
      "step": 9220
    },
    {
      "epoch": 24.613333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004998326803216409,
      "loss": 0.3529,
      "step": 9230
    },
    {
      "epoch": 24.64,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004998322967798842,
      "loss": 0.3592,
      "step": 9240
    },
    {
      "epoch": 24.666666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0004998319127991876,
      "loss": 0.3739,
      "step": 9250
    },
    {
      "epoch": 24.693333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004998315283795518,
      "loss": 0.3539,
      "step": 9260
    },
    {
      "epoch": 24.72,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004998311435209775,
      "loss": 0.3696,
      "step": 9270
    },
    {
      "epoch": 24.746666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004998307582234653,
      "loss": 0.3717,
      "step": 9280
    },
    {
      "epoch": 24.773333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998303724870159,
      "loss": 0.3827,
      "step": 9290
    },
    {
      "epoch": 24.8,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.00049982998631163,
      "loss": 0.3691,
      "step": 9300
    },
    {
      "epoch": 24.826666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0004998295996973083,
      "loss": 0.3584,
      "step": 9310
    },
    {
      "epoch": 24.85333333333333,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004998292126440515,
      "loss": 0.3624,
      "step": 9320
    },
    {
      "epoch": 24.88,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0004998288251518602,
      "loss": 0.3588,
      "step": 9330
    },
    {
      "epoch": 24.906666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000499828437220735,
      "loss": 0.363,
      "step": 9340
    },
    {
      "epoch": 24.933333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004998280488506768,
      "loss": 0.3634,
      "step": 9350
    },
    {
      "epoch": 24.96,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.000499827660041686,
      "loss": 0.3608,
      "step": 9360
    },
    {
      "epoch": 24.986666666666668,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004998272707937637,
      "loss": 0.3782,
      "step": 9370
    },
    {
      "epoch": 25.0,
      "eval_loss": 0.4149629771709442,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0913,
      "eval_samples_per_second": 1.443,
      "eval_steps_per_second": 0.09,
      "step": 9375
    },
    {
      "epoch": 25.013333333333332,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004998268811069102,
      "loss": 0.3653,
      "step": 9380
    },
    {
      "epoch": 25.04,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004998264909811263,
      "loss": 0.3912,
      "step": 9390
    },
    {
      "epoch": 25.066666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004998261004164128,
      "loss": 0.3758,
      "step": 9400
    },
    {
      "epoch": 25.093333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004998257094127702,
      "loss": 0.3746,
      "step": 9410
    },
    {
      "epoch": 25.12,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004998253179701994,
      "loss": 0.3687,
      "step": 9420
    },
    {
      "epoch": 25.14666666666667,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004998249260887009,
      "loss": 0.3708,
      "step": 9430
    },
    {
      "epoch": 25.173333333333332,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004998245337682754,
      "loss": 0.3691,
      "step": 9440
    },
    {
      "epoch": 25.2,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004998241410089238,
      "loss": 0.3639,
      "step": 9450
    },
    {
      "epoch": 25.226666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004998237478106466,
      "loss": 0.3585,
      "step": 9460
    },
    {
      "epoch": 25.253333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004998233541734444,
      "loss": 0.3598,
      "step": 9470
    },
    {
      "epoch": 25.28,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004998229600973181,
      "loss": 0.3786,
      "step": 9480
    },
    {
      "epoch": 25.306666666666665,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004998225655822683,
      "loss": 0.3576,
      "step": 9490
    },
    {
      "epoch": 25.333333333333332,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998221706282957,
      "loss": 0.3736,
      "step": 9500
    },
    {
      "epoch": 25.36,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004998217752354011,
      "loss": 0.3667,
      "step": 9510
    },
    {
      "epoch": 25.386666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.000499821379403585,
      "loss": 0.3635,
      "step": 9520
    },
    {
      "epoch": 25.413333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004998209831328481,
      "loss": 0.3687,
      "step": 9530
    },
    {
      "epoch": 25.44,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004998205864231914,
      "loss": 0.3735,
      "step": 9540
    },
    {
      "epoch": 25.466666666666665,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004998201892746153,
      "loss": 0.3797,
      "step": 9550
    },
    {
      "epoch": 25.493333333333332,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004998197916871205,
      "loss": 0.3682,
      "step": 9560
    },
    {
      "epoch": 25.52,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004998193936607079,
      "loss": 0.3704,
      "step": 9570
    },
    {
      "epoch": 25.546666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004998189951953779,
      "loss": 0.3621,
      "step": 9580
    },
    {
      "epoch": 25.573333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004998185962911316,
      "loss": 0.3643,
      "step": 9590
    },
    {
      "epoch": 25.6,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004998181969479693,
      "loss": 0.3557,
      "step": 9600
    },
    {
      "epoch": 25.626666666666665,
      "grad_norm": 0.171875,
      "learning_rate": 0.000499817797165892,
      "loss": 0.3532,
      "step": 9610
    },
    {
      "epoch": 25.653333333333332,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004998173969449002,
      "loss": 0.3683,
      "step": 9620
    },
    {
      "epoch": 25.68,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004998169962849948,
      "loss": 0.3569,
      "step": 9630
    },
    {
      "epoch": 25.706666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004998165951861762,
      "loss": 0.3571,
      "step": 9640
    },
    {
      "epoch": 25.733333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998161936484454,
      "loss": 0.3752,
      "step": 9650
    },
    {
      "epoch": 25.76,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000499815791671803,
      "loss": 0.3759,
      "step": 9660
    },
    {
      "epoch": 25.786666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.0004998153892562498,
      "loss": 0.3752,
      "step": 9670
    },
    {
      "epoch": 25.813333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004998149864017863,
      "loss": 0.3582,
      "step": 9680
    },
    {
      "epoch": 25.84,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004998145831084133,
      "loss": 0.3585,
      "step": 9690
    },
    {
      "epoch": 25.866666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004998141793761316,
      "loss": 0.3595,
      "step": 9700
    },
    {
      "epoch": 25.893333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004998137752049419,
      "loss": 0.3572,
      "step": 9710
    },
    {
      "epoch": 25.92,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004998133705948447,
      "loss": 0.3635,
      "step": 9720
    },
    {
      "epoch": 25.946666666666665,
      "grad_norm": 0.240234375,
      "learning_rate": 0.000499812965545841,
      "loss": 0.3615,
      "step": 9730
    },
    {
      "epoch": 25.973333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004998125600579313,
      "loss": 0.3718,
      "step": 9740
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004998121541311164,
      "loss": 0.359,
      "step": 9750
    },
    {
      "epoch": 26.0,
      "eval_loss": 0.4148820638656616,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5592,
      "eval_samples_per_second": 1.515,
      "eval_steps_per_second": 0.095,
      "step": 9750
    },
    {
      "epoch": 26.026666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.000499811747765397,
      "loss": 0.3804,
      "step": 9760
    },
    {
      "epoch": 26.053333333333335,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004998113409607738,
      "loss": 0.3861,
      "step": 9770
    },
    {
      "epoch": 26.08,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004998109337172475,
      "loss": 0.3709,
      "step": 9780
    },
    {
      "epoch": 26.106666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000499810526034819,
      "loss": 0.3705,
      "step": 9790
    },
    {
      "epoch": 26.133333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004998101179134886,
      "loss": 0.3664,
      "step": 9800
    },
    {
      "epoch": 26.16,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004998097093532574,
      "loss": 0.3714,
      "step": 9810
    },
    {
      "epoch": 26.186666666666667,
      "grad_norm": 0.5234375,
      "learning_rate": 0.000499809300354126,
      "loss": 0.3649,
      "step": 9820
    },
    {
      "epoch": 26.213333333333335,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004998088909160952,
      "loss": 0.3551,
      "step": 9830
    },
    {
      "epoch": 26.24,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004998084810391656,
      "loss": 0.3608,
      "step": 9840
    },
    {
      "epoch": 26.266666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004998080707233378,
      "loss": 0.3681,
      "step": 9850
    },
    {
      "epoch": 26.293333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004998076599686128,
      "loss": 0.3622,
      "step": 9860
    },
    {
      "epoch": 26.32,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004998072487749912,
      "loss": 0.3669,
      "step": 9870
    },
    {
      "epoch": 26.346666666666668,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004998068371424736,
      "loss": 0.37,
      "step": 9880
    },
    {
      "epoch": 26.373333333333335,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000499806425071061,
      "loss": 0.3618,
      "step": 9890
    },
    {
      "epoch": 26.4,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004998060125607539,
      "loss": 0.3637,
      "step": 9900
    },
    {
      "epoch": 26.426666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000499805599611553,
      "loss": 0.368,
      "step": 9910
    },
    {
      "epoch": 26.453333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004998051862234593,
      "loss": 0.3766,
      "step": 9920
    },
    {
      "epoch": 26.48,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0004998047723964731,
      "loss": 0.3748,
      "step": 9930
    },
    {
      "epoch": 26.506666666666668,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0004998043581305956,
      "loss": 0.3682,
      "step": 9940
    },
    {
      "epoch": 26.533333333333335,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004998039434258271,
      "loss": 0.3625,
      "step": 9950
    },
    {
      "epoch": 26.56,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004998035282821687,
      "loss": 0.3618,
      "step": 9960
    },
    {
      "epoch": 26.586666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004998031126996208,
      "loss": 0.3608,
      "step": 9970
    },
    {
      "epoch": 26.613333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004998026966781844,
      "loss": 0.3496,
      "step": 9980
    },
    {
      "epoch": 26.64,
      "grad_norm": 0.203125,
      "learning_rate": 0.00049980228021786,
      "loss": 0.3551,
      "step": 9990
    },
    {
      "epoch": 26.666666666666668,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004998018633186486,
      "loss": 0.3695,
      "step": 10000
    },
    {
      "epoch": 26.693333333333335,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004998014459805507,
      "loss": 0.3495,
      "step": 10010
    },
    {
      "epoch": 26.72,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004998010282035671,
      "loss": 0.3668,
      "step": 10020
    },
    {
      "epoch": 26.746666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004998006099876985,
      "loss": 0.3681,
      "step": 10030
    },
    {
      "epoch": 26.773333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004998001913329457,
      "loss": 0.38,
      "step": 10040
    },
    {
      "epoch": 26.8,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004997997722393095,
      "loss": 0.3655,
      "step": 10050
    },
    {
      "epoch": 26.826666666666668,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004997993527067905,
      "loss": 0.3552,
      "step": 10060
    },
    {
      "epoch": 26.85333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004997989327353894,
      "loss": 0.3579,
      "step": 10070
    },
    {
      "epoch": 26.88,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0004997985123251072,
      "loss": 0.3558,
      "step": 10080
    },
    {
      "epoch": 26.906666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004997980914759444,
      "loss": 0.36,
      "step": 10090
    },
    {
      "epoch": 26.933333333333334,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004997976701879018,
      "loss": 0.3604,
      "step": 10100
    },
    {
      "epoch": 26.96,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004997972484609802,
      "loss": 0.3584,
      "step": 10110
    },
    {
      "epoch": 26.986666666666668,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004997968262951801,
      "loss": 0.3739,
      "step": 10120
    },
    {
      "epoch": 27.0,
      "eval_loss": 0.4139934778213501,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7838,
      "eval_samples_per_second": 1.484,
      "eval_steps_per_second": 0.093,
      "step": 10125
    },
    {
      "epoch": 27.013333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004997964036905026,
      "loss": 0.3626,
      "step": 10130
    },
    {
      "epoch": 27.04,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004997959806469482,
      "loss": 0.3874,
      "step": 10140
    },
    {
      "epoch": 27.066666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004997955571645178,
      "loss": 0.3725,
      "step": 10150
    },
    {
      "epoch": 27.093333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004997951332432119,
      "loss": 0.3701,
      "step": 10160
    },
    {
      "epoch": 27.12,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004997947088830315,
      "loss": 0.3657,
      "step": 10170
    },
    {
      "epoch": 27.14666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004997942840839773,
      "loss": 0.3689,
      "step": 10180
    },
    {
      "epoch": 27.173333333333332,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004997938588460498,
      "loss": 0.3659,
      "step": 10190
    },
    {
      "epoch": 27.2,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004997934331692501,
      "loss": 0.3597,
      "step": 10200
    },
    {
      "epoch": 27.226666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004997930070535789,
      "loss": 0.3554,
      "step": 10210
    },
    {
      "epoch": 27.253333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004997925804990367,
      "loss": 0.3566,
      "step": 10220
    },
    {
      "epoch": 27.28,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004997921535056243,
      "loss": 0.3749,
      "step": 10230
    },
    {
      "epoch": 27.306666666666665,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004997917260733427,
      "loss": 0.3551,
      "step": 10240
    },
    {
      "epoch": 27.333333333333332,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004997912982021924,
      "loss": 0.3693,
      "step": 10250
    },
    {
      "epoch": 27.36,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004997908698921743,
      "loss": 0.3629,
      "step": 10260
    },
    {
      "epoch": 27.386666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004997904411432891,
      "loss": 0.3599,
      "step": 10270
    },
    {
      "epoch": 27.413333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004997900119555374,
      "loss": 0.3657,
      "step": 10280
    },
    {
      "epoch": 27.44,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004997895823289203,
      "loss": 0.3703,
      "step": 10290
    },
    {
      "epoch": 27.466666666666665,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004997891522634382,
      "loss": 0.3767,
      "step": 10300
    },
    {
      "epoch": 27.493333333333332,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004997887217590921,
      "loss": 0.3648,
      "step": 10310
    },
    {
      "epoch": 27.52,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004997882908158827,
      "loss": 0.3671,
      "step": 10320
    },
    {
      "epoch": 27.546666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004997878594338107,
      "loss": 0.3592,
      "step": 10330
    },
    {
      "epoch": 27.573333333333334,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004997874276128768,
      "loss": 0.3612,
      "step": 10340
    },
    {
      "epoch": 27.6,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004997869953530819,
      "loss": 0.353,
      "step": 10350
    },
    {
      "epoch": 27.626666666666665,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004997865626544266,
      "loss": 0.3497,
      "step": 10360
    },
    {
      "epoch": 27.653333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000499786129516912,
      "loss": 0.3649,
      "step": 10370
    },
    {
      "epoch": 27.68,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004997856959405384,
      "loss": 0.3534,
      "step": 10380
    },
    {
      "epoch": 27.706666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004997852619253068,
      "loss": 0.354,
      "step": 10390
    },
    {
      "epoch": 27.733333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000499784827471218,
      "loss": 0.3717,
      "step": 10400
    },
    {
      "epoch": 27.76,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004997843925782728,
      "loss": 0.3729,
      "step": 10410
    },
    {
      "epoch": 27.786666666666665,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004997839572464717,
      "loss": 0.3725,
      "step": 10420
    },
    {
      "epoch": 27.813333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004997835214758157,
      "loss": 0.3549,
      "step": 10430
    },
    {
      "epoch": 27.84,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004997830852663056,
      "loss": 0.3555,
      "step": 10440
    },
    {
      "epoch": 27.866666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000499782648617942,
      "loss": 0.3555,
      "step": 10450
    },
    {
      "epoch": 27.893333333333334,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004997822115307257,
      "loss": 0.3539,
      "step": 10460
    },
    {
      "epoch": 27.92,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997817740046576,
      "loss": 0.3604,
      "step": 10470
    },
    {
      "epoch": 27.946666666666665,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004997813360397383,
      "loss": 0.3579,
      "step": 10480
    },
    {
      "epoch": 27.973333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004997808976359687,
      "loss": 0.368,
      "step": 10490
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004997804587933495,
      "loss": 0.3557,
      "step": 10500
    },
    {
      "epoch": 28.0,
      "eval_loss": 0.4157242476940155,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.4797,
      "eval_samples_per_second": 1.527,
      "eval_steps_per_second": 0.095,
      "step": 10500
    },
    {
      "epoch": 28.026666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004997800195118814,
      "loss": 0.3777,
      "step": 10510
    },
    {
      "epoch": 28.053333333333335,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004997795797915653,
      "loss": 0.3831,
      "step": 10520
    },
    {
      "epoch": 28.08,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000499779139632402,
      "loss": 0.3687,
      "step": 10530
    },
    {
      "epoch": 28.106666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004997786990343921,
      "loss": 0.3681,
      "step": 10540
    },
    {
      "epoch": 28.133333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004997782579975365,
      "loss": 0.3631,
      "step": 10550
    },
    {
      "epoch": 28.16,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000499777816521836,
      "loss": 0.3677,
      "step": 10560
    },
    {
      "epoch": 28.186666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004997773746072913,
      "loss": 0.3609,
      "step": 10570
    },
    {
      "epoch": 28.213333333333335,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004997769322539032,
      "loss": 0.3518,
      "step": 10580
    },
    {
      "epoch": 28.24,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004997764894616725,
      "loss": 0.3573,
      "step": 10590
    },
    {
      "epoch": 28.266666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004997760462305999,
      "loss": 0.3638,
      "step": 10600
    },
    {
      "epoch": 28.293333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004997756025606863,
      "loss": 0.3586,
      "step": 10610
    },
    {
      "epoch": 28.32,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004997751584519324,
      "loss": 0.3635,
      "step": 10620
    },
    {
      "epoch": 28.346666666666668,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000499774713904339,
      "loss": 0.3666,
      "step": 10630
    },
    {
      "epoch": 28.373333333333335,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000499774268917907,
      "loss": 0.3592,
      "step": 10640
    },
    {
      "epoch": 28.4,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004997738234926369,
      "loss": 0.3603,
      "step": 10650
    },
    {
      "epoch": 28.426666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004997733776285297,
      "loss": 0.3646,
      "step": 10660
    },
    {
      "epoch": 28.453333333333333,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004997729313255861,
      "loss": 0.3732,
      "step": 10670
    },
    {
      "epoch": 28.48,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004997724845838069,
      "loss": 0.3705,
      "step": 10680
    },
    {
      "epoch": 28.506666666666668,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004997720374031928,
      "loss": 0.3647,
      "step": 10690
    },
    {
      "epoch": 28.533333333333335,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004997715897837449,
      "loss": 0.3592,
      "step": 10700
    },
    {
      "epoch": 28.56,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004997711417254637,
      "loss": 0.3581,
      "step": 10710
    },
    {
      "epoch": 28.586666666666666,
      "grad_norm": 0.171875,
      "learning_rate": 0.00049977069322835,
      "loss": 0.3579,
      "step": 10720
    },
    {
      "epoch": 28.613333333333333,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0004997702442924046,
      "loss": 0.3467,
      "step": 10730
    },
    {
      "epoch": 28.64,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004997697949176284,
      "loss": 0.3524,
      "step": 10740
    },
    {
      "epoch": 28.666666666666668,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004997693451040221,
      "loss": 0.3668,
      "step": 10750
    },
    {
      "epoch": 28.693333333333335,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004997688948515866,
      "loss": 0.3477,
      "step": 10760
    },
    {
      "epoch": 28.72,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004997684441603225,
      "loss": 0.3629,
      "step": 10770
    },
    {
      "epoch": 28.746666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004997679930302307,
      "loss": 0.3651,
      "step": 10780
    },
    {
      "epoch": 28.773333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000499767541461312,
      "loss": 0.3767,
      "step": 10790
    },
    {
      "epoch": 28.8,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004997670894535672,
      "loss": 0.363,
      "step": 10800
    },
    {
      "epoch": 28.826666666666668,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004997666370069971,
      "loss": 0.3519,
      "step": 10810
    },
    {
      "epoch": 28.85333333333333,
      "grad_norm": 0.515625,
      "learning_rate": 0.0004997661841216024,
      "loss": 0.3557,
      "step": 10820
    },
    {
      "epoch": 28.88,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000499765730797384,
      "loss": 0.352,
      "step": 10830
    },
    {
      "epoch": 28.906666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004997652770343426,
      "loss": 0.3573,
      "step": 10840
    },
    {
      "epoch": 28.933333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004997648228324791,
      "loss": 0.3574,
      "step": 10850
    },
    {
      "epoch": 28.96,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004997643681917943,
      "loss": 0.355,
      "step": 10860
    },
    {
      "epoch": 28.986666666666668,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000499763913112289,
      "loss": 0.3716,
      "step": 10870
    },
    {
      "epoch": 29.0,
      "eval_loss": 0.41430604457855225,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4434,
      "eval_samples_per_second": 1.398,
      "eval_steps_per_second": 0.087,
      "step": 10875
    },
    {
      "epoch": 29.013333333333332,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004997634575939639,
      "loss": 0.3591,
      "step": 10880
    },
    {
      "epoch": 29.04,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004997630016368198,
      "loss": 0.3847,
      "step": 10890
    },
    {
      "epoch": 29.066666666666666,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004997625452408576,
      "loss": 0.3696,
      "step": 10900
    },
    {
      "epoch": 29.093333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004997620884060781,
      "loss": 0.3669,
      "step": 10910
    },
    {
      "epoch": 29.12,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004997616311324819,
      "loss": 0.3636,
      "step": 10920
    },
    {
      "epoch": 29.14666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004997611734200701,
      "loss": 0.3658,
      "step": 10930
    },
    {
      "epoch": 29.173333333333332,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004997607152688434,
      "loss": 0.3626,
      "step": 10940
    },
    {
      "epoch": 29.2,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004997602566788025,
      "loss": 0.3575,
      "step": 10950
    },
    {
      "epoch": 29.226666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0004997597976499483,
      "loss": 0.3522,
      "step": 10960
    },
    {
      "epoch": 29.253333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0004997593381822816,
      "loss": 0.3533,
      "step": 10970
    },
    {
      "epoch": 29.28,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004997588782758031,
      "loss": 0.3718,
      "step": 10980
    },
    {
      "epoch": 29.306666666666665,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004997584179305138,
      "loss": 0.3514,
      "step": 10990
    },
    {
      "epoch": 29.333333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004997579571464144,
      "loss": 0.3662,
      "step": 11000
    },
    {
      "epoch": 29.36,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004997574959235057,
      "loss": 0.3595,
      "step": 11010
    },
    {
      "epoch": 29.386666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004997570342617885,
      "loss": 0.3571,
      "step": 11020
    },
    {
      "epoch": 29.413333333333334,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004997565721612636,
      "loss": 0.3622,
      "step": 11030
    },
    {
      "epoch": 29.44,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000499756109621932,
      "loss": 0.3673,
      "step": 11040
    },
    {
      "epoch": 29.466666666666665,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004997556466437943,
      "loss": 0.3739,
      "step": 11050
    },
    {
      "epoch": 29.493333333333332,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004997551832268514,
      "loss": 0.3617,
      "step": 11060
    },
    {
      "epoch": 29.52,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004997547193711041,
      "loss": 0.3642,
      "step": 11070
    },
    {
      "epoch": 29.546666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004997542550765531,
      "loss": 0.3556,
      "step": 11080
    },
    {
      "epoch": 29.573333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004997537903431994,
      "loss": 0.358,
      "step": 11090
    },
    {
      "epoch": 29.6,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004997533251710438,
      "loss": 0.3504,
      "step": 11100
    },
    {
      "epoch": 29.626666666666665,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004997528595600869,
      "loss": 0.3473,
      "step": 11110
    },
    {
      "epoch": 29.653333333333332,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004997523935103298,
      "loss": 0.3616,
      "step": 11120
    },
    {
      "epoch": 29.68,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004997519270217731,
      "loss": 0.3508,
      "step": 11130
    },
    {
      "epoch": 29.706666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004997514600944177,
      "loss": 0.351,
      "step": 11140
    },
    {
      "epoch": 29.733333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004997509927282646,
      "loss": 0.3687,
      "step": 11150
    },
    {
      "epoch": 29.76,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004997505249233144,
      "loss": 0.3687,
      "step": 11160
    },
    {
      "epoch": 29.786666666666665,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004997500566795679,
      "loss": 0.3695,
      "step": 11170
    },
    {
      "epoch": 29.813333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.000499749587997026,
      "loss": 0.3524,
      "step": 11180
    },
    {
      "epoch": 29.84,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997491188756896,
      "loss": 0.3527,
      "step": 11190
    },
    {
      "epoch": 29.866666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997486493155594,
      "loss": 0.3532,
      "step": 11200
    },
    {
      "epoch": 29.893333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004997481793166362,
      "loss": 0.3516,
      "step": 11210
    },
    {
      "epoch": 29.92,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004997477088789211,
      "loss": 0.3579,
      "step": 11220
    },
    {
      "epoch": 29.946666666666665,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004997472380024146,
      "loss": 0.3553,
      "step": 11230
    },
    {
      "epoch": 29.973333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004997467666871176,
      "loss": 0.3653,
      "step": 11240
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.000499746294933031,
      "loss": 0.3532,
      "step": 11250
    },
    {
      "epoch": 30.0,
      "eval_loss": 0.41142600774765015,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 9.256,
      "eval_samples_per_second": 1.729,
      "eval_steps_per_second": 0.108,
      "step": 11250
    },
    {
      "epoch": 30.026666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004997458227401556,
      "loss": 0.3756,
      "step": 11260
    },
    {
      "epoch": 30.053333333333335,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004997453501084924,
      "loss": 0.381,
      "step": 11270
    },
    {
      "epoch": 30.08,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004997448770380419,
      "loss": 0.3647,
      "step": 11280
    },
    {
      "epoch": 30.106666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004997444035288052,
      "loss": 0.3641,
      "step": 11290
    },
    {
      "epoch": 30.133333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000499743929580783,
      "loss": 0.3599,
      "step": 11300
    },
    {
      "epoch": 30.16,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004997434551939761,
      "loss": 0.3657,
      "step": 11310
    },
    {
      "epoch": 30.186666666666667,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004997429803683855,
      "loss": 0.3583,
      "step": 11320
    },
    {
      "epoch": 30.213333333333335,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004997425051040119,
      "loss": 0.3496,
      "step": 11330
    },
    {
      "epoch": 30.24,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004997420294008562,
      "loss": 0.354,
      "step": 11340
    },
    {
      "epoch": 30.266666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000499741553258919,
      "loss": 0.3612,
      "step": 11350
    },
    {
      "epoch": 30.293333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004997410766782016,
      "loss": 0.3556,
      "step": 11360
    },
    {
      "epoch": 30.32,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004997405996587045,
      "loss": 0.3603,
      "step": 11370
    },
    {
      "epoch": 30.346666666666668,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004997401222004285,
      "loss": 0.3632,
      "step": 11380
    },
    {
      "epoch": 30.373333333333335,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004997396443033746,
      "loss": 0.3557,
      "step": 11390
    },
    {
      "epoch": 30.4,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004997391659675437,
      "loss": 0.3572,
      "step": 11400
    },
    {
      "epoch": 30.426666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004997386871929365,
      "loss": 0.3621,
      "step": 11410
    },
    {
      "epoch": 30.453333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004997382079795537,
      "loss": 0.3701,
      "step": 11420
    },
    {
      "epoch": 30.48,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004997377283273965,
      "loss": 0.3683,
      "step": 11430
    },
    {
      "epoch": 30.506666666666668,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004997372482364654,
      "loss": 0.3617,
      "step": 11440
    },
    {
      "epoch": 30.533333333333335,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004997367677067616,
      "loss": 0.3571,
      "step": 11450
    },
    {
      "epoch": 30.56,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004997362867382856,
      "loss": 0.3553,
      "step": 11460
    },
    {
      "epoch": 30.586666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004997358053310386,
      "loss": 0.3543,
      "step": 11470
    },
    {
      "epoch": 30.613333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004997353234850211,
      "loss": 0.344,
      "step": 11480
    },
    {
      "epoch": 30.64,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004997348412002341,
      "loss": 0.3498,
      "step": 11490
    },
    {
      "epoch": 30.666666666666668,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004997343584766784,
      "loss": 0.3648,
      "step": 11500
    },
    {
      "epoch": 30.693333333333335,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004997338753143549,
      "loss": 0.3441,
      "step": 11510
    },
    {
      "epoch": 30.72,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004997333917132644,
      "loss": 0.3607,
      "step": 11520
    },
    {
      "epoch": 30.746666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004997329076734077,
      "loss": 0.362,
      "step": 11530
    },
    {
      "epoch": 30.773333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004997324231947859,
      "loss": 0.3735,
      "step": 11540
    },
    {
      "epoch": 30.8,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004997319382773996,
      "loss": 0.3597,
      "step": 11550
    },
    {
      "epoch": 30.826666666666668,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004997314529212498,
      "loss": 0.3492,
      "step": 11560
    },
    {
      "epoch": 30.85333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004997309671263372,
      "loss": 0.353,
      "step": 11570
    },
    {
      "epoch": 30.88,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004997304808926628,
      "loss": 0.3497,
      "step": 11580
    },
    {
      "epoch": 30.906666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004997299942202274,
      "loss": 0.3539,
      "step": 11590
    },
    {
      "epoch": 30.933333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004997295071090317,
      "loss": 0.3543,
      "step": 11600
    },
    {
      "epoch": 30.96,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0004997290195590769,
      "loss": 0.3519,
      "step": 11610
    },
    {
      "epoch": 30.986666666666668,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004997285315703635,
      "loss": 0.3687,
      "step": 11620
    },
    {
      "epoch": 31.0,
      "eval_loss": 0.41124141216278076,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2435,
      "eval_samples_per_second": 1.423,
      "eval_steps_per_second": 0.089,
      "step": 11625
    },
    {
      "epoch": 31.013333333333332,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004997280431428926,
      "loss": 0.3563,
      "step": 11630
    },
    {
      "epoch": 31.04,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000499727554276665,
      "loss": 0.3824,
      "step": 11640
    },
    {
      "epoch": 31.066666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004997270649716815,
      "loss": 0.3671,
      "step": 11650
    },
    {
      "epoch": 31.093333333333334,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.000499726575227943,
      "loss": 0.3646,
      "step": 11660
    },
    {
      "epoch": 31.12,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004997260850454503,
      "loss": 0.3604,
      "step": 11670
    },
    {
      "epoch": 31.14666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004997255944242044,
      "loss": 0.3625,
      "step": 11680
    },
    {
      "epoch": 31.173333333333332,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004997251033642061,
      "loss": 0.3596,
      "step": 11690
    },
    {
      "epoch": 31.2,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004997246118654562,
      "loss": 0.354,
      "step": 11700
    },
    {
      "epoch": 31.226666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004997241199279555,
      "loss": 0.35,
      "step": 11710
    },
    {
      "epoch": 31.253333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000499723627551705,
      "loss": 0.35,
      "step": 11720
    },
    {
      "epoch": 31.28,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004997231347367057,
      "loss": 0.3687,
      "step": 11730
    },
    {
      "epoch": 31.306666666666665,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004997226414829582,
      "loss": 0.3493,
      "step": 11740
    },
    {
      "epoch": 31.333333333333332,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004997221477904634,
      "loss": 0.3636,
      "step": 11750
    },
    {
      "epoch": 31.36,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004997216536592224,
      "loss": 0.3565,
      "step": 11760
    },
    {
      "epoch": 31.386666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004997211590892358,
      "loss": 0.354,
      "step": 11770
    },
    {
      "epoch": 31.413333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004997206640805045,
      "loss": 0.3598,
      "step": 11780
    },
    {
      "epoch": 31.44,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997201686330296,
      "loss": 0.3651,
      "step": 11790
    },
    {
      "epoch": 31.466666666666665,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997196727468116,
      "loss": 0.3706,
      "step": 11800
    },
    {
      "epoch": 31.493333333333332,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997191764218518,
      "loss": 0.3592,
      "step": 11810
    },
    {
      "epoch": 31.52,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004997186796581507,
      "loss": 0.3615,
      "step": 11820
    },
    {
      "epoch": 31.546666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004997181824557094,
      "loss": 0.3529,
      "step": 11830
    },
    {
      "epoch": 31.573333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004997176848145288,
      "loss": 0.3549,
      "step": 11840
    },
    {
      "epoch": 31.6,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004997171867346094,
      "loss": 0.3482,
      "step": 11850
    },
    {
      "epoch": 31.626666666666665,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004997166882159526,
      "loss": 0.3442,
      "step": 11860
    },
    {
      "epoch": 31.653333333333332,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004997161892585589,
      "loss": 0.3595,
      "step": 11870
    },
    {
      "epoch": 31.68,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004997156898624294,
      "loss": 0.3482,
      "step": 11880
    },
    {
      "epoch": 31.706666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004997151900275648,
      "loss": 0.3482,
      "step": 11890
    },
    {
      "epoch": 31.733333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000499714689753966,
      "loss": 0.366,
      "step": 11900
    },
    {
      "epoch": 31.76,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004997141890416341,
      "loss": 0.367,
      "step": 11910
    },
    {
      "epoch": 31.786666666666665,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004997136878905697,
      "loss": 0.367,
      "step": 11920
    },
    {
      "epoch": 31.813333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004997131863007739,
      "loss": 0.3502,
      "step": 11930
    },
    {
      "epoch": 31.84,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004997126842722474,
      "loss": 0.3496,
      "step": 11940
    },
    {
      "epoch": 31.866666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004997121818049911,
      "loss": 0.3502,
      "step": 11950
    },
    {
      "epoch": 31.893333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000499711678899006,
      "loss": 0.3493,
      "step": 11960
    },
    {
      "epoch": 31.92,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000499711175554293,
      "loss": 0.3549,
      "step": 11970
    },
    {
      "epoch": 31.946666666666665,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004997106717708528,
      "loss": 0.3532,
      "step": 11980
    },
    {
      "epoch": 31.973333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004997101675486865,
      "loss": 0.3625,
      "step": 11990
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0004997096628877949,
      "loss": 0.35,
      "step": 12000
    },
    {
      "epoch": 32.0,
      "eval_loss": 0.41305193305015564,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.3974,
      "eval_samples_per_second": 1.194,
      "eval_steps_per_second": 0.075,
      "step": 12000
    },
    {
      "epoch": 32.026666666666664,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004997091577881787,
      "loss": 0.3721,
      "step": 12010
    },
    {
      "epoch": 32.053333333333335,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004997086522498391,
      "loss": 0.3779,
      "step": 12020
    },
    {
      "epoch": 32.08,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004997081462727767,
      "loss": 0.3628,
      "step": 12030
    },
    {
      "epoch": 32.10666666666667,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004997076398569928,
      "loss": 0.3623,
      "step": 12040
    },
    {
      "epoch": 32.13333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004997071330024878,
      "loss": 0.3576,
      "step": 12050
    },
    {
      "epoch": 32.16,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004997066257092629,
      "loss": 0.3628,
      "step": 12060
    },
    {
      "epoch": 32.18666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004997061179773188,
      "loss": 0.3561,
      "step": 12070
    },
    {
      "epoch": 32.21333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004997056098066566,
      "loss": 0.347,
      "step": 12080
    },
    {
      "epoch": 32.24,
      "grad_norm": 0.228515625,
      "learning_rate": 0.000499705101197277,
      "loss": 0.3519,
      "step": 12090
    },
    {
      "epoch": 32.266666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004997045921491812,
      "loss": 0.3584,
      "step": 12100
    },
    {
      "epoch": 32.29333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004997040826623697,
      "loss": 0.3532,
      "step": 12110
    },
    {
      "epoch": 32.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004997035727368435,
      "loss": 0.3581,
      "step": 12120
    },
    {
      "epoch": 32.346666666666664,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004997030623726037,
      "loss": 0.3604,
      "step": 12130
    },
    {
      "epoch": 32.373333333333335,
      "grad_norm": 0.5,
      "learning_rate": 0.000499702551569651,
      "loss": 0.3533,
      "step": 12140
    },
    {
      "epoch": 32.4,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004997020403279865,
      "loss": 0.3548,
      "step": 12150
    },
    {
      "epoch": 32.42666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004997015286476108,
      "loss": 0.3592,
      "step": 12160
    },
    {
      "epoch": 32.45333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000499701016528525,
      "loss": 0.3678,
      "step": 12170
    },
    {
      "epoch": 32.48,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00049970050397073,
      "loss": 0.3652,
      "step": 12180
    },
    {
      "epoch": 32.50666666666667,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004996999909742267,
      "loss": 0.3597,
      "step": 12190
    },
    {
      "epoch": 32.53333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004996994775390159,
      "loss": 0.354,
      "step": 12200
    },
    {
      "epoch": 32.56,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004996989636650986,
      "loss": 0.3527,
      "step": 12210
    },
    {
      "epoch": 32.586666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004996984493524755,
      "loss": 0.3517,
      "step": 12220
    },
    {
      "epoch": 32.61333333333333,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004996979346011479,
      "loss": 0.3418,
      "step": 12230
    },
    {
      "epoch": 32.64,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004996974194111163,
      "loss": 0.347,
      "step": 12240
    },
    {
      "epoch": 32.666666666666664,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004996969037823819,
      "loss": 0.3617,
      "step": 12250
    },
    {
      "epoch": 32.693333333333335,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004996963877149454,
      "loss": 0.3413,
      "step": 12260
    },
    {
      "epoch": 32.72,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004996958712088079,
      "loss": 0.3578,
      "step": 12270
    },
    {
      "epoch": 32.74666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004996953542639701,
      "loss": 0.36,
      "step": 12280
    },
    {
      "epoch": 32.77333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004996948368804331,
      "loss": 0.3714,
      "step": 12290
    },
    {
      "epoch": 32.8,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004996943190581976,
      "loss": 0.3574,
      "step": 12300
    },
    {
      "epoch": 32.82666666666667,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004996938007972647,
      "loss": 0.3463,
      "step": 12310
    },
    {
      "epoch": 32.85333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004996932820976352,
      "loss": 0.3501,
      "step": 12320
    },
    {
      "epoch": 32.88,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004996927629593101,
      "loss": 0.3476,
      "step": 12330
    },
    {
      "epoch": 32.906666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004996922433822903,
      "loss": 0.352,
      "step": 12340
    },
    {
      "epoch": 32.93333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004996917233665766,
      "loss": 0.3523,
      "step": 12350
    },
    {
      "epoch": 32.96,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004996912029121701,
      "loss": 0.3501,
      "step": 12360
    },
    {
      "epoch": 32.986666666666665,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004996906820190714,
      "loss": 0.3663,
      "step": 12370
    },
    {
      "epoch": 33.0,
      "eval_loss": 0.4094735085964203,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5299,
      "eval_samples_per_second": 1.277,
      "eval_steps_per_second": 0.08,
      "step": 12375
    },
    {
      "epoch": 33.013333333333335,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004996901606872817,
      "loss": 0.3539,
      "step": 12380
    },
    {
      "epoch": 33.04,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0004996896389168018,
      "loss": 0.3795,
      "step": 12390
    },
    {
      "epoch": 33.06666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004996891167076328,
      "loss": 0.3641,
      "step": 12400
    },
    {
      "epoch": 33.093333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.0004996885940597754,
      "loss": 0.3617,
      "step": 12410
    },
    {
      "epoch": 33.12,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004996880709732305,
      "loss": 0.3577,
      "step": 12420
    },
    {
      "epoch": 33.14666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004996875474479991,
      "loss": 0.3599,
      "step": 12430
    },
    {
      "epoch": 33.17333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004996870234840823,
      "loss": 0.3575,
      "step": 12440
    },
    {
      "epoch": 33.2,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004996864990814806,
      "loss": 0.3514,
      "step": 12450
    },
    {
      "epoch": 33.22666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004996859742401954,
      "loss": 0.3472,
      "step": 12460
    },
    {
      "epoch": 33.25333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004996854489602273,
      "loss": 0.3478,
      "step": 12470
    },
    {
      "epoch": 33.28,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004996849232415773,
      "loss": 0.3666,
      "step": 12480
    },
    {
      "epoch": 33.306666666666665,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0004996843970842463,
      "loss": 0.3468,
      "step": 12490
    },
    {
      "epoch": 33.333333333333336,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0004996838704882353,
      "loss": 0.3619,
      "step": 12500
    },
    {
      "epoch": 33.36,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004996833434535451,
      "loss": 0.3538,
      "step": 12510
    },
    {
      "epoch": 33.38666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004996828159801769,
      "loss": 0.3514,
      "step": 12520
    },
    {
      "epoch": 33.413333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004996822880681313,
      "loss": 0.3573,
      "step": 12530
    },
    {
      "epoch": 33.44,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004996817597174094,
      "loss": 0.3617,
      "step": 12540
    },
    {
      "epoch": 33.46666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004996812309280121,
      "loss": 0.3678,
      "step": 12550
    },
    {
      "epoch": 33.49333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004996807016999403,
      "loss": 0.3562,
      "step": 12560
    },
    {
      "epoch": 33.52,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004996801720331949,
      "loss": 0.3594,
      "step": 12570
    },
    {
      "epoch": 33.54666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004996796419277769,
      "loss": 0.3508,
      "step": 12580
    },
    {
      "epoch": 33.57333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004996791113836874,
      "loss": 0.3529,
      "step": 12590
    },
    {
      "epoch": 33.6,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004996785804009269,
      "loss": 0.3453,
      "step": 12600
    },
    {
      "epoch": 33.626666666666665,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004996780489794967,
      "loss": 0.3417,
      "step": 12610
    },
    {
      "epoch": 33.653333333333336,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004996775171193977,
      "loss": 0.3577,
      "step": 12620
    },
    {
      "epoch": 33.68,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004996769848206305,
      "loss": 0.3459,
      "step": 12630
    },
    {
      "epoch": 33.70666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004996764520831965,
      "loss": 0.3455,
      "step": 12640
    },
    {
      "epoch": 33.733333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004996759189070963,
      "loss": 0.3638,
      "step": 12650
    },
    {
      "epoch": 33.76,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000499675385292331,
      "loss": 0.3638,
      "step": 12660
    },
    {
      "epoch": 33.78666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004996748512389015,
      "loss": 0.3644,
      "step": 12670
    },
    {
      "epoch": 33.81333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004996743167468088,
      "loss": 0.3474,
      "step": 12680
    },
    {
      "epoch": 33.84,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004996737818160536,
      "loss": 0.3468,
      "step": 12690
    },
    {
      "epoch": 33.86666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004996732464466371,
      "loss": 0.3476,
      "step": 12700
    },
    {
      "epoch": 33.89333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004996727106385602,
      "loss": 0.3474,
      "step": 12710
    },
    {
      "epoch": 33.92,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0004996721743918237,
      "loss": 0.3524,
      "step": 12720
    },
    {
      "epoch": 33.946666666666665,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0004996716377064287,
      "loss": 0.3506,
      "step": 12730
    },
    {
      "epoch": 33.973333333333336,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0004996711005823761,
      "loss": 0.3597,
      "step": 12740
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0004996705630196667,
      "loss": 0.3476,
      "step": 12750
    },
    {
      "epoch": 34.0,
      "eval_loss": 0.40946313738822937,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.0588,
      "eval_samples_per_second": 1.591,
      "eval_steps_per_second": 0.099,
      "step": 12750
    },
    {
      "epoch": 34.026666666666664,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004996700250183017,
      "loss": 0.3703,
      "step": 12760
    },
    {
      "epoch": 34.053333333333335,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004996694865782818,
      "loss": 0.376,
      "step": 12770
    },
    {
      "epoch": 34.08,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004996689476996081,
      "loss": 0.36,
      "step": 12780
    },
    {
      "epoch": 34.10666666666667,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0004996684083822815,
      "loss": 0.3603,
      "step": 12790
    },
    {
      "epoch": 34.13333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.000499667868626303,
      "loss": 0.3551,
      "step": 12800
    },
    {
      "epoch": 34.16,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004996673284316735,
      "loss": 0.3604,
      "step": 12810
    },
    {
      "epoch": 34.18666666666667,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0004996667877983939,
      "loss": 0.3538,
      "step": 12820
    },
    {
      "epoch": 34.21333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004996662467264652,
      "loss": 0.3437,
      "step": 12830
    },
    {
      "epoch": 34.24,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004996657052158883,
      "loss": 0.35,
      "step": 12840
    },
    {
      "epoch": 34.266666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004996651632666642,
      "loss": 0.3561,
      "step": 12850
    },
    {
      "epoch": 34.29333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.000499664620878794,
      "loss": 0.3509,
      "step": 12860
    },
    {
      "epoch": 34.32,
      "grad_norm": 0.359375,
      "learning_rate": 0.0004996640780522784,
      "loss": 0.3558,
      "step": 12870
    },
    {
      "epoch": 34.346666666666664,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004996635347871185,
      "loss": 0.3586,
      "step": 12880
    },
    {
      "epoch": 34.373333333333335,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004996629910833151,
      "loss": 0.3503,
      "step": 12890
    },
    {
      "epoch": 34.4,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004996624469408694,
      "loss": 0.3517,
      "step": 12900
    },
    {
      "epoch": 34.42666666666667,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0004996619023597822,
      "loss": 0.3561,
      "step": 12910
    },
    {
      "epoch": 34.45333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004996613573400545,
      "loss": 0.3645,
      "step": 12920
    },
    {
      "epoch": 34.48,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004996608118816871,
      "loss": 0.3623,
      "step": 12930
    },
    {
      "epoch": 34.50666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004996602659846812,
      "loss": 0.3568,
      "step": 12940
    },
    {
      "epoch": 34.53333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004996597196490377,
      "loss": 0.3519,
      "step": 12950
    },
    {
      "epoch": 34.56,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004996591728747574,
      "loss": 0.3501,
      "step": 12960
    },
    {
      "epoch": 34.586666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004996586256618415,
      "loss": 0.3499,
      "step": 12970
    },
    {
      "epoch": 34.61333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004996580780102908,
      "loss": 0.3395,
      "step": 12980
    },
    {
      "epoch": 34.64,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004996575299201063,
      "loss": 0.3447,
      "step": 12990
    },
    {
      "epoch": 34.666666666666664,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004996569813912889,
      "loss": 0.3591,
      "step": 13000
    },
    {
      "epoch": 34.693333333333335,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004996564324238397,
      "loss": 0.3398,
      "step": 13010
    },
    {
      "epoch": 34.72,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004996558830177595,
      "loss": 0.3554,
      "step": 13020
    },
    {
      "epoch": 34.74666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004996553331730495,
      "loss": 0.3576,
      "step": 13030
    },
    {
      "epoch": 34.77333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004996547828897104,
      "loss": 0.3691,
      "step": 13040
    },
    {
      "epoch": 34.8,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004996542321677433,
      "loss": 0.355,
      "step": 13050
    },
    {
      "epoch": 34.82666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004996536810071493,
      "loss": 0.3441,
      "step": 13060
    },
    {
      "epoch": 34.85333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004996531294079291,
      "loss": 0.3475,
      "step": 13070
    },
    {
      "epoch": 34.88,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004996525773700838,
      "loss": 0.3455,
      "step": 13080
    },
    {
      "epoch": 34.906666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004996520248936144,
      "loss": 0.3497,
      "step": 13090
    },
    {
      "epoch": 34.93333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004996514719785217,
      "loss": 0.3496,
      "step": 13100
    },
    {
      "epoch": 34.96,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000499650918624807,
      "loss": 0.3477,
      "step": 13110
    },
    {
      "epoch": 34.986666666666665,
      "grad_norm": 0.203125,
      "learning_rate": 0.000499650364832471,
      "loss": 0.3631,
      "step": 13120
    },
    {
      "epoch": 35.0,
      "eval_loss": 0.40721866488456726,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9703,
      "eval_samples_per_second": 1.337,
      "eval_steps_per_second": 0.084,
      "step": 13125
    },
    {
      "epoch": 35.013333333333335,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004996498106015147,
      "loss": 0.3518,
      "step": 13130
    },
    {
      "epoch": 35.04,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004996492559319392,
      "loss": 0.3771,
      "step": 13140
    },
    {
      "epoch": 35.06666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004996487008237454,
      "loss": 0.3618,
      "step": 13150
    },
    {
      "epoch": 35.093333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004996481452769343,
      "loss": 0.3598,
      "step": 13160
    },
    {
      "epoch": 35.12,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004996475892915067,
      "loss": 0.3551,
      "step": 13170
    },
    {
      "epoch": 35.14666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004996470328674639,
      "loss": 0.3573,
      "step": 13180
    },
    {
      "epoch": 35.17333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004996464760048066,
      "loss": 0.3549,
      "step": 13190
    },
    {
      "epoch": 35.2,
      "grad_norm": 0.25,
      "learning_rate": 0.0004996459187035359,
      "loss": 0.3494,
      "step": 13200
    },
    {
      "epoch": 35.22666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004996453609636529,
      "loss": 0.3452,
      "step": 13210
    },
    {
      "epoch": 35.25333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004996448027851583,
      "loss": 0.3455,
      "step": 13220
    },
    {
      "epoch": 35.28,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004996442441680532,
      "loss": 0.364,
      "step": 13230
    },
    {
      "epoch": 35.306666666666665,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004996436851123387,
      "loss": 0.3446,
      "step": 13240
    },
    {
      "epoch": 35.333333333333336,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004996431256180156,
      "loss": 0.3591,
      "step": 13250
    },
    {
      "epoch": 35.36,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000499642565685085,
      "loss": 0.3517,
      "step": 13260
    },
    {
      "epoch": 35.38666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000499642005313548,
      "loss": 0.3491,
      "step": 13270
    },
    {
      "epoch": 35.413333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004996414445034052,
      "loss": 0.3541,
      "step": 13280
    },
    {
      "epoch": 35.44,
      "grad_norm": 0.2109375,
      "learning_rate": 0.000499640883254658,
      "loss": 0.3599,
      "step": 13290
    },
    {
      "epoch": 35.46666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004996403215673072,
      "loss": 0.3655,
      "step": 13300
    },
    {
      "epoch": 35.49333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004996397594413537,
      "loss": 0.3538,
      "step": 13310
    },
    {
      "epoch": 35.52,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004996391968767986,
      "loss": 0.3572,
      "step": 13320
    },
    {
      "epoch": 35.54666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000499638633873643,
      "loss": 0.3481,
      "step": 13330
    },
    {
      "epoch": 35.57333333333333,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004996380704318876,
      "loss": 0.3506,
      "step": 13340
    },
    {
      "epoch": 35.6,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004996375065515336,
      "loss": 0.3437,
      "step": 13350
    },
    {
      "epoch": 35.626666666666665,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000499636942232582,
      "loss": 0.3399,
      "step": 13360
    },
    {
      "epoch": 35.653333333333336,
      "grad_norm": 0.375,
      "learning_rate": 0.0004996363774750337,
      "loss": 0.354,
      "step": 13370
    },
    {
      "epoch": 35.68,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004996358122788897,
      "loss": 0.3432,
      "step": 13380
    },
    {
      "epoch": 35.70666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004996352466441511,
      "loss": 0.3441,
      "step": 13390
    },
    {
      "epoch": 35.733333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004996346805708188,
      "loss": 0.362,
      "step": 13400
    },
    {
      "epoch": 35.76,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004996341140588937,
      "loss": 0.3622,
      "step": 13410
    },
    {
      "epoch": 35.78666666666667,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004996335471083769,
      "loss": 0.3617,
      "step": 13420
    },
    {
      "epoch": 35.81333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004996329797192695,
      "loss": 0.3449,
      "step": 13430
    },
    {
      "epoch": 35.84,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004996324118915724,
      "loss": 0.3453,
      "step": 13440
    },
    {
      "epoch": 35.86666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004996318436252865,
      "loss": 0.345,
      "step": 13450
    },
    {
      "epoch": 35.89333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004996312749204131,
      "loss": 0.3449,
      "step": 13460
    },
    {
      "epoch": 35.92,
      "grad_norm": 0.625,
      "learning_rate": 0.0004996307057769528,
      "loss": 0.3495,
      "step": 13470
    },
    {
      "epoch": 35.946666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004996301361949068,
      "loss": 0.3483,
      "step": 13480
    },
    {
      "epoch": 35.973333333333336,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004996295661742761,
      "loss": 0.3578,
      "step": 13490
    },
    {
      "epoch": 36.0,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004996289957150617,
      "loss": 0.3454,
      "step": 13500
    },
    {
      "epoch": 36.0,
      "eval_loss": 0.40985241532325745,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.1707,
      "eval_samples_per_second": 1.573,
      "eval_steps_per_second": 0.098,
      "step": 13500
    },
    {
      "epoch": 36.026666666666664,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004996284248172647,
      "loss": 0.368,
      "step": 13510
    },
    {
      "epoch": 36.053333333333335,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004996278534808859,
      "loss": 0.3739,
      "step": 13520
    },
    {
      "epoch": 36.08,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004996272817059264,
      "loss": 0.3585,
      "step": 13530
    },
    {
      "epoch": 36.10666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004996267094923873,
      "loss": 0.3578,
      "step": 13540
    },
    {
      "epoch": 36.13333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004996261368402695,
      "loss": 0.3529,
      "step": 13550
    },
    {
      "epoch": 36.16,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004996255637495739,
      "loss": 0.3585,
      "step": 13560
    },
    {
      "epoch": 36.18666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004996249902203016,
      "loss": 0.3517,
      "step": 13570
    },
    {
      "epoch": 36.21333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004996244162524538,
      "loss": 0.3421,
      "step": 13580
    },
    {
      "epoch": 36.24,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004996238418460313,
      "loss": 0.3468,
      "step": 13590
    },
    {
      "epoch": 36.266666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0004996232670010351,
      "loss": 0.3544,
      "step": 13600
    },
    {
      "epoch": 36.29333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004996226917174663,
      "loss": 0.3487,
      "step": 13610
    },
    {
      "epoch": 36.32,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004996221159953258,
      "loss": 0.354,
      "step": 13620
    },
    {
      "epoch": 36.346666666666664,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004996215398346147,
      "loss": 0.3563,
      "step": 13630
    },
    {
      "epoch": 36.373333333333335,
      "grad_norm": 0.328125,
      "learning_rate": 0.0004996209632353342,
      "loss": 0.3487,
      "step": 13640
    },
    {
      "epoch": 36.4,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004996203861974849,
      "loss": 0.3496,
      "step": 13650
    },
    {
      "epoch": 36.42666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000499619808721068,
      "loss": 0.3541,
      "step": 13660
    },
    {
      "epoch": 36.45333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004996192308060846,
      "loss": 0.3631,
      "step": 13670
    },
    {
      "epoch": 36.48,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004996186524525356,
      "loss": 0.3606,
      "step": 13680
    },
    {
      "epoch": 36.50666666666667,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004996180736604221,
      "loss": 0.3551,
      "step": 13690
    },
    {
      "epoch": 36.53333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004996174944297451,
      "loss": 0.3495,
      "step": 13700
    },
    {
      "epoch": 36.56,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004996169147605057,
      "loss": 0.348,
      "step": 13710
    },
    {
      "epoch": 36.586666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004996163346527048,
      "loss": 0.3477,
      "step": 13720
    },
    {
      "epoch": 36.61333333333333,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004996157541063433,
      "loss": 0.3375,
      "step": 13730
    },
    {
      "epoch": 36.64,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004996151731214225,
      "loss": 0.3427,
      "step": 13740
    },
    {
      "epoch": 36.666666666666664,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004996145916979431,
      "loss": 0.3576,
      "step": 13750
    },
    {
      "epoch": 36.693333333333335,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004996140098359064,
      "loss": 0.3371,
      "step": 13760
    },
    {
      "epoch": 36.72,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004996134275353135,
      "loss": 0.3532,
      "step": 13770
    },
    {
      "epoch": 36.74666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000499612844796165,
      "loss": 0.3554,
      "step": 13780
    },
    {
      "epoch": 36.77333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004996122616184623,
      "loss": 0.3672,
      "step": 13790
    },
    {
      "epoch": 36.8,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004996116780022062,
      "loss": 0.3525,
      "step": 13800
    },
    {
      "epoch": 36.82666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004996110939473979,
      "loss": 0.3417,
      "step": 13810
    },
    {
      "epoch": 36.85333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004996105094540384,
      "loss": 0.3454,
      "step": 13820
    },
    {
      "epoch": 36.88,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004996099245221286,
      "loss": 0.3429,
      "step": 13830
    },
    {
      "epoch": 36.906666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004996093391516696,
      "loss": 0.3472,
      "step": 13840
    },
    {
      "epoch": 36.93333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004996087533426625,
      "loss": 0.3474,
      "step": 13850
    },
    {
      "epoch": 36.96,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004996081670951082,
      "loss": 0.3461,
      "step": 13860
    },
    {
      "epoch": 36.986666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004996075804090078,
      "loss": 0.3611,
      "step": 13870
    },
    {
      "epoch": 37.0,
      "eval_loss": 0.40963074564933777,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5766,
      "eval_samples_per_second": 1.513,
      "eval_steps_per_second": 0.095,
      "step": 13875
    },
    {
      "epoch": 37.013333333333335,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004996069932843622,
      "loss": 0.3492,
      "step": 13880
    },
    {
      "epoch": 37.04,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0004996064057211727,
      "loss": 0.3754,
      "step": 13890
    },
    {
      "epoch": 37.06666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004996058177194401,
      "loss": 0.3597,
      "step": 13900
    },
    {
      "epoch": 37.093333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004996052292791656,
      "loss": 0.3575,
      "step": 13910
    },
    {
      "epoch": 37.12,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004996046404003501,
      "loss": 0.3528,
      "step": 13920
    },
    {
      "epoch": 37.14666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004996040510829948,
      "loss": 0.3551,
      "step": 13930
    },
    {
      "epoch": 37.17333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004996034613271006,
      "loss": 0.3537,
      "step": 13940
    },
    {
      "epoch": 37.2,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004996028711326684,
      "loss": 0.347,
      "step": 13950
    },
    {
      "epoch": 37.22666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004996022804996995,
      "loss": 0.3426,
      "step": 13960
    },
    {
      "epoch": 37.25333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004996016894281949,
      "loss": 0.3431,
      "step": 13970
    },
    {
      "epoch": 37.28,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004996010979181555,
      "loss": 0.3617,
      "step": 13980
    },
    {
      "epoch": 37.306666666666665,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004996005059695823,
      "loss": 0.342,
      "step": 13990
    },
    {
      "epoch": 37.333333333333336,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004995999135824766,
      "loss": 0.3574,
      "step": 14000
    },
    {
      "epoch": 37.36,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004995993207568393,
      "loss": 0.3495,
      "step": 14010
    },
    {
      "epoch": 37.38666666666666,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004995987274926713,
      "loss": 0.3459,
      "step": 14020
    },
    {
      "epoch": 37.413333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004995981337899739,
      "loss": 0.3522,
      "step": 14030
    },
    {
      "epoch": 37.44,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000499597539648748,
      "loss": 0.3571,
      "step": 14040
    },
    {
      "epoch": 37.46666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004995969450689946,
      "loss": 0.3633,
      "step": 14050
    },
    {
      "epoch": 37.49333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004995963500507148,
      "loss": 0.3514,
      "step": 14060
    },
    {
      "epoch": 37.52,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0004995957545939097,
      "loss": 0.3549,
      "step": 14070
    },
    {
      "epoch": 37.54666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004995951586985803,
      "loss": 0.3457,
      "step": 14080
    },
    {
      "epoch": 37.57333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004995945623647277,
      "loss": 0.3484,
      "step": 14090
    },
    {
      "epoch": 37.6,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004995939655923528,
      "loss": 0.3411,
      "step": 14100
    },
    {
      "epoch": 37.626666666666665,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004995933683814568,
      "loss": 0.3379,
      "step": 14110
    },
    {
      "epoch": 37.653333333333336,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004995927707320407,
      "loss": 0.3524,
      "step": 14120
    },
    {
      "epoch": 37.68,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004995921726441055,
      "loss": 0.3411,
      "step": 14130
    },
    {
      "epoch": 37.70666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004995915741176524,
      "loss": 0.3415,
      "step": 14140
    },
    {
      "epoch": 37.733333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004995909751526822,
      "loss": 0.359,
      "step": 14150
    },
    {
      "epoch": 37.76,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004995903757491961,
      "loss": 0.3599,
      "step": 14160
    },
    {
      "epoch": 37.78666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004995897759071952,
      "loss": 0.3604,
      "step": 14170
    },
    {
      "epoch": 37.81333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004995891756266805,
      "loss": 0.3431,
      "step": 14180
    },
    {
      "epoch": 37.84,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004995885749076531,
      "loss": 0.3428,
      "step": 14190
    },
    {
      "epoch": 37.86666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000499587973750114,
      "loss": 0.3434,
      "step": 14200
    },
    {
      "epoch": 37.89333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004995873721540642,
      "loss": 0.3425,
      "step": 14210
    },
    {
      "epoch": 37.92,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004995867701195048,
      "loss": 0.3475,
      "step": 14220
    },
    {
      "epoch": 37.946666666666665,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000499586167646437,
      "loss": 0.3458,
      "step": 14230
    },
    {
      "epoch": 37.973333333333336,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004995855647348617,
      "loss": 0.3553,
      "step": 14240
    },
    {
      "epoch": 38.0,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00049958496138478,
      "loss": 0.343,
      "step": 14250
    },
    {
      "epoch": 38.0,
      "eval_loss": 0.4083141088485718,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9174,
      "eval_samples_per_second": 1.343,
      "eval_steps_per_second": 0.084,
      "step": 14250
    },
    {
      "epoch": 38.026666666666664,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000499584357596193,
      "loss": 0.3654,
      "step": 14260
    },
    {
      "epoch": 38.053333333333335,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004995837533691016,
      "loss": 0.3714,
      "step": 14270
    },
    {
      "epoch": 38.08,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000499583148703507,
      "loss": 0.3556,
      "step": 14280
    },
    {
      "epoch": 38.10666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004995825435994104,
      "loss": 0.356,
      "step": 14290
    },
    {
      "epoch": 38.13333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004995819380568126,
      "loss": 0.3502,
      "step": 14300
    },
    {
      "epoch": 38.16,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004995813320757148,
      "loss": 0.3554,
      "step": 14310
    },
    {
      "epoch": 38.18666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000499580725656118,
      "loss": 0.3497,
      "step": 14320
    },
    {
      "epoch": 38.21333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004995801187980233,
      "loss": 0.3392,
      "step": 14330
    },
    {
      "epoch": 38.24,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004995795115014319,
      "loss": 0.3451,
      "step": 14340
    },
    {
      "epoch": 38.266666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004995789037663446,
      "loss": 0.351,
      "step": 14350
    },
    {
      "epoch": 38.29333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004995782955927627,
      "loss": 0.346,
      "step": 14360
    },
    {
      "epoch": 38.32,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000499577686980687,
      "loss": 0.3516,
      "step": 14370
    },
    {
      "epoch": 38.346666666666664,
      "grad_norm": 0.25,
      "learning_rate": 0.0004995770779301189,
      "loss": 0.3539,
      "step": 14380
    },
    {
      "epoch": 38.373333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0004995764684410593,
      "loss": 0.3454,
      "step": 14390
    },
    {
      "epoch": 38.4,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004995758585135092,
      "loss": 0.3471,
      "step": 14400
    },
    {
      "epoch": 38.42666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00049957524814747,
      "loss": 0.352,
      "step": 14410
    },
    {
      "epoch": 38.45333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004995746373429423,
      "loss": 0.361,
      "step": 14420
    },
    {
      "epoch": 38.48,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004995740260999274,
      "loss": 0.3579,
      "step": 14430
    },
    {
      "epoch": 38.50666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004995734144184265,
      "loss": 0.3526,
      "step": 14440
    },
    {
      "epoch": 38.53333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004995728022984404,
      "loss": 0.3475,
      "step": 14450
    },
    {
      "epoch": 38.56,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004995721897399704,
      "loss": 0.3453,
      "step": 14460
    },
    {
      "epoch": 38.586666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004995715767430175,
      "loss": 0.3462,
      "step": 14470
    },
    {
      "epoch": 38.61333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004995709633075828,
      "loss": 0.3356,
      "step": 14480
    },
    {
      "epoch": 38.64,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004995703494336673,
      "loss": 0.341,
      "step": 14490
    },
    {
      "epoch": 38.666666666666664,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004995697351212722,
      "loss": 0.3548,
      "step": 14500
    },
    {
      "epoch": 38.693333333333335,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004995691203703984,
      "loss": 0.3351,
      "step": 14510
    },
    {
      "epoch": 38.72,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004995685051810471,
      "loss": 0.3516,
      "step": 14520
    },
    {
      "epoch": 38.74666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004995678895532195,
      "loss": 0.3525,
      "step": 14530
    },
    {
      "epoch": 38.77333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004995672734869165,
      "loss": 0.3652,
      "step": 14540
    },
    {
      "epoch": 38.8,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004995666569821392,
      "loss": 0.3509,
      "step": 14550
    },
    {
      "epoch": 38.82666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004995660400388888,
      "loss": 0.3392,
      "step": 14560
    },
    {
      "epoch": 38.85333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004995654226571663,
      "loss": 0.3435,
      "step": 14570
    },
    {
      "epoch": 38.88,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004995648048369727,
      "loss": 0.3413,
      "step": 14580
    },
    {
      "epoch": 38.906666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004995641865783093,
      "loss": 0.345,
      "step": 14590
    },
    {
      "epoch": 38.93333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004995635678811769,
      "loss": 0.3454,
      "step": 14600
    },
    {
      "epoch": 38.96,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004995629487455768,
      "loss": 0.3441,
      "step": 14610
    },
    {
      "epoch": 38.986666666666665,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004995623291715101,
      "loss": 0.3588,
      "step": 14620
    },
    {
      "epoch": 39.0,
      "eval_loss": 0.40940627455711365,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2182,
      "eval_samples_per_second": 1.426,
      "eval_steps_per_second": 0.089,
      "step": 14625
    },
    {
      "epoch": 39.013333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004995617091589779,
      "loss": 0.3473,
      "step": 14630
    },
    {
      "epoch": 39.04,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004995610887079811,
      "loss": 0.3736,
      "step": 14640
    },
    {
      "epoch": 39.06666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004995604678185209,
      "loss": 0.358,
      "step": 14650
    },
    {
      "epoch": 39.093333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004995598464905984,
      "loss": 0.3561,
      "step": 14660
    },
    {
      "epoch": 39.12,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004995592247242147,
      "loss": 0.3512,
      "step": 14670
    },
    {
      "epoch": 39.14666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004995586025193709,
      "loss": 0.3532,
      "step": 14680
    },
    {
      "epoch": 39.17333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004995579798760681,
      "loss": 0.3515,
      "step": 14690
    },
    {
      "epoch": 39.2,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004995573567943073,
      "loss": 0.3454,
      "step": 14700
    },
    {
      "epoch": 39.22666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004995567332740896,
      "loss": 0.3409,
      "step": 14710
    },
    {
      "epoch": 39.25333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004995561093154163,
      "loss": 0.3408,
      "step": 14720
    },
    {
      "epoch": 39.28,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004995554849182883,
      "loss": 0.3605,
      "step": 14730
    },
    {
      "epoch": 39.306666666666665,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004995548600827067,
      "loss": 0.3401,
      "step": 14740
    },
    {
      "epoch": 39.333333333333336,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004995542348086728,
      "loss": 0.3547,
      "step": 14750
    },
    {
      "epoch": 39.36,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004995536090961875,
      "loss": 0.3464,
      "step": 14760
    },
    {
      "epoch": 39.38666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004995529829452518,
      "loss": 0.3441,
      "step": 14770
    },
    {
      "epoch": 39.413333333333334,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000499552356355867,
      "loss": 0.3495,
      "step": 14780
    },
    {
      "epoch": 39.44,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004995517293280342,
      "loss": 0.3556,
      "step": 14790
    },
    {
      "epoch": 39.46666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004995511018617544,
      "loss": 0.3608,
      "step": 14800
    },
    {
      "epoch": 39.49333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004995504739570288,
      "loss": 0.3495,
      "step": 14810
    },
    {
      "epoch": 39.52,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004995498456138584,
      "loss": 0.3527,
      "step": 14820
    },
    {
      "epoch": 39.54666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004995492168322444,
      "loss": 0.3438,
      "step": 14830
    },
    {
      "epoch": 39.57333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004995485876121879,
      "loss": 0.3465,
      "step": 14840
    },
    {
      "epoch": 39.6,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004995479579536899,
      "loss": 0.3395,
      "step": 14850
    },
    {
      "epoch": 39.626666666666665,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004995473278567517,
      "loss": 0.3361,
      "step": 14860
    },
    {
      "epoch": 39.653333333333336,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004995466973213741,
      "loss": 0.3504,
      "step": 14870
    },
    {
      "epoch": 39.68,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004995460663475584,
      "loss": 0.3388,
      "step": 14880
    },
    {
      "epoch": 39.70666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004995454349353058,
      "loss": 0.3397,
      "step": 14890
    },
    {
      "epoch": 39.733333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004995448030846172,
      "loss": 0.3581,
      "step": 14900
    },
    {
      "epoch": 39.76,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004995441707954939,
      "loss": 0.3577,
      "step": 14910
    },
    {
      "epoch": 39.78666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.000499543538067937,
      "loss": 0.3585,
      "step": 14920
    },
    {
      "epoch": 39.81333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004995429049019474,
      "loss": 0.3416,
      "step": 14930
    },
    {
      "epoch": 39.84,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004995422712975264,
      "loss": 0.3408,
      "step": 14940
    },
    {
      "epoch": 39.86666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004995416372546751,
      "loss": 0.3413,
      "step": 14950
    },
    {
      "epoch": 39.89333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004995410027733945,
      "loss": 0.3407,
      "step": 14960
    },
    {
      "epoch": 39.92,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004995403678536859,
      "loss": 0.3455,
      "step": 14970
    },
    {
      "epoch": 39.946666666666665,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004995397324955503,
      "loss": 0.344,
      "step": 14980
    },
    {
      "epoch": 39.973333333333336,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004995390966989888,
      "loss": 0.3538,
      "step": 14990
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004995384604640025,
      "loss": 0.3412,
      "step": 15000
    },
    {
      "epoch": 40.0,
      "eval_loss": 0.4093421399593353,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.3136,
      "eval_samples_per_second": 1.299,
      "eval_steps_per_second": 0.081,
      "step": 15000
    },
    {
      "epoch": 40.026666666666664,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004995378237905926,
      "loss": 0.3639,
      "step": 15010
    },
    {
      "epoch": 40.053333333333335,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004995371866787601,
      "loss": 0.3692,
      "step": 15020
    },
    {
      "epoch": 40.08,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004995365491285063,
      "loss": 0.354,
      "step": 15030
    },
    {
      "epoch": 40.10666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004995359111398323,
      "loss": 0.3542,
      "step": 15040
    },
    {
      "epoch": 40.13333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000499535272712739,
      "loss": 0.3482,
      "step": 15050
    },
    {
      "epoch": 40.16,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004995346338472277,
      "loss": 0.354,
      "step": 15060
    },
    {
      "epoch": 40.18666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004995339945432994,
      "loss": 0.3475,
      "step": 15070
    },
    {
      "epoch": 40.21333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004995333548009554,
      "loss": 0.3381,
      "step": 15080
    },
    {
      "epoch": 40.24,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004995327146201968,
      "loss": 0.3427,
      "step": 15090
    },
    {
      "epoch": 40.266666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004995320740010245,
      "loss": 0.3497,
      "step": 15100
    },
    {
      "epoch": 40.29333333333334,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004995314329434399,
      "loss": 0.344,
      "step": 15110
    },
    {
      "epoch": 40.32,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004995307914474439,
      "loss": 0.3499,
      "step": 15120
    },
    {
      "epoch": 40.346666666666664,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004995301495130378,
      "loss": 0.3513,
      "step": 15130
    },
    {
      "epoch": 40.373333333333335,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004995295071402227,
      "loss": 0.3434,
      "step": 15140
    },
    {
      "epoch": 40.4,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004995288643289996,
      "loss": 0.3454,
      "step": 15150
    },
    {
      "epoch": 40.42666666666667,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004995282210793698,
      "loss": 0.3499,
      "step": 15160
    },
    {
      "epoch": 40.45333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004995275773913343,
      "loss": 0.3588,
      "step": 15170
    },
    {
      "epoch": 40.48,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004995269332648943,
      "loss": 0.3559,
      "step": 15180
    },
    {
      "epoch": 40.50666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000499526288700051,
      "loss": 0.3507,
      "step": 15190
    },
    {
      "epoch": 40.53333333333333,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004995256436968053,
      "loss": 0.3458,
      "step": 15200
    },
    {
      "epoch": 40.56,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004995249982551585,
      "loss": 0.3437,
      "step": 15210
    },
    {
      "epoch": 40.586666666666666,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004995243523751118,
      "loss": 0.3445,
      "step": 15220
    },
    {
      "epoch": 40.61333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004995237060566662,
      "loss": 0.334,
      "step": 15230
    },
    {
      "epoch": 40.64,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004995230592998228,
      "loss": 0.3387,
      "step": 15240
    },
    {
      "epoch": 40.666666666666664,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004995224121045831,
      "loss": 0.3533,
      "step": 15250
    },
    {
      "epoch": 40.693333333333335,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004995217644709478,
      "loss": 0.3331,
      "step": 15260
    },
    {
      "epoch": 40.72,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000499521116398918,
      "loss": 0.3494,
      "step": 15270
    },
    {
      "epoch": 40.74666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004995204678884952,
      "loss": 0.3513,
      "step": 15280
    },
    {
      "epoch": 40.77333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004995198189396804,
      "loss": 0.3623,
      "step": 15290
    },
    {
      "epoch": 40.8,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004995191695524747,
      "loss": 0.3488,
      "step": 15300
    },
    {
      "epoch": 40.82666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004995185197268793,
      "loss": 0.3377,
      "step": 15310
    },
    {
      "epoch": 40.85333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0004995178694628952,
      "loss": 0.3417,
      "step": 15320
    },
    {
      "epoch": 40.88,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004995172187605237,
      "loss": 0.3391,
      "step": 15330
    },
    {
      "epoch": 40.906666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004995165676197658,
      "loss": 0.3434,
      "step": 15340
    },
    {
      "epoch": 40.93333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004995159160406228,
      "loss": 0.3432,
      "step": 15350
    },
    {
      "epoch": 40.96,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004995152640230958,
      "loss": 0.3418,
      "step": 15360
    },
    {
      "epoch": 40.986666666666665,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004995146115671858,
      "loss": 0.3569,
      "step": 15370
    },
    {
      "epoch": 41.0,
      "eval_loss": 0.4083143472671509,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9679,
      "eval_samples_per_second": 1.337,
      "eval_steps_per_second": 0.084,
      "step": 15375
    },
    {
      "epoch": 41.013333333333335,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004995139586728941,
      "loss": 0.3453,
      "step": 15380
    },
    {
      "epoch": 41.04,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004995133053402219,
      "loss": 0.371,
      "step": 15390
    },
    {
      "epoch": 41.06666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004995126515691702,
      "loss": 0.3561,
      "step": 15400
    },
    {
      "epoch": 41.093333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004995119973597402,
      "loss": 0.3541,
      "step": 15410
    },
    {
      "epoch": 41.12,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000499511342711933,
      "loss": 0.349,
      "step": 15420
    },
    {
      "epoch": 41.14666666666667,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004995106876257498,
      "loss": 0.351,
      "step": 15430
    },
    {
      "epoch": 41.17333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004995100321011919,
      "loss": 0.3499,
      "step": 15440
    },
    {
      "epoch": 41.2,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004995093761382602,
      "loss": 0.343,
      "step": 15450
    },
    {
      "epoch": 41.22666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000499508719736956,
      "loss": 0.3384,
      "step": 15460
    },
    {
      "epoch": 41.25333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004995080628972804,
      "loss": 0.3387,
      "step": 15470
    },
    {
      "epoch": 41.28,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004995074056192345,
      "loss": 0.3572,
      "step": 15480
    },
    {
      "epoch": 41.306666666666665,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004995067479028197,
      "loss": 0.3378,
      "step": 15490
    },
    {
      "epoch": 41.333333333333336,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004995060897480368,
      "loss": 0.3533,
      "step": 15500
    },
    {
      "epoch": 41.36,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004995054311548872,
      "loss": 0.3449,
      "step": 15510
    },
    {
      "epoch": 41.38666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000499504772123372,
      "loss": 0.3426,
      "step": 15520
    },
    {
      "epoch": 41.413333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004995041126534923,
      "loss": 0.3479,
      "step": 15530
    },
    {
      "epoch": 41.44,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004995034527452494,
      "loss": 0.3542,
      "step": 15540
    },
    {
      "epoch": 41.46666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004995027923986443,
      "loss": 0.359,
      "step": 15550
    },
    {
      "epoch": 41.49333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004995021316136783,
      "loss": 0.3481,
      "step": 15560
    },
    {
      "epoch": 41.52,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004995014703903524,
      "loss": 0.3513,
      "step": 15570
    },
    {
      "epoch": 41.54666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004995008087286679,
      "loss": 0.3421,
      "step": 15580
    },
    {
      "epoch": 41.57333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004995001466286259,
      "loss": 0.3445,
      "step": 15590
    },
    {
      "epoch": 41.6,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004994994840902276,
      "loss": 0.3374,
      "step": 15600
    },
    {
      "epoch": 41.626666666666665,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000499498821113474,
      "loss": 0.3336,
      "step": 15610
    },
    {
      "epoch": 41.653333333333336,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004994981576983666,
      "loss": 0.3487,
      "step": 15620
    },
    {
      "epoch": 41.68,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004994974938449063,
      "loss": 0.3375,
      "step": 15630
    },
    {
      "epoch": 41.70666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004994968295530943,
      "loss": 0.3375,
      "step": 15640
    },
    {
      "epoch": 41.733333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004994961648229318,
      "loss": 0.3551,
      "step": 15650
    },
    {
      "epoch": 41.76,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00049949549965442,
      "loss": 0.3563,
      "step": 15660
    },
    {
      "epoch": 41.78666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00049949483404756,
      "loss": 0.3566,
      "step": 15670
    },
    {
      "epoch": 41.81333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004994941680023532,
      "loss": 0.3387,
      "step": 15680
    },
    {
      "epoch": 41.84,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004994935015188004,
      "loss": 0.3383,
      "step": 15690
    },
    {
      "epoch": 41.86666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000499492834596903,
      "loss": 0.3395,
      "step": 15700
    },
    {
      "epoch": 41.89333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000499492167236662,
      "loss": 0.3391,
      "step": 15710
    },
    {
      "epoch": 41.92,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004994914994380789,
      "loss": 0.343,
      "step": 15720
    },
    {
      "epoch": 41.946666666666665,
      "grad_norm": 0.328125,
      "learning_rate": 0.0004994908312011546,
      "loss": 0.3422,
      "step": 15730
    },
    {
      "epoch": 41.973333333333336,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004994901625258902,
      "loss": 0.3522,
      "step": 15740
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004994894934122871,
      "loss": 0.3395,
      "step": 15750
    },
    {
      "epoch": 42.0,
      "eval_loss": 0.4096122086048126,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7777,
      "eval_samples_per_second": 1.485,
      "eval_steps_per_second": 0.093,
      "step": 15750
    },
    {
      "epoch": 42.026666666666664,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004994888238603465,
      "loss": 0.3614,
      "step": 15760
    },
    {
      "epoch": 42.053333333333335,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004994881538700694,
      "loss": 0.3669,
      "step": 15770
    },
    {
      "epoch": 42.08,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000499487483441457,
      "loss": 0.3521,
      "step": 15780
    },
    {
      "epoch": 42.10666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004994868125745107,
      "loss": 0.3519,
      "step": 15790
    },
    {
      "epoch": 42.13333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004994861412692313,
      "loss": 0.3465,
      "step": 15800
    },
    {
      "epoch": 42.16,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004994854695256202,
      "loss": 0.3516,
      "step": 15810
    },
    {
      "epoch": 42.18666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004994847973436786,
      "loss": 0.3463,
      "step": 15820
    },
    {
      "epoch": 42.21333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004994841247234077,
      "loss": 0.3361,
      "step": 15830
    },
    {
      "epoch": 42.24,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0004994834516648085,
      "loss": 0.3412,
      "step": 15840
    },
    {
      "epoch": 42.266666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004994827781678824,
      "loss": 0.3472,
      "step": 15850
    },
    {
      "epoch": 42.29333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004994821042326305,
      "loss": 0.3425,
      "step": 15860
    },
    {
      "epoch": 42.32,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000499481429859054,
      "loss": 0.3478,
      "step": 15870
    },
    {
      "epoch": 42.346666666666664,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004994807550471541,
      "loss": 0.3497,
      "step": 15880
    },
    {
      "epoch": 42.373333333333335,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004994800797969318,
      "loss": 0.3422,
      "step": 15890
    },
    {
      "epoch": 42.4,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004994794041083885,
      "loss": 0.3431,
      "step": 15900
    },
    {
      "epoch": 42.42666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004994787279815254,
      "loss": 0.3485,
      "step": 15910
    },
    {
      "epoch": 42.45333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004994780514163434,
      "loss": 0.3568,
      "step": 15920
    },
    {
      "epoch": 42.48,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004994773744128441,
      "loss": 0.3541,
      "step": 15930
    },
    {
      "epoch": 42.50666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004994766969710284,
      "loss": 0.3489,
      "step": 15940
    },
    {
      "epoch": 42.53333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004994760190908976,
      "loss": 0.3434,
      "step": 15950
    },
    {
      "epoch": 42.56,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0004994753407724528,
      "loss": 0.3414,
      "step": 15960
    },
    {
      "epoch": 42.586666666666666,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004994746620156954,
      "loss": 0.3416,
      "step": 15970
    },
    {
      "epoch": 42.61333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004994739828206263,
      "loss": 0.3324,
      "step": 15980
    },
    {
      "epoch": 42.64,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000499473303187247,
      "loss": 0.3365,
      "step": 15990
    },
    {
      "epoch": 42.666666666666664,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004994726231155583,
      "loss": 0.3513,
      "step": 16000
    },
    {
      "epoch": 42.693333333333335,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004994719426055619,
      "loss": 0.3316,
      "step": 16010
    },
    {
      "epoch": 42.72,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004994712616572585,
      "loss": 0.348,
      "step": 16020
    },
    {
      "epoch": 42.74666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004994705802706496,
      "loss": 0.3497,
      "step": 16030
    },
    {
      "epoch": 42.77333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004994698984457364,
      "loss": 0.3604,
      "step": 16040
    },
    {
      "epoch": 42.8,
      "grad_norm": 0.40625,
      "learning_rate": 0.0004994692161825199,
      "loss": 0.3471,
      "step": 16050
    },
    {
      "epoch": 42.82666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004994685334810015,
      "loss": 0.3363,
      "step": 16060
    },
    {
      "epoch": 42.85333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004994678503411823,
      "loss": 0.3394,
      "step": 16070
    },
    {
      "epoch": 42.88,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004994671667630636,
      "loss": 0.3377,
      "step": 16080
    },
    {
      "epoch": 42.906666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004994664827466464,
      "loss": 0.3415,
      "step": 16090
    },
    {
      "epoch": 42.93333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004994657982919322,
      "loss": 0.3422,
      "step": 16100
    },
    {
      "epoch": 42.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004994651133989219,
      "loss": 0.3404,
      "step": 16110
    },
    {
      "epoch": 42.986666666666665,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004994644280676168,
      "loss": 0.356,
      "step": 16120
    },
    {
      "epoch": 43.0,
      "eval_loss": 0.4065290689468384,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6701,
      "eval_samples_per_second": 1.5,
      "eval_steps_per_second": 0.094,
      "step": 16125
    },
    {
      "epoch": 43.013333333333335,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004994637422980181,
      "loss": 0.3439,
      "step": 16130
    },
    {
      "epoch": 43.04,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004994630560901271,
      "loss": 0.3698,
      "step": 16140
    },
    {
      "epoch": 43.06666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004994623694439449,
      "loss": 0.3537,
      "step": 16150
    },
    {
      "epoch": 43.093333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0004994616823594728,
      "loss": 0.3516,
      "step": 16160
    },
    {
      "epoch": 43.12,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004994609948367119,
      "loss": 0.3479,
      "step": 16170
    },
    {
      "epoch": 43.14666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004994603068756636,
      "loss": 0.35,
      "step": 16180
    },
    {
      "epoch": 43.17333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0004994596184763288,
      "loss": 0.3478,
      "step": 16190
    },
    {
      "epoch": 43.2,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004994589296387089,
      "loss": 0.3414,
      "step": 16200
    },
    {
      "epoch": 43.22666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004994582403628052,
      "loss": 0.3368,
      "step": 16210
    },
    {
      "epoch": 43.25333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004994575506486187,
      "loss": 0.3371,
      "step": 16220
    },
    {
      "epoch": 43.28,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004994568604961508,
      "loss": 0.356,
      "step": 16230
    },
    {
      "epoch": 43.306666666666665,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004994561699054027,
      "loss": 0.3357,
      "step": 16240
    },
    {
      "epoch": 43.333333333333336,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004994554788763753,
      "loss": 0.3514,
      "step": 16250
    },
    {
      "epoch": 43.36,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004994547874090702,
      "loss": 0.343,
      "step": 16260
    },
    {
      "epoch": 43.38666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0004994540955034886,
      "loss": 0.3406,
      "step": 16270
    },
    {
      "epoch": 43.413333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0004994534031596313,
      "loss": 0.3465,
      "step": 16280
    },
    {
      "epoch": 43.44,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004994527103774999,
      "loss": 0.3518,
      "step": 16290
    },
    {
      "epoch": 43.46666666666667,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004994520171570957,
      "loss": 0.3569,
      "step": 16300
    },
    {
      "epoch": 43.49333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004994513234984195,
      "loss": 0.3458,
      "step": 16310
    },
    {
      "epoch": 43.52,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004994506294014729,
      "loss": 0.349,
      "step": 16320
    },
    {
      "epoch": 43.54666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004994499348662569,
      "loss": 0.3402,
      "step": 16330
    },
    {
      "epoch": 43.57333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004994492398927728,
      "loss": 0.3427,
      "step": 16340
    },
    {
      "epoch": 43.6,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004994485444810218,
      "loss": 0.3361,
      "step": 16350
    },
    {
      "epoch": 43.626666666666665,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004994478486310052,
      "loss": 0.3328,
      "step": 16360
    },
    {
      "epoch": 43.653333333333336,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004994471523427242,
      "loss": 0.3465,
      "step": 16370
    },
    {
      "epoch": 43.68,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004994464556161799,
      "loss": 0.3361,
      "step": 16380
    },
    {
      "epoch": 43.70666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004994457584513736,
      "loss": 0.336,
      "step": 16390
    },
    {
      "epoch": 43.733333333333334,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004994450608483066,
      "loss": 0.3537,
      "step": 16400
    },
    {
      "epoch": 43.76,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00049944436280698,
      "loss": 0.3545,
      "step": 16410
    },
    {
      "epoch": 43.78666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004994436643273951,
      "loss": 0.355,
      "step": 16420
    },
    {
      "epoch": 43.81333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004994429654095531,
      "loss": 0.3373,
      "step": 16430
    },
    {
      "epoch": 43.84,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004994422660534553,
      "loss": 0.337,
      "step": 16440
    },
    {
      "epoch": 43.86666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004994415662591029,
      "loss": 0.3379,
      "step": 16450
    },
    {
      "epoch": 43.89333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000499440866026497,
      "loss": 0.3374,
      "step": 16460
    },
    {
      "epoch": 43.92,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004994401653556389,
      "loss": 0.3418,
      "step": 16470
    },
    {
      "epoch": 43.946666666666665,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00049943946424653,
      "loss": 0.3409,
      "step": 16480
    },
    {
      "epoch": 43.973333333333336,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0004994387626991712,
      "loss": 0.3502,
      "step": 16490
    },
    {
      "epoch": 44.0,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000499438060713564,
      "loss": 0.3382,
      "step": 16500
    },
    {
      "epoch": 44.0,
      "eval_loss": 0.40632036328315735,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.8182,
      "eval_samples_per_second": 1.354,
      "eval_steps_per_second": 0.085,
      "step": 16500
    },
    {
      "epoch": 44.026666666666664,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004994373582897096,
      "loss": 0.3597,
      "step": 16510
    },
    {
      "epoch": 44.053333333333335,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004994366554276092,
      "loss": 0.366,
      "step": 16520
    },
    {
      "epoch": 44.08,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000499435952127264,
      "loss": 0.3505,
      "step": 16530
    },
    {
      "epoch": 44.10666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004994352483886753,
      "loss": 0.3507,
      "step": 16540
    },
    {
      "epoch": 44.13333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004994345442118443,
      "loss": 0.3446,
      "step": 16550
    },
    {
      "epoch": 44.16,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004994338395967722,
      "loss": 0.3508,
      "step": 16560
    },
    {
      "epoch": 44.18666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004994331345434602,
      "loss": 0.344,
      "step": 16570
    },
    {
      "epoch": 44.21333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004994324290519096,
      "loss": 0.334,
      "step": 16580
    },
    {
      "epoch": 44.24,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004994317231221218,
      "loss": 0.3391,
      "step": 16590
    },
    {
      "epoch": 44.266666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004994310167540978,
      "loss": 0.3457,
      "step": 16600
    },
    {
      "epoch": 44.29333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000499430309947839,
      "loss": 0.34,
      "step": 16610
    },
    {
      "epoch": 44.32,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004994296027033466,
      "loss": 0.3463,
      "step": 16620
    },
    {
      "epoch": 44.346666666666664,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004994288950206217,
      "loss": 0.3478,
      "step": 16630
    },
    {
      "epoch": 44.373333333333335,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004994281868996658,
      "loss": 0.3395,
      "step": 16640
    },
    {
      "epoch": 44.4,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004994274783404798,
      "loss": 0.3408,
      "step": 16650
    },
    {
      "epoch": 44.42666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004994267693430654,
      "loss": 0.3469,
      "step": 16660
    },
    {
      "epoch": 44.45333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004994260599074234,
      "loss": 0.3556,
      "step": 16670
    },
    {
      "epoch": 44.48,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004994253500335553,
      "loss": 0.3514,
      "step": 16680
    },
    {
      "epoch": 44.50666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004994246397214623,
      "loss": 0.3468,
      "step": 16690
    },
    {
      "epoch": 44.53333333333333,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004994239289711456,
      "loss": 0.3416,
      "step": 16700
    },
    {
      "epoch": 44.56,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004994232177826065,
      "loss": 0.3396,
      "step": 16710
    },
    {
      "epoch": 44.586666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004994225061558463,
      "loss": 0.3406,
      "step": 16720
    },
    {
      "epoch": 44.61333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004994217940908662,
      "loss": 0.331,
      "step": 16730
    },
    {
      "epoch": 44.64,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004994210815876673,
      "loss": 0.3355,
      "step": 16740
    },
    {
      "epoch": 44.666666666666664,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004994203686462511,
      "loss": 0.3493,
      "step": 16750
    },
    {
      "epoch": 44.693333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004994196552666187,
      "loss": 0.3298,
      "step": 16760
    },
    {
      "epoch": 44.72,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004994189414487714,
      "loss": 0.3456,
      "step": 16770
    },
    {
      "epoch": 44.74666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004994182271927105,
      "loss": 0.3486,
      "step": 16780
    },
    {
      "epoch": 44.77333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004994175124984372,
      "loss": 0.3596,
      "step": 16790
    },
    {
      "epoch": 44.8,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004994167973659526,
      "loss": 0.3449,
      "step": 16800
    },
    {
      "epoch": 44.82666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004994160817952582,
      "loss": 0.3346,
      "step": 16810
    },
    {
      "epoch": 44.85333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004994153657863553,
      "loss": 0.3377,
      "step": 16820
    },
    {
      "epoch": 44.88,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004994146493392448,
      "loss": 0.3356,
      "step": 16830
    },
    {
      "epoch": 44.906666666666666,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004994139324539284,
      "loss": 0.3398,
      "step": 16840
    },
    {
      "epoch": 44.93333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004994132151304071,
      "loss": 0.3399,
      "step": 16850
    },
    {
      "epoch": 44.96,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004994124973686821,
      "loss": 0.3398,
      "step": 16860
    },
    {
      "epoch": 44.986666666666665,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004994117791687549,
      "loss": 0.3537,
      "step": 16870
    },
    {
      "epoch": 45.0,
      "eval_loss": 0.40891388058662415,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.8358,
      "eval_samples_per_second": 1.352,
      "eval_steps_per_second": 0.084,
      "step": 16875
    },
    {
      "epoch": 45.013333333333335,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004994110605306266,
      "loss": 0.342,
      "step": 16880
    },
    {
      "epoch": 45.04,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004994103414542985,
      "loss": 0.368,
      "step": 16890
    },
    {
      "epoch": 45.06666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004994096219397718,
      "loss": 0.3527,
      "step": 16900
    },
    {
      "epoch": 45.093333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004994089019870479,
      "loss": 0.3504,
      "step": 16910
    },
    {
      "epoch": 45.12,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004994081815961279,
      "loss": 0.3465,
      "step": 16920
    },
    {
      "epoch": 45.14666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004994074607670132,
      "loss": 0.348,
      "step": 16930
    },
    {
      "epoch": 45.17333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000499406739499705,
      "loss": 0.3464,
      "step": 16940
    },
    {
      "epoch": 45.2,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0004994060177942047,
      "loss": 0.3394,
      "step": 16950
    },
    {
      "epoch": 45.22666666666667,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004994052956505133,
      "loss": 0.335,
      "step": 16960
    },
    {
      "epoch": 45.25333333333333,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004994045730686323,
      "loss": 0.3355,
      "step": 16970
    },
    {
      "epoch": 45.28,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004994038500485628,
      "loss": 0.3539,
      "step": 16980
    },
    {
      "epoch": 45.306666666666665,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004994031265903063,
      "loss": 0.3347,
      "step": 16990
    },
    {
      "epoch": 45.333333333333336,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004994024026938639,
      "loss": 0.3494,
      "step": 17000
    },
    {
      "epoch": 45.36,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004994016783592369,
      "loss": 0.3414,
      "step": 17010
    },
    {
      "epoch": 45.38666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004994009535864266,
      "loss": 0.3384,
      "step": 17020
    },
    {
      "epoch": 45.413333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004994002283754341,
      "loss": 0.344,
      "step": 17030
    },
    {
      "epoch": 45.44,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000499399502726261,
      "loss": 0.3505,
      "step": 17040
    },
    {
      "epoch": 45.46666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004993987766389083,
      "loss": 0.3555,
      "step": 17050
    },
    {
      "epoch": 45.49333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004993980501133775,
      "loss": 0.344,
      "step": 17060
    },
    {
      "epoch": 45.52,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004993973231496696,
      "loss": 0.3472,
      "step": 17070
    },
    {
      "epoch": 45.54666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004993965957477861,
      "loss": 0.3381,
      "step": 17080
    },
    {
      "epoch": 45.57333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004993958679077282,
      "loss": 0.3404,
      "step": 17090
    },
    {
      "epoch": 45.6,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004993951396294972,
      "loss": 0.3347,
      "step": 17100
    },
    {
      "epoch": 45.626666666666665,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004993944109130944,
      "loss": 0.3314,
      "step": 17110
    },
    {
      "epoch": 45.653333333333336,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000499393681758521,
      "loss": 0.345,
      "step": 17120
    },
    {
      "epoch": 45.68,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004993929521657784,
      "loss": 0.3339,
      "step": 17130
    },
    {
      "epoch": 45.70666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004993922221348677,
      "loss": 0.3344,
      "step": 17140
    },
    {
      "epoch": 45.733333333333334,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004993914916657903,
      "loss": 0.3518,
      "step": 17150
    },
    {
      "epoch": 45.76,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004993907607585476,
      "loss": 0.3527,
      "step": 17160
    },
    {
      "epoch": 45.78666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004993900294131406,
      "loss": 0.3538,
      "step": 17170
    },
    {
      "epoch": 45.81333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004993892976295709,
      "loss": 0.3357,
      "step": 17180
    },
    {
      "epoch": 45.84,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004993885654078395,
      "loss": 0.335,
      "step": 17190
    },
    {
      "epoch": 45.86666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004993878327479479,
      "loss": 0.3366,
      "step": 17200
    },
    {
      "epoch": 45.89333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004993870996498973,
      "loss": 0.336,
      "step": 17210
    },
    {
      "epoch": 45.92,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004993863661136889,
      "loss": 0.3401,
      "step": 17220
    },
    {
      "epoch": 45.946666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0004993856321393242,
      "loss": 0.3401,
      "step": 17230
    },
    {
      "epoch": 45.973333333333336,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004993848977268043,
      "loss": 0.3484,
      "step": 17240
    },
    {
      "epoch": 46.0,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004993841628761306,
      "loss": 0.3358,
      "step": 17250
    },
    {
      "epoch": 46.0,
      "eval_loss": 0.40796753764152527,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.2832,
      "eval_samples_per_second": 1.556,
      "eval_steps_per_second": 0.097,
      "step": 17250
    },
    {
      "epoch": 46.026666666666664,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004993834275873044,
      "loss": 0.3587,
      "step": 17260
    },
    {
      "epoch": 46.053333333333335,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004993826918603268,
      "loss": 0.3647,
      "step": 17270
    },
    {
      "epoch": 46.08,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004993819556951993,
      "loss": 0.3488,
      "step": 17280
    },
    {
      "epoch": 46.10666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004993812190919232,
      "loss": 0.3493,
      "step": 17290
    },
    {
      "epoch": 46.13333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004993804820504997,
      "loss": 0.343,
      "step": 17300
    },
    {
      "epoch": 46.16,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004993797445709301,
      "loss": 0.3492,
      "step": 17310
    },
    {
      "epoch": 46.18666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004993790066532156,
      "loss": 0.3436,
      "step": 17320
    },
    {
      "epoch": 46.21333333333333,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004993782682973577,
      "loss": 0.3323,
      "step": 17330
    },
    {
      "epoch": 46.24,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004993775295033577,
      "loss": 0.337,
      "step": 17340
    },
    {
      "epoch": 46.266666666666666,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004993767902712168,
      "loss": 0.3442,
      "step": 17350
    },
    {
      "epoch": 46.29333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004993760506009361,
      "loss": 0.3387,
      "step": 17360
    },
    {
      "epoch": 46.32,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004993753104925174,
      "loss": 0.3454,
      "step": 17370
    },
    {
      "epoch": 46.346666666666664,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004993745699459615,
      "loss": 0.3466,
      "step": 17380
    },
    {
      "epoch": 46.373333333333335,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00049937382896127,
      "loss": 0.3381,
      "step": 17390
    },
    {
      "epoch": 46.4,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004993730875384441,
      "loss": 0.3401,
      "step": 17400
    },
    {
      "epoch": 46.42666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.000499372345677485,
      "loss": 0.3458,
      "step": 17410
    },
    {
      "epoch": 46.45333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004993716033783942,
      "loss": 0.3537,
      "step": 17420
    },
    {
      "epoch": 46.48,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004993708606411729,
      "loss": 0.3503,
      "step": 17430
    },
    {
      "epoch": 46.50666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004993701174658224,
      "loss": 0.3456,
      "step": 17440
    },
    {
      "epoch": 46.53333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004993693738523442,
      "loss": 0.3407,
      "step": 17450
    },
    {
      "epoch": 46.56,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004993686298007393,
      "loss": 0.3385,
      "step": 17460
    },
    {
      "epoch": 46.586666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004993678853110091,
      "loss": 0.3395,
      "step": 17470
    },
    {
      "epoch": 46.61333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.000499367140383155,
      "loss": 0.3289,
      "step": 17480
    },
    {
      "epoch": 46.64,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004993663950171781,
      "loss": 0.334,
      "step": 17490
    },
    {
      "epoch": 46.666666666666664,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004993656492130801,
      "loss": 0.3484,
      "step": 17500
    },
    {
      "epoch": 46.693333333333335,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000499364902970862,
      "loss": 0.3287,
      "step": 17510
    },
    {
      "epoch": 46.72,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004993641562905252,
      "loss": 0.3442,
      "step": 17520
    },
    {
      "epoch": 46.74666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.000499363409172071,
      "loss": 0.3461,
      "step": 17530
    },
    {
      "epoch": 46.77333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004993626616155007,
      "loss": 0.3576,
      "step": 17540
    },
    {
      "epoch": 46.8,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004993619136208158,
      "loss": 0.3435,
      "step": 17550
    },
    {
      "epoch": 46.82666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004993611651880173,
      "loss": 0.3321,
      "step": 17560
    },
    {
      "epoch": 46.85333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004993604163171065,
      "loss": 0.3361,
      "step": 17570
    },
    {
      "epoch": 46.88,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000499359667008085,
      "loss": 0.3342,
      "step": 17580
    },
    {
      "epoch": 46.906666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000499358917260954,
      "loss": 0.3381,
      "step": 17590
    },
    {
      "epoch": 46.93333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004993581670757149,
      "loss": 0.3381,
      "step": 17600
    },
    {
      "epoch": 46.96,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004993574164523688,
      "loss": 0.3371,
      "step": 17610
    },
    {
      "epoch": 46.986666666666665,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004993566653909171,
      "loss": 0.3517,
      "step": 17620
    },
    {
      "epoch": 47.0,
      "eval_loss": 0.40723633766174316,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9721,
      "eval_samples_per_second": 1.336,
      "eval_steps_per_second": 0.084,
      "step": 17625
    },
    {
      "epoch": 47.013333333333335,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004993559138913614,
      "loss": 0.3404,
      "step": 17630
    },
    {
      "epoch": 47.04,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004993551619537026,
      "loss": 0.3667,
      "step": 17640
    },
    {
      "epoch": 47.06666666666667,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004993544095779422,
      "loss": 0.3511,
      "step": 17650
    },
    {
      "epoch": 47.093333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004993536567640816,
      "loss": 0.3493,
      "step": 17660
    },
    {
      "epoch": 47.12,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000499352903512122,
      "loss": 0.3441,
      "step": 17670
    },
    {
      "epoch": 47.14666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004993521498220648,
      "loss": 0.3466,
      "step": 17680
    },
    {
      "epoch": 47.17333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004993513956939113,
      "loss": 0.3447,
      "step": 17690
    },
    {
      "epoch": 47.2,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004993506411276628,
      "loss": 0.338,
      "step": 17700
    },
    {
      "epoch": 47.22666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004993498861233206,
      "loss": 0.3341,
      "step": 17710
    },
    {
      "epoch": 47.25333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004993491306808862,
      "loss": 0.3342,
      "step": 17720
    },
    {
      "epoch": 47.28,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004993483748003607,
      "loss": 0.3522,
      "step": 17730
    },
    {
      "epoch": 47.306666666666665,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004993476184817456,
      "loss": 0.333,
      "step": 17740
    },
    {
      "epoch": 47.333333333333336,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000499346861725042,
      "loss": 0.3481,
      "step": 17750
    },
    {
      "epoch": 47.36,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004993461045302515,
      "loss": 0.3402,
      "step": 17760
    },
    {
      "epoch": 47.38666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004993453468973754,
      "loss": 0.3372,
      "step": 17770
    },
    {
      "epoch": 47.413333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004993445888264149,
      "loss": 0.3428,
      "step": 17780
    },
    {
      "epoch": 47.44,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004993438303173714,
      "loss": 0.3484,
      "step": 17790
    },
    {
      "epoch": 47.46666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004993430713702462,
      "loss": 0.354,
      "step": 17800
    },
    {
      "epoch": 47.49333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004993423119850405,
      "loss": 0.3426,
      "step": 17810
    },
    {
      "epoch": 47.52,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004993415521617559,
      "loss": 0.3459,
      "step": 17820
    },
    {
      "epoch": 47.54666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004993407919003937,
      "loss": 0.337,
      "step": 17830
    },
    {
      "epoch": 47.57333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000499340031200955,
      "loss": 0.3405,
      "step": 17840
    },
    {
      "epoch": 47.6,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004993392700634413,
      "loss": 0.334,
      "step": 17850
    },
    {
      "epoch": 47.626666666666665,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004993385084878541,
      "loss": 0.3299,
      "step": 17860
    },
    {
      "epoch": 47.653333333333336,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004993377464741944,
      "loss": 0.3444,
      "step": 17870
    },
    {
      "epoch": 47.68,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004993369840224638,
      "loss": 0.3326,
      "step": 17880
    },
    {
      "epoch": 47.70666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004993362211326636,
      "loss": 0.3332,
      "step": 17890
    },
    {
      "epoch": 47.733333333333334,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004993354578047949,
      "loss": 0.3504,
      "step": 17900
    },
    {
      "epoch": 47.76,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004993346940388593,
      "loss": 0.3518,
      "step": 17910
    },
    {
      "epoch": 47.78666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000499333929834858,
      "loss": 0.3523,
      "step": 17920
    },
    {
      "epoch": 47.81333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004993331651927926,
      "loss": 0.3336,
      "step": 17930
    },
    {
      "epoch": 47.84,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004993324001126641,
      "loss": 0.3339,
      "step": 17940
    },
    {
      "epoch": 47.86666666666667,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000499331634594474,
      "loss": 0.3348,
      "step": 17950
    },
    {
      "epoch": 47.89333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004993308686382237,
      "loss": 0.3339,
      "step": 17960
    },
    {
      "epoch": 47.92,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004993301022439145,
      "loss": 0.3385,
      "step": 17970
    },
    {
      "epoch": 47.946666666666665,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004993293354115477,
      "loss": 0.3379,
      "step": 17980
    },
    {
      "epoch": 47.973333333333336,
      "grad_norm": 0.25,
      "learning_rate": 0.0004993285681411246,
      "loss": 0.3467,
      "step": 17990
    },
    {
      "epoch": 48.0,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004993278004326467,
      "loss": 0.3343,
      "step": 18000
    },
    {
      "epoch": 48.0,
      "eval_loss": 0.4061015844345093,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.7684,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.085,
      "step": 18000
    },
    {
      "epoch": 48.026666666666664,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004993270322861153,
      "loss": 0.3565,
      "step": 18010
    },
    {
      "epoch": 48.053333333333335,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004993262637015317,
      "loss": 0.3629,
      "step": 18020
    },
    {
      "epoch": 48.08,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004993254946788974,
      "loss": 0.3474,
      "step": 18030
    },
    {
      "epoch": 48.10666666666667,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004993247252182134,
      "loss": 0.3478,
      "step": 18040
    },
    {
      "epoch": 48.13333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004993239553194814,
      "loss": 0.3416,
      "step": 18050
    },
    {
      "epoch": 48.16,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004993231849827026,
      "loss": 0.3481,
      "step": 18060
    },
    {
      "epoch": 48.18666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004993224142078785,
      "loss": 0.3414,
      "step": 18070
    },
    {
      "epoch": 48.21333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004993216429950102,
      "loss": 0.3309,
      "step": 18080
    },
    {
      "epoch": 48.24,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004993208713440992,
      "loss": 0.336,
      "step": 18090
    },
    {
      "epoch": 48.266666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000499320099255147,
      "loss": 0.3426,
      "step": 18100
    },
    {
      "epoch": 48.29333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004993193267281546,
      "loss": 0.3372,
      "step": 18110
    },
    {
      "epoch": 48.32,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004993185537631237,
      "loss": 0.3429,
      "step": 18120
    },
    {
      "epoch": 48.346666666666664,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004993177803600555,
      "loss": 0.3446,
      "step": 18130
    },
    {
      "epoch": 48.373333333333335,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004993170065189514,
      "loss": 0.3367,
      "step": 18140
    },
    {
      "epoch": 48.4,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004993162322398127,
      "loss": 0.3381,
      "step": 18150
    },
    {
      "epoch": 48.42666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004993154575226408,
      "loss": 0.3442,
      "step": 18160
    },
    {
      "epoch": 48.45333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004993146823674371,
      "loss": 0.3527,
      "step": 18170
    },
    {
      "epoch": 48.48,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000499313906774203,
      "loss": 0.3487,
      "step": 18180
    },
    {
      "epoch": 48.50666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004993131307429397,
      "loss": 0.344,
      "step": 18190
    },
    {
      "epoch": 48.53333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004993123542736486,
      "loss": 0.3391,
      "step": 18200
    },
    {
      "epoch": 48.56,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004993115773663313,
      "loss": 0.3369,
      "step": 18210
    },
    {
      "epoch": 48.586666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004993108000209888,
      "loss": 0.338,
      "step": 18220
    },
    {
      "epoch": 48.61333333333333,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004993100222376226,
      "loss": 0.3282,
      "step": 18230
    },
    {
      "epoch": 48.64,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004993092440162343,
      "loss": 0.3318,
      "step": 18240
    },
    {
      "epoch": 48.666666666666664,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000499308465356825,
      "loss": 0.3467,
      "step": 18250
    },
    {
      "epoch": 48.693333333333335,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004993076862593961,
      "loss": 0.3269,
      "step": 18260
    },
    {
      "epoch": 48.72,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004993069067239491,
      "loss": 0.3427,
      "step": 18270
    },
    {
      "epoch": 48.74666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004993061267504852,
      "loss": 0.345,
      "step": 18280
    },
    {
      "epoch": 48.77333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004993053463390059,
      "loss": 0.3562,
      "step": 18290
    },
    {
      "epoch": 48.8,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004993045654895125,
      "loss": 0.3423,
      "step": 18300
    },
    {
      "epoch": 48.82666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004993037842020065,
      "loss": 0.3311,
      "step": 18310
    },
    {
      "epoch": 48.85333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.000499303002476489,
      "loss": 0.3349,
      "step": 18320
    },
    {
      "epoch": 48.88,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004993022203129617,
      "loss": 0.3335,
      "step": 18330
    },
    {
      "epoch": 48.906666666666666,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004993014377114259,
      "loss": 0.3363,
      "step": 18340
    },
    {
      "epoch": 48.93333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004993006546718827,
      "loss": 0.3366,
      "step": 18350
    },
    {
      "epoch": 48.96,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004992998711943337,
      "loss": 0.3363,
      "step": 18360
    },
    {
      "epoch": 48.986666666666665,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004992990872787803,
      "loss": 0.3501,
      "step": 18370
    },
    {
      "epoch": 49.0,
      "eval_loss": 0.4071054458618164,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9547,
      "eval_samples_per_second": 1.338,
      "eval_steps_per_second": 0.084,
      "step": 18375
    },
    {
      "epoch": 49.013333333333335,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004992983029252239,
      "loss": 0.3387,
      "step": 18380
    },
    {
      "epoch": 49.04,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004992975181336656,
      "loss": 0.3657,
      "step": 18390
    },
    {
      "epoch": 49.06666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004992967329041072,
      "loss": 0.3495,
      "step": 18400
    },
    {
      "epoch": 49.093333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004992959472365497,
      "loss": 0.3475,
      "step": 18410
    },
    {
      "epoch": 49.12,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004992951611309947,
      "loss": 0.3434,
      "step": 18420
    },
    {
      "epoch": 49.14666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004992943745874435,
      "loss": 0.3454,
      "step": 18430
    },
    {
      "epoch": 49.17333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004992935876058975,
      "loss": 0.3439,
      "step": 18440
    },
    {
      "epoch": 49.2,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004992928001863582,
      "loss": 0.3363,
      "step": 18450
    },
    {
      "epoch": 49.22666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004992920123288267,
      "loss": 0.3323,
      "step": 18460
    },
    {
      "epoch": 49.25333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004992912240333047,
      "loss": 0.3325,
      "step": 18470
    },
    {
      "epoch": 49.28,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004992904352997934,
      "loss": 0.3512,
      "step": 18480
    },
    {
      "epoch": 49.306666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004992896461282942,
      "loss": 0.3315,
      "step": 18490
    },
    {
      "epoch": 49.333333333333336,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004992888565188085,
      "loss": 0.3467,
      "step": 18500
    },
    {
      "epoch": 49.36,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004992880664713377,
      "loss": 0.3387,
      "step": 18510
    },
    {
      "epoch": 49.38666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004992872759858832,
      "loss": 0.3356,
      "step": 18520
    },
    {
      "epoch": 49.413333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004992864850624464,
      "loss": 0.3421,
      "step": 18530
    },
    {
      "epoch": 49.44,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004992856937010286,
      "loss": 0.3472,
      "step": 18540
    },
    {
      "epoch": 49.46666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004992849019016313,
      "loss": 0.3522,
      "step": 18550
    },
    {
      "epoch": 49.49333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004992841096642559,
      "loss": 0.3407,
      "step": 18560
    },
    {
      "epoch": 49.52,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004992833169889038,
      "loss": 0.3442,
      "step": 18570
    },
    {
      "epoch": 49.54666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004992825238755761,
      "loss": 0.3358,
      "step": 18580
    },
    {
      "epoch": 49.57333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0004992817303242745,
      "loss": 0.3383,
      "step": 18590
    },
    {
      "epoch": 49.6,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004992809363350005,
      "loss": 0.3322,
      "step": 18600
    },
    {
      "epoch": 49.626666666666665,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004992801419077551,
      "loss": 0.3284,
      "step": 18610
    },
    {
      "epoch": 49.653333333333336,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00049927934704254,
      "loss": 0.342,
      "step": 18620
    },
    {
      "epoch": 49.68,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004992785517393566,
      "loss": 0.3306,
      "step": 18630
    },
    {
      "epoch": 49.70666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000499277755998206,
      "loss": 0.3313,
      "step": 18640
    },
    {
      "epoch": 49.733333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00049927695981909,
      "loss": 0.3479,
      "step": 18650
    },
    {
      "epoch": 49.76,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004992761632020097,
      "loss": 0.3502,
      "step": 18660
    },
    {
      "epoch": 49.78666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004992753661469666,
      "loss": 0.3502,
      "step": 18670
    },
    {
      "epoch": 49.81333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004992745686539621,
      "loss": 0.3325,
      "step": 18680
    },
    {
      "epoch": 49.84,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004992737707229976,
      "loss": 0.3327,
      "step": 18690
    },
    {
      "epoch": 49.86666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004992729723540746,
      "loss": 0.3335,
      "step": 18700
    },
    {
      "epoch": 49.89333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004992721735471942,
      "loss": 0.3329,
      "step": 18710
    },
    {
      "epoch": 49.92,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004992713743023582,
      "loss": 0.3374,
      "step": 18720
    },
    {
      "epoch": 49.946666666666665,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004992705746195679,
      "loss": 0.3361,
      "step": 18730
    },
    {
      "epoch": 49.973333333333336,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004992697744988243,
      "loss": 0.345,
      "step": 18740
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004992689739401294,
      "loss": 0.3336,
      "step": 18750
    },
    {
      "epoch": 50.0,
      "eval_loss": 0.40903565287590027,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4349,
      "eval_samples_per_second": 1.399,
      "eval_steps_per_second": 0.087,
      "step": 18750
    },
    {
      "epoch": 50.026666666666664,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004992681729434843,
      "loss": 0.3557,
      "step": 18760
    },
    {
      "epoch": 50.053333333333335,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004992673715088902,
      "loss": 0.3613,
      "step": 18770
    },
    {
      "epoch": 50.08,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000499266569636349,
      "loss": 0.3469,
      "step": 18780
    },
    {
      "epoch": 50.10666666666667,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004992657673258619,
      "loss": 0.3464,
      "step": 18790
    },
    {
      "epoch": 50.13333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00049926496457743,
      "loss": 0.34,
      "step": 18800
    },
    {
      "epoch": 50.16,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004992641613910552,
      "loss": 0.3459,
      "step": 18810
    },
    {
      "epoch": 50.18666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004992633577667386,
      "loss": 0.3402,
      "step": 18820
    },
    {
      "epoch": 50.21333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004992625537044817,
      "loss": 0.3294,
      "step": 18830
    },
    {
      "epoch": 50.24,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004992617492042859,
      "loss": 0.3346,
      "step": 18840
    },
    {
      "epoch": 50.266666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004992609442661526,
      "loss": 0.3409,
      "step": 18850
    },
    {
      "epoch": 50.29333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004992601388900834,
      "loss": 0.3358,
      "step": 18860
    },
    {
      "epoch": 50.32,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004992593330760794,
      "loss": 0.3414,
      "step": 18870
    },
    {
      "epoch": 50.346666666666664,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004992585268241422,
      "loss": 0.3429,
      "step": 18880
    },
    {
      "epoch": 50.373333333333335,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004992577201342732,
      "loss": 0.3353,
      "step": 18890
    },
    {
      "epoch": 50.4,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004992569130064738,
      "loss": 0.3366,
      "step": 18900
    },
    {
      "epoch": 50.42666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004992561054407454,
      "loss": 0.3426,
      "step": 18910
    },
    {
      "epoch": 50.45333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004992552974370895,
      "loss": 0.3512,
      "step": 18920
    },
    {
      "epoch": 50.48,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004992544889955074,
      "loss": 0.3478,
      "step": 18930
    },
    {
      "epoch": 50.50666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004992536801160007,
      "loss": 0.3423,
      "step": 18940
    },
    {
      "epoch": 50.53333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004992528707985706,
      "loss": 0.3372,
      "step": 18950
    },
    {
      "epoch": 50.56,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004992520610432186,
      "loss": 0.335,
      "step": 18960
    },
    {
      "epoch": 50.586666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004992512508499462,
      "loss": 0.337,
      "step": 18970
    },
    {
      "epoch": 50.61333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004992504402187548,
      "loss": 0.3266,
      "step": 18980
    },
    {
      "epoch": 50.64,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004992496291496457,
      "loss": 0.3307,
      "step": 18990
    },
    {
      "epoch": 50.666666666666664,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004992488176426205,
      "loss": 0.3462,
      "step": 19000
    },
    {
      "epoch": 50.693333333333335,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004992480056976805,
      "loss": 0.3253,
      "step": 19010
    },
    {
      "epoch": 50.72,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004992471933148271,
      "loss": 0.3409,
      "step": 19020
    },
    {
      "epoch": 50.74666666666667,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000499246380494062,
      "loss": 0.3434,
      "step": 19030
    },
    {
      "epoch": 50.77333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004992455672353863,
      "loss": 0.3547,
      "step": 19040
    },
    {
      "epoch": 50.8,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004992447535388016,
      "loss": 0.3408,
      "step": 19050
    },
    {
      "epoch": 50.82666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004992439394043092,
      "loss": 0.3292,
      "step": 19060
    },
    {
      "epoch": 50.85333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004992431248319107,
      "loss": 0.3337,
      "step": 19070
    },
    {
      "epoch": 50.88,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004992423098216075,
      "loss": 0.3315,
      "step": 19080
    },
    {
      "epoch": 50.906666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004992414943734008,
      "loss": 0.3357,
      "step": 19090
    },
    {
      "epoch": 50.93333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004992406784872924,
      "loss": 0.3352,
      "step": 19100
    },
    {
      "epoch": 50.96,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004992398621632834,
      "loss": 0.3343,
      "step": 19110
    },
    {
      "epoch": 50.986666666666665,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004992390454013754,
      "loss": 0.3482,
      "step": 19120
    },
    {
      "epoch": 51.0,
      "eval_loss": 0.40625494718551636,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3657,
      "eval_samples_per_second": 1.408,
      "eval_steps_per_second": 0.088,
      "step": 19125
    },
    {
      "epoch": 51.013333333333335,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00049923822820157,
      "loss": 0.3377,
      "step": 19130
    },
    {
      "epoch": 51.04,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004992374105638682,
      "loss": 0.3636,
      "step": 19140
    },
    {
      "epoch": 51.06666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004992365924882718,
      "loss": 0.3479,
      "step": 19150
    },
    {
      "epoch": 51.093333333333334,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0004992357739747822,
      "loss": 0.346,
      "step": 19160
    },
    {
      "epoch": 51.12,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004992349550234006,
      "loss": 0.3415,
      "step": 19170
    },
    {
      "epoch": 51.14666666666667,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004992341356341287,
      "loss": 0.3437,
      "step": 19180
    },
    {
      "epoch": 51.17333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004992333158069679,
      "loss": 0.3418,
      "step": 19190
    },
    {
      "epoch": 51.2,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004992324955419194,
      "loss": 0.3352,
      "step": 19200
    },
    {
      "epoch": 51.22666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000499231674838985,
      "loss": 0.3309,
      "step": 19210
    },
    {
      "epoch": 51.25333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004992308536981658,
      "loss": 0.3307,
      "step": 19220
    },
    {
      "epoch": 51.28,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004992300321194636,
      "loss": 0.3491,
      "step": 19230
    },
    {
      "epoch": 51.306666666666665,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004992292101028794,
      "loss": 0.3296,
      "step": 19240
    },
    {
      "epoch": 51.333333333333336,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004992283876484152,
      "loss": 0.3453,
      "step": 19250
    },
    {
      "epoch": 51.36,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004992275647560719,
      "loss": 0.3372,
      "step": 19260
    },
    {
      "epoch": 51.38666666666666,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004992267414258512,
      "loss": 0.3341,
      "step": 19270
    },
    {
      "epoch": 51.413333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004992259176577547,
      "loss": 0.3396,
      "step": 19280
    },
    {
      "epoch": 51.44,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004992250934517836,
      "loss": 0.3457,
      "step": 19290
    },
    {
      "epoch": 51.46666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004992242688079394,
      "loss": 0.3505,
      "step": 19300
    },
    {
      "epoch": 51.49333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004992234437262235,
      "loss": 0.3394,
      "step": 19310
    },
    {
      "epoch": 51.52,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004992226182066376,
      "loss": 0.3431,
      "step": 19320
    },
    {
      "epoch": 51.54666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004992217922491828,
      "loss": 0.3338,
      "step": 19330
    },
    {
      "epoch": 51.57333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004992209658538608,
      "loss": 0.3363,
      "step": 19340
    },
    {
      "epoch": 51.6,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004992201390206731,
      "loss": 0.3306,
      "step": 19350
    },
    {
      "epoch": 51.626666666666665,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004992193117496209,
      "loss": 0.3271,
      "step": 19360
    },
    {
      "epoch": 51.653333333333336,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004992184840407058,
      "loss": 0.3412,
      "step": 19370
    },
    {
      "epoch": 51.68,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004992176558939293,
      "loss": 0.3295,
      "step": 19380
    },
    {
      "epoch": 51.70666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004992168273092927,
      "loss": 0.3304,
      "step": 19390
    },
    {
      "epoch": 51.733333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004992159982867976,
      "loss": 0.3472,
      "step": 19400
    },
    {
      "epoch": 51.76,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004992151688264455,
      "loss": 0.3481,
      "step": 19410
    },
    {
      "epoch": 51.78666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004992143389282377,
      "loss": 0.3487,
      "step": 19420
    },
    {
      "epoch": 51.81333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004992135085921756,
      "loss": 0.3311,
      "step": 19430
    },
    {
      "epoch": 51.84,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004992126778182609,
      "loss": 0.3311,
      "step": 19440
    },
    {
      "epoch": 51.86666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004992118466064949,
      "loss": 0.3322,
      "step": 19450
    },
    {
      "epoch": 51.89333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004992110149568791,
      "loss": 0.3315,
      "step": 19460
    },
    {
      "epoch": 51.92,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000499210182869415,
      "loss": 0.335,
      "step": 19470
    },
    {
      "epoch": 51.946666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000499209350344104,
      "loss": 0.3345,
      "step": 19480
    },
    {
      "epoch": 51.973333333333336,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004992085173809477,
      "loss": 0.3439,
      "step": 19490
    },
    {
      "epoch": 52.0,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004992076839799472,
      "loss": 0.332,
      "step": 19500
    },
    {
      "epoch": 52.0,
      "eval_loss": 0.40581172704696655,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2418,
      "eval_samples_per_second": 1.423,
      "eval_steps_per_second": 0.089,
      "step": 19500
    },
    {
      "epoch": 52.026666666666664,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0004992068501411044,
      "loss": 0.3544,
      "step": 19510
    },
    {
      "epoch": 52.053333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0004992060158644205,
      "loss": 0.3602,
      "step": 19520
    },
    {
      "epoch": 52.08,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004992051811498971,
      "loss": 0.3441,
      "step": 19530
    },
    {
      "epoch": 52.10666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004992043459975356,
      "loss": 0.3452,
      "step": 19540
    },
    {
      "epoch": 52.13333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004992035104073374,
      "loss": 0.3386,
      "step": 19550
    },
    {
      "epoch": 52.16,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004992026743793043,
      "loss": 0.3445,
      "step": 19560
    },
    {
      "epoch": 52.18666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004992018379134372,
      "loss": 0.3386,
      "step": 19570
    },
    {
      "epoch": 52.21333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004992010010097381,
      "loss": 0.3283,
      "step": 19580
    },
    {
      "epoch": 52.24,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004992001636682082,
      "loss": 0.333,
      "step": 19590
    },
    {
      "epoch": 52.266666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000499199325888849,
      "loss": 0.3394,
      "step": 19600
    },
    {
      "epoch": 52.29333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000499198487671662,
      "loss": 0.3335,
      "step": 19610
    },
    {
      "epoch": 52.32,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004991976490166486,
      "loss": 0.3403,
      "step": 19620
    },
    {
      "epoch": 52.346666666666664,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004991968099238105,
      "loss": 0.3416,
      "step": 19630
    },
    {
      "epoch": 52.373333333333335,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000499195970393149,
      "loss": 0.3334,
      "step": 19640
    },
    {
      "epoch": 52.4,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004991951304246654,
      "loss": 0.335,
      "step": 19650
    },
    {
      "epoch": 52.42666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004991942900183615,
      "loss": 0.3408,
      "step": 19660
    },
    {
      "epoch": 52.45333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004991934491742388,
      "loss": 0.3488,
      "step": 19670
    },
    {
      "epoch": 52.48,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004991926078922984,
      "loss": 0.3456,
      "step": 19680
    },
    {
      "epoch": 52.50666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004991917661725421,
      "loss": 0.3416,
      "step": 19690
    },
    {
      "epoch": 52.53333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004991909240149714,
      "loss": 0.3368,
      "step": 19700
    },
    {
      "epoch": 52.56,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004991900814195875,
      "loss": 0.3341,
      "step": 19710
    },
    {
      "epoch": 52.586666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000499189238386392,
      "loss": 0.3352,
      "step": 19720
    },
    {
      "epoch": 52.61333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004991883949153864,
      "loss": 0.3256,
      "step": 19730
    },
    {
      "epoch": 52.64,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004991875510065724,
      "loss": 0.33,
      "step": 19740
    },
    {
      "epoch": 52.666666666666664,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004991867066599512,
      "loss": 0.3446,
      "step": 19750
    },
    {
      "epoch": 52.693333333333335,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004991858618755244,
      "loss": 0.3237,
      "step": 19760
    },
    {
      "epoch": 52.72,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004991850166532934,
      "loss": 0.3399,
      "step": 19770
    },
    {
      "epoch": 52.74666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004991841709932598,
      "loss": 0.3416,
      "step": 19780
    },
    {
      "epoch": 52.77333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004991833248954248,
      "loss": 0.3533,
      "step": 19790
    },
    {
      "epoch": 52.8,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004991824783597904,
      "loss": 0.3396,
      "step": 19800
    },
    {
      "epoch": 52.82666666666667,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004991816313863577,
      "loss": 0.3283,
      "step": 19810
    },
    {
      "epoch": 52.85333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004991807839751282,
      "loss": 0.3324,
      "step": 19820
    },
    {
      "epoch": 52.88,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004991799361261036,
      "loss": 0.331,
      "step": 19830
    },
    {
      "epoch": 52.906666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004991790878392852,
      "loss": 0.3342,
      "step": 19840
    },
    {
      "epoch": 52.93333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004991782391146746,
      "loss": 0.335,
      "step": 19850
    },
    {
      "epoch": 52.96,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004991773899522732,
      "loss": 0.3331,
      "step": 19860
    },
    {
      "epoch": 52.986666666666665,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004991765403520826,
      "loss": 0.3475,
      "step": 19870
    },
    {
      "epoch": 53.0,
      "eval_loss": 0.4069804549217224,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1372,
      "eval_samples_per_second": 1.437,
      "eval_steps_per_second": 0.09,
      "step": 19875
    },
    {
      "epoch": 53.013333333333335,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004991756903141043,
      "loss": 0.3358,
      "step": 19880
    },
    {
      "epoch": 53.04,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004991748398383395,
      "loss": 0.3624,
      "step": 19890
    },
    {
      "epoch": 53.06666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004991739889247901,
      "loss": 0.3469,
      "step": 19900
    },
    {
      "epoch": 53.093333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004991731375734573,
      "loss": 0.3448,
      "step": 19910
    },
    {
      "epoch": 53.12,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004991722857843428,
      "loss": 0.3407,
      "step": 19920
    },
    {
      "epoch": 53.14666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004991714335574479,
      "loss": 0.3422,
      "step": 19930
    },
    {
      "epoch": 53.17333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004991705808927744,
      "loss": 0.3406,
      "step": 19940
    },
    {
      "epoch": 53.2,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004991697277903234,
      "loss": 0.3343,
      "step": 19950
    },
    {
      "epoch": 53.22666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004991688742500967,
      "loss": 0.3294,
      "step": 19960
    },
    {
      "epoch": 53.25333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004991680202720958,
      "loss": 0.3296,
      "step": 19970
    },
    {
      "epoch": 53.28,
      "grad_norm": 0.28125,
      "learning_rate": 0.000499167165856322,
      "loss": 0.3479,
      "step": 19980
    },
    {
      "epoch": 53.306666666666665,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004991663110027768,
      "loss": 0.3287,
      "step": 19990
    },
    {
      "epoch": 53.333333333333336,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004991654557114619,
      "loss": 0.3441,
      "step": 20000
    },
    {
      "epoch": 53.36,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004991645999823787,
      "loss": 0.3358,
      "step": 20010
    },
    {
      "epoch": 53.38666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004991637438155288,
      "loss": 0.3331,
      "step": 20020
    },
    {
      "epoch": 53.413333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004991628872109135,
      "loss": 0.3384,
      "step": 20030
    },
    {
      "epoch": 53.44,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004991620301685345,
      "loss": 0.3447,
      "step": 20040
    },
    {
      "epoch": 53.46666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004991611726883931,
      "loss": 0.3498,
      "step": 20050
    },
    {
      "epoch": 53.49333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000499160314770491,
      "loss": 0.3388,
      "step": 20060
    },
    {
      "epoch": 53.52,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004991594564148296,
      "loss": 0.3418,
      "step": 20070
    },
    {
      "epoch": 53.54666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004991585976214106,
      "loss": 0.3327,
      "step": 20080
    },
    {
      "epoch": 53.57333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004991577383902353,
      "loss": 0.3353,
      "step": 20090
    },
    {
      "epoch": 53.6,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004991568787213051,
      "loss": 0.3292,
      "step": 20100
    },
    {
      "epoch": 53.626666666666665,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004991560186146218,
      "loss": 0.326,
      "step": 20110
    },
    {
      "epoch": 53.653333333333336,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004991551580701869,
      "loss": 0.3395,
      "step": 20120
    },
    {
      "epoch": 53.68,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004991542970880017,
      "loss": 0.3281,
      "step": 20130
    },
    {
      "epoch": 53.70666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004991534356680677,
      "loss": 0.3293,
      "step": 20140
    },
    {
      "epoch": 53.733333333333334,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004991525738103866,
      "loss": 0.3459,
      "step": 20150
    },
    {
      "epoch": 53.76,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004991517115149599,
      "loss": 0.347,
      "step": 20160
    },
    {
      "epoch": 53.78666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004991508487817891,
      "loss": 0.3474,
      "step": 20170
    },
    {
      "epoch": 53.81333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004991499856108755,
      "loss": 0.33,
      "step": 20180
    },
    {
      "epoch": 53.84,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004991491220022209,
      "loss": 0.3298,
      "step": 20190
    },
    {
      "epoch": 53.86666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004991482579558267,
      "loss": 0.3308,
      "step": 20200
    },
    {
      "epoch": 53.89333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004991473934716944,
      "loss": 0.3304,
      "step": 20210
    },
    {
      "epoch": 53.92,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004991465285498256,
      "loss": 0.3339,
      "step": 20220
    },
    {
      "epoch": 53.946666666666665,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004991456631902216,
      "loss": 0.333,
      "step": 20230
    },
    {
      "epoch": 53.973333333333336,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004991447973928842,
      "loss": 0.343,
      "step": 20240
    },
    {
      "epoch": 54.0,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004991439311578148,
      "loss": 0.3307,
      "step": 20250
    },
    {
      "epoch": 54.0,
      "eval_loss": 0.40484169125556946,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3487,
      "eval_samples_per_second": 1.41,
      "eval_steps_per_second": 0.088,
      "step": 20250
    },
    {
      "epoch": 54.026666666666664,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004991430644850149,
      "loss": 0.3539,
      "step": 20260
    },
    {
      "epoch": 54.053333333333335,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004991421973744861,
      "loss": 0.3588,
      "step": 20270
    },
    {
      "epoch": 54.08,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004991413298262298,
      "loss": 0.3441,
      "step": 20280
    },
    {
      "epoch": 54.10666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004991404618402476,
      "loss": 0.3439,
      "step": 20290
    },
    {
      "epoch": 54.13333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004991395934165411,
      "loss": 0.3371,
      "step": 20300
    },
    {
      "epoch": 54.16,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004991387245551116,
      "loss": 0.3435,
      "step": 20310
    },
    {
      "epoch": 54.18666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000499137855255961,
      "loss": 0.3379,
      "step": 20320
    },
    {
      "epoch": 54.21333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004991369855190904,
      "loss": 0.3267,
      "step": 20330
    },
    {
      "epoch": 54.24,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004991361153445017,
      "loss": 0.3317,
      "step": 20340
    },
    {
      "epoch": 54.266666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000499135244732196,
      "loss": 0.3386,
      "step": 20350
    },
    {
      "epoch": 54.29333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004991343736821753,
      "loss": 0.3334,
      "step": 20360
    },
    {
      "epoch": 54.32,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004991335021944409,
      "loss": 0.3389,
      "step": 20370
    },
    {
      "epoch": 54.346666666666664,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004991326302689942,
      "loss": 0.3403,
      "step": 20380
    },
    {
      "epoch": 54.373333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004991317579058371,
      "loss": 0.3323,
      "step": 20390
    },
    {
      "epoch": 54.4,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004991308851049707,
      "loss": 0.3339,
      "step": 20400
    },
    {
      "epoch": 54.42666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004991300118663969,
      "loss": 0.3398,
      "step": 20410
    },
    {
      "epoch": 54.45333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000499129138190117,
      "loss": 0.348,
      "step": 20420
    },
    {
      "epoch": 54.48,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004991282640761326,
      "loss": 0.3442,
      "step": 20430
    },
    {
      "epoch": 54.50666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004991273895244454,
      "loss": 0.3399,
      "step": 20440
    },
    {
      "epoch": 54.53333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004991265145350566,
      "loss": 0.335,
      "step": 20450
    },
    {
      "epoch": 54.56,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000499125639107968,
      "loss": 0.3319,
      "step": 20460
    },
    {
      "epoch": 54.586666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004991247632431811,
      "loss": 0.3338,
      "step": 20470
    },
    {
      "epoch": 54.61333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004991238869406973,
      "loss": 0.3244,
      "step": 20480
    },
    {
      "epoch": 54.64,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004991230102005184,
      "loss": 0.3285,
      "step": 20490
    },
    {
      "epoch": 54.666666666666664,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004991221330226456,
      "loss": 0.3428,
      "step": 20500
    },
    {
      "epoch": 54.693333333333335,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004991212554070807,
      "loss": 0.3232,
      "step": 20510
    },
    {
      "epoch": 54.72,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004991203773538252,
      "loss": 0.3388,
      "step": 20520
    },
    {
      "epoch": 54.74666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004991194988628806,
      "loss": 0.3409,
      "step": 20530
    },
    {
      "epoch": 54.77333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004991186199342485,
      "loss": 0.352,
      "step": 20540
    },
    {
      "epoch": 54.8,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004991177405679302,
      "loss": 0.3382,
      "step": 20550
    },
    {
      "epoch": 54.82666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004991168607639276,
      "loss": 0.3271,
      "step": 20560
    },
    {
      "epoch": 54.85333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000499115980522242,
      "loss": 0.331,
      "step": 20570
    },
    {
      "epoch": 54.88,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004991150998428751,
      "loss": 0.3288,
      "step": 20580
    },
    {
      "epoch": 54.906666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004991142187258284,
      "loss": 0.3323,
      "step": 20590
    },
    {
      "epoch": 54.93333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004991133371711035,
      "loss": 0.3329,
      "step": 20600
    },
    {
      "epoch": 54.96,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004991124551787016,
      "loss": 0.3325,
      "step": 20610
    },
    {
      "epoch": 54.986666666666665,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004991115727486248,
      "loss": 0.3468,
      "step": 20620
    },
    {
      "epoch": 55.0,
      "eval_loss": 0.4052978754043579,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 14.2674,
      "eval_samples_per_second": 1.121,
      "eval_steps_per_second": 0.07,
      "step": 20625
    },
    {
      "epoch": 55.013333333333335,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004991106898808743,
      "loss": 0.3355,
      "step": 20630
    },
    {
      "epoch": 55.04,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004991098065754516,
      "loss": 0.3618,
      "step": 20640
    },
    {
      "epoch": 55.06666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004991089228323586,
      "loss": 0.346,
      "step": 20650
    },
    {
      "epoch": 55.093333333333334,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004991080386515964,
      "loss": 0.3437,
      "step": 20660
    },
    {
      "epoch": 55.12,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004991071540331669,
      "loss": 0.3394,
      "step": 20670
    },
    {
      "epoch": 55.14666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004991062689770715,
      "loss": 0.3407,
      "step": 20680
    },
    {
      "epoch": 55.17333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000499105383483312,
      "loss": 0.34,
      "step": 20690
    },
    {
      "epoch": 55.2,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004991044975518894,
      "loss": 0.3327,
      "step": 20700
    },
    {
      "epoch": 55.22666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004991036111828058,
      "loss": 0.3281,
      "step": 20710
    },
    {
      "epoch": 55.25333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004991027243760627,
      "loss": 0.3282,
      "step": 20720
    },
    {
      "epoch": 55.28,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004991018371316613,
      "loss": 0.3472,
      "step": 20730
    },
    {
      "epoch": 55.306666666666665,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004991009494496034,
      "loss": 0.3274,
      "step": 20740
    },
    {
      "epoch": 55.333333333333336,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004991000613298906,
      "loss": 0.3426,
      "step": 20750
    },
    {
      "epoch": 55.36,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004990991727725244,
      "loss": 0.3346,
      "step": 20760
    },
    {
      "epoch": 55.38666666666666,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004990982837775064,
      "loss": 0.3313,
      "step": 20770
    },
    {
      "epoch": 55.413333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004990973943448381,
      "loss": 0.3375,
      "step": 20780
    },
    {
      "epoch": 55.44,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004990965044745211,
      "loss": 0.3428,
      "step": 20790
    },
    {
      "epoch": 55.46666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004990956141665569,
      "loss": 0.348,
      "step": 20800
    },
    {
      "epoch": 55.49333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004990947234209471,
      "loss": 0.3371,
      "step": 20810
    },
    {
      "epoch": 55.52,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004990938322376933,
      "loss": 0.3406,
      "step": 20820
    },
    {
      "epoch": 55.54666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004990929406167972,
      "loss": 0.3316,
      "step": 20830
    },
    {
      "epoch": 55.57333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00049909204855826,
      "loss": 0.3339,
      "step": 20840
    },
    {
      "epoch": 55.6,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004990911560620835,
      "loss": 0.3283,
      "step": 20850
    },
    {
      "epoch": 55.626666666666665,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004990902631282693,
      "loss": 0.3247,
      "step": 20860
    },
    {
      "epoch": 55.653333333333336,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000499089369756819,
      "loss": 0.3387,
      "step": 20870
    },
    {
      "epoch": 55.68,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000499088475947734,
      "loss": 0.3271,
      "step": 20880
    },
    {
      "epoch": 55.70666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004990875817010159,
      "loss": 0.3277,
      "step": 20890
    },
    {
      "epoch": 55.733333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004990866870166664,
      "loss": 0.3443,
      "step": 20900
    },
    {
      "epoch": 55.76,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000499085791894687,
      "loss": 0.3463,
      "step": 20910
    },
    {
      "epoch": 55.78666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004990848963350793,
      "loss": 0.3455,
      "step": 20920
    },
    {
      "epoch": 55.81333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004990840003378448,
      "loss": 0.3279,
      "step": 20930
    },
    {
      "epoch": 55.84,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004990831039029851,
      "loss": 0.3281,
      "step": 20940
    },
    {
      "epoch": 55.86666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004990822070305018,
      "loss": 0.3299,
      "step": 20950
    },
    {
      "epoch": 55.89333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004990813097203964,
      "loss": 0.3288,
      "step": 20960
    },
    {
      "epoch": 55.92,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004990804119726708,
      "loss": 0.3334,
      "step": 20970
    },
    {
      "epoch": 55.946666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004990795137873261,
      "loss": 0.3328,
      "step": 20980
    },
    {
      "epoch": 55.973333333333336,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0004990786151643641,
      "loss": 0.3414,
      "step": 20990
    },
    {
      "epoch": 56.0,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004990777161037865,
      "loss": 0.3295,
      "step": 21000
    },
    {
      "epoch": 56.0,
      "eval_loss": 0.4048375189304352,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9392,
      "eval_samples_per_second": 1.463,
      "eval_steps_per_second": 0.091,
      "step": 21000
    },
    {
      "epoch": 56.026666666666664,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004990768166055947,
      "loss": 0.3519,
      "step": 21010
    },
    {
      "epoch": 56.053333333333335,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004990759166697903,
      "loss": 0.3573,
      "step": 21020
    },
    {
      "epoch": 56.08,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004990750162963749,
      "loss": 0.3427,
      "step": 21030
    },
    {
      "epoch": 56.10666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004990741154853502,
      "loss": 0.3432,
      "step": 21040
    },
    {
      "epoch": 56.13333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004990732142367177,
      "loss": 0.3361,
      "step": 21050
    },
    {
      "epoch": 56.16,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004990723125504789,
      "loss": 0.3424,
      "step": 21060
    },
    {
      "epoch": 56.18666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004990714104266355,
      "loss": 0.3364,
      "step": 21070
    },
    {
      "epoch": 56.21333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000499070507865189,
      "loss": 0.326,
      "step": 21080
    },
    {
      "epoch": 56.24,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004990696048661411,
      "loss": 0.3308,
      "step": 21090
    },
    {
      "epoch": 56.266666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004990687014294932,
      "loss": 0.3368,
      "step": 21100
    },
    {
      "epoch": 56.29333333333334,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004990677975552471,
      "loss": 0.3318,
      "step": 21110
    },
    {
      "epoch": 56.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004990668932434042,
      "loss": 0.3384,
      "step": 21120
    },
    {
      "epoch": 56.346666666666664,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004990659884939662,
      "loss": 0.3394,
      "step": 21130
    },
    {
      "epoch": 56.373333333333335,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004990650833069346,
      "loss": 0.3311,
      "step": 21140
    },
    {
      "epoch": 56.4,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004990641776823113,
      "loss": 0.3325,
      "step": 21150
    },
    {
      "epoch": 56.42666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004990632716200975,
      "loss": 0.3381,
      "step": 21160
    },
    {
      "epoch": 56.45333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0004990623651202949,
      "loss": 0.3469,
      "step": 21170
    },
    {
      "epoch": 56.48,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004990614581829051,
      "loss": 0.3426,
      "step": 21180
    },
    {
      "epoch": 56.50666666666667,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004990605508079298,
      "loss": 0.3388,
      "step": 21190
    },
    {
      "epoch": 56.53333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004990596429953704,
      "loss": 0.3339,
      "step": 21200
    },
    {
      "epoch": 56.56,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004990587347452288,
      "loss": 0.3317,
      "step": 21210
    },
    {
      "epoch": 56.586666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004990578260575063,
      "loss": 0.3328,
      "step": 21220
    },
    {
      "epoch": 56.61333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004990569169322046,
      "loss": 0.3235,
      "step": 21230
    },
    {
      "epoch": 56.64,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004990560073693253,
      "loss": 0.3265,
      "step": 21240
    },
    {
      "epoch": 56.666666666666664,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004990550973688701,
      "loss": 0.3421,
      "step": 21250
    },
    {
      "epoch": 56.693333333333335,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004990541869308405,
      "loss": 0.3218,
      "step": 21260
    },
    {
      "epoch": 56.72,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000499053276055238,
      "loss": 0.3378,
      "step": 21270
    },
    {
      "epoch": 56.74666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004990523647420643,
      "loss": 0.3398,
      "step": 21280
    },
    {
      "epoch": 56.77333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.000499051452991321,
      "loss": 0.3511,
      "step": 21290
    },
    {
      "epoch": 56.8,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004990505408030097,
      "loss": 0.3371,
      "step": 21300
    },
    {
      "epoch": 56.82666666666667,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004990496281771321,
      "loss": 0.3256,
      "step": 21310
    },
    {
      "epoch": 56.85333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004990487151136896,
      "loss": 0.3301,
      "step": 21320
    },
    {
      "epoch": 56.88,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004990478016126841,
      "loss": 0.3292,
      "step": 21330
    },
    {
      "epoch": 56.906666666666666,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004990468876741168,
      "loss": 0.3309,
      "step": 21340
    },
    {
      "epoch": 56.93333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004990459732979897,
      "loss": 0.3316,
      "step": 21350
    },
    {
      "epoch": 56.96,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000499045058484304,
      "loss": 0.3309,
      "step": 21360
    },
    {
      "epoch": 56.986666666666665,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004990441432330617,
      "loss": 0.3448,
      "step": 21370
    },
    {
      "epoch": 57.0,
      "eval_loss": 0.40479955077171326,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.877,
      "eval_samples_per_second": 1.243,
      "eval_steps_per_second": 0.078,
      "step": 21375
    },
    {
      "epoch": 57.013333333333335,
      "grad_norm": 0.328125,
      "learning_rate": 0.0004990432275442643,
      "loss": 0.3334,
      "step": 21380
    },
    {
      "epoch": 57.04,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004990423114179133,
      "loss": 0.36,
      "step": 21390
    },
    {
      "epoch": 57.06666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004990413948540103,
      "loss": 0.3444,
      "step": 21400
    },
    {
      "epoch": 57.093333333333334,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000499040477852557,
      "loss": 0.3424,
      "step": 21410
    },
    {
      "epoch": 57.12,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004990395604135549,
      "loss": 0.3381,
      "step": 21420
    },
    {
      "epoch": 57.14666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004990386425370058,
      "loss": 0.3398,
      "step": 21430
    },
    {
      "epoch": 57.17333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004990377242229113,
      "loss": 0.3382,
      "step": 21440
    },
    {
      "epoch": 57.2,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004990368054712728,
      "loss": 0.3316,
      "step": 21450
    },
    {
      "epoch": 57.22666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004990358862820921,
      "loss": 0.3271,
      "step": 21460
    },
    {
      "epoch": 57.25333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004990349666553706,
      "loss": 0.3274,
      "step": 21470
    },
    {
      "epoch": 57.28,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004990340465911103,
      "loss": 0.3458,
      "step": 21480
    },
    {
      "epoch": 57.306666666666665,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004990331260893125,
      "loss": 0.3263,
      "step": 21490
    },
    {
      "epoch": 57.333333333333336,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0004990322051499789,
      "loss": 0.3415,
      "step": 21500
    },
    {
      "epoch": 57.36,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004990312837731111,
      "loss": 0.3335,
      "step": 21510
    },
    {
      "epoch": 57.38666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004990303619587106,
      "loss": 0.3301,
      "step": 21520
    },
    {
      "epoch": 57.413333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0004990294397067794,
      "loss": 0.3362,
      "step": 21530
    },
    {
      "epoch": 57.44,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0004990285170173188,
      "loss": 0.3427,
      "step": 21540
    },
    {
      "epoch": 57.46666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004990275938903304,
      "loss": 0.3472,
      "step": 21550
    },
    {
      "epoch": 57.49333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000499026670325816,
      "loss": 0.3358,
      "step": 21560
    },
    {
      "epoch": 57.52,
      "grad_norm": 0.46875,
      "learning_rate": 0.0004990257463237771,
      "loss": 0.3397,
      "step": 21570
    },
    {
      "epoch": 57.54666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004990248218842155,
      "loss": 0.3304,
      "step": 21580
    },
    {
      "epoch": 57.57333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004990238970071325,
      "loss": 0.3333,
      "step": 21590
    },
    {
      "epoch": 57.6,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00049902297169253,
      "loss": 0.3275,
      "step": 21600
    },
    {
      "epoch": 57.626666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004990220459404097,
      "loss": 0.3238,
      "step": 21610
    },
    {
      "epoch": 57.653333333333336,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004990211197507729,
      "loss": 0.3372,
      "step": 21620
    },
    {
      "epoch": 57.68,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004990201931236215,
      "loss": 0.3261,
      "step": 21630
    },
    {
      "epoch": 57.70666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004990192660589568,
      "loss": 0.3269,
      "step": 21640
    },
    {
      "epoch": 57.733333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004990183385567809,
      "loss": 0.3434,
      "step": 21650
    },
    {
      "epoch": 57.76,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.000499017410617095,
      "loss": 0.3448,
      "step": 21660
    },
    {
      "epoch": 57.78666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004990164822399011,
      "loss": 0.3448,
      "step": 21670
    },
    {
      "epoch": 57.81333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004990155534252005,
      "loss": 0.3271,
      "step": 21680
    },
    {
      "epoch": 57.84,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004990146241729951,
      "loss": 0.327,
      "step": 21690
    },
    {
      "epoch": 57.86666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004990136944832863,
      "loss": 0.328,
      "step": 21700
    },
    {
      "epoch": 57.89333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004990127643560759,
      "loss": 0.3283,
      "step": 21710
    },
    {
      "epoch": 57.92,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004990118337913654,
      "loss": 0.3314,
      "step": 21720
    },
    {
      "epoch": 57.946666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004990109027891566,
      "loss": 0.3313,
      "step": 21730
    },
    {
      "epoch": 57.973333333333336,
      "grad_norm": 0.265625,
      "learning_rate": 0.000499009971349451,
      "loss": 0.3395,
      "step": 21740
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004990090394722502,
      "loss": 0.3279,
      "step": 21750
    },
    {
      "epoch": 58.0,
      "eval_loss": 0.40562504529953003,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5229,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.087,
      "step": 21750
    },
    {
      "epoch": 58.026666666666664,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004990081071575562,
      "loss": 0.3505,
      "step": 21760
    },
    {
      "epoch": 58.053333333333335,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004990071744053701,
      "loss": 0.3566,
      "step": 21770
    },
    {
      "epoch": 58.08,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004990062412156939,
      "loss": 0.3414,
      "step": 21780
    },
    {
      "epoch": 58.10666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004990053075885291,
      "loss": 0.3422,
      "step": 21790
    },
    {
      "epoch": 58.13333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004990043735238774,
      "loss": 0.3349,
      "step": 21800
    },
    {
      "epoch": 58.16,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004990034390217404,
      "loss": 0.3412,
      "step": 21810
    },
    {
      "epoch": 58.18666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004990025040821198,
      "loss": 0.3353,
      "step": 21820
    },
    {
      "epoch": 58.21333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004990015687050171,
      "loss": 0.3246,
      "step": 21830
    },
    {
      "epoch": 58.24,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004990006328904342,
      "loss": 0.3292,
      "step": 21840
    },
    {
      "epoch": 58.266666666666666,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004989996966383725,
      "loss": 0.3366,
      "step": 21850
    },
    {
      "epoch": 58.29333333333334,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004989987599488337,
      "loss": 0.3311,
      "step": 21860
    },
    {
      "epoch": 58.32,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004989978228218196,
      "loss": 0.337,
      "step": 21870
    },
    {
      "epoch": 58.346666666666664,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004989968852573317,
      "loss": 0.3385,
      "step": 21880
    },
    {
      "epoch": 58.373333333333335,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004989959472553716,
      "loss": 0.3305,
      "step": 21890
    },
    {
      "epoch": 58.4,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000498995008815941,
      "loss": 0.3316,
      "step": 21900
    },
    {
      "epoch": 58.42666666666667,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004989940699390416,
      "loss": 0.3372,
      "step": 21910
    },
    {
      "epoch": 58.45333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004989931306246751,
      "loss": 0.3457,
      "step": 21920
    },
    {
      "epoch": 58.48,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000498992190872843,
      "loss": 0.342,
      "step": 21930
    },
    {
      "epoch": 58.50666666666667,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.000498991250683547,
      "loss": 0.338,
      "step": 21940
    },
    {
      "epoch": 58.53333333333333,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004989903100567889,
      "loss": 0.3329,
      "step": 21950
    },
    {
      "epoch": 58.56,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004989893689925701,
      "loss": 0.3307,
      "step": 21960
    },
    {
      "epoch": 58.586666666666666,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004989884274908924,
      "loss": 0.3317,
      "step": 21970
    },
    {
      "epoch": 58.61333333333333,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004989874855517575,
      "loss": 0.3222,
      "step": 21980
    },
    {
      "epoch": 58.64,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000498986543175167,
      "loss": 0.3259,
      "step": 21990
    },
    {
      "epoch": 58.666666666666664,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004989856003611225,
      "loss": 0.3407,
      "step": 22000
    },
    {
      "epoch": 58.693333333333335,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004989846571096257,
      "loss": 0.3209,
      "step": 22010
    },
    {
      "epoch": 58.72,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004989837134206783,
      "loss": 0.3362,
      "step": 22020
    },
    {
      "epoch": 58.74666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004989827692942817,
      "loss": 0.3383,
      "step": 22030
    },
    {
      "epoch": 58.77333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000498981824730438,
      "loss": 0.3495,
      "step": 22040
    },
    {
      "epoch": 58.8,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004989808797291487,
      "loss": 0.336,
      "step": 22050
    },
    {
      "epoch": 58.82666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004989799342904152,
      "loss": 0.3244,
      "step": 22060
    },
    {
      "epoch": 58.85333333333333,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004989789884142395,
      "loss": 0.3284,
      "step": 22070
    },
    {
      "epoch": 58.88,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004989780421006231,
      "loss": 0.3271,
      "step": 22080
    },
    {
      "epoch": 58.906666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004989770953495676,
      "loss": 0.3296,
      "step": 22090
    },
    {
      "epoch": 58.93333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004989761481610748,
      "loss": 0.3302,
      "step": 22100
    },
    {
      "epoch": 58.96,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004989752005351462,
      "loss": 0.3296,
      "step": 22110
    },
    {
      "epoch": 58.986666666666665,
      "grad_norm": 0.4375,
      "learning_rate": 0.0004989742524717837,
      "loss": 0.3439,
      "step": 22120
    },
    {
      "epoch": 59.0,
      "eval_loss": 0.40387922525405884,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5654,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.086,
      "step": 22125
    },
    {
      "epoch": 59.013333333333335,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004989733039709888,
      "loss": 0.3325,
      "step": 22130
    },
    {
      "epoch": 59.04,
      "grad_norm": 0.484375,
      "learning_rate": 0.0004989723550327633,
      "loss": 0.3588,
      "step": 22140
    },
    {
      "epoch": 59.06666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004989714056571087,
      "loss": 0.3436,
      "step": 22150
    },
    {
      "epoch": 59.093333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0004989704558440266,
      "loss": 0.341,
      "step": 22160
    },
    {
      "epoch": 59.12,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000498969505593519,
      "loss": 0.3368,
      "step": 22170
    },
    {
      "epoch": 59.14666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004989685549055873,
      "loss": 0.3388,
      "step": 22180
    },
    {
      "epoch": 59.17333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004989676037802333,
      "loss": 0.3371,
      "step": 22190
    },
    {
      "epoch": 59.2,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004989666522174586,
      "loss": 0.3304,
      "step": 22200
    },
    {
      "epoch": 59.22666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004989657002172649,
      "loss": 0.3258,
      "step": 22210
    },
    {
      "epoch": 59.25333333333333,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004989647477796538,
      "loss": 0.326,
      "step": 22220
    },
    {
      "epoch": 59.28,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004989637949046272,
      "loss": 0.344,
      "step": 22230
    },
    {
      "epoch": 59.306666666666665,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004989628415921864,
      "loss": 0.3253,
      "step": 22240
    },
    {
      "epoch": 59.333333333333336,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004989618878423334,
      "loss": 0.3402,
      "step": 22250
    },
    {
      "epoch": 59.36,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004989609336550698,
      "loss": 0.332,
      "step": 22260
    },
    {
      "epoch": 59.38666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004989599790303972,
      "loss": 0.3293,
      "step": 22270
    },
    {
      "epoch": 59.413333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004989590239683172,
      "loss": 0.3351,
      "step": 22280
    },
    {
      "epoch": 59.44,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004989580684688318,
      "loss": 0.3407,
      "step": 22290
    },
    {
      "epoch": 59.46666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004989571125319424,
      "loss": 0.3451,
      "step": 22300
    },
    {
      "epoch": 59.49333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004989561561576508,
      "loss": 0.3345,
      "step": 22310
    },
    {
      "epoch": 59.52,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004989551993459585,
      "loss": 0.3381,
      "step": 22320
    },
    {
      "epoch": 59.54666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004989542420968673,
      "loss": 0.329,
      "step": 22330
    },
    {
      "epoch": 59.57333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.000498953284410379,
      "loss": 0.3312,
      "step": 22340
    },
    {
      "epoch": 59.6,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004989523262864952,
      "loss": 0.3259,
      "step": 22350
    },
    {
      "epoch": 59.626666666666665,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004989513677252175,
      "loss": 0.3221,
      "step": 22360
    },
    {
      "epoch": 59.653333333333336,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004989504087265477,
      "loss": 0.3369,
      "step": 22370
    },
    {
      "epoch": 59.68,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004989494492904875,
      "loss": 0.3249,
      "step": 22380
    },
    {
      "epoch": 59.70666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004989484894170383,
      "loss": 0.3256,
      "step": 22390
    },
    {
      "epoch": 59.733333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004989475291062021,
      "loss": 0.3426,
      "step": 22400
    },
    {
      "epoch": 59.76,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004989465683579806,
      "loss": 0.3433,
      "step": 22410
    },
    {
      "epoch": 59.78666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004989456071723753,
      "loss": 0.3444,
      "step": 22420
    },
    {
      "epoch": 59.81333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0004989446455493879,
      "loss": 0.3267,
      "step": 22430
    },
    {
      "epoch": 59.84,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004989436834890202,
      "loss": 0.3265,
      "step": 22440
    },
    {
      "epoch": 59.86666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004989427209912739,
      "loss": 0.3283,
      "step": 22450
    },
    {
      "epoch": 59.89333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004989417580561507,
      "loss": 0.3269,
      "step": 22460
    },
    {
      "epoch": 59.92,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000498940794683652,
      "loss": 0.3307,
      "step": 22470
    },
    {
      "epoch": 59.946666666666665,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004989398308737799,
      "loss": 0.3306,
      "step": 22480
    },
    {
      "epoch": 59.973333333333336,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004989388666265358,
      "loss": 0.3391,
      "step": 22490
    },
    {
      "epoch": 60.0,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004989379019419216,
      "loss": 0.3274,
      "step": 22500
    },
    {
      "epoch": 60.0,
      "eval_loss": 0.4045378565788269,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 9.5897,
      "eval_samples_per_second": 1.668,
      "eval_steps_per_second": 0.104,
      "step": 22500
    },
    {
      "epoch": 60.026666666666664,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004989369368199389,
      "loss": 0.3492,
      "step": 22510
    },
    {
      "epoch": 60.053333333333335,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004989359712605895,
      "loss": 0.3554,
      "step": 22520
    },
    {
      "epoch": 60.08,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004989350052638748,
      "loss": 0.3394,
      "step": 22530
    },
    {
      "epoch": 60.10666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004989340388297967,
      "loss": 0.3408,
      "step": 22540
    },
    {
      "epoch": 60.13333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000498933071958357,
      "loss": 0.3335,
      "step": 22550
    },
    {
      "epoch": 60.16,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004989321046495572,
      "loss": 0.3395,
      "step": 22560
    },
    {
      "epoch": 60.18666666666667,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004989311369033993,
      "loss": 0.3339,
      "step": 22570
    },
    {
      "epoch": 60.21333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004989301687198846,
      "loss": 0.3237,
      "step": 22580
    },
    {
      "epoch": 60.24,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000498929200099015,
      "loss": 0.3284,
      "step": 22590
    },
    {
      "epoch": 60.266666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004989282310407923,
      "loss": 0.3344,
      "step": 22600
    },
    {
      "epoch": 60.29333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000498927261545218,
      "loss": 0.33,
      "step": 22610
    },
    {
      "epoch": 60.32,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000498926291612294,
      "loss": 0.3365,
      "step": 22620
    },
    {
      "epoch": 60.346666666666664,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004989253212420218,
      "loss": 0.3366,
      "step": 22630
    },
    {
      "epoch": 60.373333333333335,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004989243504344032,
      "loss": 0.3291,
      "step": 22640
    },
    {
      "epoch": 60.4,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.00049892337918944,
      "loss": 0.3308,
      "step": 22650
    },
    {
      "epoch": 60.42666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004989224075071338,
      "loss": 0.3358,
      "step": 22660
    },
    {
      "epoch": 60.45333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004989214353874862,
      "loss": 0.3447,
      "step": 22670
    },
    {
      "epoch": 60.48,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004989204628304992,
      "loss": 0.3409,
      "step": 22680
    },
    {
      "epoch": 60.50666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004989194898361743,
      "loss": 0.3364,
      "step": 22690
    },
    {
      "epoch": 60.53333333333333,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0004989185164045132,
      "loss": 0.3317,
      "step": 22700
    },
    {
      "epoch": 60.56,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004989175425355178,
      "loss": 0.329,
      "step": 22710
    },
    {
      "epoch": 60.586666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004989165682291895,
      "loss": 0.3303,
      "step": 22720
    },
    {
      "epoch": 60.61333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004989155934855303,
      "loss": 0.3217,
      "step": 22730
    },
    {
      "epoch": 60.64,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004989146183045417,
      "loss": 0.3251,
      "step": 22740
    },
    {
      "epoch": 60.666666666666664,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004989136426862257,
      "loss": 0.3398,
      "step": 22750
    },
    {
      "epoch": 60.693333333333335,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004989126666305836,
      "loss": 0.3191,
      "step": 22760
    },
    {
      "epoch": 60.72,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004989116901376175,
      "loss": 0.3353,
      "step": 22770
    },
    {
      "epoch": 60.74666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004989107132073289,
      "loss": 0.3371,
      "step": 22780
    },
    {
      "epoch": 60.77333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004989097358397195,
      "loss": 0.3488,
      "step": 22790
    },
    {
      "epoch": 60.8,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004989087580347912,
      "loss": 0.3343,
      "step": 22800
    },
    {
      "epoch": 60.82666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004989077797925457,
      "loss": 0.3234,
      "step": 22810
    },
    {
      "epoch": 60.85333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004989068011129845,
      "loss": 0.3272,
      "step": 22820
    },
    {
      "epoch": 60.88,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004989058219961094,
      "loss": 0.3256,
      "step": 22830
    },
    {
      "epoch": 60.906666666666666,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004989048424419222,
      "loss": 0.3289,
      "step": 22840
    },
    {
      "epoch": 60.93333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004989038624504246,
      "loss": 0.3294,
      "step": 22850
    },
    {
      "epoch": 60.96,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004989028820216184,
      "loss": 0.3288,
      "step": 22860
    },
    {
      "epoch": 60.986666666666665,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004989019011555052,
      "loss": 0.343,
      "step": 22870
    },
    {
      "epoch": 61.0,
      "eval_loss": 0.40400707721710205,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.8448,
      "eval_samples_per_second": 1.246,
      "eval_steps_per_second": 0.078,
      "step": 22875
    },
    {
      "epoch": 61.013333333333335,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004989009198520867,
      "loss": 0.3317,
      "step": 22880
    },
    {
      "epoch": 61.04,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004988999381113647,
      "loss": 0.3585,
      "step": 22890
    },
    {
      "epoch": 61.06666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004988989559333408,
      "loss": 0.3423,
      "step": 22900
    },
    {
      "epoch": 61.093333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000498897973318017,
      "loss": 0.3398,
      "step": 22910
    },
    {
      "epoch": 61.12,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004988969902653948,
      "loss": 0.3356,
      "step": 22920
    },
    {
      "epoch": 61.14666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000498896006775476,
      "loss": 0.3372,
      "step": 22930
    },
    {
      "epoch": 61.17333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004988950228482623,
      "loss": 0.336,
      "step": 22940
    },
    {
      "epoch": 61.2,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004988940384837554,
      "loss": 0.3293,
      "step": 22950
    },
    {
      "epoch": 61.22666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000498893053681957,
      "loss": 0.3245,
      "step": 22960
    },
    {
      "epoch": 61.25333333333333,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.000498892068442869,
      "loss": 0.3247,
      "step": 22970
    },
    {
      "epoch": 61.28,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004988910827664931,
      "loss": 0.3432,
      "step": 22980
    },
    {
      "epoch": 61.306666666666665,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004988900966528309,
      "loss": 0.3244,
      "step": 22990
    },
    {
      "epoch": 61.333333333333336,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004988891101018842,
      "loss": 0.3393,
      "step": 23000
    },
    {
      "epoch": 61.36,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004988881231136548,
      "loss": 0.3305,
      "step": 23010
    },
    {
      "epoch": 61.38666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004988871356881441,
      "loss": 0.3279,
      "step": 23020
    },
    {
      "epoch": 61.413333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004988861478253543,
      "loss": 0.3339,
      "step": 23030
    },
    {
      "epoch": 61.44,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000498885159525287,
      "loss": 0.3401,
      "step": 23040
    },
    {
      "epoch": 61.46666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004988841707879438,
      "loss": 0.3444,
      "step": 23050
    },
    {
      "epoch": 61.49333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004988831816133265,
      "loss": 0.334,
      "step": 23060
    },
    {
      "epoch": 61.52,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004988821920014369,
      "loss": 0.3373,
      "step": 23070
    },
    {
      "epoch": 61.54666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004988812019522766,
      "loss": 0.3283,
      "step": 23080
    },
    {
      "epoch": 61.57333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004988802114658474,
      "loss": 0.3306,
      "step": 23090
    },
    {
      "epoch": 61.6,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004988792205421511,
      "loss": 0.3255,
      "step": 23100
    },
    {
      "epoch": 61.626666666666665,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004988782291811895,
      "loss": 0.3215,
      "step": 23110
    },
    {
      "epoch": 61.653333333333336,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004988772373829641,
      "loss": 0.3355,
      "step": 23120
    },
    {
      "epoch": 61.68,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004988762451474768,
      "loss": 0.3241,
      "step": 23130
    },
    {
      "epoch": 61.70666666666666,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004988752524747295,
      "loss": 0.3246,
      "step": 23140
    },
    {
      "epoch": 61.733333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004988742593647237,
      "loss": 0.3417,
      "step": 23150
    },
    {
      "epoch": 61.76,
      "grad_norm": 0.328125,
      "learning_rate": 0.0004988732658174611,
      "loss": 0.3426,
      "step": 23160
    },
    {
      "epoch": 61.78666666666667,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004988722718329437,
      "loss": 0.3426,
      "step": 23170
    },
    {
      "epoch": 61.81333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.000498871277411173,
      "loss": 0.325,
      "step": 23180
    },
    {
      "epoch": 61.84,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000498870282552151,
      "loss": 0.3251,
      "step": 23190
    },
    {
      "epoch": 61.86666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004988692872558791,
      "loss": 0.3263,
      "step": 23200
    },
    {
      "epoch": 61.89333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004988682915223595,
      "loss": 0.3264,
      "step": 23210
    },
    {
      "epoch": 61.92,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004988672953515936,
      "loss": 0.33,
      "step": 23220
    },
    {
      "epoch": 61.946666666666665,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004988662987435832,
      "loss": 0.3298,
      "step": 23230
    },
    {
      "epoch": 61.973333333333336,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004988653016983302,
      "loss": 0.3383,
      "step": 23240
    },
    {
      "epoch": 62.0,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004988643042158361,
      "loss": 0.3265,
      "step": 23250
    },
    {
      "epoch": 62.0,
      "eval_loss": 0.4039948582649231,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.8642,
      "eval_samples_per_second": 1.349,
      "eval_steps_per_second": 0.084,
      "step": 23250
    },
    {
      "epoch": 62.026666666666664,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000498863306296103,
      "loss": 0.3485,
      "step": 23260
    },
    {
      "epoch": 62.053333333333335,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004988623079391324,
      "loss": 0.3547,
      "step": 23270
    },
    {
      "epoch": 62.08,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004988613091449261,
      "loss": 0.3388,
      "step": 23280
    },
    {
      "epoch": 62.10666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000498860309913486,
      "loss": 0.3397,
      "step": 23290
    },
    {
      "epoch": 62.13333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004988593102448136,
      "loss": 0.333,
      "step": 23300
    },
    {
      "epoch": 62.16,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004988583101389108,
      "loss": 0.3394,
      "step": 23310
    },
    {
      "epoch": 62.18666666666667,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004988573095957794,
      "loss": 0.3333,
      "step": 23320
    },
    {
      "epoch": 62.21333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000498856308615421,
      "loss": 0.3226,
      "step": 23330
    },
    {
      "epoch": 62.24,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004988553071978375,
      "loss": 0.3271,
      "step": 23340
    },
    {
      "epoch": 62.266666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004988543053430307,
      "loss": 0.3343,
      "step": 23350
    },
    {
      "epoch": 62.29333333333334,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004988533030510021,
      "loss": 0.3289,
      "step": 23360
    },
    {
      "epoch": 62.32,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004988523003217537,
      "loss": 0.3349,
      "step": 23370
    },
    {
      "epoch": 62.346666666666664,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004988512971552873,
      "loss": 0.3357,
      "step": 23380
    },
    {
      "epoch": 62.373333333333335,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004988502935516046,
      "loss": 0.3281,
      "step": 23390
    },
    {
      "epoch": 62.4,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004988492895107072,
      "loss": 0.3285,
      "step": 23400
    },
    {
      "epoch": 62.42666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.000498848285032597,
      "loss": 0.3348,
      "step": 23410
    },
    {
      "epoch": 62.45333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004988472801172758,
      "loss": 0.3438,
      "step": 23420
    },
    {
      "epoch": 62.48,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004988462747647453,
      "loss": 0.3401,
      "step": 23430
    },
    {
      "epoch": 62.50666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004988452689750073,
      "loss": 0.3357,
      "step": 23440
    },
    {
      "epoch": 62.53333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004988442627480636,
      "loss": 0.3307,
      "step": 23450
    },
    {
      "epoch": 62.56,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004988432560839159,
      "loss": 0.3276,
      "step": 23460
    },
    {
      "epoch": 62.586666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000498842248982566,
      "loss": 0.3301,
      "step": 23470
    },
    {
      "epoch": 62.61333333333333,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004988412414440156,
      "loss": 0.3207,
      "step": 23480
    },
    {
      "epoch": 62.64,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004988402334682666,
      "loss": 0.3242,
      "step": 23490
    },
    {
      "epoch": 62.666666666666664,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004988392250553207,
      "loss": 0.3386,
      "step": 23500
    },
    {
      "epoch": 62.693333333333335,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004988382162051796,
      "loss": 0.3182,
      "step": 23510
    },
    {
      "epoch": 62.72,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004988372069178452,
      "loss": 0.3346,
      "step": 23520
    },
    {
      "epoch": 62.74666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004988361971933192,
      "loss": 0.3363,
      "step": 23530
    },
    {
      "epoch": 62.77333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004988351870316034,
      "loss": 0.3478,
      "step": 23540
    },
    {
      "epoch": 62.8,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004988341764326996,
      "loss": 0.3342,
      "step": 23550
    },
    {
      "epoch": 62.82666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004988331653966095,
      "loss": 0.3228,
      "step": 23560
    },
    {
      "epoch": 62.85333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.000498832153923335,
      "loss": 0.3262,
      "step": 23570
    },
    {
      "epoch": 62.88,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004988311420128777,
      "loss": 0.3251,
      "step": 23580
    },
    {
      "epoch": 62.906666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004988301296652395,
      "loss": 0.3284,
      "step": 23590
    },
    {
      "epoch": 62.93333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004988291168804222,
      "loss": 0.3282,
      "step": 23600
    },
    {
      "epoch": 62.96,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004988281036584275,
      "loss": 0.3276,
      "step": 23610
    },
    {
      "epoch": 62.986666666666665,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004988270899992572,
      "loss": 0.3413,
      "step": 23620
    },
    {
      "epoch": 63.0,
      "eval_loss": 0.4038945436477661,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.9667,
      "eval_samples_per_second": 1.146,
      "eval_steps_per_second": 0.072,
      "step": 23625
    },
    {
      "epoch": 63.013333333333335,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004988260759029131,
      "loss": 0.33,
      "step": 23630
    },
    {
      "epoch": 63.04,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000498825061369397,
      "loss": 0.3571,
      "step": 23640
    },
    {
      "epoch": 63.06666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004988240463987108,
      "loss": 0.3413,
      "step": 23650
    },
    {
      "epoch": 63.093333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000498823030990856,
      "loss": 0.3394,
      "step": 23660
    },
    {
      "epoch": 63.12,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004988220151458344,
      "loss": 0.335,
      "step": 23670
    },
    {
      "epoch": 63.14666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000498820998863648,
      "loss": 0.3362,
      "step": 23680
    },
    {
      "epoch": 63.17333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004988199821442986,
      "loss": 0.336,
      "step": 23690
    },
    {
      "epoch": 63.2,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004988189649877878,
      "loss": 0.3286,
      "step": 23700
    },
    {
      "epoch": 63.22666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004988179473941175,
      "loss": 0.3234,
      "step": 23710
    },
    {
      "epoch": 63.25333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004988169293632894,
      "loss": 0.3234,
      "step": 23720
    },
    {
      "epoch": 63.28,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004988159108953054,
      "loss": 0.3426,
      "step": 23730
    },
    {
      "epoch": 63.306666666666665,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004988148919901672,
      "loss": 0.3228,
      "step": 23740
    },
    {
      "epoch": 63.333333333333336,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004988138726478767,
      "loss": 0.3382,
      "step": 23750
    },
    {
      "epoch": 63.36,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004988128528684354,
      "loss": 0.3298,
      "step": 23760
    },
    {
      "epoch": 63.38666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004988118326518456,
      "loss": 0.3263,
      "step": 23770
    },
    {
      "epoch": 63.413333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004988108119981086,
      "loss": 0.3327,
      "step": 23780
    },
    {
      "epoch": 63.44,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004988097909072266,
      "loss": 0.339,
      "step": 23790
    },
    {
      "epoch": 63.46666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000498808769379201,
      "loss": 0.3432,
      "step": 23800
    },
    {
      "epoch": 63.49333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004988077474140339,
      "loss": 0.3322,
      "step": 23810
    },
    {
      "epoch": 63.52,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004988067250117268,
      "loss": 0.3361,
      "step": 23820
    },
    {
      "epoch": 63.54666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004988057021722819,
      "loss": 0.3269,
      "step": 23830
    },
    {
      "epoch": 63.57333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004988046788957007,
      "loss": 0.3293,
      "step": 23840
    },
    {
      "epoch": 63.6,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000498803655181985,
      "loss": 0.3242,
      "step": 23850
    },
    {
      "epoch": 63.626666666666665,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004988026310311366,
      "loss": 0.3207,
      "step": 23860
    },
    {
      "epoch": 63.653333333333336,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004988016064431575,
      "loss": 0.3347,
      "step": 23870
    },
    {
      "epoch": 63.68,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004988005814180494,
      "loss": 0.3231,
      "step": 23880
    },
    {
      "epoch": 63.70666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000498799555955814,
      "loss": 0.3242,
      "step": 23890
    },
    {
      "epoch": 63.733333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004987985300564531,
      "loss": 0.3404,
      "step": 23900
    },
    {
      "epoch": 63.76,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0004987975037199688,
      "loss": 0.342,
      "step": 23910
    },
    {
      "epoch": 63.78666666666667,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0004987964769463624,
      "loss": 0.3424,
      "step": 23920
    },
    {
      "epoch": 63.81333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004987954497356362,
      "loss": 0.3243,
      "step": 23930
    },
    {
      "epoch": 63.84,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004987944220877917,
      "loss": 0.3239,
      "step": 23940
    },
    {
      "epoch": 63.86666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004987933940028308,
      "loss": 0.325,
      "step": 23950
    },
    {
      "epoch": 63.89333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004987923654807552,
      "loss": 0.3254,
      "step": 23960
    },
    {
      "epoch": 63.92,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000498791336521567,
      "loss": 0.3277,
      "step": 23970
    },
    {
      "epoch": 63.946666666666665,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0004987903071252676,
      "loss": 0.3286,
      "step": 23980
    },
    {
      "epoch": 63.973333333333336,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004987892772918592,
      "loss": 0.3372,
      "step": 23990
    },
    {
      "epoch": 64.0,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004987882470213433,
      "loss": 0.3251,
      "step": 24000
    },
    {
      "epoch": 64.0,
      "eval_loss": 0.40351033210754395,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9,
      "eval_samples_per_second": 1.345,
      "eval_steps_per_second": 0.084,
      "step": 24000
    },
    {
      "epoch": 64.02666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004987872163137219,
      "loss": 0.3472,
      "step": 24010
    },
    {
      "epoch": 64.05333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004987861851689968,
      "loss": 0.3538,
      "step": 24020
    },
    {
      "epoch": 64.08,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004987851535871696,
      "loss": 0.3379,
      "step": 24030
    },
    {
      "epoch": 64.10666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004987841215682424,
      "loss": 0.3388,
      "step": 24040
    },
    {
      "epoch": 64.13333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004987830891122169,
      "loss": 0.3322,
      "step": 24050
    },
    {
      "epoch": 64.16,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004987820562190949,
      "loss": 0.3377,
      "step": 24060
    },
    {
      "epoch": 64.18666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004987810228888782,
      "loss": 0.3323,
      "step": 24070
    },
    {
      "epoch": 64.21333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004987799891215685,
      "loss": 0.3213,
      "step": 24080
    },
    {
      "epoch": 64.24,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004987789549171679,
      "loss": 0.3264,
      "step": 24090
    },
    {
      "epoch": 64.26666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000498777920275678,
      "loss": 0.3322,
      "step": 24100
    },
    {
      "epoch": 64.29333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004987768851971008,
      "loss": 0.3278,
      "step": 24110
    },
    {
      "epoch": 64.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004987758496814379,
      "loss": 0.3339,
      "step": 24120
    },
    {
      "epoch": 64.34666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004987748137286912,
      "loss": 0.3343,
      "step": 24130
    },
    {
      "epoch": 64.37333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004987737773388625,
      "loss": 0.3268,
      "step": 24140
    },
    {
      "epoch": 64.4,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004987727405119538,
      "loss": 0.3273,
      "step": 24150
    },
    {
      "epoch": 64.42666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004987717032479668,
      "loss": 0.3336,
      "step": 24160
    },
    {
      "epoch": 64.45333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004987706655469032,
      "loss": 0.3429,
      "step": 24170
    },
    {
      "epoch": 64.48,
      "grad_norm": 0.2109375,
      "learning_rate": 0.000498769627408765,
      "loss": 0.3386,
      "step": 24180
    },
    {
      "epoch": 64.50666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004987685888335539,
      "loss": 0.3347,
      "step": 24190
    },
    {
      "epoch": 64.53333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004987675498212717,
      "loss": 0.3296,
      "step": 24200
    },
    {
      "epoch": 64.56,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004987665103719205,
      "loss": 0.3269,
      "step": 24210
    },
    {
      "epoch": 64.58666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004987654704855018,
      "loss": 0.3281,
      "step": 24220
    },
    {
      "epoch": 64.61333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004987644301620175,
      "loss": 0.3199,
      "step": 24230
    },
    {
      "epoch": 64.64,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004987633894014696,
      "loss": 0.3229,
      "step": 24240
    },
    {
      "epoch": 64.66666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004987623482038598,
      "loss": 0.3379,
      "step": 24250
    },
    {
      "epoch": 64.69333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004987613065691899,
      "loss": 0.3186,
      "step": 24260
    },
    {
      "epoch": 64.72,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004987602644974618,
      "loss": 0.3333,
      "step": 24270
    },
    {
      "epoch": 64.74666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004987592219886773,
      "loss": 0.3359,
      "step": 24280
    },
    {
      "epoch": 64.77333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004987581790428383,
      "loss": 0.3468,
      "step": 24290
    },
    {
      "epoch": 64.8,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004987571356599464,
      "loss": 0.3325,
      "step": 24300
    },
    {
      "epoch": 64.82666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004987560918400037,
      "loss": 0.3214,
      "step": 24310
    },
    {
      "epoch": 64.85333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004987550475830119,
      "loss": 0.3257,
      "step": 24320
    },
    {
      "epoch": 64.88,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000498754002888973,
      "loss": 0.3242,
      "step": 24330
    },
    {
      "epoch": 64.90666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004987529577578885,
      "loss": 0.3273,
      "step": 24340
    },
    {
      "epoch": 64.93333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004987519121897605,
      "loss": 0.3279,
      "step": 24350
    },
    {
      "epoch": 64.96,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004987508661845909,
      "loss": 0.3265,
      "step": 24360
    },
    {
      "epoch": 64.98666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004987498197423813,
      "loss": 0.3407,
      "step": 24370
    },
    {
      "epoch": 65.0,
      "eval_loss": 0.4037664532661438,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5042,
      "eval_samples_per_second": 1.391,
      "eval_steps_per_second": 0.087,
      "step": 24375
    },
    {
      "epoch": 65.01333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004987487728631338,
      "loss": 0.3293,
      "step": 24380
    },
    {
      "epoch": 65.04,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004987477255468499,
      "loss": 0.3561,
      "step": 24390
    },
    {
      "epoch": 65.06666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004987466777935318,
      "loss": 0.3405,
      "step": 24400
    },
    {
      "epoch": 65.09333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000498745629603181,
      "loss": 0.3377,
      "step": 24410
    },
    {
      "epoch": 65.12,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004987445809757997,
      "loss": 0.3341,
      "step": 24420
    },
    {
      "epoch": 65.14666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004987435319113895,
      "loss": 0.3358,
      "step": 24430
    },
    {
      "epoch": 65.17333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0004987424824099522,
      "loss": 0.3343,
      "step": 24440
    },
    {
      "epoch": 65.2,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004987414324714899,
      "loss": 0.3279,
      "step": 24450
    },
    {
      "epoch": 65.22666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004987403820960042,
      "loss": 0.3228,
      "step": 24460
    },
    {
      "epoch": 65.25333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000498739331283497,
      "loss": 0.3226,
      "step": 24470
    },
    {
      "epoch": 65.28,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004987382800339702,
      "loss": 0.3418,
      "step": 24480
    },
    {
      "epoch": 65.30666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004987372283474257,
      "loss": 0.322,
      "step": 24490
    },
    {
      "epoch": 65.33333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004987361762238652,
      "loss": 0.3373,
      "step": 24500
    },
    {
      "epoch": 65.36,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004987351236632907,
      "loss": 0.3287,
      "step": 24510
    },
    {
      "epoch": 65.38666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004987340706657039,
      "loss": 0.3264,
      "step": 24520
    },
    {
      "epoch": 65.41333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004987330172311067,
      "loss": 0.3314,
      "step": 24530
    },
    {
      "epoch": 65.44,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004987319633595011,
      "loss": 0.3382,
      "step": 24540
    },
    {
      "epoch": 65.46666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004987309090508887,
      "loss": 0.3428,
      "step": 24550
    },
    {
      "epoch": 65.49333333333334,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004987298543052715,
      "loss": 0.3313,
      "step": 24560
    },
    {
      "epoch": 65.52,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004987287991226514,
      "loss": 0.3351,
      "step": 24570
    },
    {
      "epoch": 65.54666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004987277435030302,
      "loss": 0.3264,
      "step": 24580
    },
    {
      "epoch": 65.57333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004987266874464097,
      "loss": 0.3286,
      "step": 24590
    },
    {
      "epoch": 65.6,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004987256309527917,
      "loss": 0.3237,
      "step": 24600
    },
    {
      "epoch": 65.62666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004987245740221783,
      "loss": 0.3196,
      "step": 24610
    },
    {
      "epoch": 65.65333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004987235166545712,
      "loss": 0.3334,
      "step": 24620
    },
    {
      "epoch": 65.68,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004987224588499722,
      "loss": 0.3221,
      "step": 24630
    },
    {
      "epoch": 65.70666666666666,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004987214006083832,
      "loss": 0.3231,
      "step": 24640
    },
    {
      "epoch": 65.73333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004987203419298061,
      "loss": 0.3398,
      "step": 24650
    },
    {
      "epoch": 65.76,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004987192828142428,
      "loss": 0.3407,
      "step": 24660
    },
    {
      "epoch": 65.78666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000498718223261695,
      "loss": 0.3411,
      "step": 24670
    },
    {
      "epoch": 65.81333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004987171632721649,
      "loss": 0.3231,
      "step": 24680
    },
    {
      "epoch": 65.84,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004987161028456539,
      "loss": 0.323,
      "step": 24690
    },
    {
      "epoch": 65.86666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004987150419821642,
      "loss": 0.3245,
      "step": 24700
    },
    {
      "epoch": 65.89333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004987139806816974,
      "loss": 0.3246,
      "step": 24710
    },
    {
      "epoch": 65.92,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004987129189442558,
      "loss": 0.3276,
      "step": 24720
    },
    {
      "epoch": 65.94666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004987118567698407,
      "loss": 0.3277,
      "step": 24730
    },
    {
      "epoch": 65.97333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004987107941584545,
      "loss": 0.3358,
      "step": 24740
    },
    {
      "epoch": 66.0,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0004987097311100986,
      "loss": 0.3241,
      "step": 24750
    },
    {
      "epoch": 66.0,
      "eval_loss": 0.40279388427734375,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4516,
      "eval_samples_per_second": 1.397,
      "eval_steps_per_second": 0.087,
      "step": 24750
    },
    {
      "epoch": 66.02666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0004987086676247753,
      "loss": 0.3464,
      "step": 24760
    },
    {
      "epoch": 66.05333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.0004987076037024861,
      "loss": 0.3522,
      "step": 24770
    },
    {
      "epoch": 66.08,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004987065393432331,
      "loss": 0.3369,
      "step": 24780
    },
    {
      "epoch": 66.10666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000498705474547018,
      "loss": 0.3381,
      "step": 24790
    },
    {
      "epoch": 66.13333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0004987044093138429,
      "loss": 0.3315,
      "step": 24800
    },
    {
      "epoch": 66.16,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004987033436437095,
      "loss": 0.3366,
      "step": 24810
    },
    {
      "epoch": 66.18666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0004987022775366196,
      "loss": 0.3316,
      "step": 24820
    },
    {
      "epoch": 66.21333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004987012109925752,
      "loss": 0.3209,
      "step": 24830
    },
    {
      "epoch": 66.24,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004987001440115783,
      "loss": 0.3255,
      "step": 24840
    },
    {
      "epoch": 66.26666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004986990765936305,
      "loss": 0.3316,
      "step": 24850
    },
    {
      "epoch": 66.29333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004986980087387339,
      "loss": 0.327,
      "step": 24860
    },
    {
      "epoch": 66.32,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004986969404468903,
      "loss": 0.3334,
      "step": 24870
    },
    {
      "epoch": 66.34666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004986958717181015,
      "loss": 0.3339,
      "step": 24880
    },
    {
      "epoch": 66.37333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004986948025523694,
      "loss": 0.3259,
      "step": 24890
    },
    {
      "epoch": 66.4,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000498693732949696,
      "loss": 0.3271,
      "step": 24900
    },
    {
      "epoch": 66.42666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000498692662910083,
      "loss": 0.333,
      "step": 24910
    },
    {
      "epoch": 66.45333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004986915924335325,
      "loss": 0.3417,
      "step": 24920
    },
    {
      "epoch": 66.48,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004986905215200461,
      "loss": 0.3376,
      "step": 24930
    },
    {
      "epoch": 66.50666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004986894501696259,
      "loss": 0.3332,
      "step": 24940
    },
    {
      "epoch": 66.53333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004986883783822738,
      "loss": 0.3286,
      "step": 24950
    },
    {
      "epoch": 66.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004986873061579915,
      "loss": 0.3264,
      "step": 24960
    },
    {
      "epoch": 66.58666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000498686233496781,
      "loss": 0.3281,
      "step": 24970
    },
    {
      "epoch": 66.61333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004986851603986443,
      "loss": 0.3186,
      "step": 24980
    },
    {
      "epoch": 66.64,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000498684086863583,
      "loss": 0.3221,
      "step": 24990
    },
    {
      "epoch": 66.66666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004986830128915992,
      "loss": 0.3369,
      "step": 25000
    },
    {
      "epoch": 66.69333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004986819384826947,
      "loss": 0.3165,
      "step": 25010
    },
    {
      "epoch": 66.72,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004986808636368715,
      "loss": 0.3327,
      "step": 25020
    },
    {
      "epoch": 66.74666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004986797883541314,
      "loss": 0.3342,
      "step": 25030
    },
    {
      "epoch": 66.77333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004986787126344762,
      "loss": 0.3453,
      "step": 25040
    },
    {
      "epoch": 66.8,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004986776364779079,
      "loss": 0.3319,
      "step": 25050
    },
    {
      "epoch": 66.82666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004986765598844284,
      "loss": 0.3208,
      "step": 25060
    },
    {
      "epoch": 66.85333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004986754828540395,
      "loss": 0.3244,
      "step": 25070
    },
    {
      "epoch": 66.88,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004986744053867432,
      "loss": 0.3234,
      "step": 25080
    },
    {
      "epoch": 66.90666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004986733274825415,
      "loss": 0.3257,
      "step": 25090
    },
    {
      "epoch": 66.93333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000498672249141436,
      "loss": 0.3266,
      "step": 25100
    },
    {
      "epoch": 66.96,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004986711703634288,
      "loss": 0.3255,
      "step": 25110
    },
    {
      "epoch": 66.98666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004986700911485217,
      "loss": 0.34,
      "step": 25120
    },
    {
      "epoch": 67.0,
      "eval_loss": 0.4035235345363617,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0382,
      "eval_samples_per_second": 1.45,
      "eval_steps_per_second": 0.091,
      "step": 25125
    },
    {
      "epoch": 67.01333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004986690114967166,
      "loss": 0.3286,
      "step": 25130
    },
    {
      "epoch": 67.04,
      "grad_norm": 0.359375,
      "learning_rate": 0.0004986679314080154,
      "loss": 0.3558,
      "step": 25140
    },
    {
      "epoch": 67.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0004986668508824201,
      "loss": 0.3398,
      "step": 25150
    },
    {
      "epoch": 67.09333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004986657699199326,
      "loss": 0.3373,
      "step": 25160
    },
    {
      "epoch": 67.12,
      "grad_norm": 0.25,
      "learning_rate": 0.0004986646885205546,
      "loss": 0.3332,
      "step": 25170
    },
    {
      "epoch": 67.14666666666666,
      "grad_norm": 0.546875,
      "learning_rate": 0.0004986636066842882,
      "loss": 0.3344,
      "step": 25180
    },
    {
      "epoch": 67.17333333333333,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0004986625244111353,
      "loss": 0.3337,
      "step": 25190
    },
    {
      "epoch": 67.2,
      "grad_norm": 0.515625,
      "learning_rate": 0.0004986614417010975,
      "loss": 0.3266,
      "step": 25200
    },
    {
      "epoch": 67.22666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004986603585541771,
      "loss": 0.3216,
      "step": 25210
    },
    {
      "epoch": 67.25333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004986592749703758,
      "loss": 0.3217,
      "step": 25220
    },
    {
      "epoch": 67.28,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004986581909496954,
      "loss": 0.3398,
      "step": 25230
    },
    {
      "epoch": 67.30666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004986571064921381,
      "loss": 0.321,
      "step": 25240
    },
    {
      "epoch": 67.33333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004986560215977056,
      "loss": 0.3362,
      "step": 25250
    },
    {
      "epoch": 67.36,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004986549362663999,
      "loss": 0.3282,
      "step": 25260
    },
    {
      "epoch": 67.38666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004986538504982228,
      "loss": 0.3248,
      "step": 25270
    },
    {
      "epoch": 67.41333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004986527642931763,
      "loss": 0.331,
      "step": 25280
    },
    {
      "epoch": 67.44,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004986516776512623,
      "loss": 0.3371,
      "step": 25290
    },
    {
      "epoch": 67.46666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004986505905724825,
      "loss": 0.3413,
      "step": 25300
    },
    {
      "epoch": 67.49333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004986495030568392,
      "loss": 0.3306,
      "step": 25310
    },
    {
      "epoch": 67.52,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000498648415104334,
      "loss": 0.3343,
      "step": 25320
    },
    {
      "epoch": 67.54666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004986473267149691,
      "loss": 0.3256,
      "step": 25330
    },
    {
      "epoch": 67.57333333333334,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.000498646237888746,
      "loss": 0.3279,
      "step": 25340
    },
    {
      "epoch": 67.6,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004986451486256669,
      "loss": 0.3229,
      "step": 25350
    },
    {
      "epoch": 67.62666666666667,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004986440589257338,
      "loss": 0.3197,
      "step": 25360
    },
    {
      "epoch": 67.65333333333334,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004986429687889482,
      "loss": 0.333,
      "step": 25370
    },
    {
      "epoch": 67.68,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004986418782153125,
      "loss": 0.3215,
      "step": 25380
    },
    {
      "epoch": 67.70666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004986407872048283,
      "loss": 0.3217,
      "step": 25390
    },
    {
      "epoch": 67.73333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004986396957574977,
      "loss": 0.3385,
      "step": 25400
    },
    {
      "epoch": 67.76,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004986386038733225,
      "loss": 0.3395,
      "step": 25410
    },
    {
      "epoch": 67.78666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004986375115523045,
      "loss": 0.3401,
      "step": 25420
    },
    {
      "epoch": 67.81333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000498636418794446,
      "loss": 0.3222,
      "step": 25430
    },
    {
      "epoch": 67.84,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004986353255997485,
      "loss": 0.3213,
      "step": 25440
    },
    {
      "epoch": 67.86666666666666,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004986342319682142,
      "loss": 0.3234,
      "step": 25450
    },
    {
      "epoch": 67.89333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.000498633137899845,
      "loss": 0.3235,
      "step": 25460
    },
    {
      "epoch": 67.92,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004986320433946427,
      "loss": 0.3259,
      "step": 25470
    },
    {
      "epoch": 67.94666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004986309484526093,
      "loss": 0.3268,
      "step": 25480
    },
    {
      "epoch": 67.97333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004986298530737467,
      "loss": 0.3351,
      "step": 25490
    },
    {
      "epoch": 68.0,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004986287572580568,
      "loss": 0.3234,
      "step": 25500
    },
    {
      "epoch": 68.0,
      "eval_loss": 0.4041942358016968,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3187,
      "eval_samples_per_second": 1.414,
      "eval_steps_per_second": 0.088,
      "step": 25500
    },
    {
      "epoch": 68.02666666666667,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004986276610055416,
      "loss": 0.3453,
      "step": 25510
    },
    {
      "epoch": 68.05333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000498626564316203,
      "loss": 0.3513,
      "step": 25520
    },
    {
      "epoch": 68.08,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004986254671900429,
      "loss": 0.3359,
      "step": 25530
    },
    {
      "epoch": 68.10666666666667,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004986243696270631,
      "loss": 0.337,
      "step": 25540
    },
    {
      "epoch": 68.13333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004986232716272658,
      "loss": 0.3296,
      "step": 25550
    },
    {
      "epoch": 68.16,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004986221731906527,
      "loss": 0.3366,
      "step": 25560
    },
    {
      "epoch": 68.18666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000498621074317226,
      "loss": 0.3302,
      "step": 25570
    },
    {
      "epoch": 68.21333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004986199750069872,
      "loss": 0.3195,
      "step": 25580
    },
    {
      "epoch": 68.24,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004986188752599386,
      "loss": 0.3237,
      "step": 25590
    },
    {
      "epoch": 68.26666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000498617775076082,
      "loss": 0.3306,
      "step": 25600
    },
    {
      "epoch": 68.29333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004986166744554194,
      "loss": 0.3252,
      "step": 25610
    },
    {
      "epoch": 68.32,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004986155733979526,
      "loss": 0.3319,
      "step": 25620
    },
    {
      "epoch": 68.34666666666666,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004986144719036836,
      "loss": 0.3319,
      "step": 25630
    },
    {
      "epoch": 68.37333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004986133699726146,
      "loss": 0.3243,
      "step": 25640
    },
    {
      "epoch": 68.4,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000498612267604747,
      "loss": 0.3266,
      "step": 25650
    },
    {
      "epoch": 68.42666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004986111648000831,
      "loss": 0.3327,
      "step": 25660
    },
    {
      "epoch": 68.45333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004986100615586249,
      "loss": 0.341,
      "step": 25670
    },
    {
      "epoch": 68.48,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000498608957880374,
      "loss": 0.3365,
      "step": 25680
    },
    {
      "epoch": 68.50666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004986078537653327,
      "loss": 0.3325,
      "step": 25690
    },
    {
      "epoch": 68.53333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004986067492135027,
      "loss": 0.3278,
      "step": 25700
    },
    {
      "epoch": 68.56,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004986056442248861,
      "loss": 0.325,
      "step": 25710
    },
    {
      "epoch": 68.58666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004986045387994847,
      "loss": 0.327,
      "step": 25720
    },
    {
      "epoch": 68.61333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004986034329373004,
      "loss": 0.3184,
      "step": 25730
    },
    {
      "epoch": 68.64,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004986023266383354,
      "loss": 0.3211,
      "step": 25740
    },
    {
      "epoch": 68.66666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004986012199025914,
      "loss": 0.3363,
      "step": 25750
    },
    {
      "epoch": 68.69333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004986001127300705,
      "loss": 0.3158,
      "step": 25760
    },
    {
      "epoch": 68.72,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004985990051207745,
      "loss": 0.3311,
      "step": 25770
    },
    {
      "epoch": 68.74666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004985978970747055,
      "loss": 0.3338,
      "step": 25780
    },
    {
      "epoch": 68.77333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004985967885918653,
      "loss": 0.3455,
      "step": 25790
    },
    {
      "epoch": 68.8,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000498595679672256,
      "loss": 0.3307,
      "step": 25800
    },
    {
      "epoch": 68.82666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004985945703158794,
      "loss": 0.3191,
      "step": 25810
    },
    {
      "epoch": 68.85333333333334,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004985934605227375,
      "loss": 0.3242,
      "step": 25820
    },
    {
      "epoch": 68.88,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004985923502928324,
      "loss": 0.322,
      "step": 25830
    },
    {
      "epoch": 68.90666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004985912396261659,
      "loss": 0.3252,
      "step": 25840
    },
    {
      "epoch": 68.93333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004985901285227399,
      "loss": 0.3252,
      "step": 25850
    },
    {
      "epoch": 68.96,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004985890169825563,
      "loss": 0.3256,
      "step": 25860
    },
    {
      "epoch": 68.98666666666666,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004985879050056173,
      "loss": 0.339,
      "step": 25870
    },
    {
      "epoch": 69.0,
      "eval_loss": 0.40402182936668396,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5596,
      "eval_samples_per_second": 1.274,
      "eval_steps_per_second": 0.08,
      "step": 25875
    },
    {
      "epoch": 69.01333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004985867925919249,
      "loss": 0.3279,
      "step": 25880
    },
    {
      "epoch": 69.04,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004985856797414806,
      "loss": 0.3538,
      "step": 25890
    },
    {
      "epoch": 69.06666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0004985845664542867,
      "loss": 0.3386,
      "step": 25900
    },
    {
      "epoch": 69.09333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004985834527303452,
      "loss": 0.3367,
      "step": 25910
    },
    {
      "epoch": 69.12,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000498582338569658,
      "loss": 0.3318,
      "step": 25920
    },
    {
      "epoch": 69.14666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004985812239722268,
      "loss": 0.3341,
      "step": 25930
    },
    {
      "epoch": 69.17333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000498580108938054,
      "loss": 0.3331,
      "step": 25940
    },
    {
      "epoch": 69.2,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004985789934671411,
      "loss": 0.3262,
      "step": 25950
    },
    {
      "epoch": 69.22666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004985778775594904,
      "loss": 0.3207,
      "step": 25960
    },
    {
      "epoch": 69.25333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004985767612151038,
      "loss": 0.321,
      "step": 25970
    },
    {
      "epoch": 69.28,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004985756444339831,
      "loss": 0.3388,
      "step": 25980
    },
    {
      "epoch": 69.30666666666667,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004985745272161303,
      "loss": 0.3206,
      "step": 25990
    },
    {
      "epoch": 69.33333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004985734095615476,
      "loss": 0.3352,
      "step": 26000
    },
    {
      "epoch": 69.36,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004985722914702367,
      "loss": 0.3267,
      "step": 26010
    },
    {
      "epoch": 69.38666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004985711729421998,
      "loss": 0.3244,
      "step": 26020
    },
    {
      "epoch": 69.41333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004985700539774386,
      "loss": 0.3297,
      "step": 26030
    },
    {
      "epoch": 69.44,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004985689345759552,
      "loss": 0.3365,
      "step": 26040
    },
    {
      "epoch": 69.46666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004985678147377515,
      "loss": 0.3406,
      "step": 26050
    },
    {
      "epoch": 69.49333333333334,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004985666944628297,
      "loss": 0.3293,
      "step": 26060
    },
    {
      "epoch": 69.52,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004985655737511915,
      "loss": 0.333,
      "step": 26070
    },
    {
      "epoch": 69.54666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004985644526028388,
      "loss": 0.3243,
      "step": 26080
    },
    {
      "epoch": 69.57333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000498563331017774,
      "loss": 0.3272,
      "step": 26090
    },
    {
      "epoch": 69.6,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004985622089959987,
      "loss": 0.3221,
      "step": 26100
    },
    {
      "epoch": 69.62666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.000498561086537515,
      "loss": 0.3186,
      "step": 26110
    },
    {
      "epoch": 69.65333333333334,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004985599636423248,
      "loss": 0.3317,
      "step": 26120
    },
    {
      "epoch": 69.68,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00049855884031043,
      "loss": 0.32,
      "step": 26130
    },
    {
      "epoch": 69.70666666666666,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004985577165418329,
      "loss": 0.3212,
      "step": 26140
    },
    {
      "epoch": 69.73333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004985565923365351,
      "loss": 0.3378,
      "step": 26150
    },
    {
      "epoch": 69.76,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004985554676945389,
      "loss": 0.3389,
      "step": 26160
    },
    {
      "epoch": 69.78666666666666,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004985543426158461,
      "loss": 0.3386,
      "step": 26170
    },
    {
      "epoch": 69.81333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004985532171004586,
      "loss": 0.3214,
      "step": 26180
    },
    {
      "epoch": 69.84,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004985520911483785,
      "loss": 0.3209,
      "step": 26190
    },
    {
      "epoch": 69.86666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004985509647596079,
      "loss": 0.3224,
      "step": 26200
    },
    {
      "epoch": 69.89333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004985498379341484,
      "loss": 0.3226,
      "step": 26210
    },
    {
      "epoch": 69.92,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004985487106720024,
      "loss": 0.3246,
      "step": 26220
    },
    {
      "epoch": 69.94666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004985475829731716,
      "loss": 0.3254,
      "step": 26230
    },
    {
      "epoch": 69.97333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004985464548376581,
      "loss": 0.334,
      "step": 26240
    },
    {
      "epoch": 70.0,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004985453262654637,
      "loss": 0.3216,
      "step": 26250
    },
    {
      "epoch": 70.0,
      "eval_loss": 0.4038293659687042,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1246,
      "eval_samples_per_second": 1.438,
      "eval_steps_per_second": 0.09,
      "step": 26250
    },
    {
      "epoch": 70.02666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004985441972565907,
      "loss": 0.3448,
      "step": 26260
    },
    {
      "epoch": 70.05333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004985430678110409,
      "loss": 0.3515,
      "step": 26270
    },
    {
      "epoch": 70.08,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004985419379288163,
      "loss": 0.3352,
      "step": 26280
    },
    {
      "epoch": 70.10666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004985408076099188,
      "loss": 0.3363,
      "step": 26290
    },
    {
      "epoch": 70.13333333333334,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004985396768543507,
      "loss": 0.3291,
      "step": 26300
    },
    {
      "epoch": 70.16,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004985385456621136,
      "loss": 0.3347,
      "step": 26310
    },
    {
      "epoch": 70.18666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004985374140332096,
      "loss": 0.3291,
      "step": 26320
    },
    {
      "epoch": 70.21333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004985362819676408,
      "loss": 0.3192,
      "step": 26330
    },
    {
      "epoch": 70.24,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004985351494654092,
      "loss": 0.3237,
      "step": 26340
    },
    {
      "epoch": 70.26666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004985340165265165,
      "loss": 0.3296,
      "step": 26350
    },
    {
      "epoch": 70.29333333333334,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004985328831509651,
      "loss": 0.3252,
      "step": 26360
    },
    {
      "epoch": 70.32,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004985317493387568,
      "loss": 0.3319,
      "step": 26370
    },
    {
      "epoch": 70.34666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004985306150898935,
      "loss": 0.3318,
      "step": 26380
    },
    {
      "epoch": 70.37333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004985294804043774,
      "loss": 0.3246,
      "step": 26390
    },
    {
      "epoch": 70.4,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004985283452822103,
      "loss": 0.3252,
      "step": 26400
    },
    {
      "epoch": 70.42666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004985272097233942,
      "loss": 0.3312,
      "step": 26410
    },
    {
      "epoch": 70.45333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004985260737279312,
      "loss": 0.3398,
      "step": 26420
    },
    {
      "epoch": 70.48,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004985249372958234,
      "loss": 0.3355,
      "step": 26430
    },
    {
      "epoch": 70.50666666666666,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004985238004270726,
      "loss": 0.3316,
      "step": 26440
    },
    {
      "epoch": 70.53333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004985226631216807,
      "loss": 0.3273,
      "step": 26450
    },
    {
      "epoch": 70.56,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00049852152537965,
      "loss": 0.3243,
      "step": 26460
    },
    {
      "epoch": 70.58666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004985203872009823,
      "loss": 0.3264,
      "step": 26470
    },
    {
      "epoch": 70.61333333333333,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0004985192485856797,
      "loss": 0.3167,
      "step": 26480
    },
    {
      "epoch": 70.64,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004985181095337441,
      "loss": 0.3204,
      "step": 26490
    },
    {
      "epoch": 70.66666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004985169700451776,
      "loss": 0.3354,
      "step": 26500
    },
    {
      "epoch": 70.69333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004985158301199821,
      "loss": 0.3152,
      "step": 26510
    },
    {
      "epoch": 70.72,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004985146897581597,
      "loss": 0.3316,
      "step": 26520
    },
    {
      "epoch": 70.74666666666667,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004985135489597124,
      "loss": 0.3322,
      "step": 26530
    },
    {
      "epoch": 70.77333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004985124077246421,
      "loss": 0.3433,
      "step": 26540
    },
    {
      "epoch": 70.8,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004985112660529509,
      "loss": 0.3294,
      "step": 26550
    },
    {
      "epoch": 70.82666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004985101239446408,
      "loss": 0.3186,
      "step": 26560
    },
    {
      "epoch": 70.85333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004985089813997138,
      "loss": 0.3226,
      "step": 26570
    },
    {
      "epoch": 70.88,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004985078384181718,
      "loss": 0.321,
      "step": 26580
    },
    {
      "epoch": 70.90666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000498506695000017,
      "loss": 0.3244,
      "step": 26590
    },
    {
      "epoch": 70.93333333333334,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004985055511452513,
      "loss": 0.3252,
      "step": 26600
    },
    {
      "epoch": 70.96,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004985044068538766,
      "loss": 0.3242,
      "step": 26610
    },
    {
      "epoch": 70.98666666666666,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004985032621258952,
      "loss": 0.3377,
      "step": 26620
    },
    {
      "epoch": 71.0,
      "eval_loss": 0.40259572863578796,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.6997,
      "eval_samples_per_second": 1.26,
      "eval_steps_per_second": 0.079,
      "step": 26625
    },
    {
      "epoch": 71.01333333333334,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004985021169613089,
      "loss": 0.3268,
      "step": 26630
    },
    {
      "epoch": 71.04,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004985009713601196,
      "loss": 0.3532,
      "step": 26640
    },
    {
      "epoch": 71.06666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004984998253223296,
      "loss": 0.3375,
      "step": 26650
    },
    {
      "epoch": 71.09333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004984986788479407,
      "loss": 0.3353,
      "step": 26660
    },
    {
      "epoch": 71.12,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004984975319369551,
      "loss": 0.3315,
      "step": 26670
    },
    {
      "epoch": 71.14666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004984963845893746,
      "loss": 0.3331,
      "step": 26680
    },
    {
      "epoch": 71.17333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004984952368052015,
      "loss": 0.3314,
      "step": 26690
    },
    {
      "epoch": 71.2,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004984940885844375,
      "loss": 0.3241,
      "step": 26700
    },
    {
      "epoch": 71.22666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004984929399270847,
      "loss": 0.3194,
      "step": 26710
    },
    {
      "epoch": 71.25333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004984917908331454,
      "loss": 0.32,
      "step": 26720
    },
    {
      "epoch": 71.28,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004984906413026211,
      "loss": 0.338,
      "step": 26730
    },
    {
      "epoch": 71.30666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004984894913355143,
      "loss": 0.3199,
      "step": 26740
    },
    {
      "epoch": 71.33333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004984883409318268,
      "loss": 0.3347,
      "step": 26750
    },
    {
      "epoch": 71.36,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004984871900915606,
      "loss": 0.3258,
      "step": 26760
    },
    {
      "epoch": 71.38666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004984860388147178,
      "loss": 0.3231,
      "step": 26770
    },
    {
      "epoch": 71.41333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004984848871013005,
      "loss": 0.3288,
      "step": 26780
    },
    {
      "epoch": 71.44,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004984837349513106,
      "loss": 0.3358,
      "step": 26790
    },
    {
      "epoch": 71.46666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004984825823647501,
      "loss": 0.34,
      "step": 26800
    },
    {
      "epoch": 71.49333333333334,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004984814293416211,
      "loss": 0.3282,
      "step": 26810
    },
    {
      "epoch": 71.52,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004984802758819255,
      "loss": 0.3324,
      "step": 26820
    },
    {
      "epoch": 71.54666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004984791219856656,
      "loss": 0.3233,
      "step": 26830
    },
    {
      "epoch": 71.57333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004984779676528432,
      "loss": 0.3255,
      "step": 26840
    },
    {
      "epoch": 71.6,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004984768128834603,
      "loss": 0.321,
      "step": 26850
    },
    {
      "epoch": 71.62666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.000498475657677519,
      "loss": 0.3172,
      "step": 26860
    },
    {
      "epoch": 71.65333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004984745020350215,
      "loss": 0.3314,
      "step": 26870
    },
    {
      "epoch": 71.68,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004984733459559694,
      "loss": 0.3195,
      "step": 26880
    },
    {
      "epoch": 71.70666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004984721894403652,
      "loss": 0.3202,
      "step": 26890
    },
    {
      "epoch": 71.73333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004984710324882107,
      "loss": 0.3372,
      "step": 26900
    },
    {
      "epoch": 71.76,
      "grad_norm": 0.171875,
      "learning_rate": 0.000498469875099508,
      "loss": 0.3381,
      "step": 26910
    },
    {
      "epoch": 71.78666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000498468717274259,
      "loss": 0.3387,
      "step": 26920
    },
    {
      "epoch": 71.81333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004984675590124659,
      "loss": 0.3207,
      "step": 26930
    },
    {
      "epoch": 71.84,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004984664003141307,
      "loss": 0.3201,
      "step": 26940
    },
    {
      "epoch": 71.86666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004984652411792553,
      "loss": 0.3218,
      "step": 26950
    },
    {
      "epoch": 71.89333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004984640816078419,
      "loss": 0.3216,
      "step": 26960
    },
    {
      "epoch": 71.92,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004984629215998925,
      "loss": 0.3243,
      "step": 26970
    },
    {
      "epoch": 71.94666666666667,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004984617611554092,
      "loss": 0.3241,
      "step": 26980
    },
    {
      "epoch": 71.97333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004984606002743938,
      "loss": 0.3334,
      "step": 26990
    },
    {
      "epoch": 72.0,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004984594389568486,
      "loss": 0.3211,
      "step": 27000
    },
    {
      "epoch": 72.0,
      "eval_loss": 0.40322139859199524,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5525,
      "eval_samples_per_second": 1.516,
      "eval_steps_per_second": 0.095,
      "step": 27000
    },
    {
      "epoch": 72.02666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004984582772027755,
      "loss": 0.3439,
      "step": 27010
    },
    {
      "epoch": 72.05333333333333,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004984571150121765,
      "loss": 0.3507,
      "step": 27020
    },
    {
      "epoch": 72.08,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004984559523850538,
      "loss": 0.3343,
      "step": 27030
    },
    {
      "epoch": 72.10666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004984547893214093,
      "loss": 0.3355,
      "step": 27040
    },
    {
      "epoch": 72.13333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004984536258212452,
      "loss": 0.3276,
      "step": 27050
    },
    {
      "epoch": 72.16,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004984524618845634,
      "loss": 0.3345,
      "step": 27060
    },
    {
      "epoch": 72.18666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004984512975113659,
      "loss": 0.3287,
      "step": 27070
    },
    {
      "epoch": 72.21333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.000498450132701655,
      "loss": 0.3178,
      "step": 27080
    },
    {
      "epoch": 72.24,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004984489674554326,
      "loss": 0.3223,
      "step": 27090
    },
    {
      "epoch": 72.26666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004984478017727006,
      "loss": 0.3289,
      "step": 27100
    },
    {
      "epoch": 72.29333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004984466356534612,
      "loss": 0.3234,
      "step": 27110
    },
    {
      "epoch": 72.32,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004984454690977165,
      "loss": 0.3306,
      "step": 27120
    },
    {
      "epoch": 72.34666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004984443021054685,
      "loss": 0.3309,
      "step": 27130
    },
    {
      "epoch": 72.37333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004984431346767191,
      "loss": 0.3224,
      "step": 27140
    },
    {
      "epoch": 72.4,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004984419668114705,
      "loss": 0.324,
      "step": 27150
    },
    {
      "epoch": 72.42666666666666,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004984407985097248,
      "loss": 0.3299,
      "step": 27160
    },
    {
      "epoch": 72.45333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004984396297714839,
      "loss": 0.3385,
      "step": 27170
    },
    {
      "epoch": 72.48,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004984384605967501,
      "loss": 0.3354,
      "step": 27180
    },
    {
      "epoch": 72.50666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004984372909855252,
      "loss": 0.3308,
      "step": 27190
    },
    {
      "epoch": 72.53333333333333,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004984361209378113,
      "loss": 0.3256,
      "step": 27200
    },
    {
      "epoch": 72.56,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004984349504536105,
      "loss": 0.324,
      "step": 27210
    },
    {
      "epoch": 72.58666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000498433779532925,
      "loss": 0.3256,
      "step": 27220
    },
    {
      "epoch": 72.61333333333333,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004984326081757567,
      "loss": 0.3164,
      "step": 27230
    },
    {
      "epoch": 72.64,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004984314363821076,
      "loss": 0.3194,
      "step": 27240
    },
    {
      "epoch": 72.66666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004984302641519798,
      "loss": 0.335,
      "step": 27250
    },
    {
      "epoch": 72.69333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004984290914853754,
      "loss": 0.3142,
      "step": 27260
    },
    {
      "epoch": 72.72,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004984279183822965,
      "loss": 0.3298,
      "step": 27270
    },
    {
      "epoch": 72.74666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.000498426744842745,
      "loss": 0.3318,
      "step": 27280
    },
    {
      "epoch": 72.77333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004984255708667233,
      "loss": 0.3431,
      "step": 27290
    },
    {
      "epoch": 72.8,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004984243964542331,
      "loss": 0.3287,
      "step": 27300
    },
    {
      "epoch": 72.82666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004984232216052766,
      "loss": 0.3182,
      "step": 27310
    },
    {
      "epoch": 72.85333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004984220463198559,
      "loss": 0.322,
      "step": 27320
    },
    {
      "epoch": 72.88,
      "grad_norm": 0.1875,
      "learning_rate": 0.000498420870597973,
      "loss": 0.3209,
      "step": 27330
    },
    {
      "epoch": 72.90666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00049841969443963,
      "loss": 0.3234,
      "step": 27340
    },
    {
      "epoch": 72.93333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004984185178448289,
      "loss": 0.324,
      "step": 27350
    },
    {
      "epoch": 72.96,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004984173408135719,
      "loss": 0.3231,
      "step": 27360
    },
    {
      "epoch": 72.98666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000498416163345861,
      "loss": 0.3366,
      "step": 27370
    },
    {
      "epoch": 73.0,
      "eval_loss": 0.4043694734573364,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.8094,
      "eval_samples_per_second": 1.355,
      "eval_steps_per_second": 0.085,
      "step": 27375
    },
    {
      "epoch": 73.01333333333334,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004984149854416984,
      "loss": 0.3257,
      "step": 27380
    },
    {
      "epoch": 73.04,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004984138071010859,
      "loss": 0.3523,
      "step": 27390
    },
    {
      "epoch": 73.06666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004984126283240257,
      "loss": 0.3368,
      "step": 27400
    },
    {
      "epoch": 73.09333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004984114491105199,
      "loss": 0.335,
      "step": 27410
    },
    {
      "epoch": 73.12,
      "grad_norm": 0.25,
      "learning_rate": 0.0004984102694605705,
      "loss": 0.3306,
      "step": 27420
    },
    {
      "epoch": 73.14666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004984090893741797,
      "loss": 0.3318,
      "step": 27430
    },
    {
      "epoch": 73.17333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004984079088513494,
      "loss": 0.3313,
      "step": 27440
    },
    {
      "epoch": 73.2,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000498406727892082,
      "loss": 0.3242,
      "step": 27450
    },
    {
      "epoch": 73.22666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004984055464963791,
      "loss": 0.3195,
      "step": 27460
    },
    {
      "epoch": 73.25333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004984043646642431,
      "loss": 0.3192,
      "step": 27470
    },
    {
      "epoch": 73.28,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004984031823956761,
      "loss": 0.3374,
      "step": 27480
    },
    {
      "epoch": 73.30666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004984019996906799,
      "loss": 0.3184,
      "step": 27490
    },
    {
      "epoch": 73.33333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004984008165492569,
      "loss": 0.3335,
      "step": 27500
    },
    {
      "epoch": 73.36,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004983996329714089,
      "loss": 0.3252,
      "step": 27510
    },
    {
      "epoch": 73.38666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004983984489571381,
      "loss": 0.322,
      "step": 27520
    },
    {
      "epoch": 73.41333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004983972645064467,
      "loss": 0.3287,
      "step": 27530
    },
    {
      "epoch": 73.44,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004983960796193366,
      "loss": 0.3352,
      "step": 27540
    },
    {
      "epoch": 73.46666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.00049839489429581,
      "loss": 0.3391,
      "step": 27550
    },
    {
      "epoch": 73.49333333333334,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004983937085358689,
      "loss": 0.328,
      "step": 27560
    },
    {
      "epoch": 73.52,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004983925223395155,
      "loss": 0.332,
      "step": 27570
    },
    {
      "epoch": 73.54666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004983913357067517,
      "loss": 0.3226,
      "step": 27580
    },
    {
      "epoch": 73.57333333333334,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004983901486375797,
      "loss": 0.3253,
      "step": 27590
    },
    {
      "epoch": 73.6,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004983889611320017,
      "loss": 0.3204,
      "step": 27600
    },
    {
      "epoch": 73.62666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004983877731900196,
      "loss": 0.3162,
      "step": 27610
    },
    {
      "epoch": 73.65333333333334,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004983865848116355,
      "loss": 0.3303,
      "step": 27620
    },
    {
      "epoch": 73.68,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004983853959968515,
      "loss": 0.3185,
      "step": 27630
    },
    {
      "epoch": 73.70666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004983842067456698,
      "loss": 0.3193,
      "step": 27640
    },
    {
      "epoch": 73.73333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004983830170580924,
      "loss": 0.3361,
      "step": 27650
    },
    {
      "epoch": 73.76,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004983818269341213,
      "loss": 0.3365,
      "step": 27660
    },
    {
      "epoch": 73.78666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004983806363737589,
      "loss": 0.3372,
      "step": 27670
    },
    {
      "epoch": 73.81333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004983794453770069,
      "loss": 0.3198,
      "step": 27680
    },
    {
      "epoch": 73.84,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004983782539438677,
      "loss": 0.32,
      "step": 27690
    },
    {
      "epoch": 73.86666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004983770620743432,
      "loss": 0.321,
      "step": 27700
    },
    {
      "epoch": 73.89333333333333,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004983758697684357,
      "loss": 0.3209,
      "step": 27710
    },
    {
      "epoch": 73.92,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000498374677026147,
      "loss": 0.3232,
      "step": 27720
    },
    {
      "epoch": 73.94666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004983734838474794,
      "loss": 0.3244,
      "step": 27730
    },
    {
      "epoch": 73.97333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000498372290232435,
      "loss": 0.3325,
      "step": 27740
    },
    {
      "epoch": 74.0,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004983710961810157,
      "loss": 0.3206,
      "step": 27750
    },
    {
      "epoch": 74.0,
      "eval_loss": 0.4034038484096527,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9137,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.092,
      "step": 27750
    },
    {
      "epoch": 74.02666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004983699016932239,
      "loss": 0.3428,
      "step": 27760
    },
    {
      "epoch": 74.05333333333333,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004983687067690616,
      "loss": 0.3491,
      "step": 27770
    },
    {
      "epoch": 74.08,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004983675114085306,
      "loss": 0.333,
      "step": 27780
    },
    {
      "epoch": 74.10666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004983663156116335,
      "loss": 0.3349,
      "step": 27790
    },
    {
      "epoch": 74.13333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004983651193783721,
      "loss": 0.3271,
      "step": 27800
    },
    {
      "epoch": 74.16,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004983639227087484,
      "loss": 0.3336,
      "step": 27810
    },
    {
      "epoch": 74.18666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004983627256027647,
      "loss": 0.3276,
      "step": 27820
    },
    {
      "epoch": 74.21333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004983615280604231,
      "loss": 0.3172,
      "step": 27830
    },
    {
      "epoch": 74.24,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004983603300817257,
      "loss": 0.3218,
      "step": 27840
    },
    {
      "epoch": 74.26666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004983591316666746,
      "loss": 0.3279,
      "step": 27850
    },
    {
      "epoch": 74.29333333333334,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004983579328152718,
      "loss": 0.3233,
      "step": 27860
    },
    {
      "epoch": 74.32,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004983567335275195,
      "loss": 0.3297,
      "step": 27870
    },
    {
      "epoch": 74.34666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004983555338034197,
      "loss": 0.3301,
      "step": 27880
    },
    {
      "epoch": 74.37333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004983543336429746,
      "loss": 0.3226,
      "step": 27890
    },
    {
      "epoch": 74.4,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004983531330461864,
      "loss": 0.3237,
      "step": 27900
    },
    {
      "epoch": 74.42666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000498351932013057,
      "loss": 0.3289,
      "step": 27910
    },
    {
      "epoch": 74.45333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004983507305435887,
      "loss": 0.3379,
      "step": 27920
    },
    {
      "epoch": 74.48,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004983495286377834,
      "loss": 0.3341,
      "step": 27930
    },
    {
      "epoch": 74.50666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004983483262956435,
      "loss": 0.3299,
      "step": 27940
    },
    {
      "epoch": 74.53333333333333,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004983471235171708,
      "loss": 0.3259,
      "step": 27950
    },
    {
      "epoch": 74.56,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004983459203023677,
      "loss": 0.3221,
      "step": 27960
    },
    {
      "epoch": 74.58666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004983447166512361,
      "loss": 0.3248,
      "step": 27970
    },
    {
      "epoch": 74.61333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004983435125637783,
      "loss": 0.3155,
      "step": 27980
    },
    {
      "epoch": 74.64,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004983423080399962,
      "loss": 0.3181,
      "step": 27990
    },
    {
      "epoch": 74.66666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004983411030798921,
      "loss": 0.3335,
      "step": 28000
    },
    {
      "epoch": 74.69333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000498339897683468,
      "loss": 0.3127,
      "step": 28010
    },
    {
      "epoch": 74.72,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004983386918507261,
      "loss": 0.33,
      "step": 28020
    },
    {
      "epoch": 74.74666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004983374855816684,
      "loss": 0.3306,
      "step": 28030
    },
    {
      "epoch": 74.77333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004983362788762972,
      "loss": 0.3421,
      "step": 28040
    },
    {
      "epoch": 74.8,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004983350717346145,
      "loss": 0.3285,
      "step": 28050
    },
    {
      "epoch": 74.82666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004983338641566225,
      "loss": 0.3171,
      "step": 28060
    },
    {
      "epoch": 74.85333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004983326561423231,
      "loss": 0.3212,
      "step": 28070
    },
    {
      "epoch": 74.88,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004983314476917186,
      "loss": 0.3198,
      "step": 28080
    },
    {
      "epoch": 74.90666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004983302388048112,
      "loss": 0.3221,
      "step": 28090
    },
    {
      "epoch": 74.93333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004983290294816029,
      "loss": 0.3233,
      "step": 28100
    },
    {
      "epoch": 74.96,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004983278197220959,
      "loss": 0.322,
      "step": 28110
    },
    {
      "epoch": 74.98666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004983266095262922,
      "loss": 0.3356,
      "step": 28120
    },
    {
      "epoch": 75.0,
      "eval_loss": 0.40281620621681213,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5513,
      "eval_samples_per_second": 1.516,
      "eval_steps_per_second": 0.095,
      "step": 28125
    },
    {
      "epoch": 75.01333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000498325398894194,
      "loss": 0.3252,
      "step": 28130
    },
    {
      "epoch": 75.04,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004983241878258035,
      "loss": 0.3518,
      "step": 28140
    },
    {
      "epoch": 75.06666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004983229763211227,
      "loss": 0.3363,
      "step": 28150
    },
    {
      "epoch": 75.09333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004983217643801538,
      "loss": 0.3338,
      "step": 28160
    },
    {
      "epoch": 75.12,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000498320552002899,
      "loss": 0.3298,
      "step": 28170
    },
    {
      "epoch": 75.14666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004983193391893603,
      "loss": 0.3312,
      "step": 28180
    },
    {
      "epoch": 75.17333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004983181259395399,
      "loss": 0.33,
      "step": 28190
    },
    {
      "epoch": 75.2,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004983169122534401,
      "loss": 0.3232,
      "step": 28200
    },
    {
      "epoch": 75.22666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004983156981310624,
      "loss": 0.3181,
      "step": 28210
    },
    {
      "epoch": 75.25333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004983144835724097,
      "loss": 0.3186,
      "step": 28220
    },
    {
      "epoch": 75.28,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004983132685774838,
      "loss": 0.3371,
      "step": 28230
    },
    {
      "epoch": 75.30666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004983120531462868,
      "loss": 0.318,
      "step": 28240
    },
    {
      "epoch": 75.33333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004983108372788209,
      "loss": 0.3321,
      "step": 28250
    },
    {
      "epoch": 75.36,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004983096209750881,
      "loss": 0.324,
      "step": 28260
    },
    {
      "epoch": 75.38666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004983084042350909,
      "loss": 0.3209,
      "step": 28270
    },
    {
      "epoch": 75.41333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004983071870588309,
      "loss": 0.327,
      "step": 28280
    },
    {
      "epoch": 75.44,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004983059694463107,
      "loss": 0.3342,
      "step": 28290
    },
    {
      "epoch": 75.46666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004983047513975323,
      "loss": 0.3382,
      "step": 28300
    },
    {
      "epoch": 75.49333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004983035329124977,
      "loss": 0.3271,
      "step": 28310
    },
    {
      "epoch": 75.52,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004983023139912093,
      "loss": 0.3304,
      "step": 28320
    },
    {
      "epoch": 75.54666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004983010946336689,
      "loss": 0.3218,
      "step": 28330
    },
    {
      "epoch": 75.57333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004982998748398789,
      "loss": 0.3249,
      "step": 28340
    },
    {
      "epoch": 75.6,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004982986546098415,
      "loss": 0.3196,
      "step": 28350
    },
    {
      "epoch": 75.62666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004982974339435587,
      "loss": 0.3154,
      "step": 28360
    },
    {
      "epoch": 75.65333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004982962128410325,
      "loss": 0.3295,
      "step": 28370
    },
    {
      "epoch": 75.68,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004982949913022655,
      "loss": 0.3178,
      "step": 28380
    },
    {
      "epoch": 75.70666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004982937693272593,
      "loss": 0.3187,
      "step": 28390
    },
    {
      "epoch": 75.73333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004982925469160163,
      "loss": 0.335,
      "step": 28400
    },
    {
      "epoch": 75.76,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004982913240685388,
      "loss": 0.3361,
      "step": 28410
    },
    {
      "epoch": 75.78666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004982901007848287,
      "loss": 0.3365,
      "step": 28420
    },
    {
      "epoch": 75.81333333333333,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004982888770648883,
      "loss": 0.3193,
      "step": 28430
    },
    {
      "epoch": 75.84,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004982876529087197,
      "loss": 0.3187,
      "step": 28440
    },
    {
      "epoch": 75.86666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004982864283163251,
      "loss": 0.3203,
      "step": 28450
    },
    {
      "epoch": 75.89333333333333,
      "grad_norm": 0.15625,
      "learning_rate": 0.0004982852032877066,
      "loss": 0.3207,
      "step": 28460
    },
    {
      "epoch": 75.92,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004982839778228663,
      "loss": 0.3222,
      "step": 28470
    },
    {
      "epoch": 75.94666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004982827519218064,
      "loss": 0.3237,
      "step": 28480
    },
    {
      "epoch": 75.97333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004982815255845291,
      "loss": 0.332,
      "step": 28490
    },
    {
      "epoch": 76.0,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004982802988110365,
      "loss": 0.32,
      "step": 28500
    },
    {
      "epoch": 76.0,
      "eval_loss": 0.4025021493434906,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7303,
      "eval_samples_per_second": 1.491,
      "eval_steps_per_second": 0.093,
      "step": 28500
    },
    {
      "epoch": 76.02666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004982790716013308,
      "loss": 0.3423,
      "step": 28510
    },
    {
      "epoch": 76.05333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004982778439554141,
      "loss": 0.3485,
      "step": 28520
    },
    {
      "epoch": 76.08,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004982766158732886,
      "loss": 0.3321,
      "step": 28530
    },
    {
      "epoch": 76.10666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004982753873549564,
      "loss": 0.3334,
      "step": 28540
    },
    {
      "epoch": 76.13333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004982741584004198,
      "loss": 0.3263,
      "step": 28550
    },
    {
      "epoch": 76.16,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004982729290096808,
      "loss": 0.333,
      "step": 28560
    },
    {
      "epoch": 76.18666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004982716991827417,
      "loss": 0.3275,
      "step": 28570
    },
    {
      "epoch": 76.21333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004982704689196044,
      "loss": 0.3168,
      "step": 28580
    },
    {
      "epoch": 76.24,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004982692382202714,
      "loss": 0.3211,
      "step": 28590
    },
    {
      "epoch": 76.26666666666667,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004982680070847446,
      "loss": 0.327,
      "step": 28600
    },
    {
      "epoch": 76.29333333333334,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004982667755130263,
      "loss": 0.322,
      "step": 28610
    },
    {
      "epoch": 76.32,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004982655435051187,
      "loss": 0.3293,
      "step": 28620
    },
    {
      "epoch": 76.34666666666666,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004982643110610238,
      "loss": 0.3287,
      "step": 28630
    },
    {
      "epoch": 76.37333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000498263078180744,
      "loss": 0.3216,
      "step": 28640
    },
    {
      "epoch": 76.4,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004982618448642812,
      "loss": 0.3233,
      "step": 28650
    },
    {
      "epoch": 76.42666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004982606111116378,
      "loss": 0.3292,
      "step": 28660
    },
    {
      "epoch": 76.45333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004982593769228158,
      "loss": 0.3377,
      "step": 28670
    },
    {
      "epoch": 76.48,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004982581422978174,
      "loss": 0.3336,
      "step": 28680
    },
    {
      "epoch": 76.50666666666666,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004982569072366448,
      "loss": 0.3295,
      "step": 28690
    },
    {
      "epoch": 76.53333333333333,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004982556717393003,
      "loss": 0.3252,
      "step": 28700
    },
    {
      "epoch": 76.56,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004982544358057858,
      "loss": 0.3219,
      "step": 28710
    },
    {
      "epoch": 76.58666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004982531994361037,
      "loss": 0.324,
      "step": 28720
    },
    {
      "epoch": 76.61333333333333,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004982519626302561,
      "loss": 0.3157,
      "step": 28730
    },
    {
      "epoch": 76.64,
      "grad_norm": 0.248046875,
      "learning_rate": 0.000498250725388245,
      "loss": 0.3181,
      "step": 28740
    },
    {
      "epoch": 76.66666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004982494877100729,
      "loss": 0.3334,
      "step": 28750
    },
    {
      "epoch": 76.69333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004982482495957418,
      "loss": 0.3126,
      "step": 28760
    },
    {
      "epoch": 76.72,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0004982470110452537,
      "loss": 0.3283,
      "step": 28770
    },
    {
      "epoch": 76.74666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004982457720586112,
      "loss": 0.3305,
      "step": 28780
    },
    {
      "epoch": 76.77333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004982445326358161,
      "loss": 0.3414,
      "step": 28790
    },
    {
      "epoch": 76.8,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004982432927768708,
      "loss": 0.3275,
      "step": 28800
    },
    {
      "epoch": 76.82666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004982420524817773,
      "loss": 0.3168,
      "step": 28810
    },
    {
      "epoch": 76.85333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004982408117505378,
      "loss": 0.3207,
      "step": 28820
    },
    {
      "epoch": 76.88,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004982395705831548,
      "loss": 0.3189,
      "step": 28830
    },
    {
      "epoch": 76.90666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004982383289796299,
      "loss": 0.3219,
      "step": 28840
    },
    {
      "epoch": 76.93333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004982370869399659,
      "loss": 0.3226,
      "step": 28850
    },
    {
      "epoch": 76.96,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004982358444641646,
      "loss": 0.3217,
      "step": 28860
    },
    {
      "epoch": 76.98666666666666,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004982346015522282,
      "loss": 0.3359,
      "step": 28870
    },
    {
      "epoch": 77.0,
      "eval_loss": 0.4006229043006897,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4451,
      "eval_samples_per_second": 1.398,
      "eval_steps_per_second": 0.087,
      "step": 28875
    },
    {
      "epoch": 77.01333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004982333582041591,
      "loss": 0.3243,
      "step": 28880
    },
    {
      "epoch": 77.04,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004982321144199592,
      "loss": 0.3507,
      "step": 28890
    },
    {
      "epoch": 77.06666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004982308701996309,
      "loss": 0.3354,
      "step": 28900
    },
    {
      "epoch": 77.09333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004982296255431763,
      "loss": 0.3332,
      "step": 28910
    },
    {
      "epoch": 77.12,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004982283804505976,
      "loss": 0.3288,
      "step": 28920
    },
    {
      "epoch": 77.14666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000498227134921897,
      "loss": 0.3306,
      "step": 28930
    },
    {
      "epoch": 77.17333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0004982258889570766,
      "loss": 0.3292,
      "step": 28940
    },
    {
      "epoch": 77.2,
      "grad_norm": 0.5,
      "learning_rate": 0.0004982246425561388,
      "loss": 0.3231,
      "step": 28950
    },
    {
      "epoch": 77.22666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0004982233957190856,
      "loss": 0.3179,
      "step": 28960
    },
    {
      "epoch": 77.25333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004982221484459193,
      "loss": 0.3173,
      "step": 28970
    },
    {
      "epoch": 77.28,
      "grad_norm": 0.23828125,
      "learning_rate": 0.000498220900736642,
      "loss": 0.3364,
      "step": 28980
    },
    {
      "epoch": 77.30666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004982196525912559,
      "loss": 0.3173,
      "step": 28990
    },
    {
      "epoch": 77.33333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004982184040097633,
      "loss": 0.3312,
      "step": 29000
    },
    {
      "epoch": 77.36,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004982171549921663,
      "loss": 0.3231,
      "step": 29010
    },
    {
      "epoch": 77.38666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004982159055384671,
      "loss": 0.3209,
      "step": 29020
    },
    {
      "epoch": 77.41333333333333,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004982146556486678,
      "loss": 0.3267,
      "step": 29030
    },
    {
      "epoch": 77.44,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004982134053227709,
      "loss": 0.333,
      "step": 29040
    },
    {
      "epoch": 77.46666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004982121545607783,
      "loss": 0.3378,
      "step": 29050
    },
    {
      "epoch": 77.49333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004982109033626923,
      "loss": 0.3268,
      "step": 29060
    },
    {
      "epoch": 77.52,
      "grad_norm": 0.171875,
      "learning_rate": 0.000498209651728515,
      "loss": 0.3298,
      "step": 29070
    },
    {
      "epoch": 77.54666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004982083996582489,
      "loss": 0.3207,
      "step": 29080
    },
    {
      "epoch": 77.57333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004982071471518959,
      "loss": 0.3236,
      "step": 29090
    },
    {
      "epoch": 77.6,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004982058942094583,
      "loss": 0.319,
      "step": 29100
    },
    {
      "epoch": 77.62666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004982046408309381,
      "loss": 0.3146,
      "step": 29110
    },
    {
      "epoch": 77.65333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004982033870163379,
      "loss": 0.3285,
      "step": 29120
    },
    {
      "epoch": 77.68,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004982021327656597,
      "loss": 0.3167,
      "step": 29130
    },
    {
      "epoch": 77.70666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004982008780789058,
      "loss": 0.3173,
      "step": 29140
    },
    {
      "epoch": 77.73333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004981996229560782,
      "loss": 0.3346,
      "step": 29150
    },
    {
      "epoch": 77.76,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004981983673971791,
      "loss": 0.3357,
      "step": 29160
    },
    {
      "epoch": 77.78666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000498197111402211,
      "loss": 0.3363,
      "step": 29170
    },
    {
      "epoch": 77.81333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004981958549711759,
      "loss": 0.3185,
      "step": 29180
    },
    {
      "epoch": 77.84,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000498194598104076,
      "loss": 0.3179,
      "step": 29190
    },
    {
      "epoch": 77.86666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004981933408009135,
      "loss": 0.3195,
      "step": 29200
    },
    {
      "epoch": 77.89333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004981920830616907,
      "loss": 0.3192,
      "step": 29210
    },
    {
      "epoch": 77.92,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004981908248864097,
      "loss": 0.322,
      "step": 29220
    },
    {
      "epoch": 77.94666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000498189566275073,
      "loss": 0.323,
      "step": 29230
    },
    {
      "epoch": 77.97333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004981883072276824,
      "loss": 0.3309,
      "step": 29240
    },
    {
      "epoch": 78.0,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004981870477442403,
      "loss": 0.3186,
      "step": 29250
    },
    {
      "epoch": 78.0,
      "eval_loss": 0.4010658264160156,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.7125,
      "eval_samples_per_second": 1.259,
      "eval_steps_per_second": 0.079,
      "step": 29250
    },
    {
      "epoch": 78.02666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004981857878247489,
      "loss": 0.3412,
      "step": 29260
    },
    {
      "epoch": 78.05333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004981845274692105,
      "loss": 0.3477,
      "step": 29270
    },
    {
      "epoch": 78.08,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004981832666776272,
      "loss": 0.3325,
      "step": 29280
    },
    {
      "epoch": 78.10666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004981820054500012,
      "loss": 0.3332,
      "step": 29290
    },
    {
      "epoch": 78.13333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004981807437863348,
      "loss": 0.3256,
      "step": 29300
    },
    {
      "epoch": 78.16,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004981794816866302,
      "loss": 0.3319,
      "step": 29310
    },
    {
      "epoch": 78.18666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004981782191508895,
      "loss": 0.3264,
      "step": 29320
    },
    {
      "epoch": 78.21333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004981769561791152,
      "loss": 0.316,
      "step": 29330
    },
    {
      "epoch": 78.24,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0004981756927713093,
      "loss": 0.3209,
      "step": 29340
    },
    {
      "epoch": 78.26666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000498174428927474,
      "loss": 0.3265,
      "step": 29350
    },
    {
      "epoch": 78.29333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004981731646476116,
      "loss": 0.3213,
      "step": 29360
    },
    {
      "epoch": 78.32,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004981718999317242,
      "loss": 0.3283,
      "step": 29370
    },
    {
      "epoch": 78.34666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004981706347798143,
      "loss": 0.3286,
      "step": 29380
    },
    {
      "epoch": 78.37333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004981693691918839,
      "loss": 0.321,
      "step": 29390
    },
    {
      "epoch": 78.4,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004981681031679352,
      "loss": 0.322,
      "step": 29400
    },
    {
      "epoch": 78.42666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004981668367079706,
      "loss": 0.3283,
      "step": 29410
    },
    {
      "epoch": 78.45333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004981655698119921,
      "loss": 0.3371,
      "step": 29420
    },
    {
      "epoch": 78.48,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004981643024800021,
      "loss": 0.3329,
      "step": 29430
    },
    {
      "epoch": 78.50666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004981630347120028,
      "loss": 0.3286,
      "step": 29440
    },
    {
      "epoch": 78.53333333333333,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004981617665079964,
      "loss": 0.3235,
      "step": 29450
    },
    {
      "epoch": 78.56,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004981604978679851,
      "loss": 0.3213,
      "step": 29460
    },
    {
      "epoch": 78.58666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004981592287919711,
      "loss": 0.3229,
      "step": 29470
    },
    {
      "epoch": 78.61333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004981579592799567,
      "loss": 0.3148,
      "step": 29480
    },
    {
      "epoch": 78.64,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004981566893319442,
      "loss": 0.3173,
      "step": 29490
    },
    {
      "epoch": 78.66666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004981554189479357,
      "loss": 0.3328,
      "step": 29500
    },
    {
      "epoch": 78.69333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004981541481279334,
      "loss": 0.3117,
      "step": 29510
    },
    {
      "epoch": 78.72,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0004981528768719398,
      "loss": 0.3272,
      "step": 29520
    },
    {
      "epoch": 78.74666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004981516051799569,
      "loss": 0.3297,
      "step": 29530
    },
    {
      "epoch": 78.77333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004981503330519869,
      "loss": 0.3407,
      "step": 29540
    },
    {
      "epoch": 78.8,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0004981490604880321,
      "loss": 0.3273,
      "step": 29550
    },
    {
      "epoch": 78.82666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004981477874880947,
      "loss": 0.3156,
      "step": 29560
    },
    {
      "epoch": 78.85333333333334,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004981465140521771,
      "loss": 0.3195,
      "step": 29570
    },
    {
      "epoch": 78.88,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004981452401802814,
      "loss": 0.3186,
      "step": 29580
    },
    {
      "epoch": 78.90666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00049814396587241,
      "loss": 0.321,
      "step": 29590
    },
    {
      "epoch": 78.93333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004981426911285648,
      "loss": 0.3216,
      "step": 29600
    },
    {
      "epoch": 78.96,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004981414159487483,
      "loss": 0.3209,
      "step": 29610
    },
    {
      "epoch": 78.98666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004981401403329627,
      "loss": 0.3346,
      "step": 29620
    },
    {
      "epoch": 79.0,
      "eval_loss": 0.40321120619773865,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.3524,
      "eval_samples_per_second": 1.295,
      "eval_steps_per_second": 0.081,
      "step": 29625
    },
    {
      "epoch": 79.01333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004981388642812102,
      "loss": 0.3239,
      "step": 29630
    },
    {
      "epoch": 79.04,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004981375877934931,
      "loss": 0.3501,
      "step": 29640
    },
    {
      "epoch": 79.06666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004981363108698135,
      "loss": 0.3347,
      "step": 29650
    },
    {
      "epoch": 79.09333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004981350335101738,
      "loss": 0.3323,
      "step": 29660
    },
    {
      "epoch": 79.12,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004981337557145763,
      "loss": 0.3276,
      "step": 29670
    },
    {
      "epoch": 79.14666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000498132477483023,
      "loss": 0.3296,
      "step": 29680
    },
    {
      "epoch": 79.17333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004981311988155164,
      "loss": 0.3286,
      "step": 29690
    },
    {
      "epoch": 79.2,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004981299197120587,
      "loss": 0.3216,
      "step": 29700
    },
    {
      "epoch": 79.22666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004981286401726519,
      "loss": 0.3168,
      "step": 29710
    },
    {
      "epoch": 79.25333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004981273601972985,
      "loss": 0.3162,
      "step": 29720
    },
    {
      "epoch": 79.28,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004981260797860007,
      "loss": 0.335,
      "step": 29730
    },
    {
      "epoch": 79.30666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004981247989387607,
      "loss": 0.316,
      "step": 29740
    },
    {
      "epoch": 79.33333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004981235176555808,
      "loss": 0.3309,
      "step": 29750
    },
    {
      "epoch": 79.36,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004981222359364631,
      "loss": 0.3227,
      "step": 29760
    },
    {
      "epoch": 79.38666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004981209537814102,
      "loss": 0.3195,
      "step": 29770
    },
    {
      "epoch": 79.41333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000498119671190424,
      "loss": 0.3253,
      "step": 29780
    },
    {
      "epoch": 79.44,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004981183881635068,
      "loss": 0.332,
      "step": 29790
    },
    {
      "epoch": 79.46666666666667,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004981171047006611,
      "loss": 0.3369,
      "step": 29800
    },
    {
      "epoch": 79.49333333333334,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.000498115820801889,
      "loss": 0.3255,
      "step": 29810
    },
    {
      "epoch": 79.52,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004981145364671926,
      "loss": 0.3294,
      "step": 29820
    },
    {
      "epoch": 79.54666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004981132516965745,
      "loss": 0.32,
      "step": 29830
    },
    {
      "epoch": 79.57333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004981119664900366,
      "loss": 0.3228,
      "step": 29840
    },
    {
      "epoch": 79.6,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004981106808475814,
      "loss": 0.3182,
      "step": 29850
    },
    {
      "epoch": 79.62666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004981093947692111,
      "loss": 0.314,
      "step": 29860
    },
    {
      "epoch": 79.65333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000498108108254928,
      "loss": 0.3282,
      "step": 29870
    },
    {
      "epoch": 79.68,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004981068213047341,
      "loss": 0.3159,
      "step": 29880
    },
    {
      "epoch": 79.70666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000498105533918632,
      "loss": 0.3168,
      "step": 29890
    },
    {
      "epoch": 79.73333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004981042460966238,
      "loss": 0.3331,
      "step": 29900
    },
    {
      "epoch": 79.76,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004981029578387118,
      "loss": 0.3346,
      "step": 29910
    },
    {
      "epoch": 79.78666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004981016691448982,
      "loss": 0.3351,
      "step": 29920
    },
    {
      "epoch": 79.81333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004981003800151854,
      "loss": 0.3179,
      "step": 29930
    },
    {
      "epoch": 79.84,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004980990904495756,
      "loss": 0.3172,
      "step": 29940
    },
    {
      "epoch": 79.86666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004980978004480709,
      "loss": 0.3183,
      "step": 29950
    },
    {
      "epoch": 79.89333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004980965100106738,
      "loss": 0.3192,
      "step": 29960
    },
    {
      "epoch": 79.92,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004980952191373865,
      "loss": 0.3212,
      "step": 29970
    },
    {
      "epoch": 79.94666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004980939278282112,
      "loss": 0.3223,
      "step": 29980
    },
    {
      "epoch": 79.97333333333333,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004980926360831502,
      "loss": 0.3302,
      "step": 29990
    },
    {
      "epoch": 80.0,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004980913439022057,
      "loss": 0.3186,
      "step": 30000
    },
    {
      "epoch": 80.0,
      "eval_loss": 0.4013185203075409,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6065,
      "eval_samples_per_second": 1.509,
      "eval_steps_per_second": 0.094,
      "step": 30000
    },
    {
      "epoch": 80.02666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004980900512853803,
      "loss": 0.3407,
      "step": 30010
    },
    {
      "epoch": 80.05333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004980887582326758,
      "loss": 0.3472,
      "step": 30020
    },
    {
      "epoch": 80.08,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004980874647440948,
      "loss": 0.3312,
      "step": 30030
    },
    {
      "epoch": 80.10666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004980861708196395,
      "loss": 0.3322,
      "step": 30040
    },
    {
      "epoch": 80.13333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004980848764593121,
      "loss": 0.325,
      "step": 30050
    },
    {
      "epoch": 80.16,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000498083581663115,
      "loss": 0.3316,
      "step": 30060
    },
    {
      "epoch": 80.18666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004980822864310503,
      "loss": 0.3259,
      "step": 30070
    },
    {
      "epoch": 80.21333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004980809907631204,
      "loss": 0.3151,
      "step": 30080
    },
    {
      "epoch": 80.24,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004980796946593275,
      "loss": 0.3204,
      "step": 30090
    },
    {
      "epoch": 80.26666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004980783981196739,
      "loss": 0.3259,
      "step": 30100
    },
    {
      "epoch": 80.29333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000498077101144162,
      "loss": 0.3209,
      "step": 30110
    },
    {
      "epoch": 80.32,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000498075803732794,
      "loss": 0.3278,
      "step": 30120
    },
    {
      "epoch": 80.34666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004980745058855721,
      "loss": 0.3279,
      "step": 30130
    },
    {
      "epoch": 80.37333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004980732076024986,
      "loss": 0.3199,
      "step": 30140
    },
    {
      "epoch": 80.4,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004980719088835759,
      "loss": 0.3214,
      "step": 30150
    },
    {
      "epoch": 80.42666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004980706097288062,
      "loss": 0.3276,
      "step": 30160
    },
    {
      "epoch": 80.45333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004980693101381917,
      "loss": 0.3361,
      "step": 30170
    },
    {
      "epoch": 80.48,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004980680101117347,
      "loss": 0.3322,
      "step": 30180
    },
    {
      "epoch": 80.50666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004980667096494378,
      "loss": 0.3278,
      "step": 30190
    },
    {
      "epoch": 80.53333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004980654087513028,
      "loss": 0.323,
      "step": 30200
    },
    {
      "epoch": 80.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004980641074173323,
      "loss": 0.3201,
      "step": 30210
    },
    {
      "epoch": 80.58666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004980628056475286,
      "loss": 0.3225,
      "step": 30220
    },
    {
      "epoch": 80.61333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004980615034418938,
      "loss": 0.3139,
      "step": 30230
    },
    {
      "epoch": 80.64,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004980602008004303,
      "loss": 0.3163,
      "step": 30240
    },
    {
      "epoch": 80.66666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004980588977231404,
      "loss": 0.3315,
      "step": 30250
    },
    {
      "epoch": 80.69333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004980575942100262,
      "loss": 0.3111,
      "step": 30260
    },
    {
      "epoch": 80.72,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004980562902610904,
      "loss": 0.3269,
      "step": 30270
    },
    {
      "epoch": 80.74666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004980549858763349,
      "loss": 0.3283,
      "step": 30280
    },
    {
      "epoch": 80.77333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004980536810557622,
      "loss": 0.3401,
      "step": 30290
    },
    {
      "epoch": 80.8,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004980523757993745,
      "loss": 0.3263,
      "step": 30300
    },
    {
      "epoch": 80.82666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004980510701071741,
      "loss": 0.3149,
      "step": 30310
    },
    {
      "epoch": 80.85333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004980497639791633,
      "loss": 0.3193,
      "step": 30320
    },
    {
      "epoch": 80.88,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004980484574153444,
      "loss": 0.318,
      "step": 30330
    },
    {
      "epoch": 80.90666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004980471504157198,
      "loss": 0.321,
      "step": 30340
    },
    {
      "epoch": 80.93333333333334,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004980458429802916,
      "loss": 0.3209,
      "step": 30350
    },
    {
      "epoch": 80.96,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004980445351090623,
      "loss": 0.3203,
      "step": 30360
    },
    {
      "epoch": 80.98666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004980432268020341,
      "loss": 0.3333,
      "step": 30370
    },
    {
      "epoch": 81.0,
      "eval_loss": 0.4018370509147644,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.9021,
      "eval_samples_per_second": 1.24,
      "eval_steps_per_second": 0.078,
      "step": 30375
    },
    {
      "epoch": 81.01333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004980419180592091,
      "loss": 0.323,
      "step": 30380
    },
    {
      "epoch": 81.04,
      "grad_norm": 0.173828125,
      "learning_rate": 0.00049804060888059,
      "loss": 0.3494,
      "step": 30390
    },
    {
      "epoch": 81.06666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004980392992661788,
      "loss": 0.3341,
      "step": 30400
    },
    {
      "epoch": 81.09333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004980379892159779,
      "loss": 0.3314,
      "step": 30410
    },
    {
      "epoch": 81.12,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004980366787299896,
      "loss": 0.3272,
      "step": 30420
    },
    {
      "epoch": 81.14666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004980353678082163,
      "loss": 0.3292,
      "step": 30430
    },
    {
      "epoch": 81.17333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004980340564506601,
      "loss": 0.3279,
      "step": 30440
    },
    {
      "epoch": 81.2,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004980327446573234,
      "loss": 0.321,
      "step": 30450
    },
    {
      "epoch": 81.22666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0004980314324282085,
      "loss": 0.3155,
      "step": 30460
    },
    {
      "epoch": 81.25333333333333,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0004980301197633176,
      "loss": 0.316,
      "step": 30470
    },
    {
      "epoch": 81.28,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0004980288066626534,
      "loss": 0.3346,
      "step": 30480
    },
    {
      "epoch": 81.30666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0004980274931262178,
      "loss": 0.3156,
      "step": 30490
    },
    {
      "epoch": 81.33333333333333,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0004980261791540132,
      "loss": 0.3307,
      "step": 30500
    },
    {
      "epoch": 81.36,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004980248647460419,
      "loss": 0.3215,
      "step": 30510
    },
    {
      "epoch": 81.38666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004980235499023064,
      "loss": 0.3191,
      "step": 30520
    },
    {
      "epoch": 81.41333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004980222346228088,
      "loss": 0.3253,
      "step": 30530
    },
    {
      "epoch": 81.44,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004980209189075515,
      "loss": 0.3318,
      "step": 30540
    },
    {
      "epoch": 81.46666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004980196027565367,
      "loss": 0.3359,
      "step": 30550
    },
    {
      "epoch": 81.49333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004980182861697668,
      "loss": 0.3249,
      "step": 30560
    },
    {
      "epoch": 81.52,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004980169691472442,
      "loss": 0.3284,
      "step": 30570
    },
    {
      "epoch": 81.54666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004980156516889711,
      "loss": 0.3197,
      "step": 30580
    },
    {
      "epoch": 81.57333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004980143337949499,
      "loss": 0.3226,
      "step": 30590
    },
    {
      "epoch": 81.6,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004980130154651828,
      "loss": 0.3182,
      "step": 30600
    },
    {
      "epoch": 81.62666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004980116966996722,
      "loss": 0.3144,
      "step": 30610
    },
    {
      "epoch": 81.65333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004980103774984203,
      "loss": 0.3275,
      "step": 30620
    },
    {
      "epoch": 81.68,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004980090578614296,
      "loss": 0.3163,
      "step": 30630
    },
    {
      "epoch": 81.70666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004980077377887024,
      "loss": 0.3164,
      "step": 30640
    },
    {
      "epoch": 81.73333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004980064172802408,
      "loss": 0.333,
      "step": 30650
    },
    {
      "epoch": 81.76,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0004980050963360473,
      "loss": 0.3345,
      "step": 30660
    },
    {
      "epoch": 81.78666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004980037749561241,
      "loss": 0.3347,
      "step": 30670
    },
    {
      "epoch": 81.81333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004980024531404738,
      "loss": 0.3172,
      "step": 30680
    },
    {
      "epoch": 81.84,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004980011308890984,
      "loss": 0.3161,
      "step": 30690
    },
    {
      "epoch": 81.86666666666666,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004979998082020004,
      "loss": 0.3185,
      "step": 30700
    },
    {
      "epoch": 81.89333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004979984850791822,
      "loss": 0.3179,
      "step": 30710
    },
    {
      "epoch": 81.92,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004979971615206457,
      "loss": 0.3204,
      "step": 30720
    },
    {
      "epoch": 81.94666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004979958375263937,
      "loss": 0.321,
      "step": 30730
    },
    {
      "epoch": 81.97333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004979945130964284,
      "loss": 0.3295,
      "step": 30740
    },
    {
      "epoch": 82.0,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000497993188230752,
      "loss": 0.3182,
      "step": 30750
    },
    {
      "epoch": 82.0,
      "eval_loss": 0.4036901295185089,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1585,
      "eval_samples_per_second": 1.434,
      "eval_steps_per_second": 0.09,
      "step": 30750
    },
    {
      "epoch": 82.02666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000497991862929367,
      "loss": 0.3399,
      "step": 30760
    },
    {
      "epoch": 82.05333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004979905371922756,
      "loss": 0.3466,
      "step": 30770
    },
    {
      "epoch": 82.08,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004979892110194801,
      "loss": 0.3305,
      "step": 30780
    },
    {
      "epoch": 82.10666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000497987884410983,
      "loss": 0.3318,
      "step": 30790
    },
    {
      "epoch": 82.13333333333334,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004979865573667865,
      "loss": 0.3233,
      "step": 30800
    },
    {
      "epoch": 82.16,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004979852298868929,
      "loss": 0.3305,
      "step": 30810
    },
    {
      "epoch": 82.18666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004979839019713046,
      "loss": 0.3249,
      "step": 30820
    },
    {
      "epoch": 82.21333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000497982573620024,
      "loss": 0.3141,
      "step": 30830
    },
    {
      "epoch": 82.24,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004979812448330533,
      "loss": 0.3193,
      "step": 30840
    },
    {
      "epoch": 82.26666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004979799156103949,
      "loss": 0.3252,
      "step": 30850
    },
    {
      "epoch": 82.29333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000497978585952051,
      "loss": 0.32,
      "step": 30860
    },
    {
      "epoch": 82.32,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004979772558580243,
      "loss": 0.327,
      "step": 30870
    },
    {
      "epoch": 82.34666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004979759253283168,
      "loss": 0.3273,
      "step": 30880
    },
    {
      "epoch": 82.37333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004979745943629309,
      "loss": 0.3188,
      "step": 30890
    },
    {
      "epoch": 82.4,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000497973262961869,
      "loss": 0.3206,
      "step": 30900
    },
    {
      "epoch": 82.42666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004979719311251334,
      "loss": 0.3272,
      "step": 30910
    },
    {
      "epoch": 82.45333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004979705988527264,
      "loss": 0.3348,
      "step": 30920
    },
    {
      "epoch": 82.48,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004979692661446505,
      "loss": 0.3311,
      "step": 30930
    },
    {
      "epoch": 82.50666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004979679330009081,
      "loss": 0.3271,
      "step": 30940
    },
    {
      "epoch": 82.53333333333333,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004979665994215011,
      "loss": 0.3227,
      "step": 30950
    },
    {
      "epoch": 82.56,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004979652654064322,
      "loss": 0.3199,
      "step": 30960
    },
    {
      "epoch": 82.58666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004979639309557037,
      "loss": 0.3219,
      "step": 30970
    },
    {
      "epoch": 82.61333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004979625960693179,
      "loss": 0.3131,
      "step": 30980
    },
    {
      "epoch": 82.64,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004979612607472772,
      "loss": 0.3158,
      "step": 30990
    },
    {
      "epoch": 82.66666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004979599249895839,
      "loss": 0.3313,
      "step": 31000
    },
    {
      "epoch": 82.69333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004979585887962402,
      "loss": 0.3103,
      "step": 31010
    },
    {
      "epoch": 82.72,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004979572521672487,
      "loss": 0.3264,
      "step": 31020
    },
    {
      "epoch": 82.74666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004979559151026118,
      "loss": 0.3278,
      "step": 31030
    },
    {
      "epoch": 82.77333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004979545776023314,
      "loss": 0.34,
      "step": 31040
    },
    {
      "epoch": 82.8,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004979532396664104,
      "loss": 0.3258,
      "step": 31050
    },
    {
      "epoch": 82.82666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004979519012948508,
      "loss": 0.3142,
      "step": 31060
    },
    {
      "epoch": 82.85333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000497950562487655,
      "loss": 0.3181,
      "step": 31070
    },
    {
      "epoch": 82.88,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004979492232448254,
      "loss": 0.3173,
      "step": 31080
    },
    {
      "epoch": 82.90666666666667,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004979478835663645,
      "loss": 0.3199,
      "step": 31090
    },
    {
      "epoch": 82.93333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004979465434522743,
      "loss": 0.3203,
      "step": 31100
    },
    {
      "epoch": 82.96,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004979452029025576,
      "loss": 0.3203,
      "step": 31110
    },
    {
      "epoch": 82.98666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004979438619172162,
      "loss": 0.3325,
      "step": 31120
    },
    {
      "epoch": 83.0,
      "eval_loss": 0.4017693102359772,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1919,
      "eval_samples_per_second": 1.43,
      "eval_steps_per_second": 0.089,
      "step": 31125
    },
    {
      "epoch": 83.01333333333334,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.000497942520496253,
      "loss": 0.323,
      "step": 31130
    },
    {
      "epoch": 83.04,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0004979411786396701,
      "loss": 0.3489,
      "step": 31140
    },
    {
      "epoch": 83.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0004979398363474699,
      "loss": 0.3338,
      "step": 31150
    },
    {
      "epoch": 83.09333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004979384936196547,
      "loss": 0.3311,
      "step": 31160
    },
    {
      "epoch": 83.12,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004979371504562268,
      "loss": 0.3275,
      "step": 31170
    },
    {
      "epoch": 83.14666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004979358068571888,
      "loss": 0.3286,
      "step": 31180
    },
    {
      "epoch": 83.17333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000497934462822543,
      "loss": 0.3275,
      "step": 31190
    },
    {
      "epoch": 83.2,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004979331183522915,
      "loss": 0.3204,
      "step": 31200
    },
    {
      "epoch": 83.22666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000497931773446437,
      "loss": 0.3157,
      "step": 31210
    },
    {
      "epoch": 83.25333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004979304281049815,
      "loss": 0.3158,
      "step": 31220
    },
    {
      "epoch": 83.28,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004979290823279278,
      "loss": 0.3337,
      "step": 31230
    },
    {
      "epoch": 83.30666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.000497927736115278,
      "loss": 0.315,
      "step": 31240
    },
    {
      "epoch": 83.33333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004979263894670345,
      "loss": 0.3291,
      "step": 31250
    },
    {
      "epoch": 83.36,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004979250423831996,
      "loss": 0.321,
      "step": 31260
    },
    {
      "epoch": 83.38666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004979236948637757,
      "loss": 0.3184,
      "step": 31270
    },
    {
      "epoch": 83.41333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004979223469087654,
      "loss": 0.3239,
      "step": 31280
    },
    {
      "epoch": 83.44,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004979209985181707,
      "loss": 0.3313,
      "step": 31290
    },
    {
      "epoch": 83.46666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004979196496919942,
      "loss": 0.3347,
      "step": 31300
    },
    {
      "epoch": 83.49333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004979183004302382,
      "loss": 0.3242,
      "step": 31310
    },
    {
      "epoch": 83.52,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004979169507329051,
      "loss": 0.328,
      "step": 31320
    },
    {
      "epoch": 83.54666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004979156005999972,
      "loss": 0.3188,
      "step": 31330
    },
    {
      "epoch": 83.57333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004979142500315169,
      "loss": 0.322,
      "step": 31340
    },
    {
      "epoch": 83.6,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004979128990274667,
      "loss": 0.3173,
      "step": 31350
    },
    {
      "epoch": 83.62666666666667,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004979115475878488,
      "loss": 0.3134,
      "step": 31360
    },
    {
      "epoch": 83.65333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004979101957126658,
      "loss": 0.3268,
      "step": 31370
    },
    {
      "epoch": 83.68,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004979088434019197,
      "loss": 0.3151,
      "step": 31380
    },
    {
      "epoch": 83.70666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004979074906556133,
      "loss": 0.3167,
      "step": 31390
    },
    {
      "epoch": 83.73333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004979061374737485,
      "loss": 0.3323,
      "step": 31400
    },
    {
      "epoch": 83.76,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004979047838563282,
      "loss": 0.3336,
      "step": 31410
    },
    {
      "epoch": 83.78666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004979034298033544,
      "loss": 0.3345,
      "step": 31420
    },
    {
      "epoch": 83.81333333333333,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004979020753148297,
      "loss": 0.3165,
      "step": 31430
    },
    {
      "epoch": 83.84,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0004979007203907564,
      "loss": 0.316,
      "step": 31440
    },
    {
      "epoch": 83.86666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0004978993650311368,
      "loss": 0.3174,
      "step": 31450
    },
    {
      "epoch": 83.89333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0004978980092359734,
      "loss": 0.3176,
      "step": 31460
    },
    {
      "epoch": 83.92,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004978966530052685,
      "loss": 0.3199,
      "step": 31470
    },
    {
      "epoch": 83.94666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004978952963390245,
      "loss": 0.3211,
      "step": 31480
    },
    {
      "epoch": 83.97333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004978939392372438,
      "loss": 0.3297,
      "step": 31490
    },
    {
      "epoch": 84.0,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004978925816999288,
      "loss": 0.3171,
      "step": 31500
    },
    {
      "epoch": 84.0,
      "eval_loss": 0.40279027819633484,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.2383,
      "eval_samples_per_second": 1.307,
      "eval_steps_per_second": 0.082,
      "step": 31500
    },
    {
      "epoch": 84.02666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004978912237270819,
      "loss": 0.3395,
      "step": 31510
    },
    {
      "epoch": 84.05333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004978898653187054,
      "loss": 0.3455,
      "step": 31520
    },
    {
      "epoch": 84.08,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004978885064748018,
      "loss": 0.3299,
      "step": 31530
    },
    {
      "epoch": 84.10666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0004978871471953733,
      "loss": 0.3305,
      "step": 31540
    },
    {
      "epoch": 84.13333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004978857874804226,
      "loss": 0.3236,
      "step": 31550
    },
    {
      "epoch": 84.16,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004978844273299518,
      "loss": 0.3295,
      "step": 31560
    },
    {
      "epoch": 84.18666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004978830667439634,
      "loss": 0.3247,
      "step": 31570
    },
    {
      "epoch": 84.21333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004978817057224598,
      "loss": 0.3134,
      "step": 31580
    },
    {
      "epoch": 84.24,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004978803442654433,
      "loss": 0.3181,
      "step": 31590
    },
    {
      "epoch": 84.26666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004978789823729165,
      "loss": 0.3241,
      "step": 31600
    },
    {
      "epoch": 84.29333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004978776200448816,
      "loss": 0.3197,
      "step": 31610
    },
    {
      "epoch": 84.32,
      "grad_norm": 0.171875,
      "learning_rate": 0.000497876257281341,
      "loss": 0.326,
      "step": 31620
    },
    {
      "epoch": 84.34666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004978748940822973,
      "loss": 0.3268,
      "step": 31630
    },
    {
      "epoch": 84.37333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004978735304477526,
      "loss": 0.3187,
      "step": 31640
    },
    {
      "epoch": 84.4,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004978721663777095,
      "loss": 0.3197,
      "step": 31650
    },
    {
      "epoch": 84.42666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004978708018721703,
      "loss": 0.3263,
      "step": 31660
    },
    {
      "epoch": 84.45333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004978694369311375,
      "loss": 0.3344,
      "step": 31670
    },
    {
      "epoch": 84.48,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004978680715546134,
      "loss": 0.3307,
      "step": 31680
    },
    {
      "epoch": 84.50666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004978667057426004,
      "loss": 0.3266,
      "step": 31690
    },
    {
      "epoch": 84.53333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000497865339495101,
      "loss": 0.3218,
      "step": 31700
    },
    {
      "epoch": 84.56,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0004978639728121175,
      "loss": 0.3192,
      "step": 31710
    },
    {
      "epoch": 84.58666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004978626056936523,
      "loss": 0.3206,
      "step": 31720
    },
    {
      "epoch": 84.61333333333333,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004978612381397079,
      "loss": 0.3119,
      "step": 31730
    },
    {
      "epoch": 84.64,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004978598701502865,
      "loss": 0.3152,
      "step": 31740
    },
    {
      "epoch": 84.66666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004978585017253907,
      "loss": 0.3305,
      "step": 31750
    },
    {
      "epoch": 84.69333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004978571328650229,
      "loss": 0.3089,
      "step": 31760
    },
    {
      "epoch": 84.72,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004978557635691855,
      "loss": 0.3257,
      "step": 31770
    },
    {
      "epoch": 84.74666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004978543938378808,
      "loss": 0.3273,
      "step": 31780
    },
    {
      "epoch": 84.77333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004978530236711112,
      "loss": 0.3385,
      "step": 31790
    },
    {
      "epoch": 84.8,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004978516530688791,
      "loss": 0.3249,
      "step": 31800
    },
    {
      "epoch": 84.82666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004978502820311872,
      "loss": 0.313,
      "step": 31810
    },
    {
      "epoch": 84.85333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004978489105580376,
      "loss": 0.3173,
      "step": 31820
    },
    {
      "epoch": 84.88,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004978475386494327,
      "loss": 0.3165,
      "step": 31830
    },
    {
      "epoch": 84.90666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004978461663053751,
      "loss": 0.3193,
      "step": 31840
    },
    {
      "epoch": 84.93333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004978447935258671,
      "loss": 0.3194,
      "step": 31850
    },
    {
      "epoch": 84.96,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004978434203109112,
      "loss": 0.3191,
      "step": 31860
    },
    {
      "epoch": 84.98666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004978420466605096,
      "loss": 0.3328,
      "step": 31870
    },
    {
      "epoch": 85.0,
      "eval_loss": 0.4018096923828125,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.1546,
      "eval_samples_per_second": 1.316,
      "eval_steps_per_second": 0.082,
      "step": 31875
    },
    {
      "epoch": 85.01333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.000497840672574665,
      "loss": 0.3213,
      "step": 31880
    },
    {
      "epoch": 85.04,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004978392980533794,
      "loss": 0.3481,
      "step": 31890
    },
    {
      "epoch": 85.06666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004978379230966558,
      "loss": 0.3331,
      "step": 31900
    },
    {
      "epoch": 85.09333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004978365477044961,
      "loss": 0.3302,
      "step": 31910
    },
    {
      "epoch": 85.12,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000497835171876903,
      "loss": 0.3258,
      "step": 31920
    },
    {
      "epoch": 85.14666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004978337956138789,
      "loss": 0.3275,
      "step": 31930
    },
    {
      "epoch": 85.17333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000497832418915426,
      "loss": 0.3268,
      "step": 31940
    },
    {
      "epoch": 85.2,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000497831041781547,
      "loss": 0.3198,
      "step": 31950
    },
    {
      "epoch": 85.22666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004978296642122441,
      "loss": 0.3154,
      "step": 31960
    },
    {
      "epoch": 85.25333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004978282862075199,
      "loss": 0.3142,
      "step": 31970
    },
    {
      "epoch": 85.28,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004978269077673766,
      "loss": 0.3333,
      "step": 31980
    },
    {
      "epoch": 85.30666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004978255288918169,
      "loss": 0.314,
      "step": 31990
    },
    {
      "epoch": 85.33333333333333,
      "grad_norm": 0.248046875,
      "learning_rate": 0.000497824149580843,
      "loss": 0.3297,
      "step": 32000
    },
    {
      "epoch": 85.36,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004978227698344574,
      "loss": 0.3204,
      "step": 32010
    },
    {
      "epoch": 85.38666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004978213896526625,
      "loss": 0.3179,
      "step": 32020
    },
    {
      "epoch": 85.41333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004978200090354608,
      "loss": 0.3232,
      "step": 32030
    },
    {
      "epoch": 85.44,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004978186279828548,
      "loss": 0.3306,
      "step": 32040
    },
    {
      "epoch": 85.46666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004978172464948465,
      "loss": 0.334,
      "step": 32050
    },
    {
      "epoch": 85.49333333333334,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004978158645714388,
      "loss": 0.3239,
      "step": 32060
    },
    {
      "epoch": 85.52,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004978144822126339,
      "loss": 0.3274,
      "step": 32070
    },
    {
      "epoch": 85.54666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004978130994184344,
      "loss": 0.318,
      "step": 32080
    },
    {
      "epoch": 85.57333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004978117161888425,
      "loss": 0.3213,
      "step": 32090
    },
    {
      "epoch": 85.6,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004978103325238608,
      "loss": 0.3163,
      "step": 32100
    },
    {
      "epoch": 85.62666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004978089484234916,
      "loss": 0.3121,
      "step": 32110
    },
    {
      "epoch": 85.65333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004978075638877375,
      "loss": 0.3262,
      "step": 32120
    },
    {
      "epoch": 85.68,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004978061789166009,
      "loss": 0.3144,
      "step": 32130
    },
    {
      "epoch": 85.70666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.000497804793510084,
      "loss": 0.3152,
      "step": 32140
    },
    {
      "epoch": 85.73333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004978034076681895,
      "loss": 0.3308,
      "step": 32150
    },
    {
      "epoch": 85.76,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004978020213909197,
      "loss": 0.3322,
      "step": 32160
    },
    {
      "epoch": 85.78666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004978006346782771,
      "loss": 0.3334,
      "step": 32170
    },
    {
      "epoch": 85.81333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000497799247530264,
      "loss": 0.3159,
      "step": 32180
    },
    {
      "epoch": 85.84,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004977978599468833,
      "loss": 0.3154,
      "step": 32190
    },
    {
      "epoch": 85.86666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004977964719281367,
      "loss": 0.3164,
      "step": 32200
    },
    {
      "epoch": 85.89333333333333,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004977950834740273,
      "loss": 0.3171,
      "step": 32210
    },
    {
      "epoch": 85.92,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000497793694584557,
      "loss": 0.3192,
      "step": 32220
    },
    {
      "epoch": 85.94666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004977923052597288,
      "loss": 0.3203,
      "step": 32230
    },
    {
      "epoch": 85.97333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004977909154995446,
      "loss": 0.3287,
      "step": 32240
    },
    {
      "epoch": 86.0,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004977895253040072,
      "loss": 0.3164,
      "step": 32250
    },
    {
      "epoch": 86.0,
      "eval_loss": 0.4031406044960022,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3148,
      "eval_samples_per_second": 1.414,
      "eval_steps_per_second": 0.088,
      "step": 32250
    },
    {
      "epoch": 86.02666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004977881346731189,
      "loss": 0.3386,
      "step": 32260
    },
    {
      "epoch": 86.05333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004977867436068823,
      "loss": 0.3451,
      "step": 32270
    },
    {
      "epoch": 86.08,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004977853521052995,
      "loss": 0.3293,
      "step": 32280
    },
    {
      "epoch": 86.10666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004977839601683733,
      "loss": 0.3302,
      "step": 32290
    },
    {
      "epoch": 86.13333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.000497782567796106,
      "loss": 0.3232,
      "step": 32300
    },
    {
      "epoch": 86.16,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004977811749885,
      "loss": 0.3294,
      "step": 32310
    },
    {
      "epoch": 86.18666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004977797817455579,
      "loss": 0.3237,
      "step": 32320
    },
    {
      "epoch": 86.21333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.000497778388067282,
      "loss": 0.3127,
      "step": 32330
    },
    {
      "epoch": 86.24,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004977769939536748,
      "loss": 0.3178,
      "step": 32340
    },
    {
      "epoch": 86.26666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004977755994047387,
      "loss": 0.3233,
      "step": 32350
    },
    {
      "epoch": 86.29333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004977742044204763,
      "loss": 0.3191,
      "step": 32360
    },
    {
      "epoch": 86.32,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00049777280900089,
      "loss": 0.3252,
      "step": 32370
    },
    {
      "epoch": 86.34666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000497771413145982,
      "loss": 0.3253,
      "step": 32380
    },
    {
      "epoch": 86.37333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004977700168557551,
      "loss": 0.3181,
      "step": 32390
    },
    {
      "epoch": 86.4,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004977686201302115,
      "loss": 0.3192,
      "step": 32400
    },
    {
      "epoch": 86.42666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004977672229693538,
      "loss": 0.3257,
      "step": 32410
    },
    {
      "epoch": 86.45333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004977658253731845,
      "loss": 0.3339,
      "step": 32420
    },
    {
      "epoch": 86.48,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004977644273417059,
      "loss": 0.33,
      "step": 32430
    },
    {
      "epoch": 86.50666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004977630288749205,
      "loss": 0.3257,
      "step": 32440
    },
    {
      "epoch": 86.53333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004977616299728308,
      "loss": 0.321,
      "step": 32450
    },
    {
      "epoch": 86.56,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004977602306354393,
      "loss": 0.3181,
      "step": 32460
    },
    {
      "epoch": 86.58666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004977588308627484,
      "loss": 0.3203,
      "step": 32470
    },
    {
      "epoch": 86.61333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004977574306547605,
      "loss": 0.3123,
      "step": 32480
    },
    {
      "epoch": 86.64,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004977560300114781,
      "loss": 0.3142,
      "step": 32490
    },
    {
      "epoch": 86.66666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004977546289329038,
      "loss": 0.3299,
      "step": 32500
    },
    {
      "epoch": 86.69333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004977532274190398,
      "loss": 0.3092,
      "step": 32510
    },
    {
      "epoch": 86.72,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004977518254698889,
      "loss": 0.3248,
      "step": 32520
    },
    {
      "epoch": 86.74666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004977504230854531,
      "loss": 0.327,
      "step": 32530
    },
    {
      "epoch": 86.77333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004977490202657353,
      "loss": 0.3383,
      "step": 32540
    },
    {
      "epoch": 86.8,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004977476170107377,
      "loss": 0.3238,
      "step": 32550
    },
    {
      "epoch": 86.82666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000497746213320463,
      "loss": 0.3129,
      "step": 32560
    },
    {
      "epoch": 86.85333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004977448091949135,
      "loss": 0.317,
      "step": 32570
    },
    {
      "epoch": 86.88,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004977434046340917,
      "loss": 0.3155,
      "step": 32580
    },
    {
      "epoch": 86.90666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004977419996380001,
      "loss": 0.3187,
      "step": 32590
    },
    {
      "epoch": 86.93333333333334,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.000497740594206641,
      "loss": 0.3192,
      "step": 32600
    },
    {
      "epoch": 86.96,
      "grad_norm": 0.158203125,
      "learning_rate": 0.000497739188340017,
      "loss": 0.3181,
      "step": 32610
    },
    {
      "epoch": 86.98666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004977377820381306,
      "loss": 0.3318,
      "step": 32620
    },
    {
      "epoch": 87.0,
      "eval_loss": 0.3999280035495758,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.8655,
      "eval_samples_per_second": 1.244,
      "eval_steps_per_second": 0.078,
      "step": 32625
    },
    {
      "epoch": 87.01333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004977363753009843,
      "loss": 0.321,
      "step": 32630
    },
    {
      "epoch": 87.04,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004977349681285805,
      "loss": 0.3472,
      "step": 32640
    },
    {
      "epoch": 87.06666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004977335605209217,
      "loss": 0.3321,
      "step": 32650
    },
    {
      "epoch": 87.09333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004977321524780103,
      "loss": 0.3304,
      "step": 32660
    },
    {
      "epoch": 87.12,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004977307439998489,
      "loss": 0.3263,
      "step": 32670
    },
    {
      "epoch": 87.14666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004977293350864399,
      "loss": 0.3266,
      "step": 32680
    },
    {
      "epoch": 87.17333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004977279257377856,
      "loss": 0.3255,
      "step": 32690
    },
    {
      "epoch": 87.2,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004977265159538889,
      "loss": 0.3191,
      "step": 32700
    },
    {
      "epoch": 87.22666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004977251057347519,
      "loss": 0.3139,
      "step": 32710
    },
    {
      "epoch": 87.25333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004977236950803772,
      "loss": 0.3139,
      "step": 32720
    },
    {
      "epoch": 87.28,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004977222839907673,
      "loss": 0.3322,
      "step": 32730
    },
    {
      "epoch": 87.30666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004977208724659248,
      "loss": 0.3132,
      "step": 32740
    },
    {
      "epoch": 87.33333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.000497719460505852,
      "loss": 0.328,
      "step": 32750
    },
    {
      "epoch": 87.36,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004977180481105514,
      "loss": 0.3198,
      "step": 32760
    },
    {
      "epoch": 87.38666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004977166352800256,
      "loss": 0.3167,
      "step": 32770
    },
    {
      "epoch": 87.41333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004977152220142768,
      "loss": 0.3227,
      "step": 32780
    },
    {
      "epoch": 87.44,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004977138083133078,
      "loss": 0.3291,
      "step": 32790
    },
    {
      "epoch": 87.46666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004977123941771209,
      "loss": 0.334,
      "step": 32800
    },
    {
      "epoch": 87.49333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004977109796057188,
      "loss": 0.3234,
      "step": 32810
    },
    {
      "epoch": 87.52,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004977095645991036,
      "loss": 0.3272,
      "step": 32820
    },
    {
      "epoch": 87.54666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004977081491572782,
      "loss": 0.3179,
      "step": 32830
    },
    {
      "epoch": 87.57333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004977067332802449,
      "loss": 0.3203,
      "step": 32840
    },
    {
      "epoch": 87.6,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004977053169680062,
      "loss": 0.316,
      "step": 32850
    },
    {
      "epoch": 87.62666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004977039002205645,
      "loss": 0.3122,
      "step": 32860
    },
    {
      "epoch": 87.65333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004977024830379223,
      "loss": 0.3248,
      "step": 32870
    },
    {
      "epoch": 87.68,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004977010654200822,
      "loss": 0.3133,
      "step": 32880
    },
    {
      "epoch": 87.70666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004976996473670468,
      "loss": 0.3144,
      "step": 32890
    },
    {
      "epoch": 87.73333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004976982288788183,
      "loss": 0.3308,
      "step": 32900
    },
    {
      "epoch": 87.76,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004976968099553994,
      "loss": 0.3319,
      "step": 32910
    },
    {
      "epoch": 87.78666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004976953905967925,
      "loss": 0.3324,
      "step": 32920
    },
    {
      "epoch": 87.81333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004976939708030002,
      "loss": 0.315,
      "step": 32930
    },
    {
      "epoch": 87.84,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004976925505740247,
      "loss": 0.3143,
      "step": 32940
    },
    {
      "epoch": 87.86666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000497691129909869,
      "loss": 0.3161,
      "step": 32950
    },
    {
      "epoch": 87.89333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004976897088105351,
      "loss": 0.3163,
      "step": 32960
    },
    {
      "epoch": 87.92,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004976882872760258,
      "loss": 0.3188,
      "step": 32970
    },
    {
      "epoch": 87.94666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004976868653063434,
      "loss": 0.3195,
      "step": 32980
    },
    {
      "epoch": 87.97333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004976854429014906,
      "loss": 0.3276,
      "step": 32990
    },
    {
      "epoch": 88.0,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004976840200614697,
      "loss": 0.3153,
      "step": 33000
    },
    {
      "epoch": 88.0,
      "eval_loss": 0.40317627787590027,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.6833,
      "eval_samples_per_second": 1.369,
      "eval_steps_per_second": 0.086,
      "step": 33000
    },
    {
      "epoch": 88.02666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004976825967862834,
      "loss": 0.3382,
      "step": 33010
    },
    {
      "epoch": 88.05333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000497681173075934,
      "loss": 0.3446,
      "step": 33020
    },
    {
      "epoch": 88.08,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004976797489304242,
      "loss": 0.3281,
      "step": 33030
    },
    {
      "epoch": 88.10666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004976783243497565,
      "loss": 0.3291,
      "step": 33040
    },
    {
      "epoch": 88.13333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000497676899333933,
      "loss": 0.3222,
      "step": 33050
    },
    {
      "epoch": 88.16,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0004976754738829568,
      "loss": 0.3286,
      "step": 33060
    },
    {
      "epoch": 88.18666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00049767404799683,
      "loss": 0.3231,
      "step": 33070
    },
    {
      "epoch": 88.21333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004976726216755551,
      "loss": 0.3128,
      "step": 33080
    },
    {
      "epoch": 88.24,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004976711949191349,
      "loss": 0.3165,
      "step": 33090
    },
    {
      "epoch": 88.26666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004976697677275717,
      "loss": 0.3231,
      "step": 33100
    },
    {
      "epoch": 88.29333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004976683401008679,
      "loss": 0.3181,
      "step": 33110
    },
    {
      "epoch": 88.32,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004976669120390262,
      "loss": 0.3246,
      "step": 33120
    },
    {
      "epoch": 88.34666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004976654835420492,
      "loss": 0.3243,
      "step": 33130
    },
    {
      "epoch": 88.37333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004976640546099392,
      "loss": 0.3174,
      "step": 33140
    },
    {
      "epoch": 88.4,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004976626252426987,
      "loss": 0.3183,
      "step": 33150
    },
    {
      "epoch": 88.42666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004976611954403304,
      "loss": 0.3253,
      "step": 33160
    },
    {
      "epoch": 88.45333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004976597652028367,
      "loss": 0.3334,
      "step": 33170
    },
    {
      "epoch": 88.48,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004976583345302199,
      "loss": 0.3288,
      "step": 33180
    },
    {
      "epoch": 88.50666666666666,
      "grad_norm": 0.166015625,
      "learning_rate": 0.000497656903422483,
      "loss": 0.325,
      "step": 33190
    },
    {
      "epoch": 88.53333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000497655471879628,
      "loss": 0.3202,
      "step": 33200
    },
    {
      "epoch": 88.56,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004976540399016578,
      "loss": 0.3169,
      "step": 33210
    },
    {
      "epoch": 88.58666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004976526074885748,
      "loss": 0.3202,
      "step": 33220
    },
    {
      "epoch": 88.61333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004976511746403814,
      "loss": 0.3113,
      "step": 33230
    },
    {
      "epoch": 88.64,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004976497413570802,
      "loss": 0.3137,
      "step": 33240
    },
    {
      "epoch": 88.66666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004976483076386737,
      "loss": 0.3293,
      "step": 33250
    },
    {
      "epoch": 88.69333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004976468734851645,
      "loss": 0.3084,
      "step": 33260
    },
    {
      "epoch": 88.72,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004976454388965551,
      "loss": 0.3243,
      "step": 33270
    },
    {
      "epoch": 88.74666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000497644003872848,
      "loss": 0.3264,
      "step": 33280
    },
    {
      "epoch": 88.77333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004976425684140456,
      "loss": 0.337,
      "step": 33290
    },
    {
      "epoch": 88.8,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004976411325201506,
      "loss": 0.3226,
      "step": 33300
    },
    {
      "epoch": 88.82666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004976396961911654,
      "loss": 0.3121,
      "step": 33310
    },
    {
      "epoch": 88.85333333333334,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004976382594270927,
      "loss": 0.3163,
      "step": 33320
    },
    {
      "epoch": 88.88,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004976368222279347,
      "loss": 0.3152,
      "step": 33330
    },
    {
      "epoch": 88.90666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004976353845936943,
      "loss": 0.3178,
      "step": 33340
    },
    {
      "epoch": 88.93333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004976339465243737,
      "loss": 0.3182,
      "step": 33350
    },
    {
      "epoch": 88.96,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004976325080199757,
      "loss": 0.3177,
      "step": 33360
    },
    {
      "epoch": 88.98666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004976310690805026,
      "loss": 0.331,
      "step": 33370
    },
    {
      "epoch": 89.0,
      "eval_loss": 0.4005465805530548,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.737,
      "eval_samples_per_second": 1.49,
      "eval_steps_per_second": 0.093,
      "step": 33375
    },
    {
      "epoch": 89.01333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004976296297059571,
      "loss": 0.3199,
      "step": 33380
    },
    {
      "epoch": 89.04,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004976281898963417,
      "loss": 0.3465,
      "step": 33390
    },
    {
      "epoch": 89.06666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004976267496516587,
      "loss": 0.3318,
      "step": 33400
    },
    {
      "epoch": 89.09333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0004976253089719109,
      "loss": 0.3287,
      "step": 33410
    },
    {
      "epoch": 89.12,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004976238678571008,
      "loss": 0.3246,
      "step": 33420
    },
    {
      "epoch": 89.14666666666666,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004976224263072309,
      "loss": 0.3262,
      "step": 33430
    },
    {
      "epoch": 89.17333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004976209843223037,
      "loss": 0.3258,
      "step": 33440
    },
    {
      "epoch": 89.2,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004976195419023218,
      "loss": 0.3186,
      "step": 33450
    },
    {
      "epoch": 89.22666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004976180990472875,
      "loss": 0.3135,
      "step": 33460
    },
    {
      "epoch": 89.25333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004976166557572037,
      "loss": 0.3135,
      "step": 33470
    },
    {
      "epoch": 89.28,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004976152120320726,
      "loss": 0.3321,
      "step": 33480
    },
    {
      "epoch": 89.30666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004976137678718971,
      "loss": 0.3135,
      "step": 33490
    },
    {
      "epoch": 89.33333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004976123232766793,
      "loss": 0.3271,
      "step": 33500
    },
    {
      "epoch": 89.36,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004976108782464221,
      "loss": 0.3193,
      "step": 33510
    },
    {
      "epoch": 89.38666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004976094327811279,
      "loss": 0.3162,
      "step": 33520
    },
    {
      "epoch": 89.41333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004976079868807993,
      "loss": 0.3222,
      "step": 33530
    },
    {
      "epoch": 89.44,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004976065405454385,
      "loss": 0.3293,
      "step": 33540
    },
    {
      "epoch": 89.46666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004976050937750486,
      "loss": 0.3332,
      "step": 33550
    },
    {
      "epoch": 89.49333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004976036465696318,
      "loss": 0.3223,
      "step": 33560
    },
    {
      "epoch": 89.52,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004976021989291907,
      "loss": 0.326,
      "step": 33570
    },
    {
      "epoch": 89.54666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004976007508537279,
      "loss": 0.3162,
      "step": 33580
    },
    {
      "epoch": 89.57333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004975993023432458,
      "loss": 0.3197,
      "step": 33590
    },
    {
      "epoch": 89.6,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004975978533977471,
      "loss": 0.315,
      "step": 33600
    },
    {
      "epoch": 89.62666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004975964040172343,
      "loss": 0.3113,
      "step": 33610
    },
    {
      "epoch": 89.65333333333334,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004975949542017099,
      "loss": 0.3245,
      "step": 33620
    },
    {
      "epoch": 89.68,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004975935039511764,
      "loss": 0.3134,
      "step": 33630
    },
    {
      "epoch": 89.70666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004975920532656366,
      "loss": 0.314,
      "step": 33640
    },
    {
      "epoch": 89.73333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004975906021450928,
      "loss": 0.3299,
      "step": 33650
    },
    {
      "epoch": 89.76,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004975891505895477,
      "loss": 0.3316,
      "step": 33660
    },
    {
      "epoch": 89.78666666666666,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004975876985990037,
      "loss": 0.3318,
      "step": 33670
    },
    {
      "epoch": 89.81333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004975862461734634,
      "loss": 0.3142,
      "step": 33680
    },
    {
      "epoch": 89.84,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004975847933129294,
      "loss": 0.3135,
      "step": 33690
    },
    {
      "epoch": 89.86666666666666,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004975833400174042,
      "loss": 0.3152,
      "step": 33700
    },
    {
      "epoch": 89.89333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004975818862868905,
      "loss": 0.3156,
      "step": 33710
    },
    {
      "epoch": 89.92,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004975804321213907,
      "loss": 0.3179,
      "step": 33720
    },
    {
      "epoch": 89.94666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004975789775209074,
      "loss": 0.3188,
      "step": 33730
    },
    {
      "epoch": 89.97333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004975775224854431,
      "loss": 0.3265,
      "step": 33740
    },
    {
      "epoch": 90.0,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004975760670150004,
      "loss": 0.3149,
      "step": 33750
    },
    {
      "epoch": 90.0,
      "eval_loss": 0.4022298753261566,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9141,
      "eval_samples_per_second": 1.466,
      "eval_steps_per_second": 0.092,
      "step": 33750
    },
    {
      "epoch": 90.02666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004975746111095819,
      "loss": 0.3375,
      "step": 33760
    },
    {
      "epoch": 90.05333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004975731547691902,
      "loss": 0.344,
      "step": 33770
    },
    {
      "epoch": 90.08,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004975716979938276,
      "loss": 0.3281,
      "step": 33780
    },
    {
      "epoch": 90.10666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000497570240783497,
      "loss": 0.3287,
      "step": 33790
    },
    {
      "epoch": 90.13333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004975687831382008,
      "loss": 0.3208,
      "step": 33800
    },
    {
      "epoch": 90.16,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004975673250579415,
      "loss": 0.3279,
      "step": 33810
    },
    {
      "epoch": 90.18666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004975658665427216,
      "loss": 0.3226,
      "step": 33820
    },
    {
      "epoch": 90.21333333333334,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000497564407592544,
      "loss": 0.312,
      "step": 33830
    },
    {
      "epoch": 90.24,
      "grad_norm": 0.1875,
      "learning_rate": 0.000497562948207411,
      "loss": 0.3159,
      "step": 33840
    },
    {
      "epoch": 90.26666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004975614883873251,
      "loss": 0.3216,
      "step": 33850
    },
    {
      "epoch": 90.29333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004975600281322891,
      "loss": 0.3175,
      "step": 33860
    },
    {
      "epoch": 90.32,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004975585674423054,
      "loss": 0.3243,
      "step": 33870
    },
    {
      "epoch": 90.34666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004975571063173766,
      "loss": 0.3234,
      "step": 33880
    },
    {
      "epoch": 90.37333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004975556447575054,
      "loss": 0.3166,
      "step": 33890
    },
    {
      "epoch": 90.4,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004975541827626941,
      "loss": 0.318,
      "step": 33900
    },
    {
      "epoch": 90.42666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004975527203329454,
      "loss": 0.3244,
      "step": 33910
    },
    {
      "epoch": 90.45333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004975512574682619,
      "loss": 0.3327,
      "step": 33920
    },
    {
      "epoch": 90.48,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004975497941686462,
      "loss": 0.3288,
      "step": 33930
    },
    {
      "epoch": 90.50666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004975483304341009,
      "loss": 0.3246,
      "step": 33940
    },
    {
      "epoch": 90.53333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004975468662646285,
      "loss": 0.3196,
      "step": 33950
    },
    {
      "epoch": 90.56,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004975454016602314,
      "loss": 0.3171,
      "step": 33960
    },
    {
      "epoch": 90.58666666666667,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004975439366209124,
      "loss": 0.3198,
      "step": 33970
    },
    {
      "epoch": 90.61333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004975424711466741,
      "loss": 0.3109,
      "step": 33980
    },
    {
      "epoch": 90.64,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004975410052375189,
      "loss": 0.3134,
      "step": 33990
    },
    {
      "epoch": 90.66666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004975395388934495,
      "loss": 0.3289,
      "step": 34000
    },
    {
      "epoch": 90.69333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004975380721144684,
      "loss": 0.3075,
      "step": 34010
    },
    {
      "epoch": 90.72,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004975366049005783,
      "loss": 0.3237,
      "step": 34020
    },
    {
      "epoch": 90.74666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004975351372517817,
      "loss": 0.3249,
      "step": 34030
    },
    {
      "epoch": 90.77333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004975336691680811,
      "loss": 0.3367,
      "step": 34040
    },
    {
      "epoch": 90.8,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004975322006494791,
      "loss": 0.3223,
      "step": 34050
    },
    {
      "epoch": 90.82666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004975307316959785,
      "loss": 0.3118,
      "step": 34060
    },
    {
      "epoch": 90.85333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004975292623075817,
      "loss": 0.316,
      "step": 34070
    },
    {
      "epoch": 90.88,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004975277924842912,
      "loss": 0.3145,
      "step": 34080
    },
    {
      "epoch": 90.90666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004975263222261097,
      "loss": 0.3176,
      "step": 34090
    },
    {
      "epoch": 90.93333333333334,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004975248515330398,
      "loss": 0.3175,
      "step": 34100
    },
    {
      "epoch": 90.96,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004975233804050841,
      "loss": 0.3175,
      "step": 34110
    },
    {
      "epoch": 90.98666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000497521908842245,
      "loss": 0.3301,
      "step": 34120
    },
    {
      "epoch": 91.0,
      "eval_loss": 0.4014798402786255,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3776,
      "eval_samples_per_second": 1.406,
      "eval_steps_per_second": 0.088,
      "step": 34125
    },
    {
      "epoch": 91.01333333333334,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004975204368445253,
      "loss": 0.3197,
      "step": 34130
    },
    {
      "epoch": 91.04,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004975189644119274,
      "loss": 0.3467,
      "step": 34140
    },
    {
      "epoch": 91.06666666666666,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004975174915444542,
      "loss": 0.3311,
      "step": 34150
    },
    {
      "epoch": 91.09333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000497516018242108,
      "loss": 0.3278,
      "step": 34160
    },
    {
      "epoch": 91.12,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004975145445048913,
      "loss": 0.3236,
      "step": 34170
    },
    {
      "epoch": 91.14666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000497513070332807,
      "loss": 0.3257,
      "step": 34180
    },
    {
      "epoch": 91.17333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004975115957258575,
      "loss": 0.3251,
      "step": 34190
    },
    {
      "epoch": 91.2,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004975101206840455,
      "loss": 0.318,
      "step": 34200
    },
    {
      "epoch": 91.22666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004975086452073734,
      "loss": 0.3128,
      "step": 34210
    },
    {
      "epoch": 91.25333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004975071692958441,
      "loss": 0.3117,
      "step": 34220
    },
    {
      "epoch": 91.28,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004975056929494599,
      "loss": 0.3311,
      "step": 34230
    },
    {
      "epoch": 91.30666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004975042161682235,
      "loss": 0.3123,
      "step": 34240
    },
    {
      "epoch": 91.33333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004975027389521376,
      "loss": 0.3272,
      "step": 34250
    },
    {
      "epoch": 91.36,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004975012613012047,
      "loss": 0.3181,
      "step": 34260
    },
    {
      "epoch": 91.38666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004974997832154272,
      "loss": 0.3157,
      "step": 34270
    },
    {
      "epoch": 91.41333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004974983046948081,
      "loss": 0.3216,
      "step": 34280
    },
    {
      "epoch": 91.44,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004974968257393497,
      "loss": 0.3285,
      "step": 34290
    },
    {
      "epoch": 91.46666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004974953463490546,
      "loss": 0.3323,
      "step": 34300
    },
    {
      "epoch": 91.49333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004974938665239256,
      "loss": 0.3217,
      "step": 34310
    },
    {
      "epoch": 91.52,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004974923862639652,
      "loss": 0.3255,
      "step": 34320
    },
    {
      "epoch": 91.54666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000497490905569176,
      "loss": 0.316,
      "step": 34330
    },
    {
      "epoch": 91.57333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004974894244395605,
      "loss": 0.3192,
      "step": 34340
    },
    {
      "epoch": 91.6,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004974879428751214,
      "loss": 0.315,
      "step": 34350
    },
    {
      "epoch": 91.62666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004974864608758613,
      "loss": 0.3108,
      "step": 34360
    },
    {
      "epoch": 91.65333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004974849784417829,
      "loss": 0.324,
      "step": 34370
    },
    {
      "epoch": 91.68,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004974834955728887,
      "loss": 0.3124,
      "step": 34380
    },
    {
      "epoch": 91.70666666666666,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004974820122691812,
      "loss": 0.3138,
      "step": 34390
    },
    {
      "epoch": 91.73333333333333,
      "grad_norm": 0.244140625,
      "learning_rate": 0.000497480528530663,
      "loss": 0.3296,
      "step": 34400
    },
    {
      "epoch": 91.76,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000497479044357337,
      "loss": 0.331,
      "step": 34410
    },
    {
      "epoch": 91.78666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004974775597492056,
      "loss": 0.3317,
      "step": 34420
    },
    {
      "epoch": 91.81333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004974760747062715,
      "loss": 0.3141,
      "step": 34430
    },
    {
      "epoch": 91.84,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004974745892285372,
      "loss": 0.314,
      "step": 34440
    },
    {
      "epoch": 91.86666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004974731033160053,
      "loss": 0.315,
      "step": 34450
    },
    {
      "epoch": 91.89333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004974716169686785,
      "loss": 0.3149,
      "step": 34460
    },
    {
      "epoch": 91.92,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004974701301865593,
      "loss": 0.3176,
      "step": 34470
    },
    {
      "epoch": 91.94666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004974686429696505,
      "loss": 0.3181,
      "step": 34480
    },
    {
      "epoch": 91.97333333333333,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004974671553179546,
      "loss": 0.3263,
      "step": 34490
    },
    {
      "epoch": 92.0,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004974656672314742,
      "loss": 0.3147,
      "step": 34500
    },
    {
      "epoch": 92.0,
      "eval_loss": 0.4021482467651367,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.26,
      "eval_samples_per_second": 1.207,
      "eval_steps_per_second": 0.075,
      "step": 34500
    },
    {
      "epoch": 92.02666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004974641787102119,
      "loss": 0.3374,
      "step": 34510
    },
    {
      "epoch": 92.05333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004974626897541703,
      "loss": 0.3432,
      "step": 34520
    },
    {
      "epoch": 92.08,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004974612003633521,
      "loss": 0.3278,
      "step": 34530
    },
    {
      "epoch": 92.10666666666667,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004974597105377599,
      "loss": 0.3289,
      "step": 34540
    },
    {
      "epoch": 92.13333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004974582202773964,
      "loss": 0.3208,
      "step": 34550
    },
    {
      "epoch": 92.16,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004974567295822639,
      "loss": 0.3279,
      "step": 34560
    },
    {
      "epoch": 92.18666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004974552384523654,
      "loss": 0.3219,
      "step": 34570
    },
    {
      "epoch": 92.21333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004974537468877033,
      "loss": 0.3109,
      "step": 34580
    },
    {
      "epoch": 92.24,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004974522548882803,
      "loss": 0.3153,
      "step": 34590
    },
    {
      "epoch": 92.26666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000497450762454099,
      "loss": 0.3211,
      "step": 34600
    },
    {
      "epoch": 92.29333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000497449269585162,
      "loss": 0.3168,
      "step": 34610
    },
    {
      "epoch": 92.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004974477762814719,
      "loss": 0.3241,
      "step": 34620
    },
    {
      "epoch": 92.34666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004974462825430314,
      "loss": 0.3234,
      "step": 34630
    },
    {
      "epoch": 92.37333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000497444788369843,
      "loss": 0.3158,
      "step": 34640
    },
    {
      "epoch": 92.4,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004974432937619095,
      "loss": 0.3174,
      "step": 34650
    },
    {
      "epoch": 92.42666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004974417987192335,
      "loss": 0.3234,
      "step": 34660
    },
    {
      "epoch": 92.45333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004974403032418174,
      "loss": 0.3322,
      "step": 34670
    },
    {
      "epoch": 92.48,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004974388073296642,
      "loss": 0.3279,
      "step": 34680
    },
    {
      "epoch": 92.50666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004974373109827762,
      "loss": 0.3246,
      "step": 34690
    },
    {
      "epoch": 92.53333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004974358142011561,
      "loss": 0.3195,
      "step": 34700
    },
    {
      "epoch": 92.56,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004974343169848067,
      "loss": 0.3165,
      "step": 34710
    },
    {
      "epoch": 92.58666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004974328193337304,
      "loss": 0.3183,
      "step": 34720
    },
    {
      "epoch": 92.61333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00049743132124793,
      "loss": 0.3101,
      "step": 34730
    },
    {
      "epoch": 92.64,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004974298227274081,
      "loss": 0.3129,
      "step": 34740
    },
    {
      "epoch": 92.66666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004974283237721673,
      "loss": 0.328,
      "step": 34750
    },
    {
      "epoch": 92.69333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004974268243822102,
      "loss": 0.308,
      "step": 34760
    },
    {
      "epoch": 92.72,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004974253245575395,
      "loss": 0.3233,
      "step": 34770
    },
    {
      "epoch": 92.74666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004974238242981578,
      "loss": 0.3247,
      "step": 34780
    },
    {
      "epoch": 92.77333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004974223236040677,
      "loss": 0.3357,
      "step": 34790
    },
    {
      "epoch": 92.8,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000497420822475272,
      "loss": 0.3224,
      "step": 34800
    },
    {
      "epoch": 92.82666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004974193209117731,
      "loss": 0.3109,
      "step": 34810
    },
    {
      "epoch": 92.85333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004974178189135739,
      "loss": 0.3152,
      "step": 34820
    },
    {
      "epoch": 92.88,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004974163164806767,
      "loss": 0.3142,
      "step": 34830
    },
    {
      "epoch": 92.90666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004974148136130845,
      "loss": 0.3167,
      "step": 34840
    },
    {
      "epoch": 92.93333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004974133103107998,
      "loss": 0.3176,
      "step": 34850
    },
    {
      "epoch": 92.96,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004974118065738251,
      "loss": 0.3171,
      "step": 34860
    },
    {
      "epoch": 92.98666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004974103024021631,
      "loss": 0.3297,
      "step": 34870
    },
    {
      "epoch": 93.0,
      "eval_loss": 0.40197426080703735,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5105,
      "eval_samples_per_second": 1.279,
      "eval_steps_per_second": 0.08,
      "step": 34875
    },
    {
      "epoch": 93.01333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004974087977958167,
      "loss": 0.319,
      "step": 34880
    },
    {
      "epoch": 93.04,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004974072927547882,
      "loss": 0.346,
      "step": 34890
    },
    {
      "epoch": 93.06666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004974057872790805,
      "loss": 0.3302,
      "step": 34900
    },
    {
      "epoch": 93.09333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000497404281368696,
      "loss": 0.3278,
      "step": 34910
    },
    {
      "epoch": 93.12,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004974027750236376,
      "loss": 0.3241,
      "step": 34920
    },
    {
      "epoch": 93.14666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004974012682439078,
      "loss": 0.3251,
      "step": 34930
    },
    {
      "epoch": 93.17333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004973997610295092,
      "loss": 0.325,
      "step": 34940
    },
    {
      "epoch": 93.2,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004973982533804447,
      "loss": 0.3173,
      "step": 34950
    },
    {
      "epoch": 93.22666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004973967452967166,
      "loss": 0.312,
      "step": 34960
    },
    {
      "epoch": 93.25333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004973952367783277,
      "loss": 0.3115,
      "step": 34970
    },
    {
      "epoch": 93.28,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004973937278252808,
      "loss": 0.3302,
      "step": 34980
    },
    {
      "epoch": 93.30666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004973922184375784,
      "loss": 0.3119,
      "step": 34990
    },
    {
      "epoch": 93.33333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004973907086152231,
      "loss": 0.3267,
      "step": 35000
    },
    {
      "epoch": 93.36,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004973891983582178,
      "loss": 0.3178,
      "step": 35010
    },
    {
      "epoch": 93.38666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004973876876665648,
      "loss": 0.3152,
      "step": 35020
    },
    {
      "epoch": 93.41333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000497386176540267,
      "loss": 0.3207,
      "step": 35030
    },
    {
      "epoch": 93.44,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000497384664979327,
      "loss": 0.3276,
      "step": 35040
    },
    {
      "epoch": 93.46666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004973831529837475,
      "loss": 0.3319,
      "step": 35050
    },
    {
      "epoch": 93.49333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000497381640553531,
      "loss": 0.3215,
      "step": 35060
    },
    {
      "epoch": 93.52,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004973801276886803,
      "loss": 0.3249,
      "step": 35070
    },
    {
      "epoch": 93.54666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000497378614389198,
      "loss": 0.316,
      "step": 35080
    },
    {
      "epoch": 93.57333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004973771006550868,
      "loss": 0.3186,
      "step": 35090
    },
    {
      "epoch": 93.6,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004973755864863494,
      "loss": 0.314,
      "step": 35100
    },
    {
      "epoch": 93.62666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0004973740718829882,
      "loss": 0.3105,
      "step": 35110
    },
    {
      "epoch": 93.65333333333334,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004973725568450062,
      "loss": 0.3241,
      "step": 35120
    },
    {
      "epoch": 93.68,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.000497371041372406,
      "loss": 0.3118,
      "step": 35130
    },
    {
      "epoch": 93.70666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004973695254651901,
      "loss": 0.3132,
      "step": 35140
    },
    {
      "epoch": 93.73333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004973680091233612,
      "loss": 0.3296,
      "step": 35150
    },
    {
      "epoch": 93.76,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004973664923469221,
      "loss": 0.3304,
      "step": 35160
    },
    {
      "epoch": 93.78666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004973649751358753,
      "loss": 0.3313,
      "step": 35170
    },
    {
      "epoch": 93.81333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004973634574902236,
      "loss": 0.3136,
      "step": 35180
    },
    {
      "epoch": 93.84,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004973619394099695,
      "loss": 0.3131,
      "step": 35190
    },
    {
      "epoch": 93.86666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004973604208951158,
      "loss": 0.3146,
      "step": 35200
    },
    {
      "epoch": 93.89333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004973589019456652,
      "loss": 0.3148,
      "step": 35210
    },
    {
      "epoch": 93.92,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004973573825616203,
      "loss": 0.3165,
      "step": 35220
    },
    {
      "epoch": 93.94666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004973558627429838,
      "loss": 0.3177,
      "step": 35230
    },
    {
      "epoch": 93.97333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004973543424897583,
      "loss": 0.3254,
      "step": 35240
    },
    {
      "epoch": 94.0,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004973528218019466,
      "loss": 0.3141,
      "step": 35250
    },
    {
      "epoch": 94.0,
      "eval_loss": 0.4029242694377899,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1078,
      "eval_samples_per_second": 1.44,
      "eval_steps_per_second": 0.09,
      "step": 35250
    },
    {
      "epoch": 94.02666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004973513006795513,
      "loss": 0.3361,
      "step": 35260
    },
    {
      "epoch": 94.05333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000497349779122575,
      "loss": 0.3424,
      "step": 35270
    },
    {
      "epoch": 94.08,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004973482571310204,
      "loss": 0.3268,
      "step": 35280
    },
    {
      "epoch": 94.10666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004973467347048902,
      "loss": 0.3283,
      "step": 35290
    },
    {
      "epoch": 94.13333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004973452118441872,
      "loss": 0.3202,
      "step": 35300
    },
    {
      "epoch": 94.16,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004973436885489139,
      "loss": 0.3265,
      "step": 35310
    },
    {
      "epoch": 94.18666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000497342164819073,
      "loss": 0.3214,
      "step": 35320
    },
    {
      "epoch": 94.21333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004973406406546673,
      "loss": 0.3104,
      "step": 35330
    },
    {
      "epoch": 94.24,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004973391160556994,
      "loss": 0.3151,
      "step": 35340
    },
    {
      "epoch": 94.26666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004973375910221719,
      "loss": 0.3208,
      "step": 35350
    },
    {
      "epoch": 94.29333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0004973360655540876,
      "loss": 0.3163,
      "step": 35360
    },
    {
      "epoch": 94.32,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004973345396514492,
      "loss": 0.3233,
      "step": 35370
    },
    {
      "epoch": 94.34666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004973330133142592,
      "loss": 0.3232,
      "step": 35380
    },
    {
      "epoch": 94.37333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004973314865425204,
      "loss": 0.315,
      "step": 35390
    },
    {
      "epoch": 94.4,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004973299593362355,
      "loss": 0.3169,
      "step": 35400
    },
    {
      "epoch": 94.42666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004973284316954072,
      "loss": 0.323,
      "step": 35410
    },
    {
      "epoch": 94.45333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.000497326903620038,
      "loss": 0.3313,
      "step": 35420
    },
    {
      "epoch": 94.48,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004973253751101308,
      "loss": 0.3271,
      "step": 35430
    },
    {
      "epoch": 94.50666666666666,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004973238461656883,
      "loss": 0.3235,
      "step": 35440
    },
    {
      "epoch": 94.53333333333333,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0004973223167867131,
      "loss": 0.3189,
      "step": 35450
    },
    {
      "epoch": 94.56,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004973207869732078,
      "loss": 0.3157,
      "step": 35460
    },
    {
      "epoch": 94.58666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004973192567251753,
      "loss": 0.3183,
      "step": 35470
    },
    {
      "epoch": 94.61333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000497317726042618,
      "loss": 0.3097,
      "step": 35480
    },
    {
      "epoch": 94.64,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000497316194925539,
      "loss": 0.3119,
      "step": 35490
    },
    {
      "epoch": 94.66666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004973146633739405,
      "loss": 0.3273,
      "step": 35500
    },
    {
      "epoch": 94.69333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004973131313878255,
      "loss": 0.3065,
      "step": 35510
    },
    {
      "epoch": 94.72,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004973115989671967,
      "loss": 0.3223,
      "step": 35520
    },
    {
      "epoch": 94.74666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004973100661120566,
      "loss": 0.3241,
      "step": 35530
    },
    {
      "epoch": 94.77333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004973085328224082,
      "loss": 0.3356,
      "step": 35540
    },
    {
      "epoch": 94.8,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004973069990982539,
      "loss": 0.322,
      "step": 35550
    },
    {
      "epoch": 94.82666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004973054649395963,
      "loss": 0.3104,
      "step": 35560
    },
    {
      "epoch": 94.85333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004973039303464386,
      "loss": 0.3147,
      "step": 35570
    },
    {
      "epoch": 94.88,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004973023953187831,
      "loss": 0.3139,
      "step": 35580
    },
    {
      "epoch": 94.90666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004973008598566325,
      "loss": 0.3162,
      "step": 35590
    },
    {
      "epoch": 94.93333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004972993239599897,
      "loss": 0.3164,
      "step": 35600
    },
    {
      "epoch": 94.96,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004972977876288572,
      "loss": 0.3164,
      "step": 35610
    },
    {
      "epoch": 94.98666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0004972962508632378,
      "loss": 0.3297,
      "step": 35620
    },
    {
      "epoch": 95.0,
      "eval_loss": 0.4011842608451843,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5909,
      "eval_samples_per_second": 1.511,
      "eval_steps_per_second": 0.094,
      "step": 35625
    },
    {
      "epoch": 95.01333333333334,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004972947136631342,
      "loss": 0.3192,
      "step": 35630
    },
    {
      "epoch": 95.04,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004972931760285492,
      "loss": 0.3451,
      "step": 35640
    },
    {
      "epoch": 95.06666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004972916379594852,
      "loss": 0.3296,
      "step": 35650
    },
    {
      "epoch": 95.09333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004972900994559452,
      "loss": 0.327,
      "step": 35660
    },
    {
      "epoch": 95.12,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004972885605179317,
      "loss": 0.3236,
      "step": 35670
    },
    {
      "epoch": 95.14666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004972870211454476,
      "loss": 0.3245,
      "step": 35680
    },
    {
      "epoch": 95.17333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004972854813384954,
      "loss": 0.3243,
      "step": 35690
    },
    {
      "epoch": 95.2,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0004972839410970779,
      "loss": 0.3167,
      "step": 35700
    },
    {
      "epoch": 95.22666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.000497282400421198,
      "loss": 0.3113,
      "step": 35710
    },
    {
      "epoch": 95.25333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.000497280859310858,
      "loss": 0.3112,
      "step": 35720
    },
    {
      "epoch": 95.28,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.000497279317766061,
      "loss": 0.3295,
      "step": 35730
    },
    {
      "epoch": 95.30666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004972777757868094,
      "loss": 0.3113,
      "step": 35740
    },
    {
      "epoch": 95.33333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004972762333731062,
      "loss": 0.3261,
      "step": 35750
    },
    {
      "epoch": 95.36,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004972746905249538,
      "loss": 0.3166,
      "step": 35760
    },
    {
      "epoch": 95.38666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004972731472423551,
      "loss": 0.314,
      "step": 35770
    },
    {
      "epoch": 95.41333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004972716035253128,
      "loss": 0.3204,
      "step": 35780
    },
    {
      "epoch": 95.44,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004972700593738296,
      "loss": 0.3275,
      "step": 35790
    },
    {
      "epoch": 95.46666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004972685147879082,
      "loss": 0.3312,
      "step": 35800
    },
    {
      "epoch": 95.49333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004972669697675512,
      "loss": 0.3206,
      "step": 35810
    },
    {
      "epoch": 95.52,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004972654243127616,
      "loss": 0.3239,
      "step": 35820
    },
    {
      "epoch": 95.54666666666667,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000497263878423542,
      "loss": 0.3153,
      "step": 35830
    },
    {
      "epoch": 95.57333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004972623320998948,
      "loss": 0.3183,
      "step": 35840
    },
    {
      "epoch": 95.6,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004972607853418232,
      "loss": 0.3139,
      "step": 35850
    },
    {
      "epoch": 95.62666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004972592381493296,
      "loss": 0.3092,
      "step": 35860
    },
    {
      "epoch": 95.65333333333334,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004972576905224168,
      "loss": 0.3229,
      "step": 35870
    },
    {
      "epoch": 95.68,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004972561424610875,
      "loss": 0.3114,
      "step": 35880
    },
    {
      "epoch": 95.70666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004972545939653446,
      "loss": 0.3125,
      "step": 35890
    },
    {
      "epoch": 95.73333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004972530450351905,
      "loss": 0.3281,
      "step": 35900
    },
    {
      "epoch": 95.76,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004972514956706282,
      "loss": 0.3295,
      "step": 35910
    },
    {
      "epoch": 95.78666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004972499458716602,
      "loss": 0.3304,
      "step": 35920
    },
    {
      "epoch": 95.81333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004972483956382895,
      "loss": 0.3131,
      "step": 35930
    },
    {
      "epoch": 95.84,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004972468449705186,
      "loss": 0.3124,
      "step": 35940
    },
    {
      "epoch": 95.86666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004972452938683503,
      "loss": 0.3141,
      "step": 35950
    },
    {
      "epoch": 95.89333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004972437423317874,
      "loss": 0.3143,
      "step": 35960
    },
    {
      "epoch": 95.92,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004972421903608323,
      "loss": 0.316,
      "step": 35970
    },
    {
      "epoch": 95.94666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004972406379554882,
      "loss": 0.3178,
      "step": 35980
    },
    {
      "epoch": 95.97333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004972390851157574,
      "loss": 0.3252,
      "step": 35990
    },
    {
      "epoch": 96.0,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000497237531841643,
      "loss": 0.3136,
      "step": 36000
    },
    {
      "epoch": 96.0,
      "eval_loss": 0.4026261568069458,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.8806,
      "eval_samples_per_second": 1.242,
      "eval_steps_per_second": 0.078,
      "step": 36000
    },
    {
      "epoch": 96.02666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004972359781331475,
      "loss": 0.336,
      "step": 36010
    },
    {
      "epoch": 96.05333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004972344239902736,
      "loss": 0.3417,
      "step": 36020
    },
    {
      "epoch": 96.08,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0004972328694130241,
      "loss": 0.3263,
      "step": 36030
    },
    {
      "epoch": 96.10666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0004972313144014018,
      "loss": 0.327,
      "step": 36040
    },
    {
      "epoch": 96.13333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004972297589554094,
      "loss": 0.3192,
      "step": 36050
    },
    {
      "epoch": 96.16,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004972282030750496,
      "loss": 0.3263,
      "step": 36060
    },
    {
      "epoch": 96.18666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004972266467603251,
      "loss": 0.3218,
      "step": 36070
    },
    {
      "epoch": 96.21333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004972250900112387,
      "loss": 0.31,
      "step": 36080
    },
    {
      "epoch": 96.24,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004972235328277932,
      "loss": 0.3145,
      "step": 36090
    },
    {
      "epoch": 96.26666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.000497221975209991,
      "loss": 0.3204,
      "step": 36100
    },
    {
      "epoch": 96.29333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004972204171578353,
      "loss": 0.3158,
      "step": 36110
    },
    {
      "epoch": 96.32,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004972188586713285,
      "loss": 0.3229,
      "step": 36120
    },
    {
      "epoch": 96.34666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004972172997504736,
      "loss": 0.322,
      "step": 36130
    },
    {
      "epoch": 96.37333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000497215740395273,
      "loss": 0.3142,
      "step": 36140
    },
    {
      "epoch": 96.4,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004972141806057299,
      "loss": 0.3159,
      "step": 36150
    },
    {
      "epoch": 96.42666666666666,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004972126203818466,
      "loss": 0.3224,
      "step": 36160
    },
    {
      "epoch": 96.45333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000497211059723626,
      "loss": 0.3308,
      "step": 36170
    },
    {
      "epoch": 96.48,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004972094986310709,
      "loss": 0.3267,
      "step": 36180
    },
    {
      "epoch": 96.50666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000497207937104184,
      "loss": 0.3235,
      "step": 36190
    },
    {
      "epoch": 96.53333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000497206375142968,
      "loss": 0.3181,
      "step": 36200
    },
    {
      "epoch": 96.56,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004972048127474258,
      "loss": 0.3151,
      "step": 36210
    },
    {
      "epoch": 96.58666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004972032499175599,
      "loss": 0.3175,
      "step": 36220
    },
    {
      "epoch": 96.61333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004972016866533734,
      "loss": 0.3093,
      "step": 36230
    },
    {
      "epoch": 96.64,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004972001229548687,
      "loss": 0.3116,
      "step": 36240
    },
    {
      "epoch": 96.66666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004971985588220487,
      "loss": 0.3269,
      "step": 36250
    },
    {
      "epoch": 96.69333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000497196994254916,
      "loss": 0.306,
      "step": 36260
    },
    {
      "epoch": 96.72,
      "grad_norm": 0.25,
      "learning_rate": 0.0004971954292534736,
      "loss": 0.3222,
      "step": 36270
    },
    {
      "epoch": 96.74666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000497193863817724,
      "loss": 0.3237,
      "step": 36280
    },
    {
      "epoch": 96.77333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004971922979476701,
      "loss": 0.3346,
      "step": 36290
    },
    {
      "epoch": 96.8,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004971907316433147,
      "loss": 0.3212,
      "step": 36300
    },
    {
      "epoch": 96.82666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004971891649046606,
      "loss": 0.3099,
      "step": 36310
    },
    {
      "epoch": 96.85333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004971875977317102,
      "loss": 0.3141,
      "step": 36320
    },
    {
      "epoch": 96.88,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004971860301244667,
      "loss": 0.3132,
      "step": 36330
    },
    {
      "epoch": 96.90666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004971844620829324,
      "loss": 0.3161,
      "step": 36340
    },
    {
      "epoch": 96.93333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004971828936071104,
      "loss": 0.3161,
      "step": 36350
    },
    {
      "epoch": 96.96,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004971813246970033,
      "loss": 0.3157,
      "step": 36360
    },
    {
      "epoch": 96.98666666666666,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004971797553526139,
      "loss": 0.3282,
      "step": 36370
    },
    {
      "epoch": 97.0,
      "eval_loss": 0.40192320942878723,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.548,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.087,
      "step": 36375
    },
    {
      "epoch": 97.01333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.000497178185573945,
      "loss": 0.3184,
      "step": 36380
    },
    {
      "epoch": 97.04,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004971766153609994,
      "loss": 0.345,
      "step": 36390
    },
    {
      "epoch": 97.06666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004971750447137796,
      "loss": 0.3291,
      "step": 36400
    },
    {
      "epoch": 97.09333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004971734736322887,
      "loss": 0.3269,
      "step": 36410
    },
    {
      "epoch": 97.12,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004971719021165292,
      "loss": 0.3222,
      "step": 36420
    },
    {
      "epoch": 97.14666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004971703301665041,
      "loss": 0.3231,
      "step": 36430
    },
    {
      "epoch": 97.17333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004971687577822159,
      "loss": 0.3234,
      "step": 36440
    },
    {
      "epoch": 97.2,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004971671849636674,
      "loss": 0.3167,
      "step": 36450
    },
    {
      "epoch": 97.22666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004971656117108615,
      "loss": 0.311,
      "step": 36460
    },
    {
      "epoch": 97.25333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004971640380238009,
      "loss": 0.3113,
      "step": 36470
    },
    {
      "epoch": 97.28,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004971624639024885,
      "loss": 0.3292,
      "step": 36480
    },
    {
      "epoch": 97.30666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004971608893469268,
      "loss": 0.3109,
      "step": 36490
    },
    {
      "epoch": 97.33333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004971593143571188,
      "loss": 0.325,
      "step": 36500
    },
    {
      "epoch": 97.36,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004971577389330671,
      "loss": 0.3171,
      "step": 36510
    },
    {
      "epoch": 97.38666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004971561630747746,
      "loss": 0.3144,
      "step": 36520
    },
    {
      "epoch": 97.41333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000497154586782244,
      "loss": 0.3199,
      "step": 36530
    },
    {
      "epoch": 97.44,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004971530100554781,
      "loss": 0.3265,
      "step": 36540
    },
    {
      "epoch": 97.46666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004971514328944796,
      "loss": 0.3315,
      "step": 36550
    },
    {
      "epoch": 97.49333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004971498552992514,
      "loss": 0.3205,
      "step": 36560
    },
    {
      "epoch": 97.52,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004971482772697961,
      "loss": 0.3243,
      "step": 36570
    },
    {
      "epoch": 97.54666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004971466988061166,
      "loss": 0.3148,
      "step": 36580
    },
    {
      "epoch": 97.57333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004971451199082156,
      "loss": 0.3173,
      "step": 36590
    },
    {
      "epoch": 97.6,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000497143540576096,
      "loss": 0.3134,
      "step": 36600
    },
    {
      "epoch": 97.62666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004971419608097604,
      "loss": 0.3093,
      "step": 36610
    },
    {
      "epoch": 97.65333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004971403806092117,
      "loss": 0.3226,
      "step": 36620
    },
    {
      "epoch": 97.68,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004971387999744526,
      "loss": 0.3106,
      "step": 36630
    },
    {
      "epoch": 97.70666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.000497137218905486,
      "loss": 0.3116,
      "step": 36640
    },
    {
      "epoch": 97.73333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004971356374023145,
      "loss": 0.3275,
      "step": 36650
    },
    {
      "epoch": 97.76,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004971340554649411,
      "loss": 0.3293,
      "step": 36660
    },
    {
      "epoch": 97.78666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004971324730933683,
      "loss": 0.3299,
      "step": 36670
    },
    {
      "epoch": 97.81333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004971308902875991,
      "loss": 0.312,
      "step": 36680
    },
    {
      "epoch": 97.84,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004971293070476362,
      "loss": 0.3119,
      "step": 36690
    },
    {
      "epoch": 97.86666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004971277233734824,
      "loss": 0.3135,
      "step": 36700
    },
    {
      "epoch": 97.89333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004971261392651405,
      "loss": 0.3131,
      "step": 36710
    },
    {
      "epoch": 97.92,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004971245547226133,
      "loss": 0.3156,
      "step": 36720
    },
    {
      "epoch": 97.94666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004971229697459035,
      "loss": 0.3164,
      "step": 36730
    },
    {
      "epoch": 97.97333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004971213843350139,
      "loss": 0.3243,
      "step": 36740
    },
    {
      "epoch": 98.0,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004971197984899474,
      "loss": 0.3131,
      "step": 36750
    },
    {
      "epoch": 98.0,
      "eval_loss": 0.40003642439842224,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7399,
      "eval_samples_per_second": 1.49,
      "eval_steps_per_second": 0.093,
      "step": 36750
    },
    {
      "epoch": 98.02666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004971182122107065,
      "loss": 0.3351,
      "step": 36760
    },
    {
      "epoch": 98.05333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004971166254972944,
      "loss": 0.3416,
      "step": 36770
    },
    {
      "epoch": 98.08,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004971150383497136,
      "loss": 0.3256,
      "step": 36780
    },
    {
      "epoch": 98.10666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000497113450767967,
      "loss": 0.3268,
      "step": 36790
    },
    {
      "epoch": 98.13333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004971118627520574,
      "loss": 0.319,
      "step": 36800
    },
    {
      "epoch": 98.16,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004971102743019873,
      "loss": 0.3261,
      "step": 36810
    },
    {
      "epoch": 98.18666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00049710868541776,
      "loss": 0.32,
      "step": 36820
    },
    {
      "epoch": 98.21333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004971070960993779,
      "loss": 0.3094,
      "step": 36830
    },
    {
      "epoch": 98.24,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000497105506346844,
      "loss": 0.3144,
      "step": 36840
    },
    {
      "epoch": 98.26666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004971039161601608,
      "loss": 0.32,
      "step": 36850
    },
    {
      "epoch": 98.29333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004971023255393315,
      "loss": 0.3148,
      "step": 36860
    },
    {
      "epoch": 98.32,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004971007344843586,
      "loss": 0.322,
      "step": 36870
    },
    {
      "epoch": 98.34666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004970991429952451,
      "loss": 0.3214,
      "step": 36880
    },
    {
      "epoch": 98.37333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004970975510719936,
      "loss": 0.3138,
      "step": 36890
    },
    {
      "epoch": 98.4,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004970959587146071,
      "loss": 0.3156,
      "step": 36900
    },
    {
      "epoch": 98.42666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004970943659230882,
      "loss": 0.3223,
      "step": 36910
    },
    {
      "epoch": 98.45333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004970927726974398,
      "loss": 0.3302,
      "step": 36920
    },
    {
      "epoch": 98.48,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004970911790376646,
      "loss": 0.3265,
      "step": 36930
    },
    {
      "epoch": 98.50666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004970895849437657,
      "loss": 0.3228,
      "step": 36940
    },
    {
      "epoch": 98.53333333333333,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004970879904157455,
      "loss": 0.3181,
      "step": 36950
    },
    {
      "epoch": 98.56,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000497086395453607,
      "loss": 0.3147,
      "step": 36960
    },
    {
      "epoch": 98.58666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000497084800057353,
      "loss": 0.3175,
      "step": 36970
    },
    {
      "epoch": 98.61333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004970832042269864,
      "loss": 0.3085,
      "step": 36980
    },
    {
      "epoch": 98.64,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004970816079625098,
      "loss": 0.3105,
      "step": 36990
    },
    {
      "epoch": 98.66666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004970800112639261,
      "loss": 0.3268,
      "step": 37000
    },
    {
      "epoch": 98.69333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004970784141312381,
      "loss": 0.3055,
      "step": 37010
    },
    {
      "epoch": 98.72,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004970768165644486,
      "loss": 0.3211,
      "step": 37020
    },
    {
      "epoch": 98.74666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004970752185635604,
      "loss": 0.3226,
      "step": 37030
    },
    {
      "epoch": 98.77333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004970736201285764,
      "loss": 0.3345,
      "step": 37040
    },
    {
      "epoch": 98.8,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004970720212594992,
      "loss": 0.3207,
      "step": 37050
    },
    {
      "epoch": 98.82666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004970704219563319,
      "loss": 0.309,
      "step": 37060
    },
    {
      "epoch": 98.85333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004970688222190771,
      "loss": 0.3138,
      "step": 37070
    },
    {
      "epoch": 98.88,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004970672220477376,
      "loss": 0.313,
      "step": 37080
    },
    {
      "epoch": 98.90666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004970656214423163,
      "loss": 0.3147,
      "step": 37090
    },
    {
      "epoch": 98.93333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004970640204028161,
      "loss": 0.3154,
      "step": 37100
    },
    {
      "epoch": 98.96,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004970624189292397,
      "loss": 0.3153,
      "step": 37110
    },
    {
      "epoch": 98.98666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004970608170215898,
      "loss": 0.3281,
      "step": 37120
    },
    {
      "epoch": 99.0,
      "eval_loss": 0.4015541076660156,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.015,
      "eval_samples_per_second": 1.453,
      "eval_steps_per_second": 0.091,
      "step": 37125
    },
    {
      "epoch": 99.01333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004970592146798693,
      "loss": 0.3182,
      "step": 37130
    },
    {
      "epoch": 99.04,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0004970576119040811,
      "loss": 0.3446,
      "step": 37140
    },
    {
      "epoch": 99.06666666666666,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004970560086942279,
      "loss": 0.3288,
      "step": 37150
    },
    {
      "epoch": 99.09333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004970544050503127,
      "loss": 0.3262,
      "step": 37160
    },
    {
      "epoch": 99.12,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000497052800972338,
      "loss": 0.322,
      "step": 37170
    },
    {
      "epoch": 99.14666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004970511964603071,
      "loss": 0.3235,
      "step": 37180
    },
    {
      "epoch": 99.17333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004970495915142223,
      "loss": 0.3227,
      "step": 37190
    },
    {
      "epoch": 99.2,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004970479861340867,
      "loss": 0.3164,
      "step": 37200
    },
    {
      "epoch": 99.22666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004970463803199031,
      "loss": 0.3108,
      "step": 37210
    },
    {
      "epoch": 99.25333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004970447740716743,
      "loss": 0.3106,
      "step": 37220
    },
    {
      "epoch": 99.28,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000497043167389403,
      "loss": 0.3289,
      "step": 37230
    },
    {
      "epoch": 99.30666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004970415602730923,
      "loss": 0.3104,
      "step": 37240
    },
    {
      "epoch": 99.33333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004970399527227448,
      "loss": 0.3256,
      "step": 37250
    },
    {
      "epoch": 99.36,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004970383447383634,
      "loss": 0.3164,
      "step": 37260
    },
    {
      "epoch": 99.38666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004970367363199508,
      "loss": 0.3138,
      "step": 37270
    },
    {
      "epoch": 99.41333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.00049703512746751,
      "loss": 0.3198,
      "step": 37280
    },
    {
      "epoch": 99.44,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004970335181810438,
      "loss": 0.3264,
      "step": 37290
    },
    {
      "epoch": 99.46666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000497031908460555,
      "loss": 0.331,
      "step": 37300
    },
    {
      "epoch": 99.49333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004970302983060464,
      "loss": 0.3195,
      "step": 37310
    },
    {
      "epoch": 99.52,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004970286877175209,
      "loss": 0.3233,
      "step": 37320
    },
    {
      "epoch": 99.54666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004970270766949811,
      "loss": 0.3141,
      "step": 37330
    },
    {
      "epoch": 99.57333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004970254652384301,
      "loss": 0.3171,
      "step": 37340
    },
    {
      "epoch": 99.6,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004970238533478707,
      "loss": 0.3128,
      "step": 37350
    },
    {
      "epoch": 99.62666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004970222410233057,
      "loss": 0.3089,
      "step": 37360
    },
    {
      "epoch": 99.65333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004970206282647378,
      "loss": 0.322,
      "step": 37370
    },
    {
      "epoch": 99.68,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00049701901507217,
      "loss": 0.311,
      "step": 37380
    },
    {
      "epoch": 99.70666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004970174014456049,
      "loss": 0.3117,
      "step": 37390
    },
    {
      "epoch": 99.73333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004970157873850457,
      "loss": 0.3269,
      "step": 37400
    },
    {
      "epoch": 99.76,
      "grad_norm": 0.1875,
      "learning_rate": 0.000497014172890495,
      "loss": 0.3288,
      "step": 37410
    },
    {
      "epoch": 99.78666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004970125579619556,
      "loss": 0.3288,
      "step": 37420
    },
    {
      "epoch": 99.81333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004970109425994306,
      "loss": 0.3117,
      "step": 37430
    },
    {
      "epoch": 99.84,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004970093268029225,
      "loss": 0.311,
      "step": 37440
    },
    {
      "epoch": 99.86666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004970077105724343,
      "loss": 0.3134,
      "step": 37450
    },
    {
      "epoch": 99.89333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004970060939079689,
      "loss": 0.3129,
      "step": 37460
    },
    {
      "epoch": 99.92,
      "grad_norm": 0.23046875,
      "learning_rate": 0.000497004476809529,
      "loss": 0.3149,
      "step": 37470
    },
    {
      "epoch": 99.94666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004970028592771175,
      "loss": 0.3165,
      "step": 37480
    },
    {
      "epoch": 99.97333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004970012413107373,
      "loss": 0.3241,
      "step": 37490
    },
    {
      "epoch": 100.0,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004969996229103913,
      "loss": 0.3121,
      "step": 37500
    },
    {
      "epoch": 100.0,
      "eval_loss": 0.4001418948173523,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.292,
      "eval_samples_per_second": 1.302,
      "eval_steps_per_second": 0.081,
      "step": 37500
    },
    {
      "epoch": 100.02666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000496998004076082,
      "loss": 0.3354,
      "step": 37510
    },
    {
      "epoch": 100.05333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004969963848078127,
      "loss": 0.3408,
      "step": 37520
    },
    {
      "epoch": 100.08,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004969947651055859,
      "loss": 0.3249,
      "step": 37530
    },
    {
      "epoch": 100.10666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004969931449694047,
      "loss": 0.3262,
      "step": 37540
    },
    {
      "epoch": 100.13333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004969915243992717,
      "loss": 0.3183,
      "step": 37550
    },
    {
      "epoch": 100.16,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004969899033951899,
      "loss": 0.3255,
      "step": 37560
    },
    {
      "epoch": 100.18666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004969882819571621,
      "loss": 0.3199,
      "step": 37570
    },
    {
      "epoch": 100.21333333333334,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004969866600851913,
      "loss": 0.3089,
      "step": 37580
    },
    {
      "epoch": 100.24,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004969850377792802,
      "loss": 0.3136,
      "step": 37590
    },
    {
      "epoch": 100.26666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004969834150394315,
      "loss": 0.3194,
      "step": 37600
    },
    {
      "epoch": 100.29333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004969817918656483,
      "loss": 0.3147,
      "step": 37610
    },
    {
      "epoch": 100.32,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004969801682579334,
      "loss": 0.3217,
      "step": 37620
    },
    {
      "epoch": 100.34666666666666,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004969785442162897,
      "loss": 0.3208,
      "step": 37630
    },
    {
      "epoch": 100.37333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004969769197407198,
      "loss": 0.3136,
      "step": 37640
    },
    {
      "epoch": 100.4,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004969752948312268,
      "loss": 0.3146,
      "step": 37650
    },
    {
      "epoch": 100.42666666666666,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004969736694878135,
      "loss": 0.322,
      "step": 37660
    },
    {
      "epoch": 100.45333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004969720437104828,
      "loss": 0.3302,
      "step": 37670
    },
    {
      "epoch": 100.48,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004969704174992373,
      "loss": 0.3262,
      "step": 37680
    },
    {
      "epoch": 100.50666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004969687908540802,
      "loss": 0.3223,
      "step": 37690
    },
    {
      "epoch": 100.53333333333333,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004969671637750142,
      "loss": 0.3172,
      "step": 37700
    },
    {
      "epoch": 100.56,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004969655362620422,
      "loss": 0.314,
      "step": 37710
    },
    {
      "epoch": 100.58666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.000496963908315167,
      "loss": 0.3168,
      "step": 37720
    },
    {
      "epoch": 100.61333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004969622799343915,
      "loss": 0.3081,
      "step": 37730
    },
    {
      "epoch": 100.64,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004969606511197185,
      "loss": 0.3107,
      "step": 37740
    },
    {
      "epoch": 100.66666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000496959021871151,
      "loss": 0.3264,
      "step": 37750
    },
    {
      "epoch": 100.69333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004969573921886917,
      "loss": 0.3052,
      "step": 37760
    },
    {
      "epoch": 100.72,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004969557620723436,
      "loss": 0.3209,
      "step": 37770
    },
    {
      "epoch": 100.74666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004969541315221095,
      "loss": 0.3226,
      "step": 37780
    },
    {
      "epoch": 100.77333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004969525005379922,
      "loss": 0.334,
      "step": 37790
    },
    {
      "epoch": 100.8,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004969508691199946,
      "loss": 0.3209,
      "step": 37800
    },
    {
      "epoch": 100.82666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004969492372681197,
      "loss": 0.3088,
      "step": 37810
    },
    {
      "epoch": 100.85333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004969476049823703,
      "loss": 0.3137,
      "step": 37820
    },
    {
      "epoch": 100.88,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004969459722627491,
      "loss": 0.3122,
      "step": 37830
    },
    {
      "epoch": 100.90666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004969443391092592,
      "loss": 0.3147,
      "step": 37840
    },
    {
      "epoch": 100.93333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004969427055219034,
      "loss": 0.3153,
      "step": 37850
    },
    {
      "epoch": 100.96,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004969410715006844,
      "loss": 0.3154,
      "step": 37860
    },
    {
      "epoch": 100.98666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004969394370456053,
      "loss": 0.3271,
      "step": 37870
    },
    {
      "epoch": 101.0,
      "eval_loss": 0.40342414379119873,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5931,
      "eval_samples_per_second": 1.271,
      "eval_steps_per_second": 0.079,
      "step": 37875
    },
    {
      "epoch": 101.01333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004969378021566688,
      "loss": 0.317,
      "step": 37880
    },
    {
      "epoch": 101.04,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000496936166833878,
      "loss": 0.344,
      "step": 37890
    },
    {
      "epoch": 101.06666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004969345310772356,
      "loss": 0.3286,
      "step": 37900
    },
    {
      "epoch": 101.09333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004969328948867444,
      "loss": 0.3258,
      "step": 37910
    },
    {
      "epoch": 101.12,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004969312582624075,
      "loss": 0.3214,
      "step": 37920
    },
    {
      "epoch": 101.14666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004969296212042276,
      "loss": 0.3227,
      "step": 37930
    },
    {
      "epoch": 101.17333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004969279837122076,
      "loss": 0.3218,
      "step": 37940
    },
    {
      "epoch": 101.2,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004969263457863505,
      "loss": 0.3154,
      "step": 37950
    },
    {
      "epoch": 101.22666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000496924707426659,
      "loss": 0.3102,
      "step": 37960
    },
    {
      "epoch": 101.25333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004969230686331361,
      "loss": 0.3098,
      "step": 37970
    },
    {
      "epoch": 101.28,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004969214294057846,
      "loss": 0.328,
      "step": 37980
    },
    {
      "epoch": 101.30666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004969197897446075,
      "loss": 0.3098,
      "step": 37990
    },
    {
      "epoch": 101.33333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004969181496496075,
      "loss": 0.3243,
      "step": 38000
    },
    {
      "epoch": 101.36,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004969165091207877,
      "loss": 0.3157,
      "step": 38010
    },
    {
      "epoch": 101.38666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004969148681581508,
      "loss": 0.3127,
      "step": 38020
    },
    {
      "epoch": 101.41333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004969132267616998,
      "loss": 0.3185,
      "step": 38030
    },
    {
      "epoch": 101.44,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004969115849314374,
      "loss": 0.3259,
      "step": 38040
    },
    {
      "epoch": 101.46666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004969099426673668,
      "loss": 0.3293,
      "step": 38050
    },
    {
      "epoch": 101.49333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004969082999694907,
      "loss": 0.319,
      "step": 38060
    },
    {
      "epoch": 101.52,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004969066568378118,
      "loss": 0.323,
      "step": 38070
    },
    {
      "epoch": 101.54666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004969050132723333,
      "loss": 0.3143,
      "step": 38080
    },
    {
      "epoch": 101.57333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004969033692730579,
      "loss": 0.3169,
      "step": 38090
    },
    {
      "epoch": 101.6,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004969017248399886,
      "loss": 0.3129,
      "step": 38100
    },
    {
      "epoch": 101.62666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004969000799731283,
      "loss": 0.3079,
      "step": 38110
    },
    {
      "epoch": 101.65333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004968984346724797,
      "loss": 0.3213,
      "step": 38120
    },
    {
      "epoch": 101.68,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000496896788938046,
      "loss": 0.3097,
      "step": 38130
    },
    {
      "epoch": 101.70666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004968951427698298,
      "loss": 0.3101,
      "step": 38140
    },
    {
      "epoch": 101.73333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004968934961678341,
      "loss": 0.326,
      "step": 38150
    },
    {
      "epoch": 101.76,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004968918491320618,
      "loss": 0.3281,
      "step": 38160
    },
    {
      "epoch": 101.78666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004968902016625158,
      "loss": 0.3289,
      "step": 38170
    },
    {
      "epoch": 101.81333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004968885537591991,
      "loss": 0.311,
      "step": 38180
    },
    {
      "epoch": 101.84,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004968869054221143,
      "loss": 0.3107,
      "step": 38190
    },
    {
      "epoch": 101.86666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004968852566512646,
      "loss": 0.3124,
      "step": 38200
    },
    {
      "epoch": 101.89333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004968836074466527,
      "loss": 0.3123,
      "step": 38210
    },
    {
      "epoch": 101.92,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004968819578082817,
      "loss": 0.3145,
      "step": 38220
    },
    {
      "epoch": 101.94666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004968803077361543,
      "loss": 0.3159,
      "step": 38230
    },
    {
      "epoch": 101.97333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004968786572302734,
      "loss": 0.324,
      "step": 38240
    },
    {
      "epoch": 102.0,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000496877006290642,
      "loss": 0.3116,
      "step": 38250
    },
    {
      "epoch": 102.0,
      "eval_loss": 0.40354910492897034,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.205,
      "eval_samples_per_second": 1.311,
      "eval_steps_per_second": 0.082,
      "step": 38250
    },
    {
      "epoch": 102.02666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004968753549172631,
      "loss": 0.334,
      "step": 38260
    },
    {
      "epoch": 102.05333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004968737031101393,
      "loss": 0.3402,
      "step": 38270
    },
    {
      "epoch": 102.08,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004968720508692738,
      "loss": 0.3247,
      "step": 38280
    },
    {
      "epoch": 102.10666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004968703981946694,
      "loss": 0.3258,
      "step": 38290
    },
    {
      "epoch": 102.13333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004968687450863288,
      "loss": 0.3179,
      "step": 38300
    },
    {
      "epoch": 102.16,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004968670915442553,
      "loss": 0.3245,
      "step": 38310
    },
    {
      "epoch": 102.18666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004968654375684514,
      "loss": 0.3196,
      "step": 38320
    },
    {
      "epoch": 102.21333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004968637831589204,
      "loss": 0.3085,
      "step": 38330
    },
    {
      "epoch": 102.24,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004968621283156648,
      "loss": 0.3132,
      "step": 38340
    },
    {
      "epoch": 102.26666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004968604730386878,
      "loss": 0.3191,
      "step": 38350
    },
    {
      "epoch": 102.29333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004968588173279922,
      "loss": 0.3145,
      "step": 38360
    },
    {
      "epoch": 102.32,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.000496857161183581,
      "loss": 0.3215,
      "step": 38370
    },
    {
      "epoch": 102.34666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.000496855504605457,
      "loss": 0.32,
      "step": 38380
    },
    {
      "epoch": 102.37333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004968538475936231,
      "loss": 0.3132,
      "step": 38390
    },
    {
      "epoch": 102.4,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004968521901480823,
      "loss": 0.3146,
      "step": 38400
    },
    {
      "epoch": 102.42666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004968505322688375,
      "loss": 0.3214,
      "step": 38410
    },
    {
      "epoch": 102.45333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004968488739558915,
      "loss": 0.3294,
      "step": 38420
    },
    {
      "epoch": 102.48,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004968472152092474,
      "loss": 0.325,
      "step": 38430
    },
    {
      "epoch": 102.50666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004968455560289079,
      "loss": 0.3215,
      "step": 38440
    },
    {
      "epoch": 102.53333333333333,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004968438964148761,
      "loss": 0.3169,
      "step": 38450
    },
    {
      "epoch": 102.56,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004968422363671549,
      "loss": 0.3139,
      "step": 38460
    },
    {
      "epoch": 102.58666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004968405758857471,
      "loss": 0.3163,
      "step": 38470
    },
    {
      "epoch": 102.61333333333333,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004968389149706555,
      "loss": 0.3078,
      "step": 38480
    },
    {
      "epoch": 102.64,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004968372536218835,
      "loss": 0.3101,
      "step": 38490
    },
    {
      "epoch": 102.66666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004968355918394336,
      "loss": 0.3258,
      "step": 38500
    },
    {
      "epoch": 102.69333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004968339296233088,
      "loss": 0.3049,
      "step": 38510
    },
    {
      "epoch": 102.72,
      "grad_norm": 0.24609375,
      "learning_rate": 0.000496832266973512,
      "loss": 0.3207,
      "step": 38520
    },
    {
      "epoch": 102.74666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004968306038900463,
      "loss": 0.3221,
      "step": 38530
    },
    {
      "epoch": 102.77333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004968289403729145,
      "loss": 0.3333,
      "step": 38540
    },
    {
      "epoch": 102.8,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004968272764221195,
      "loss": 0.3198,
      "step": 38550
    },
    {
      "epoch": 102.82666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000496825612037664,
      "loss": 0.308,
      "step": 38560
    },
    {
      "epoch": 102.85333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004968239472195515,
      "loss": 0.3122,
      "step": 38570
    },
    {
      "epoch": 102.88,
      "grad_norm": 0.25,
      "learning_rate": 0.0004968222819677845,
      "loss": 0.3115,
      "step": 38580
    },
    {
      "epoch": 102.90666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000496820616282366,
      "loss": 0.3139,
      "step": 38590
    },
    {
      "epoch": 102.93333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000496818950163299,
      "loss": 0.3145,
      "step": 38600
    },
    {
      "epoch": 102.96,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004968172836105862,
      "loss": 0.3146,
      "step": 38610
    },
    {
      "epoch": 102.98666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004968156166242308,
      "loss": 0.3266,
      "step": 38620
    },
    {
      "epoch": 103.0,
      "eval_loss": 0.40117982029914856,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.5642,
      "eval_samples_per_second": 1.18,
      "eval_steps_per_second": 0.074,
      "step": 38625
    },
    {
      "epoch": 103.01333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004968139492042356,
      "loss": 0.3168,
      "step": 38630
    },
    {
      "epoch": 103.04,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004968122813506036,
      "loss": 0.3427,
      "step": 38640
    },
    {
      "epoch": 103.06666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004968106130633377,
      "loss": 0.3276,
      "step": 38650
    },
    {
      "epoch": 103.09333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004968089443424409,
      "loss": 0.3247,
      "step": 38660
    },
    {
      "epoch": 103.12,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004968072751879159,
      "loss": 0.3215,
      "step": 38670
    },
    {
      "epoch": 103.14666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004968056055997659,
      "loss": 0.3222,
      "step": 38680
    },
    {
      "epoch": 103.17333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004968039355779935,
      "loss": 0.3216,
      "step": 38690
    },
    {
      "epoch": 103.2,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004968022651226021,
      "loss": 0.3147,
      "step": 38700
    },
    {
      "epoch": 103.22666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004968005942335942,
      "loss": 0.3086,
      "step": 38710
    },
    {
      "epoch": 103.25333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000496798922910973,
      "loss": 0.3091,
      "step": 38720
    },
    {
      "epoch": 103.28,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0004967972511547415,
      "loss": 0.3275,
      "step": 38730
    },
    {
      "epoch": 103.30666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004967955789649023,
      "loss": 0.3094,
      "step": 38740
    },
    {
      "epoch": 103.33333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004967939063414586,
      "loss": 0.3237,
      "step": 38750
    },
    {
      "epoch": 103.36,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004967922332844134,
      "loss": 0.315,
      "step": 38760
    },
    {
      "epoch": 103.38666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004967905597937693,
      "loss": 0.3124,
      "step": 38770
    },
    {
      "epoch": 103.41333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004967888858695296,
      "loss": 0.3182,
      "step": 38780
    },
    {
      "epoch": 103.44,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000496787211511697,
      "loss": 0.3256,
      "step": 38790
    },
    {
      "epoch": 103.46666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004967855367202746,
      "loss": 0.3294,
      "step": 38800
    },
    {
      "epoch": 103.49333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004967838614952653,
      "loss": 0.3187,
      "step": 38810
    },
    {
      "epoch": 103.52,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000496782185836672,
      "loss": 0.3221,
      "step": 38820
    },
    {
      "epoch": 103.54666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004967805097444976,
      "loss": 0.3126,
      "step": 38830
    },
    {
      "epoch": 103.57333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004967788332187452,
      "loss": 0.3161,
      "step": 38840
    },
    {
      "epoch": 103.6,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004967771562594175,
      "loss": 0.3125,
      "step": 38850
    },
    {
      "epoch": 103.62666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004967754788665177,
      "loss": 0.3079,
      "step": 38860
    },
    {
      "epoch": 103.65333333333334,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004967738010400487,
      "loss": 0.3207,
      "step": 38870
    },
    {
      "epoch": 103.68,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004967721227800134,
      "loss": 0.3094,
      "step": 38880
    },
    {
      "epoch": 103.70666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004967704440864147,
      "loss": 0.3106,
      "step": 38890
    },
    {
      "epoch": 103.73333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004967687649592555,
      "loss": 0.3261,
      "step": 38900
    },
    {
      "epoch": 103.76,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000496767085398539,
      "loss": 0.3272,
      "step": 38910
    },
    {
      "epoch": 103.78666666666666,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004967654054042679,
      "loss": 0.328,
      "step": 38920
    },
    {
      "epoch": 103.81333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004967637249764453,
      "loss": 0.3107,
      "step": 38930
    },
    {
      "epoch": 103.84,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004967620441150741,
      "loss": 0.3102,
      "step": 38940
    },
    {
      "epoch": 103.86666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004967603628201572,
      "loss": 0.3116,
      "step": 38950
    },
    {
      "epoch": 103.89333333333333,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004967586810916976,
      "loss": 0.3125,
      "step": 38960
    },
    {
      "epoch": 103.92,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004967569989296984,
      "loss": 0.314,
      "step": 38970
    },
    {
      "epoch": 103.94666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004967553163341623,
      "loss": 0.3148,
      "step": 38980
    },
    {
      "epoch": 103.97333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004967536333050923,
      "loss": 0.3229,
      "step": 38990
    },
    {
      "epoch": 104.0,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004967519498424916,
      "loss": 0.311,
      "step": 39000
    },
    {
      "epoch": 104.0,
      "eval_loss": 0.39859873056411743,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.395,
      "eval_samples_per_second": 1.291,
      "eval_steps_per_second": 0.081,
      "step": 39000
    },
    {
      "epoch": 104.02666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004967502659463629,
      "loss": 0.3331,
      "step": 39010
    },
    {
      "epoch": 104.05333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004967485816167093,
      "loss": 0.3399,
      "step": 39020
    },
    {
      "epoch": 104.08,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004967468968535337,
      "loss": 0.3245,
      "step": 39030
    },
    {
      "epoch": 104.10666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004967452116568389,
      "loss": 0.3252,
      "step": 39040
    },
    {
      "epoch": 104.13333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0004967435260266283,
      "loss": 0.3171,
      "step": 39050
    },
    {
      "epoch": 104.16,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0004967418399629044,
      "loss": 0.325,
      "step": 39060
    },
    {
      "epoch": 104.18666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004967401534656704,
      "loss": 0.3186,
      "step": 39070
    },
    {
      "epoch": 104.21333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004967384665349291,
      "loss": 0.3076,
      "step": 39080
    },
    {
      "epoch": 104.24,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004967367791706838,
      "loss": 0.3124,
      "step": 39090
    },
    {
      "epoch": 104.26666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004967350913729371,
      "loss": 0.3182,
      "step": 39100
    },
    {
      "epoch": 104.29333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004967334031416921,
      "loss": 0.3137,
      "step": 39110
    },
    {
      "epoch": 104.32,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004967317144769518,
      "loss": 0.3205,
      "step": 39120
    },
    {
      "epoch": 104.34666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004967300253787192,
      "loss": 0.3197,
      "step": 39130
    },
    {
      "epoch": 104.37333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004967283358469971,
      "loss": 0.3127,
      "step": 39140
    },
    {
      "epoch": 104.4,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004967266458817888,
      "loss": 0.314,
      "step": 39150
    },
    {
      "epoch": 104.42666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004967249554830968,
      "loss": 0.3206,
      "step": 39160
    },
    {
      "epoch": 104.45333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004967232646509244,
      "loss": 0.3286,
      "step": 39170
    },
    {
      "epoch": 104.48,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004967215733852745,
      "loss": 0.3247,
      "step": 39180
    },
    {
      "epoch": 104.50666666666666,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00049671988168615,
      "loss": 0.3214,
      "step": 39190
    },
    {
      "epoch": 104.53333333333333,
      "grad_norm": 0.166015625,
      "learning_rate": 0.000496718189553554,
      "loss": 0.3165,
      "step": 39200
    },
    {
      "epoch": 104.56,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004967164969874894,
      "loss": 0.3129,
      "step": 39210
    },
    {
      "epoch": 104.58666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004967148039879591,
      "loss": 0.3154,
      "step": 39220
    },
    {
      "epoch": 104.61333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004967131105549662,
      "loss": 0.3078,
      "step": 39230
    },
    {
      "epoch": 104.64,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004967114166885136,
      "loss": 0.3099,
      "step": 39240
    },
    {
      "epoch": 104.66666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004967097223886042,
      "loss": 0.3247,
      "step": 39250
    },
    {
      "epoch": 104.69333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004967080276552413,
      "loss": 0.3041,
      "step": 39260
    },
    {
      "epoch": 104.72,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004967063324884276,
      "loss": 0.3204,
      "step": 39270
    },
    {
      "epoch": 104.74666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004967046368881661,
      "loss": 0.3218,
      "step": 39280
    },
    {
      "epoch": 104.77333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004967029408544598,
      "loss": 0.3326,
      "step": 39290
    },
    {
      "epoch": 104.8,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004967012443873117,
      "loss": 0.319,
      "step": 39300
    },
    {
      "epoch": 104.82666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004966995474867248,
      "loss": 0.3082,
      "step": 39310
    },
    {
      "epoch": 104.85333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000496697850152702,
      "loss": 0.3126,
      "step": 39320
    },
    {
      "epoch": 104.88,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004966961523852464,
      "loss": 0.3113,
      "step": 39330
    },
    {
      "epoch": 104.90666666666667,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004966944541843609,
      "loss": 0.3135,
      "step": 39340
    },
    {
      "epoch": 104.93333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004966927555500485,
      "loss": 0.3145,
      "step": 39350
    },
    {
      "epoch": 104.96,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004966910564823122,
      "loss": 0.3134,
      "step": 39360
    },
    {
      "epoch": 104.98666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000496689356981155,
      "loss": 0.3265,
      "step": 39370
    },
    {
      "epoch": 105.0,
      "eval_loss": 0.4008204936981201,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.0122,
      "eval_samples_per_second": 1.23,
      "eval_steps_per_second": 0.077,
      "step": 39375
    },
    {
      "epoch": 105.01333333333334,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004966876570465797,
      "loss": 0.316,
      "step": 39380
    },
    {
      "epoch": 105.04,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004966859566785896,
      "loss": 0.3434,
      "step": 39390
    },
    {
      "epoch": 105.06666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004966842558771874,
      "loss": 0.3276,
      "step": 39400
    },
    {
      "epoch": 105.09333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004966825546423764,
      "loss": 0.3247,
      "step": 39410
    },
    {
      "epoch": 105.12,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004966808529741593,
      "loss": 0.3208,
      "step": 39420
    },
    {
      "epoch": 105.14666666666666,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004966791508725393,
      "loss": 0.3218,
      "step": 39430
    },
    {
      "epoch": 105.17333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004966774483375192,
      "loss": 0.3214,
      "step": 39440
    },
    {
      "epoch": 105.2,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004966757453691021,
      "loss": 0.314,
      "step": 39450
    },
    {
      "epoch": 105.22666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000496674041967291,
      "loss": 0.3084,
      "step": 39460
    },
    {
      "epoch": 105.25333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004966723381320888,
      "loss": 0.3087,
      "step": 39470
    },
    {
      "epoch": 105.28,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004966706338634986,
      "loss": 0.3275,
      "step": 39480
    },
    {
      "epoch": 105.30666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004966689291615234,
      "loss": 0.3082,
      "step": 39490
    },
    {
      "epoch": 105.33333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004966672240261661,
      "loss": 0.3233,
      "step": 39500
    },
    {
      "epoch": 105.36,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004966655184574297,
      "loss": 0.3146,
      "step": 39510
    },
    {
      "epoch": 105.38666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004966638124553174,
      "loss": 0.3114,
      "step": 39520
    },
    {
      "epoch": 105.41333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004966621060198318,
      "loss": 0.318,
      "step": 39530
    },
    {
      "epoch": 105.44,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004966603991509764,
      "loss": 0.3246,
      "step": 39540
    },
    {
      "epoch": 105.46666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004966586918487538,
      "loss": 0.3289,
      "step": 39550
    },
    {
      "epoch": 105.49333333333334,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004966569841131672,
      "loss": 0.3181,
      "step": 39560
    },
    {
      "epoch": 105.52,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004966552759442194,
      "loss": 0.322,
      "step": 39570
    },
    {
      "epoch": 105.54666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004966535673419137,
      "loss": 0.3125,
      "step": 39580
    },
    {
      "epoch": 105.57333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004966518583062529,
      "loss": 0.3155,
      "step": 39590
    },
    {
      "epoch": 105.6,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004966501488372399,
      "loss": 0.3114,
      "step": 39600
    },
    {
      "epoch": 105.62666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000496648438934878,
      "loss": 0.3076,
      "step": 39610
    },
    {
      "epoch": 105.65333333333334,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.00049664672859917,
      "loss": 0.321,
      "step": 39620
    },
    {
      "epoch": 105.68,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000496645017830119,
      "loss": 0.3089,
      "step": 39630
    },
    {
      "epoch": 105.70666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004966433066277279,
      "loss": 0.31,
      "step": 39640
    },
    {
      "epoch": 105.73333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004966415949919998,
      "loss": 0.3257,
      "step": 39650
    },
    {
      "epoch": 105.76,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004966398829229376,
      "loss": 0.3272,
      "step": 39660
    },
    {
      "epoch": 105.78666666666666,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004966381704205445,
      "loss": 0.3276,
      "step": 39670
    },
    {
      "epoch": 105.81333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004966364574848233,
      "loss": 0.3109,
      "step": 39680
    },
    {
      "epoch": 105.84,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004966347441157772,
      "loss": 0.31,
      "step": 39690
    },
    {
      "epoch": 105.86666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.000496633030313409,
      "loss": 0.3113,
      "step": 39700
    },
    {
      "epoch": 105.89333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004966313160777219,
      "loss": 0.3116,
      "step": 39710
    },
    {
      "epoch": 105.92,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004966296014087188,
      "loss": 0.3135,
      "step": 39720
    },
    {
      "epoch": 105.94666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004966278863064028,
      "loss": 0.3146,
      "step": 39730
    },
    {
      "epoch": 105.97333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004966261707707768,
      "loss": 0.3218,
      "step": 39740
    },
    {
      "epoch": 106.0,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004966244548018438,
      "loss": 0.3106,
      "step": 39750
    },
    {
      "epoch": 106.0,
      "eval_loss": 0.3998126983642578,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3984,
      "eval_samples_per_second": 1.404,
      "eval_steps_per_second": 0.088,
      "step": 39750
    },
    {
      "epoch": 106.02666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000496622738399607,
      "loss": 0.3336,
      "step": 39760
    },
    {
      "epoch": 106.05333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004966210215640693,
      "loss": 0.3396,
      "step": 39770
    },
    {
      "epoch": 106.08,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004966193042952338,
      "loss": 0.3237,
      "step": 39780
    },
    {
      "epoch": 106.10666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004966175865931033,
      "loss": 0.3249,
      "step": 39790
    },
    {
      "epoch": 106.13333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004966158684576809,
      "loss": 0.3164,
      "step": 39800
    },
    {
      "epoch": 106.16,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004966141498889698,
      "loss": 0.3242,
      "step": 39810
    },
    {
      "epoch": 106.18666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004966124308869729,
      "loss": 0.3185,
      "step": 39820
    },
    {
      "epoch": 106.21333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004966107114516931,
      "loss": 0.3076,
      "step": 39830
    },
    {
      "epoch": 106.24,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004966089915831337,
      "loss": 0.3115,
      "step": 39840
    },
    {
      "epoch": 106.26666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004966072712812975,
      "loss": 0.3182,
      "step": 39850
    },
    {
      "epoch": 106.29333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004966055505461875,
      "loss": 0.3134,
      "step": 39860
    },
    {
      "epoch": 106.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004966038293778069,
      "loss": 0.3197,
      "step": 39870
    },
    {
      "epoch": 106.34666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004966021077761585,
      "loss": 0.3197,
      "step": 39880
    },
    {
      "epoch": 106.37333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004966003857412455,
      "loss": 0.3118,
      "step": 39890
    },
    {
      "epoch": 106.4,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004965986632730709,
      "loss": 0.3133,
      "step": 39900
    },
    {
      "epoch": 106.42666666666666,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004965969403716377,
      "loss": 0.32,
      "step": 39910
    },
    {
      "epoch": 106.45333333333333,
      "grad_norm": 0.248046875,
      "learning_rate": 0.000496595217036949,
      "loss": 0.3282,
      "step": 39920
    },
    {
      "epoch": 106.48,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004965934932690077,
      "loss": 0.3243,
      "step": 39930
    },
    {
      "epoch": 106.50666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004965917690678169,
      "loss": 0.3209,
      "step": 39940
    },
    {
      "epoch": 106.53333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004965900444333796,
      "loss": 0.3156,
      "step": 39950
    },
    {
      "epoch": 106.56,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004965883193656988,
      "loss": 0.3126,
      "step": 39960
    },
    {
      "epoch": 106.58666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004965865938647777,
      "loss": 0.3153,
      "step": 39970
    },
    {
      "epoch": 106.61333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004965848679306191,
      "loss": 0.3074,
      "step": 39980
    },
    {
      "epoch": 106.64,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004965831415632262,
      "loss": 0.3091,
      "step": 39990
    },
    {
      "epoch": 106.66666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004965814147626019,
      "loss": 0.3251,
      "step": 40000
    },
    {
      "epoch": 106.69333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004965796875287493,
      "loss": 0.3037,
      "step": 40010
    },
    {
      "epoch": 106.72,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004965779598616715,
      "loss": 0.3198,
      "step": 40020
    },
    {
      "epoch": 106.74666666666667,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004965762317613715,
      "loss": 0.3213,
      "step": 40030
    },
    {
      "epoch": 106.77333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004965745032278522,
      "loss": 0.3324,
      "step": 40040
    },
    {
      "epoch": 106.8,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000496572774261117,
      "loss": 0.319,
      "step": 40050
    },
    {
      "epoch": 106.82666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004965710448611684,
      "loss": 0.3072,
      "step": 40060
    },
    {
      "epoch": 106.85333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004965693150280098,
      "loss": 0.3117,
      "step": 40070
    },
    {
      "epoch": 106.88,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004965675847616443,
      "loss": 0.3112,
      "step": 40080
    },
    {
      "epoch": 106.90666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004965658540620747,
      "loss": 0.3131,
      "step": 40090
    },
    {
      "epoch": 106.93333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004965641229293042,
      "loss": 0.3137,
      "step": 40100
    },
    {
      "epoch": 106.96,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004965623913633357,
      "loss": 0.3135,
      "step": 40110
    },
    {
      "epoch": 106.98666666666666,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004965606593641725,
      "loss": 0.3257,
      "step": 40120
    },
    {
      "epoch": 107.0,
      "eval_loss": 0.40082797408103943,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4974,
      "eval_samples_per_second": 1.392,
      "eval_steps_per_second": 0.087,
      "step": 40125
    },
    {
      "epoch": 107.01333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004965589269318174,
      "loss": 0.3157,
      "step": 40130
    },
    {
      "epoch": 107.04,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004965571940662734,
      "loss": 0.3424,
      "step": 40140
    },
    {
      "epoch": 107.06666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004965554607675437,
      "loss": 0.3268,
      "step": 40150
    },
    {
      "epoch": 107.09333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004965537270356314,
      "loss": 0.3246,
      "step": 40160
    },
    {
      "epoch": 107.12,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004965519928705394,
      "loss": 0.3202,
      "step": 40170
    },
    {
      "epoch": 107.14666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004965502582722708,
      "loss": 0.3215,
      "step": 40180
    },
    {
      "epoch": 107.17333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004965485232408286,
      "loss": 0.3209,
      "step": 40190
    },
    {
      "epoch": 107.2,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000496546787776216,
      "loss": 0.3142,
      "step": 40200
    },
    {
      "epoch": 107.22666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004965450518784358,
      "loss": 0.3079,
      "step": 40210
    },
    {
      "epoch": 107.25333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004965433155474914,
      "loss": 0.3087,
      "step": 40220
    },
    {
      "epoch": 107.28,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004965415787833855,
      "loss": 0.3266,
      "step": 40230
    },
    {
      "epoch": 107.30666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004965398415861213,
      "loss": 0.3081,
      "step": 40240
    },
    {
      "epoch": 107.33333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004965381039557018,
      "loss": 0.323,
      "step": 40250
    },
    {
      "epoch": 107.36,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004965363658921303,
      "loss": 0.3142,
      "step": 40260
    },
    {
      "epoch": 107.38666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004965346273954095,
      "loss": 0.3111,
      "step": 40270
    },
    {
      "epoch": 107.41333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004965328884655426,
      "loss": 0.3174,
      "step": 40280
    },
    {
      "epoch": 107.44,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004965311491025328,
      "loss": 0.3243,
      "step": 40290
    },
    {
      "epoch": 107.46666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004965294093063828,
      "loss": 0.3278,
      "step": 40300
    },
    {
      "epoch": 107.49333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004965276690770961,
      "loss": 0.3175,
      "step": 40310
    },
    {
      "epoch": 107.52,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004965259284146754,
      "loss": 0.3214,
      "step": 40320
    },
    {
      "epoch": 107.54666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000496524187319124,
      "loss": 0.3119,
      "step": 40330
    },
    {
      "epoch": 107.57333333333334,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004965224457904447,
      "loss": 0.3151,
      "step": 40340
    },
    {
      "epoch": 107.6,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004965207038286407,
      "loss": 0.3111,
      "step": 40350
    },
    {
      "epoch": 107.62666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004965189614337153,
      "loss": 0.307,
      "step": 40360
    },
    {
      "epoch": 107.65333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004965172186056712,
      "loss": 0.3206,
      "step": 40370
    },
    {
      "epoch": 107.68,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004965154753445116,
      "loss": 0.3089,
      "step": 40380
    },
    {
      "epoch": 107.70666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004965137316502396,
      "loss": 0.3091,
      "step": 40390
    },
    {
      "epoch": 107.73333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004965119875228581,
      "loss": 0.3252,
      "step": 40400
    },
    {
      "epoch": 107.76,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004965102429623704,
      "loss": 0.3263,
      "step": 40410
    },
    {
      "epoch": 107.78666666666666,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004965084979687795,
      "loss": 0.3275,
      "step": 40420
    },
    {
      "epoch": 107.81333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004965067525420883,
      "loss": 0.3096,
      "step": 40430
    },
    {
      "epoch": 107.84,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004965050066823001,
      "loss": 0.3095,
      "step": 40440
    },
    {
      "epoch": 107.86666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004965032603894177,
      "loss": 0.3108,
      "step": 40450
    },
    {
      "epoch": 107.89333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004965015136634445,
      "loss": 0.3109,
      "step": 40460
    },
    {
      "epoch": 107.92,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004964997665043833,
      "loss": 0.3128,
      "step": 40470
    },
    {
      "epoch": 107.94666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004964980189122371,
      "loss": 0.314,
      "step": 40480
    },
    {
      "epoch": 107.97333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004964962708870094,
      "loss": 0.3224,
      "step": 40490
    },
    {
      "epoch": 108.0,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004964945224287027,
      "loss": 0.3108,
      "step": 40500
    },
    {
      "epoch": 108.0,
      "eval_loss": 0.40004104375839233,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2243,
      "eval_samples_per_second": 1.425,
      "eval_steps_per_second": 0.089,
      "step": 40500
    },
    {
      "epoch": 108.02666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004964927735373206,
      "loss": 0.3329,
      "step": 40510
    },
    {
      "epoch": 108.05333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004964910242128659,
      "loss": 0.3388,
      "step": 40520
    },
    {
      "epoch": 108.08,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0004964892744553417,
      "loss": 0.323,
      "step": 40530
    },
    {
      "epoch": 108.10666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004964875242647512,
      "loss": 0.3249,
      "step": 40540
    },
    {
      "epoch": 108.13333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004964857736410972,
      "loss": 0.3168,
      "step": 40550
    },
    {
      "epoch": 108.16,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000496484022584383,
      "loss": 0.3232,
      "step": 40560
    },
    {
      "epoch": 108.18666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004964822710946116,
      "loss": 0.3183,
      "step": 40570
    },
    {
      "epoch": 108.21333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004964805191717862,
      "loss": 0.3068,
      "step": 40580
    },
    {
      "epoch": 108.24,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004964787668159097,
      "loss": 0.3117,
      "step": 40590
    },
    {
      "epoch": 108.26666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004964770140269852,
      "loss": 0.3172,
      "step": 40600
    },
    {
      "epoch": 108.29333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000496475260805016,
      "loss": 0.3131,
      "step": 40610
    },
    {
      "epoch": 108.32,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004964735071500048,
      "loss": 0.3196,
      "step": 40620
    },
    {
      "epoch": 108.34666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.000496471753061955,
      "loss": 0.3188,
      "step": 40630
    },
    {
      "epoch": 108.37333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004964699985408696,
      "loss": 0.3111,
      "step": 40640
    },
    {
      "epoch": 108.4,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004964682435867516,
      "loss": 0.3128,
      "step": 40650
    },
    {
      "epoch": 108.42666666666666,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004964664881996042,
      "loss": 0.3189,
      "step": 40660
    },
    {
      "epoch": 108.45333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004964647323794304,
      "loss": 0.3286,
      "step": 40670
    },
    {
      "epoch": 108.48,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0004964629761262333,
      "loss": 0.3241,
      "step": 40680
    },
    {
      "epoch": 108.50666666666666,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0004964612194400161,
      "loss": 0.3206,
      "step": 40690
    },
    {
      "epoch": 108.53333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0004964594623207817,
      "loss": 0.3156,
      "step": 40700
    },
    {
      "epoch": 108.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004964577047685332,
      "loss": 0.3123,
      "step": 40710
    },
    {
      "epoch": 108.58666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004964559467832738,
      "loss": 0.3151,
      "step": 40720
    },
    {
      "epoch": 108.61333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004964541883650065,
      "loss": 0.3065,
      "step": 40730
    },
    {
      "epoch": 108.64,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004964524295137346,
      "loss": 0.3088,
      "step": 40740
    },
    {
      "epoch": 108.66666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004964506702294609,
      "loss": 0.3243,
      "step": 40750
    },
    {
      "epoch": 108.69333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004964489105121887,
      "loss": 0.3034,
      "step": 40760
    },
    {
      "epoch": 108.72,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004964471503619208,
      "loss": 0.3187,
      "step": 40770
    },
    {
      "epoch": 108.74666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004964453897786608,
      "loss": 0.321,
      "step": 40780
    },
    {
      "epoch": 108.77333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004964436287624113,
      "loss": 0.3325,
      "step": 40790
    },
    {
      "epoch": 108.8,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004964418673131757,
      "loss": 0.3183,
      "step": 40800
    },
    {
      "epoch": 108.82666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004964401054309569,
      "loss": 0.3071,
      "step": 40810
    },
    {
      "epoch": 108.85333333333334,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004964383431157581,
      "loss": 0.3112,
      "step": 40820
    },
    {
      "epoch": 108.88,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004964365803675824,
      "loss": 0.3105,
      "step": 40830
    },
    {
      "epoch": 108.90666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004964348171864329,
      "loss": 0.3133,
      "step": 40840
    },
    {
      "epoch": 108.93333333333334,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004964330535723126,
      "loss": 0.3129,
      "step": 40850
    },
    {
      "epoch": 108.96,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004964312895252247,
      "loss": 0.3132,
      "step": 40860
    },
    {
      "epoch": 108.98666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004964295250451722,
      "loss": 0.3255,
      "step": 40870
    },
    {
      "epoch": 109.0,
      "eval_loss": 0.3988592326641083,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.9609,
      "eval_samples_per_second": 1.234,
      "eval_steps_per_second": 0.077,
      "step": 40875
    },
    {
      "epoch": 109.01333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004964277601321584,
      "loss": 0.315,
      "step": 40880
    },
    {
      "epoch": 109.04,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004964259947861863,
      "loss": 0.3419,
      "step": 40890
    },
    {
      "epoch": 109.06666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004964242290072588,
      "loss": 0.3267,
      "step": 40900
    },
    {
      "epoch": 109.09333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004964224627953792,
      "loss": 0.3229,
      "step": 40910
    },
    {
      "epoch": 109.12,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004964206961505506,
      "loss": 0.3197,
      "step": 40920
    },
    {
      "epoch": 109.14666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004964189290727762,
      "loss": 0.3206,
      "step": 40930
    },
    {
      "epoch": 109.17333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004964171615620588,
      "loss": 0.3204,
      "step": 40940
    },
    {
      "epoch": 109.2,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004964153936184018,
      "loss": 0.3134,
      "step": 40950
    },
    {
      "epoch": 109.22666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004964136252418082,
      "loss": 0.3078,
      "step": 40960
    },
    {
      "epoch": 109.25333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004964118564322811,
      "loss": 0.3077,
      "step": 40970
    },
    {
      "epoch": 109.28,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004964100871898235,
      "loss": 0.3261,
      "step": 40980
    },
    {
      "epoch": 109.30666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004964083175144387,
      "loss": 0.3081,
      "step": 40990
    },
    {
      "epoch": 109.33333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004964065474061298,
      "loss": 0.3229,
      "step": 41000
    },
    {
      "epoch": 109.36,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004964047768648998,
      "loss": 0.3133,
      "step": 41010
    },
    {
      "epoch": 109.38666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004964030058907517,
      "loss": 0.3104,
      "step": 41020
    },
    {
      "epoch": 109.41333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004964012344836889,
      "loss": 0.3171,
      "step": 41030
    },
    {
      "epoch": 109.44,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004963994626437145,
      "loss": 0.3242,
      "step": 41040
    },
    {
      "epoch": 109.46666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004963976903708312,
      "loss": 0.3283,
      "step": 41050
    },
    {
      "epoch": 109.49333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004963959176650426,
      "loss": 0.3173,
      "step": 41060
    },
    {
      "epoch": 109.52,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004963941445263515,
      "loss": 0.3205,
      "step": 41070
    },
    {
      "epoch": 109.54666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004963923709547613,
      "loss": 0.3115,
      "step": 41080
    },
    {
      "epoch": 109.57333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004963905969502748,
      "loss": 0.3146,
      "step": 41090
    },
    {
      "epoch": 109.6,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004963888225128953,
      "loss": 0.3107,
      "step": 41100
    },
    {
      "epoch": 109.62666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004963870476426259,
      "loss": 0.3062,
      "step": 41110
    },
    {
      "epoch": 109.65333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004963852723394696,
      "loss": 0.3194,
      "step": 41120
    },
    {
      "epoch": 109.68,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004963834966034297,
      "loss": 0.3077,
      "step": 41130
    },
    {
      "epoch": 109.70666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004963817204345092,
      "loss": 0.3093,
      "step": 41140
    },
    {
      "epoch": 109.73333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004963799438327113,
      "loss": 0.3244,
      "step": 41150
    },
    {
      "epoch": 109.76,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004963781667980391,
      "loss": 0.3265,
      "step": 41160
    },
    {
      "epoch": 109.78666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004963763893304957,
      "loss": 0.3268,
      "step": 41170
    },
    {
      "epoch": 109.81333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004963746114300842,
      "loss": 0.3097,
      "step": 41180
    },
    {
      "epoch": 109.84,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004963728330968077,
      "loss": 0.3088,
      "step": 41190
    },
    {
      "epoch": 109.86666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004963710543306694,
      "loss": 0.3111,
      "step": 41200
    },
    {
      "epoch": 109.89333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004963692751316724,
      "loss": 0.3104,
      "step": 41210
    },
    {
      "epoch": 109.92,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004963674954998199,
      "loss": 0.313,
      "step": 41220
    },
    {
      "epoch": 109.94666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004963657154351149,
      "loss": 0.3139,
      "step": 41230
    },
    {
      "epoch": 109.97333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004963639349375605,
      "loss": 0.3212,
      "step": 41240
    },
    {
      "epoch": 110.0,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00049636215400716,
      "loss": 0.31,
      "step": 41250
    },
    {
      "epoch": 110.0,
      "eval_loss": 0.4007114768028259,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5367,
      "eval_samples_per_second": 1.276,
      "eval_steps_per_second": 0.08,
      "step": 41250
    },
    {
      "epoch": 110.02666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004963603726439164,
      "loss": 0.3323,
      "step": 41260
    },
    {
      "epoch": 110.05333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004963585908478329,
      "loss": 0.3385,
      "step": 41270
    },
    {
      "epoch": 110.08,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004963568086189126,
      "loss": 0.3229,
      "step": 41280
    },
    {
      "epoch": 110.10666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004963550259571585,
      "loss": 0.324,
      "step": 41290
    },
    {
      "epoch": 110.13333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000496353242862574,
      "loss": 0.3159,
      "step": 41300
    },
    {
      "epoch": 110.16,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000496351459335162,
      "loss": 0.3226,
      "step": 41310
    },
    {
      "epoch": 110.18666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004963496753749258,
      "loss": 0.3179,
      "step": 41320
    },
    {
      "epoch": 110.21333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004963478909818684,
      "loss": 0.3063,
      "step": 41330
    },
    {
      "epoch": 110.24,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004963461061559931,
      "loss": 0.3105,
      "step": 41340
    },
    {
      "epoch": 110.26666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004963443208973029,
      "loss": 0.3165,
      "step": 41350
    },
    {
      "epoch": 110.29333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004963425352058009,
      "loss": 0.3118,
      "step": 41360
    },
    {
      "epoch": 110.32,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004963407490814903,
      "loss": 0.3197,
      "step": 41370
    },
    {
      "epoch": 110.34666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004963389625243743,
      "loss": 0.3186,
      "step": 41380
    },
    {
      "epoch": 110.37333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004963371755344559,
      "loss": 0.3113,
      "step": 41390
    },
    {
      "epoch": 110.4,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004963353881117384,
      "loss": 0.3125,
      "step": 41400
    },
    {
      "epoch": 110.42666666666666,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004963336002562248,
      "loss": 0.3191,
      "step": 41410
    },
    {
      "epoch": 110.45333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004963318119679183,
      "loss": 0.3277,
      "step": 41420
    },
    {
      "epoch": 110.48,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004963300232468221,
      "loss": 0.3235,
      "step": 41430
    },
    {
      "epoch": 110.50666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004963282340929392,
      "loss": 0.3202,
      "step": 41440
    },
    {
      "epoch": 110.53333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.000496326444506273,
      "loss": 0.3148,
      "step": 41450
    },
    {
      "epoch": 110.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004963246544868263,
      "loss": 0.3116,
      "step": 41460
    },
    {
      "epoch": 110.58666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0004963228640346024,
      "loss": 0.3146,
      "step": 41470
    },
    {
      "epoch": 110.61333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0004963210731496046,
      "loss": 0.3062,
      "step": 41480
    },
    {
      "epoch": 110.64,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004963192818318359,
      "loss": 0.3083,
      "step": 41490
    },
    {
      "epoch": 110.66666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004963174900812995,
      "loss": 0.3241,
      "step": 41500
    },
    {
      "epoch": 110.69333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004963156978979984,
      "loss": 0.3025,
      "step": 41510
    },
    {
      "epoch": 110.72,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004963139052819359,
      "loss": 0.3194,
      "step": 41520
    },
    {
      "epoch": 110.74666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000496312112233115,
      "loss": 0.3207,
      "step": 41530
    },
    {
      "epoch": 110.77333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004963103187515391,
      "loss": 0.3318,
      "step": 41540
    },
    {
      "epoch": 110.8,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004963085248372111,
      "loss": 0.3178,
      "step": 41550
    },
    {
      "epoch": 110.82666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004963067304901343,
      "loss": 0.3061,
      "step": 41560
    },
    {
      "epoch": 110.85333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004963049357103119,
      "loss": 0.3109,
      "step": 41570
    },
    {
      "epoch": 110.88,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004963031404977468,
      "loss": 0.3103,
      "step": 41580
    },
    {
      "epoch": 110.90666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004963013448524425,
      "loss": 0.3124,
      "step": 41590
    },
    {
      "epoch": 110.93333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004962995487744019,
      "loss": 0.313,
      "step": 41600
    },
    {
      "epoch": 110.96,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004962977522636282,
      "loss": 0.3123,
      "step": 41610
    },
    {
      "epoch": 110.98666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004962959553201246,
      "loss": 0.3248,
      "step": 41620
    },
    {
      "epoch": 111.0,
      "eval_loss": 0.3983340859413147,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.7285,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.085,
      "step": 41625
    },
    {
      "epoch": 111.01333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004962941579438942,
      "loss": 0.3144,
      "step": 41630
    },
    {
      "epoch": 111.04,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004962923601349402,
      "loss": 0.3414,
      "step": 41640
    },
    {
      "epoch": 111.06666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004962905618932658,
      "loss": 0.3262,
      "step": 41650
    },
    {
      "epoch": 111.09333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004962887632188741,
      "loss": 0.3236,
      "step": 41660
    },
    {
      "epoch": 111.12,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004962869641117683,
      "loss": 0.319,
      "step": 41670
    },
    {
      "epoch": 111.14666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004962851645719515,
      "loss": 0.3203,
      "step": 41680
    },
    {
      "epoch": 111.17333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.000496283364599427,
      "loss": 0.32,
      "step": 41690
    },
    {
      "epoch": 111.2,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004962815641941977,
      "loss": 0.3129,
      "step": 41700
    },
    {
      "epoch": 111.22666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004962797633562671,
      "loss": 0.3076,
      "step": 41710
    },
    {
      "epoch": 111.25333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000496277962085638,
      "loss": 0.3072,
      "step": 41720
    },
    {
      "epoch": 111.28,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004962761603823139,
      "loss": 0.325,
      "step": 41730
    },
    {
      "epoch": 111.30666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004962743582462978,
      "loss": 0.3069,
      "step": 41740
    },
    {
      "epoch": 111.33333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004962725556775929,
      "loss": 0.3217,
      "step": 41750
    },
    {
      "epoch": 111.36,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004962707526762022,
      "loss": 0.3129,
      "step": 41760
    },
    {
      "epoch": 111.38666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004962689492421291,
      "loss": 0.3109,
      "step": 41770
    },
    {
      "epoch": 111.41333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004962671453753769,
      "loss": 0.3164,
      "step": 41780
    },
    {
      "epoch": 111.44,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004962653410759484,
      "loss": 0.3238,
      "step": 41790
    },
    {
      "epoch": 111.46666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004962635363438469,
      "loss": 0.3277,
      "step": 41800
    },
    {
      "epoch": 111.49333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004962617311790756,
      "loss": 0.3169,
      "step": 41810
    },
    {
      "epoch": 111.52,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004962599255816377,
      "loss": 0.3211,
      "step": 41820
    },
    {
      "epoch": 111.54666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004962581195515363,
      "loss": 0.311,
      "step": 41830
    },
    {
      "epoch": 111.57333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004962563130887747,
      "loss": 0.3144,
      "step": 41840
    },
    {
      "epoch": 111.6,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004962545061933559,
      "loss": 0.3105,
      "step": 41850
    },
    {
      "epoch": 111.62666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004962526988652832,
      "loss": 0.3056,
      "step": 41860
    },
    {
      "epoch": 111.65333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004962508911045598,
      "loss": 0.3194,
      "step": 41870
    },
    {
      "epoch": 111.68,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004962490829111888,
      "loss": 0.3077,
      "step": 41880
    },
    {
      "epoch": 111.70666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004962472742851734,
      "loss": 0.3088,
      "step": 41890
    },
    {
      "epoch": 111.73333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004962454652265167,
      "loss": 0.3243,
      "step": 41900
    },
    {
      "epoch": 111.76,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004962436557352219,
      "loss": 0.3259,
      "step": 41910
    },
    {
      "epoch": 111.78666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004962418458112924,
      "loss": 0.3266,
      "step": 41920
    },
    {
      "epoch": 111.81333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004962400354547311,
      "loss": 0.3084,
      "step": 41930
    },
    {
      "epoch": 111.84,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004962382246655414,
      "loss": 0.3083,
      "step": 41940
    },
    {
      "epoch": 111.86666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004962364134437261,
      "loss": 0.3102,
      "step": 41950
    },
    {
      "epoch": 111.89333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004962346017892889,
      "loss": 0.3105,
      "step": 41960
    },
    {
      "epoch": 111.92,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004962327897022327,
      "loss": 0.312,
      "step": 41970
    },
    {
      "epoch": 111.94666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004962309771825607,
      "loss": 0.3134,
      "step": 41980
    },
    {
      "epoch": 111.97333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004962291642302761,
      "loss": 0.3207,
      "step": 41990
    },
    {
      "epoch": 112.0,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004962273508453822,
      "loss": 0.3097,
      "step": 42000
    },
    {
      "epoch": 112.0,
      "eval_loss": 0.40091875195503235,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.0532,
      "eval_samples_per_second": 1.327,
      "eval_steps_per_second": 0.083,
      "step": 42000
    },
    {
      "epoch": 112.02666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004962255370278819,
      "loss": 0.3316,
      "step": 42010
    },
    {
      "epoch": 112.05333333333333,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004962237227777786,
      "loss": 0.3385,
      "step": 42020
    },
    {
      "epoch": 112.08,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004962219080950755,
      "loss": 0.3222,
      "step": 42030
    },
    {
      "epoch": 112.10666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004962200929797757,
      "loss": 0.3236,
      "step": 42040
    },
    {
      "epoch": 112.13333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004962182774318825,
      "loss": 0.3162,
      "step": 42050
    },
    {
      "epoch": 112.16,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000496216461451399,
      "loss": 0.3223,
      "step": 42060
    },
    {
      "epoch": 112.18666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004962146450383282,
      "loss": 0.3168,
      "step": 42070
    },
    {
      "epoch": 112.21333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004962128281926737,
      "loss": 0.3063,
      "step": 42080
    },
    {
      "epoch": 112.24,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004962110109144385,
      "loss": 0.3102,
      "step": 42090
    },
    {
      "epoch": 112.26666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004962091932036258,
      "loss": 0.3161,
      "step": 42100
    },
    {
      "epoch": 112.29333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004962073750602388,
      "loss": 0.3116,
      "step": 42110
    },
    {
      "epoch": 112.32,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004962055564842804,
      "loss": 0.3181,
      "step": 42120
    },
    {
      "epoch": 112.34666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004962037374757544,
      "loss": 0.3181,
      "step": 42130
    },
    {
      "epoch": 112.37333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004962019180346635,
      "loss": 0.3105,
      "step": 42140
    },
    {
      "epoch": 112.4,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000496200098161011,
      "loss": 0.312,
      "step": 42150
    },
    {
      "epoch": 112.42666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004961982778548004,
      "loss": 0.3185,
      "step": 42160
    },
    {
      "epoch": 112.45333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004961964571160344,
      "loss": 0.327,
      "step": 42170
    },
    {
      "epoch": 112.48,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004961946359447166,
      "loss": 0.3227,
      "step": 42180
    },
    {
      "epoch": 112.50666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00049619281434085,
      "loss": 0.3198,
      "step": 42190
    },
    {
      "epoch": 112.53333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004961909923044379,
      "loss": 0.3145,
      "step": 42200
    },
    {
      "epoch": 112.56,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004961891698354833,
      "loss": 0.3111,
      "step": 42210
    },
    {
      "epoch": 112.58666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004961873469339897,
      "loss": 0.3148,
      "step": 42220
    },
    {
      "epoch": 112.61333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004961855235999602,
      "loss": 0.3061,
      "step": 42230
    },
    {
      "epoch": 112.64,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004961836998333978,
      "loss": 0.307,
      "step": 42240
    },
    {
      "epoch": 112.66666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004961818756343061,
      "loss": 0.3235,
      "step": 42250
    },
    {
      "epoch": 112.69333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004961800510026879,
      "loss": 0.302,
      "step": 42260
    },
    {
      "epoch": 112.72,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004961782259385465,
      "loss": 0.3186,
      "step": 42270
    },
    {
      "epoch": 112.74666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004961764004418854,
      "loss": 0.3203,
      "step": 42280
    },
    {
      "epoch": 112.77333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004961745745127075,
      "loss": 0.331,
      "step": 42290
    },
    {
      "epoch": 112.8,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004961727481510161,
      "loss": 0.3166,
      "step": 42300
    },
    {
      "epoch": 112.82666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004961709213568144,
      "loss": 0.3063,
      "step": 42310
    },
    {
      "epoch": 112.85333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004961690941301056,
      "loss": 0.3102,
      "step": 42320
    },
    {
      "epoch": 112.88,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000496167266470893,
      "loss": 0.3101,
      "step": 42330
    },
    {
      "epoch": 112.90666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004961654383791798,
      "loss": 0.3114,
      "step": 42340
    },
    {
      "epoch": 112.93333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004961636098549689,
      "loss": 0.3119,
      "step": 42350
    },
    {
      "epoch": 112.96,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004961617808982639,
      "loss": 0.3124,
      "step": 42360
    },
    {
      "epoch": 112.98666666666666,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004961599515090679,
      "loss": 0.3244,
      "step": 42370
    },
    {
      "epoch": 113.0,
      "eval_loss": 0.39934012293815613,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9562,
      "eval_samples_per_second": 1.338,
      "eval_steps_per_second": 0.084,
      "step": 42375
    },
    {
      "epoch": 113.01333333333334,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004961581216873841,
      "loss": 0.314,
      "step": 42380
    },
    {
      "epoch": 113.04,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004961562914332158,
      "loss": 0.3407,
      "step": 42390
    },
    {
      "epoch": 113.06666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004961544607465659,
      "loss": 0.3252,
      "step": 42400
    },
    {
      "epoch": 113.09333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000496152629627438,
      "loss": 0.3225,
      "step": 42410
    },
    {
      "epoch": 113.12,
      "grad_norm": 0.25,
      "learning_rate": 0.0004961507980758351,
      "loss": 0.3193,
      "step": 42420
    },
    {
      "epoch": 113.14666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004961489660917605,
      "loss": 0.3195,
      "step": 42430
    },
    {
      "epoch": 113.17333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004961471336752173,
      "loss": 0.32,
      "step": 42440
    },
    {
      "epoch": 113.2,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004961453008262089,
      "loss": 0.3118,
      "step": 42450
    },
    {
      "epoch": 113.22666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004961434675447385,
      "loss": 0.3073,
      "step": 42460
    },
    {
      "epoch": 113.25333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004961416338308091,
      "loss": 0.3069,
      "step": 42470
    },
    {
      "epoch": 113.28,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004961397996844242,
      "loss": 0.3252,
      "step": 42480
    },
    {
      "epoch": 113.30666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004961379651055868,
      "loss": 0.3068,
      "step": 42490
    },
    {
      "epoch": 113.33333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004961361300943003,
      "loss": 0.3214,
      "step": 42500
    },
    {
      "epoch": 113.36,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004961342946505678,
      "loss": 0.3129,
      "step": 42510
    },
    {
      "epoch": 113.38666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004961324587743926,
      "loss": 0.3106,
      "step": 42520
    },
    {
      "epoch": 113.41333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004961306224657779,
      "loss": 0.3163,
      "step": 42530
    },
    {
      "epoch": 113.44,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004961287857247269,
      "loss": 0.3232,
      "step": 42540
    },
    {
      "epoch": 113.46666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004961269485512428,
      "loss": 0.3272,
      "step": 42550
    },
    {
      "epoch": 113.49333333333334,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000496125110945329,
      "loss": 0.3165,
      "step": 42560
    },
    {
      "epoch": 113.52,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004961232729069886,
      "loss": 0.3205,
      "step": 42570
    },
    {
      "epoch": 113.54666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004961214344362247,
      "loss": 0.3109,
      "step": 42580
    },
    {
      "epoch": 113.57333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004961195955330408,
      "loss": 0.3135,
      "step": 42590
    },
    {
      "epoch": 113.6,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004961177561974399,
      "loss": 0.3096,
      "step": 42600
    },
    {
      "epoch": 113.62666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004961159164294253,
      "loss": 0.3052,
      "step": 42610
    },
    {
      "epoch": 113.65333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004961140762290003,
      "loss": 0.3184,
      "step": 42620
    },
    {
      "epoch": 113.68,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004961122355961682,
      "loss": 0.3071,
      "step": 42630
    },
    {
      "epoch": 113.70666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000496110394530932,
      "loss": 0.3081,
      "step": 42640
    },
    {
      "epoch": 113.73333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000496108553033295,
      "loss": 0.324,
      "step": 42650
    },
    {
      "epoch": 113.76,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004961067111032606,
      "loss": 0.3255,
      "step": 42660
    },
    {
      "epoch": 113.78666666666666,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004961048687408319,
      "loss": 0.3256,
      "step": 42670
    },
    {
      "epoch": 113.81333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004961030259460123,
      "loss": 0.3085,
      "step": 42680
    },
    {
      "epoch": 113.84,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004961011827188048,
      "loss": 0.3077,
      "step": 42690
    },
    {
      "epoch": 113.86666666666666,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004960993390592126,
      "loss": 0.3102,
      "step": 42700
    },
    {
      "epoch": 113.89333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004960974949672393,
      "loss": 0.3098,
      "step": 42710
    },
    {
      "epoch": 113.92,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004960956504428879,
      "loss": 0.3119,
      "step": 42720
    },
    {
      "epoch": 113.94666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004960938054861616,
      "loss": 0.3126,
      "step": 42730
    },
    {
      "epoch": 113.97333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004960919600970637,
      "loss": 0.3198,
      "step": 42740
    },
    {
      "epoch": 114.0,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004960901142755975,
      "loss": 0.3092,
      "step": 42750
    },
    {
      "epoch": 114.0,
      "eval_loss": 0.3987213969230652,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9024,
      "eval_samples_per_second": 1.468,
      "eval_steps_per_second": 0.092,
      "step": 42750
    },
    {
      "epoch": 114.02666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004960882680217662,
      "loss": 0.3311,
      "step": 42760
    },
    {
      "epoch": 114.05333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004960864213355731,
      "loss": 0.3377,
      "step": 42770
    },
    {
      "epoch": 114.08,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004960845742170212,
      "loss": 0.3218,
      "step": 42780
    },
    {
      "epoch": 114.10666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000496082726666114,
      "loss": 0.3226,
      "step": 42790
    },
    {
      "epoch": 114.13333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0004960808786828546,
      "loss": 0.3151,
      "step": 42800
    },
    {
      "epoch": 114.16,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004960790302672465,
      "loss": 0.322,
      "step": 42810
    },
    {
      "epoch": 114.18666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004960771814192926,
      "loss": 0.3163,
      "step": 42820
    },
    {
      "epoch": 114.21333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0004960753321389964,
      "loss": 0.3057,
      "step": 42830
    },
    {
      "epoch": 114.24,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004960734824263611,
      "loss": 0.3105,
      "step": 42840
    },
    {
      "epoch": 114.26666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004960716322813898,
      "loss": 0.3158,
      "step": 42850
    },
    {
      "epoch": 114.29333333333334,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004960697817040859,
      "loss": 0.3113,
      "step": 42860
    },
    {
      "epoch": 114.32,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004960679306944527,
      "loss": 0.3183,
      "step": 42870
    },
    {
      "epoch": 114.34666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.0004960660792524932,
      "loss": 0.3181,
      "step": 42880
    },
    {
      "epoch": 114.37333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000496064227378211,
      "loss": 0.3098,
      "step": 42890
    },
    {
      "epoch": 114.4,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004960623750716091,
      "loss": 0.3112,
      "step": 42900
    },
    {
      "epoch": 114.42666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004960605223326909,
      "loss": 0.318,
      "step": 42910
    },
    {
      "epoch": 114.45333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004960586691614594,
      "loss": 0.3266,
      "step": 42920
    },
    {
      "epoch": 114.48,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004960568155579181,
      "loss": 0.3224,
      "step": 42930
    },
    {
      "epoch": 114.50666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004960549615220703,
      "loss": 0.3188,
      "step": 42940
    },
    {
      "epoch": 114.53333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004960531070539191,
      "loss": 0.3138,
      "step": 42950
    },
    {
      "epoch": 114.56,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004960512521534678,
      "loss": 0.3111,
      "step": 42960
    },
    {
      "epoch": 114.58666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004960493968207197,
      "loss": 0.3138,
      "step": 42970
    },
    {
      "epoch": 114.61333333333333,
      "grad_norm": 0.1640625,
      "learning_rate": 0.000496047541055678,
      "loss": 0.3057,
      "step": 42980
    },
    {
      "epoch": 114.64,
      "grad_norm": 0.2109375,
      "learning_rate": 0.000496045684858346,
      "loss": 0.3073,
      "step": 42990
    },
    {
      "epoch": 114.66666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.000496043828228727,
      "loss": 0.3231,
      "step": 43000
    },
    {
      "epoch": 114.69333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0004960419711668242,
      "loss": 0.3022,
      "step": 43010
    },
    {
      "epoch": 114.72,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004960401136726407,
      "loss": 0.3185,
      "step": 43020
    },
    {
      "epoch": 114.74666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004960382557461802,
      "loss": 0.3193,
      "step": 43030
    },
    {
      "epoch": 114.77333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004960363973874456,
      "loss": 0.3314,
      "step": 43040
    },
    {
      "epoch": 114.8,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004960345385964402,
      "loss": 0.3174,
      "step": 43050
    },
    {
      "epoch": 114.82666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004960326793731674,
      "loss": 0.3052,
      "step": 43060
    },
    {
      "epoch": 114.85333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004960308197176304,
      "loss": 0.3095,
      "step": 43070
    },
    {
      "epoch": 114.88,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004960289596298324,
      "loss": 0.309,
      "step": 43080
    },
    {
      "epoch": 114.90666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004960270991097768,
      "loss": 0.3115,
      "step": 43090
    },
    {
      "epoch": 114.93333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004960252381574668,
      "loss": 0.3119,
      "step": 43100
    },
    {
      "epoch": 114.96,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004960233767729058,
      "loss": 0.3115,
      "step": 43110
    },
    {
      "epoch": 114.98666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004960215149560968,
      "loss": 0.3238,
      "step": 43120
    },
    {
      "epoch": 115.0,
      "eval_loss": 0.40038642287254333,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1292,
      "eval_samples_per_second": 1.438,
      "eval_steps_per_second": 0.09,
      "step": 43125
    },
    {
      "epoch": 115.01333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004960196527070431,
      "loss": 0.3138,
      "step": 43130
    },
    {
      "epoch": 115.04,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004960177900257483,
      "loss": 0.3406,
      "step": 43140
    },
    {
      "epoch": 115.06666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004960159269122154,
      "loss": 0.3248,
      "step": 43150
    },
    {
      "epoch": 115.09333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004960140633664477,
      "loss": 0.3223,
      "step": 43160
    },
    {
      "epoch": 115.12,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004960121993884486,
      "loss": 0.3184,
      "step": 43170
    },
    {
      "epoch": 115.14666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004960103349782212,
      "loss": 0.3194,
      "step": 43180
    },
    {
      "epoch": 115.17333333333333,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004960084701357689,
      "loss": 0.3195,
      "step": 43190
    },
    {
      "epoch": 115.2,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004960066048610949,
      "loss": 0.3123,
      "step": 43200
    },
    {
      "epoch": 115.22666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004960047391542026,
      "loss": 0.3069,
      "step": 43210
    },
    {
      "epoch": 115.25333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004960028730150951,
      "loss": 0.3069,
      "step": 43220
    },
    {
      "epoch": 115.28,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004960010064437758,
      "loss": 0.3255,
      "step": 43230
    },
    {
      "epoch": 115.30666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004959991394402479,
      "loss": 0.3068,
      "step": 43240
    },
    {
      "epoch": 115.33333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004959972720045147,
      "loss": 0.3208,
      "step": 43250
    },
    {
      "epoch": 115.36,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004959954041365796,
      "loss": 0.3129,
      "step": 43260
    },
    {
      "epoch": 115.38666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004959935358364458,
      "loss": 0.3094,
      "step": 43270
    },
    {
      "epoch": 115.41333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004959916671041165,
      "loss": 0.3154,
      "step": 43280
    },
    {
      "epoch": 115.44,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004959897979395951,
      "loss": 0.3228,
      "step": 43290
    },
    {
      "epoch": 115.46666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004959879283428849,
      "loss": 0.3277,
      "step": 43300
    },
    {
      "epoch": 115.49333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004959860583139891,
      "loss": 0.3156,
      "step": 43310
    },
    {
      "epoch": 115.52,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004959841878529108,
      "loss": 0.32,
      "step": 43320
    },
    {
      "epoch": 115.54666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004959823169596538,
      "loss": 0.3103,
      "step": 43330
    },
    {
      "epoch": 115.57333333333334,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000495980445634221,
      "loss": 0.3132,
      "step": 43340
    },
    {
      "epoch": 115.6,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004959785738766157,
      "loss": 0.3101,
      "step": 43350
    },
    {
      "epoch": 115.62666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004959767016868413,
      "loss": 0.3052,
      "step": 43360
    },
    {
      "epoch": 115.65333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004959748290649011,
      "loss": 0.3186,
      "step": 43370
    },
    {
      "epoch": 115.68,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004959729560107983,
      "loss": 0.3071,
      "step": 43380
    },
    {
      "epoch": 115.70666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004959710825245361,
      "loss": 0.3076,
      "step": 43390
    },
    {
      "epoch": 115.73333333333333,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004959692086061181,
      "loss": 0.3235,
      "step": 43400
    },
    {
      "epoch": 115.76,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004959673342555474,
      "loss": 0.3248,
      "step": 43410
    },
    {
      "epoch": 115.78666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004959654594728272,
      "loss": 0.326,
      "step": 43420
    },
    {
      "epoch": 115.81333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004959635842579611,
      "loss": 0.308,
      "step": 43430
    },
    {
      "epoch": 115.84,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000495961708610952,
      "loss": 0.3074,
      "step": 43440
    },
    {
      "epoch": 115.86666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004959598325318034,
      "loss": 0.3097,
      "step": 43450
    },
    {
      "epoch": 115.89333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004959579560205187,
      "loss": 0.3093,
      "step": 43460
    },
    {
      "epoch": 115.92,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004959560790771011,
      "loss": 0.3106,
      "step": 43470
    },
    {
      "epoch": 115.94666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004959542017015538,
      "loss": 0.3131,
      "step": 43480
    },
    {
      "epoch": 115.97333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004959523238938802,
      "loss": 0.3198,
      "step": 43490
    },
    {
      "epoch": 116.0,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004959504456540835,
      "loss": 0.3082,
      "step": 43500
    },
    {
      "epoch": 116.0,
      "eval_loss": 0.4005337953567505,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.791,
      "eval_samples_per_second": 1.483,
      "eval_steps_per_second": 0.093,
      "step": 43500
    },
    {
      "epoch": 116.02666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004959485669821672,
      "loss": 0.3314,
      "step": 43510
    },
    {
      "epoch": 116.05333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004959466878781345,
      "loss": 0.3369,
      "step": 43520
    },
    {
      "epoch": 116.08,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004959448083419886,
      "loss": 0.321,
      "step": 43530
    },
    {
      "epoch": 116.10666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004959429283737329,
      "loss": 0.3233,
      "step": 43540
    },
    {
      "epoch": 116.13333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004959410479733708,
      "loss": 0.3144,
      "step": 43550
    },
    {
      "epoch": 116.16,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004959391671409053,
      "loss": 0.3219,
      "step": 43560
    },
    {
      "epoch": 116.18666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00049593728587634,
      "loss": 0.316,
      "step": 43570
    },
    {
      "epoch": 116.21333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004959354041796781,
      "loss": 0.3047,
      "step": 43580
    },
    {
      "epoch": 116.24,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004959335220509229,
      "loss": 0.3089,
      "step": 43590
    },
    {
      "epoch": 116.26666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004959316394900778,
      "loss": 0.3152,
      "step": 43600
    },
    {
      "epoch": 116.29333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004959297564971458,
      "loss": 0.3112,
      "step": 43610
    },
    {
      "epoch": 116.32,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004959278730721307,
      "loss": 0.3179,
      "step": 43620
    },
    {
      "epoch": 116.34666666666666,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004959259892150354,
      "loss": 0.3173,
      "step": 43630
    },
    {
      "epoch": 116.37333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004959241049258634,
      "loss": 0.3096,
      "step": 43640
    },
    {
      "epoch": 116.4,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004959222202046179,
      "loss": 0.3112,
      "step": 43650
    },
    {
      "epoch": 116.42666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004959203350513023,
      "loss": 0.3177,
      "step": 43660
    },
    {
      "epoch": 116.45333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004959184494659199,
      "loss": 0.3264,
      "step": 43670
    },
    {
      "epoch": 116.48,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000495916563448474,
      "loss": 0.3219,
      "step": 43680
    },
    {
      "epoch": 116.50666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004959146769989678,
      "loss": 0.3191,
      "step": 43690
    },
    {
      "epoch": 116.53333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004959127901174048,
      "loss": 0.3134,
      "step": 43700
    },
    {
      "epoch": 116.56,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004959109028037883,
      "loss": 0.3106,
      "step": 43710
    },
    {
      "epoch": 116.58666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004959090150581215,
      "loss": 0.3134,
      "step": 43720
    },
    {
      "epoch": 116.61333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004959071268804078,
      "loss": 0.3055,
      "step": 43730
    },
    {
      "epoch": 116.64,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004959052382706504,
      "loss": 0.3074,
      "step": 43740
    },
    {
      "epoch": 116.66666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004959033492288529,
      "loss": 0.3225,
      "step": 43750
    },
    {
      "epoch": 116.69333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004959014597550182,
      "loss": 0.3016,
      "step": 43760
    },
    {
      "epoch": 116.72,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00049589956984915,
      "loss": 0.3177,
      "step": 43770
    },
    {
      "epoch": 116.74666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004958976795112514,
      "loss": 0.3188,
      "step": 43780
    },
    {
      "epoch": 116.77333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004958957887413258,
      "loss": 0.3305,
      "step": 43790
    },
    {
      "epoch": 116.8,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004958938975393766,
      "loss": 0.3166,
      "step": 43800
    },
    {
      "epoch": 116.82666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004958920059054069,
      "loss": 0.3057,
      "step": 43810
    },
    {
      "epoch": 116.85333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004958901138394202,
      "loss": 0.3095,
      "step": 43820
    },
    {
      "epoch": 116.88,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004958882213414198,
      "loss": 0.3082,
      "step": 43830
    },
    {
      "epoch": 116.90666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004958863284114089,
      "loss": 0.3105,
      "step": 43840
    },
    {
      "epoch": 116.93333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004958844350493911,
      "loss": 0.3109,
      "step": 43850
    },
    {
      "epoch": 116.96,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004958825412553694,
      "loss": 0.3114,
      "step": 43860
    },
    {
      "epoch": 116.98666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004958806470293474,
      "loss": 0.3234,
      "step": 43870
    },
    {
      "epoch": 117.0,
      "eval_loss": 0.39964839816093445,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6258,
      "eval_samples_per_second": 1.506,
      "eval_steps_per_second": 0.094,
      "step": 43875
    },
    {
      "epoch": 117.01333333333334,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004958787523713283,
      "loss": 0.3134,
      "step": 43880
    },
    {
      "epoch": 117.04,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004958768572813154,
      "loss": 0.3405,
      "step": 43890
    },
    {
      "epoch": 117.06666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004958749617593122,
      "loss": 0.325,
      "step": 43900
    },
    {
      "epoch": 117.09333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004958730658053217,
      "loss": 0.3223,
      "step": 43910
    },
    {
      "epoch": 117.12,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004958711694193475,
      "loss": 0.3179,
      "step": 43920
    },
    {
      "epoch": 117.14666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004958692726013929,
      "loss": 0.3188,
      "step": 43930
    },
    {
      "epoch": 117.17333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004958673753514612,
      "loss": 0.319,
      "step": 43940
    },
    {
      "epoch": 117.2,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004958654776695557,
      "loss": 0.3118,
      "step": 43950
    },
    {
      "epoch": 117.22666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004958635795556798,
      "loss": 0.3064,
      "step": 43960
    },
    {
      "epoch": 117.25333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004958616810098368,
      "loss": 0.3063,
      "step": 43970
    },
    {
      "epoch": 117.28,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004958597820320299,
      "loss": 0.3244,
      "step": 43980
    },
    {
      "epoch": 117.30666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004958578826222629,
      "loss": 0.3063,
      "step": 43990
    },
    {
      "epoch": 117.33333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004958559827805385,
      "loss": 0.3206,
      "step": 44000
    },
    {
      "epoch": 117.36,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004958540825068605,
      "loss": 0.3117,
      "step": 44010
    },
    {
      "epoch": 117.38666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.000495852181801232,
      "loss": 0.3096,
      "step": 44020
    },
    {
      "epoch": 117.41333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004958502806636564,
      "loss": 0.3152,
      "step": 44030
    },
    {
      "epoch": 117.44,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004958483790941372,
      "loss": 0.3223,
      "step": 44040
    },
    {
      "epoch": 117.46666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004958464770926775,
      "loss": 0.3262,
      "step": 44050
    },
    {
      "epoch": 117.49333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004958445746592807,
      "loss": 0.3159,
      "step": 44060
    },
    {
      "epoch": 117.52,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004958426717939504,
      "loss": 0.3197,
      "step": 44070
    },
    {
      "epoch": 117.54666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004958407684966895,
      "loss": 0.3102,
      "step": 44080
    },
    {
      "epoch": 117.57333333333334,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004958388647675017,
      "loss": 0.3136,
      "step": 44090
    },
    {
      "epoch": 117.6,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004958369606063902,
      "loss": 0.3089,
      "step": 44100
    },
    {
      "epoch": 117.62666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004958350560133584,
      "loss": 0.3046,
      "step": 44110
    },
    {
      "epoch": 117.65333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004958331509884095,
      "loss": 0.3181,
      "step": 44120
    },
    {
      "epoch": 117.68,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000495831245531547,
      "loss": 0.3065,
      "step": 44130
    },
    {
      "epoch": 117.70666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004958293396427743,
      "loss": 0.3069,
      "step": 44140
    },
    {
      "epoch": 117.73333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004958274333220946,
      "loss": 0.3235,
      "step": 44150
    },
    {
      "epoch": 117.76,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004958255265695113,
      "loss": 0.3244,
      "step": 44160
    },
    {
      "epoch": 117.78666666666666,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004958236193850277,
      "loss": 0.3249,
      "step": 44170
    },
    {
      "epoch": 117.81333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004958217117686473,
      "loss": 0.3078,
      "step": 44180
    },
    {
      "epoch": 117.84,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004958198037203733,
      "loss": 0.3071,
      "step": 44190
    },
    {
      "epoch": 117.86666666666666,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004958178952402092,
      "loss": 0.3088,
      "step": 44200
    },
    {
      "epoch": 117.89333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004958159863281582,
      "loss": 0.3092,
      "step": 44210
    },
    {
      "epoch": 117.92,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004958140769842238,
      "loss": 0.3112,
      "step": 44220
    },
    {
      "epoch": 117.94666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004958121672084091,
      "loss": 0.3119,
      "step": 44230
    },
    {
      "epoch": 117.97333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004958102570007178,
      "loss": 0.3196,
      "step": 44240
    },
    {
      "epoch": 118.0,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000495808346361153,
      "loss": 0.3081,
      "step": 44250
    },
    {
      "epoch": 118.0,
      "eval_loss": 0.3994916081428528,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.3217,
      "eval_samples_per_second": 1.299,
      "eval_steps_per_second": 0.081,
      "step": 44250
    },
    {
      "epoch": 118.02666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004958064352897181,
      "loss": 0.3306,
      "step": 44260
    },
    {
      "epoch": 118.05333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004958045237864166,
      "loss": 0.3371,
      "step": 44270
    },
    {
      "epoch": 118.08,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0004958026118512517,
      "loss": 0.3207,
      "step": 44280
    },
    {
      "epoch": 118.10666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004958006994842267,
      "loss": 0.3224,
      "step": 44290
    },
    {
      "epoch": 118.13333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004957987866853453,
      "loss": 0.3141,
      "step": 44300
    },
    {
      "epoch": 118.16,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004957968734546106,
      "loss": 0.3215,
      "step": 44310
    },
    {
      "epoch": 118.18666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004957949597920258,
      "loss": 0.3165,
      "step": 44320
    },
    {
      "epoch": 118.21333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004957930456975946,
      "loss": 0.3052,
      "step": 44330
    },
    {
      "epoch": 118.24,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0004957911311713202,
      "loss": 0.3091,
      "step": 44340
    },
    {
      "epoch": 118.26666666666667,
      "grad_norm": 0.59375,
      "learning_rate": 0.000495789216213206,
      "loss": 0.3152,
      "step": 44350
    },
    {
      "epoch": 118.29333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004957873008232554,
      "loss": 0.3105,
      "step": 44360
    },
    {
      "epoch": 118.32,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004957853850014717,
      "loss": 0.3176,
      "step": 44370
    },
    {
      "epoch": 118.34666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004957834687478582,
      "loss": 0.3168,
      "step": 44380
    },
    {
      "epoch": 118.37333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004957815520624184,
      "loss": 0.3089,
      "step": 44390
    },
    {
      "epoch": 118.4,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004957796349451557,
      "loss": 0.3105,
      "step": 44400
    },
    {
      "epoch": 118.42666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004957777173960733,
      "loss": 0.3176,
      "step": 44410
    },
    {
      "epoch": 118.45333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004957757994151746,
      "loss": 0.3256,
      "step": 44420
    },
    {
      "epoch": 118.48,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004957738810024632,
      "loss": 0.3212,
      "step": 44430
    },
    {
      "epoch": 118.50666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004957719621579421,
      "loss": 0.3184,
      "step": 44440
    },
    {
      "epoch": 118.53333333333333,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004957700428816149,
      "loss": 0.3133,
      "step": 44450
    },
    {
      "epoch": 118.56,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004957681231734849,
      "loss": 0.31,
      "step": 44460
    },
    {
      "epoch": 118.58666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004957662030335557,
      "loss": 0.3138,
      "step": 44470
    },
    {
      "epoch": 118.61333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004957642824618304,
      "loss": 0.305,
      "step": 44480
    },
    {
      "epoch": 118.64,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004957623614583124,
      "loss": 0.3067,
      "step": 44490
    },
    {
      "epoch": 118.66666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004957604400230052,
      "loss": 0.322,
      "step": 44500
    },
    {
      "epoch": 118.69333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000495758518155912,
      "loss": 0.3005,
      "step": 44510
    },
    {
      "epoch": 118.72,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004957565958570363,
      "loss": 0.3166,
      "step": 44520
    },
    {
      "epoch": 118.74666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004957546731263816,
      "loss": 0.3185,
      "step": 44530
    },
    {
      "epoch": 118.77333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004957527499639511,
      "loss": 0.3292,
      "step": 44540
    },
    {
      "epoch": 118.8,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0004957508263697481,
      "loss": 0.3163,
      "step": 44550
    },
    {
      "epoch": 118.82666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004957489023437763,
      "loss": 0.3048,
      "step": 44560
    },
    {
      "epoch": 118.85333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004957469778860388,
      "loss": 0.309,
      "step": 44570
    },
    {
      "epoch": 118.88,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004957450529965389,
      "loss": 0.3081,
      "step": 44580
    },
    {
      "epoch": 118.90666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004957431276752803,
      "loss": 0.3102,
      "step": 44590
    },
    {
      "epoch": 118.93333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004957412019222662,
      "loss": 0.3107,
      "step": 44600
    },
    {
      "epoch": 118.96,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004957392757375,
      "loss": 0.311,
      "step": 44610
    },
    {
      "epoch": 118.98666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004957373491209852,
      "loss": 0.3224,
      "step": 44620
    },
    {
      "epoch": 119.0,
      "eval_loss": 0.39924654364585876,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8152,
      "eval_samples_per_second": 1.479,
      "eval_steps_per_second": 0.092,
      "step": 44625
    },
    {
      "epoch": 119.01333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004957354220727249,
      "loss": 0.3132,
      "step": 44630
    },
    {
      "epoch": 119.04,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004957334945927227,
      "loss": 0.3396,
      "step": 44640
    },
    {
      "epoch": 119.06666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004957315666809821,
      "loss": 0.3238,
      "step": 44650
    },
    {
      "epoch": 119.09333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004957296383375062,
      "loss": 0.3213,
      "step": 44660
    },
    {
      "epoch": 119.12,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004957277095622985,
      "loss": 0.3176,
      "step": 44670
    },
    {
      "epoch": 119.14666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004957257803553625,
      "loss": 0.3188,
      "step": 44680
    },
    {
      "epoch": 119.17333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004957238507167014,
      "loss": 0.3192,
      "step": 44690
    },
    {
      "epoch": 119.2,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004957219206463188,
      "loss": 0.3116,
      "step": 44700
    },
    {
      "epoch": 119.22666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000495719990144218,
      "loss": 0.3055,
      "step": 44710
    },
    {
      "epoch": 119.25333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004957180592104023,
      "loss": 0.3054,
      "step": 44720
    },
    {
      "epoch": 119.28,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004957161278448753,
      "loss": 0.3239,
      "step": 44730
    },
    {
      "epoch": 119.30666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004957141960476401,
      "loss": 0.3059,
      "step": 44740
    },
    {
      "epoch": 119.33333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004957122638187004,
      "loss": 0.3206,
      "step": 44750
    },
    {
      "epoch": 119.36,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004957103311580593,
      "loss": 0.3117,
      "step": 44760
    },
    {
      "epoch": 119.38666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004957083980657204,
      "loss": 0.3084,
      "step": 44770
    },
    {
      "epoch": 119.41333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004957064645416871,
      "loss": 0.3148,
      "step": 44780
    },
    {
      "epoch": 119.44,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004957045305859628,
      "loss": 0.3218,
      "step": 44790
    },
    {
      "epoch": 119.46666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004957025961985507,
      "loss": 0.3254,
      "step": 44800
    },
    {
      "epoch": 119.49333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0004957006613794543,
      "loss": 0.315,
      "step": 44810
    },
    {
      "epoch": 119.52,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004956987261286772,
      "loss": 0.3188,
      "step": 44820
    },
    {
      "epoch": 119.54666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004956967904462225,
      "loss": 0.3091,
      "step": 44830
    },
    {
      "epoch": 119.57333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004956948543320939,
      "loss": 0.3118,
      "step": 44840
    },
    {
      "epoch": 119.6,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004956929177862945,
      "loss": 0.3086,
      "step": 44850
    },
    {
      "epoch": 119.62666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004956909808088278,
      "loss": 0.3043,
      "step": 44860
    },
    {
      "epoch": 119.65333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004956890433996974,
      "loss": 0.3173,
      "step": 44870
    },
    {
      "epoch": 119.68,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004956871055589064,
      "loss": 0.3061,
      "step": 44880
    },
    {
      "epoch": 119.70666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0004956851672864585,
      "loss": 0.3068,
      "step": 44890
    },
    {
      "epoch": 119.73333333333333,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004956832285823568,
      "loss": 0.3227,
      "step": 44900
    },
    {
      "epoch": 119.76,
      "grad_norm": 0.25,
      "learning_rate": 0.000495681289446605,
      "loss": 0.3244,
      "step": 44910
    },
    {
      "epoch": 119.78666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004956793498792064,
      "loss": 0.3245,
      "step": 44920
    },
    {
      "epoch": 119.81333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004956774098801642,
      "loss": 0.3073,
      "step": 44930
    },
    {
      "epoch": 119.84,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004956754694494822,
      "loss": 0.3067,
      "step": 44940
    },
    {
      "epoch": 119.86666666666666,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004956735285871634,
      "loss": 0.3081,
      "step": 44950
    },
    {
      "epoch": 119.89333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004956715872932115,
      "loss": 0.3087,
      "step": 44960
    },
    {
      "epoch": 119.92,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004956696455676299,
      "loss": 0.3109,
      "step": 44970
    },
    {
      "epoch": 119.94666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004956677034104218,
      "loss": 0.312,
      "step": 44980
    },
    {
      "epoch": 119.97333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004956657608215908,
      "loss": 0.3195,
      "step": 44990
    },
    {
      "epoch": 120.0,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004956638178011402,
      "loss": 0.3077,
      "step": 45000
    },
    {
      "epoch": 120.0,
      "eval_loss": 0.39817091822624207,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4022,
      "eval_samples_per_second": 1.403,
      "eval_steps_per_second": 0.088,
      "step": 45000
    },
    {
      "epoch": 120.02666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004956618743490735,
      "loss": 0.3305,
      "step": 45010
    },
    {
      "epoch": 120.05333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000495659930465394,
      "loss": 0.3367,
      "step": 45020
    },
    {
      "epoch": 120.08,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004956579861501054,
      "loss": 0.3204,
      "step": 45030
    },
    {
      "epoch": 120.10666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004956560414032107,
      "loss": 0.322,
      "step": 45040
    },
    {
      "epoch": 120.13333333333334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004956540962247137,
      "loss": 0.3137,
      "step": 45050
    },
    {
      "epoch": 120.16,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004956521506146176,
      "loss": 0.3206,
      "step": 45060
    },
    {
      "epoch": 120.18666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004956502045729259,
      "loss": 0.3156,
      "step": 45070
    },
    {
      "epoch": 120.21333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004956482580996418,
      "loss": 0.3044,
      "step": 45080
    },
    {
      "epoch": 120.24,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004956463111947691,
      "loss": 0.309,
      "step": 45090
    },
    {
      "epoch": 120.26666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.000495644363858311,
      "loss": 0.3146,
      "step": 45100
    },
    {
      "epoch": 120.29333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000495642416090271,
      "loss": 0.3109,
      "step": 45110
    },
    {
      "epoch": 120.32,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004956404678906523,
      "loss": 0.3174,
      "step": 45120
    },
    {
      "epoch": 120.34666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004956385192594585,
      "loss": 0.3164,
      "step": 45130
    },
    {
      "epoch": 120.37333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004956365701966932,
      "loss": 0.309,
      "step": 45140
    },
    {
      "epoch": 120.4,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004956346207023595,
      "loss": 0.3102,
      "step": 45150
    },
    {
      "epoch": 120.42666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000495632670776461,
      "loss": 0.3173,
      "step": 45160
    },
    {
      "epoch": 120.45333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004956307204190012,
      "loss": 0.3255,
      "step": 45170
    },
    {
      "epoch": 120.48,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004956287696299832,
      "loss": 0.3211,
      "step": 45180
    },
    {
      "epoch": 120.50666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004956268184094109,
      "loss": 0.3178,
      "step": 45190
    },
    {
      "epoch": 120.53333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004956248667572872,
      "loss": 0.3127,
      "step": 45200
    },
    {
      "epoch": 120.56,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000495622914673616,
      "loss": 0.3096,
      "step": 45210
    },
    {
      "epoch": 120.58666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004956209621584005,
      "loss": 0.3125,
      "step": 45220
    },
    {
      "epoch": 120.61333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000495619009211644,
      "loss": 0.3049,
      "step": 45230
    },
    {
      "epoch": 120.64,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004956170558333503,
      "loss": 0.3063,
      "step": 45240
    },
    {
      "epoch": 120.66666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004956151020235226,
      "loss": 0.3215,
      "step": 45250
    },
    {
      "epoch": 120.69333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004956131477821642,
      "loss": 0.3011,
      "step": 45260
    },
    {
      "epoch": 120.72,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004956111931092789,
      "loss": 0.3166,
      "step": 45270
    },
    {
      "epoch": 120.74666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004956092380048698,
      "loss": 0.3179,
      "step": 45280
    },
    {
      "epoch": 120.77333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004956072824689405,
      "loss": 0.329,
      "step": 45290
    },
    {
      "epoch": 120.8,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004956053265014943,
      "loss": 0.3158,
      "step": 45300
    },
    {
      "epoch": 120.82666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004956033701025349,
      "loss": 0.3048,
      "step": 45310
    },
    {
      "epoch": 120.85333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004956014132720656,
      "loss": 0.3084,
      "step": 45320
    },
    {
      "epoch": 120.88,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004955994560100896,
      "loss": 0.308,
      "step": 45330
    },
    {
      "epoch": 120.90666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004955974983166107,
      "loss": 0.3103,
      "step": 45340
    },
    {
      "epoch": 120.93333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004955955401916321,
      "loss": 0.3096,
      "step": 45350
    },
    {
      "epoch": 120.96,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004955935816351575,
      "loss": 0.3102,
      "step": 45360
    },
    {
      "epoch": 120.98666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00049559162264719,
      "loss": 0.3217,
      "step": 45370
    },
    {
      "epoch": 121.0,
      "eval_loss": 0.400937020778656,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5213,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.087,
      "step": 45375
    },
    {
      "epoch": 121.01333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004955896632277332,
      "loss": 0.3129,
      "step": 45380
    },
    {
      "epoch": 121.04,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004955877033767906,
      "loss": 0.3394,
      "step": 45390
    },
    {
      "epoch": 121.06666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004955857430943657,
      "loss": 0.3238,
      "step": 45400
    },
    {
      "epoch": 121.09333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004955837823804616,
      "loss": 0.3206,
      "step": 45410
    },
    {
      "epoch": 121.12,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004955818212350823,
      "loss": 0.3176,
      "step": 45420
    },
    {
      "epoch": 121.14666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004955798596582307,
      "loss": 0.3187,
      "step": 45430
    },
    {
      "epoch": 121.17333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0004955778976499105,
      "loss": 0.3179,
      "step": 45440
    },
    {
      "epoch": 121.2,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004955759352101252,
      "loss": 0.3108,
      "step": 45450
    },
    {
      "epoch": 121.22666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004955739723388782,
      "loss": 0.3056,
      "step": 45460
    },
    {
      "epoch": 121.25333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004955720090361727,
      "loss": 0.3056,
      "step": 45470
    },
    {
      "epoch": 121.28,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004955700453020127,
      "loss": 0.3233,
      "step": 45480
    },
    {
      "epoch": 121.30666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000495568081136401,
      "loss": 0.3057,
      "step": 45490
    },
    {
      "epoch": 121.33333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004955661165393416,
      "loss": 0.3201,
      "step": 45500
    },
    {
      "epoch": 121.36,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004955641515108377,
      "loss": 0.3113,
      "step": 45510
    },
    {
      "epoch": 121.38666666666667,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004955621860508926,
      "loss": 0.3088,
      "step": 45520
    },
    {
      "epoch": 121.41333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004955602201595101,
      "loss": 0.3144,
      "step": 45530
    },
    {
      "epoch": 121.44,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004955582538366934,
      "loss": 0.3217,
      "step": 45540
    },
    {
      "epoch": 121.46666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004955562870824461,
      "loss": 0.3254,
      "step": 45550
    },
    {
      "epoch": 121.49333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004955543198967716,
      "loss": 0.3142,
      "step": 45560
    },
    {
      "epoch": 121.52,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004955523522796733,
      "loss": 0.3193,
      "step": 45570
    },
    {
      "epoch": 121.54666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004955503842311547,
      "loss": 0.309,
      "step": 45580
    },
    {
      "epoch": 121.57333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004955484157512193,
      "loss": 0.3122,
      "step": 45590
    },
    {
      "epoch": 121.6,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004955464468398706,
      "loss": 0.3081,
      "step": 45600
    },
    {
      "epoch": 121.62666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004955444774971118,
      "loss": 0.3038,
      "step": 45610
    },
    {
      "epoch": 121.65333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004955425077229467,
      "loss": 0.3177,
      "step": 45620
    },
    {
      "epoch": 121.68,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004955405375173785,
      "loss": 0.3056,
      "step": 45630
    },
    {
      "epoch": 121.70666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004955385668804108,
      "loss": 0.3062,
      "step": 45640
    },
    {
      "epoch": 121.73333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000495536595812047,
      "loss": 0.3222,
      "step": 45650
    },
    {
      "epoch": 121.76,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004955346243122907,
      "loss": 0.3237,
      "step": 45660
    },
    {
      "epoch": 121.78666666666666,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004955326523811451,
      "loss": 0.3238,
      "step": 45670
    },
    {
      "epoch": 121.81333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000495530680018614,
      "loss": 0.3065,
      "step": 45680
    },
    {
      "epoch": 121.84,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004955287072247005,
      "loss": 0.3066,
      "step": 45690
    },
    {
      "epoch": 121.86666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004955267339994084,
      "loss": 0.308,
      "step": 45700
    },
    {
      "epoch": 121.89333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004955247603427408,
      "loss": 0.3081,
      "step": 45710
    },
    {
      "epoch": 121.92,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004955227862547016,
      "loss": 0.3096,
      "step": 45720
    },
    {
      "epoch": 121.94666666666667,
      "grad_norm": 0.240234375,
      "learning_rate": 0.000495520811735294,
      "loss": 0.3114,
      "step": 45730
    },
    {
      "epoch": 121.97333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004955188367845215,
      "loss": 0.3184,
      "step": 45740
    },
    {
      "epoch": 122.0,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004955168614023876,
      "loss": 0.3067,
      "step": 45750
    },
    {
      "epoch": 122.0,
      "eval_loss": 0.39838284254074097,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1089,
      "eval_samples_per_second": 1.44,
      "eval_steps_per_second": 0.09,
      "step": 45750
    },
    {
      "epoch": 122.02666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004955148855888957,
      "loss": 0.3296,
      "step": 45760
    },
    {
      "epoch": 122.05333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004955129093440494,
      "loss": 0.336,
      "step": 45770
    },
    {
      "epoch": 122.08,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000495510932667852,
      "loss": 0.3202,
      "step": 45780
    },
    {
      "epoch": 122.10666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004955089555603073,
      "loss": 0.3215,
      "step": 45790
    },
    {
      "epoch": 122.13333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004955069780214185,
      "loss": 0.3135,
      "step": 45800
    },
    {
      "epoch": 122.16,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004955050000511889,
      "loss": 0.3205,
      "step": 45810
    },
    {
      "epoch": 122.18666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004955030216496224,
      "loss": 0.3159,
      "step": 45820
    },
    {
      "epoch": 122.21333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004955010428167223,
      "loss": 0.3045,
      "step": 45830
    },
    {
      "epoch": 122.24,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004954990635524919,
      "loss": 0.3083,
      "step": 45840
    },
    {
      "epoch": 122.26666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000495497083856935,
      "loss": 0.3142,
      "step": 45850
    },
    {
      "epoch": 122.29333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004954951037300547,
      "loss": 0.3097,
      "step": 45860
    },
    {
      "epoch": 122.32,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004954931231718548,
      "loss": 0.3168,
      "step": 45870
    },
    {
      "epoch": 122.34666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004954911421823387,
      "loss": 0.3154,
      "step": 45880
    },
    {
      "epoch": 122.37333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004954891607615099,
      "loss": 0.3081,
      "step": 45890
    },
    {
      "epoch": 122.4,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004954871789093718,
      "loss": 0.3098,
      "step": 45900
    },
    {
      "epoch": 122.42666666666666,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004954851966259278,
      "loss": 0.3167,
      "step": 45910
    },
    {
      "epoch": 122.45333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004954832139111815,
      "loss": 0.3246,
      "step": 45920
    },
    {
      "epoch": 122.48,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004954812307651365,
      "loss": 0.3212,
      "step": 45930
    },
    {
      "epoch": 122.50666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004954792471877961,
      "loss": 0.3168,
      "step": 45940
    },
    {
      "epoch": 122.53333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004954772631791638,
      "loss": 0.3121,
      "step": 45950
    },
    {
      "epoch": 122.56,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004954752787392433,
      "loss": 0.3098,
      "step": 45960
    },
    {
      "epoch": 122.58666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004954732938680377,
      "loss": 0.3116,
      "step": 45970
    },
    {
      "epoch": 122.61333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004954713085655509,
      "loss": 0.3047,
      "step": 45980
    },
    {
      "epoch": 122.64,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004954693228317862,
      "loss": 0.3055,
      "step": 45990
    },
    {
      "epoch": 122.66666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000495467336666747,
      "loss": 0.3219,
      "step": 46000
    },
    {
      "epoch": 122.69333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004954653500704368,
      "loss": 0.3,
      "step": 46010
    },
    {
      "epoch": 122.72,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004954633630428593,
      "loss": 0.3161,
      "step": 46020
    },
    {
      "epoch": 122.74666666666667,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004954613755840178,
      "loss": 0.3178,
      "step": 46030
    },
    {
      "epoch": 122.77333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004954593876939158,
      "loss": 0.3292,
      "step": 46040
    },
    {
      "epoch": 122.8,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004954573993725569,
      "loss": 0.3154,
      "step": 46050
    },
    {
      "epoch": 122.82666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004954554106199444,
      "loss": 0.304,
      "step": 46060
    },
    {
      "epoch": 122.85333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004954534214360821,
      "loss": 0.3085,
      "step": 46070
    },
    {
      "epoch": 122.88,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004954514318209732,
      "loss": 0.3075,
      "step": 46080
    },
    {
      "epoch": 122.90666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0004954494417746214,
      "loss": 0.3096,
      "step": 46090
    },
    {
      "epoch": 122.93333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00049544745129703,
      "loss": 0.3104,
      "step": 46100
    },
    {
      "epoch": 122.96,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004954454603882028,
      "loss": 0.3094,
      "step": 46110
    },
    {
      "epoch": 122.98666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000495443469048143,
      "loss": 0.3218,
      "step": 46120
    },
    {
      "epoch": 123.0,
      "eval_loss": 0.4006408751010895,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.8192,
      "eval_samples_per_second": 1.248,
      "eval_steps_per_second": 0.078,
      "step": 46125
    },
    {
      "epoch": 123.01333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004954414772768542,
      "loss": 0.3123,
      "step": 46130
    },
    {
      "epoch": 123.04,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004954394850743399,
      "loss": 0.3393,
      "step": 46140
    },
    {
      "epoch": 123.06666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004954374924406036,
      "loss": 0.3235,
      "step": 46150
    },
    {
      "epoch": 123.09333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004954354993756489,
      "loss": 0.3207,
      "step": 46160
    },
    {
      "epoch": 123.12,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004954335058794792,
      "loss": 0.3165,
      "step": 46170
    },
    {
      "epoch": 123.14666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000495431511952098,
      "loss": 0.318,
      "step": 46180
    },
    {
      "epoch": 123.17333333333333,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004954295175935088,
      "loss": 0.3177,
      "step": 46190
    },
    {
      "epoch": 123.2,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.000495427522803715,
      "loss": 0.3112,
      "step": 46200
    },
    {
      "epoch": 123.22666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004954255275827203,
      "loss": 0.3053,
      "step": 46210
    },
    {
      "epoch": 123.25333333333333,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004954235319305282,
      "loss": 0.3048,
      "step": 46220
    },
    {
      "epoch": 123.28,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004954215358471421,
      "loss": 0.3236,
      "step": 46230
    },
    {
      "epoch": 123.30666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004954195393325656,
      "loss": 0.3046,
      "step": 46240
    },
    {
      "epoch": 123.33333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004954175423868021,
      "loss": 0.3195,
      "step": 46250
    },
    {
      "epoch": 123.36,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004954155450098551,
      "loss": 0.3107,
      "step": 46260
    },
    {
      "epoch": 123.38666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004954135472017282,
      "loss": 0.3078,
      "step": 46270
    },
    {
      "epoch": 123.41333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004954115489624249,
      "loss": 0.3137,
      "step": 46280
    },
    {
      "epoch": 123.44,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004954095502919487,
      "loss": 0.3212,
      "step": 46290
    },
    {
      "epoch": 123.46666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000495407551190303,
      "loss": 0.3255,
      "step": 46300
    },
    {
      "epoch": 123.49333333333334,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004954055516574915,
      "loss": 0.3145,
      "step": 46310
    },
    {
      "epoch": 123.52,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004954035516935176,
      "loss": 0.3182,
      "step": 46320
    },
    {
      "epoch": 123.54666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004954015512983849,
      "loss": 0.309,
      "step": 46330
    },
    {
      "epoch": 123.57333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004953995504720968,
      "loss": 0.3119,
      "step": 46340
    },
    {
      "epoch": 123.6,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004953975492146569,
      "loss": 0.3084,
      "step": 46350
    },
    {
      "epoch": 123.62666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004953955475260687,
      "loss": 0.3038,
      "step": 46360
    },
    {
      "epoch": 123.65333333333334,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004953935454063357,
      "loss": 0.3167,
      "step": 46370
    },
    {
      "epoch": 123.68,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004953915428554613,
      "loss": 0.3051,
      "step": 46380
    },
    {
      "epoch": 123.70666666666666,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004953895398734493,
      "loss": 0.3068,
      "step": 46390
    },
    {
      "epoch": 123.73333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000495387536460303,
      "loss": 0.3223,
      "step": 46400
    },
    {
      "epoch": 123.76,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004953855326160259,
      "loss": 0.3239,
      "step": 46410
    },
    {
      "epoch": 123.78666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004953835283406216,
      "loss": 0.3239,
      "step": 46420
    },
    {
      "epoch": 123.81333333333333,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004953815236340938,
      "loss": 0.3067,
      "step": 46430
    },
    {
      "epoch": 123.84,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004953795184964456,
      "loss": 0.3063,
      "step": 46440
    },
    {
      "epoch": 123.86666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000495377512927681,
      "loss": 0.3079,
      "step": 46450
    },
    {
      "epoch": 123.89333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004953755069278032,
      "loss": 0.3082,
      "step": 46460
    },
    {
      "epoch": 123.92,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004953735004968158,
      "loss": 0.3094,
      "step": 46470
    },
    {
      "epoch": 123.94666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004953714936347224,
      "loss": 0.311,
      "step": 46480
    },
    {
      "epoch": 123.97333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004953694863415264,
      "loss": 0.3187,
      "step": 46490
    },
    {
      "epoch": 124.0,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004953674786172313,
      "loss": 0.3071,
      "step": 46500
    },
    {
      "epoch": 124.0,
      "eval_loss": 0.3988487720489502,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.398,
      "eval_samples_per_second": 1.539,
      "eval_steps_per_second": 0.096,
      "step": 46500
    },
    {
      "epoch": 124.02666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004953654704618408,
      "loss": 0.3289,
      "step": 46510
    },
    {
      "epoch": 124.05333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004953634618753583,
      "loss": 0.3358,
      "step": 46520
    },
    {
      "epoch": 124.08,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004953614528577874,
      "loss": 0.3195,
      "step": 46530
    },
    {
      "epoch": 124.10666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004953594434091318,
      "loss": 0.3214,
      "step": 46540
    },
    {
      "epoch": 124.13333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004953574335293945,
      "loss": 0.3127,
      "step": 46550
    },
    {
      "epoch": 124.16,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004953554232185796,
      "loss": 0.3196,
      "step": 46560
    },
    {
      "epoch": 124.18666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004953534124766903,
      "loss": 0.3147,
      "step": 46570
    },
    {
      "epoch": 124.21333333333334,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004953514013037304,
      "loss": 0.3038,
      "step": 46580
    },
    {
      "epoch": 124.24,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000495349389699703,
      "loss": 0.3082,
      "step": 46590
    },
    {
      "epoch": 124.26666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004953473776646121,
      "loss": 0.3135,
      "step": 46600
    },
    {
      "epoch": 124.29333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000495345365198461,
      "loss": 0.3093,
      "step": 46610
    },
    {
      "epoch": 124.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004953433523012531,
      "loss": 0.3163,
      "step": 46620
    },
    {
      "epoch": 124.34666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004953413389729923,
      "loss": 0.3155,
      "step": 46630
    },
    {
      "epoch": 124.37333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000495339325213682,
      "loss": 0.308,
      "step": 46640
    },
    {
      "epoch": 124.4,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004953373110233255,
      "loss": 0.3091,
      "step": 46650
    },
    {
      "epoch": 124.42666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004953352964019265,
      "loss": 0.3168,
      "step": 46660
    },
    {
      "epoch": 124.45333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004953332813494888,
      "loss": 0.3246,
      "step": 46670
    },
    {
      "epoch": 124.48,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004953312658660155,
      "loss": 0.3202,
      "step": 46680
    },
    {
      "epoch": 124.50666666666666,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004953292499515103,
      "loss": 0.3173,
      "step": 46690
    },
    {
      "epoch": 124.53333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000495327233605977,
      "loss": 0.312,
      "step": 46700
    },
    {
      "epoch": 124.56,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004953252168294188,
      "loss": 0.308,
      "step": 46710
    },
    {
      "epoch": 124.58666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004953231996218393,
      "loss": 0.3118,
      "step": 46720
    },
    {
      "epoch": 124.61333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004953211819832421,
      "loss": 0.3039,
      "step": 46730
    },
    {
      "epoch": 124.64,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000495319163913631,
      "loss": 0.3054,
      "step": 46740
    },
    {
      "epoch": 124.66666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004953171454130091,
      "loss": 0.3213,
      "step": 46750
    },
    {
      "epoch": 124.69333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004953151264813802,
      "loss": 0.2997,
      "step": 46760
    },
    {
      "epoch": 124.72,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004953131071187477,
      "loss": 0.3154,
      "step": 46770
    },
    {
      "epoch": 124.74666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004953110873251155,
      "loss": 0.3172,
      "step": 46780
    },
    {
      "epoch": 124.77333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004953090671004867,
      "loss": 0.3281,
      "step": 46790
    },
    {
      "epoch": 124.8,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000495307046444865,
      "loss": 0.3146,
      "step": 46800
    },
    {
      "epoch": 124.82666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004953050253582542,
      "loss": 0.3039,
      "step": 46810
    },
    {
      "epoch": 124.85333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004953030038406574,
      "loss": 0.3079,
      "step": 46820
    },
    {
      "epoch": 124.88,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004953009818920786,
      "loss": 0.3069,
      "step": 46830
    },
    {
      "epoch": 124.90666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000495298959512521,
      "loss": 0.3095,
      "step": 46840
    },
    {
      "epoch": 124.93333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004952969367019884,
      "loss": 0.3097,
      "step": 46850
    },
    {
      "epoch": 124.96,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004952949134604842,
      "loss": 0.3092,
      "step": 46860
    },
    {
      "epoch": 124.98666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000495292889788012,
      "loss": 0.3216,
      "step": 46870
    },
    {
      "epoch": 125.0,
      "eval_loss": 0.3988818824291229,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.4224,
      "eval_samples_per_second": 1.288,
      "eval_steps_per_second": 0.08,
      "step": 46875
    },
    {
      "epoch": 125.01333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004952908656845755,
      "loss": 0.3123,
      "step": 46880
    },
    {
      "epoch": 125.04,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004952888411501779,
      "loss": 0.3386,
      "step": 46890
    },
    {
      "epoch": 125.06666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004952868161848232,
      "loss": 0.3236,
      "step": 46900
    },
    {
      "epoch": 125.09333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004952847907885147,
      "loss": 0.3202,
      "step": 46910
    },
    {
      "epoch": 125.12,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004952827649612558,
      "loss": 0.3166,
      "step": 46920
    },
    {
      "epoch": 125.14666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004952807387030504,
      "loss": 0.3169,
      "step": 46930
    },
    {
      "epoch": 125.17333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.000495278712013902,
      "loss": 0.3172,
      "step": 46940
    },
    {
      "epoch": 125.2,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004952766848938139,
      "loss": 0.3105,
      "step": 46950
    },
    {
      "epoch": 125.22666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004952746573427899,
      "loss": 0.3054,
      "step": 46960
    },
    {
      "epoch": 125.25333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004952726293608335,
      "loss": 0.3042,
      "step": 46970
    },
    {
      "epoch": 125.28,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004952706009479483,
      "loss": 0.3232,
      "step": 46980
    },
    {
      "epoch": 125.30666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004952685721041378,
      "loss": 0.3046,
      "step": 46990
    },
    {
      "epoch": 125.33333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004952665428294056,
      "loss": 0.3196,
      "step": 47000
    },
    {
      "epoch": 125.36,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004952645131237552,
      "loss": 0.3097,
      "step": 47010
    },
    {
      "epoch": 125.38666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004952624829871904,
      "loss": 0.3077,
      "step": 47020
    },
    {
      "epoch": 125.41333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004952604524197144,
      "loss": 0.3132,
      "step": 47030
    },
    {
      "epoch": 125.44,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000495258421421331,
      "loss": 0.3209,
      "step": 47040
    },
    {
      "epoch": 125.46666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004952563899920438,
      "loss": 0.3243,
      "step": 47050
    },
    {
      "epoch": 125.49333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004952543581318562,
      "loss": 0.3137,
      "step": 47060
    },
    {
      "epoch": 125.52,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004952523258407719,
      "loss": 0.3181,
      "step": 47070
    },
    {
      "epoch": 125.54666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004952502931187945,
      "loss": 0.3085,
      "step": 47080
    },
    {
      "epoch": 125.57333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004952482599659274,
      "loss": 0.311,
      "step": 47090
    },
    {
      "epoch": 125.6,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004952462263821744,
      "loss": 0.3082,
      "step": 47100
    },
    {
      "epoch": 125.62666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.0004952441923675388,
      "loss": 0.3038,
      "step": 47110
    },
    {
      "epoch": 125.65333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0004952421579220243,
      "loss": 0.3163,
      "step": 47120
    },
    {
      "epoch": 125.68,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0004952401230456348,
      "loss": 0.3055,
      "step": 47130
    },
    {
      "epoch": 125.70666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004952380877383732,
      "loss": 0.3066,
      "step": 47140
    },
    {
      "epoch": 125.73333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004952360520002437,
      "loss": 0.3214,
      "step": 47150
    },
    {
      "epoch": 125.76,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004952340158312495,
      "loss": 0.3228,
      "step": 47160
    },
    {
      "epoch": 125.78666666666666,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004952319792313944,
      "loss": 0.3242,
      "step": 47170
    },
    {
      "epoch": 125.81333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004952299422006818,
      "loss": 0.306,
      "step": 47180
    },
    {
      "epoch": 125.84,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004952279047391154,
      "loss": 0.3059,
      "step": 47190
    },
    {
      "epoch": 125.86666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004952258668466987,
      "loss": 0.308,
      "step": 47200
    },
    {
      "epoch": 125.89333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004952238285234354,
      "loss": 0.3079,
      "step": 47210
    },
    {
      "epoch": 125.92,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004952217897693289,
      "loss": 0.3093,
      "step": 47220
    },
    {
      "epoch": 125.94666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004952197505843829,
      "loss": 0.3111,
      "step": 47230
    },
    {
      "epoch": 125.97333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004952177109686011,
      "loss": 0.3182,
      "step": 47240
    },
    {
      "epoch": 126.0,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004952156709219868,
      "loss": 0.3072,
      "step": 47250
    },
    {
      "epoch": 126.0,
      "eval_loss": 0.3995479643344879,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.3936,
      "eval_samples_per_second": 1.291,
      "eval_steps_per_second": 0.081,
      "step": 47250
    },
    {
      "epoch": 126.02666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004952136304445438,
      "loss": 0.329,
      "step": 47260
    },
    {
      "epoch": 126.05333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004952115895362757,
      "loss": 0.3357,
      "step": 47270
    },
    {
      "epoch": 126.08,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004952095481971859,
      "loss": 0.3198,
      "step": 47280
    },
    {
      "epoch": 126.10666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000495207506427278,
      "loss": 0.3216,
      "step": 47290
    },
    {
      "epoch": 126.13333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004952054642265559,
      "loss": 0.3127,
      "step": 47300
    },
    {
      "epoch": 126.16,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004952034215950228,
      "loss": 0.3198,
      "step": 47310
    },
    {
      "epoch": 126.18666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004952013785326825,
      "loss": 0.3145,
      "step": 47320
    },
    {
      "epoch": 126.21333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004951993350395386,
      "loss": 0.3034,
      "step": 47330
    },
    {
      "epoch": 126.24,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004951972911155947,
      "loss": 0.3078,
      "step": 47340
    },
    {
      "epoch": 126.26666666666667,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004951952467608542,
      "loss": 0.3134,
      "step": 47350
    },
    {
      "epoch": 126.29333333333334,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004951932019753208,
      "loss": 0.3092,
      "step": 47360
    },
    {
      "epoch": 126.32,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004951911567589982,
      "loss": 0.3161,
      "step": 47370
    },
    {
      "epoch": 126.34666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004951891111118898,
      "loss": 0.3153,
      "step": 47380
    },
    {
      "epoch": 126.37333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004951870650339994,
      "loss": 0.3076,
      "step": 47390
    },
    {
      "epoch": 126.4,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004951850185253304,
      "loss": 0.3087,
      "step": 47400
    },
    {
      "epoch": 126.42666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004951829715858865,
      "loss": 0.3159,
      "step": 47410
    },
    {
      "epoch": 126.45333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004951809242156715,
      "loss": 0.3246,
      "step": 47420
    },
    {
      "epoch": 126.48,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004951788764146885,
      "loss": 0.3201,
      "step": 47430
    },
    {
      "epoch": 126.50666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004951768281829416,
      "loss": 0.3166,
      "step": 47440
    },
    {
      "epoch": 126.53333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000495174779520434,
      "loss": 0.3119,
      "step": 47450
    },
    {
      "epoch": 126.56,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004951727304271696,
      "loss": 0.3086,
      "step": 47460
    },
    {
      "epoch": 126.58666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004951706809031518,
      "loss": 0.3123,
      "step": 47470
    },
    {
      "epoch": 126.61333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004951686309483843,
      "loss": 0.3037,
      "step": 47480
    },
    {
      "epoch": 126.64,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004951665805628707,
      "loss": 0.3055,
      "step": 47490
    },
    {
      "epoch": 126.66666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004951645297466145,
      "loss": 0.3214,
      "step": 47500
    },
    {
      "epoch": 126.69333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004951624784996194,
      "loss": 0.2997,
      "step": 47510
    },
    {
      "epoch": 126.72,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0004951604268218892,
      "loss": 0.3152,
      "step": 47520
    },
    {
      "epoch": 126.74666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004951583747134272,
      "loss": 0.3175,
      "step": 47530
    },
    {
      "epoch": 126.77333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0004951563221742369,
      "loss": 0.3287,
      "step": 47540
    },
    {
      "epoch": 126.8,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0004951542692043223,
      "loss": 0.3144,
      "step": 47550
    },
    {
      "epoch": 126.82666666666667,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004951522158036868,
      "loss": 0.3032,
      "step": 47560
    },
    {
      "epoch": 126.85333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000495150161972334,
      "loss": 0.3073,
      "step": 47570
    },
    {
      "epoch": 126.88,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004951481077102675,
      "loss": 0.3065,
      "step": 47580
    },
    {
      "epoch": 126.90666666666667,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004951460530174909,
      "loss": 0.3085,
      "step": 47590
    },
    {
      "epoch": 126.93333333333334,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000495143997894008,
      "loss": 0.3089,
      "step": 47600
    },
    {
      "epoch": 126.96,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004951419423398221,
      "loss": 0.3089,
      "step": 47610
    },
    {
      "epoch": 126.98666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004951398863549371,
      "loss": 0.321,
      "step": 47620
    },
    {
      "epoch": 127.0,
      "eval_loss": 0.398946076631546,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.8528,
      "eval_samples_per_second": 1.35,
      "eval_steps_per_second": 0.084,
      "step": 47625
    },
    {
      "epoch": 127.01333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004951378299393564,
      "loss": 0.3111,
      "step": 47630
    },
    {
      "epoch": 127.04,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004951357730930838,
      "loss": 0.3386,
      "step": 47640
    },
    {
      "epoch": 127.06666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004951337158161227,
      "loss": 0.323,
      "step": 47650
    },
    {
      "epoch": 127.09333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004951316581084768,
      "loss": 0.3203,
      "step": 47660
    },
    {
      "epoch": 127.12,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004951295999701498,
      "loss": 0.3156,
      "step": 47670
    },
    {
      "epoch": 127.14666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004951275414011452,
      "loss": 0.317,
      "step": 47680
    },
    {
      "epoch": 127.17333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004951254824014668,
      "loss": 0.3173,
      "step": 47690
    },
    {
      "epoch": 127.2,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000495123422971118,
      "loss": 0.3092,
      "step": 47700
    },
    {
      "epoch": 127.22666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0004951213631101025,
      "loss": 0.3043,
      "step": 47710
    },
    {
      "epoch": 127.25333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.000495119302818424,
      "loss": 0.3048,
      "step": 47720
    },
    {
      "epoch": 127.28,
      "grad_norm": 0.443359375,
      "learning_rate": 0.000495117242096086,
      "loss": 0.3226,
      "step": 47730
    },
    {
      "epoch": 127.30666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0004951151809430922,
      "loss": 0.3046,
      "step": 47740
    },
    {
      "epoch": 127.33333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004951131193594461,
      "loss": 0.3187,
      "step": 47750
    },
    {
      "epoch": 127.36,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004951110573451515,
      "loss": 0.3108,
      "step": 47760
    },
    {
      "epoch": 127.38666666666667,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004951089949002119,
      "loss": 0.3074,
      "step": 47770
    },
    {
      "epoch": 127.41333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.000495106932024631,
      "loss": 0.313,
      "step": 47780
    },
    {
      "epoch": 127.44,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004951048687184123,
      "loss": 0.3197,
      "step": 47790
    },
    {
      "epoch": 127.46666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004951028049815596,
      "loss": 0.3247,
      "step": 47800
    },
    {
      "epoch": 127.49333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004951007408140764,
      "loss": 0.3137,
      "step": 47810
    },
    {
      "epoch": 127.52,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004950986762159663,
      "loss": 0.3176,
      "step": 47820
    },
    {
      "epoch": 127.54666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004950966111872331,
      "loss": 0.3078,
      "step": 47830
    },
    {
      "epoch": 127.57333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004950945457278802,
      "loss": 0.3111,
      "step": 47840
    },
    {
      "epoch": 127.6,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004950924798379114,
      "loss": 0.3068,
      "step": 47850
    },
    {
      "epoch": 127.62666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004950904135173303,
      "loss": 0.3026,
      "step": 47860
    },
    {
      "epoch": 127.65333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004950883467661404,
      "loss": 0.3159,
      "step": 47870
    },
    {
      "epoch": 127.68,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004950862795843455,
      "loss": 0.3045,
      "step": 47880
    },
    {
      "epoch": 127.70666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004950842119719492,
      "loss": 0.3054,
      "step": 47890
    },
    {
      "epoch": 127.73333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004950821439289551,
      "loss": 0.3212,
      "step": 47900
    },
    {
      "epoch": 127.76,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004950800754553668,
      "loss": 0.3221,
      "step": 47910
    },
    {
      "epoch": 127.78666666666666,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000495078006551188,
      "loss": 0.3224,
      "step": 47920
    },
    {
      "epoch": 127.81333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004950759372164223,
      "loss": 0.3053,
      "step": 47930
    },
    {
      "epoch": 127.84,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004950738674510733,
      "loss": 0.3042,
      "step": 47940
    },
    {
      "epoch": 127.86666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004950717972551447,
      "loss": 0.3072,
      "step": 47950
    },
    {
      "epoch": 127.89333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004950697266286402,
      "loss": 0.3071,
      "step": 47960
    },
    {
      "epoch": 127.92,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004950676555715631,
      "loss": 0.3087,
      "step": 47970
    },
    {
      "epoch": 127.94666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004950655840839175,
      "loss": 0.3098,
      "step": 47980
    },
    {
      "epoch": 127.97333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004950635121657068,
      "loss": 0.3172,
      "step": 47990
    },
    {
      "epoch": 128.0,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004950614398169346,
      "loss": 0.3063,
      "step": 48000
    },
    {
      "epoch": 128.0,
      "eval_loss": 0.39913466572761536,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2794,
      "eval_samples_per_second": 1.419,
      "eval_steps_per_second": 0.089,
      "step": 48000
    },
    {
      "epoch": 128.02666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004950593670376047,
      "loss": 0.3288,
      "step": 48010
    },
    {
      "epoch": 128.05333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004950572938277205,
      "loss": 0.3347,
      "step": 48020
    },
    {
      "epoch": 128.08,
      "grad_norm": 0.236328125,
      "learning_rate": 0.000495055220187286,
      "loss": 0.319,
      "step": 48030
    },
    {
      "epoch": 128.10666666666665,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004950531461163046,
      "loss": 0.3208,
      "step": 48040
    },
    {
      "epoch": 128.13333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004950510716147798,
      "loss": 0.3121,
      "step": 48050
    },
    {
      "epoch": 128.16,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004950489966827156,
      "loss": 0.3192,
      "step": 48060
    },
    {
      "epoch": 128.18666666666667,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004950469213201154,
      "loss": 0.314,
      "step": 48070
    },
    {
      "epoch": 128.21333333333334,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004950448455269829,
      "loss": 0.3029,
      "step": 48080
    },
    {
      "epoch": 128.24,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004950427693033218,
      "loss": 0.3073,
      "step": 48090
    },
    {
      "epoch": 128.26666666666668,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004950406926491357,
      "loss": 0.3131,
      "step": 48100
    },
    {
      "epoch": 128.29333333333332,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004950386155644283,
      "loss": 0.309,
      "step": 48110
    },
    {
      "epoch": 128.32,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004950365380492032,
      "loss": 0.3147,
      "step": 48120
    },
    {
      "epoch": 128.34666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000495034460103464,
      "loss": 0.3146,
      "step": 48130
    },
    {
      "epoch": 128.37333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004950323817272145,
      "loss": 0.3065,
      "step": 48140
    },
    {
      "epoch": 128.4,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004950303029204582,
      "loss": 0.3087,
      "step": 48150
    },
    {
      "epoch": 128.42666666666668,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004950282236831988,
      "loss": 0.3151,
      "step": 48160
    },
    {
      "epoch": 128.45333333333335,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00049502614401544,
      "loss": 0.3238,
      "step": 48170
    },
    {
      "epoch": 128.48,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004950240639171854,
      "loss": 0.3196,
      "step": 48180
    },
    {
      "epoch": 128.50666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004950219833884387,
      "loss": 0.3167,
      "step": 48190
    },
    {
      "epoch": 128.53333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004950199024292035,
      "loss": 0.3113,
      "step": 48200
    },
    {
      "epoch": 128.56,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004950178210394835,
      "loss": 0.3075,
      "step": 48210
    },
    {
      "epoch": 128.58666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004950157392192825,
      "loss": 0.3112,
      "step": 48220
    },
    {
      "epoch": 128.61333333333334,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004950136569686037,
      "loss": 0.3026,
      "step": 48230
    },
    {
      "epoch": 128.64,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004950115742874513,
      "loss": 0.3043,
      "step": 48240
    },
    {
      "epoch": 128.66666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004950094911758286,
      "loss": 0.3197,
      "step": 48250
    },
    {
      "epoch": 128.69333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004950074076337395,
      "loss": 0.2989,
      "step": 48260
    },
    {
      "epoch": 128.72,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004950053236611874,
      "loss": 0.3152,
      "step": 48270
    },
    {
      "epoch": 128.74666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004950032392581762,
      "loss": 0.3166,
      "step": 48280
    },
    {
      "epoch": 128.77333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004950011544247094,
      "loss": 0.3278,
      "step": 48290
    },
    {
      "epoch": 128.8,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004949990691607908,
      "loss": 0.3139,
      "step": 48300
    },
    {
      "epoch": 128.82666666666665,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000494996983466424,
      "loss": 0.303,
      "step": 48310
    },
    {
      "epoch": 128.85333333333332,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004949948973416125,
      "loss": 0.3074,
      "step": 48320
    },
    {
      "epoch": 128.88,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004949928107863602,
      "loss": 0.3061,
      "step": 48330
    },
    {
      "epoch": 128.90666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004949907238006708,
      "loss": 0.3086,
      "step": 48340
    },
    {
      "epoch": 128.93333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004949886363845477,
      "loss": 0.3089,
      "step": 48350
    },
    {
      "epoch": 128.96,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004949865485379949,
      "loss": 0.309,
      "step": 48360
    },
    {
      "epoch": 128.98666666666668,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004949844602610158,
      "loss": 0.3208,
      "step": 48370
    },
    {
      "epoch": 129.0,
      "eval_loss": 0.40008044242858887,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.6452,
      "eval_samples_per_second": 1.374,
      "eval_steps_per_second": 0.086,
      "step": 48375
    },
    {
      "epoch": 129.01333333333332,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000494982371553614,
      "loss": 0.3119,
      "step": 48380
    },
    {
      "epoch": 129.04,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004949802824157936,
      "loss": 0.3379,
      "step": 48390
    },
    {
      "epoch": 129.06666666666666,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004949781928475578,
      "loss": 0.3226,
      "step": 48400
    },
    {
      "epoch": 129.09333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004949761028489104,
      "loss": 0.3186,
      "step": 48410
    },
    {
      "epoch": 129.12,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004949740124198553,
      "loss": 0.3157,
      "step": 48420
    },
    {
      "epoch": 129.14666666666668,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000494971921560396,
      "loss": 0.3163,
      "step": 48430
    },
    {
      "epoch": 129.17333333333335,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004949698302705362,
      "loss": 0.3158,
      "step": 48440
    },
    {
      "epoch": 129.2,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004949677385502795,
      "loss": 0.309,
      "step": 48450
    },
    {
      "epoch": 129.22666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004949656463996297,
      "loss": 0.3042,
      "step": 48460
    },
    {
      "epoch": 129.25333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004949635538185903,
      "loss": 0.3039,
      "step": 48470
    },
    {
      "epoch": 129.28,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004949614608071652,
      "loss": 0.3218,
      "step": 48480
    },
    {
      "epoch": 129.30666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000494959367365358,
      "loss": 0.3043,
      "step": 48490
    },
    {
      "epoch": 129.33333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004949572734931723,
      "loss": 0.3187,
      "step": 48500
    },
    {
      "epoch": 129.36,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004949551791906117,
      "loss": 0.3097,
      "step": 48510
    },
    {
      "epoch": 129.38666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004949530844576801,
      "loss": 0.3071,
      "step": 48520
    },
    {
      "epoch": 129.41333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004949509892943812,
      "loss": 0.3128,
      "step": 48530
    },
    {
      "epoch": 129.44,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004949488937007184,
      "loss": 0.3197,
      "step": 48540
    },
    {
      "epoch": 129.46666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004949467976766955,
      "loss": 0.324,
      "step": 48550
    },
    {
      "epoch": 129.49333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004949447012223164,
      "loss": 0.3135,
      "step": 48560
    },
    {
      "epoch": 129.52,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004949426043375846,
      "loss": 0.3172,
      "step": 48570
    },
    {
      "epoch": 129.54666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004949405070225037,
      "loss": 0.3076,
      "step": 48580
    },
    {
      "epoch": 129.57333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004949384092770776,
      "loss": 0.3112,
      "step": 48590
    },
    {
      "epoch": 129.6,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004949363111013097,
      "loss": 0.3077,
      "step": 48600
    },
    {
      "epoch": 129.62666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.000494934212495204,
      "loss": 0.3027,
      "step": 48610
    },
    {
      "epoch": 129.65333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004949321134587639,
      "loss": 0.3154,
      "step": 48620
    },
    {
      "epoch": 129.68,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004949300139919933,
      "loss": 0.3038,
      "step": 48630
    },
    {
      "epoch": 129.70666666666668,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000494927914094896,
      "loss": 0.305,
      "step": 48640
    },
    {
      "epoch": 129.73333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004949258137674752,
      "loss": 0.3206,
      "step": 48650
    },
    {
      "epoch": 129.76,
      "grad_norm": 0.216796875,
      "learning_rate": 0.000494923713009735,
      "loss": 0.3222,
      "step": 48660
    },
    {
      "epoch": 129.78666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004949216118216791,
      "loss": 0.3229,
      "step": 48670
    },
    {
      "epoch": 129.81333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004949195102033109,
      "loss": 0.3049,
      "step": 48680
    },
    {
      "epoch": 129.84,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004949174081546343,
      "loss": 0.305,
      "step": 48690
    },
    {
      "epoch": 129.86666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004949153056756532,
      "loss": 0.3061,
      "step": 48700
    },
    {
      "epoch": 129.89333333333335,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004949132027663708,
      "loss": 0.3065,
      "step": 48710
    },
    {
      "epoch": 129.92,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004949110994267911,
      "loss": 0.308,
      "step": 48720
    },
    {
      "epoch": 129.94666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004949089956569179,
      "loss": 0.3095,
      "step": 48730
    },
    {
      "epoch": 129.97333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004949068914567545,
      "loss": 0.3172,
      "step": 48740
    },
    {
      "epoch": 130.0,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004949047868263051,
      "loss": 0.3061,
      "step": 48750
    },
    {
      "epoch": 130.0,
      "eval_loss": 0.4006252884864807,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.7299,
      "eval_samples_per_second": 1.165,
      "eval_steps_per_second": 0.073,
      "step": 48750
    },
    {
      "epoch": 130.02666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004949026817655729,
      "loss": 0.3285,
      "step": 48760
    },
    {
      "epoch": 130.05333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.000494900576274562,
      "loss": 0.3347,
      "step": 48770
    },
    {
      "epoch": 130.08,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004948984703532759,
      "loss": 0.3181,
      "step": 48780
    },
    {
      "epoch": 130.10666666666665,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004948963640017182,
      "loss": 0.32,
      "step": 48790
    },
    {
      "epoch": 130.13333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004948942572198929,
      "loss": 0.3115,
      "step": 48800
    },
    {
      "epoch": 130.16,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004948921500078035,
      "loss": 0.3192,
      "step": 48810
    },
    {
      "epoch": 130.18666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004948900423654538,
      "loss": 0.3136,
      "step": 48820
    },
    {
      "epoch": 130.21333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004948879342928473,
      "loss": 0.3023,
      "step": 48830
    },
    {
      "epoch": 130.24,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000494885825789988,
      "loss": 0.3069,
      "step": 48840
    },
    {
      "epoch": 130.26666666666668,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004948837168568793,
      "loss": 0.3126,
      "step": 48850
    },
    {
      "epoch": 130.29333333333332,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004948816074935252,
      "loss": 0.3091,
      "step": 48860
    },
    {
      "epoch": 130.32,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004948794976999292,
      "loss": 0.3153,
      "step": 48870
    },
    {
      "epoch": 130.34666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004948773874760951,
      "loss": 0.3151,
      "step": 48880
    },
    {
      "epoch": 130.37333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004948752768220264,
      "loss": 0.3072,
      "step": 48890
    },
    {
      "epoch": 130.4,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004948731657377272,
      "loss": 0.3084,
      "step": 48900
    },
    {
      "epoch": 130.42666666666668,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000494871054223201,
      "loss": 0.3156,
      "step": 48910
    },
    {
      "epoch": 130.45333333333335,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004948689422784514,
      "loss": 0.3239,
      "step": 48920
    },
    {
      "epoch": 130.48,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004948668299034823,
      "loss": 0.3198,
      "step": 48930
    },
    {
      "epoch": 130.50666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004948647170982973,
      "loss": 0.3156,
      "step": 48940
    },
    {
      "epoch": 130.53333333333333,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004948626038629,
      "loss": 0.3111,
      "step": 48950
    },
    {
      "epoch": 130.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004948604901972945,
      "loss": 0.3079,
      "step": 48960
    },
    {
      "epoch": 130.58666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004948583761014841,
      "loss": 0.3104,
      "step": 48970
    },
    {
      "epoch": 130.61333333333334,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0004948562615754727,
      "loss": 0.3028,
      "step": 48980
    },
    {
      "epoch": 130.64,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000494854146619264,
      "loss": 0.3041,
      "step": 48990
    },
    {
      "epoch": 130.66666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004948520312328617,
      "loss": 0.3204,
      "step": 49000
    },
    {
      "epoch": 130.69333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004948499154162696,
      "loss": 0.2989,
      "step": 49010
    },
    {
      "epoch": 130.72,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004948477991694913,
      "loss": 0.3142,
      "step": 49020
    },
    {
      "epoch": 130.74666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004948456824925306,
      "loss": 0.3165,
      "step": 49030
    },
    {
      "epoch": 130.77333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004948435653853911,
      "loss": 0.3274,
      "step": 49040
    },
    {
      "epoch": 130.8,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004948414478480766,
      "loss": 0.314,
      "step": 49050
    },
    {
      "epoch": 130.82666666666665,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004948393298805909,
      "loss": 0.3028,
      "step": 49060
    },
    {
      "epoch": 130.85333333333332,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004948372114829376,
      "loss": 0.3068,
      "step": 49070
    },
    {
      "epoch": 130.88,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004948350926551204,
      "loss": 0.3064,
      "step": 49080
    },
    {
      "epoch": 130.90666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004948329733971432,
      "loss": 0.308,
      "step": 49090
    },
    {
      "epoch": 130.93333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004948308537090095,
      "loss": 0.3085,
      "step": 49100
    },
    {
      "epoch": 130.96,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004948287335907233,
      "loss": 0.3085,
      "step": 49110
    },
    {
      "epoch": 130.98666666666668,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.000494826613042288,
      "loss": 0.3205,
      "step": 49120
    },
    {
      "epoch": 131.0,
      "eval_loss": 0.3985663652420044,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5896,
      "eval_samples_per_second": 1.511,
      "eval_steps_per_second": 0.094,
      "step": 49125
    },
    {
      "epoch": 131.01333333333332,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004948244920637076,
      "loss": 0.3105,
      "step": 49130
    },
    {
      "epoch": 131.04,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004948223706549857,
      "loss": 0.3379,
      "step": 49140
    },
    {
      "epoch": 131.06666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.000494820248816126,
      "loss": 0.3224,
      "step": 49150
    },
    {
      "epoch": 131.09333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004948181265471323,
      "loss": 0.3194,
      "step": 49160
    },
    {
      "epoch": 131.12,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004948160038480082,
      "loss": 0.3148,
      "step": 49170
    },
    {
      "epoch": 131.14666666666668,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004948138807187576,
      "loss": 0.3166,
      "step": 49180
    },
    {
      "epoch": 131.17333333333335,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004948117571593842,
      "loss": 0.3161,
      "step": 49190
    },
    {
      "epoch": 131.2,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004948096331698915,
      "loss": 0.3094,
      "step": 49200
    },
    {
      "epoch": 131.22666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004948075087502836,
      "loss": 0.304,
      "step": 49210
    },
    {
      "epoch": 131.25333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004948053839005641,
      "loss": 0.3031,
      "step": 49220
    },
    {
      "epoch": 131.28,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0004948032586207365,
      "loss": 0.3218,
      "step": 49230
    },
    {
      "epoch": 131.30666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004948011329108049,
      "loss": 0.3035,
      "step": 49240
    },
    {
      "epoch": 131.33333333333334,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004947990067707727,
      "loss": 0.3181,
      "step": 49250
    },
    {
      "epoch": 131.36,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004947968802006439,
      "loss": 0.3094,
      "step": 49260
    },
    {
      "epoch": 131.38666666666666,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000494794753200422,
      "loss": 0.3062,
      "step": 49270
    },
    {
      "epoch": 131.41333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004947926257701109,
      "loss": 0.3127,
      "step": 49280
    },
    {
      "epoch": 131.44,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004947904979097144,
      "loss": 0.3201,
      "step": 49290
    },
    {
      "epoch": 131.46666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004947883696192361,
      "loss": 0.3237,
      "step": 49300
    },
    {
      "epoch": 131.49333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004947862408986797,
      "loss": 0.3127,
      "step": 49310
    },
    {
      "epoch": 131.52,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000494784111748049,
      "loss": 0.3171,
      "step": 49320
    },
    {
      "epoch": 131.54666666666665,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004947819821673478,
      "loss": 0.308,
      "step": 49330
    },
    {
      "epoch": 131.57333333333332,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004947798521565799,
      "loss": 0.3102,
      "step": 49340
    },
    {
      "epoch": 131.6,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004947777217157489,
      "loss": 0.3067,
      "step": 49350
    },
    {
      "epoch": 131.62666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004947755908448584,
      "loss": 0.3019,
      "step": 49360
    },
    {
      "epoch": 131.65333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004947734595439125,
      "loss": 0.315,
      "step": 49370
    },
    {
      "epoch": 131.68,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004947713278129148,
      "loss": 0.3038,
      "step": 49380
    },
    {
      "epoch": 131.70666666666668,
      "grad_norm": 0.234375,
      "learning_rate": 0.000494769195651869,
      "loss": 0.3045,
      "step": 49390
    },
    {
      "epoch": 131.73333333333332,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004947670630607788,
      "loss": 0.3201,
      "step": 49400
    },
    {
      "epoch": 131.76,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000494764930039648,
      "loss": 0.3218,
      "step": 49410
    },
    {
      "epoch": 131.78666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004947627965884804,
      "loss": 0.3224,
      "step": 49420
    },
    {
      "epoch": 131.81333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004947606627072797,
      "loss": 0.305,
      "step": 49430
    },
    {
      "epoch": 131.84,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004947585283960497,
      "loss": 0.3049,
      "step": 49440
    },
    {
      "epoch": 131.86666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000494756393654794,
      "loss": 0.3064,
      "step": 49450
    },
    {
      "epoch": 131.89333333333335,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004947542584835165,
      "loss": 0.3066,
      "step": 49460
    },
    {
      "epoch": 131.92,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.000494752122882221,
      "loss": 0.3078,
      "step": 49470
    },
    {
      "epoch": 131.94666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004947499868509112,
      "loss": 0.3095,
      "step": 49480
    },
    {
      "epoch": 131.97333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004947478503895906,
      "loss": 0.3171,
      "step": 49490
    },
    {
      "epoch": 132.0,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004947457134982633,
      "loss": 0.3057,
      "step": 49500
    },
    {
      "epoch": 132.0,
      "eval_loss": 0.3994103670120239,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.842,
      "eval_samples_per_second": 1.476,
      "eval_steps_per_second": 0.092,
      "step": 49500
    },
    {
      "epoch": 132.02666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004947435761769328,
      "loss": 0.3273,
      "step": 49510
    },
    {
      "epoch": 132.05333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004947414384256032,
      "loss": 0.3348,
      "step": 49520
    },
    {
      "epoch": 132.08,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004947393002442778,
      "loss": 0.3177,
      "step": 49530
    },
    {
      "epoch": 132.10666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004947371616329607,
      "loss": 0.3205,
      "step": 49540
    },
    {
      "epoch": 132.13333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004947350225916556,
      "loss": 0.3112,
      "step": 49550
    },
    {
      "epoch": 132.16,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004947328831203661,
      "loss": 0.3187,
      "step": 49560
    },
    {
      "epoch": 132.18666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004947307432190962,
      "loss": 0.3138,
      "step": 49570
    },
    {
      "epoch": 132.21333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004947286028878493,
      "loss": 0.3029,
      "step": 49580
    },
    {
      "epoch": 132.24,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004947264621266295,
      "loss": 0.3059,
      "step": 49590
    },
    {
      "epoch": 132.26666666666668,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004947243209354405,
      "loss": 0.3122,
      "step": 49600
    },
    {
      "epoch": 132.29333333333332,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000494722179314286,
      "loss": 0.3085,
      "step": 49610
    },
    {
      "epoch": 132.32,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004947200372631697,
      "loss": 0.3146,
      "step": 49620
    },
    {
      "epoch": 132.34666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004947178947820954,
      "loss": 0.314,
      "step": 49630
    },
    {
      "epoch": 132.37333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.000494715751871067,
      "loss": 0.3063,
      "step": 49640
    },
    {
      "epoch": 132.4,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004947136085300881,
      "loss": 0.3083,
      "step": 49650
    },
    {
      "epoch": 132.42666666666668,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004947114647591626,
      "loss": 0.3146,
      "step": 49660
    },
    {
      "epoch": 132.45333333333335,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004947093205582941,
      "loss": 0.3233,
      "step": 49670
    },
    {
      "epoch": 132.48,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004947071759274865,
      "loss": 0.3188,
      "step": 49680
    },
    {
      "epoch": 132.50666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004947050308667435,
      "loss": 0.3152,
      "step": 49690
    },
    {
      "epoch": 132.53333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000494702885376069,
      "loss": 0.3107,
      "step": 49700
    },
    {
      "epoch": 132.56,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004947007394554665,
      "loss": 0.3073,
      "step": 49710
    },
    {
      "epoch": 132.58666666666667,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004946985931049402,
      "loss": 0.3103,
      "step": 49720
    },
    {
      "epoch": 132.61333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004946964463244934,
      "loss": 0.3027,
      "step": 49730
    },
    {
      "epoch": 132.64,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004946942991141301,
      "loss": 0.3038,
      "step": 49740
    },
    {
      "epoch": 132.66666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.000494692151473854,
      "loss": 0.3195,
      "step": 49750
    },
    {
      "epoch": 132.69333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000494690003403669,
      "loss": 0.2984,
      "step": 49760
    },
    {
      "epoch": 132.72,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000494687854903579,
      "loss": 0.3144,
      "step": 49770
    },
    {
      "epoch": 132.74666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004946857059735873,
      "loss": 0.3159,
      "step": 49780
    },
    {
      "epoch": 132.77333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000494683556613698,
      "loss": 0.3271,
      "step": 49790
    },
    {
      "epoch": 132.8,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004946814068239148,
      "loss": 0.3133,
      "step": 49800
    },
    {
      "epoch": 132.82666666666665,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004946792566042416,
      "loss": 0.3025,
      "step": 49810
    },
    {
      "epoch": 132.85333333333332,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004946771059546821,
      "loss": 0.3064,
      "step": 49820
    },
    {
      "epoch": 132.88,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004946749548752399,
      "loss": 0.3061,
      "step": 49830
    },
    {
      "epoch": 132.90666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004946728033659192,
      "loss": 0.3078,
      "step": 49840
    },
    {
      "epoch": 132.93333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004946706514267233,
      "loss": 0.3086,
      "step": 49850
    },
    {
      "epoch": 132.96,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004946684990576562,
      "loss": 0.3079,
      "step": 49860
    },
    {
      "epoch": 132.98666666666668,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004946663462587217,
      "loss": 0.3199,
      "step": 49870
    },
    {
      "epoch": 133.0,
      "eval_loss": 0.3993377685546875,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0237,
      "eval_samples_per_second": 1.451,
      "eval_steps_per_second": 0.091,
      "step": 49875
    },
    {
      "epoch": 133.01333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004946641930299237,
      "loss": 0.3112,
      "step": 49880
    },
    {
      "epoch": 133.04,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004946620393712658,
      "loss": 0.3372,
      "step": 49890
    },
    {
      "epoch": 133.06666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004946598852827518,
      "loss": 0.3221,
      "step": 49900
    },
    {
      "epoch": 133.09333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004946577307643854,
      "loss": 0.3189,
      "step": 49910
    },
    {
      "epoch": 133.12,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004946555758161707,
      "loss": 0.3154,
      "step": 49920
    },
    {
      "epoch": 133.14666666666668,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004946534204381111,
      "loss": 0.3159,
      "step": 49930
    },
    {
      "epoch": 133.17333333333335,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004946512646302107,
      "loss": 0.3154,
      "step": 49940
    },
    {
      "epoch": 133.2,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004946491083924732,
      "loss": 0.3089,
      "step": 49950
    },
    {
      "epoch": 133.22666666666666,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004946469517249023,
      "loss": 0.3033,
      "step": 49960
    },
    {
      "epoch": 133.25333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0004946447946275017,
      "loss": 0.3026,
      "step": 49970
    },
    {
      "epoch": 133.28,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0004946426371002755,
      "loss": 0.3214,
      "step": 49980
    },
    {
      "epoch": 133.30666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004946404791432273,
      "loss": 0.3032,
      "step": 49990
    },
    {
      "epoch": 133.33333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004946383207563609,
      "loss": 0.3174,
      "step": 50000
    },
    {
      "epoch": 133.36,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00049463616193968,
      "loss": 0.3089,
      "step": 50010
    },
    {
      "epoch": 133.38666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004946340026931886,
      "loss": 0.3059,
      "step": 50020
    },
    {
      "epoch": 133.41333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004946318430168904,
      "loss": 0.3123,
      "step": 50030
    },
    {
      "epoch": 133.44,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004946296829107891,
      "loss": 0.3196,
      "step": 50040
    },
    {
      "epoch": 133.46666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004946275223748887,
      "loss": 0.3233,
      "step": 50050
    },
    {
      "epoch": 133.49333333333334,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004946253614091928,
      "loss": 0.313,
      "step": 50060
    },
    {
      "epoch": 133.52,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004946232000137053,
      "loss": 0.3166,
      "step": 50070
    },
    {
      "epoch": 133.54666666666665,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00049462103818843,
      "loss": 0.308,
      "step": 50080
    },
    {
      "epoch": 133.57333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004946188759333705,
      "loss": 0.31,
      "step": 50090
    },
    {
      "epoch": 133.6,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000494616713248531,
      "loss": 0.3066,
      "step": 50100
    },
    {
      "epoch": 133.62666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004946145501339149,
      "loss": 0.3019,
      "step": 50110
    },
    {
      "epoch": 133.65333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004946123865895262,
      "loss": 0.3148,
      "step": 50120
    },
    {
      "epoch": 133.68,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004946102226153687,
      "loss": 0.3037,
      "step": 50130
    },
    {
      "epoch": 133.70666666666668,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004946080582114462,
      "loss": 0.3045,
      "step": 50140
    },
    {
      "epoch": 133.73333333333332,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004946058933777625,
      "loss": 0.3198,
      "step": 50150
    },
    {
      "epoch": 133.76,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004946037281143211,
      "loss": 0.3211,
      "step": 50160
    },
    {
      "epoch": 133.78666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004946015624211264,
      "loss": 0.3223,
      "step": 50170
    },
    {
      "epoch": 133.81333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004945993962981817,
      "loss": 0.3044,
      "step": 50180
    },
    {
      "epoch": 133.84,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004945972297454911,
      "loss": 0.3047,
      "step": 50190
    },
    {
      "epoch": 133.86666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004945950627630583,
      "loss": 0.3064,
      "step": 50200
    },
    {
      "epoch": 133.89333333333335,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000494592895350887,
      "loss": 0.3064,
      "step": 50210
    },
    {
      "epoch": 133.92,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004945907275089813,
      "loss": 0.3082,
      "step": 50220
    },
    {
      "epoch": 133.94666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004945885592373447,
      "loss": 0.3097,
      "step": 50230
    },
    {
      "epoch": 133.97333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004945863905359811,
      "loss": 0.3172,
      "step": 50240
    },
    {
      "epoch": 134.0,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004945842214048944,
      "loss": 0.3048,
      "step": 50250
    },
    {
      "epoch": 134.0,
      "eval_loss": 0.39946791529655457,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3812,
      "eval_samples_per_second": 1.406,
      "eval_steps_per_second": 0.088,
      "step": 50250
    },
    {
      "epoch": 134.02666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004945820518440883,
      "loss": 0.3276,
      "step": 50260
    },
    {
      "epoch": 134.05333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004945798818535667,
      "loss": 0.334,
      "step": 50270
    },
    {
      "epoch": 134.08,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004945777114333333,
      "loss": 0.3173,
      "step": 50280
    },
    {
      "epoch": 134.10666666666665,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004945755405833922,
      "loss": 0.3196,
      "step": 50290
    },
    {
      "epoch": 134.13333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004945733693037468,
      "loss": 0.3118,
      "step": 50300
    },
    {
      "epoch": 134.16,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004945711975944012,
      "loss": 0.3181,
      "step": 50310
    },
    {
      "epoch": 134.18666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004945690254553591,
      "loss": 0.3129,
      "step": 50320
    },
    {
      "epoch": 134.21333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004945668528866244,
      "loss": 0.3023,
      "step": 50330
    },
    {
      "epoch": 134.24,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004945646798882008,
      "loss": 0.306,
      "step": 50340
    },
    {
      "epoch": 134.26666666666668,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004945625064600922,
      "loss": 0.3123,
      "step": 50350
    },
    {
      "epoch": 134.29333333333332,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004945603326023025,
      "loss": 0.3084,
      "step": 50360
    },
    {
      "epoch": 134.32,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004945581583148353,
      "loss": 0.3149,
      "step": 50370
    },
    {
      "epoch": 134.34666666666666,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004945559835976947,
      "loss": 0.314,
      "step": 50380
    },
    {
      "epoch": 134.37333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004945538084508842,
      "loss": 0.3059,
      "step": 50390
    },
    {
      "epoch": 134.4,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004945516328744078,
      "loss": 0.3077,
      "step": 50400
    },
    {
      "epoch": 134.42666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004945494568682694,
      "loss": 0.3145,
      "step": 50410
    },
    {
      "epoch": 134.45333333333335,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004945472804324726,
      "loss": 0.3233,
      "step": 50420
    },
    {
      "epoch": 134.48,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004945451035670215,
      "loss": 0.3183,
      "step": 50430
    },
    {
      "epoch": 134.50666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004945429262719198,
      "loss": 0.3149,
      "step": 50440
    },
    {
      "epoch": 134.53333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004945407485471712,
      "loss": 0.3101,
      "step": 50450
    },
    {
      "epoch": 134.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004945385703927797,
      "loss": 0.3074,
      "step": 50460
    },
    {
      "epoch": 134.58666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000494536391808749,
      "loss": 0.3105,
      "step": 50470
    },
    {
      "epoch": 134.61333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000494534212795083,
      "loss": 0.3018,
      "step": 50480
    },
    {
      "epoch": 134.64,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004945320333517855,
      "loss": 0.304,
      "step": 50490
    },
    {
      "epoch": 134.66666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004945298534788603,
      "loss": 0.3195,
      "step": 50500
    },
    {
      "epoch": 134.69333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004945276731763114,
      "loss": 0.2985,
      "step": 50510
    },
    {
      "epoch": 134.72,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004945254924441424,
      "loss": 0.3135,
      "step": 50520
    },
    {
      "epoch": 134.74666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004945233112823574,
      "loss": 0.316,
      "step": 50530
    },
    {
      "epoch": 134.77333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004945211296909598,
      "loss": 0.327,
      "step": 50540
    },
    {
      "epoch": 134.8,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004945189476699539,
      "loss": 0.3135,
      "step": 50550
    },
    {
      "epoch": 134.82666666666665,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004945167652193433,
      "loss": 0.3022,
      "step": 50560
    },
    {
      "epoch": 134.85333333333332,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004945145823391319,
      "loss": 0.3055,
      "step": 50570
    },
    {
      "epoch": 134.88,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004945123990293235,
      "loss": 0.3053,
      "step": 50580
    },
    {
      "epoch": 134.90666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004945102152899218,
      "loss": 0.3072,
      "step": 50590
    },
    {
      "epoch": 134.93333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004945080311209309,
      "loss": 0.3083,
      "step": 50600
    },
    {
      "epoch": 134.96,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004945058465223545,
      "loss": 0.3081,
      "step": 50610
    },
    {
      "epoch": 134.98666666666668,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004945036614941964,
      "loss": 0.3199,
      "step": 50620
    },
    {
      "epoch": 135.0,
      "eval_loss": 0.40096619725227356,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.1666,
      "eval_samples_per_second": 1.315,
      "eval_steps_per_second": 0.082,
      "step": 50625
    },
    {
      "epoch": 135.01333333333332,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004945014760364605,
      "loss": 0.3103,
      "step": 50630
    },
    {
      "epoch": 135.04,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004944992901491507,
      "loss": 0.3363,
      "step": 50640
    },
    {
      "epoch": 135.06666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004944971038322708,
      "loss": 0.322,
      "step": 50650
    },
    {
      "epoch": 135.09333333333333,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004944949170858245,
      "loss": 0.3181,
      "step": 50660
    },
    {
      "epoch": 135.12,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004944927299098158,
      "loss": 0.3148,
      "step": 50670
    },
    {
      "epoch": 135.14666666666668,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004944905423042485,
      "loss": 0.3156,
      "step": 50680
    },
    {
      "epoch": 135.17333333333335,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004944883542691265,
      "loss": 0.316,
      "step": 50690
    },
    {
      "epoch": 135.2,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004944861658044535,
      "loss": 0.3089,
      "step": 50700
    },
    {
      "epoch": 135.22666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004944839769102335,
      "loss": 0.3032,
      "step": 50710
    },
    {
      "epoch": 135.25333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004944817875864702,
      "loss": 0.303,
      "step": 50720
    },
    {
      "epoch": 135.28,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004944795978331676,
      "loss": 0.3216,
      "step": 50730
    },
    {
      "epoch": 135.30666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004944774076503293,
      "loss": 0.303,
      "step": 50740
    },
    {
      "epoch": 135.33333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004944752170379595,
      "loss": 0.3176,
      "step": 50750
    },
    {
      "epoch": 135.36,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004944730259960618,
      "loss": 0.3092,
      "step": 50760
    },
    {
      "epoch": 135.38666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004944708345246401,
      "loss": 0.3057,
      "step": 50770
    },
    {
      "epoch": 135.41333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004944686426236984,
      "loss": 0.3119,
      "step": 50780
    },
    {
      "epoch": 135.44,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004944664502932402,
      "loss": 0.319,
      "step": 50790
    },
    {
      "epoch": 135.46666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004944642575332697,
      "loss": 0.3228,
      "step": 50800
    },
    {
      "epoch": 135.49333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004944620643437907,
      "loss": 0.3121,
      "step": 50810
    },
    {
      "epoch": 135.52,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004944598707248068,
      "loss": 0.3162,
      "step": 50820
    },
    {
      "epoch": 135.54666666666665,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004944576766763221,
      "loss": 0.3073,
      "step": 50830
    },
    {
      "epoch": 135.57333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004944554821983404,
      "loss": 0.3098,
      "step": 50840
    },
    {
      "epoch": 135.6,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004944532872908656,
      "loss": 0.3064,
      "step": 50850
    },
    {
      "epoch": 135.62666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004944510919539013,
      "loss": 0.3015,
      "step": 50860
    },
    {
      "epoch": 135.65333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0004944488961874518,
      "loss": 0.3154,
      "step": 50870
    },
    {
      "epoch": 135.68,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0004944466999915205,
      "loss": 0.3038,
      "step": 50880
    },
    {
      "epoch": 135.70666666666668,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004944445033661116,
      "loss": 0.3048,
      "step": 50890
    },
    {
      "epoch": 135.73333333333332,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0004944423063112288,
      "loss": 0.3197,
      "step": 50900
    },
    {
      "epoch": 135.76,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.000494440108826876,
      "loss": 0.3213,
      "step": 50910
    },
    {
      "epoch": 135.78666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000494437910913057,
      "loss": 0.3215,
      "step": 50920
    },
    {
      "epoch": 135.81333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004944357125697757,
      "loss": 0.3042,
      "step": 50930
    },
    {
      "epoch": 135.84,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000494433513797036,
      "loss": 0.304,
      "step": 50940
    },
    {
      "epoch": 135.86666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004944313145948419,
      "loss": 0.306,
      "step": 50950
    },
    {
      "epoch": 135.89333333333335,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004944291149631968,
      "loss": 0.3059,
      "step": 50960
    },
    {
      "epoch": 135.92,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004944269149021051,
      "loss": 0.307,
      "step": 50970
    },
    {
      "epoch": 135.94666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004944247144115703,
      "loss": 0.3094,
      "step": 50980
    },
    {
      "epoch": 135.97333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004944225134915965,
      "loss": 0.3167,
      "step": 50990
    },
    {
      "epoch": 136.0,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004944203121421874,
      "loss": 0.3054,
      "step": 51000
    },
    {
      "epoch": 136.0,
      "eval_loss": 0.39999130368232727,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5696,
      "eval_samples_per_second": 1.383,
      "eval_steps_per_second": 0.086,
      "step": 51000
    },
    {
      "epoch": 136.02666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004944181103633469,
      "loss": 0.3274,
      "step": 51010
    },
    {
      "epoch": 136.05333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004944159081550789,
      "loss": 0.3337,
      "step": 51020
    },
    {
      "epoch": 136.08,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004944137055173873,
      "loss": 0.3177,
      "step": 51030
    },
    {
      "epoch": 136.10666666666665,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000494411502450276,
      "loss": 0.3194,
      "step": 51040
    },
    {
      "epoch": 136.13333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004944092989537487,
      "loss": 0.3107,
      "step": 51050
    },
    {
      "epoch": 136.16,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004944070950278095,
      "loss": 0.3179,
      "step": 51060
    },
    {
      "epoch": 136.18666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000494404890672462,
      "loss": 0.3128,
      "step": 51070
    },
    {
      "epoch": 136.21333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004944026858877104,
      "loss": 0.3015,
      "step": 51080
    },
    {
      "epoch": 136.24,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004944004806735582,
      "loss": 0.3054,
      "step": 51090
    },
    {
      "epoch": 136.26666666666668,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004943982750300097,
      "loss": 0.3118,
      "step": 51100
    },
    {
      "epoch": 136.29333333333332,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004943960689570684,
      "loss": 0.3073,
      "step": 51110
    },
    {
      "epoch": 136.32,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004943938624547384,
      "loss": 0.3145,
      "step": 51120
    },
    {
      "epoch": 136.34666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004943916555230233,
      "loss": 0.3136,
      "step": 51130
    },
    {
      "epoch": 136.37333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004943894481619274,
      "loss": 0.3057,
      "step": 51140
    },
    {
      "epoch": 136.4,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004943872403714543,
      "loss": 0.3073,
      "step": 51150
    },
    {
      "epoch": 136.42666666666668,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004943850321516079,
      "loss": 0.3139,
      "step": 51160
    },
    {
      "epoch": 136.45333333333335,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004943828235023922,
      "loss": 0.3229,
      "step": 51170
    },
    {
      "epoch": 136.48,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.000494380614423811,
      "loss": 0.3192,
      "step": 51180
    },
    {
      "epoch": 136.50666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000494378404915868,
      "loss": 0.3151,
      "step": 51190
    },
    {
      "epoch": 136.53333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004943761949785674,
      "loss": 0.3098,
      "step": 51200
    },
    {
      "epoch": 136.56,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004943739846119129,
      "loss": 0.3069,
      "step": 51210
    },
    {
      "epoch": 136.58666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004943717738159084,
      "loss": 0.31,
      "step": 51220
    },
    {
      "epoch": 136.61333333333334,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004943695625905579,
      "loss": 0.3023,
      "step": 51230
    },
    {
      "epoch": 136.64,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004943673509358652,
      "loss": 0.3034,
      "step": 51240
    },
    {
      "epoch": 136.66666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004943651388518342,
      "loss": 0.3188,
      "step": 51250
    },
    {
      "epoch": 136.69333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004943629263384686,
      "loss": 0.2981,
      "step": 51260
    },
    {
      "epoch": 136.72,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004943607133957726,
      "loss": 0.314,
      "step": 51270
    },
    {
      "epoch": 136.74666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004943585000237499,
      "loss": 0.3155,
      "step": 51280
    },
    {
      "epoch": 136.77333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004943562862224044,
      "loss": 0.3265,
      "step": 51290
    },
    {
      "epoch": 136.8,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004943540719917401,
      "loss": 0.3126,
      "step": 51300
    },
    {
      "epoch": 136.82666666666665,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004943518573317608,
      "loss": 0.3017,
      "step": 51310
    },
    {
      "epoch": 136.85333333333332,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004943496422424704,
      "loss": 0.3062,
      "step": 51320
    },
    {
      "epoch": 136.88,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004943474267238727,
      "loss": 0.3053,
      "step": 51330
    },
    {
      "epoch": 136.90666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004943452107759717,
      "loss": 0.3066,
      "step": 51340
    },
    {
      "epoch": 136.93333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0004943429943987714,
      "loss": 0.3076,
      "step": 51350
    },
    {
      "epoch": 136.96,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004943407775922755,
      "loss": 0.3079,
      "step": 51360
    },
    {
      "epoch": 136.98666666666668,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000494338560356488,
      "loss": 0.3196,
      "step": 51370
    },
    {
      "epoch": 137.0,
      "eval_loss": 0.3996056318283081,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.1103,
      "eval_samples_per_second": 1.22,
      "eval_steps_per_second": 0.076,
      "step": 51375
    },
    {
      "epoch": 137.01333333333332,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004943363426914126,
      "loss": 0.3107,
      "step": 51380
    },
    {
      "epoch": 137.04,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004943341245970535,
      "loss": 0.3364,
      "step": 51390
    },
    {
      "epoch": 137.06666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004943319060734145,
      "loss": 0.3212,
      "step": 51400
    },
    {
      "epoch": 137.09333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004943296871204994,
      "loss": 0.3182,
      "step": 51410
    },
    {
      "epoch": 137.12,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004943274677383122,
      "loss": 0.3144,
      "step": 51420
    },
    {
      "epoch": 137.14666666666668,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004943252479268567,
      "loss": 0.3157,
      "step": 51430
    },
    {
      "epoch": 137.17333333333335,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004943230276861368,
      "loss": 0.3152,
      "step": 51440
    },
    {
      "epoch": 137.2,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004943208070161565,
      "loss": 0.3084,
      "step": 51450
    },
    {
      "epoch": 137.22666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004943185859169197,
      "loss": 0.3026,
      "step": 51460
    },
    {
      "epoch": 137.25333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004943163643884302,
      "loss": 0.3019,
      "step": 51470
    },
    {
      "epoch": 137.28,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004943141424306921,
      "loss": 0.3207,
      "step": 51480
    },
    {
      "epoch": 137.30666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000494311920043709,
      "loss": 0.3028,
      "step": 51490
    },
    {
      "epoch": 137.33333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000494309697227485,
      "loss": 0.3169,
      "step": 51500
    },
    {
      "epoch": 137.36,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000494307473982024,
      "loss": 0.3081,
      "step": 51510
    },
    {
      "epoch": 137.38666666666666,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004943052503073299,
      "loss": 0.3049,
      "step": 51520
    },
    {
      "epoch": 137.41333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004943030262034066,
      "loss": 0.3117,
      "step": 51530
    },
    {
      "epoch": 137.44,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004943008016702579,
      "loss": 0.3182,
      "step": 51540
    },
    {
      "epoch": 137.46666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004942985767078879,
      "loss": 0.3228,
      "step": 51550
    },
    {
      "epoch": 137.49333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004942963513163003,
      "loss": 0.312,
      "step": 51560
    },
    {
      "epoch": 137.52,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004942941254954992,
      "loss": 0.3159,
      "step": 51570
    },
    {
      "epoch": 137.54666666666665,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004942918992454885,
      "loss": 0.3064,
      "step": 51580
    },
    {
      "epoch": 137.57333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000494289672566272,
      "loss": 0.3095,
      "step": 51590
    },
    {
      "epoch": 137.6,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004942874454578536,
      "loss": 0.3057,
      "step": 51600
    },
    {
      "epoch": 137.62666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004942852179202373,
      "loss": 0.3013,
      "step": 51610
    },
    {
      "epoch": 137.65333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000494282989953427,
      "loss": 0.3144,
      "step": 51620
    },
    {
      "epoch": 137.68,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004942807615574266,
      "loss": 0.3029,
      "step": 51630
    },
    {
      "epoch": 137.70666666666668,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00049427853273224,
      "loss": 0.3036,
      "step": 51640
    },
    {
      "epoch": 137.73333333333332,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004942763034778711,
      "loss": 0.3195,
      "step": 51650
    },
    {
      "epoch": 137.76,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004942740737943239,
      "loss": 0.3202,
      "step": 51660
    },
    {
      "epoch": 137.78666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004942718436816022,
      "loss": 0.3212,
      "step": 51670
    },
    {
      "epoch": 137.81333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004942696131397101,
      "loss": 0.3033,
      "step": 51680
    },
    {
      "epoch": 137.84,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004942673821686513,
      "loss": 0.3038,
      "step": 51690
    },
    {
      "epoch": 137.86666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004942651507684298,
      "loss": 0.3052,
      "step": 51700
    },
    {
      "epoch": 137.89333333333335,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0004942629189390496,
      "loss": 0.3053,
      "step": 51710
    },
    {
      "epoch": 137.92,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004942606866805146,
      "loss": 0.3063,
      "step": 51720
    },
    {
      "epoch": 137.94666666666666,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004942584539928285,
      "loss": 0.3078,
      "step": 51730
    },
    {
      "epoch": 137.97333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004942562208759955,
      "loss": 0.3156,
      "step": 51740
    },
    {
      "epoch": 138.0,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004942539873300196,
      "loss": 0.3046,
      "step": 51750
    },
    {
      "epoch": 138.0,
      "eval_loss": 0.3991408050060272,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9988,
      "eval_samples_per_second": 1.333,
      "eval_steps_per_second": 0.083,
      "step": 51750
    },
    {
      "epoch": 138.02666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004942517533549043,
      "loss": 0.3273,
      "step": 51760
    },
    {
      "epoch": 138.05333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004942495189506539,
      "loss": 0.3329,
      "step": 51770
    },
    {
      "epoch": 138.08,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004942472841172723,
      "loss": 0.3174,
      "step": 51780
    },
    {
      "epoch": 138.10666666666665,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004942450488547632,
      "loss": 0.3192,
      "step": 51790
    },
    {
      "epoch": 138.13333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004942428131631307,
      "loss": 0.3107,
      "step": 51800
    },
    {
      "epoch": 138.16,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004942405770423786,
      "loss": 0.3172,
      "step": 51810
    },
    {
      "epoch": 138.18666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004942383404925111,
      "loss": 0.3125,
      "step": 51820
    },
    {
      "epoch": 138.21333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004942361035135317,
      "loss": 0.3014,
      "step": 51830
    },
    {
      "epoch": 138.24,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004942338661054447,
      "loss": 0.3053,
      "step": 51840
    },
    {
      "epoch": 138.26666666666668,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000494231628268254,
      "loss": 0.3114,
      "step": 51850
    },
    {
      "epoch": 138.29333333333332,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004942293900019633,
      "loss": 0.3069,
      "step": 51860
    },
    {
      "epoch": 138.32,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004942271513065767,
      "loss": 0.3142,
      "step": 51870
    },
    {
      "epoch": 138.34666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004942249121820981,
      "loss": 0.3131,
      "step": 51880
    },
    {
      "epoch": 138.37333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004942226726285315,
      "loss": 0.3057,
      "step": 51890
    },
    {
      "epoch": 138.4,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004942204326458807,
      "loss": 0.307,
      "step": 51900
    },
    {
      "epoch": 138.42666666666668,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004942181922341498,
      "loss": 0.3142,
      "step": 51910
    },
    {
      "epoch": 138.45333333333335,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004942159513933425,
      "loss": 0.3222,
      "step": 51920
    },
    {
      "epoch": 138.48,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004942137101234629,
      "loss": 0.3181,
      "step": 51930
    },
    {
      "epoch": 138.50666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.000494211468424515,
      "loss": 0.3144,
      "step": 51940
    },
    {
      "epoch": 138.53333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004942092262965027,
      "loss": 0.3098,
      "step": 51950
    },
    {
      "epoch": 138.56,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004942069837394298,
      "loss": 0.3063,
      "step": 51960
    },
    {
      "epoch": 138.58666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004942047407533003,
      "loss": 0.3095,
      "step": 51970
    },
    {
      "epoch": 138.61333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004942024973381183,
      "loss": 0.3015,
      "step": 51980
    },
    {
      "epoch": 138.64,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004942002534938875,
      "loss": 0.303,
      "step": 51990
    },
    {
      "epoch": 138.66666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004941980092206121,
      "loss": 0.3183,
      "step": 52000
    },
    {
      "epoch": 138.69333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004941957645182958,
      "loss": 0.2973,
      "step": 52010
    },
    {
      "epoch": 138.72,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004941935193869427,
      "loss": 0.3133,
      "step": 52020
    },
    {
      "epoch": 138.74666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004941912738265566,
      "loss": 0.3149,
      "step": 52030
    },
    {
      "epoch": 138.77333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004941890278371417,
      "loss": 0.3257,
      "step": 52040
    },
    {
      "epoch": 138.8,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004941867814187016,
      "loss": 0.3122,
      "step": 52050
    },
    {
      "epoch": 138.82666666666665,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004941845345712406,
      "loss": 0.3017,
      "step": 52060
    },
    {
      "epoch": 138.85333333333332,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004941822872947623,
      "loss": 0.3055,
      "step": 52070
    },
    {
      "epoch": 138.88,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000494180039589271,
      "loss": 0.3047,
      "step": 52080
    },
    {
      "epoch": 138.90666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004941777914547704,
      "loss": 0.3069,
      "step": 52090
    },
    {
      "epoch": 138.93333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004941755428912644,
      "loss": 0.3077,
      "step": 52100
    },
    {
      "epoch": 138.96,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004941732938987572,
      "loss": 0.307,
      "step": 52110
    },
    {
      "epoch": 138.98666666666668,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004941710444772527,
      "loss": 0.3192,
      "step": 52120
    },
    {
      "epoch": 139.0,
      "eval_loss": 0.3981202244758606,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.7674,
      "eval_samples_per_second": 1.36,
      "eval_steps_per_second": 0.085,
      "step": 52125
    },
    {
      "epoch": 139.01333333333332,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004941687946267547,
      "loss": 0.3093,
      "step": 52130
    },
    {
      "epoch": 139.04,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004941665443472671,
      "loss": 0.3364,
      "step": 52140
    },
    {
      "epoch": 139.06666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004941642936387942,
      "loss": 0.3205,
      "step": 52150
    },
    {
      "epoch": 139.09333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004941620425013397,
      "loss": 0.3175,
      "step": 52160
    },
    {
      "epoch": 139.12,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004941597909349075,
      "loss": 0.3136,
      "step": 52170
    },
    {
      "epoch": 139.14666666666668,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004941575389395017,
      "loss": 0.3151,
      "step": 52180
    },
    {
      "epoch": 139.17333333333335,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004941552865151262,
      "loss": 0.3149,
      "step": 52190
    },
    {
      "epoch": 139.2,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004941530336617849,
      "loss": 0.3082,
      "step": 52200
    },
    {
      "epoch": 139.22666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.000494150780379482,
      "loss": 0.3021,
      "step": 52210
    },
    {
      "epoch": 139.25333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004941485266682212,
      "loss": 0.3022,
      "step": 52220
    },
    {
      "epoch": 139.28,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004941462725280065,
      "loss": 0.3205,
      "step": 52230
    },
    {
      "epoch": 139.30666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004941440179588418,
      "loss": 0.3021,
      "step": 52240
    },
    {
      "epoch": 139.33333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004941417629607314,
      "loss": 0.3166,
      "step": 52250
    },
    {
      "epoch": 139.36,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004941395075336788,
      "loss": 0.3072,
      "step": 52260
    },
    {
      "epoch": 139.38666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004941372516776884,
      "loss": 0.3052,
      "step": 52270
    },
    {
      "epoch": 139.41333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004941349953927639,
      "loss": 0.3113,
      "step": 52280
    },
    {
      "epoch": 139.44,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004941327386789092,
      "loss": 0.3183,
      "step": 52290
    },
    {
      "epoch": 139.46666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004941304815361284,
      "loss": 0.3225,
      "step": 52300
    },
    {
      "epoch": 139.49333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004941282239644255,
      "loss": 0.3116,
      "step": 52310
    },
    {
      "epoch": 139.52,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004941259659638045,
      "loss": 0.3157,
      "step": 52320
    },
    {
      "epoch": 139.54666666666665,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004941237075342691,
      "loss": 0.306,
      "step": 52330
    },
    {
      "epoch": 139.57333333333332,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004941214486758235,
      "loss": 0.3091,
      "step": 52340
    },
    {
      "epoch": 139.6,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004941191893884717,
      "loss": 0.3057,
      "step": 52350
    },
    {
      "epoch": 139.62666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004941169296722175,
      "loss": 0.3015,
      "step": 52360
    },
    {
      "epoch": 139.65333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000494114669527065,
      "loss": 0.3139,
      "step": 52370
    },
    {
      "epoch": 139.68,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004941124089530182,
      "loss": 0.3026,
      "step": 52380
    },
    {
      "epoch": 139.70666666666668,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004941101479500808,
      "loss": 0.3038,
      "step": 52390
    },
    {
      "epoch": 139.73333333333332,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0004941078865182572,
      "loss": 0.3195,
      "step": 52400
    },
    {
      "epoch": 139.76,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0004941056246575509,
      "loss": 0.3204,
      "step": 52410
    },
    {
      "epoch": 139.78666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004941033623679662,
      "loss": 0.3212,
      "step": 52420
    },
    {
      "epoch": 139.81333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000494101099649507,
      "loss": 0.3037,
      "step": 52430
    },
    {
      "epoch": 139.84,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004940988365021773,
      "loss": 0.3031,
      "step": 52440
    },
    {
      "epoch": 139.86666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.000494096572925981,
      "loss": 0.3046,
      "step": 52450
    },
    {
      "epoch": 139.89333333333335,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004940943089209223,
      "loss": 0.3051,
      "step": 52460
    },
    {
      "epoch": 139.92,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004940920444870048,
      "loss": 0.3071,
      "step": 52470
    },
    {
      "epoch": 139.94666666666666,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004940897796242328,
      "loss": 0.3086,
      "step": 52480
    },
    {
      "epoch": 139.97333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004940875143326101,
      "loss": 0.3154,
      "step": 52490
    },
    {
      "epoch": 140.0,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004940852486121407,
      "loss": 0.3041,
      "step": 52500
    },
    {
      "epoch": 140.0,
      "eval_loss": 0.3995729684829712,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 13.7618,
      "eval_samples_per_second": 1.163,
      "eval_steps_per_second": 0.073,
      "step": 52500
    },
    {
      "epoch": 140.02666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004940829824628287,
      "loss": 0.3262,
      "step": 52510
    },
    {
      "epoch": 140.05333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004940807158846779,
      "loss": 0.3324,
      "step": 52520
    },
    {
      "epoch": 140.08,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004940784488776924,
      "loss": 0.3166,
      "step": 52530
    },
    {
      "epoch": 140.10666666666665,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004940761814418763,
      "loss": 0.319,
      "step": 52540
    },
    {
      "epoch": 140.13333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004940739135772332,
      "loss": 0.3101,
      "step": 52550
    },
    {
      "epoch": 140.16,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004940716452837675,
      "loss": 0.3172,
      "step": 52560
    },
    {
      "epoch": 140.18666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.000494069376561483,
      "loss": 0.3123,
      "step": 52570
    },
    {
      "epoch": 140.21333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004940671074103837,
      "loss": 0.3011,
      "step": 52580
    },
    {
      "epoch": 140.24,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004940648378304736,
      "loss": 0.3051,
      "step": 52590
    },
    {
      "epoch": 140.26666666666668,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004940625678217566,
      "loss": 0.3107,
      "step": 52600
    },
    {
      "epoch": 140.29333333333332,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004940602973842369,
      "loss": 0.3066,
      "step": 52610
    },
    {
      "epoch": 140.32,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004940580265179183,
      "loss": 0.3133,
      "step": 52620
    },
    {
      "epoch": 140.34666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004940557552228047,
      "loss": 0.3124,
      "step": 52630
    },
    {
      "epoch": 140.37333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004940534834989005,
      "loss": 0.3047,
      "step": 52640
    },
    {
      "epoch": 140.4,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004940512113462092,
      "loss": 0.3066,
      "step": 52650
    },
    {
      "epoch": 140.42666666666668,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004940489387647351,
      "loss": 0.3135,
      "step": 52660
    },
    {
      "epoch": 140.45333333333335,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004940466657544822,
      "loss": 0.3221,
      "step": 52670
    },
    {
      "epoch": 140.48,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004940443923154543,
      "loss": 0.3178,
      "step": 52680
    },
    {
      "epoch": 140.50666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004940421184476554,
      "loss": 0.3143,
      "step": 52690
    },
    {
      "epoch": 140.53333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004940398441510898,
      "loss": 0.3091,
      "step": 52700
    },
    {
      "epoch": 140.56,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004940375694257612,
      "loss": 0.3062,
      "step": 52710
    },
    {
      "epoch": 140.58666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004940352942716737,
      "loss": 0.3092,
      "step": 52720
    },
    {
      "epoch": 140.61333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004940330186888312,
      "loss": 0.3013,
      "step": 52730
    },
    {
      "epoch": 140.64,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004940307426772379,
      "loss": 0.303,
      "step": 52740
    },
    {
      "epoch": 140.66666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004940284662368977,
      "loss": 0.3184,
      "step": 52750
    },
    {
      "epoch": 140.69333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004940261893678145,
      "loss": 0.2972,
      "step": 52760
    },
    {
      "epoch": 140.72,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004940239120699923,
      "loss": 0.3134,
      "step": 52770
    },
    {
      "epoch": 140.74666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004940216343434353,
      "loss": 0.3143,
      "step": 52780
    },
    {
      "epoch": 140.77333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004940193561881474,
      "loss": 0.326,
      "step": 52790
    },
    {
      "epoch": 140.8,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004940170776041326,
      "loss": 0.3123,
      "step": 52800
    },
    {
      "epoch": 140.82666666666665,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004940147985913947,
      "loss": 0.3014,
      "step": 52810
    },
    {
      "epoch": 140.85333333333332,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004940125191499382,
      "loss": 0.3056,
      "step": 52820
    },
    {
      "epoch": 140.88,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004940102392797665,
      "loss": 0.3042,
      "step": 52830
    },
    {
      "epoch": 140.90666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.000494007958980884,
      "loss": 0.3062,
      "step": 52840
    },
    {
      "epoch": 140.93333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004940056782532947,
      "loss": 0.3065,
      "step": 52850
    },
    {
      "epoch": 140.96,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004940033970970024,
      "loss": 0.3066,
      "step": 52860
    },
    {
      "epoch": 140.98666666666668,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004940011155120114,
      "loss": 0.3193,
      "step": 52870
    },
    {
      "epoch": 141.0,
      "eval_loss": 0.400906503200531,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.4628,
      "eval_samples_per_second": 1.396,
      "eval_steps_per_second": 0.087,
      "step": 52875
    },
    {
      "epoch": 141.01333333333332,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004939988334983254,
      "loss": 0.3091,
      "step": 52880
    },
    {
      "epoch": 141.04,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004939965510559485,
      "loss": 0.3357,
      "step": 52890
    },
    {
      "epoch": 141.06666666666666,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004939942681848849,
      "loss": 0.3203,
      "step": 52900
    },
    {
      "epoch": 141.09333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004939919848851383,
      "loss": 0.3183,
      "step": 52910
    },
    {
      "epoch": 141.12,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.000493989701156713,
      "loss": 0.314,
      "step": 52920
    },
    {
      "epoch": 141.14666666666668,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004939874169996128,
      "loss": 0.3149,
      "step": 52930
    },
    {
      "epoch": 141.17333333333335,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004939851324138419,
      "loss": 0.3144,
      "step": 52940
    },
    {
      "epoch": 141.2,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004939828473994041,
      "loss": 0.307,
      "step": 52950
    },
    {
      "epoch": 141.22666666666666,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004939805619563036,
      "loss": 0.3022,
      "step": 52960
    },
    {
      "epoch": 141.25333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004939782760845444,
      "loss": 0.3014,
      "step": 52970
    },
    {
      "epoch": 141.28,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004939759897841304,
      "loss": 0.3199,
      "step": 52980
    },
    {
      "epoch": 141.30666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004939737030550656,
      "loss": 0.3022,
      "step": 52990
    },
    {
      "epoch": 141.33333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004939714158973542,
      "loss": 0.316,
      "step": 53000
    },
    {
      "epoch": 141.36,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004939691283110001,
      "loss": 0.3074,
      "step": 53010
    },
    {
      "epoch": 141.38666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004939668402960073,
      "loss": 0.3047,
      "step": 53020
    },
    {
      "epoch": 141.41333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004939645518523798,
      "loss": 0.3108,
      "step": 53030
    },
    {
      "epoch": 141.44,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004939622629801219,
      "loss": 0.3185,
      "step": 53040
    },
    {
      "epoch": 141.46666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004939599736792372,
      "loss": 0.3222,
      "step": 53050
    },
    {
      "epoch": 141.49333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004939576839497299,
      "loss": 0.311,
      "step": 53060
    },
    {
      "epoch": 141.52,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004939553937916041,
      "loss": 0.3156,
      "step": 53070
    },
    {
      "epoch": 141.54666666666665,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004939531032048637,
      "loss": 0.3058,
      "step": 53080
    },
    {
      "epoch": 141.57333333333332,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004939508121895129,
      "loss": 0.3084,
      "step": 53090
    },
    {
      "epoch": 141.6,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004939485207455555,
      "loss": 0.3051,
      "step": 53100
    },
    {
      "epoch": 141.62666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004939462288729957,
      "loss": 0.3005,
      "step": 53110
    },
    {
      "epoch": 141.65333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004939439365718376,
      "loss": 0.3138,
      "step": 53120
    },
    {
      "epoch": 141.68,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004939416438420849,
      "loss": 0.3021,
      "step": 53130
    },
    {
      "epoch": 141.70666666666668,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004939393506837418,
      "loss": 0.3033,
      "step": 53140
    },
    {
      "epoch": 141.73333333333332,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004939370570968125,
      "loss": 0.3189,
      "step": 53150
    },
    {
      "epoch": 141.76,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004939347630813009,
      "loss": 0.3201,
      "step": 53160
    },
    {
      "epoch": 141.78666666666666,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004939324686372108,
      "loss": 0.3214,
      "step": 53170
    },
    {
      "epoch": 141.81333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004939301737645467,
      "loss": 0.3031,
      "step": 53180
    },
    {
      "epoch": 141.84,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004939278784633121,
      "loss": 0.3031,
      "step": 53190
    },
    {
      "epoch": 141.86666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004939255827335115,
      "loss": 0.3054,
      "step": 53200
    },
    {
      "epoch": 141.89333333333335,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004939232865751487,
      "loss": 0.305,
      "step": 53210
    },
    {
      "epoch": 141.92,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004939209899882278,
      "loss": 0.3064,
      "step": 53220
    },
    {
      "epoch": 141.94666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004939186929727527,
      "loss": 0.3082,
      "step": 53230
    },
    {
      "epoch": 141.97333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004939163955287276,
      "loss": 0.3156,
      "step": 53240
    },
    {
      "epoch": 142.0,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004939140976561565,
      "loss": 0.3041,
      "step": 53250
    },
    {
      "epoch": 142.0,
      "eval_loss": 0.3979343771934509,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0505,
      "eval_samples_per_second": 1.448,
      "eval_steps_per_second": 0.09,
      "step": 53250
    },
    {
      "epoch": 142.02666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004939117993550434,
      "loss": 0.3265,
      "step": 53260
    },
    {
      "epoch": 142.05333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004939095006253924,
      "loss": 0.3329,
      "step": 53270
    },
    {
      "epoch": 142.08,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004939072014672074,
      "loss": 0.3161,
      "step": 53280
    },
    {
      "epoch": 142.10666666666665,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004939049018804927,
      "loss": 0.319,
      "step": 53290
    },
    {
      "epoch": 142.13333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.000493902601865252,
      "loss": 0.3096,
      "step": 53300
    },
    {
      "epoch": 142.16,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004939003014214897,
      "loss": 0.3165,
      "step": 53310
    },
    {
      "epoch": 142.18666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004938980005492095,
      "loss": 0.3124,
      "step": 53320
    },
    {
      "epoch": 142.21333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004938956992484156,
      "loss": 0.3009,
      "step": 53330
    },
    {
      "epoch": 142.24,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004938933975191122,
      "loss": 0.3046,
      "step": 53340
    },
    {
      "epoch": 142.26666666666668,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000493891095361303,
      "loss": 0.311,
      "step": 53350
    },
    {
      "epoch": 142.29333333333332,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004938887927749923,
      "loss": 0.3061,
      "step": 53360
    },
    {
      "epoch": 142.32,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004938864897601841,
      "loss": 0.3135,
      "step": 53370
    },
    {
      "epoch": 142.34666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004938841863168825,
      "loss": 0.3126,
      "step": 53380
    },
    {
      "epoch": 142.37333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004938818824450913,
      "loss": 0.3043,
      "step": 53390
    },
    {
      "epoch": 142.4,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004938795781448149,
      "loss": 0.3058,
      "step": 53400
    },
    {
      "epoch": 142.42666666666668,
      "grad_norm": 0.25,
      "learning_rate": 0.000493877273416057,
      "loss": 0.3136,
      "step": 53410
    },
    {
      "epoch": 142.45333333333335,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004938749682588219,
      "loss": 0.3214,
      "step": 53420
    },
    {
      "epoch": 142.48,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004938726626731136,
      "loss": 0.3174,
      "step": 53430
    },
    {
      "epoch": 142.50666666666666,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.000493870356658936,
      "loss": 0.3139,
      "step": 53440
    },
    {
      "epoch": 142.53333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004938680502162934,
      "loss": 0.3088,
      "step": 53450
    },
    {
      "epoch": 142.56,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004938657433451897,
      "loss": 0.3056,
      "step": 53460
    },
    {
      "epoch": 142.58666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004938634360456288,
      "loss": 0.3084,
      "step": 53470
    },
    {
      "epoch": 142.61333333333334,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004938611283176152,
      "loss": 0.3008,
      "step": 53480
    },
    {
      "epoch": 142.64,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004938588201611524,
      "loss": 0.3026,
      "step": 53490
    },
    {
      "epoch": 142.66666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000493856511576245,
      "loss": 0.3182,
      "step": 53500
    },
    {
      "epoch": 142.69333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004938542025628967,
      "loss": 0.2972,
      "step": 53510
    },
    {
      "epoch": 142.72,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004938518931211116,
      "loss": 0.3131,
      "step": 53520
    },
    {
      "epoch": 142.74666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004938495832508937,
      "loss": 0.3141,
      "step": 53530
    },
    {
      "epoch": 142.77333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004938472729522475,
      "loss": 0.3255,
      "step": 53540
    },
    {
      "epoch": 142.8,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004938449622251765,
      "loss": 0.3117,
      "step": 53550
    },
    {
      "epoch": 142.82666666666665,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004938426510696849,
      "loss": 0.3007,
      "step": 53560
    },
    {
      "epoch": 142.85333333333332,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004938403394857771,
      "loss": 0.305,
      "step": 53570
    },
    {
      "epoch": 142.88,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004938380274734567,
      "loss": 0.3046,
      "step": 53580
    },
    {
      "epoch": 142.90666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004938357150327281,
      "loss": 0.3058,
      "step": 53590
    },
    {
      "epoch": 142.93333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004938334021635952,
      "loss": 0.307,
      "step": 53600
    },
    {
      "epoch": 142.96,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000493831088866062,
      "loss": 0.3064,
      "step": 53610
    },
    {
      "epoch": 142.98666666666668,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004938287751401327,
      "loss": 0.3187,
      "step": 53620
    },
    {
      "epoch": 143.0,
      "eval_loss": 0.39864861965179443,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.9774,
      "eval_samples_per_second": 1.336,
      "eval_steps_per_second": 0.083,
      "step": 53625
    },
    {
      "epoch": 143.01333333333332,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004938264609858114,
      "loss": 0.3088,
      "step": 53630
    },
    {
      "epoch": 143.04,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000493824146403102,
      "loss": 0.3357,
      "step": 53640
    },
    {
      "epoch": 143.06666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004938218313920087,
      "loss": 0.3201,
      "step": 53650
    },
    {
      "epoch": 143.09333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004938195159525355,
      "loss": 0.3171,
      "step": 53660
    },
    {
      "epoch": 143.12,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004938172000846866,
      "loss": 0.3134,
      "step": 53670
    },
    {
      "epoch": 143.14666666666668,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004938148837884659,
      "loss": 0.3146,
      "step": 53680
    },
    {
      "epoch": 143.17333333333335,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004938125670638775,
      "loss": 0.3144,
      "step": 53690
    },
    {
      "epoch": 143.2,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004938102499109255,
      "loss": 0.3073,
      "step": 53700
    },
    {
      "epoch": 143.22666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000493807932329614,
      "loss": 0.3012,
      "step": 53710
    },
    {
      "epoch": 143.25333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000493805614319947,
      "loss": 0.3011,
      "step": 53720
    },
    {
      "epoch": 143.28,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004938032958819287,
      "loss": 0.3197,
      "step": 53730
    },
    {
      "epoch": 143.30666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004938009770155629,
      "loss": 0.302,
      "step": 53740
    },
    {
      "epoch": 143.33333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004937986577208541,
      "loss": 0.3162,
      "step": 53750
    },
    {
      "epoch": 143.36,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004937963379978061,
      "loss": 0.3074,
      "step": 53760
    },
    {
      "epoch": 143.38666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004937940178464229,
      "loss": 0.3046,
      "step": 53770
    },
    {
      "epoch": 143.41333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004937916972667087,
      "loss": 0.3101,
      "step": 53780
    },
    {
      "epoch": 143.44,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004937893762586677,
      "loss": 0.318,
      "step": 53790
    },
    {
      "epoch": 143.46666666666667,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0004937870548223037,
      "loss": 0.3222,
      "step": 53800
    },
    {
      "epoch": 143.49333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004937847329576211,
      "loss": 0.3111,
      "step": 53810
    },
    {
      "epoch": 143.52,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004937824106646236,
      "loss": 0.3152,
      "step": 53820
    },
    {
      "epoch": 143.54666666666665,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0004937800879433156,
      "loss": 0.3051,
      "step": 53830
    },
    {
      "epoch": 143.57333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004937777647937011,
      "loss": 0.3089,
      "step": 53840
    },
    {
      "epoch": 143.6,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000493775441215784,
      "loss": 0.3056,
      "step": 53850
    },
    {
      "epoch": 143.62666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004937731172095686,
      "loss": 0.2998,
      "step": 53860
    },
    {
      "epoch": 143.65333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000493770792775059,
      "loss": 0.3134,
      "step": 53870
    },
    {
      "epoch": 143.68,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004937684679122591,
      "loss": 0.3023,
      "step": 53880
    },
    {
      "epoch": 143.70666666666668,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004937661426211731,
      "loss": 0.3023,
      "step": 53890
    },
    {
      "epoch": 143.73333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000493763816901805,
      "loss": 0.3181,
      "step": 53900
    },
    {
      "epoch": 143.76,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004937614907541591,
      "loss": 0.3203,
      "step": 53910
    },
    {
      "epoch": 143.78666666666666,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004937591641782393,
      "loss": 0.321,
      "step": 53920
    },
    {
      "epoch": 143.81333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004937568371740496,
      "loss": 0.3028,
      "step": 53930
    },
    {
      "epoch": 143.84,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004937545097415944,
      "loss": 0.3034,
      "step": 53940
    },
    {
      "epoch": 143.86666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004937521818808775,
      "loss": 0.3048,
      "step": 53950
    },
    {
      "epoch": 143.89333333333335,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004937498535919031,
      "loss": 0.3044,
      "step": 53960
    },
    {
      "epoch": 143.92,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004937475248746753,
      "loss": 0.306,
      "step": 53970
    },
    {
      "epoch": 143.94666666666666,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004937451957291982,
      "loss": 0.3082,
      "step": 53980
    },
    {
      "epoch": 143.97333333333333,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0004937428661554758,
      "loss": 0.3148,
      "step": 53990
    },
    {
      "epoch": 144.0,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004937405361535123,
      "loss": 0.3037,
      "step": 54000
    },
    {
      "epoch": 144.0,
      "eval_loss": 0.3995320200920105,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.2584,
      "eval_samples_per_second": 1.305,
      "eval_steps_per_second": 0.082,
      "step": 54000
    },
    {
      "epoch": 144.02666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004937382057233118,
      "loss": 0.3257,
      "step": 54010
    },
    {
      "epoch": 144.05333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004937358748648783,
      "loss": 0.3325,
      "step": 54020
    },
    {
      "epoch": 144.08,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.000493733543578216,
      "loss": 0.3167,
      "step": 54030
    },
    {
      "epoch": 144.10666666666665,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004937312118633288,
      "loss": 0.3182,
      "step": 54040
    },
    {
      "epoch": 144.13333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004937288797202211,
      "loss": 0.3102,
      "step": 54050
    },
    {
      "epoch": 144.16,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004937265471488967,
      "loss": 0.3166,
      "step": 54060
    },
    {
      "epoch": 144.18666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00049372421414936,
      "loss": 0.3121,
      "step": 54070
    },
    {
      "epoch": 144.21333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004937218807216148,
      "loss": 0.3004,
      "step": 54080
    },
    {
      "epoch": 144.24,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004937195468656654,
      "loss": 0.3045,
      "step": 54090
    },
    {
      "epoch": 144.26666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004937172125815158,
      "loss": 0.3104,
      "step": 54100
    },
    {
      "epoch": 144.29333333333332,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004937148778691702,
      "loss": 0.306,
      "step": 54110
    },
    {
      "epoch": 144.32,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004937125427286324,
      "loss": 0.3133,
      "step": 54120
    },
    {
      "epoch": 144.34666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000493710207159907,
      "loss": 0.3126,
      "step": 54130
    },
    {
      "epoch": 144.37333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004937078711629978,
      "loss": 0.3046,
      "step": 54140
    },
    {
      "epoch": 144.4,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004937055347379088,
      "loss": 0.3061,
      "step": 54150
    },
    {
      "epoch": 144.42666666666668,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004937031978846444,
      "loss": 0.3128,
      "step": 54160
    },
    {
      "epoch": 144.45333333333335,
      "grad_norm": 0.25,
      "learning_rate": 0.0004937008606032085,
      "loss": 0.3216,
      "step": 54170
    },
    {
      "epoch": 144.48,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004936985228936052,
      "loss": 0.3176,
      "step": 54180
    },
    {
      "epoch": 144.50666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004936961847558387,
      "loss": 0.3132,
      "step": 54190
    },
    {
      "epoch": 144.53333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004936938461899132,
      "loss": 0.3089,
      "step": 54200
    },
    {
      "epoch": 144.56,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004936915071958325,
      "loss": 0.3053,
      "step": 54210
    },
    {
      "epoch": 144.58666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004936891677736011,
      "loss": 0.3091,
      "step": 54220
    },
    {
      "epoch": 144.61333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004936868279232228,
      "loss": 0.301,
      "step": 54230
    },
    {
      "epoch": 144.64,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004936844876447018,
      "loss": 0.3022,
      "step": 54240
    },
    {
      "epoch": 144.66666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004936821469380423,
      "loss": 0.318,
      "step": 54250
    },
    {
      "epoch": 144.69333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004936798058032483,
      "loss": 0.2967,
      "step": 54260
    },
    {
      "epoch": 144.72,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004936774642403239,
      "loss": 0.3124,
      "step": 54270
    },
    {
      "epoch": 144.74666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004936751222492734,
      "loss": 0.3139,
      "step": 54280
    },
    {
      "epoch": 144.77333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004936727798301006,
      "loss": 0.3254,
      "step": 54290
    },
    {
      "epoch": 144.8,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004936704369828098,
      "loss": 0.3118,
      "step": 54300
    },
    {
      "epoch": 144.82666666666665,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004936680937074053,
      "loss": 0.3002,
      "step": 54310
    },
    {
      "epoch": 144.85333333333332,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004936657500038909,
      "loss": 0.305,
      "step": 54320
    },
    {
      "epoch": 144.88,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000493663405872271,
      "loss": 0.304,
      "step": 54330
    },
    {
      "epoch": 144.90666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004936610613125494,
      "loss": 0.3061,
      "step": 54340
    },
    {
      "epoch": 144.93333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004936587163247304,
      "loss": 0.3064,
      "step": 54350
    },
    {
      "epoch": 144.96,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004936563709088182,
      "loss": 0.306,
      "step": 54360
    },
    {
      "epoch": 144.98666666666668,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004936540250648168,
      "loss": 0.3181,
      "step": 54370
    },
    {
      "epoch": 145.0,
      "eval_loss": 0.39917775988578796,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.6684,
      "eval_samples_per_second": 1.371,
      "eval_steps_per_second": 0.086,
      "step": 54375
    },
    {
      "epoch": 145.01333333333332,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004936516787927304,
      "loss": 0.309,
      "step": 54380
    },
    {
      "epoch": 145.04,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004936493320925631,
      "loss": 0.3355,
      "step": 54390
    },
    {
      "epoch": 145.06666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004936469849643188,
      "loss": 0.3203,
      "step": 54400
    },
    {
      "epoch": 145.09333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004936446374080019,
      "loss": 0.3172,
      "step": 54410
    },
    {
      "epoch": 145.12,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004936422894236164,
      "loss": 0.313,
      "step": 54420
    },
    {
      "epoch": 145.14666666666668,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004936399410111666,
      "loss": 0.3138,
      "step": 54430
    },
    {
      "epoch": 145.17333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004936375921706565,
      "loss": 0.3139,
      "step": 54440
    },
    {
      "epoch": 145.2,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004936352429020901,
      "loss": 0.3074,
      "step": 54450
    },
    {
      "epoch": 145.22666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004936328932054718,
      "loss": 0.3008,
      "step": 54460
    },
    {
      "epoch": 145.25333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004936305430808054,
      "loss": 0.3017,
      "step": 54470
    },
    {
      "epoch": 145.28,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004936281925280953,
      "loss": 0.3192,
      "step": 54480
    },
    {
      "epoch": 145.30666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004936258415473455,
      "loss": 0.3013,
      "step": 54490
    },
    {
      "epoch": 145.33333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004936234901385603,
      "loss": 0.3155,
      "step": 54500
    },
    {
      "epoch": 145.36,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004936211383017435,
      "loss": 0.3071,
      "step": 54510
    },
    {
      "epoch": 145.38666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004936187860368996,
      "loss": 0.3038,
      "step": 54520
    },
    {
      "epoch": 145.41333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004936164333440324,
      "loss": 0.3101,
      "step": 54530
    },
    {
      "epoch": 145.44,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004936140802231463,
      "loss": 0.3175,
      "step": 54540
    },
    {
      "epoch": 145.46666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004936117266742453,
      "loss": 0.322,
      "step": 54550
    },
    {
      "epoch": 145.49333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004936093726973336,
      "loss": 0.3105,
      "step": 54560
    },
    {
      "epoch": 145.52,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004936070182924153,
      "loss": 0.3146,
      "step": 54570
    },
    {
      "epoch": 145.54666666666665,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004936046634594945,
      "loss": 0.3055,
      "step": 54580
    },
    {
      "epoch": 145.57333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004936023081985753,
      "loss": 0.3085,
      "step": 54590
    },
    {
      "epoch": 145.6,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000493599952509662,
      "loss": 0.3053,
      "step": 54600
    },
    {
      "epoch": 145.62666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004935975963927587,
      "loss": 0.2999,
      "step": 54610
    },
    {
      "epoch": 145.65333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004935952398478694,
      "loss": 0.3129,
      "step": 54620
    },
    {
      "epoch": 145.68,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004935928828749985,
      "loss": 0.3014,
      "step": 54630
    },
    {
      "epoch": 145.70666666666668,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004935905254741499,
      "loss": 0.3019,
      "step": 54640
    },
    {
      "epoch": 145.73333333333332,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004935881676453276,
      "loss": 0.3188,
      "step": 54650
    },
    {
      "epoch": 145.76,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004935858093885362,
      "loss": 0.3195,
      "step": 54660
    },
    {
      "epoch": 145.78666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004935834507037795,
      "loss": 0.3205,
      "step": 54670
    },
    {
      "epoch": 145.81333333333333,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004935810915910618,
      "loss": 0.3029,
      "step": 54680
    },
    {
      "epoch": 145.84,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004935787320503872,
      "loss": 0.302,
      "step": 54690
    },
    {
      "epoch": 145.86666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004935763720817597,
      "loss": 0.3049,
      "step": 54700
    },
    {
      "epoch": 145.89333333333335,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004935740116851837,
      "loss": 0.3043,
      "step": 54710
    },
    {
      "epoch": 145.92,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004935716508606633,
      "loss": 0.3059,
      "step": 54720
    },
    {
      "epoch": 145.94666666666666,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004935692896082025,
      "loss": 0.3076,
      "step": 54730
    },
    {
      "epoch": 145.97333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004935669279278054,
      "loss": 0.3146,
      "step": 54740
    },
    {
      "epoch": 146.0,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004935645658194764,
      "loss": 0.3032,
      "step": 54750
    },
    {
      "epoch": 146.0,
      "eval_loss": 0.39894866943359375,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.7353,
      "eval_samples_per_second": 1.363,
      "eval_steps_per_second": 0.085,
      "step": 54750
    },
    {
      "epoch": 146.02666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004935622032832196,
      "loss": 0.3255,
      "step": 54760
    },
    {
      "epoch": 146.05333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004935598403190389,
      "loss": 0.3322,
      "step": 54770
    },
    {
      "epoch": 146.08,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004935574769269387,
      "loss": 0.316,
      "step": 54780
    },
    {
      "epoch": 146.10666666666665,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004935551131069231,
      "loss": 0.3176,
      "step": 54790
    },
    {
      "epoch": 146.13333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004935527488589963,
      "loss": 0.3094,
      "step": 54800
    },
    {
      "epoch": 146.16,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004935503841831622,
      "loss": 0.3166,
      "step": 54810
    },
    {
      "epoch": 146.18666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004935480190794253,
      "loss": 0.3118,
      "step": 54820
    },
    {
      "epoch": 146.21333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004935456535477895,
      "loss": 0.3004,
      "step": 54830
    },
    {
      "epoch": 146.24,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004935432875882591,
      "loss": 0.3045,
      "step": 54840
    },
    {
      "epoch": 146.26666666666668,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004935409212008383,
      "loss": 0.3102,
      "step": 54850
    },
    {
      "epoch": 146.29333333333332,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000493538554385531,
      "loss": 0.3063,
      "step": 54860
    },
    {
      "epoch": 146.32,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004935361871423416,
      "loss": 0.3128,
      "step": 54870
    },
    {
      "epoch": 146.34666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004935338194712741,
      "loss": 0.3121,
      "step": 54880
    },
    {
      "epoch": 146.37333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004935314513723329,
      "loss": 0.3043,
      "step": 54890
    },
    {
      "epoch": 146.4,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000493529082845522,
      "loss": 0.3057,
      "step": 54900
    },
    {
      "epoch": 146.42666666666668,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004935267138908455,
      "loss": 0.3129,
      "step": 54910
    },
    {
      "epoch": 146.45333333333335,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004935243445083076,
      "loss": 0.3211,
      "step": 54920
    },
    {
      "epoch": 146.48,
      "grad_norm": 0.25,
      "learning_rate": 0.0004935219746979125,
      "loss": 0.3166,
      "step": 54930
    },
    {
      "epoch": 146.50666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004935196044596644,
      "loss": 0.3132,
      "step": 54940
    },
    {
      "epoch": 146.53333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004935172337935674,
      "loss": 0.3084,
      "step": 54950
    },
    {
      "epoch": 146.56,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004935148626996256,
      "loss": 0.3051,
      "step": 54960
    },
    {
      "epoch": 146.58666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004935124911778434,
      "loss": 0.3084,
      "step": 54970
    },
    {
      "epoch": 146.61333333333334,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004935101192282247,
      "loss": 0.3008,
      "step": 54980
    },
    {
      "epoch": 146.64,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004935077468507738,
      "loss": 0.3013,
      "step": 54990
    },
    {
      "epoch": 146.66666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004935053740454949,
      "loss": 0.3175,
      "step": 55000
    },
    {
      "epoch": 146.69333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004935030008123921,
      "loss": 0.2968,
      "step": 55010
    },
    {
      "epoch": 146.72,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004935006271514696,
      "loss": 0.3117,
      "step": 55020
    },
    {
      "epoch": 146.74666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004934982530627316,
      "loss": 0.3138,
      "step": 55030
    },
    {
      "epoch": 146.77333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004934958785461821,
      "loss": 0.3251,
      "step": 55040
    },
    {
      "epoch": 146.8,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004934935036018255,
      "loss": 0.3111,
      "step": 55050
    },
    {
      "epoch": 146.82666666666665,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004934911282296658,
      "loss": 0.3007,
      "step": 55060
    },
    {
      "epoch": 146.85333333333332,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004934887524297073,
      "loss": 0.3045,
      "step": 55070
    },
    {
      "epoch": 146.88,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004934863762019541,
      "loss": 0.3036,
      "step": 55080
    },
    {
      "epoch": 146.90666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004934839995464106,
      "loss": 0.3055,
      "step": 55090
    },
    {
      "epoch": 146.93333333333334,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004934816224630806,
      "loss": 0.3063,
      "step": 55100
    },
    {
      "epoch": 146.96,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004934792449519684,
      "loss": 0.3062,
      "step": 55110
    },
    {
      "epoch": 146.98666666666668,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004934768670130783,
      "loss": 0.3176,
      "step": 55120
    },
    {
      "epoch": 147.0,
      "eval_loss": 0.3982965350151062,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5411,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.087,
      "step": 55125
    },
    {
      "epoch": 147.01333333333332,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004934744886464144,
      "loss": 0.3089,
      "step": 55130
    },
    {
      "epoch": 147.04,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004934721098519809,
      "loss": 0.3351,
      "step": 55140
    },
    {
      "epoch": 147.06666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004934697306297819,
      "loss": 0.3198,
      "step": 55150
    },
    {
      "epoch": 147.09333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004934673509798216,
      "loss": 0.3166,
      "step": 55160
    },
    {
      "epoch": 147.12,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004934649709021044,
      "loss": 0.3126,
      "step": 55170
    },
    {
      "epoch": 147.14666666666668,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004934625903966342,
      "loss": 0.3136,
      "step": 55180
    },
    {
      "epoch": 147.17333333333335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004934602094634153,
      "loss": 0.3143,
      "step": 55190
    },
    {
      "epoch": 147.2,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004934578281024518,
      "loss": 0.3065,
      "step": 55200
    },
    {
      "epoch": 147.22666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004934554463137481,
      "loss": 0.3014,
      "step": 55210
    },
    {
      "epoch": 147.25333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004934530640973081,
      "loss": 0.301,
      "step": 55220
    },
    {
      "epoch": 147.28,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004934506814531363,
      "loss": 0.3183,
      "step": 55230
    },
    {
      "epoch": 147.30666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004934482983812367,
      "loss": 0.3016,
      "step": 55240
    },
    {
      "epoch": 147.33333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004934459148816133,
      "loss": 0.3153,
      "step": 55250
    },
    {
      "epoch": 147.36,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004934435309542706,
      "loss": 0.3071,
      "step": 55260
    },
    {
      "epoch": 147.38666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004934411465992126,
      "loss": 0.3038,
      "step": 55270
    },
    {
      "epoch": 147.41333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004934387618164437,
      "loss": 0.3098,
      "step": 55280
    },
    {
      "epoch": 147.44,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004934363766059679,
      "loss": 0.3168,
      "step": 55290
    },
    {
      "epoch": 147.46666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004934339909677894,
      "loss": 0.3205,
      "step": 55300
    },
    {
      "epoch": 147.49333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004934316049019125,
      "loss": 0.3108,
      "step": 55310
    },
    {
      "epoch": 147.52,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004934292184083413,
      "loss": 0.3146,
      "step": 55320
    },
    {
      "epoch": 147.54666666666665,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.00049342683148708,
      "loss": 0.3043,
      "step": 55330
    },
    {
      "epoch": 147.57333333333332,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004934244441381329,
      "loss": 0.3073,
      "step": 55340
    },
    {
      "epoch": 147.6,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004934220563615041,
      "loss": 0.3044,
      "step": 55350
    },
    {
      "epoch": 147.62666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004934196681571976,
      "loss": 0.2996,
      "step": 55360
    },
    {
      "epoch": 147.65333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004934172795252181,
      "loss": 0.3129,
      "step": 55370
    },
    {
      "epoch": 147.68,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004934148904655693,
      "loss": 0.3013,
      "step": 55380
    },
    {
      "epoch": 147.70666666666668,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004934125009782557,
      "loss": 0.3027,
      "step": 55390
    },
    {
      "epoch": 147.73333333333332,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004934101110632813,
      "loss": 0.3179,
      "step": 55400
    },
    {
      "epoch": 147.76,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004934077207206503,
      "loss": 0.319,
      "step": 55410
    },
    {
      "epoch": 147.78666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004934053299503672,
      "loss": 0.3197,
      "step": 55420
    },
    {
      "epoch": 147.81333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004934029387524359,
      "loss": 0.303,
      "step": 55430
    },
    {
      "epoch": 147.84,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004934005471268607,
      "loss": 0.3022,
      "step": 55440
    },
    {
      "epoch": 147.86666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004933981550736458,
      "loss": 0.3038,
      "step": 55450
    },
    {
      "epoch": 147.89333333333335,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004933957625927954,
      "loss": 0.3039,
      "step": 55460
    },
    {
      "epoch": 147.92,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004933933696843137,
      "loss": 0.3052,
      "step": 55470
    },
    {
      "epoch": 147.94666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000493390976348205,
      "loss": 0.3066,
      "step": 55480
    },
    {
      "epoch": 147.97333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004933885825844733,
      "loss": 0.3147,
      "step": 55490
    },
    {
      "epoch": 148.0,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004933861883931229,
      "loss": 0.3031,
      "step": 55500
    },
    {
      "epoch": 148.0,
      "eval_loss": 0.3972439467906952,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8819,
      "eval_samples_per_second": 1.47,
      "eval_steps_per_second": 0.092,
      "step": 55500
    },
    {
      "epoch": 148.02666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004933837937741581,
      "loss": 0.3256,
      "step": 55510
    },
    {
      "epoch": 148.05333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004933813987275829,
      "loss": 0.3318,
      "step": 55520
    },
    {
      "epoch": 148.08,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004933790032534018,
      "loss": 0.3157,
      "step": 55530
    },
    {
      "epoch": 148.10666666666665,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004933766073516187,
      "loss": 0.3178,
      "step": 55540
    },
    {
      "epoch": 148.13333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004933742110222381,
      "loss": 0.3093,
      "step": 55550
    },
    {
      "epoch": 148.16,
      "grad_norm": 0.205078125,
      "learning_rate": 0.000493371814265264,
      "loss": 0.3157,
      "step": 55560
    },
    {
      "epoch": 148.18666666666667,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004933694170807006,
      "loss": 0.3112,
      "step": 55570
    },
    {
      "epoch": 148.21333333333334,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004933670194685523,
      "loss": 0.2996,
      "step": 55580
    },
    {
      "epoch": 148.24,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004933646214288232,
      "loss": 0.304,
      "step": 55590
    },
    {
      "epoch": 148.26666666666668,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004933622229615174,
      "loss": 0.3101,
      "step": 55600
    },
    {
      "epoch": 148.29333333333332,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004933598240666393,
      "loss": 0.3053,
      "step": 55610
    },
    {
      "epoch": 148.32,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004933574247441931,
      "loss": 0.3128,
      "step": 55620
    },
    {
      "epoch": 148.34666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004933550249941828,
      "loss": 0.3115,
      "step": 55630
    },
    {
      "epoch": 148.37333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000493352624816613,
      "loss": 0.304,
      "step": 55640
    },
    {
      "epoch": 148.4,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004933502242114875,
      "loss": 0.3054,
      "step": 55650
    },
    {
      "epoch": 148.42666666666668,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004933478231788108,
      "loss": 0.3117,
      "step": 55660
    },
    {
      "epoch": 148.45333333333335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000493345421718587,
      "loss": 0.3209,
      "step": 55670
    },
    {
      "epoch": 148.48,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004933430198308204,
      "loss": 0.3163,
      "step": 55680
    },
    {
      "epoch": 148.50666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004933406175155151,
      "loss": 0.3134,
      "step": 55690
    },
    {
      "epoch": 148.53333333333333,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004933382147726754,
      "loss": 0.308,
      "step": 55700
    },
    {
      "epoch": 148.56,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004933358116023056,
      "loss": 0.305,
      "step": 55710
    },
    {
      "epoch": 148.58666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004933334080044097,
      "loss": 0.3079,
      "step": 55720
    },
    {
      "epoch": 148.61333333333334,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004933310039789921,
      "loss": 0.3008,
      "step": 55730
    },
    {
      "epoch": 148.64,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000493328599526057,
      "loss": 0.3016,
      "step": 55740
    },
    {
      "epoch": 148.66666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004933261946456085,
      "loss": 0.3171,
      "step": 55750
    },
    {
      "epoch": 148.69333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004933237893376511,
      "loss": 0.2965,
      "step": 55760
    },
    {
      "epoch": 148.72,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004933213836021887,
      "loss": 0.3118,
      "step": 55770
    },
    {
      "epoch": 148.74666666666667,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004933189774392258,
      "loss": 0.3134,
      "step": 55780
    },
    {
      "epoch": 148.77333333333334,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004933165708487664,
      "loss": 0.3245,
      "step": 55790
    },
    {
      "epoch": 148.8,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004933141638308149,
      "loss": 0.3107,
      "step": 55800
    },
    {
      "epoch": 148.82666666666665,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0004933117563853755,
      "loss": 0.2996,
      "step": 55810
    },
    {
      "epoch": 148.85333333333332,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004933093485124523,
      "loss": 0.304,
      "step": 55820
    },
    {
      "epoch": 148.88,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004933069402120497,
      "loss": 0.3036,
      "step": 55830
    },
    {
      "epoch": 148.90666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004933045314841719,
      "loss": 0.3053,
      "step": 55840
    },
    {
      "epoch": 148.93333333333334,
      "grad_norm": 0.16015625,
      "learning_rate": 0.000493302122328823,
      "loss": 0.3059,
      "step": 55850
    },
    {
      "epoch": 148.96,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004932997127460074,
      "loss": 0.3056,
      "step": 55860
    },
    {
      "epoch": 148.98666666666668,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004932973027357291,
      "loss": 0.3173,
      "step": 55870
    },
    {
      "epoch": 149.0,
      "eval_loss": 0.3967016935348511,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.5981,
      "eval_samples_per_second": 1.27,
      "eval_steps_per_second": 0.079,
      "step": 55875
    },
    {
      "epoch": 149.01333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004932948922979927,
      "loss": 0.3081,
      "step": 55880
    },
    {
      "epoch": 149.04,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.000493292481432802,
      "loss": 0.3349,
      "step": 55890
    },
    {
      "epoch": 149.06666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004932900701401615,
      "loss": 0.3199,
      "step": 55900
    },
    {
      "epoch": 149.09333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004932876584200756,
      "loss": 0.316,
      "step": 55910
    },
    {
      "epoch": 149.12,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004932852462725482,
      "loss": 0.3121,
      "step": 55920
    },
    {
      "epoch": 149.14666666666668,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004932828336975837,
      "loss": 0.3133,
      "step": 55930
    },
    {
      "epoch": 149.17333333333335,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004932804206951863,
      "loss": 0.3133,
      "step": 55940
    },
    {
      "epoch": 149.2,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004932780072653602,
      "loss": 0.3069,
      "step": 55950
    },
    {
      "epoch": 149.22666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004932755934081097,
      "loss": 0.3005,
      "step": 55960
    },
    {
      "epoch": 149.25333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004932731791234391,
      "loss": 0.3007,
      "step": 55970
    },
    {
      "epoch": 149.28,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004932707644113525,
      "loss": 0.3186,
      "step": 55980
    },
    {
      "epoch": 149.30666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004932683492718542,
      "loss": 0.3011,
      "step": 55990
    },
    {
      "epoch": 149.33333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004932659337049485,
      "loss": 0.3156,
      "step": 56000
    },
    {
      "epoch": 149.36,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004932635177106397,
      "loss": 0.3063,
      "step": 56010
    },
    {
      "epoch": 149.38666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004932611012889318,
      "loss": 0.3035,
      "step": 56020
    },
    {
      "epoch": 149.41333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004932586844398292,
      "loss": 0.3096,
      "step": 56030
    },
    {
      "epoch": 149.44,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004932562671633362,
      "loss": 0.3167,
      "step": 56040
    },
    {
      "epoch": 149.46666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000493253849459457,
      "loss": 0.3213,
      "step": 56050
    },
    {
      "epoch": 149.49333333333334,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004932514313281958,
      "loss": 0.3105,
      "step": 56060
    },
    {
      "epoch": 149.52,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004932490127695569,
      "loss": 0.3144,
      "step": 56070
    },
    {
      "epoch": 149.54666666666665,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004932465937835445,
      "loss": 0.3047,
      "step": 56080
    },
    {
      "epoch": 149.57333333333332,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.000493244174370163,
      "loss": 0.3079,
      "step": 56090
    },
    {
      "epoch": 149.6,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004932417545294164,
      "loss": 0.3039,
      "step": 56100
    },
    {
      "epoch": 149.62666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004932393342613091,
      "loss": 0.2998,
      "step": 56110
    },
    {
      "epoch": 149.65333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004932369135658453,
      "loss": 0.312,
      "step": 56120
    },
    {
      "epoch": 149.68,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004932344924430294,
      "loss": 0.3014,
      "step": 56130
    },
    {
      "epoch": 149.70666666666668,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004932320708928655,
      "loss": 0.3016,
      "step": 56140
    },
    {
      "epoch": 149.73333333333332,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000493229648915358,
      "loss": 0.317,
      "step": 56150
    },
    {
      "epoch": 149.76,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004932272265105108,
      "loss": 0.3187,
      "step": 56160
    },
    {
      "epoch": 149.78666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004932248036783285,
      "loss": 0.3197,
      "step": 56170
    },
    {
      "epoch": 149.81333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004932223804188153,
      "loss": 0.3021,
      "step": 56180
    },
    {
      "epoch": 149.84,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004932199567319755,
      "loss": 0.3018,
      "step": 56190
    },
    {
      "epoch": 149.86666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004932175326178132,
      "loss": 0.3037,
      "step": 56200
    },
    {
      "epoch": 149.89333333333335,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004932151080763328,
      "loss": 0.304,
      "step": 56210
    },
    {
      "epoch": 149.92,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004932126831075385,
      "loss": 0.3051,
      "step": 56220
    },
    {
      "epoch": 149.94666666666666,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004932102577114344,
      "loss": 0.3066,
      "step": 56230
    },
    {
      "epoch": 149.97333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004932078318880251,
      "loss": 0.3144,
      "step": 56240
    },
    {
      "epoch": 150.0,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004932054056373147,
      "loss": 0.3026,
      "step": 56250
    },
    {
      "epoch": 150.0,
      "eval_loss": 0.3974718153476715,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1815,
      "eval_samples_per_second": 1.431,
      "eval_steps_per_second": 0.089,
      "step": 56250
    },
    {
      "epoch": 150.02666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004932029789593074,
      "loss": 0.3249,
      "step": 56260
    },
    {
      "epoch": 150.05333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004932005518540073,
      "loss": 0.3313,
      "step": 56270
    },
    {
      "epoch": 150.08,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004931981243214192,
      "loss": 0.3157,
      "step": 56280
    },
    {
      "epoch": 150.10666666666665,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0004931956963615469,
      "loss": 0.3168,
      "step": 56290
    },
    {
      "epoch": 150.13333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004931932679743948,
      "loss": 0.3088,
      "step": 56300
    },
    {
      "epoch": 150.16,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004931908391599671,
      "loss": 0.3155,
      "step": 56310
    },
    {
      "epoch": 150.18666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004931884099182683,
      "loss": 0.3108,
      "step": 56320
    },
    {
      "epoch": 150.21333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004931859802493023,
      "loss": 0.2995,
      "step": 56330
    },
    {
      "epoch": 150.24,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004931835501530737,
      "loss": 0.303,
      "step": 56340
    },
    {
      "epoch": 150.26666666666668,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004931811196295867,
      "loss": 0.3092,
      "step": 56350
    },
    {
      "epoch": 150.29333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004931786886788454,
      "loss": 0.3049,
      "step": 56360
    },
    {
      "epoch": 150.32,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004931762573008542,
      "loss": 0.3118,
      "step": 56370
    },
    {
      "epoch": 150.34666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004931738254956175,
      "loss": 0.3118,
      "step": 56380
    },
    {
      "epoch": 150.37333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004931713932631393,
      "loss": 0.3032,
      "step": 56390
    },
    {
      "epoch": 150.4,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000493168960603424,
      "loss": 0.3051,
      "step": 56400
    },
    {
      "epoch": 150.42666666666668,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000493166527516476,
      "loss": 0.3118,
      "step": 56410
    },
    {
      "epoch": 150.45333333333335,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004931640940022994,
      "loss": 0.3208,
      "step": 56420
    },
    {
      "epoch": 150.48,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004931616600608985,
      "loss": 0.3159,
      "step": 56430
    },
    {
      "epoch": 150.50666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004931592256922775,
      "loss": 0.3129,
      "step": 56440
    },
    {
      "epoch": 150.53333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004931567908964409,
      "loss": 0.308,
      "step": 56450
    },
    {
      "epoch": 150.56,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004931543556733929,
      "loss": 0.3042,
      "step": 56460
    },
    {
      "epoch": 150.58666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004931519200231377,
      "loss": 0.3078,
      "step": 56470
    },
    {
      "epoch": 150.61333333333334,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004931494839456796,
      "loss": 0.2999,
      "step": 56480
    },
    {
      "epoch": 150.64,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004931470474410229,
      "loss": 0.3011,
      "step": 56490
    },
    {
      "epoch": 150.66666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004931446105091718,
      "loss": 0.3173,
      "step": 56500
    },
    {
      "epoch": 150.69333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004931421731501308,
      "loss": 0.296,
      "step": 56510
    },
    {
      "epoch": 150.72,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000493139735363904,
      "loss": 0.3114,
      "step": 56520
    },
    {
      "epoch": 150.74666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004931372971504956,
      "loss": 0.3129,
      "step": 56530
    },
    {
      "epoch": 150.77333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004931348585099102,
      "loss": 0.3242,
      "step": 56540
    },
    {
      "epoch": 150.8,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004931324194421518,
      "loss": 0.3106,
      "step": 56550
    },
    {
      "epoch": 150.82666666666665,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004931299799472247,
      "loss": 0.2998,
      "step": 56560
    },
    {
      "epoch": 150.85333333333332,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004931275400251333,
      "loss": 0.3035,
      "step": 56570
    },
    {
      "epoch": 150.88,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.000493125099675882,
      "loss": 0.3031,
      "step": 56580
    },
    {
      "epoch": 150.90666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004931226588994748,
      "loss": 0.3045,
      "step": 56590
    },
    {
      "epoch": 150.93333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004931202176959162,
      "loss": 0.3057,
      "step": 56600
    },
    {
      "epoch": 150.96,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004931177760652103,
      "loss": 0.3055,
      "step": 56610
    },
    {
      "epoch": 150.98666666666668,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004931153340073617,
      "loss": 0.317,
      "step": 56620
    },
    {
      "epoch": 151.0,
      "eval_loss": 0.3965689539909363,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5425,
      "eval_samples_per_second": 1.386,
      "eval_steps_per_second": 0.087,
      "step": 56625
    },
    {
      "epoch": 151.01333333333332,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004931128915223743,
      "loss": 0.3072,
      "step": 56630
    },
    {
      "epoch": 151.04,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004931104486102527,
      "loss": 0.3337,
      "step": 56640
    },
    {
      "epoch": 151.06666666666666,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004931080052710011,
      "loss": 0.3191,
      "step": 56650
    },
    {
      "epoch": 151.09333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004931055615046237,
      "loss": 0.3155,
      "step": 56660
    },
    {
      "epoch": 151.12,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000493103117311125,
      "loss": 0.3117,
      "step": 56670
    },
    {
      "epoch": 151.14666666666668,
      "grad_norm": 0.228515625,
      "learning_rate": 0.000493100672690509,
      "loss": 0.3124,
      "step": 56680
    },
    {
      "epoch": 151.17333333333335,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004930982276427803,
      "loss": 0.3129,
      "step": 56690
    },
    {
      "epoch": 151.2,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004930957821679429,
      "loss": 0.3063,
      "step": 56700
    },
    {
      "epoch": 151.22666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004930933362660013,
      "loss": 0.3004,
      "step": 56710
    },
    {
      "epoch": 151.25333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004930908899369597,
      "loss": 0.3003,
      "step": 56720
    },
    {
      "epoch": 151.28,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004930884431808226,
      "loss": 0.3181,
      "step": 56730
    },
    {
      "epoch": 151.30666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004930859959975941,
      "loss": 0.3009,
      "step": 56740
    },
    {
      "epoch": 151.33333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004930835483872785,
      "loss": 0.3145,
      "step": 56750
    },
    {
      "epoch": 151.36,
      "grad_norm": 0.205078125,
      "learning_rate": 0.00049308110034988,
      "loss": 0.3059,
      "step": 56760
    },
    {
      "epoch": 151.38666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004930786518854033,
      "loss": 0.3029,
      "step": 56770
    },
    {
      "epoch": 151.41333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004930762029938523,
      "loss": 0.3089,
      "step": 56780
    },
    {
      "epoch": 151.44,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004930737536752314,
      "loss": 0.3166,
      "step": 56790
    },
    {
      "epoch": 151.46666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000493071303929545,
      "loss": 0.3205,
      "step": 56800
    },
    {
      "epoch": 151.49333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004930688537567974,
      "loss": 0.3098,
      "step": 56810
    },
    {
      "epoch": 151.52,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004930664031569928,
      "loss": 0.3141,
      "step": 56820
    },
    {
      "epoch": 151.54666666666665,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004930639521301357,
      "loss": 0.3042,
      "step": 56830
    },
    {
      "epoch": 151.57333333333332,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004930615006762301,
      "loss": 0.3074,
      "step": 56840
    },
    {
      "epoch": 151.6,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004930590487952805,
      "loss": 0.3046,
      "step": 56850
    },
    {
      "epoch": 151.62666666666667,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004930565964872913,
      "loss": 0.2991,
      "step": 56860
    },
    {
      "epoch": 151.65333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004930541437522666,
      "loss": 0.3122,
      "step": 56870
    },
    {
      "epoch": 151.68,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004930516905902108,
      "loss": 0.3003,
      "step": 56880
    },
    {
      "epoch": 151.70666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004930492370011283,
      "loss": 0.3018,
      "step": 56890
    },
    {
      "epoch": 151.73333333333332,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004930467829850233,
      "loss": 0.3171,
      "step": 56900
    },
    {
      "epoch": 151.76,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004930443285419001,
      "loss": 0.3184,
      "step": 56910
    },
    {
      "epoch": 151.78666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000493041873671763,
      "loss": 0.3192,
      "step": 56920
    },
    {
      "epoch": 151.81333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004930394183746165,
      "loss": 0.3021,
      "step": 56930
    },
    {
      "epoch": 151.84,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004930369626504647,
      "loss": 0.3013,
      "step": 56940
    },
    {
      "epoch": 151.86666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004930345064993119,
      "loss": 0.3036,
      "step": 56950
    },
    {
      "epoch": 151.89333333333335,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004930320499211627,
      "loss": 0.3032,
      "step": 56960
    },
    {
      "epoch": 151.92,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004930295929160212,
      "loss": 0.3049,
      "step": 56970
    },
    {
      "epoch": 151.94666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004930271354838915,
      "loss": 0.3066,
      "step": 56980
    },
    {
      "epoch": 151.97333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004930246776247783,
      "loss": 0.3136,
      "step": 56990
    },
    {
      "epoch": 152.0,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004930222193386859,
      "loss": 0.3024,
      "step": 57000
    },
    {
      "epoch": 152.0,
      "eval_loss": 0.3990558683872223,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.4475,
      "eval_samples_per_second": 1.531,
      "eval_steps_per_second": 0.096,
      "step": 57000
    },
    {
      "epoch": 152.02666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004930197606256184,
      "loss": 0.3251,
      "step": 57010
    },
    {
      "epoch": 152.05333333333334,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004930173014855801,
      "loss": 0.3309,
      "step": 57020
    },
    {
      "epoch": 152.08,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004930148419185756,
      "loss": 0.315,
      "step": 57030
    },
    {
      "epoch": 152.10666666666665,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004930123819246089,
      "loss": 0.3167,
      "step": 57040
    },
    {
      "epoch": 152.13333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004930099215036846,
      "loss": 0.3082,
      "step": 57050
    },
    {
      "epoch": 152.16,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004930074606558069,
      "loss": 0.3151,
      "step": 57060
    },
    {
      "epoch": 152.18666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004930049993809801,
      "loss": 0.3107,
      "step": 57070
    },
    {
      "epoch": 152.21333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004930025376792085,
      "loss": 0.2994,
      "step": 57080
    },
    {
      "epoch": 152.24,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004930000755504966,
      "loss": 0.3039,
      "step": 57090
    },
    {
      "epoch": 152.26666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004929976129948484,
      "loss": 0.309,
      "step": 57100
    },
    {
      "epoch": 152.29333333333332,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004929951500122685,
      "loss": 0.3052,
      "step": 57110
    },
    {
      "epoch": 152.32,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004929926866027612,
      "loss": 0.3116,
      "step": 57120
    },
    {
      "epoch": 152.34666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004929902227663308,
      "loss": 0.3108,
      "step": 57130
    },
    {
      "epoch": 152.37333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004929877585029816,
      "loss": 0.3036,
      "step": 57140
    },
    {
      "epoch": 152.4,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004929852938127179,
      "loss": 0.3045,
      "step": 57150
    },
    {
      "epoch": 152.42666666666668,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004929828286955441,
      "loss": 0.3117,
      "step": 57160
    },
    {
      "epoch": 152.45333333333335,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004929803631514645,
      "loss": 0.3201,
      "step": 57170
    },
    {
      "epoch": 152.48,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004929778971804834,
      "loss": 0.316,
      "step": 57180
    },
    {
      "epoch": 152.50666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004929754307826052,
      "loss": 0.3126,
      "step": 57190
    },
    {
      "epoch": 152.53333333333333,
      "grad_norm": 0.154296875,
      "learning_rate": 0.0004929729639578342,
      "loss": 0.3078,
      "step": 57200
    },
    {
      "epoch": 152.56,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004929704967061747,
      "loss": 0.3047,
      "step": 57210
    },
    {
      "epoch": 152.58666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004929680290276311,
      "loss": 0.3077,
      "step": 57220
    },
    {
      "epoch": 152.61333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004929655609222077,
      "loss": 0.2999,
      "step": 57230
    },
    {
      "epoch": 152.64,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004929630923899088,
      "loss": 0.3005,
      "step": 57240
    },
    {
      "epoch": 152.66666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004929606234307388,
      "loss": 0.3172,
      "step": 57250
    },
    {
      "epoch": 152.69333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004929581540447021,
      "loss": 0.2954,
      "step": 57260
    },
    {
      "epoch": 152.72,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004929556842318027,
      "loss": 0.3111,
      "step": 57270
    },
    {
      "epoch": 152.74666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004929532139920454,
      "loss": 0.3132,
      "step": 57280
    },
    {
      "epoch": 152.77333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004929507433254343,
      "loss": 0.3235,
      "step": 57290
    },
    {
      "epoch": 152.8,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004929482722319737,
      "loss": 0.3111,
      "step": 57300
    },
    {
      "epoch": 152.82666666666665,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004929458007116681,
      "loss": 0.2999,
      "step": 57310
    },
    {
      "epoch": 152.85333333333332,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004929433287645217,
      "loss": 0.3037,
      "step": 57320
    },
    {
      "epoch": 152.88,
      "grad_norm": 0.240234375,
      "learning_rate": 0.000492940856390539,
      "loss": 0.3033,
      "step": 57330
    },
    {
      "epoch": 152.90666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004929383835897242,
      "loss": 0.3047,
      "step": 57340
    },
    {
      "epoch": 152.93333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0004929359103620816,
      "loss": 0.3056,
      "step": 57350
    },
    {
      "epoch": 152.96,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004929334367076157,
      "loss": 0.3051,
      "step": 57360
    },
    {
      "epoch": 152.98666666666668,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004929309626263308,
      "loss": 0.3167,
      "step": 57370
    },
    {
      "epoch": 153.0,
      "eval_loss": 0.39711153507232666,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6041,
      "eval_samples_per_second": 1.509,
      "eval_steps_per_second": 0.094,
      "step": 57375
    },
    {
      "epoch": 153.01333333333332,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004929284881182312,
      "loss": 0.3078,
      "step": 57380
    },
    {
      "epoch": 153.04,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004929260131833213,
      "loss": 0.334,
      "step": 57390
    },
    {
      "epoch": 153.06666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004929235378216053,
      "loss": 0.3189,
      "step": 57400
    },
    {
      "epoch": 153.09333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004929210620330879,
      "loss": 0.3156,
      "step": 57410
    },
    {
      "epoch": 153.12,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000492918585817773,
      "loss": 0.3116,
      "step": 57420
    },
    {
      "epoch": 153.14666666666668,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004929161091756653,
      "loss": 0.3129,
      "step": 57430
    },
    {
      "epoch": 153.17333333333335,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004929136321067689,
      "loss": 0.3131,
      "step": 57440
    },
    {
      "epoch": 153.2,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004929111546110885,
      "loss": 0.3061,
      "step": 57450
    },
    {
      "epoch": 153.22666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000492908676688628,
      "loss": 0.2999,
      "step": 57460
    },
    {
      "epoch": 153.25333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004929061983393921,
      "loss": 0.3,
      "step": 57470
    },
    {
      "epoch": 153.28,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004929037195633849,
      "loss": 0.3181,
      "step": 57480
    },
    {
      "epoch": 153.30666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004929012403606111,
      "loss": 0.3003,
      "step": 57490
    },
    {
      "epoch": 153.33333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004928987607310748,
      "loss": 0.3144,
      "step": 57500
    },
    {
      "epoch": 153.36,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004928962806747803,
      "loss": 0.3061,
      "step": 57510
    },
    {
      "epoch": 153.38666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004928938001917321,
      "loss": 0.3034,
      "step": 57520
    },
    {
      "epoch": 153.41333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004928913192819345,
      "loss": 0.3087,
      "step": 57530
    },
    {
      "epoch": 153.44,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004928888379453919,
      "loss": 0.3164,
      "step": 57540
    },
    {
      "epoch": 153.46666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004928863561821087,
      "loss": 0.3202,
      "step": 57550
    },
    {
      "epoch": 153.49333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004928838739920892,
      "loss": 0.3098,
      "step": 57560
    },
    {
      "epoch": 153.52,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004928813913753377,
      "loss": 0.3138,
      "step": 57570
    },
    {
      "epoch": 153.54666666666665,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004928789083318585,
      "loss": 0.3043,
      "step": 57580
    },
    {
      "epoch": 153.57333333333332,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004928764248616562,
      "loss": 0.3072,
      "step": 57590
    },
    {
      "epoch": 153.6,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004928739409647351,
      "loss": 0.304,
      "step": 57600
    },
    {
      "epoch": 153.62666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004928714566410994,
      "loss": 0.2993,
      "step": 57610
    },
    {
      "epoch": 153.65333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004928689718907536,
      "loss": 0.3114,
      "step": 57620
    },
    {
      "epoch": 153.68,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.000492866486713702,
      "loss": 0.3008,
      "step": 57630
    },
    {
      "epoch": 153.70666666666668,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004928640011099491,
      "loss": 0.3013,
      "step": 57640
    },
    {
      "epoch": 153.73333333333332,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004928615150794992,
      "loss": 0.3167,
      "step": 57650
    },
    {
      "epoch": 153.76,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004928590286223566,
      "loss": 0.3185,
      "step": 57660
    },
    {
      "epoch": 153.78666666666666,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004928565417385256,
      "loss": 0.3192,
      "step": 57670
    },
    {
      "epoch": 153.81333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004928540544280107,
      "loss": 0.3018,
      "step": 57680
    },
    {
      "epoch": 153.84,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004928515666908164,
      "loss": 0.3012,
      "step": 57690
    },
    {
      "epoch": 153.86666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004928490785269468,
      "loss": 0.3031,
      "step": 57700
    },
    {
      "epoch": 153.89333333333335,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004928465899364065,
      "loss": 0.3032,
      "step": 57710
    },
    {
      "epoch": 153.92,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004928441009191996,
      "loss": 0.3049,
      "step": 57720
    },
    {
      "epoch": 153.94666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004928416114753308,
      "loss": 0.3066,
      "step": 57730
    },
    {
      "epoch": 153.97333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004928391216048043,
      "loss": 0.314,
      "step": 57740
    },
    {
      "epoch": 154.0,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004928366313076243,
      "loss": 0.3024,
      "step": 57750
    },
    {
      "epoch": 154.0,
      "eval_loss": 0.39845743775367737,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9709,
      "eval_samples_per_second": 1.458,
      "eval_steps_per_second": 0.091,
      "step": 57750
    },
    {
      "epoch": 154.02666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004928341405837956,
      "loss": 0.3245,
      "step": 57760
    },
    {
      "epoch": 154.05333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004928316494333222,
      "loss": 0.3313,
      "step": 57770
    },
    {
      "epoch": 154.08,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004928291578562086,
      "loss": 0.3151,
      "step": 57780
    },
    {
      "epoch": 154.10666666666665,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004928266658524592,
      "loss": 0.3166,
      "step": 57790
    },
    {
      "epoch": 154.13333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004928241734220785,
      "loss": 0.3078,
      "step": 57800
    },
    {
      "epoch": 154.16,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004928216805650706,
      "loss": 0.3151,
      "step": 57810
    },
    {
      "epoch": 154.18666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004928191872814401,
      "loss": 0.3104,
      "step": 57820
    },
    {
      "epoch": 154.21333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004928166935711913,
      "loss": 0.2989,
      "step": 57830
    },
    {
      "epoch": 154.24,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004928141994343285,
      "loss": 0.3033,
      "step": 57840
    },
    {
      "epoch": 154.26666666666668,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004928117048708562,
      "loss": 0.3089,
      "step": 57850
    },
    {
      "epoch": 154.29333333333332,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004928092098807789,
      "loss": 0.3045,
      "step": 57860
    },
    {
      "epoch": 154.32,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004928067144641008,
      "loss": 0.3116,
      "step": 57870
    },
    {
      "epoch": 154.34666666666666,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004928042186208262,
      "loss": 0.3109,
      "step": 57880
    },
    {
      "epoch": 154.37333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004928017223509596,
      "loss": 0.3031,
      "step": 57890
    },
    {
      "epoch": 154.4,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004927992256545055,
      "loss": 0.3045,
      "step": 57900
    },
    {
      "epoch": 154.42666666666668,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004927967285314682,
      "loss": 0.3121,
      "step": 57910
    },
    {
      "epoch": 154.45333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000492794230981852,
      "loss": 0.3201,
      "step": 57920
    },
    {
      "epoch": 154.48,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004927917330056613,
      "loss": 0.3154,
      "step": 57930
    },
    {
      "epoch": 154.50666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004927892346029006,
      "loss": 0.3124,
      "step": 57940
    },
    {
      "epoch": 154.53333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004927867357735743,
      "loss": 0.307,
      "step": 57950
    },
    {
      "epoch": 154.56,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004927842365176866,
      "loss": 0.3038,
      "step": 57960
    },
    {
      "epoch": 154.58666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004927817368352421,
      "loss": 0.3077,
      "step": 57970
    },
    {
      "epoch": 154.61333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004927792367262451,
      "loss": 0.2993,
      "step": 57980
    },
    {
      "epoch": 154.64,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004927767361907,
      "loss": 0.3009,
      "step": 57990
    },
    {
      "epoch": 154.66666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004927742352286112,
      "loss": 0.3169,
      "step": 58000
    },
    {
      "epoch": 154.69333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004927717338399831,
      "loss": 0.2956,
      "step": 58010
    },
    {
      "epoch": 154.72,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0004927692320248199,
      "loss": 0.3113,
      "step": 58020
    },
    {
      "epoch": 154.74666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004927667297831265,
      "loss": 0.3129,
      "step": 58030
    },
    {
      "epoch": 154.77333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004927642271149067,
      "loss": 0.324,
      "step": 58040
    },
    {
      "epoch": 154.8,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004927617240201652,
      "loss": 0.3096,
      "step": 58050
    },
    {
      "epoch": 154.82666666666665,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004927592204989065,
      "loss": 0.2993,
      "step": 58060
    },
    {
      "epoch": 154.85333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004927567165511347,
      "loss": 0.3032,
      "step": 58070
    },
    {
      "epoch": 154.88,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004927542121768545,
      "loss": 0.303,
      "step": 58080
    },
    {
      "epoch": 154.90666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004927517073760702,
      "loss": 0.3047,
      "step": 58090
    },
    {
      "epoch": 154.93333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000492749202148786,
      "loss": 0.3046,
      "step": 58100
    },
    {
      "epoch": 154.96,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004927466964950066,
      "loss": 0.3046,
      "step": 58110
    },
    {
      "epoch": 154.98666666666668,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004927441904147363,
      "loss": 0.3171,
      "step": 58120
    },
    {
      "epoch": 155.0,
      "eval_loss": 0.39804381132125854,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.4154,
      "eval_samples_per_second": 1.536,
      "eval_steps_per_second": 0.096,
      "step": 58125
    },
    {
      "epoch": 155.01333333333332,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004927416839079794,
      "loss": 0.3078,
      "step": 58130
    },
    {
      "epoch": 155.04,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004927391769747404,
      "loss": 0.3339,
      "step": 58140
    },
    {
      "epoch": 155.06666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004927366696150236,
      "loss": 0.3191,
      "step": 58150
    },
    {
      "epoch": 155.09333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004927341618288335,
      "loss": 0.3153,
      "step": 58160
    },
    {
      "epoch": 155.12,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004927316536161746,
      "loss": 0.3116,
      "step": 58170
    },
    {
      "epoch": 155.14666666666668,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004927291449770511,
      "loss": 0.3125,
      "step": 58180
    },
    {
      "epoch": 155.17333333333335,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004927266359114676,
      "loss": 0.3121,
      "step": 58190
    },
    {
      "epoch": 155.2,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004927241264194284,
      "loss": 0.3056,
      "step": 58200
    },
    {
      "epoch": 155.22666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004927216165009379,
      "loss": 0.3006,
      "step": 58210
    },
    {
      "epoch": 155.25333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004927191061560005,
      "loss": 0.3003,
      "step": 58220
    },
    {
      "epoch": 155.28,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004927165953846207,
      "loss": 0.3183,
      "step": 58230
    },
    {
      "epoch": 155.30666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004927140841868028,
      "loss": 0.3001,
      "step": 58240
    },
    {
      "epoch": 155.33333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004927115725625513,
      "loss": 0.3142,
      "step": 58250
    },
    {
      "epoch": 155.36,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004927090605118706,
      "loss": 0.3055,
      "step": 58260
    },
    {
      "epoch": 155.38666666666666,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.000492706548034765,
      "loss": 0.3029,
      "step": 58270
    },
    {
      "epoch": 155.41333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004927040351312392,
      "loss": 0.3085,
      "step": 58280
    },
    {
      "epoch": 155.44,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004927015218012973,
      "loss": 0.3161,
      "step": 58290
    },
    {
      "epoch": 155.46666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004926990080449438,
      "loss": 0.3197,
      "step": 58300
    },
    {
      "epoch": 155.49333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004926964938621832,
      "loss": 0.3094,
      "step": 58310
    },
    {
      "epoch": 155.52,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004926939792530198,
      "loss": 0.3129,
      "step": 58320
    },
    {
      "epoch": 155.54666666666665,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004926914642174583,
      "loss": 0.3038,
      "step": 58330
    },
    {
      "epoch": 155.57333333333332,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004926889487555028,
      "loss": 0.3066,
      "step": 58340
    },
    {
      "epoch": 155.6,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004926864328671577,
      "loss": 0.304,
      "step": 58350
    },
    {
      "epoch": 155.62666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004926839165524276,
      "loss": 0.2989,
      "step": 58360
    },
    {
      "epoch": 155.65333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000492681399811317,
      "loss": 0.3115,
      "step": 58370
    },
    {
      "epoch": 155.68,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004926788826438301,
      "loss": 0.3006,
      "step": 58380
    },
    {
      "epoch": 155.70666666666668,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004926763650499714,
      "loss": 0.3015,
      "step": 58390
    },
    {
      "epoch": 155.73333333333332,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0004926738470297454,
      "loss": 0.3163,
      "step": 58400
    },
    {
      "epoch": 155.76,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004926713285831564,
      "loss": 0.3186,
      "step": 58410
    },
    {
      "epoch": 155.78666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000492668809710209,
      "loss": 0.3185,
      "step": 58420
    },
    {
      "epoch": 155.81333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004926662904109073,
      "loss": 0.3016,
      "step": 58430
    },
    {
      "epoch": 155.84,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004926637706852561,
      "loss": 0.3006,
      "step": 58440
    },
    {
      "epoch": 155.86666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004926612505332598,
      "loss": 0.3031,
      "step": 58450
    },
    {
      "epoch": 155.89333333333335,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004926587299549224,
      "loss": 0.3029,
      "step": 58460
    },
    {
      "epoch": 155.92,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004926562089502488,
      "loss": 0.304,
      "step": 58470
    },
    {
      "epoch": 155.94666666666666,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004926536875192433,
      "loss": 0.3063,
      "step": 58480
    },
    {
      "epoch": 155.97333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004926511656619101,
      "loss": 0.3133,
      "step": 58490
    },
    {
      "epoch": 156.0,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004926486433782539,
      "loss": 0.3018,
      "step": 58500
    },
    {
      "epoch": 156.0,
      "eval_loss": 0.3994687795639038,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.5168,
      "eval_samples_per_second": 1.389,
      "eval_steps_per_second": 0.087,
      "step": 58500
    },
    {
      "epoch": 156.02666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000492646120668279,
      "loss": 0.3239,
      "step": 58510
    },
    {
      "epoch": 156.05333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00049264359753199,
      "loss": 0.3306,
      "step": 58520
    },
    {
      "epoch": 156.08,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004926410739693911,
      "loss": 0.3146,
      "step": 58530
    },
    {
      "epoch": 156.10666666666665,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004926385499804868,
      "loss": 0.3164,
      "step": 58540
    },
    {
      "epoch": 156.13333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004926360255652816,
      "loss": 0.3079,
      "step": 58550
    },
    {
      "epoch": 156.16,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00049263350072378,
      "loss": 0.3148,
      "step": 58560
    },
    {
      "epoch": 156.18666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004926309754559864,
      "loss": 0.3104,
      "step": 58570
    },
    {
      "epoch": 156.21333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.000492628449761905,
      "loss": 0.2983,
      "step": 58580
    },
    {
      "epoch": 156.24,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004926259236415405,
      "loss": 0.3026,
      "step": 58590
    },
    {
      "epoch": 156.26666666666668,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004926233970948973,
      "loss": 0.309,
      "step": 58600
    },
    {
      "epoch": 156.29333333333332,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004926208701219797,
      "loss": 0.3044,
      "step": 58610
    },
    {
      "epoch": 156.32,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004926183427227924,
      "loss": 0.3117,
      "step": 58620
    },
    {
      "epoch": 156.34666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004926158148973396,
      "loss": 0.3104,
      "step": 58630
    },
    {
      "epoch": 156.37333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004926132866456258,
      "loss": 0.3026,
      "step": 58640
    },
    {
      "epoch": 156.4,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004926107579676555,
      "loss": 0.3042,
      "step": 58650
    },
    {
      "epoch": 156.42666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000492608228863433,
      "loss": 0.3115,
      "step": 58660
    },
    {
      "epoch": 156.45333333333335,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000492605699332963,
      "loss": 0.3196,
      "step": 58670
    },
    {
      "epoch": 156.48,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004926031693762497,
      "loss": 0.3148,
      "step": 58680
    },
    {
      "epoch": 156.50666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004926006389932977,
      "loss": 0.3122,
      "step": 58690
    },
    {
      "epoch": 156.53333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004925981081841113,
      "loss": 0.3072,
      "step": 58700
    },
    {
      "epoch": 156.56,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004925955769486952,
      "loss": 0.3032,
      "step": 58710
    },
    {
      "epoch": 156.58666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004925930452870536,
      "loss": 0.3074,
      "step": 58720
    },
    {
      "epoch": 156.61333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004925905131991909,
      "loss": 0.2985,
      "step": 58730
    },
    {
      "epoch": 156.64,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004925879806851117,
      "loss": 0.3005,
      "step": 58740
    },
    {
      "epoch": 156.66666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004925854477448205,
      "loss": 0.316,
      "step": 58750
    },
    {
      "epoch": 156.69333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004925829143783217,
      "loss": 0.2951,
      "step": 58760
    },
    {
      "epoch": 156.72,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004925803805856196,
      "loss": 0.3111,
      "step": 58770
    },
    {
      "epoch": 156.74666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004925778463667189,
      "loss": 0.3121,
      "step": 58780
    },
    {
      "epoch": 156.77333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004925753117216239,
      "loss": 0.3234,
      "step": 58790
    },
    {
      "epoch": 156.8,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000492572776650339,
      "loss": 0.3096,
      "step": 58800
    },
    {
      "epoch": 156.82666666666665,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004925702411528688,
      "loss": 0.2989,
      "step": 58810
    },
    {
      "epoch": 156.85333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004925677052292178,
      "loss": 0.3026,
      "step": 58820
    },
    {
      "epoch": 156.88,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004925651688793902,
      "loss": 0.3019,
      "step": 58830
    },
    {
      "epoch": 156.90666666666667,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004925626321033907,
      "loss": 0.3042,
      "step": 58840
    },
    {
      "epoch": 156.93333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004925600949012236,
      "loss": 0.305,
      "step": 58850
    },
    {
      "epoch": 156.96,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004925575572728934,
      "loss": 0.3044,
      "step": 58860
    },
    {
      "epoch": 156.98666666666668,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004925550192184046,
      "loss": 0.3168,
      "step": 58870
    },
    {
      "epoch": 157.0,
      "eval_loss": 0.399666965007782,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7841,
      "eval_samples_per_second": 1.484,
      "eval_steps_per_second": 0.093,
      "step": 58875
    },
    {
      "epoch": 157.01333333333332,
      "grad_norm": 0.3125,
      "learning_rate": 0.0004925524807377617,
      "loss": 0.3075,
      "step": 58880
    },
    {
      "epoch": 157.04,
      "grad_norm": 0.236328125,
      "learning_rate": 0.000492549941830969,
      "loss": 0.3333,
      "step": 58890
    },
    {
      "epoch": 157.06666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0004925474024980311,
      "loss": 0.3182,
      "step": 58900
    },
    {
      "epoch": 157.09333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004925448627389524,
      "loss": 0.3153,
      "step": 58910
    },
    {
      "epoch": 157.12,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004925423225537374,
      "loss": 0.3108,
      "step": 58920
    },
    {
      "epoch": 157.14666666666668,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004925397819423906,
      "loss": 0.3119,
      "step": 58930
    },
    {
      "epoch": 157.17333333333335,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004925372409049163,
      "loss": 0.3124,
      "step": 58940
    },
    {
      "epoch": 157.2,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004925346994413191,
      "loss": 0.3055,
      "step": 58950
    },
    {
      "epoch": 157.22666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004925321575516034,
      "loss": 0.2997,
      "step": 58960
    },
    {
      "epoch": 157.25333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004925296152357738,
      "loss": 0.2998,
      "step": 58970
    },
    {
      "epoch": 157.28,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004925270724938346,
      "loss": 0.3172,
      "step": 58980
    },
    {
      "epoch": 157.30666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004925245293257904,
      "loss": 0.2997,
      "step": 58990
    },
    {
      "epoch": 157.33333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004925219857316455,
      "loss": 0.3141,
      "step": 59000
    },
    {
      "epoch": 157.36,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004925194417114045,
      "loss": 0.3051,
      "step": 59010
    },
    {
      "epoch": 157.38666666666666,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004925168972650718,
      "loss": 0.3024,
      "step": 59020
    },
    {
      "epoch": 157.41333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000492514352392652,
      "loss": 0.3079,
      "step": 59030
    },
    {
      "epoch": 157.44,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004925118070941496,
      "loss": 0.3157,
      "step": 59040
    },
    {
      "epoch": 157.46666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004925092613695687,
      "loss": 0.3194,
      "step": 59050
    },
    {
      "epoch": 157.49333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004925067152189142,
      "loss": 0.3089,
      "step": 59060
    },
    {
      "epoch": 157.52,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004925041686421904,
      "loss": 0.3132,
      "step": 59070
    },
    {
      "epoch": 157.54666666666665,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004925016216394017,
      "loss": 0.3031,
      "step": 59080
    },
    {
      "epoch": 157.57333333333332,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004924990742105527,
      "loss": 0.3067,
      "step": 59090
    },
    {
      "epoch": 157.6,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004924965263556478,
      "loss": 0.3036,
      "step": 59100
    },
    {
      "epoch": 157.62666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004924939780746915,
      "loss": 0.2987,
      "step": 59110
    },
    {
      "epoch": 157.65333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004924914293676883,
      "loss": 0.3118,
      "step": 59120
    },
    {
      "epoch": 157.68,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004924888802346427,
      "loss": 0.2997,
      "step": 59130
    },
    {
      "epoch": 157.70666666666668,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004924863306755591,
      "loss": 0.3012,
      "step": 59140
    },
    {
      "epoch": 157.73333333333332,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004924837806904419,
      "loss": 0.3164,
      "step": 59150
    },
    {
      "epoch": 157.76,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000492481230279296,
      "loss": 0.3177,
      "step": 59160
    },
    {
      "epoch": 157.78666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004924786794421254,
      "loss": 0.3187,
      "step": 59170
    },
    {
      "epoch": 157.81333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004924761281789346,
      "loss": 0.3011,
      "step": 59180
    },
    {
      "epoch": 157.84,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004924735764897285,
      "loss": 0.3006,
      "step": 59190
    },
    {
      "epoch": 157.86666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004924710243745112,
      "loss": 0.303,
      "step": 59200
    },
    {
      "epoch": 157.89333333333335,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004924684718332872,
      "loss": 0.3025,
      "step": 59210
    },
    {
      "epoch": 157.92,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004924659188660612,
      "loss": 0.304,
      "step": 59220
    },
    {
      "epoch": 157.94666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004924633654728377,
      "loss": 0.3051,
      "step": 59230
    },
    {
      "epoch": 157.97333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000492460811653621,
      "loss": 0.3132,
      "step": 59240
    },
    {
      "epoch": 158.0,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004924582574084155,
      "loss": 0.3014,
      "step": 59250
    },
    {
      "epoch": 158.0,
      "eval_loss": 0.39744657278060913,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3474,
      "eval_samples_per_second": 1.41,
      "eval_steps_per_second": 0.088,
      "step": 59250
    },
    {
      "epoch": 158.02666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004924557027372261,
      "loss": 0.3244,
      "step": 59260
    },
    {
      "epoch": 158.05333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004924531476400568,
      "loss": 0.3305,
      "step": 59270
    },
    {
      "epoch": 158.08,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004924505921169124,
      "loss": 0.3144,
      "step": 59280
    },
    {
      "epoch": 158.10666666666665,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004924480361677973,
      "loss": 0.3163,
      "step": 59290
    },
    {
      "epoch": 158.13333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004924454797927161,
      "loss": 0.3071,
      "step": 59300
    },
    {
      "epoch": 158.16,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.000492442922991673,
      "loss": 0.3147,
      "step": 59310
    },
    {
      "epoch": 158.18666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004924403657646728,
      "loss": 0.3097,
      "step": 59320
    },
    {
      "epoch": 158.21333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004924378081117199,
      "loss": 0.2988,
      "step": 59330
    },
    {
      "epoch": 158.24,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004924352500328186,
      "loss": 0.3026,
      "step": 59340
    },
    {
      "epoch": 158.26666666666668,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004924326915279738,
      "loss": 0.308,
      "step": 59350
    },
    {
      "epoch": 158.29333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004924301325971896,
      "loss": 0.3043,
      "step": 59360
    },
    {
      "epoch": 158.32,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004924275732404706,
      "loss": 0.3113,
      "step": 59370
    },
    {
      "epoch": 158.34666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004924250134578216,
      "loss": 0.3106,
      "step": 59380
    },
    {
      "epoch": 158.37333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0004924224532492466,
      "loss": 0.3023,
      "step": 59390
    },
    {
      "epoch": 158.4,
      "grad_norm": 0.375,
      "learning_rate": 0.0004924198926147505,
      "loss": 0.3041,
      "step": 59400
    },
    {
      "epoch": 158.42666666666668,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004924173315543376,
      "loss": 0.311,
      "step": 59410
    },
    {
      "epoch": 158.45333333333335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004924147700680123,
      "loss": 0.3192,
      "step": 59420
    },
    {
      "epoch": 158.48,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004924122081557794,
      "loss": 0.3148,
      "step": 59430
    },
    {
      "epoch": 158.50666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004924096458176433,
      "loss": 0.3123,
      "step": 59440
    },
    {
      "epoch": 158.53333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004924070830536083,
      "loss": 0.307,
      "step": 59450
    },
    {
      "epoch": 158.56,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004924045198636791,
      "loss": 0.3032,
      "step": 59460
    },
    {
      "epoch": 158.58666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004924019562478601,
      "loss": 0.3069,
      "step": 59470
    },
    {
      "epoch": 158.61333333333334,
      "grad_norm": 0.158203125,
      "learning_rate": 0.000492399392206156,
      "loss": 0.2995,
      "step": 59480
    },
    {
      "epoch": 158.64,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004923968277385711,
      "loss": 0.3001,
      "step": 59490
    },
    {
      "epoch": 158.66666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004923942628451099,
      "loss": 0.3158,
      "step": 59500
    },
    {
      "epoch": 158.69333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004923916975257771,
      "loss": 0.295,
      "step": 59510
    },
    {
      "epoch": 158.72,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000492389131780577,
      "loss": 0.3104,
      "step": 59520
    },
    {
      "epoch": 158.74666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004923865656095141,
      "loss": 0.312,
      "step": 59530
    },
    {
      "epoch": 158.77333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004923839990125931,
      "loss": 0.3233,
      "step": 59540
    },
    {
      "epoch": 158.8,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004923814319898184,
      "loss": 0.3102,
      "step": 59550
    },
    {
      "epoch": 158.82666666666665,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004923788645411946,
      "loss": 0.2992,
      "step": 59560
    },
    {
      "epoch": 158.85333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000492376296666726,
      "loss": 0.3028,
      "step": 59570
    },
    {
      "epoch": 158.88,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004923737283664174,
      "loss": 0.3019,
      "step": 59580
    },
    {
      "epoch": 158.90666666666667,
      "grad_norm": 0.248046875,
      "learning_rate": 0.000492371159640273,
      "loss": 0.3038,
      "step": 59590
    },
    {
      "epoch": 158.93333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004923685904882976,
      "loss": 0.3051,
      "step": 59600
    },
    {
      "epoch": 158.96,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004923660209104954,
      "loss": 0.3046,
      "step": 59610
    },
    {
      "epoch": 158.98666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004923634509068712,
      "loss": 0.3164,
      "step": 59620
    },
    {
      "epoch": 159.0,
      "eval_loss": 0.3962443768978119,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.696,
      "eval_samples_per_second": 1.368,
      "eval_steps_per_second": 0.085,
      "step": 59625
    },
    {
      "epoch": 159.01333333333332,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004923608804774293,
      "loss": 0.3069,
      "step": 59630
    },
    {
      "epoch": 159.04,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004923583096221744,
      "loss": 0.3337,
      "step": 59640
    },
    {
      "epoch": 159.06666666666666,
      "grad_norm": 0.455078125,
      "learning_rate": 0.000492355738341111,
      "loss": 0.3184,
      "step": 59650
    },
    {
      "epoch": 159.09333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004923531666342436,
      "loss": 0.3142,
      "step": 59660
    },
    {
      "epoch": 159.12,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004923505945015766,
      "loss": 0.3115,
      "step": 59670
    },
    {
      "epoch": 159.14666666666668,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004923480219431145,
      "loss": 0.3122,
      "step": 59680
    },
    {
      "epoch": 159.17333333333335,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000492345448958862,
      "loss": 0.3128,
      "step": 59690
    },
    {
      "epoch": 159.2,
      "grad_norm": 0.25,
      "learning_rate": 0.0004923428755488235,
      "loss": 0.3055,
      "step": 59700
    },
    {
      "epoch": 159.22666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004923403017130037,
      "loss": 0.2994,
      "step": 59710
    },
    {
      "epoch": 159.25333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004923377274514069,
      "loss": 0.2988,
      "step": 59720
    },
    {
      "epoch": 159.28,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004923351527640376,
      "loss": 0.3172,
      "step": 59730
    },
    {
      "epoch": 159.30666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004923325776509006,
      "loss": 0.2994,
      "step": 59740
    },
    {
      "epoch": 159.33333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004923300021120002,
      "loss": 0.3133,
      "step": 59750
    },
    {
      "epoch": 159.36,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004923274261473409,
      "loss": 0.3047,
      "step": 59760
    },
    {
      "epoch": 159.38666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004923248497569274,
      "loss": 0.3026,
      "step": 59770
    },
    {
      "epoch": 159.41333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004923222729407641,
      "loss": 0.3077,
      "step": 59780
    },
    {
      "epoch": 159.44,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004923196956988555,
      "loss": 0.3158,
      "step": 59790
    },
    {
      "epoch": 159.46666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004923171180312062,
      "loss": 0.3196,
      "step": 59800
    },
    {
      "epoch": 159.49333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004923145399378207,
      "loss": 0.3092,
      "step": 59810
    },
    {
      "epoch": 159.52,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004923119614187036,
      "loss": 0.3129,
      "step": 59820
    },
    {
      "epoch": 159.54666666666665,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004923093824738594,
      "loss": 0.3035,
      "step": 59830
    },
    {
      "epoch": 159.57333333333332,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0004923068031032925,
      "loss": 0.3065,
      "step": 59840
    },
    {
      "epoch": 159.6,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004923042233070075,
      "loss": 0.3026,
      "step": 59850
    },
    {
      "epoch": 159.62666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004923016430850092,
      "loss": 0.2988,
      "step": 59860
    },
    {
      "epoch": 159.65333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004922990624373016,
      "loss": 0.3115,
      "step": 59870
    },
    {
      "epoch": 159.68,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004922964813638898,
      "loss": 0.3002,
      "step": 59880
    },
    {
      "epoch": 159.70666666666668,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004922938998647779,
      "loss": 0.3009,
      "step": 59890
    },
    {
      "epoch": 159.73333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004922913179399706,
      "loss": 0.3163,
      "step": 59900
    },
    {
      "epoch": 159.76,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004922887355894726,
      "loss": 0.3176,
      "step": 59910
    },
    {
      "epoch": 159.78666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004922861528132882,
      "loss": 0.3184,
      "step": 59920
    },
    {
      "epoch": 159.81333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000492283569611422,
      "loss": 0.3008,
      "step": 59930
    },
    {
      "epoch": 159.84,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004922809859838785,
      "loss": 0.3005,
      "step": 59940
    },
    {
      "epoch": 159.86666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004922784019306624,
      "loss": 0.302,
      "step": 59950
    },
    {
      "epoch": 159.89333333333335,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004922758174517781,
      "loss": 0.3028,
      "step": 59960
    },
    {
      "epoch": 159.92,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004922732325472301,
      "loss": 0.3036,
      "step": 59970
    },
    {
      "epoch": 159.94666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004922706472170231,
      "loss": 0.306,
      "step": 59980
    },
    {
      "epoch": 159.97333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004922680614611616,
      "loss": 0.3125,
      "step": 59990
    },
    {
      "epoch": 160.0,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00049226547527965,
      "loss": 0.3015,
      "step": 60000
    },
    {
      "epoch": 160.0,
      "eval_loss": 0.39841678738594055,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3741,
      "eval_samples_per_second": 1.407,
      "eval_steps_per_second": 0.088,
      "step": 60000
    },
    {
      "epoch": 160.02666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.000492262888672493,
      "loss": 0.3244,
      "step": 60010
    },
    {
      "epoch": 160.05333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004922603016396951,
      "loss": 0.3297,
      "step": 60020
    },
    {
      "epoch": 160.08,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004922577141812609,
      "loss": 0.3137,
      "step": 60030
    },
    {
      "epoch": 160.10666666666665,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004922551262971947,
      "loss": 0.3158,
      "step": 60040
    },
    {
      "epoch": 160.13333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004922525379875013,
      "loss": 0.3072,
      "step": 60050
    },
    {
      "epoch": 160.16,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004922499492521853,
      "loss": 0.3138,
      "step": 60060
    },
    {
      "epoch": 160.18666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000492247360091251,
      "loss": 0.31,
      "step": 60070
    },
    {
      "epoch": 160.21333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004922447705047031,
      "loss": 0.2979,
      "step": 60080
    },
    {
      "epoch": 160.24,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004922421804925461,
      "loss": 0.302,
      "step": 60090
    },
    {
      "epoch": 160.26666666666668,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004922395900547845,
      "loss": 0.308,
      "step": 60100
    },
    {
      "epoch": 160.29333333333332,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004922369991914231,
      "loss": 0.3034,
      "step": 60110
    },
    {
      "epoch": 160.32,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004922344079024662,
      "loss": 0.3108,
      "step": 60120
    },
    {
      "epoch": 160.34666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004922318161879184,
      "loss": 0.3101,
      "step": 60130
    },
    {
      "epoch": 160.37333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004922292240477844,
      "loss": 0.3021,
      "step": 60140
    },
    {
      "epoch": 160.4,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004922266314820686,
      "loss": 0.3036,
      "step": 60150
    },
    {
      "epoch": 160.42666666666668,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004922240384907754,
      "loss": 0.3107,
      "step": 60160
    },
    {
      "epoch": 160.45333333333335,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004922214450739097,
      "loss": 0.3192,
      "step": 60170
    },
    {
      "epoch": 160.48,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004922188512314759,
      "loss": 0.3148,
      "step": 60180
    },
    {
      "epoch": 160.50666666666666,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004922162569634786,
      "loss": 0.3113,
      "step": 60190
    },
    {
      "epoch": 160.53333333333333,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004922136622699223,
      "loss": 0.3064,
      "step": 60200
    },
    {
      "epoch": 160.56,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004922110671508115,
      "loss": 0.3034,
      "step": 60210
    },
    {
      "epoch": 160.58666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000492208471606151,
      "loss": 0.3066,
      "step": 60220
    },
    {
      "epoch": 160.61333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000492205875635945,
      "loss": 0.299,
      "step": 60230
    },
    {
      "epoch": 160.64,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004922032792401984,
      "loss": 0.2994,
      "step": 60240
    },
    {
      "epoch": 160.66666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004922006824189156,
      "loss": 0.3162,
      "step": 60250
    },
    {
      "epoch": 160.69333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004921980851721011,
      "loss": 0.2943,
      "step": 60260
    },
    {
      "epoch": 160.72,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004921954874997596,
      "loss": 0.3102,
      "step": 60270
    },
    {
      "epoch": 160.74666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004921928894018957,
      "loss": 0.3121,
      "step": 60280
    },
    {
      "epoch": 160.77333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004921902908785138,
      "loss": 0.3226,
      "step": 60290
    },
    {
      "epoch": 160.8,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004921876919296185,
      "loss": 0.3097,
      "step": 60300
    },
    {
      "epoch": 160.82666666666665,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004921850925552144,
      "loss": 0.2988,
      "step": 60310
    },
    {
      "epoch": 160.85333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004921824927553061,
      "loss": 0.3024,
      "step": 60320
    },
    {
      "epoch": 160.88,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004921798925298981,
      "loss": 0.3024,
      "step": 60330
    },
    {
      "epoch": 160.90666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004921772918789951,
      "loss": 0.3043,
      "step": 60340
    },
    {
      "epoch": 160.93333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004921746908026016,
      "loss": 0.3045,
      "step": 60350
    },
    {
      "epoch": 160.96,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004921720893007221,
      "loss": 0.3045,
      "step": 60360
    },
    {
      "epoch": 160.98666666666668,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004921694873733612,
      "loss": 0.3158,
      "step": 60370
    },
    {
      "epoch": 161.0,
      "eval_loss": 0.39823123812675476,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.2635,
      "eval_samples_per_second": 1.305,
      "eval_steps_per_second": 0.082,
      "step": 60375
    },
    {
      "epoch": 161.01333333333332,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004921668850205235,
      "loss": 0.3066,
      "step": 60380
    },
    {
      "epoch": 161.04,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004921642822422136,
      "loss": 0.3336,
      "step": 60390
    },
    {
      "epoch": 161.06666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004921616790384359,
      "loss": 0.3173,
      "step": 60400
    },
    {
      "epoch": 161.09333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004921590754091952,
      "loss": 0.3144,
      "step": 60410
    },
    {
      "epoch": 161.12,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000492156471354496,
      "loss": 0.3112,
      "step": 60420
    },
    {
      "epoch": 161.14666666666668,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000492153866874343,
      "loss": 0.3117,
      "step": 60430
    },
    {
      "epoch": 161.17333333333335,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004921512619687403,
      "loss": 0.3116,
      "step": 60440
    },
    {
      "epoch": 161.2,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004921486566376931,
      "loss": 0.3055,
      "step": 60450
    },
    {
      "epoch": 161.22666666666666,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004921460508812056,
      "loss": 0.2996,
      "step": 60460
    },
    {
      "epoch": 161.25333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004921434446992824,
      "loss": 0.2992,
      "step": 60470
    },
    {
      "epoch": 161.28,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004921408380919282,
      "loss": 0.3176,
      "step": 60480
    },
    {
      "epoch": 161.30666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004921382310591475,
      "loss": 0.2995,
      "step": 60490
    },
    {
      "epoch": 161.33333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.000492135623600945,
      "loss": 0.3133,
      "step": 60500
    },
    {
      "epoch": 161.36,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004921330157173252,
      "loss": 0.3054,
      "step": 60510
    },
    {
      "epoch": 161.38666666666666,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004921304074082926,
      "loss": 0.3024,
      "step": 60520
    },
    {
      "epoch": 161.41333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004921277986738517,
      "loss": 0.3083,
      "step": 60530
    },
    {
      "epoch": 161.44,
      "grad_norm": 0.25,
      "learning_rate": 0.0004921251895140074,
      "loss": 0.3159,
      "step": 60540
    },
    {
      "epoch": 161.46666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004921225799287641,
      "loss": 0.319,
      "step": 60550
    },
    {
      "epoch": 161.49333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004921199699181265,
      "loss": 0.3091,
      "step": 60560
    },
    {
      "epoch": 161.52,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004921173594820989,
      "loss": 0.3131,
      "step": 60570
    },
    {
      "epoch": 161.54666666666665,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004921147486206863,
      "loss": 0.3027,
      "step": 60580
    },
    {
      "epoch": 161.57333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004921121373338928,
      "loss": 0.3063,
      "step": 60590
    },
    {
      "epoch": 161.6,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004921095256217234,
      "loss": 0.3033,
      "step": 60600
    },
    {
      "epoch": 161.62666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004921069134841826,
      "loss": 0.2983,
      "step": 60610
    },
    {
      "epoch": 161.65333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004921043009212748,
      "loss": 0.3111,
      "step": 60620
    },
    {
      "epoch": 161.68,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004921016879330048,
      "loss": 0.2993,
      "step": 60630
    },
    {
      "epoch": 161.70666666666668,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004920990745193771,
      "loss": 0.3006,
      "step": 60640
    },
    {
      "epoch": 161.73333333333332,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004920964606803963,
      "loss": 0.3159,
      "step": 60650
    },
    {
      "epoch": 161.76,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004920938464160669,
      "loss": 0.3174,
      "step": 60660
    },
    {
      "epoch": 161.78666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004920912317263937,
      "loss": 0.3186,
      "step": 60670
    },
    {
      "epoch": 161.81333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004920886166113811,
      "loss": 0.3005,
      "step": 60680
    },
    {
      "epoch": 161.84,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004920860010710339,
      "loss": 0.3003,
      "step": 60690
    },
    {
      "epoch": 161.86666666666667,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004920833851053565,
      "loss": 0.3027,
      "step": 60700
    },
    {
      "epoch": 161.89333333333335,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004920807687143536,
      "loss": 0.3027,
      "step": 60710
    },
    {
      "epoch": 161.92,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004920781518980297,
      "loss": 0.3037,
      "step": 60720
    },
    {
      "epoch": 161.94666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004920755346563895,
      "loss": 0.305,
      "step": 60730
    },
    {
      "epoch": 161.97333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004920729169894376,
      "loss": 0.3123,
      "step": 60740
    },
    {
      "epoch": 162.0,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004920702988971784,
      "loss": 0.3014,
      "step": 60750
    },
    {
      "epoch": 162.0,
      "eval_loss": 0.3973372280597687,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2134,
      "eval_samples_per_second": 1.427,
      "eval_steps_per_second": 0.089,
      "step": 60750
    },
    {
      "epoch": 162.02666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004920676803796168,
      "loss": 0.3235,
      "step": 60760
    },
    {
      "epoch": 162.05333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004920650614367572,
      "loss": 0.3299,
      "step": 60770
    },
    {
      "epoch": 162.08,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004920624420686043,
      "loss": 0.3134,
      "step": 60780
    },
    {
      "epoch": 162.10666666666665,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004920598222751627,
      "loss": 0.3153,
      "step": 60790
    },
    {
      "epoch": 162.13333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004920572020564369,
      "loss": 0.3077,
      "step": 60800
    },
    {
      "epoch": 162.16,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004920545814124317,
      "loss": 0.3141,
      "step": 60810
    },
    {
      "epoch": 162.18666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004920519603431513,
      "loss": 0.3096,
      "step": 60820
    },
    {
      "epoch": 162.21333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004920493388486008,
      "loss": 0.2981,
      "step": 60830
    },
    {
      "epoch": 162.24,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004920467169287846,
      "loss": 0.3021,
      "step": 60840
    },
    {
      "epoch": 162.26666666666668,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004920440945837072,
      "loss": 0.3079,
      "step": 60850
    },
    {
      "epoch": 162.29333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004920414718133732,
      "loss": 0.304,
      "step": 60860
    },
    {
      "epoch": 162.32,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004920388486177875,
      "loss": 0.3107,
      "step": 60870
    },
    {
      "epoch": 162.34666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004920362249969544,
      "loss": 0.3096,
      "step": 60880
    },
    {
      "epoch": 162.37333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004920336009508787,
      "loss": 0.3021,
      "step": 60890
    },
    {
      "epoch": 162.4,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004920309764795648,
      "loss": 0.3037,
      "step": 60900
    },
    {
      "epoch": 162.42666666666668,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004920283515830176,
      "loss": 0.3099,
      "step": 60910
    },
    {
      "epoch": 162.45333333333335,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004920257262612416,
      "loss": 0.3189,
      "step": 60920
    },
    {
      "epoch": 162.48,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004920231005142412,
      "loss": 0.3142,
      "step": 60930
    },
    {
      "epoch": 162.50666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004920204743420212,
      "loss": 0.3114,
      "step": 60940
    },
    {
      "epoch": 162.53333333333333,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004920178477445863,
      "loss": 0.3063,
      "step": 60950
    },
    {
      "epoch": 162.56,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000492015220721941,
      "loss": 0.3029,
      "step": 60960
    },
    {
      "epoch": 162.58666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004920125932740899,
      "loss": 0.306,
      "step": 60970
    },
    {
      "epoch": 162.61333333333334,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004920099654010376,
      "loss": 0.2988,
      "step": 60980
    },
    {
      "epoch": 162.64,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004920073371027888,
      "loss": 0.2994,
      "step": 60990
    },
    {
      "epoch": 162.66666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004920047083793481,
      "loss": 0.3159,
      "step": 61000
    },
    {
      "epoch": 162.69333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.00049200207923072,
      "loss": 0.2945,
      "step": 61010
    },
    {
      "epoch": 162.72,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004919994496569094,
      "loss": 0.3099,
      "step": 61020
    },
    {
      "epoch": 162.74666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004919968196579206,
      "loss": 0.3121,
      "step": 61030
    },
    {
      "epoch": 162.77333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004919941892337584,
      "loss": 0.3227,
      "step": 61040
    },
    {
      "epoch": 162.8,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004919915583844273,
      "loss": 0.3091,
      "step": 61050
    },
    {
      "epoch": 162.82666666666665,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004919889271099322,
      "loss": 0.2982,
      "step": 61060
    },
    {
      "epoch": 162.85333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004919862954102773,
      "loss": 0.3019,
      "step": 61070
    },
    {
      "epoch": 162.88,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004919836632854675,
      "loss": 0.3012,
      "step": 61080
    },
    {
      "epoch": 162.90666666666667,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004919810307355075,
      "loss": 0.3034,
      "step": 61090
    },
    {
      "epoch": 162.93333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004919783977604017,
      "loss": 0.3037,
      "step": 61100
    },
    {
      "epoch": 162.96,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004919757643601548,
      "loss": 0.3037,
      "step": 61110
    },
    {
      "epoch": 162.98666666666668,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004919731305347714,
      "loss": 0.3152,
      "step": 61120
    },
    {
      "epoch": 163.0,
      "eval_loss": 0.39925041794776917,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 15.4891,
      "eval_samples_per_second": 1.033,
      "eval_steps_per_second": 0.065,
      "step": 61125
    },
    {
      "epoch": 163.01333333333332,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004919704962842563,
      "loss": 0.3065,
      "step": 61130
    },
    {
      "epoch": 163.04,
      "grad_norm": 0.1875,
      "learning_rate": 0.000491967861608614,
      "loss": 0.3326,
      "step": 61140
    },
    {
      "epoch": 163.06666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004919652265078492,
      "loss": 0.3178,
      "step": 61150
    },
    {
      "epoch": 163.09333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004919625909819662,
      "loss": 0.3144,
      "step": 61160
    },
    {
      "epoch": 163.12,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004919599550309701,
      "loss": 0.3103,
      "step": 61170
    },
    {
      "epoch": 163.14666666666668,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004919573186548654,
      "loss": 0.3111,
      "step": 61180
    },
    {
      "epoch": 163.17333333333335,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004919546818536565,
      "loss": 0.3114,
      "step": 61190
    },
    {
      "epoch": 163.2,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004919520446273482,
      "loss": 0.305,
      "step": 61200
    },
    {
      "epoch": 163.22666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004919494069759451,
      "loss": 0.2989,
      "step": 61210
    },
    {
      "epoch": 163.25333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000491946768899452,
      "loss": 0.2988,
      "step": 61220
    },
    {
      "epoch": 163.28,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004919441303978733,
      "loss": 0.3166,
      "step": 61230
    },
    {
      "epoch": 163.30666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004919414914712137,
      "loss": 0.2992,
      "step": 61240
    },
    {
      "epoch": 163.33333333333334,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000491938852119478,
      "loss": 0.3131,
      "step": 61250
    },
    {
      "epoch": 163.36,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004919362123426706,
      "loss": 0.3044,
      "step": 61260
    },
    {
      "epoch": 163.38666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004919335721407963,
      "loss": 0.3018,
      "step": 61270
    },
    {
      "epoch": 163.41333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004919309315138596,
      "loss": 0.3078,
      "step": 61280
    },
    {
      "epoch": 163.44,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004919282904618653,
      "loss": 0.315,
      "step": 61290
    },
    {
      "epoch": 163.46666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004919256489848179,
      "loss": 0.3191,
      "step": 61300
    },
    {
      "epoch": 163.49333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004919230070827221,
      "loss": 0.3085,
      "step": 61310
    },
    {
      "epoch": 163.52,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004919203647555825,
      "loss": 0.3124,
      "step": 61320
    },
    {
      "epoch": 163.54666666666665,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0004919177220034038,
      "loss": 0.3022,
      "step": 61330
    },
    {
      "epoch": 163.57333333333332,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004919150788261907,
      "loss": 0.3056,
      "step": 61340
    },
    {
      "epoch": 163.6,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0004919124352239478,
      "loss": 0.3025,
      "step": 61350
    },
    {
      "epoch": 163.62666666666667,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0004919097911966796,
      "loss": 0.298,
      "step": 61360
    },
    {
      "epoch": 163.65333333333334,
      "grad_norm": 0.515625,
      "learning_rate": 0.0004919071467443909,
      "loss": 0.3112,
      "step": 61370
    },
    {
      "epoch": 163.68,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004919045018670863,
      "loss": 0.2986,
      "step": 61380
    },
    {
      "epoch": 163.70666666666668,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004919018565647705,
      "loss": 0.3004,
      "step": 61390
    },
    {
      "epoch": 163.73333333333332,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000491899210837448,
      "loss": 0.3161,
      "step": 61400
    },
    {
      "epoch": 163.76,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004918965646851237,
      "loss": 0.317,
      "step": 61410
    },
    {
      "epoch": 163.78666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000491893918107802,
      "loss": 0.3176,
      "step": 61420
    },
    {
      "epoch": 163.81333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004918912711054877,
      "loss": 0.2998,
      "step": 61430
    },
    {
      "epoch": 163.84,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004918886236781854,
      "loss": 0.3,
      "step": 61440
    },
    {
      "epoch": 163.86666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004918859758258996,
      "loss": 0.3026,
      "step": 61450
    },
    {
      "epoch": 163.89333333333335,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004918833275486353,
      "loss": 0.302,
      "step": 61460
    },
    {
      "epoch": 163.92,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004918806788463969,
      "loss": 0.3032,
      "step": 61470
    },
    {
      "epoch": 163.94666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004918780297191891,
      "loss": 0.3051,
      "step": 61480
    },
    {
      "epoch": 163.97333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004918753801670166,
      "loss": 0.3122,
      "step": 61490
    },
    {
      "epoch": 164.0,
      "grad_norm": 0.17578125,
      "learning_rate": 0.000491872730189884,
      "loss": 0.3008,
      "step": 61500
    },
    {
      "epoch": 164.0,
      "eval_loss": 0.3985505998134613,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7099,
      "eval_samples_per_second": 1.494,
      "eval_steps_per_second": 0.093,
      "step": 61500
    },
    {
      "epoch": 164.02666666666667,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004918700797877959,
      "loss": 0.3232,
      "step": 61510
    },
    {
      "epoch": 164.05333333333334,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004918674289607571,
      "loss": 0.33,
      "step": 61520
    },
    {
      "epoch": 164.08,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004918647777087721,
      "loss": 0.3138,
      "step": 61530
    },
    {
      "epoch": 164.10666666666665,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004918621260318458,
      "loss": 0.3151,
      "step": 61540
    },
    {
      "epoch": 164.13333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004918594739299827,
      "loss": 0.3066,
      "step": 61550
    },
    {
      "epoch": 164.16,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004918568214031874,
      "loss": 0.3134,
      "step": 61560
    },
    {
      "epoch": 164.18666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004918541684514645,
      "loss": 0.3094,
      "step": 61570
    },
    {
      "epoch": 164.21333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004918515150748189,
      "loss": 0.2977,
      "step": 61580
    },
    {
      "epoch": 164.24,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004918488612732552,
      "loss": 0.3019,
      "step": 61590
    },
    {
      "epoch": 164.26666666666668,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004918462070467779,
      "loss": 0.3071,
      "step": 61600
    },
    {
      "epoch": 164.29333333333332,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000491843552395392,
      "loss": 0.303,
      "step": 61610
    },
    {
      "epoch": 164.32,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004918408973191016,
      "loss": 0.3101,
      "step": 61620
    },
    {
      "epoch": 164.34666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004918382418179119,
      "loss": 0.3088,
      "step": 61630
    },
    {
      "epoch": 164.37333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004918355858918274,
      "loss": 0.3019,
      "step": 61640
    },
    {
      "epoch": 164.4,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004918329295408527,
      "loss": 0.3025,
      "step": 61650
    },
    {
      "epoch": 164.42666666666668,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004918302727649925,
      "loss": 0.3097,
      "step": 61660
    },
    {
      "epoch": 164.45333333333335,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004918276155642514,
      "loss": 0.3187,
      "step": 61670
    },
    {
      "epoch": 164.48,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004918249579386342,
      "loss": 0.314,
      "step": 61680
    },
    {
      "epoch": 164.50666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004918222998881455,
      "loss": 0.311,
      "step": 61690
    },
    {
      "epoch": 164.53333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00049181964141279,
      "loss": 0.3065,
      "step": 61700
    },
    {
      "epoch": 164.56,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004918169825125723,
      "loss": 0.3028,
      "step": 61710
    },
    {
      "epoch": 164.58666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004918143231874972,
      "loss": 0.3066,
      "step": 61720
    },
    {
      "epoch": 164.61333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004918116634375692,
      "loss": 0.2981,
      "step": 61730
    },
    {
      "epoch": 164.64,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004918090032627932,
      "loss": 0.2989,
      "step": 61740
    },
    {
      "epoch": 164.66666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004918063426631736,
      "loss": 0.3153,
      "step": 61750
    },
    {
      "epoch": 164.69333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004918036816387153,
      "loss": 0.2936,
      "step": 61760
    },
    {
      "epoch": 164.72,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004918010201894228,
      "loss": 0.3098,
      "step": 61770
    },
    {
      "epoch": 164.74666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004917983583153009,
      "loss": 0.3115,
      "step": 61780
    },
    {
      "epoch": 164.77333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004917956960163543,
      "loss": 0.3215,
      "step": 61790
    },
    {
      "epoch": 164.8,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004917930332925876,
      "loss": 0.3091,
      "step": 61800
    },
    {
      "epoch": 164.82666666666665,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004917903701440054,
      "loss": 0.2978,
      "step": 61810
    },
    {
      "epoch": 164.85333333333332,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004917877065706126,
      "loss": 0.302,
      "step": 61820
    },
    {
      "epoch": 164.88,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004917850425724137,
      "loss": 0.3014,
      "step": 61830
    },
    {
      "epoch": 164.90666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004917823781494134,
      "loss": 0.3032,
      "step": 61840
    },
    {
      "epoch": 164.93333333333334,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004917797133016166,
      "loss": 0.3038,
      "step": 61850
    },
    {
      "epoch": 164.96,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004917770480290276,
      "loss": 0.3035,
      "step": 61860
    },
    {
      "epoch": 164.98666666666668,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004917743823316513,
      "loss": 0.3151,
      "step": 61870
    },
    {
      "epoch": 165.0,
      "eval_loss": 0.3975881338119507,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6766,
      "eval_samples_per_second": 1.499,
      "eval_steps_per_second": 0.094,
      "step": 61875
    },
    {
      "epoch": 165.01333333333332,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004917717162094924,
      "loss": 0.3062,
      "step": 61880
    },
    {
      "epoch": 165.04,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004917690496625556,
      "loss": 0.333,
      "step": 61890
    },
    {
      "epoch": 165.06666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004917663826908455,
      "loss": 0.3174,
      "step": 61900
    },
    {
      "epoch": 165.09333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004917637152943668,
      "loss": 0.314,
      "step": 61910
    },
    {
      "epoch": 165.12,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004917610474731242,
      "loss": 0.3105,
      "step": 61920
    },
    {
      "epoch": 165.14666666666668,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004917583792271225,
      "loss": 0.3108,
      "step": 61930
    },
    {
      "epoch": 165.17333333333335,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004917557105563661,
      "loss": 0.3115,
      "step": 61940
    },
    {
      "epoch": 165.2,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004917530414608601,
      "loss": 0.3045,
      "step": 61950
    },
    {
      "epoch": 165.22666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004917503719406087,
      "loss": 0.2989,
      "step": 61960
    },
    {
      "epoch": 165.25333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004917477019956171,
      "loss": 0.2987,
      "step": 61970
    },
    {
      "epoch": 165.28,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004917450316258895,
      "loss": 0.3168,
      "step": 61980
    },
    {
      "epoch": 165.30666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004917423608314311,
      "loss": 0.2987,
      "step": 61990
    },
    {
      "epoch": 165.33333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004917396896122461,
      "loss": 0.3133,
      "step": 62000
    },
    {
      "epoch": 165.36,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004917370179683396,
      "loss": 0.3037,
      "step": 62010
    },
    {
      "epoch": 165.38666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.000491734345899716,
      "loss": 0.3015,
      "step": 62020
    },
    {
      "epoch": 165.41333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004917316734063801,
      "loss": 0.3074,
      "step": 62030
    },
    {
      "epoch": 165.44,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004917290004883366,
      "loss": 0.3146,
      "step": 62040
    },
    {
      "epoch": 165.46666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004917263271455903,
      "loss": 0.3185,
      "step": 62050
    },
    {
      "epoch": 165.49333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004917236533781456,
      "loss": 0.3081,
      "step": 62060
    },
    {
      "epoch": 165.52,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004917209791860076,
      "loss": 0.3124,
      "step": 62070
    },
    {
      "epoch": 165.54666666666665,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004917183045691807,
      "loss": 0.3021,
      "step": 62080
    },
    {
      "epoch": 165.57333333333332,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004917156295276697,
      "loss": 0.3058,
      "step": 62090
    },
    {
      "epoch": 165.6,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004917129540614793,
      "loss": 0.3026,
      "step": 62100
    },
    {
      "epoch": 165.62666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004917102781706142,
      "loss": 0.2978,
      "step": 62110
    },
    {
      "epoch": 165.65333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004917076018550791,
      "loss": 0.3105,
      "step": 62120
    },
    {
      "epoch": 165.68,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004917049251148786,
      "loss": 0.2992,
      "step": 62130
    },
    {
      "epoch": 165.70666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004917022479500176,
      "loss": 0.2998,
      "step": 62140
    },
    {
      "epoch": 165.73333333333332,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004916995703605008,
      "loss": 0.3154,
      "step": 62150
    },
    {
      "epoch": 165.76,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004916968923463326,
      "loss": 0.3168,
      "step": 62160
    },
    {
      "epoch": 165.78666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000491694213907518,
      "loss": 0.3178,
      "step": 62170
    },
    {
      "epoch": 165.81333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004916915350440616,
      "loss": 0.3004,
      "step": 62180
    },
    {
      "epoch": 165.84,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004916888557559681,
      "loss": 0.3,
      "step": 62190
    },
    {
      "epoch": 165.86666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004916861760432422,
      "loss": 0.3019,
      "step": 62200
    },
    {
      "epoch": 165.89333333333335,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004916834959058888,
      "loss": 0.3013,
      "step": 62210
    },
    {
      "epoch": 165.92,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004916808153439124,
      "loss": 0.3038,
      "step": 62220
    },
    {
      "epoch": 165.94666666666666,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004916781343573176,
      "loss": 0.305,
      "step": 62230
    },
    {
      "epoch": 165.97333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004916754529461095,
      "loss": 0.3119,
      "step": 62240
    },
    {
      "epoch": 166.0,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004916727711102924,
      "loss": 0.3005,
      "step": 62250
    },
    {
      "epoch": 166.0,
      "eval_loss": 0.39830076694488525,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.7282,
      "eval_samples_per_second": 1.364,
      "eval_steps_per_second": 0.085,
      "step": 62250
    },
    {
      "epoch": 166.02666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004916700888498713,
      "loss": 0.3232,
      "step": 62260
    },
    {
      "epoch": 166.05333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004916674061648507,
      "loss": 0.3297,
      "step": 62270
    },
    {
      "epoch": 166.08,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004916647230552354,
      "loss": 0.3131,
      "step": 62280
    },
    {
      "epoch": 166.10666666666665,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004916620395210302,
      "loss": 0.3147,
      "step": 62290
    },
    {
      "epoch": 166.13333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004916593555622398,
      "loss": 0.3065,
      "step": 62300
    },
    {
      "epoch": 166.16,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004916566711788688,
      "loss": 0.3137,
      "step": 62310
    },
    {
      "epoch": 166.18666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.000491653986370922,
      "loss": 0.3087,
      "step": 62320
    },
    {
      "epoch": 166.21333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004916513011384041,
      "loss": 0.2977,
      "step": 62330
    },
    {
      "epoch": 166.24,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004916486154813198,
      "loss": 0.3017,
      "step": 62340
    },
    {
      "epoch": 166.26666666666668,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004916459293996738,
      "loss": 0.3076,
      "step": 62350
    },
    {
      "epoch": 166.29333333333332,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004916432428934708,
      "loss": 0.3028,
      "step": 62360
    },
    {
      "epoch": 166.32,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004916405559627156,
      "loss": 0.3098,
      "step": 62370
    },
    {
      "epoch": 166.34666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000491637868607413,
      "loss": 0.3089,
      "step": 62380
    },
    {
      "epoch": 166.37333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004916351808275676,
      "loss": 0.3014,
      "step": 62390
    },
    {
      "epoch": 166.4,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000491632492623184,
      "loss": 0.3026,
      "step": 62400
    },
    {
      "epoch": 166.42666666666668,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004916298039942672,
      "loss": 0.3099,
      "step": 62410
    },
    {
      "epoch": 166.45333333333335,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004916271149408216,
      "loss": 0.3181,
      "step": 62420
    },
    {
      "epoch": 166.48,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004916244254628523,
      "loss": 0.3137,
      "step": 62430
    },
    {
      "epoch": 166.50666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004916217355603637,
      "loss": 0.3108,
      "step": 62440
    },
    {
      "epoch": 166.53333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004916190452333608,
      "loss": 0.3059,
      "step": 62450
    },
    {
      "epoch": 166.56,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.000491616354481848,
      "loss": 0.3022,
      "step": 62460
    },
    {
      "epoch": 166.58666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004916136633058303,
      "loss": 0.3065,
      "step": 62470
    },
    {
      "epoch": 166.61333333333334,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004916109717053124,
      "loss": 0.298,
      "step": 62480
    },
    {
      "epoch": 166.64,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004916082796802989,
      "loss": 0.2986,
      "step": 62490
    },
    {
      "epoch": 166.66666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004916055872307946,
      "loss": 0.3144,
      "step": 62500
    },
    {
      "epoch": 166.69333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004916028943568043,
      "loss": 0.2938,
      "step": 62510
    },
    {
      "epoch": 166.72,
      "grad_norm": 1.015625,
      "learning_rate": 0.0004916002010583325,
      "loss": 0.31,
      "step": 62520
    },
    {
      "epoch": 166.74666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0004915975073353842,
      "loss": 0.3115,
      "step": 62530
    },
    {
      "epoch": 166.77333333333334,
      "grad_norm": 5.0625,
      "learning_rate": 0.000491594813187964,
      "loss": 0.334,
      "step": 62540
    },
    {
      "epoch": 166.8,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0004915921186160768,
      "loss": 0.3276,
      "step": 62550
    },
    {
      "epoch": 166.82666666666665,
      "grad_norm": 6.6875,
      "learning_rate": 0.000491589423619727,
      "loss": 0.3095,
      "step": 62560
    },
    {
      "epoch": 166.85333333333332,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0004915867281989196,
      "loss": 0.3116,
      "step": 62570
    },
    {
      "epoch": 166.88,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004915840323536592,
      "loss": 0.3016,
      "step": 62580
    },
    {
      "epoch": 166.90666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004915813360839508,
      "loss": 0.3024,
      "step": 62590
    },
    {
      "epoch": 166.93333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004915786393897987,
      "loss": 0.3028,
      "step": 62600
    },
    {
      "epoch": 166.96,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000491575942271208,
      "loss": 0.3029,
      "step": 62610
    },
    {
      "epoch": 166.98666666666668,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004915732447281833,
      "loss": 0.3143,
      "step": 62620
    },
    {
      "epoch": 167.0,
      "eval_loss": 0.3965356945991516,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6246,
      "eval_samples_per_second": 1.506,
      "eval_steps_per_second": 0.094,
      "step": 62625
    },
    {
      "epoch": 167.01333333333332,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004915705467607293,
      "loss": 0.3052,
      "step": 62630
    },
    {
      "epoch": 167.04,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004915678483688508,
      "loss": 0.3317,
      "step": 62640
    },
    {
      "epoch": 167.06666666666666,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004915651495525526,
      "loss": 0.3167,
      "step": 62650
    },
    {
      "epoch": 167.09333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004915624503118393,
      "loss": 0.3133,
      "step": 62660
    },
    {
      "epoch": 167.12,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004915597506467157,
      "loss": 0.3094,
      "step": 62670
    },
    {
      "epoch": 167.14666666666668,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004915570505571867,
      "loss": 0.3101,
      "step": 62680
    },
    {
      "epoch": 167.17333333333335,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004915543500432568,
      "loss": 0.311,
      "step": 62690
    },
    {
      "epoch": 167.2,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004915516491049308,
      "loss": 0.3042,
      "step": 62700
    },
    {
      "epoch": 167.22666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004915489477422136,
      "loss": 0.2985,
      "step": 62710
    },
    {
      "epoch": 167.25333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004915462459551097,
      "loss": 0.2982,
      "step": 62720
    },
    {
      "epoch": 167.28,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004915435437436242,
      "loss": 0.3157,
      "step": 62730
    },
    {
      "epoch": 167.30666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004915408411077615,
      "loss": 0.298,
      "step": 62740
    },
    {
      "epoch": 167.33333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004915381380475266,
      "loss": 0.3126,
      "step": 62750
    },
    {
      "epoch": 167.36,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004915354345629239,
      "loss": 0.3039,
      "step": 62760
    },
    {
      "epoch": 167.38666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004915327306539586,
      "loss": 0.3007,
      "step": 62770
    },
    {
      "epoch": 167.41333333333333,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004915300263206351,
      "loss": 0.3067,
      "step": 62780
    },
    {
      "epoch": 167.44,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004915273215629584,
      "loss": 0.3144,
      "step": 62790
    },
    {
      "epoch": 167.46666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004915246163809331,
      "loss": 0.318,
      "step": 62800
    },
    {
      "epoch": 167.49333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004915219107745639,
      "loss": 0.3077,
      "step": 62810
    },
    {
      "epoch": 167.52,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004915192047438557,
      "loss": 0.3112,
      "step": 62820
    },
    {
      "epoch": 167.54666666666665,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004915164982888133,
      "loss": 0.3021,
      "step": 62830
    },
    {
      "epoch": 167.57333333333332,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004915137914094412,
      "loss": 0.305,
      "step": 62840
    },
    {
      "epoch": 167.6,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004915110841057444,
      "loss": 0.3017,
      "step": 62850
    },
    {
      "epoch": 167.62666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004915083763777275,
      "loss": 0.2976,
      "step": 62860
    },
    {
      "epoch": 167.65333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004915056682253954,
      "loss": 0.3105,
      "step": 62870
    },
    {
      "epoch": 167.68,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004915029596487527,
      "loss": 0.2984,
      "step": 62880
    },
    {
      "epoch": 167.70666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004915002506478043,
      "loss": 0.2998,
      "step": 62890
    },
    {
      "epoch": 167.73333333333332,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004914975412225549,
      "loss": 0.315,
      "step": 62900
    },
    {
      "epoch": 167.76,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004914948313730093,
      "loss": 0.3172,
      "step": 62910
    },
    {
      "epoch": 167.78666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004914921210991721,
      "loss": 0.3189,
      "step": 62920
    },
    {
      "epoch": 167.81333333333333,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004914894104010481,
      "loss": 0.301,
      "step": 62930
    },
    {
      "epoch": 167.84,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004914866992786423,
      "loss": 0.3007,
      "step": 62940
    },
    {
      "epoch": 167.86666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004914839877319594,
      "loss": 0.3016,
      "step": 62950
    },
    {
      "epoch": 167.89333333333335,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004914812757610039,
      "loss": 0.302,
      "step": 62960
    },
    {
      "epoch": 167.92,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004914785633657808,
      "loss": 0.3025,
      "step": 62970
    },
    {
      "epoch": 167.94666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004914758505462948,
      "loss": 0.3044,
      "step": 62980
    },
    {
      "epoch": 167.97333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004914731373025506,
      "loss": 0.3114,
      "step": 62990
    },
    {
      "epoch": 168.0,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004914704236345531,
      "loss": 0.3,
      "step": 63000
    },
    {
      "epoch": 168.0,
      "eval_loss": 0.3984861969947815,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.357,
      "eval_samples_per_second": 1.545,
      "eval_steps_per_second": 0.097,
      "step": 63000
    },
    {
      "epoch": 168.02666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004914677095423071,
      "loss": 0.3228,
      "step": 63010
    },
    {
      "epoch": 168.05333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004914649950258171,
      "loss": 0.3292,
      "step": 63020
    },
    {
      "epoch": 168.08,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004914622800850881,
      "loss": 0.3134,
      "step": 63030
    },
    {
      "epoch": 168.10666666666665,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004914595647201249,
      "loss": 0.3146,
      "step": 63040
    },
    {
      "epoch": 168.13333333333333,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004914568489309321,
      "loss": 0.3063,
      "step": 63050
    },
    {
      "epoch": 168.16,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004914541327175145,
      "loss": 0.3134,
      "step": 63060
    },
    {
      "epoch": 168.18666666666667,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.000491451416079877,
      "loss": 0.3087,
      "step": 63070
    },
    {
      "epoch": 168.21333333333334,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004914486990180243,
      "loss": 0.2968,
      "step": 63080
    },
    {
      "epoch": 168.24,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004914459815319611,
      "loss": 0.301,
      "step": 63090
    },
    {
      "epoch": 168.26666666666668,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004914432636216923,
      "loss": 0.3068,
      "step": 63100
    },
    {
      "epoch": 168.29333333333332,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004914405452872226,
      "loss": 0.3022,
      "step": 63110
    },
    {
      "epoch": 168.32,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004914378265285568,
      "loss": 0.3094,
      "step": 63120
    },
    {
      "epoch": 168.34666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004914351073456997,
      "loss": 0.3091,
      "step": 63130
    },
    {
      "epoch": 168.37333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000491432387738656,
      "loss": 0.301,
      "step": 63140
    },
    {
      "epoch": 168.4,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004914296677074307,
      "loss": 0.3024,
      "step": 63150
    },
    {
      "epoch": 168.42666666666668,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004914269472520282,
      "loss": 0.31,
      "step": 63160
    },
    {
      "epoch": 168.45333333333335,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004914242263724536,
      "loss": 0.3183,
      "step": 63170
    },
    {
      "epoch": 168.48,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004914215050687115,
      "loss": 0.3137,
      "step": 63180
    },
    {
      "epoch": 168.50666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004914187833408068,
      "loss": 0.3102,
      "step": 63190
    },
    {
      "epoch": 168.53333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004914160611887442,
      "loss": 0.305,
      "step": 63200
    },
    {
      "epoch": 168.56,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004914133386125285,
      "loss": 0.3021,
      "step": 63210
    },
    {
      "epoch": 168.58666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004914106156121646,
      "loss": 0.3059,
      "step": 63220
    },
    {
      "epoch": 168.61333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004914078921876571,
      "loss": 0.2977,
      "step": 63230
    },
    {
      "epoch": 168.64,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004914051683390109,
      "loss": 0.2986,
      "step": 63240
    },
    {
      "epoch": 168.66666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004914024440662307,
      "loss": 0.3137,
      "step": 63250
    },
    {
      "epoch": 168.69333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004913997193693214,
      "loss": 0.2934,
      "step": 63260
    },
    {
      "epoch": 168.72,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004913969942482876,
      "loss": 0.309,
      "step": 63270
    },
    {
      "epoch": 168.74666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004913942687031344,
      "loss": 0.3111,
      "step": 63280
    },
    {
      "epoch": 168.77333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004913915427338663,
      "loss": 0.3229,
      "step": 63290
    },
    {
      "epoch": 168.8,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004913888163404882,
      "loss": 0.3096,
      "step": 63300
    },
    {
      "epoch": 168.82666666666665,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004913860895230049,
      "loss": 0.2977,
      "step": 63310
    },
    {
      "epoch": 168.85333333333332,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004913833622814211,
      "loss": 0.3018,
      "step": 63320
    },
    {
      "epoch": 168.88,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004913806346157418,
      "loss": 0.3005,
      "step": 63330
    },
    {
      "epoch": 168.90666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004913779065259716,
      "loss": 0.302,
      "step": 63340
    },
    {
      "epoch": 168.93333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004913751780121153,
      "loss": 0.3033,
      "step": 63350
    },
    {
      "epoch": 168.96,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004913724490741777,
      "loss": 0.3027,
      "step": 63360
    },
    {
      "epoch": 168.98666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004913697197121637,
      "loss": 0.3148,
      "step": 63370
    },
    {
      "epoch": 169.0,
      "eval_loss": 0.39791586995124817,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.951,
      "eval_samples_per_second": 1.461,
      "eval_steps_per_second": 0.091,
      "step": 63375
    },
    {
      "epoch": 169.01333333333332,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004913669899260781,
      "loss": 0.3058,
      "step": 63380
    },
    {
      "epoch": 169.04,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004913642597159256,
      "loss": 0.3317,
      "step": 63390
    },
    {
      "epoch": 169.06666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004913615290817109,
      "loss": 0.3166,
      "step": 63400
    },
    {
      "epoch": 169.09333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0004913587980234391,
      "loss": 0.3131,
      "step": 63410
    },
    {
      "epoch": 169.12,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004913560665411147,
      "loss": 0.3094,
      "step": 63420
    },
    {
      "epoch": 169.14666666666668,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004913533346347427,
      "loss": 0.3101,
      "step": 63430
    },
    {
      "epoch": 169.17333333333335,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004913506023043277,
      "loss": 0.3106,
      "step": 63440
    },
    {
      "epoch": 169.2,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004913478695498748,
      "loss": 0.3033,
      "step": 63450
    },
    {
      "epoch": 169.22666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004913451363713885,
      "loss": 0.2984,
      "step": 63460
    },
    {
      "epoch": 169.25333333333333,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004913424027688738,
      "loss": 0.2976,
      "step": 63470
    },
    {
      "epoch": 169.28,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004913396687423353,
      "loss": 0.3155,
      "step": 63480
    },
    {
      "epoch": 169.30666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.000491336934291778,
      "loss": 0.2981,
      "step": 63490
    },
    {
      "epoch": 169.33333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004913341994172067,
      "loss": 0.3121,
      "step": 63500
    },
    {
      "epoch": 169.36,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000491331464118626,
      "loss": 0.3033,
      "step": 63510
    },
    {
      "epoch": 169.38666666666666,
      "grad_norm": 0.232421875,
      "learning_rate": 0.000491328728396041,
      "loss": 0.3008,
      "step": 63520
    },
    {
      "epoch": 169.41333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004913259922494562,
      "loss": 0.3064,
      "step": 63530
    },
    {
      "epoch": 169.44,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004913232556788767,
      "loss": 0.3142,
      "step": 63540
    },
    {
      "epoch": 169.46666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004913205186843072,
      "loss": 0.3174,
      "step": 63550
    },
    {
      "epoch": 169.49333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004913177812657523,
      "loss": 0.3077,
      "step": 63560
    },
    {
      "epoch": 169.52,
      "grad_norm": 0.1875,
      "learning_rate": 0.000491315043423217,
      "loss": 0.3118,
      "step": 63570
    },
    {
      "epoch": 169.54666666666665,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004913123051567064,
      "loss": 0.3021,
      "step": 63580
    },
    {
      "epoch": 169.57333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004913095664662247,
      "loss": 0.305,
      "step": 63590
    },
    {
      "epoch": 169.6,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004913068273517771,
      "loss": 0.3015,
      "step": 63600
    },
    {
      "epoch": 169.62666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004913040878133684,
      "loss": 0.2973,
      "step": 63610
    },
    {
      "epoch": 169.65333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004913013478510032,
      "loss": 0.3104,
      "step": 63620
    },
    {
      "epoch": 169.68,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004912986074646866,
      "loss": 0.2989,
      "step": 63630
    },
    {
      "epoch": 169.70666666666668,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004912958666544231,
      "loss": 0.2995,
      "step": 63640
    },
    {
      "epoch": 169.73333333333332,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004912931254202178,
      "loss": 0.3142,
      "step": 63650
    },
    {
      "epoch": 169.76,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004912903837620754,
      "loss": 0.3169,
      "step": 63660
    },
    {
      "epoch": 169.78666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004912876416800008,
      "loss": 0.3182,
      "step": 63670
    },
    {
      "epoch": 169.81333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004912848991739986,
      "loss": 0.3003,
      "step": 63680
    },
    {
      "epoch": 169.84,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004912821562440738,
      "loss": 0.2998,
      "step": 63690
    },
    {
      "epoch": 169.86666666666667,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004912794128902312,
      "loss": 0.3017,
      "step": 63700
    },
    {
      "epoch": 169.89333333333335,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004912766691124756,
      "loss": 0.3015,
      "step": 63710
    },
    {
      "epoch": 169.92,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004912739249108118,
      "loss": 0.3022,
      "step": 63720
    },
    {
      "epoch": 169.94666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004912711802852447,
      "loss": 0.304,
      "step": 63730
    },
    {
      "epoch": 169.97333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.000491268435235779,
      "loss": 0.3115,
      "step": 63740
    },
    {
      "epoch": 170.0,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004912656897624196,
      "loss": 0.3003,
      "step": 63750
    },
    {
      "epoch": 170.0,
      "eval_loss": 0.3997786343097687,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.9044,
      "eval_samples_per_second": 1.467,
      "eval_steps_per_second": 0.092,
      "step": 63750
    },
    {
      "epoch": 170.02666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004912629438651713,
      "loss": 0.3221,
      "step": 63760
    },
    {
      "epoch": 170.05333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004912601975440389,
      "loss": 0.3289,
      "step": 63770
    },
    {
      "epoch": 170.08,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004912574507990273,
      "loss": 0.3128,
      "step": 63780
    },
    {
      "epoch": 170.10666666666665,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004912547036301412,
      "loss": 0.3145,
      "step": 63790
    },
    {
      "epoch": 170.13333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004912519560373856,
      "loss": 0.3056,
      "step": 63800
    },
    {
      "epoch": 170.16,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004912492080207652,
      "loss": 0.3128,
      "step": 63810
    },
    {
      "epoch": 170.18666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004912464595802849,
      "loss": 0.3082,
      "step": 63820
    },
    {
      "epoch": 170.21333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004912437107159496,
      "loss": 0.2973,
      "step": 63830
    },
    {
      "epoch": 170.24,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004912409614277638,
      "loss": 0.3007,
      "step": 63840
    },
    {
      "epoch": 170.26666666666668,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004912382117157327,
      "loss": 0.3067,
      "step": 63850
    },
    {
      "epoch": 170.29333333333332,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004912354615798608,
      "loss": 0.3024,
      "step": 63860
    },
    {
      "epoch": 170.32,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004912327110201534,
      "loss": 0.3092,
      "step": 63870
    },
    {
      "epoch": 170.34666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004912299600366149,
      "loss": 0.308,
      "step": 63880
    },
    {
      "epoch": 170.37333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004912272086292503,
      "loss": 0.3012,
      "step": 63890
    },
    {
      "epoch": 170.4,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004912244567980644,
      "loss": 0.3022,
      "step": 63900
    },
    {
      "epoch": 170.42666666666668,
      "grad_norm": 0.173828125,
      "learning_rate": 0.000491221704543062,
      "loss": 0.3093,
      "step": 63910
    },
    {
      "epoch": 170.45333333333335,
      "grad_norm": 0.234375,
      "learning_rate": 0.000491218951864248,
      "loss": 0.3179,
      "step": 63920
    },
    {
      "epoch": 170.48,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004912161987616273,
      "loss": 0.3131,
      "step": 63930
    },
    {
      "epoch": 170.50666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004912134452352047,
      "loss": 0.3102,
      "step": 63940
    },
    {
      "epoch": 170.53333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004912106912849848,
      "loss": 0.3053,
      "step": 63950
    },
    {
      "epoch": 170.56,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004912079369109729,
      "loss": 0.3021,
      "step": 63960
    },
    {
      "epoch": 170.58666666666667,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004912051821131734,
      "loss": 0.3054,
      "step": 63970
    },
    {
      "epoch": 170.61333333333334,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004912024268915913,
      "loss": 0.2981,
      "step": 63980
    },
    {
      "epoch": 170.64,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004911996712462316,
      "loss": 0.2986,
      "step": 63990
    },
    {
      "epoch": 170.66666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004911969151770989,
      "loss": 0.3141,
      "step": 64000
    },
    {
      "epoch": 170.69333333333333,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004911941586841981,
      "loss": 0.2933,
      "step": 64010
    },
    {
      "epoch": 170.72,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004911914017675342,
      "loss": 0.3086,
      "step": 64020
    },
    {
      "epoch": 170.74666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004911886444271118,
      "loss": 0.3109,
      "step": 64030
    },
    {
      "epoch": 170.77333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004911858866629359,
      "loss": 0.3222,
      "step": 64040
    },
    {
      "epoch": 170.8,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004911831284750113,
      "loss": 0.3092,
      "step": 64050
    },
    {
      "epoch": 170.82666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004911803698633429,
      "loss": 0.2979,
      "step": 64060
    },
    {
      "epoch": 170.85333333333332,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004911776108279355,
      "loss": 0.3017,
      "step": 64070
    },
    {
      "epoch": 170.88,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004911748513687941,
      "loss": 0.3002,
      "step": 64080
    },
    {
      "epoch": 170.90666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004911720914859232,
      "loss": 0.3023,
      "step": 64090
    },
    {
      "epoch": 170.93333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000491169331179328,
      "loss": 0.3028,
      "step": 64100
    },
    {
      "epoch": 170.96,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004911665704490131,
      "loss": 0.3027,
      "step": 64110
    },
    {
      "epoch": 170.98666666666668,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004911638092949835,
      "loss": 0.3148,
      "step": 64120
    },
    {
      "epoch": 171.0,
      "eval_loss": 0.39741355180740356,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.6229,
      "eval_samples_per_second": 1.377,
      "eval_steps_per_second": 0.086,
      "step": 64125
    },
    {
      "epoch": 171.01333333333332,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000491161047717244,
      "loss": 0.3052,
      "step": 64130
    },
    {
      "epoch": 171.04,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004911582857157994,
      "loss": 0.332,
      "step": 64140
    },
    {
      "epoch": 171.06666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004911555232906547,
      "loss": 0.317,
      "step": 64150
    },
    {
      "epoch": 171.09333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004911527604418146,
      "loss": 0.3134,
      "step": 64160
    },
    {
      "epoch": 171.12,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004911499971692841,
      "loss": 0.3088,
      "step": 64170
    },
    {
      "epoch": 171.14666666666668,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004911472334730679,
      "loss": 0.3105,
      "step": 64180
    },
    {
      "epoch": 171.17333333333335,
      "grad_norm": 0.359375,
      "learning_rate": 0.0004911444693531709,
      "loss": 0.3105,
      "step": 64190
    },
    {
      "epoch": 171.2,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004911417048095981,
      "loss": 0.3039,
      "step": 64200
    },
    {
      "epoch": 171.22666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004911389398423541,
      "loss": 0.2983,
      "step": 64210
    },
    {
      "epoch": 171.25333333333333,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004911361744514439,
      "loss": 0.2976,
      "step": 64220
    },
    {
      "epoch": 171.28,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004911334086368725,
      "loss": 0.3158,
      "step": 64230
    },
    {
      "epoch": 171.30666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004911306423986446,
      "loss": 0.2981,
      "step": 64240
    },
    {
      "epoch": 171.33333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000491127875736765,
      "loss": 0.3123,
      "step": 64250
    },
    {
      "epoch": 171.36,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004911251086512386,
      "loss": 0.3032,
      "step": 64260
    },
    {
      "epoch": 171.38666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004911223411420704,
      "loss": 0.3007,
      "step": 64270
    },
    {
      "epoch": 171.41333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004911195732092651,
      "loss": 0.307,
      "step": 64280
    },
    {
      "epoch": 171.44,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004911168048528276,
      "loss": 0.314,
      "step": 64290
    },
    {
      "epoch": 171.46666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004911140360727629,
      "loss": 0.3179,
      "step": 64300
    },
    {
      "epoch": 171.49333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004911112668690757,
      "loss": 0.3071,
      "step": 64310
    },
    {
      "epoch": 171.52,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004911084972417708,
      "loss": 0.3112,
      "step": 64320
    },
    {
      "epoch": 171.54666666666665,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004911057271908534,
      "loss": 0.3019,
      "step": 64330
    },
    {
      "epoch": 171.57333333333332,
      "grad_norm": 0.1875,
      "learning_rate": 0.000491102956716328,
      "loss": 0.305,
      "step": 64340
    },
    {
      "epoch": 171.6,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004911001858181998,
      "loss": 0.3019,
      "step": 64350
    },
    {
      "epoch": 171.62666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004910974144964732,
      "loss": 0.2975,
      "step": 64360
    },
    {
      "epoch": 171.65333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004910946427511536,
      "loss": 0.3102,
      "step": 64370
    },
    {
      "epoch": 171.68,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004910918705822454,
      "loss": 0.298,
      "step": 64380
    },
    {
      "epoch": 171.70666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0004910890979897539,
      "loss": 0.2996,
      "step": 64390
    },
    {
      "epoch": 171.73333333333332,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004910863249736837,
      "loss": 0.3145,
      "step": 64400
    },
    {
      "epoch": 171.76,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004910835515340397,
      "loss": 0.3164,
      "step": 64410
    },
    {
      "epoch": 171.78666666666666,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004910807776708269,
      "loss": 0.3177,
      "step": 64420
    },
    {
      "epoch": 171.81333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00049107800338405,
      "loss": 0.3004,
      "step": 64430
    },
    {
      "epoch": 171.84,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000491075228673714,
      "loss": 0.2998,
      "step": 64440
    },
    {
      "epoch": 171.86666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004910724535398238,
      "loss": 0.3013,
      "step": 64450
    },
    {
      "epoch": 171.89333333333335,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004910696779823841,
      "loss": 0.3013,
      "step": 64460
    },
    {
      "epoch": 171.92,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004910669020014,
      "loss": 0.3025,
      "step": 64470
    },
    {
      "epoch": 171.94666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004910641255968761,
      "loss": 0.3037,
      "step": 64480
    },
    {
      "epoch": 171.97333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004910613487688175,
      "loss": 0.3106,
      "step": 64490
    },
    {
      "epoch": 172.0,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004910585715172292,
      "loss": 0.2998,
      "step": 64500
    },
    {
      "epoch": 172.0,
      "eval_loss": 0.39910176396369934,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3603,
      "eval_samples_per_second": 1.408,
      "eval_steps_per_second": 0.088,
      "step": 64500
    },
    {
      "epoch": 172.02666666666667,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004910557938421157,
      "loss": 0.3224,
      "step": 64510
    },
    {
      "epoch": 172.05333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004910530157434822,
      "loss": 0.3287,
      "step": 64520
    },
    {
      "epoch": 172.08,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004910502372213334,
      "loss": 0.313,
      "step": 64530
    },
    {
      "epoch": 172.10666666666665,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004910474582756742,
      "loss": 0.314,
      "step": 64540
    },
    {
      "epoch": 172.13333333333333,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004910446789065096,
      "loss": 0.3053,
      "step": 64550
    },
    {
      "epoch": 172.16,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004910418991138445,
      "loss": 0.313,
      "step": 64560
    },
    {
      "epoch": 172.18666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004910391188976836,
      "loss": 0.3075,
      "step": 64570
    },
    {
      "epoch": 172.21333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004910363382580319,
      "loss": 0.2967,
      "step": 64580
    },
    {
      "epoch": 172.24,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004910335571948942,
      "loss": 0.3009,
      "step": 64590
    },
    {
      "epoch": 172.26666666666668,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004910307757082754,
      "loss": 0.306,
      "step": 64600
    },
    {
      "epoch": 172.29333333333332,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004910279937981806,
      "loss": 0.3025,
      "step": 64610
    },
    {
      "epoch": 172.32,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004910252114646143,
      "loss": 0.3095,
      "step": 64620
    },
    {
      "epoch": 172.34666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004910224287075818,
      "loss": 0.3085,
      "step": 64630
    },
    {
      "epoch": 172.37333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004910196455270878,
      "loss": 0.3003,
      "step": 64640
    },
    {
      "epoch": 172.4,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0004910168619231371,
      "loss": 0.3021,
      "step": 64650
    },
    {
      "epoch": 172.42666666666668,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004910140778957348,
      "loss": 0.3091,
      "step": 64660
    },
    {
      "epoch": 172.45333333333335,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004910112934448857,
      "loss": 0.3175,
      "step": 64670
    },
    {
      "epoch": 172.48,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004910085085705944,
      "loss": 0.3136,
      "step": 64680
    },
    {
      "epoch": 172.50666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004910057232728663,
      "loss": 0.3102,
      "step": 64690
    },
    {
      "epoch": 172.53333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.000491002937551706,
      "loss": 0.3048,
      "step": 64700
    },
    {
      "epoch": 172.56,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004910001514071184,
      "loss": 0.3019,
      "step": 64710
    },
    {
      "epoch": 172.58666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004909973648391085,
      "loss": 0.3048,
      "step": 64720
    },
    {
      "epoch": 172.61333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004909945778476811,
      "loss": 0.2974,
      "step": 64730
    },
    {
      "epoch": 172.64,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004909917904328411,
      "loss": 0.2985,
      "step": 64740
    },
    {
      "epoch": 172.66666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004909890025945935,
      "loss": 0.3136,
      "step": 64750
    },
    {
      "epoch": 172.69333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004909862143329431,
      "loss": 0.2931,
      "step": 64760
    },
    {
      "epoch": 172.72,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004909834256478948,
      "loss": 0.309,
      "step": 64770
    },
    {
      "epoch": 172.74666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004909806365394535,
      "loss": 0.3101,
      "step": 64780
    },
    {
      "epoch": 172.77333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004909778470076243,
      "loss": 0.322,
      "step": 64790
    },
    {
      "epoch": 172.8,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004909750570524119,
      "loss": 0.309,
      "step": 64800
    },
    {
      "epoch": 172.82666666666665,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004909722666738212,
      "loss": 0.2978,
      "step": 64810
    },
    {
      "epoch": 172.85333333333332,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000490969475871857,
      "loss": 0.3008,
      "step": 64820
    },
    {
      "epoch": 172.88,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004909666846465244,
      "loss": 0.3,
      "step": 64830
    },
    {
      "epoch": 172.90666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004909638929978282,
      "loss": 0.302,
      "step": 64840
    },
    {
      "epoch": 172.93333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004909611009257734,
      "loss": 0.3026,
      "step": 64850
    },
    {
      "epoch": 172.96,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004909583084303649,
      "loss": 0.302,
      "step": 64860
    },
    {
      "epoch": 172.98666666666668,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004909555155116075,
      "loss": 0.3138,
      "step": 64870
    },
    {
      "epoch": 173.0,
      "eval_loss": 0.3991791903972626,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0157,
      "eval_samples_per_second": 1.452,
      "eval_steps_per_second": 0.091,
      "step": 64875
    },
    {
      "epoch": 173.01333333333332,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004909527221695062,
      "loss": 0.3049,
      "step": 64880
    },
    {
      "epoch": 173.04,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004909499284040658,
      "loss": 0.3313,
      "step": 64890
    },
    {
      "epoch": 173.06666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004909471342152914,
      "loss": 0.3167,
      "step": 64900
    },
    {
      "epoch": 173.09333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004909443396031877,
      "loss": 0.3132,
      "step": 64910
    },
    {
      "epoch": 173.12,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004909415445677598,
      "loss": 0.3092,
      "step": 64920
    },
    {
      "epoch": 173.14666666666668,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004909387491090124,
      "loss": 0.3105,
      "step": 64930
    },
    {
      "epoch": 173.17333333333335,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004909359532269506,
      "loss": 0.3109,
      "step": 64940
    },
    {
      "epoch": 173.2,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004909331569215792,
      "loss": 0.3037,
      "step": 64950
    },
    {
      "epoch": 173.22666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004909303601929031,
      "loss": 0.298,
      "step": 64960
    },
    {
      "epoch": 173.25333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004909275630409273,
      "loss": 0.297,
      "step": 64970
    },
    {
      "epoch": 173.28,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004909247654656567,
      "loss": 0.3155,
      "step": 64980
    },
    {
      "epoch": 173.30666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004909219674670962,
      "loss": 0.2973,
      "step": 64990
    },
    {
      "epoch": 173.33333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004909191690452506,
      "loss": 0.3118,
      "step": 65000
    },
    {
      "epoch": 173.36,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000490916370200125,
      "loss": 0.3031,
      "step": 65010
    },
    {
      "epoch": 173.38666666666666,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004909135709317243,
      "loss": 0.3004,
      "step": 65020
    },
    {
      "epoch": 173.41333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004909107712400533,
      "loss": 0.3069,
      "step": 65030
    },
    {
      "epoch": 173.44,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004909079711251169,
      "loss": 0.3137,
      "step": 65040
    },
    {
      "epoch": 173.46666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004909051705869202,
      "loss": 0.3178,
      "step": 65050
    },
    {
      "epoch": 173.49333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000490902369625468,
      "loss": 0.3077,
      "step": 65060
    },
    {
      "epoch": 173.52,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004908995682407653,
      "loss": 0.3116,
      "step": 65070
    },
    {
      "epoch": 173.54666666666665,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004908967664328167,
      "loss": 0.3015,
      "step": 65080
    },
    {
      "epoch": 173.57333333333332,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004908939642016277,
      "loss": 0.3049,
      "step": 65090
    },
    {
      "epoch": 173.6,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004908911615472027,
      "loss": 0.3015,
      "step": 65100
    },
    {
      "epoch": 173.62666666666667,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004908883584695469,
      "loss": 0.2963,
      "step": 65110
    },
    {
      "epoch": 173.65333333333334,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004908855549686651,
      "loss": 0.3094,
      "step": 65120
    },
    {
      "epoch": 173.68,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004908827510445625,
      "loss": 0.298,
      "step": 65130
    },
    {
      "epoch": 173.70666666666668,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004908799466972435,
      "loss": 0.2997,
      "step": 65140
    },
    {
      "epoch": 173.73333333333332,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004908771419267136,
      "loss": 0.3139,
      "step": 65150
    },
    {
      "epoch": 173.76,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004908743367329773,
      "loss": 0.316,
      "step": 65160
    },
    {
      "epoch": 173.78666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004908715311160397,
      "loss": 0.3169,
      "step": 65170
    },
    {
      "epoch": 173.81333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004908687250759058,
      "loss": 0.2997,
      "step": 65180
    },
    {
      "epoch": 173.84,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004908659186125804,
      "loss": 0.2994,
      "step": 65190
    },
    {
      "epoch": 173.86666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004908631117260684,
      "loss": 0.3008,
      "step": 65200
    },
    {
      "epoch": 173.89333333333335,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000490860304416375,
      "loss": 0.3015,
      "step": 65210
    },
    {
      "epoch": 173.92,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004908574966835048,
      "loss": 0.302,
      "step": 65220
    },
    {
      "epoch": 173.94666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000490854688527463,
      "loss": 0.3042,
      "step": 65230
    },
    {
      "epoch": 173.97333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004908518799482543,
      "loss": 0.3106,
      "step": 65240
    },
    {
      "epoch": 174.0,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004908490709458837,
      "loss": 0.3001,
      "step": 65250
    },
    {
      "epoch": 174.0,
      "eval_loss": 0.3993348181247711,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.6595,
      "eval_samples_per_second": 1.372,
      "eval_steps_per_second": 0.086,
      "step": 65250
    },
    {
      "epoch": 174.02666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004908462615203562,
      "loss": 0.3223,
      "step": 65260
    },
    {
      "epoch": 174.05333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004908434516716769,
      "loss": 0.3283,
      "step": 65270
    },
    {
      "epoch": 174.08,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004908406413998504,
      "loss": 0.312,
      "step": 65280
    },
    {
      "epoch": 174.10666666666665,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004908378307048819,
      "loss": 0.3139,
      "step": 65290
    },
    {
      "epoch": 174.13333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004908350195867761,
      "loss": 0.3055,
      "step": 65300
    },
    {
      "epoch": 174.16,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004908322080455381,
      "loss": 0.3127,
      "step": 65310
    },
    {
      "epoch": 174.18666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004908293960811729,
      "loss": 0.3081,
      "step": 65320
    },
    {
      "epoch": 174.21333333333334,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004908265836936852,
      "loss": 0.2964,
      "step": 65330
    },
    {
      "epoch": 174.24,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004908237708830802,
      "loss": 0.3002,
      "step": 65340
    },
    {
      "epoch": 174.26666666666668,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004908209576493626,
      "loss": 0.3066,
      "step": 65350
    },
    {
      "epoch": 174.29333333333332,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004908181439925377,
      "loss": 0.3022,
      "step": 65360
    },
    {
      "epoch": 174.32,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004908153299126101,
      "loss": 0.3092,
      "step": 65370
    },
    {
      "epoch": 174.34666666666666,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004908125154095848,
      "loss": 0.3081,
      "step": 65380
    },
    {
      "epoch": 174.37333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004908097004834668,
      "loss": 0.3002,
      "step": 65390
    },
    {
      "epoch": 174.4,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004908068851342611,
      "loss": 0.3021,
      "step": 65400
    },
    {
      "epoch": 174.42666666666668,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004908040693619726,
      "loss": 0.3092,
      "step": 65410
    },
    {
      "epoch": 174.45333333333335,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004908012531666063,
      "loss": 0.3174,
      "step": 65420
    },
    {
      "epoch": 174.48,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000490798436548167,
      "loss": 0.3126,
      "step": 65430
    },
    {
      "epoch": 174.50666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004907956195066599,
      "loss": 0.3101,
      "step": 65440
    },
    {
      "epoch": 174.53333333333333,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0004907928020420896,
      "loss": 0.3047,
      "step": 65450
    },
    {
      "epoch": 174.56,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004907899841544613,
      "loss": 0.3014,
      "step": 65460
    },
    {
      "epoch": 174.58666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.00049078716584378,
      "loss": 0.3047,
      "step": 65470
    },
    {
      "epoch": 174.61333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004907843471100504,
      "loss": 0.2975,
      "step": 65480
    },
    {
      "epoch": 174.64,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004907815279532777,
      "loss": 0.2979,
      "step": 65490
    },
    {
      "epoch": 174.66666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004907787083734667,
      "loss": 0.3129,
      "step": 65500
    },
    {
      "epoch": 174.69333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004907758883706224,
      "loss": 0.2924,
      "step": 65510
    },
    {
      "epoch": 174.72,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004907730679447498,
      "loss": 0.3089,
      "step": 65520
    },
    {
      "epoch": 174.74666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004907702470958537,
      "loss": 0.3098,
      "step": 65530
    },
    {
      "epoch": 174.77333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0004907674258239393,
      "loss": 0.322,
      "step": 65540
    },
    {
      "epoch": 174.8,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004907646041290114,
      "loss": 0.3082,
      "step": 65550
    },
    {
      "epoch": 174.82666666666665,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.000490761782011075,
      "loss": 0.2973,
      "step": 65560
    },
    {
      "epoch": 174.85333333333332,
      "grad_norm": 0.177734375,
      "learning_rate": 0.000490758959470135,
      "loss": 0.3011,
      "step": 65570
    },
    {
      "epoch": 174.88,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004907561365061964,
      "loss": 0.3004,
      "step": 65580
    },
    {
      "epoch": 174.90666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004907533131192642,
      "loss": 0.3019,
      "step": 65590
    },
    {
      "epoch": 174.93333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004907504893093432,
      "loss": 0.3023,
      "step": 65600
    },
    {
      "epoch": 174.96,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004907476650764386,
      "loss": 0.3026,
      "step": 65610
    },
    {
      "epoch": 174.98666666666668,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004907448404205552,
      "loss": 0.3141,
      "step": 65620
    },
    {
      "epoch": 175.0,
      "eval_loss": 0.39776498079299927,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6638,
      "eval_samples_per_second": 1.5,
      "eval_steps_per_second": 0.094,
      "step": 65625
    },
    {
      "epoch": 175.01333333333332,
      "grad_norm": 0.21875,
      "learning_rate": 0.000490742015341698,
      "loss": 0.3053,
      "step": 65630
    },
    {
      "epoch": 175.04,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004907391898398721,
      "loss": 0.3316,
      "step": 65640
    },
    {
      "epoch": 175.06666666666666,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004907363639150822,
      "loss": 0.3161,
      "step": 65650
    },
    {
      "epoch": 175.09333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004907335375673335,
      "loss": 0.3132,
      "step": 65660
    },
    {
      "epoch": 175.12,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004907307107966307,
      "loss": 0.3087,
      "step": 65670
    },
    {
      "epoch": 175.14666666666668,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000490727883602979,
      "loss": 0.3094,
      "step": 65680
    },
    {
      "epoch": 175.17333333333335,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004907250559863834,
      "loss": 0.3103,
      "step": 65690
    },
    {
      "epoch": 175.2,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0004907222279468486,
      "loss": 0.3033,
      "step": 65700
    },
    {
      "epoch": 175.22666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00049071939948438,
      "loss": 0.2974,
      "step": 65710
    },
    {
      "epoch": 175.25333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004907165705989821,
      "loss": 0.2973,
      "step": 65720
    },
    {
      "epoch": 175.28,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004907137412906601,
      "loss": 0.3151,
      "step": 65730
    },
    {
      "epoch": 175.30666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000490710911559419,
      "loss": 0.298,
      "step": 65740
    },
    {
      "epoch": 175.33333333333334,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004907080814052637,
      "loss": 0.312,
      "step": 65750
    },
    {
      "epoch": 175.36,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004907052508281992,
      "loss": 0.303,
      "step": 65760
    },
    {
      "epoch": 175.38666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004907024198282303,
      "loss": 0.3003,
      "step": 65770
    },
    {
      "epoch": 175.41333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004906995884053623,
      "loss": 0.306,
      "step": 65780
    },
    {
      "epoch": 175.44,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004906967565596,
      "loss": 0.3138,
      "step": 65790
    },
    {
      "epoch": 175.46666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004906939242909484,
      "loss": 0.3173,
      "step": 65800
    },
    {
      "epoch": 175.49333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004906910915994124,
      "loss": 0.3068,
      "step": 65810
    },
    {
      "epoch": 175.52,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000490688258484997,
      "loss": 0.3109,
      "step": 65820
    },
    {
      "epoch": 175.54666666666665,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004906854249477074,
      "loss": 0.3015,
      "step": 65830
    },
    {
      "epoch": 175.57333333333332,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004906825909875483,
      "loss": 0.3044,
      "step": 65840
    },
    {
      "epoch": 175.6,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004906797566045249,
      "loss": 0.3016,
      "step": 65850
    },
    {
      "epoch": 175.62666666666667,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004906769217986418,
      "loss": 0.2964,
      "step": 65860
    },
    {
      "epoch": 175.65333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004906740865699043,
      "loss": 0.309,
      "step": 65870
    },
    {
      "epoch": 175.68,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004906712509183174,
      "loss": 0.2979,
      "step": 65880
    },
    {
      "epoch": 175.70666666666668,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000490668414843886,
      "loss": 0.2989,
      "step": 65890
    },
    {
      "epoch": 175.73333333333332,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004906655783466151,
      "loss": 0.3139,
      "step": 65900
    },
    {
      "epoch": 175.76,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004906627414265096,
      "loss": 0.3157,
      "step": 65910
    },
    {
      "epoch": 175.78666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004906599040835746,
      "loss": 0.317,
      "step": 65920
    },
    {
      "epoch": 175.81333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000490657066317815,
      "loss": 0.299,
      "step": 65930
    },
    {
      "epoch": 175.84,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004906542281292359,
      "loss": 0.2989,
      "step": 65940
    },
    {
      "epoch": 175.86666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004906513895178421,
      "loss": 0.3009,
      "step": 65950
    },
    {
      "epoch": 175.89333333333335,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004906485504836388,
      "loss": 0.3009,
      "step": 65960
    },
    {
      "epoch": 175.92,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004906457110266308,
      "loss": 0.3014,
      "step": 65970
    },
    {
      "epoch": 175.94666666666666,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004906428711468232,
      "loss": 0.3035,
      "step": 65980
    },
    {
      "epoch": 175.97333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004906400308442209,
      "loss": 0.3109,
      "step": 65990
    },
    {
      "epoch": 176.0,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000490637190118829,
      "loss": 0.2992,
      "step": 66000
    },
    {
      "epoch": 176.0,
      "eval_loss": 0.3978154957294464,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8442,
      "eval_samples_per_second": 1.475,
      "eval_steps_per_second": 0.092,
      "step": 66000
    },
    {
      "epoch": 176.02666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004906343489706525,
      "loss": 0.3222,
      "step": 66010
    },
    {
      "epoch": 176.05333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004906315073996962,
      "loss": 0.3285,
      "step": 66020
    },
    {
      "epoch": 176.08,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004906286654059654,
      "loss": 0.3121,
      "step": 66030
    },
    {
      "epoch": 176.10666666666665,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004906258229894648,
      "loss": 0.3141,
      "step": 66040
    },
    {
      "epoch": 176.13333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004906229801501995,
      "loss": 0.3048,
      "step": 66050
    },
    {
      "epoch": 176.16,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0004906201368881746,
      "loss": 0.3127,
      "step": 66060
    },
    {
      "epoch": 176.18666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000490617293203395,
      "loss": 0.3079,
      "step": 66070
    },
    {
      "epoch": 176.21333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004906144490958656,
      "loss": 0.2965,
      "step": 66080
    },
    {
      "epoch": 176.24,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004906116045655916,
      "loss": 0.3,
      "step": 66090
    },
    {
      "epoch": 176.26666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004906087596125778,
      "loss": 0.3062,
      "step": 66100
    },
    {
      "epoch": 176.29333333333332,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004906059142368293,
      "loss": 0.3018,
      "step": 66110
    },
    {
      "epoch": 176.32,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004906030684383513,
      "loss": 0.3091,
      "step": 66120
    },
    {
      "epoch": 176.34666666666666,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004906002222171483,
      "loss": 0.308,
      "step": 66130
    },
    {
      "epoch": 176.37333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004905973755732258,
      "loss": 0.3003,
      "step": 66140
    },
    {
      "epoch": 176.4,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004905945285065884,
      "loss": 0.3015,
      "step": 66150
    },
    {
      "epoch": 176.42666666666668,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004905916810172415,
      "loss": 0.3092,
      "step": 66160
    },
    {
      "epoch": 176.45333333333335,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004905888331051898,
      "loss": 0.3173,
      "step": 66170
    },
    {
      "epoch": 176.48,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004905859847704384,
      "loss": 0.3127,
      "step": 66180
    },
    {
      "epoch": 176.50666666666666,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004905831360129923,
      "loss": 0.3098,
      "step": 66190
    },
    {
      "epoch": 176.53333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004905802868328565,
      "loss": 0.3049,
      "step": 66200
    },
    {
      "epoch": 176.56,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004905774372300361,
      "loss": 0.3012,
      "step": 66210
    },
    {
      "epoch": 176.58666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.000490574587204536,
      "loss": 0.3051,
      "step": 66220
    },
    {
      "epoch": 176.61333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004905717367563612,
      "loss": 0.2969,
      "step": 66230
    },
    {
      "epoch": 176.64,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004905688858855168,
      "loss": 0.2976,
      "step": 66240
    },
    {
      "epoch": 176.66666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004905660345920076,
      "loss": 0.3138,
      "step": 66250
    },
    {
      "epoch": 176.69333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004905631828758389,
      "loss": 0.2927,
      "step": 66260
    },
    {
      "epoch": 176.72,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004905603307370155,
      "loss": 0.3084,
      "step": 66270
    },
    {
      "epoch": 176.74666666666667,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004905574781755425,
      "loss": 0.3097,
      "step": 66280
    },
    {
      "epoch": 176.77333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004905546251914249,
      "loss": 0.3212,
      "step": 66290
    },
    {
      "epoch": 176.8,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004905517717846677,
      "loss": 0.308,
      "step": 66300
    },
    {
      "epoch": 176.82666666666665,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004905489179552759,
      "loss": 0.2967,
      "step": 66310
    },
    {
      "epoch": 176.85333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004905460637032546,
      "loss": 0.3002,
      "step": 66320
    },
    {
      "epoch": 176.88,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004905432090286086,
      "loss": 0.2997,
      "step": 66330
    },
    {
      "epoch": 176.90666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004905403539313432,
      "loss": 0.3017,
      "step": 66340
    },
    {
      "epoch": 176.93333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004905374984114632,
      "loss": 0.3021,
      "step": 66350
    },
    {
      "epoch": 176.96,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004905346424689738,
      "loss": 0.3018,
      "step": 66360
    },
    {
      "epoch": 176.98666666666668,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004905317861038798,
      "loss": 0.3134,
      "step": 66370
    },
    {
      "epoch": 177.0,
      "eval_loss": 0.3980793058872223,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.3702,
      "eval_samples_per_second": 1.293,
      "eval_steps_per_second": 0.081,
      "step": 66375
    },
    {
      "epoch": 177.01333333333332,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004905289293161865,
      "loss": 0.3045,
      "step": 66380
    },
    {
      "epoch": 177.04,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004905260721058985,
      "loss": 0.3304,
      "step": 66390
    },
    {
      "epoch": 177.06666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004905232144730211,
      "loss": 0.3163,
      "step": 66400
    },
    {
      "epoch": 177.09333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004905203564175595,
      "loss": 0.3125,
      "step": 66410
    },
    {
      "epoch": 177.12,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004905174979395184,
      "loss": 0.3089,
      "step": 66420
    },
    {
      "epoch": 177.14666666666668,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004905146390389029,
      "loss": 0.3092,
      "step": 66430
    },
    {
      "epoch": 177.17333333333335,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004905117797157181,
      "loss": 0.3096,
      "step": 66440
    },
    {
      "epoch": 177.2,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000490508919969969,
      "loss": 0.303,
      "step": 66450
    },
    {
      "epoch": 177.22666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004905060598016605,
      "loss": 0.2969,
      "step": 66460
    },
    {
      "epoch": 177.25333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004905031992107978,
      "loss": 0.2964,
      "step": 66470
    },
    {
      "epoch": 177.28,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004905003381973858,
      "loss": 0.315,
      "step": 66480
    },
    {
      "epoch": 177.30666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004904974767614297,
      "loss": 0.2973,
      "step": 66490
    },
    {
      "epoch": 177.33333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004904946149029343,
      "loss": 0.3115,
      "step": 66500
    },
    {
      "epoch": 177.36,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004904917526219049,
      "loss": 0.3026,
      "step": 66510
    },
    {
      "epoch": 177.38666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004904888899183462,
      "loss": 0.3001,
      "step": 66520
    },
    {
      "epoch": 177.41333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004904860267922636,
      "loss": 0.3058,
      "step": 66530
    },
    {
      "epoch": 177.44,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004904831632436616,
      "loss": 0.3129,
      "step": 66540
    },
    {
      "epoch": 177.46666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004904802992725458,
      "loss": 0.3167,
      "step": 66550
    },
    {
      "epoch": 177.49333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000490477434878921,
      "loss": 0.3061,
      "step": 66560
    },
    {
      "epoch": 177.52,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004904745700627921,
      "loss": 0.3099,
      "step": 66570
    },
    {
      "epoch": 177.54666666666665,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004904717048241642,
      "loss": 0.3007,
      "step": 66580
    },
    {
      "epoch": 177.57333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004904688391630425,
      "loss": 0.3044,
      "step": 66590
    },
    {
      "epoch": 177.6,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000490465973079432,
      "loss": 0.3013,
      "step": 66600
    },
    {
      "epoch": 177.62666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004904631065733376,
      "loss": 0.2963,
      "step": 66610
    },
    {
      "epoch": 177.65333333333334,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004904602396447644,
      "loss": 0.3085,
      "step": 66620
    },
    {
      "epoch": 177.68,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004904573722937174,
      "loss": 0.297,
      "step": 66630
    },
    {
      "epoch": 177.70666666666668,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004904545045202016,
      "loss": 0.2984,
      "step": 66640
    },
    {
      "epoch": 177.73333333333332,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004904516363242222,
      "loss": 0.3136,
      "step": 66650
    },
    {
      "epoch": 177.76,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004904487677057841,
      "loss": 0.3156,
      "step": 66660
    },
    {
      "epoch": 177.78666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004904458986648926,
      "loss": 0.3163,
      "step": 66670
    },
    {
      "epoch": 177.81333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004904430292015522,
      "loss": 0.2989,
      "step": 66680
    },
    {
      "epoch": 177.84,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004904401593157686,
      "loss": 0.2988,
      "step": 66690
    },
    {
      "epoch": 177.86666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004904372890075462,
      "loss": 0.3,
      "step": 66700
    },
    {
      "epoch": 177.89333333333335,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004904344182768905,
      "loss": 0.3004,
      "step": 66710
    },
    {
      "epoch": 177.92,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004904315471238065,
      "loss": 0.3014,
      "step": 66720
    },
    {
      "epoch": 177.94666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.000490428675548299,
      "loss": 0.3036,
      "step": 66730
    },
    {
      "epoch": 177.97333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0004904258035503732,
      "loss": 0.3104,
      "step": 66740
    },
    {
      "epoch": 178.0,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004904229311300342,
      "loss": 0.2992,
      "step": 66750
    },
    {
      "epoch": 178.0,
      "eval_loss": 0.39846497774124146,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7341,
      "eval_samples_per_second": 1.491,
      "eval_steps_per_second": 0.093,
      "step": 66750
    },
    {
      "epoch": 178.02666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000490420058287287,
      "loss": 0.3215,
      "step": 66760
    },
    {
      "epoch": 178.05333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004904171850221365,
      "loss": 0.3276,
      "step": 66770
    },
    {
      "epoch": 178.08,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000490414311334588,
      "loss": 0.3119,
      "step": 66780
    },
    {
      "epoch": 178.10666666666665,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004904114372246464,
      "loss": 0.3136,
      "step": 66790
    },
    {
      "epoch": 178.13333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004904085626923168,
      "loss": 0.3045,
      "step": 66800
    },
    {
      "epoch": 178.16,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004904056877376042,
      "loss": 0.3117,
      "step": 66810
    },
    {
      "epoch": 178.18666666666667,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0004904028123605136,
      "loss": 0.3077,
      "step": 66820
    },
    {
      "epoch": 178.21333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004903999365610503,
      "loss": 0.2963,
      "step": 66830
    },
    {
      "epoch": 178.24,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000490397060339219,
      "loss": 0.2997,
      "step": 66840
    },
    {
      "epoch": 178.26666666666668,
      "grad_norm": 0.21875,
      "learning_rate": 0.000490394183695025,
      "loss": 0.3057,
      "step": 66850
    },
    {
      "epoch": 178.29333333333332,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004903913066284733,
      "loss": 0.3014,
      "step": 66860
    },
    {
      "epoch": 178.32,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000490388429139569,
      "loss": 0.3085,
      "step": 66870
    },
    {
      "epoch": 178.34666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004903855512283171,
      "loss": 0.3076,
      "step": 66880
    },
    {
      "epoch": 178.37333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004903826728947225,
      "loss": 0.3001,
      "step": 66890
    },
    {
      "epoch": 178.4,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004903797941387906,
      "loss": 0.3013,
      "step": 66900
    },
    {
      "epoch": 178.42666666666668,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004903769149605261,
      "loss": 0.3082,
      "step": 66910
    },
    {
      "epoch": 178.45333333333335,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004903740353599344,
      "loss": 0.3174,
      "step": 66920
    },
    {
      "epoch": 178.48,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004903711553370203,
      "loss": 0.3123,
      "step": 66930
    },
    {
      "epoch": 178.50666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004903682748917889,
      "loss": 0.3092,
      "step": 66940
    },
    {
      "epoch": 178.53333333333333,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0004903653940242455,
      "loss": 0.3043,
      "step": 66950
    },
    {
      "epoch": 178.56,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004903625127343948,
      "loss": 0.3009,
      "step": 66960
    },
    {
      "epoch": 178.58666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000490359631022242,
      "loss": 0.3044,
      "step": 66970
    },
    {
      "epoch": 178.61333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004903567488877923,
      "loss": 0.2976,
      "step": 66980
    },
    {
      "epoch": 178.64,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004903538663310506,
      "loss": 0.2979,
      "step": 66990
    },
    {
      "epoch": 178.66666666666666,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004903509833520221,
      "loss": 0.3141,
      "step": 67000
    },
    {
      "epoch": 178.69333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004903480999507118,
      "loss": 0.2923,
      "step": 67010
    },
    {
      "epoch": 178.72,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004903452161271247,
      "loss": 0.3079,
      "step": 67020
    },
    {
      "epoch": 178.74666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004903423318812659,
      "loss": 0.3098,
      "step": 67030
    },
    {
      "epoch": 178.77333333333334,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004903394472131406,
      "loss": 0.3211,
      "step": 67040
    },
    {
      "epoch": 178.8,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004903365621227536,
      "loss": 0.3081,
      "step": 67050
    },
    {
      "epoch": 178.82666666666665,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004903336766101102,
      "loss": 0.2969,
      "step": 67060
    },
    {
      "epoch": 178.85333333333332,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004903307906752154,
      "loss": 0.3005,
      "step": 67070
    },
    {
      "epoch": 178.88,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004903279043180742,
      "loss": 0.2995,
      "step": 67080
    },
    {
      "epoch": 178.90666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004903250175386919,
      "loss": 0.3011,
      "step": 67090
    },
    {
      "epoch": 178.93333333333334,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004903221303370733,
      "loss": 0.3025,
      "step": 67100
    },
    {
      "epoch": 178.96,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004903192427132236,
      "loss": 0.3016,
      "step": 67110
    },
    {
      "epoch": 178.98666666666668,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004903163546671478,
      "loss": 0.3133,
      "step": 67120
    },
    {
      "epoch": 179.0,
      "eval_loss": 0.39602065086364746,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.109,
      "eval_samples_per_second": 1.44,
      "eval_steps_per_second": 0.09,
      "step": 67125
    },
    {
      "epoch": 179.01333333333332,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004903134661988511,
      "loss": 0.3046,
      "step": 67130
    },
    {
      "epoch": 179.04,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004903105773083386,
      "loss": 0.3305,
      "step": 67140
    },
    {
      "epoch": 179.06666666666666,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004903076879956151,
      "loss": 0.3157,
      "step": 67150
    },
    {
      "epoch": 179.09333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.000490304798260686,
      "loss": 0.3128,
      "step": 67160
    },
    {
      "epoch": 179.12,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004903019081035562,
      "loss": 0.3085,
      "step": 67170
    },
    {
      "epoch": 179.14666666666668,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004902990175242307,
      "loss": 0.3091,
      "step": 67180
    },
    {
      "epoch": 179.17333333333335,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004902961265227148,
      "loss": 0.3101,
      "step": 67190
    },
    {
      "epoch": 179.2,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004902932350990134,
      "loss": 0.3029,
      "step": 67200
    },
    {
      "epoch": 179.22666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004902903432531318,
      "loss": 0.2967,
      "step": 67210
    },
    {
      "epoch": 179.25333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004902874509850748,
      "loss": 0.2968,
      "step": 67220
    },
    {
      "epoch": 179.28,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004902845582948475,
      "loss": 0.3147,
      "step": 67230
    },
    {
      "epoch": 179.30666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004902816651824553,
      "loss": 0.297,
      "step": 67240
    },
    {
      "epoch": 179.33333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000490278771647903,
      "loss": 0.3112,
      "step": 67250
    },
    {
      "epoch": 179.36,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004902758776911957,
      "loss": 0.3021,
      "step": 67260
    },
    {
      "epoch": 179.38666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004902729833123387,
      "loss": 0.3,
      "step": 67270
    },
    {
      "epoch": 179.41333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004902700885113368,
      "loss": 0.306,
      "step": 67280
    },
    {
      "epoch": 179.44,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004902671932881952,
      "loss": 0.3134,
      "step": 67290
    },
    {
      "epoch": 179.46666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004902642976429191,
      "loss": 0.3167,
      "step": 67300
    },
    {
      "epoch": 179.49333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004902614015755135,
      "loss": 0.3065,
      "step": 67310
    },
    {
      "epoch": 179.52,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004902585050859835,
      "loss": 0.3105,
      "step": 67320
    },
    {
      "epoch": 179.54666666666665,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.000490255608174334,
      "loss": 0.3006,
      "step": 67330
    },
    {
      "epoch": 179.57333333333332,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004902527108405705,
      "loss": 0.304,
      "step": 67340
    },
    {
      "epoch": 179.6,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004902498130846977,
      "loss": 0.3008,
      "step": 67350
    },
    {
      "epoch": 179.62666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004902469149067208,
      "loss": 0.2959,
      "step": 67360
    },
    {
      "epoch": 179.65333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.000490244016306645,
      "loss": 0.3093,
      "step": 67370
    },
    {
      "epoch": 179.68,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004902411172844753,
      "loss": 0.2976,
      "step": 67380
    },
    {
      "epoch": 179.70666666666668,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004902382178402168,
      "loss": 0.2977,
      "step": 67390
    },
    {
      "epoch": 179.73333333333332,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004902353179738747,
      "loss": 0.3132,
      "step": 67400
    },
    {
      "epoch": 179.76,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004902324176854539,
      "loss": 0.3154,
      "step": 67410
    },
    {
      "epoch": 179.78666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004902295169749597,
      "loss": 0.3161,
      "step": 67420
    },
    {
      "epoch": 179.81333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.000490226615842397,
      "loss": 0.2982,
      "step": 67430
    },
    {
      "epoch": 179.84,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000490223714287771,
      "loss": 0.2988,
      "step": 67440
    },
    {
      "epoch": 179.86666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004902208123110869,
      "loss": 0.3006,
      "step": 67450
    },
    {
      "epoch": 179.89333333333335,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004902179099123496,
      "loss": 0.2997,
      "step": 67460
    },
    {
      "epoch": 179.92,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004902150070915643,
      "loss": 0.301,
      "step": 67470
    },
    {
      "epoch": 179.94666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004902121038487361,
      "loss": 0.3029,
      "step": 67480
    },
    {
      "epoch": 179.97333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004902092001838702,
      "loss": 0.31,
      "step": 67490
    },
    {
      "epoch": 180.0,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004902062960969715,
      "loss": 0.2989,
      "step": 67500
    },
    {
      "epoch": 180.0,
      "eval_loss": 0.39768654108047485,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.4405,
      "eval_samples_per_second": 1.532,
      "eval_steps_per_second": 0.096,
      "step": 67500
    },
    {
      "epoch": 180.02666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004902033915880451,
      "loss": 0.3212,
      "step": 67510
    },
    {
      "epoch": 180.05333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004902004866570963,
      "loss": 0.3275,
      "step": 67520
    },
    {
      "epoch": 180.08,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004901975813041302,
      "loss": 0.3111,
      "step": 67530
    },
    {
      "epoch": 180.10666666666665,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004901946755291516,
      "loss": 0.3135,
      "step": 67540
    },
    {
      "epoch": 180.13333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000490191769332166,
      "loss": 0.3045,
      "step": 67550
    },
    {
      "epoch": 180.16,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004901888627131781,
      "loss": 0.3116,
      "step": 67560
    },
    {
      "epoch": 180.18666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004901859556721935,
      "loss": 0.3075,
      "step": 67570
    },
    {
      "epoch": 180.21333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004901830482092169,
      "loss": 0.2961,
      "step": 67580
    },
    {
      "epoch": 180.24,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004901801403242535,
      "loss": 0.299,
      "step": 67590
    },
    {
      "epoch": 180.26666666666668,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004901772320173085,
      "loss": 0.3056,
      "step": 67600
    },
    {
      "epoch": 180.29333333333332,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000490174323288387,
      "loss": 0.3014,
      "step": 67610
    },
    {
      "epoch": 180.32,
      "grad_norm": 0.171875,
      "learning_rate": 0.000490171414137494,
      "loss": 0.3084,
      "step": 67620
    },
    {
      "epoch": 180.34666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004901685045646347,
      "loss": 0.3077,
      "step": 67630
    },
    {
      "epoch": 180.37333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004901655945698143,
      "loss": 0.2999,
      "step": 67640
    },
    {
      "epoch": 180.4,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004901626841530376,
      "loss": 0.3013,
      "step": 67650
    },
    {
      "epoch": 180.42666666666668,
      "grad_norm": 0.1796875,
      "learning_rate": 0.00049015977331431,
      "loss": 0.3083,
      "step": 67660
    },
    {
      "epoch": 180.45333333333335,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004901568620536366,
      "loss": 0.3172,
      "step": 67670
    },
    {
      "epoch": 180.48,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004901539503710224,
      "loss": 0.3124,
      "step": 67680
    },
    {
      "epoch": 180.50666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004901510382664726,
      "loss": 0.3092,
      "step": 67690
    },
    {
      "epoch": 180.53333333333333,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004901481257399922,
      "loss": 0.3042,
      "step": 67700
    },
    {
      "epoch": 180.56,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004901452127915865,
      "loss": 0.3008,
      "step": 67710
    },
    {
      "epoch": 180.58666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004901422994212605,
      "loss": 0.3049,
      "step": 67720
    },
    {
      "epoch": 180.61333333333334,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0004901393856290193,
      "loss": 0.2974,
      "step": 67730
    },
    {
      "epoch": 180.64,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000490136471414868,
      "loss": 0.2978,
      "step": 67740
    },
    {
      "epoch": 180.66666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004901335567788119,
      "loss": 0.3133,
      "step": 67750
    },
    {
      "epoch": 180.69333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000490130641720856,
      "loss": 0.2931,
      "step": 67760
    },
    {
      "epoch": 180.72,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004901277262410053,
      "loss": 0.3081,
      "step": 67770
    },
    {
      "epoch": 180.74666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004901248103392651,
      "loss": 0.3101,
      "step": 67780
    },
    {
      "epoch": 180.77333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004901218940156404,
      "loss": 0.3209,
      "step": 67790
    },
    {
      "epoch": 180.8,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004901189772701365,
      "loss": 0.3075,
      "step": 67800
    },
    {
      "epoch": 180.82666666666665,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004901160601027583,
      "loss": 0.2963,
      "step": 67810
    },
    {
      "epoch": 180.85333333333332,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004901131425135111,
      "loss": 0.3002,
      "step": 67820
    },
    {
      "epoch": 180.88,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004901102245023999,
      "loss": 0.2994,
      "step": 67830
    },
    {
      "epoch": 180.90666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00049010730606943,
      "loss": 0.3019,
      "step": 67840
    },
    {
      "epoch": 180.93333333333334,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004901043872146063,
      "loss": 0.302,
      "step": 67850
    },
    {
      "epoch": 180.96,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004901014679379341,
      "loss": 0.3017,
      "step": 67860
    },
    {
      "epoch": 180.98666666666668,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004900985482394185,
      "loss": 0.3137,
      "step": 67870
    },
    {
      "epoch": 181.0,
      "eval_loss": 0.39718955755233765,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2027,
      "eval_samples_per_second": 1.428,
      "eval_steps_per_second": 0.089,
      "step": 67875
    },
    {
      "epoch": 181.01333333333332,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004900956281190645,
      "loss": 0.3047,
      "step": 67880
    },
    {
      "epoch": 181.04,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004900927075768774,
      "loss": 0.331,
      "step": 67890
    },
    {
      "epoch": 181.06666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004900897866128623,
      "loss": 0.3155,
      "step": 67900
    },
    {
      "epoch": 181.09333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004900868652270243,
      "loss": 0.3124,
      "step": 67910
    },
    {
      "epoch": 181.12,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004900839434193684,
      "loss": 0.3078,
      "step": 67920
    },
    {
      "epoch": 181.14666666666668,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004900810211899,
      "loss": 0.3092,
      "step": 67930
    },
    {
      "epoch": 181.17333333333335,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004900780985386241,
      "loss": 0.3099,
      "step": 67940
    },
    {
      "epoch": 181.2,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004900751754655458,
      "loss": 0.303,
      "step": 67950
    },
    {
      "epoch": 181.22666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004900722519706702,
      "loss": 0.2966,
      "step": 67960
    },
    {
      "epoch": 181.25333333333333,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004900693280540026,
      "loss": 0.2969,
      "step": 67970
    },
    {
      "epoch": 181.28,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.000490066403715548,
      "loss": 0.3146,
      "step": 67980
    },
    {
      "epoch": 181.30666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004900634789553116,
      "loss": 0.2972,
      "step": 67990
    },
    {
      "epoch": 181.33333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004900605537732984,
      "loss": 0.3115,
      "step": 68000
    },
    {
      "epoch": 181.36,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004900576281695138,
      "loss": 0.3013,
      "step": 68010
    },
    {
      "epoch": 181.38666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004900547021439627,
      "loss": 0.2995,
      "step": 68020
    },
    {
      "epoch": 181.41333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004900517756966504,
      "loss": 0.3051,
      "step": 68030
    },
    {
      "epoch": 181.44,
      "grad_norm": 0.216796875,
      "learning_rate": 0.000490048848827582,
      "loss": 0.3121,
      "step": 68040
    },
    {
      "epoch": 181.46666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004900459215367626,
      "loss": 0.3162,
      "step": 68050
    },
    {
      "epoch": 181.49333333333334,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004900429938241974,
      "loss": 0.306,
      "step": 68060
    },
    {
      "epoch": 181.52,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004900400656898914,
      "loss": 0.31,
      "step": 68070
    },
    {
      "epoch": 181.54666666666665,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004900371371338499,
      "loss": 0.3001,
      "step": 68080
    },
    {
      "epoch": 181.57333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004900342081560781,
      "loss": 0.3041,
      "step": 68090
    },
    {
      "epoch": 181.6,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004900312787565809,
      "loss": 0.3003,
      "step": 68100
    },
    {
      "epoch": 181.62666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004900283489353637,
      "loss": 0.2957,
      "step": 68110
    },
    {
      "epoch": 181.65333333333334,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004900254186924315,
      "loss": 0.3084,
      "step": 68120
    },
    {
      "epoch": 181.68,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004900224880277894,
      "loss": 0.2969,
      "step": 68130
    },
    {
      "epoch": 181.70666666666668,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004900195569414427,
      "loss": 0.2983,
      "step": 68140
    },
    {
      "epoch": 181.73333333333332,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004900166254333965,
      "loss": 0.3132,
      "step": 68150
    },
    {
      "epoch": 181.76,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004900136935036558,
      "loss": 0.3152,
      "step": 68160
    },
    {
      "epoch": 181.78666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004900107611522261,
      "loss": 0.3161,
      "step": 68170
    },
    {
      "epoch": 181.81333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004900078283791123,
      "loss": 0.299,
      "step": 68180
    },
    {
      "epoch": 181.84,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004900048951843195,
      "loss": 0.2982,
      "step": 68190
    },
    {
      "epoch": 181.86666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000490001961567853,
      "loss": 0.2996,
      "step": 68200
    },
    {
      "epoch": 181.89333333333335,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000489999027529718,
      "loss": 0.2998,
      "step": 68210
    },
    {
      "epoch": 181.92,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004899960930699194,
      "loss": 0.3008,
      "step": 68220
    },
    {
      "epoch": 181.94666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004899931581884625,
      "loss": 0.303,
      "step": 68230
    },
    {
      "epoch": 181.97333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004899902228853526,
      "loss": 0.3101,
      "step": 68240
    },
    {
      "epoch": 182.0,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004899872871605946,
      "loss": 0.2986,
      "step": 68250
    },
    {
      "epoch": 182.0,
      "eval_loss": 0.39623311161994934,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1379,
      "eval_samples_per_second": 1.437,
      "eval_steps_per_second": 0.09,
      "step": 68250
    },
    {
      "epoch": 182.02666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004899843510141939,
      "loss": 0.3206,
      "step": 68260
    },
    {
      "epoch": 182.05333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004899814144461554,
      "loss": 0.3272,
      "step": 68270
    },
    {
      "epoch": 182.08,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004899784774564845,
      "loss": 0.3108,
      "step": 68280
    },
    {
      "epoch": 182.10666666666665,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004899755400451862,
      "loss": 0.3127,
      "step": 68290
    },
    {
      "epoch": 182.13333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004899726022122658,
      "loss": 0.3042,
      "step": 68300
    },
    {
      "epoch": 182.16,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004899696639577284,
      "loss": 0.3107,
      "step": 68310
    },
    {
      "epoch": 182.18666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.000489966725281579,
      "loss": 0.3072,
      "step": 68320
    },
    {
      "epoch": 182.21333333333334,
      "grad_norm": 0.23828125,
      "learning_rate": 0.000489963786183823,
      "loss": 0.2958,
      "step": 68330
    },
    {
      "epoch": 182.24,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004899608466644655,
      "loss": 0.2995,
      "step": 68340
    },
    {
      "epoch": 182.26666666666668,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004899579067235116,
      "loss": 0.3048,
      "step": 68350
    },
    {
      "epoch": 182.29333333333332,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004899549663609665,
      "loss": 0.3017,
      "step": 68360
    },
    {
      "epoch": 182.32,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004899520255768353,
      "loss": 0.3079,
      "step": 68370
    },
    {
      "epoch": 182.34666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004899490843711233,
      "loss": 0.3071,
      "step": 68380
    },
    {
      "epoch": 182.37333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004899461427438356,
      "loss": 0.2993,
      "step": 68390
    },
    {
      "epoch": 182.4,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004899432006949774,
      "loss": 0.3011,
      "step": 68400
    },
    {
      "epoch": 182.42666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004899402582245538,
      "loss": 0.3083,
      "step": 68410
    },
    {
      "epoch": 182.45333333333335,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048993731533257,
      "loss": 0.3162,
      "step": 68420
    },
    {
      "epoch": 182.48,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004899343720190313,
      "loss": 0.3119,
      "step": 68430
    },
    {
      "epoch": 182.50666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004899314282839426,
      "loss": 0.309,
      "step": 68440
    },
    {
      "epoch": 182.53333333333333,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004899284841273092,
      "loss": 0.3038,
      "step": 68450
    },
    {
      "epoch": 182.56,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004899255395491365,
      "loss": 0.3004,
      "step": 68460
    },
    {
      "epoch": 182.58666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004899225945494293,
      "loss": 0.3041,
      "step": 68470
    },
    {
      "epoch": 182.61333333333334,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004899196491281929,
      "loss": 0.2969,
      "step": 68480
    },
    {
      "epoch": 182.64,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004899167032854327,
      "loss": 0.2974,
      "step": 68490
    },
    {
      "epoch": 182.66666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004899137570211536,
      "loss": 0.3128,
      "step": 68500
    },
    {
      "epoch": 182.69333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004899108103353607,
      "loss": 0.2922,
      "step": 68510
    },
    {
      "epoch": 182.72,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004899078632280596,
      "loss": 0.3071,
      "step": 68520
    },
    {
      "epoch": 182.74666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004899049156992551,
      "loss": 0.3091,
      "step": 68530
    },
    {
      "epoch": 182.77333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004899019677489525,
      "loss": 0.3202,
      "step": 68540
    },
    {
      "epoch": 182.8,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004898990193771571,
      "loss": 0.3075,
      "step": 68550
    },
    {
      "epoch": 182.82666666666665,
      "grad_norm": 0.28125,
      "learning_rate": 0.0004898960705838739,
      "loss": 0.2961,
      "step": 68560
    },
    {
      "epoch": 182.85333333333332,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004898931213691082,
      "loss": 0.2996,
      "step": 68570
    },
    {
      "epoch": 182.88,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004898901717328649,
      "loss": 0.2995,
      "step": 68580
    },
    {
      "epoch": 182.90666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004898872216751496,
      "loss": 0.301,
      "step": 68590
    },
    {
      "epoch": 182.93333333333334,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004898842711959673,
      "loss": 0.3016,
      "step": 68600
    },
    {
      "epoch": 182.96,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004898813202953231,
      "loss": 0.3018,
      "step": 68610
    },
    {
      "epoch": 182.98666666666668,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004898783689732222,
      "loss": 0.3132,
      "step": 68620
    },
    {
      "epoch": 183.0,
      "eval_loss": 0.3966831862926483,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8776,
      "eval_samples_per_second": 1.471,
      "eval_steps_per_second": 0.092,
      "step": 68625
    },
    {
      "epoch": 183.01333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004898754172296699,
      "loss": 0.3036,
      "step": 68630
    },
    {
      "epoch": 183.04,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004898724650646714,
      "loss": 0.33,
      "step": 68640
    },
    {
      "epoch": 183.06666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004898695124782318,
      "loss": 0.315,
      "step": 68650
    },
    {
      "epoch": 183.09333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004898665594703563,
      "loss": 0.3118,
      "step": 68660
    },
    {
      "epoch": 183.12,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.00048986360604105,
      "loss": 0.308,
      "step": 68670
    },
    {
      "epoch": 183.14666666666668,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004898606521903183,
      "loss": 0.309,
      "step": 68680
    },
    {
      "epoch": 183.17333333333335,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004898576979181663,
      "loss": 0.3094,
      "step": 68690
    },
    {
      "epoch": 183.2,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.000489854743224599,
      "loss": 0.3024,
      "step": 68700
    },
    {
      "epoch": 183.22666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004898517881096219,
      "loss": 0.2962,
      "step": 68710
    },
    {
      "epoch": 183.25333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004898488325732399,
      "loss": 0.2964,
      "step": 68720
    },
    {
      "epoch": 183.28,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004898458766154584,
      "loss": 0.314,
      "step": 68730
    },
    {
      "epoch": 183.30666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004898429202362827,
      "loss": 0.2968,
      "step": 68740
    },
    {
      "epoch": 183.33333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004898399634357175,
      "loss": 0.3105,
      "step": 68750
    },
    {
      "epoch": 183.36,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004898370062137686,
      "loss": 0.3017,
      "step": 68760
    },
    {
      "epoch": 183.38666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004898340485704408,
      "loss": 0.2997,
      "step": 68770
    },
    {
      "epoch": 183.41333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004898310905057394,
      "loss": 0.3053,
      "step": 68780
    },
    {
      "epoch": 183.44,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004898281320196697,
      "loss": 0.3124,
      "step": 68790
    },
    {
      "epoch": 183.46666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004898251731122367,
      "loss": 0.3162,
      "step": 68800
    },
    {
      "epoch": 183.49333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004898222137834458,
      "loss": 0.3062,
      "step": 68810
    },
    {
      "epoch": 183.52,
      "grad_norm": 0.197265625,
      "learning_rate": 0.000489819254033302,
      "loss": 0.3103,
      "step": 68820
    },
    {
      "epoch": 183.54666666666665,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004898162938618107,
      "loss": 0.3001,
      "step": 68830
    },
    {
      "epoch": 183.57333333333332,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004898133332689769,
      "loss": 0.3039,
      "step": 68840
    },
    {
      "epoch": 183.6,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004898103722548061,
      "loss": 0.3008,
      "step": 68850
    },
    {
      "epoch": 183.62666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004898074108193031,
      "loss": 0.2962,
      "step": 68860
    },
    {
      "epoch": 183.65333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004898044489624735,
      "loss": 0.3086,
      "step": 68870
    },
    {
      "epoch": 183.68,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004898014866843221,
      "loss": 0.297,
      "step": 68880
    },
    {
      "epoch": 183.70666666666668,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004897985239848545,
      "loss": 0.2976,
      "step": 68890
    },
    {
      "epoch": 183.73333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004897955608640756,
      "loss": 0.313,
      "step": 68900
    },
    {
      "epoch": 183.76,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004897925973219909,
      "loss": 0.3148,
      "step": 68910
    },
    {
      "epoch": 183.78666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004897896333586053,
      "loss": 0.3156,
      "step": 68920
    },
    {
      "epoch": 183.81333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004897866689739242,
      "loss": 0.2987,
      "step": 68930
    },
    {
      "epoch": 183.84,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004897837041679527,
      "loss": 0.2981,
      "step": 68940
    },
    {
      "epoch": 183.86666666666667,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004897807389406962,
      "loss": 0.3003,
      "step": 68950
    },
    {
      "epoch": 183.89333333333335,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004897777732921596,
      "loss": 0.2992,
      "step": 68960
    },
    {
      "epoch": 183.92,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004897748072223483,
      "loss": 0.3011,
      "step": 68970
    },
    {
      "epoch": 183.94666666666666,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004897718407312677,
      "loss": 0.3026,
      "step": 68980
    },
    {
      "epoch": 183.97333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004897688738189226,
      "loss": 0.3095,
      "step": 68990
    },
    {
      "epoch": 184.0,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004897659064853185,
      "loss": 0.2987,
      "step": 69000
    },
    {
      "epoch": 184.0,
      "eval_loss": 0.3965569734573364,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.4819,
      "eval_samples_per_second": 1.526,
      "eval_steps_per_second": 0.095,
      "step": 69000
    },
    {
      "epoch": 184.02666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004897629387304605,
      "loss": 0.3207,
      "step": 69010
    },
    {
      "epoch": 184.05333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.000489759970554354,
      "loss": 0.3277,
      "step": 69020
    },
    {
      "epoch": 184.08,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004897570019570038,
      "loss": 0.3104,
      "step": 69030
    },
    {
      "epoch": 184.10666666666665,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004897540329384156,
      "loss": 0.3128,
      "step": 69040
    },
    {
      "epoch": 184.13333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004897510634985943,
      "loss": 0.3036,
      "step": 69050
    },
    {
      "epoch": 184.16,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004897480936375452,
      "loss": 0.3115,
      "step": 69060
    },
    {
      "epoch": 184.18666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0004897451233552736,
      "loss": 0.3073,
      "step": 69070
    },
    {
      "epoch": 184.21333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004897421526517846,
      "loss": 0.2956,
      "step": 69080
    },
    {
      "epoch": 184.24,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004897391815270834,
      "loss": 0.2997,
      "step": 69090
    },
    {
      "epoch": 184.26666666666668,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004897362099811754,
      "loss": 0.3052,
      "step": 69100
    },
    {
      "epoch": 184.29333333333332,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004897332380140657,
      "loss": 0.3013,
      "step": 69110
    },
    {
      "epoch": 184.32,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004897302656257594,
      "loss": 0.3079,
      "step": 69120
    },
    {
      "epoch": 184.34666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000489727292816262,
      "loss": 0.3067,
      "step": 69130
    },
    {
      "epoch": 184.37333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004897243195855785,
      "loss": 0.2995,
      "step": 69140
    },
    {
      "epoch": 184.4,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004897213459337142,
      "loss": 0.3009,
      "step": 69150
    },
    {
      "epoch": 184.42666666666668,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004897183718606744,
      "loss": 0.3077,
      "step": 69160
    },
    {
      "epoch": 184.45333333333335,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004897153973664642,
      "loss": 0.3161,
      "step": 69170
    },
    {
      "epoch": 184.48,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004897124224510889,
      "loss": 0.3122,
      "step": 69180
    },
    {
      "epoch": 184.50666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004897094471145537,
      "loss": 0.3089,
      "step": 69190
    },
    {
      "epoch": 184.53333333333333,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0004897064713568637,
      "loss": 0.3038,
      "step": 69200
    },
    {
      "epoch": 184.56,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004897034951780244,
      "loss": 0.3004,
      "step": 69210
    },
    {
      "epoch": 184.58666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004897005185780409,
      "loss": 0.3038,
      "step": 69220
    },
    {
      "epoch": 184.61333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004896975415569183,
      "loss": 0.2962,
      "step": 69230
    },
    {
      "epoch": 184.64,
      "grad_norm": 0.1875,
      "learning_rate": 0.000489694564114662,
      "loss": 0.297,
      "step": 69240
    },
    {
      "epoch": 184.66666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004896915862512772,
      "loss": 0.3131,
      "step": 69250
    },
    {
      "epoch": 184.69333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004896886079667691,
      "loss": 0.2911,
      "step": 69260
    },
    {
      "epoch": 184.72,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000489685629261143,
      "loss": 0.3076,
      "step": 69270
    },
    {
      "epoch": 184.74666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.000489682650134404,
      "loss": 0.3088,
      "step": 69280
    },
    {
      "epoch": 184.77333333333334,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004896796705865573,
      "loss": 0.32,
      "step": 69290
    },
    {
      "epoch": 184.8,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004896766906176085,
      "loss": 0.3072,
      "step": 69300
    },
    {
      "epoch": 184.82666666666665,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004896737102275625,
      "loss": 0.296,
      "step": 69310
    },
    {
      "epoch": 184.85333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004896707294164245,
      "loss": 0.2995,
      "step": 69320
    },
    {
      "epoch": 184.88,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004896677481842,
      "loss": 0.2994,
      "step": 69330
    },
    {
      "epoch": 184.90666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000489664766530894,
      "loss": 0.3007,
      "step": 69340
    },
    {
      "epoch": 184.93333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004896617844565119,
      "loss": 0.301,
      "step": 69350
    },
    {
      "epoch": 184.96,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004896588019610587,
      "loss": 0.3015,
      "step": 69360
    },
    {
      "epoch": 184.98666666666668,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00048965581904454,
      "loss": 0.3132,
      "step": 69370
    },
    {
      "epoch": 185.0,
      "eval_loss": 0.39723387360572815,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.0418,
      "eval_samples_per_second": 1.329,
      "eval_steps_per_second": 0.083,
      "step": 69375
    },
    {
      "epoch": 185.01333333333332,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004896528357069607,
      "loss": 0.3037,
      "step": 69380
    },
    {
      "epoch": 185.04,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004896498519483263,
      "loss": 0.3299,
      "step": 69390
    },
    {
      "epoch": 185.06666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0004896468677686419,
      "loss": 0.3148,
      "step": 69400
    },
    {
      "epoch": 185.09333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004896438831679128,
      "loss": 0.3116,
      "step": 69410
    },
    {
      "epoch": 185.12,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004896408981461442,
      "loss": 0.3078,
      "step": 69420
    },
    {
      "epoch": 185.14666666666668,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004896379127033414,
      "loss": 0.3086,
      "step": 69430
    },
    {
      "epoch": 185.17333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0004896349268395096,
      "loss": 0.3088,
      "step": 69440
    },
    {
      "epoch": 185.2,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000489631940554654,
      "loss": 0.3022,
      "step": 69450
    },
    {
      "epoch": 185.22666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00048962895384878,
      "loss": 0.2964,
      "step": 69460
    },
    {
      "epoch": 185.25333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004896259667218927,
      "loss": 0.2964,
      "step": 69470
    },
    {
      "epoch": 185.28,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0004896229791739973,
      "loss": 0.314,
      "step": 69480
    },
    {
      "epoch": 185.30666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004896199912050993,
      "loss": 0.2967,
      "step": 69490
    },
    {
      "epoch": 185.33333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004896170028152037,
      "loss": 0.3108,
      "step": 69500
    },
    {
      "epoch": 185.36,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004896140140043159,
      "loss": 0.3018,
      "step": 69510
    },
    {
      "epoch": 185.38666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004896110247724411,
      "loss": 0.299,
      "step": 69520
    },
    {
      "epoch": 185.41333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004896080351195845,
      "loss": 0.3045,
      "step": 69530
    },
    {
      "epoch": 185.44,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004896050450457516,
      "loss": 0.3125,
      "step": 69540
    },
    {
      "epoch": 185.46666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004896020545509472,
      "loss": 0.3159,
      "step": 69550
    },
    {
      "epoch": 185.49333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.000489599063635177,
      "loss": 0.3058,
      "step": 69560
    },
    {
      "epoch": 185.52,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004895960722984459,
      "loss": 0.31,
      "step": 69570
    },
    {
      "epoch": 185.54666666666665,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004895930805407595,
      "loss": 0.3,
      "step": 69580
    },
    {
      "epoch": 185.57333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004895900883621227,
      "loss": 0.3033,
      "step": 69590
    },
    {
      "epoch": 185.6,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000489587095762541,
      "loss": 0.3004,
      "step": 69600
    },
    {
      "epoch": 185.62666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004895841027420197,
      "loss": 0.2957,
      "step": 69610
    },
    {
      "epoch": 185.65333333333334,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004895811093005637,
      "loss": 0.3081,
      "step": 69620
    },
    {
      "epoch": 185.68,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004895781154381787,
      "loss": 0.2965,
      "step": 69630
    },
    {
      "epoch": 185.70666666666668,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004895751211548698,
      "loss": 0.2978,
      "step": 69640
    },
    {
      "epoch": 185.73333333333332,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004895721264506422,
      "loss": 0.3131,
      "step": 69650
    },
    {
      "epoch": 185.76,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004895691313255012,
      "loss": 0.3151,
      "step": 69660
    },
    {
      "epoch": 185.78666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.000489566135779452,
      "loss": 0.3156,
      "step": 69670
    },
    {
      "epoch": 185.81333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0004895631398124999,
      "loss": 0.2985,
      "step": 69680
    },
    {
      "epoch": 185.84,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004895601434246503,
      "loss": 0.2976,
      "step": 69690
    },
    {
      "epoch": 185.86666666666667,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0004895571466159083,
      "loss": 0.2998,
      "step": 69700
    },
    {
      "epoch": 185.89333333333335,
      "grad_norm": 1.296875,
      "learning_rate": 0.0004895541493862791,
      "loss": 0.3017,
      "step": 69710
    },
    {
      "epoch": 185.92,
      "grad_norm": 1.28125,
      "learning_rate": 0.0004895511517357682,
      "loss": 0.3016,
      "step": 69720
    },
    {
      "epoch": 185.94666666666666,
      "grad_norm": 1.1328125,
      "learning_rate": 0.0004895481536643807,
      "loss": 0.3031,
      "step": 69730
    },
    {
      "epoch": 185.97333333333333,
      "grad_norm": 1.1953125,
      "learning_rate": 0.000489545155172122,
      "loss": 0.3097,
      "step": 69740
    },
    {
      "epoch": 186.0,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0004895421562589971,
      "loss": 0.2983,
      "step": 69750
    },
    {
      "epoch": 186.0,
      "eval_loss": 0.3992590308189392,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5001,
      "eval_samples_per_second": 1.524,
      "eval_steps_per_second": 0.095,
      "step": 69750
    },
    {
      "epoch": 186.02666666666667,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0004895391569250116,
      "loss": 0.32,
      "step": 69760
    },
    {
      "epoch": 186.05333333333334,
      "grad_norm": 1.25,
      "learning_rate": 0.0004895361571701705,
      "loss": 0.3267,
      "step": 69770
    },
    {
      "epoch": 186.08,
      "grad_norm": 0.94140625,
      "learning_rate": 0.0004895331569944793,
      "loss": 0.3105,
      "step": 69780
    },
    {
      "epoch": 186.10666666666665,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0004895301563979432,
      "loss": 0.3126,
      "step": 69790
    },
    {
      "epoch": 186.13333333333333,
      "grad_norm": 1.140625,
      "learning_rate": 0.0004895271553805673,
      "loss": 0.3058,
      "step": 69800
    },
    {
      "epoch": 186.16,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004895241539423571,
      "loss": 0.3099,
      "step": 69810
    },
    {
      "epoch": 186.18666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004895211520833178,
      "loss": 0.3052,
      "step": 69820
    },
    {
      "epoch": 186.21333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004895181498034545,
      "loss": 0.294,
      "step": 69830
    },
    {
      "epoch": 186.24,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004895151471027727,
      "loss": 0.2981,
      "step": 69840
    },
    {
      "epoch": 186.26666666666668,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004895121439812776,
      "loss": 0.3039,
      "step": 69850
    },
    {
      "epoch": 186.29333333333332,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004895091404389745,
      "loss": 0.2998,
      "step": 69860
    },
    {
      "epoch": 186.32,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004895061364758687,
      "loss": 0.3071,
      "step": 69870
    },
    {
      "epoch": 186.34666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004895031320919654,
      "loss": 0.3057,
      "step": 69880
    },
    {
      "epoch": 186.37333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004895001272872698,
      "loss": 0.2983,
      "step": 69890
    },
    {
      "epoch": 186.4,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004894971220617874,
      "loss": 0.3001,
      "step": 69900
    },
    {
      "epoch": 186.42666666666668,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004894941164155234,
      "loss": 0.307,
      "step": 69910
    },
    {
      "epoch": 186.45333333333335,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004894911103484831,
      "loss": 0.315,
      "step": 69920
    },
    {
      "epoch": 186.48,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004894881038606715,
      "loss": 0.3107,
      "step": 69930
    },
    {
      "epoch": 186.50666666666666,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004894850969520944,
      "loss": 0.3081,
      "step": 69940
    },
    {
      "epoch": 186.53333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004894820896227565,
      "loss": 0.3029,
      "step": 69950
    },
    {
      "epoch": 186.56,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004894790818726636,
      "loss": 0.2997,
      "step": 69960
    },
    {
      "epoch": 186.58666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004894760737018208,
      "loss": 0.3035,
      "step": 69970
    },
    {
      "epoch": 186.61333333333334,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004894730651102332,
      "loss": 0.2954,
      "step": 69980
    },
    {
      "epoch": 186.64,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004894700560979063,
      "loss": 0.2961,
      "step": 69990
    },
    {
      "epoch": 186.66666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004894670466648453,
      "loss": 0.3116,
      "step": 70000
    },
    {
      "epoch": 186.69333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004894640368110555,
      "loss": 0.2908,
      "step": 70010
    },
    {
      "epoch": 186.72,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004894610265365423,
      "loss": 0.3062,
      "step": 70020
    },
    {
      "epoch": 186.74666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004894580158413109,
      "loss": 0.3074,
      "step": 70030
    },
    {
      "epoch": 186.77333333333334,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0004894550047253664,
      "loss": 0.3198,
      "step": 70040
    },
    {
      "epoch": 186.8,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004894519931887144,
      "loss": 0.3065,
      "step": 70050
    },
    {
      "epoch": 186.82666666666665,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00048944898123136,
      "loss": 0.2949,
      "step": 70060
    },
    {
      "epoch": 186.85333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004894459688533087,
      "loss": 0.2993,
      "step": 70070
    },
    {
      "epoch": 186.88,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004894429560545655,
      "loss": 0.2992,
      "step": 70080
    },
    {
      "epoch": 186.90666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004894399428351359,
      "loss": 0.3015,
      "step": 70090
    },
    {
      "epoch": 186.93333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004894369291950251,
      "loss": 0.3021,
      "step": 70100
    },
    {
      "epoch": 186.96,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004894339151342384,
      "loss": 0.301,
      "step": 70110
    },
    {
      "epoch": 186.98666666666668,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004894309006527812,
      "loss": 0.3127,
      "step": 70120
    },
    {
      "epoch": 187.0,
      "eval_loss": 0.3980826735496521,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0873,
      "eval_samples_per_second": 1.443,
      "eval_steps_per_second": 0.09,
      "step": 70125
    },
    {
      "epoch": 187.01333333333332,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004894278857506587,
      "loss": 0.3037,
      "step": 70130
    },
    {
      "epoch": 187.04,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004894248704278762,
      "loss": 0.33,
      "step": 70140
    },
    {
      "epoch": 187.06666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.000489421854684439,
      "loss": 0.3147,
      "step": 70150
    },
    {
      "epoch": 187.09333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004894188385203524,
      "loss": 0.3108,
      "step": 70160
    },
    {
      "epoch": 187.12,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004894158219356217,
      "loss": 0.3082,
      "step": 70170
    },
    {
      "epoch": 187.14666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004894128049302522,
      "loss": 0.3086,
      "step": 70180
    },
    {
      "epoch": 187.17333333333335,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004894097875042492,
      "loss": 0.3087,
      "step": 70190
    },
    {
      "epoch": 187.2,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004894067696576181,
      "loss": 0.3017,
      "step": 70200
    },
    {
      "epoch": 187.22666666666666,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004894037513903641,
      "loss": 0.2963,
      "step": 70210
    },
    {
      "epoch": 187.25333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004894007327024925,
      "loss": 0.2956,
      "step": 70220
    },
    {
      "epoch": 187.28,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004893977135940086,
      "loss": 0.3135,
      "step": 70230
    },
    {
      "epoch": 187.30666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004893946940649177,
      "loss": 0.2957,
      "step": 70240
    },
    {
      "epoch": 187.33333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004893916741152253,
      "loss": 0.3104,
      "step": 70250
    },
    {
      "epoch": 187.36,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004893886537449363,
      "loss": 0.3013,
      "step": 70260
    },
    {
      "epoch": 187.38666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004893856329540563,
      "loss": 0.2986,
      "step": 70270
    },
    {
      "epoch": 187.41333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004893826117425907,
      "loss": 0.304,
      "step": 70280
    },
    {
      "epoch": 187.44,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004893795901105446,
      "loss": 0.3121,
      "step": 70290
    },
    {
      "epoch": 187.46666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004893765680579233,
      "loss": 0.3162,
      "step": 70300
    },
    {
      "epoch": 187.49333333333334,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004893735455847322,
      "loss": 0.3058,
      "step": 70310
    },
    {
      "epoch": 187.52,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004893705226909766,
      "loss": 0.3091,
      "step": 70320
    },
    {
      "epoch": 187.54666666666665,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004893674993766618,
      "loss": 0.2995,
      "step": 70330
    },
    {
      "epoch": 187.57333333333332,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000489364475641793,
      "loss": 0.3033,
      "step": 70340
    },
    {
      "epoch": 187.6,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004893614514863757,
      "loss": 0.3003,
      "step": 70350
    },
    {
      "epoch": 187.62666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004893584269104153,
      "loss": 0.2952,
      "step": 70360
    },
    {
      "epoch": 187.65333333333334,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004893554019139168,
      "loss": 0.3081,
      "step": 70370
    },
    {
      "epoch": 187.68,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004893523764968857,
      "loss": 0.2964,
      "step": 70380
    },
    {
      "epoch": 187.70666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004893493506593272,
      "loss": 0.2976,
      "step": 70390
    },
    {
      "epoch": 187.73333333333332,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004893463244012467,
      "loss": 0.3125,
      "step": 70400
    },
    {
      "epoch": 187.76,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004893432977226496,
      "loss": 0.3143,
      "step": 70410
    },
    {
      "epoch": 187.78666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004893402706235412,
      "loss": 0.315,
      "step": 70420
    },
    {
      "epoch": 187.81333333333333,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004893372431039266,
      "loss": 0.2977,
      "step": 70430
    },
    {
      "epoch": 187.84,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004893342151638114,
      "loss": 0.2973,
      "step": 70440
    },
    {
      "epoch": 187.86666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004893311868032007,
      "loss": 0.2992,
      "step": 70450
    },
    {
      "epoch": 187.89333333333335,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004893281580220999,
      "loss": 0.2997,
      "step": 70460
    },
    {
      "epoch": 187.92,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004893251288205142,
      "loss": 0.3008,
      "step": 70470
    },
    {
      "epoch": 187.94666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004893220991984493,
      "loss": 0.3025,
      "step": 70480
    },
    {
      "epoch": 187.97333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0004893190691559102,
      "loss": 0.3098,
      "step": 70490
    },
    {
      "epoch": 188.0,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004893160386929023,
      "loss": 0.2981,
      "step": 70500
    },
    {
      "epoch": 188.0,
      "eval_loss": 0.39796826243400574,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.5303,
      "eval_samples_per_second": 1.519,
      "eval_steps_per_second": 0.095,
      "step": 70500
    },
    {
      "epoch": 188.02666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004893130078094308,
      "loss": 0.321,
      "step": 70510
    },
    {
      "epoch": 188.05333333333334,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004893099765055014,
      "loss": 0.3273,
      "step": 70520
    },
    {
      "epoch": 188.08,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004893069447811189,
      "loss": 0.3112,
      "step": 70530
    },
    {
      "epoch": 188.10666666666665,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004893039126362891,
      "loss": 0.3127,
      "step": 70540
    },
    {
      "epoch": 188.13333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004893008800710171,
      "loss": 0.3044,
      "step": 70550
    },
    {
      "epoch": 188.16,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004892978470853081,
      "loss": 0.3109,
      "step": 70560
    },
    {
      "epoch": 188.18666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004892948136791677,
      "loss": 0.3062,
      "step": 70570
    },
    {
      "epoch": 188.21333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004892917798526012,
      "loss": 0.295,
      "step": 70580
    },
    {
      "epoch": 188.24,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004892887456056138,
      "loss": 0.2987,
      "step": 70590
    },
    {
      "epoch": 188.26666666666668,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004892857109382108,
      "loss": 0.3048,
      "step": 70600
    },
    {
      "epoch": 188.29333333333332,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004892826758503976,
      "loss": 0.3003,
      "step": 70610
    },
    {
      "epoch": 188.32,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004892796403421796,
      "loss": 0.3077,
      "step": 70620
    },
    {
      "epoch": 188.34666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.000489276604413562,
      "loss": 0.3064,
      "step": 70630
    },
    {
      "epoch": 188.37333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004892735680645503,
      "loss": 0.2989,
      "step": 70640
    },
    {
      "epoch": 188.4,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0004892705312951498,
      "loss": 0.3006,
      "step": 70650
    },
    {
      "epoch": 188.42666666666668,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004892674941053656,
      "loss": 0.3077,
      "step": 70660
    },
    {
      "epoch": 188.45333333333335,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004892644564952033,
      "loss": 0.3158,
      "step": 70670
    },
    {
      "epoch": 188.48,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004892614184646681,
      "loss": 0.3113,
      "step": 70680
    },
    {
      "epoch": 188.50666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004892583800137655,
      "loss": 0.3082,
      "step": 70690
    },
    {
      "epoch": 188.53333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004892553411425006,
      "loss": 0.3032,
      "step": 70700
    },
    {
      "epoch": 188.56,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000489252301850879,
      "loss": 0.2994,
      "step": 70710
    },
    {
      "epoch": 188.58666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004892492621389058,
      "loss": 0.3033,
      "step": 70720
    },
    {
      "epoch": 188.61333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004892462220065865,
      "loss": 0.2963,
      "step": 70730
    },
    {
      "epoch": 188.64,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004892431814539263,
      "loss": 0.2965,
      "step": 70740
    },
    {
      "epoch": 188.66666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004892401404809308,
      "loss": 0.3122,
      "step": 70750
    },
    {
      "epoch": 188.69333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004892370990876051,
      "loss": 0.2914,
      "step": 70760
    },
    {
      "epoch": 188.72,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004892340572739545,
      "loss": 0.3073,
      "step": 70770
    },
    {
      "epoch": 188.74666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004892310150399846,
      "loss": 0.3087,
      "step": 70780
    },
    {
      "epoch": 188.77333333333334,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004892279723857005,
      "loss": 0.3197,
      "step": 70790
    },
    {
      "epoch": 188.8,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004892249293111077,
      "loss": 0.3064,
      "step": 70800
    },
    {
      "epoch": 188.82666666666665,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004892218858162115,
      "loss": 0.2951,
      "step": 70810
    },
    {
      "epoch": 188.85333333333332,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004892188419010172,
      "loss": 0.3003,
      "step": 70820
    },
    {
      "epoch": 188.88,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004892157975655302,
      "loss": 0.2995,
      "step": 70830
    },
    {
      "epoch": 188.90666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.000489212752809756,
      "loss": 0.301,
      "step": 70840
    },
    {
      "epoch": 188.93333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004892097076336997,
      "loss": 0.3015,
      "step": 70850
    },
    {
      "epoch": 188.96,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004892066620373666,
      "loss": 0.3014,
      "step": 70860
    },
    {
      "epoch": 188.98666666666668,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004892036160207624,
      "loss": 0.3127,
      "step": 70870
    },
    {
      "epoch": 189.0,
      "eval_loss": 0.39831775426864624,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.2317,
      "eval_samples_per_second": 1.425,
      "eval_steps_per_second": 0.089,
      "step": 70875
    },
    {
      "epoch": 189.01333333333332,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004892005695838921,
      "loss": 0.3041,
      "step": 70880
    },
    {
      "epoch": 189.04,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004891975227267612,
      "loss": 0.3304,
      "step": 70890
    },
    {
      "epoch": 189.06666666666666,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0004891944754493752,
      "loss": 0.3151,
      "step": 70900
    },
    {
      "epoch": 189.09333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004891914277517391,
      "loss": 0.3114,
      "step": 70910
    },
    {
      "epoch": 189.12,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004891883796338585,
      "loss": 0.3082,
      "step": 70920
    },
    {
      "epoch": 189.14666666666668,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004891853310957388,
      "loss": 0.3081,
      "step": 70930
    },
    {
      "epoch": 189.17333333333335,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004891822821373853,
      "loss": 0.3083,
      "step": 70940
    },
    {
      "epoch": 189.2,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004891792327588032,
      "loss": 0.3015,
      "step": 70950
    },
    {
      "epoch": 189.22666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004891761829599981,
      "loss": 0.2963,
      "step": 70960
    },
    {
      "epoch": 189.25333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004891731327409751,
      "loss": 0.2952,
      "step": 70970
    },
    {
      "epoch": 189.28,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004891700821017398,
      "loss": 0.3137,
      "step": 70980
    },
    {
      "epoch": 189.30666666666667,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004891670310422975,
      "loss": 0.2962,
      "step": 70990
    },
    {
      "epoch": 189.33333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004891639795626535,
      "loss": 0.3106,
      "step": 71000
    },
    {
      "epoch": 189.36,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004891609276628131,
      "loss": 0.3009,
      "step": 71010
    },
    {
      "epoch": 189.38666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004891578753427818,
      "loss": 0.2983,
      "step": 71020
    },
    {
      "epoch": 189.41333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004891548226025648,
      "loss": 0.3048,
      "step": 71030
    },
    {
      "epoch": 189.44,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004891517694421678,
      "loss": 0.3117,
      "step": 71040
    },
    {
      "epoch": 189.46666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004891487158615957,
      "loss": 0.3159,
      "step": 71050
    },
    {
      "epoch": 189.49333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0004891456618608543,
      "loss": 0.3053,
      "step": 71060
    },
    {
      "epoch": 189.52,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004891426074399486,
      "loss": 0.3093,
      "step": 71070
    },
    {
      "epoch": 189.54666666666665,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004891395525988842,
      "loss": 0.2998,
      "step": 71080
    },
    {
      "epoch": 189.57333333333332,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004891364973376664,
      "loss": 0.3029,
      "step": 71090
    },
    {
      "epoch": 189.6,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004891334416563006,
      "loss": 0.3002,
      "step": 71100
    },
    {
      "epoch": 189.62666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004891303855547921,
      "loss": 0.2952,
      "step": 71110
    },
    {
      "epoch": 189.65333333333334,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0004891273290331462,
      "loss": 0.3076,
      "step": 71120
    },
    {
      "epoch": 189.68,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004891242720913686,
      "loss": 0.296,
      "step": 71130
    },
    {
      "epoch": 189.70666666666668,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004891212147294644,
      "loss": 0.2973,
      "step": 71140
    },
    {
      "epoch": 189.73333333333332,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0004891181569474389,
      "loss": 0.3129,
      "step": 71150
    },
    {
      "epoch": 189.76,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004891150987452976,
      "loss": 0.3138,
      "step": 71160
    },
    {
      "epoch": 189.78666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004891120401230459,
      "loss": 0.3156,
      "step": 71170
    },
    {
      "epoch": 189.81333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004891089810806892,
      "loss": 0.2976,
      "step": 71180
    },
    {
      "epoch": 189.84,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004891059216182327,
      "loss": 0.2979,
      "step": 71190
    },
    {
      "epoch": 189.86666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000489102861735682,
      "loss": 0.2994,
      "step": 71200
    },
    {
      "epoch": 189.89333333333335,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004890998014330422,
      "loss": 0.2989,
      "step": 71210
    },
    {
      "epoch": 189.92,
      "grad_norm": 0.25,
      "learning_rate": 0.000489096740710319,
      "loss": 0.3007,
      "step": 71220
    },
    {
      "epoch": 189.94666666666666,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004890936795675175,
      "loss": 0.3026,
      "step": 71230
    },
    {
      "epoch": 189.97333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004890906180046433,
      "loss": 0.3091,
      "step": 71240
    },
    {
      "epoch": 190.0,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004890875560217016,
      "loss": 0.2982,
      "step": 71250
    },
    {
      "epoch": 190.0,
      "eval_loss": 0.3961564302444458,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7474,
      "eval_samples_per_second": 1.489,
      "eval_steps_per_second": 0.093,
      "step": 71250
    },
    {
      "epoch": 190.02666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004890844936186979,
      "loss": 0.32,
      "step": 71260
    },
    {
      "epoch": 190.05333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004890814307956375,
      "loss": 0.3268,
      "step": 71270
    },
    {
      "epoch": 190.08,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004890783675525257,
      "loss": 0.3115,
      "step": 71280
    },
    {
      "epoch": 190.10666666666665,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004890753038893683,
      "loss": 0.3126,
      "step": 71290
    },
    {
      "epoch": 190.13333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004890722398061702,
      "loss": 0.3038,
      "step": 71300
    },
    {
      "epoch": 190.16,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004890691753029368,
      "loss": 0.3108,
      "step": 71310
    },
    {
      "epoch": 190.18666666666667,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000489066110379674,
      "loss": 0.3056,
      "step": 71320
    },
    {
      "epoch": 190.21333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004890630450363866,
      "loss": 0.2948,
      "step": 71330
    },
    {
      "epoch": 190.24,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004890599792730802,
      "loss": 0.2982,
      "step": 71340
    },
    {
      "epoch": 190.26666666666668,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004890569130897604,
      "loss": 0.3044,
      "step": 71350
    },
    {
      "epoch": 190.29333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004890538464864321,
      "loss": 0.2999,
      "step": 71360
    },
    {
      "epoch": 190.32,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004890507794631011,
      "loss": 0.3075,
      "step": 71370
    },
    {
      "epoch": 190.34666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004890477120197728,
      "loss": 0.3064,
      "step": 71380
    },
    {
      "epoch": 190.37333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004890446441564524,
      "loss": 0.2985,
      "step": 71390
    },
    {
      "epoch": 190.4,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004890415758731452,
      "loss": 0.2995,
      "step": 71400
    },
    {
      "epoch": 190.42666666666668,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004890385071698569,
      "loss": 0.3077,
      "step": 71410
    },
    {
      "epoch": 190.45333333333335,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004890354380465927,
      "loss": 0.3164,
      "step": 71420
    },
    {
      "epoch": 190.48,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.000489032368503358,
      "loss": 0.3114,
      "step": 71430
    },
    {
      "epoch": 190.50666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004890292985401582,
      "loss": 0.3084,
      "step": 71440
    },
    {
      "epoch": 190.53333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004890262281569988,
      "loss": 0.3031,
      "step": 71450
    },
    {
      "epoch": 190.56,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000489023157353885,
      "loss": 0.2996,
      "step": 71460
    },
    {
      "epoch": 190.58666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004890200861308223,
      "loss": 0.3032,
      "step": 71470
    },
    {
      "epoch": 190.61333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004890170144878161,
      "loss": 0.2957,
      "step": 71480
    },
    {
      "epoch": 190.64,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004890139424248718,
      "loss": 0.2968,
      "step": 71490
    },
    {
      "epoch": 190.66666666666666,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004890108699419949,
      "loss": 0.3122,
      "step": 71500
    },
    {
      "epoch": 190.69333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004890077970391905,
      "loss": 0.2911,
      "step": 71510
    },
    {
      "epoch": 190.72,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004890047237164643,
      "loss": 0.3067,
      "step": 71520
    },
    {
      "epoch": 190.74666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004890016499738216,
      "loss": 0.3081,
      "step": 71530
    },
    {
      "epoch": 190.77333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004889985758112677,
      "loss": 0.3193,
      "step": 71540
    },
    {
      "epoch": 190.8,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004889955012288081,
      "loss": 0.3056,
      "step": 71550
    },
    {
      "epoch": 190.82666666666665,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004889924262264483,
      "loss": 0.2953,
      "step": 71560
    },
    {
      "epoch": 190.85333333333332,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004889893508041934,
      "loss": 0.2993,
      "step": 71570
    },
    {
      "epoch": 190.88,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004889862749620492,
      "loss": 0.2986,
      "step": 71580
    },
    {
      "epoch": 190.90666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004889831987000208,
      "loss": 0.3003,
      "step": 71590
    },
    {
      "epoch": 190.93333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004889801220181136,
      "loss": 0.3011,
      "step": 71600
    },
    {
      "epoch": 190.96,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004889770449163332,
      "loss": 0.3008,
      "step": 71610
    },
    {
      "epoch": 190.98666666666668,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004889739673946849,
      "loss": 0.3122,
      "step": 71620
    },
    {
      "epoch": 191.0,
      "eval_loss": 0.39794921875,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0176,
      "eval_samples_per_second": 1.452,
      "eval_steps_per_second": 0.091,
      "step": 71625
    },
    {
      "epoch": 191.01333333333332,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004889708894531742,
      "loss": 0.3028,
      "step": 71630
    },
    {
      "epoch": 191.04,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004889678110918064,
      "loss": 0.3298,
      "step": 71640
    },
    {
      "epoch": 191.06666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004889647323105869,
      "loss": 0.3145,
      "step": 71650
    },
    {
      "epoch": 191.09333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004889616531095212,
      "loss": 0.3112,
      "step": 71660
    },
    {
      "epoch": 191.12,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004889585734886146,
      "loss": 0.3077,
      "step": 71670
    },
    {
      "epoch": 191.14666666666668,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004889554934478726,
      "loss": 0.3086,
      "step": 71680
    },
    {
      "epoch": 191.17333333333335,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004889524129873006,
      "loss": 0.3085,
      "step": 71690
    },
    {
      "epoch": 191.2,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.000488949332106904,
      "loss": 0.3018,
      "step": 71700
    },
    {
      "epoch": 191.22666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004889462508066881,
      "loss": 0.2956,
      "step": 71710
    },
    {
      "epoch": 191.25333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004889431690866584,
      "loss": 0.2954,
      "step": 71720
    },
    {
      "epoch": 191.28,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004889400869468205,
      "loss": 0.3131,
      "step": 71730
    },
    {
      "epoch": 191.30666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004889370043871796,
      "loss": 0.2959,
      "step": 71740
    },
    {
      "epoch": 191.33333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004889339214077411,
      "loss": 0.3096,
      "step": 71750
    },
    {
      "epoch": 191.36,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004889308380085105,
      "loss": 0.3016,
      "step": 71760
    },
    {
      "epoch": 191.38666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004889277541894932,
      "loss": 0.2988,
      "step": 71770
    },
    {
      "epoch": 191.41333333333333,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004889246699506946,
      "loss": 0.304,
      "step": 71780
    },
    {
      "epoch": 191.44,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004889215852921201,
      "loss": 0.312,
      "step": 71790
    },
    {
      "epoch": 191.46666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004889185002137752,
      "loss": 0.3159,
      "step": 71800
    },
    {
      "epoch": 191.49333333333334,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004889154147156654,
      "loss": 0.3053,
      "step": 71810
    },
    {
      "epoch": 191.52,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004889123287977958,
      "loss": 0.3084,
      "step": 71820
    },
    {
      "epoch": 191.54666666666665,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004889092424601721,
      "loss": 0.2992,
      "step": 71830
    },
    {
      "epoch": 191.57333333333332,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004889061557027997,
      "loss": 0.3033,
      "step": 71840
    },
    {
      "epoch": 191.6,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004889030685256839,
      "loss": 0.3003,
      "step": 71850
    },
    {
      "epoch": 191.62666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004888999809288301,
      "loss": 0.2952,
      "step": 71860
    },
    {
      "epoch": 191.65333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.000488896892912244,
      "loss": 0.3074,
      "step": 71870
    },
    {
      "epoch": 191.68,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004888938044759307,
      "loss": 0.2958,
      "step": 71880
    },
    {
      "epoch": 191.70666666666668,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0004888907156198959,
      "loss": 0.2972,
      "step": 71890
    },
    {
      "epoch": 191.73333333333332,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0004888876263441447,
      "loss": 0.3119,
      "step": 71900
    },
    {
      "epoch": 191.76,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004888845366486828,
      "loss": 0.3136,
      "step": 71910
    },
    {
      "epoch": 191.78666666666666,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004888814465335156,
      "loss": 0.3145,
      "step": 71920
    },
    {
      "epoch": 191.81333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004888783559986484,
      "loss": 0.2977,
      "step": 71930
    },
    {
      "epoch": 191.84,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004888752650440868,
      "loss": 0.297,
      "step": 71940
    },
    {
      "epoch": 191.86666666666667,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.000488872173669836,
      "loss": 0.2995,
      "step": 71950
    },
    {
      "epoch": 191.89333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004888690818759016,
      "loss": 0.2987,
      "step": 71960
    },
    {
      "epoch": 191.92,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004888659896622891,
      "loss": 0.3002,
      "step": 71970
    },
    {
      "epoch": 191.94666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004888628970290038,
      "loss": 0.3022,
      "step": 71980
    },
    {
      "epoch": 191.97333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004888598039760511,
      "loss": 0.3086,
      "step": 71990
    },
    {
      "epoch": 192.0,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004888567105034365,
      "loss": 0.2977,
      "step": 72000
    },
    {
      "epoch": 192.0,
      "eval_loss": 0.39854586124420166,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.3252,
      "eval_samples_per_second": 1.413,
      "eval_steps_per_second": 0.088,
      "step": 72000
    },
    {
      "epoch": 192.02666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004888536166111655,
      "loss": 0.3197,
      "step": 72010
    },
    {
      "epoch": 192.05333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004888505222992434,
      "loss": 0.3264,
      "step": 72020
    },
    {
      "epoch": 192.08,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004888474275676758,
      "loss": 0.3107,
      "step": 72030
    },
    {
      "epoch": 192.10666666666665,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004888443324164679,
      "loss": 0.3118,
      "step": 72040
    },
    {
      "epoch": 192.13333333333333,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004888412368456254,
      "loss": 0.3033,
      "step": 72050
    },
    {
      "epoch": 192.16,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004888381408551536,
      "loss": 0.31,
      "step": 72060
    },
    {
      "epoch": 192.18666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.000488835044445058,
      "loss": 0.3062,
      "step": 72070
    },
    {
      "epoch": 192.21333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.000488831947615344,
      "loss": 0.2947,
      "step": 72080
    },
    {
      "epoch": 192.24,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004888288503660169,
      "loss": 0.2984,
      "step": 72090
    },
    {
      "epoch": 192.26666666666668,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004888257526970824,
      "loss": 0.3036,
      "step": 72100
    },
    {
      "epoch": 192.29333333333332,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004888226546085458,
      "loss": 0.3005,
      "step": 72110
    },
    {
      "epoch": 192.32,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004888195561004126,
      "loss": 0.3081,
      "step": 72120
    },
    {
      "epoch": 192.34666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004888164571726882,
      "loss": 0.3062,
      "step": 72130
    },
    {
      "epoch": 192.37333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004888133578253781,
      "loss": 0.2987,
      "step": 72140
    },
    {
      "epoch": 192.4,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004888102580584876,
      "loss": 0.2999,
      "step": 72150
    },
    {
      "epoch": 192.42666666666668,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004888071578720223,
      "loss": 0.3067,
      "step": 72160
    },
    {
      "epoch": 192.45333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0004888040572659877,
      "loss": 0.3157,
      "step": 72170
    },
    {
      "epoch": 192.48,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004888009562403889,
      "loss": 0.3112,
      "step": 72180
    },
    {
      "epoch": 192.50666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004887978547952318,
      "loss": 0.3082,
      "step": 72190
    },
    {
      "epoch": 192.53333333333333,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004887947529305216,
      "loss": 0.3031,
      "step": 72200
    },
    {
      "epoch": 192.56,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004887916506462638,
      "loss": 0.2991,
      "step": 72210
    },
    {
      "epoch": 192.58666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004887885479424637,
      "loss": 0.3032,
      "step": 72220
    },
    {
      "epoch": 192.61333333333334,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.000488785444819127,
      "loss": 0.2956,
      "step": 72230
    },
    {
      "epoch": 192.64,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004887823412762591,
      "loss": 0.2965,
      "step": 72240
    },
    {
      "epoch": 192.66666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004887792373138653,
      "loss": 0.3124,
      "step": 72250
    },
    {
      "epoch": 192.69333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004887761329319513,
      "loss": 0.2915,
      "step": 72260
    },
    {
      "epoch": 192.72,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004887730281305222,
      "loss": 0.307,
      "step": 72270
    },
    {
      "epoch": 192.74666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004887699229095837,
      "loss": 0.3076,
      "step": 72280
    },
    {
      "epoch": 192.77333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004887668172691413,
      "loss": 0.3192,
      "step": 72290
    },
    {
      "epoch": 192.8,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004887637112092004,
      "loss": 0.3064,
      "step": 72300
    },
    {
      "epoch": 192.82666666666665,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004887606047297663,
      "loss": 0.2952,
      "step": 72310
    },
    {
      "epoch": 192.85333333333332,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004887574978308446,
      "loss": 0.2987,
      "step": 72320
    },
    {
      "epoch": 192.88,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004887543905124408,
      "loss": 0.2982,
      "step": 72330
    },
    {
      "epoch": 192.90666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004887512827745603,
      "loss": 0.3002,
      "step": 72340
    },
    {
      "epoch": 192.93333333333334,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004887481746172087,
      "loss": 0.3005,
      "step": 72350
    },
    {
      "epoch": 192.96,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004887450660403911,
      "loss": 0.3003,
      "step": 72360
    },
    {
      "epoch": 192.98666666666668,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004887419570441134,
      "loss": 0.3128,
      "step": 72370
    },
    {
      "epoch": 193.0,
      "eval_loss": 0.39935240149497986,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.4268,
      "eval_samples_per_second": 1.535,
      "eval_steps_per_second": 0.096,
      "step": 72375
    },
    {
      "epoch": 193.01333333333332,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004887388476283807,
      "loss": 0.3032,
      "step": 72380
    },
    {
      "epoch": 193.04,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004887357377931987,
      "loss": 0.3293,
      "step": 72390
    },
    {
      "epoch": 193.06666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004887326275385727,
      "loss": 0.3149,
      "step": 72400
    },
    {
      "epoch": 193.09333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004887295168645083,
      "loss": 0.3113,
      "step": 72410
    },
    {
      "epoch": 193.12,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004887264057710108,
      "loss": 0.3074,
      "step": 72420
    },
    {
      "epoch": 193.14666666666668,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004887232942580858,
      "loss": 0.3076,
      "step": 72430
    },
    {
      "epoch": 193.17333333333335,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004887201823257389,
      "loss": 0.3088,
      "step": 72440
    },
    {
      "epoch": 193.2,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004887170699739752,
      "loss": 0.3013,
      "step": 72450
    },
    {
      "epoch": 193.22666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004887139572028005,
      "loss": 0.2954,
      "step": 72460
    },
    {
      "epoch": 193.25333333333333,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004887108440122201,
      "loss": 0.2954,
      "step": 72470
    },
    {
      "epoch": 193.28,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004887077304022396,
      "loss": 0.3127,
      "step": 72480
    },
    {
      "epoch": 193.30666666666667,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004887046163728643,
      "loss": 0.2961,
      "step": 72490
    },
    {
      "epoch": 193.33333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004887015019240997,
      "loss": 0.3098,
      "step": 72500
    },
    {
      "epoch": 193.36,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004886983870559514,
      "loss": 0.3009,
      "step": 72510
    },
    {
      "epoch": 193.38666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004886952717684249,
      "loss": 0.2985,
      "step": 72520
    },
    {
      "epoch": 193.41333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004886921560615253,
      "loss": 0.304,
      "step": 72530
    },
    {
      "epoch": 193.44,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0004886890399352586,
      "loss": 0.3115,
      "step": 72540
    },
    {
      "epoch": 193.46666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004886859233896299,
      "loss": 0.3155,
      "step": 72550
    },
    {
      "epoch": 193.49333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004886828064246449,
      "loss": 0.3058,
      "step": 72560
    },
    {
      "epoch": 193.52,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004886796890403089,
      "loss": 0.3094,
      "step": 72570
    },
    {
      "epoch": 193.54666666666665,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004886765712366274,
      "loss": 0.2997,
      "step": 72580
    },
    {
      "epoch": 193.57333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.000488673453013606,
      "loss": 0.3029,
      "step": 72590
    },
    {
      "epoch": 193.6,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004886703343712501,
      "loss": 0.2997,
      "step": 72600
    },
    {
      "epoch": 193.62666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004886672153095651,
      "loss": 0.2946,
      "step": 72610
    },
    {
      "epoch": 193.65333333333334,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004886640958285567,
      "loss": 0.3074,
      "step": 72620
    },
    {
      "epoch": 193.68,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0004886609759282302,
      "loss": 0.2963,
      "step": 72630
    },
    {
      "epoch": 193.70666666666668,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004886578556085911,
      "loss": 0.2969,
      "step": 72640
    },
    {
      "epoch": 193.73333333333332,
      "grad_norm": 0.25,
      "learning_rate": 0.000488654734869645,
      "loss": 0.3123,
      "step": 72650
    },
    {
      "epoch": 193.76,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004886516137113971,
      "loss": 0.3134,
      "step": 72660
    },
    {
      "epoch": 193.78666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004886484921338533,
      "loss": 0.3148,
      "step": 72670
    },
    {
      "epoch": 193.81333333333333,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004886453701370187,
      "loss": 0.297,
      "step": 72680
    },
    {
      "epoch": 193.84,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004886422477208991,
      "loss": 0.2965,
      "step": 72690
    },
    {
      "epoch": 193.86666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004886391248854996,
      "loss": 0.2984,
      "step": 72700
    },
    {
      "epoch": 193.89333333333335,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004886360016308261,
      "loss": 0.2984,
      "step": 72710
    },
    {
      "epoch": 193.92,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000488632877956884,
      "loss": 0.3004,
      "step": 72720
    },
    {
      "epoch": 193.94666666666666,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004886297538636785,
      "loss": 0.3021,
      "step": 72730
    },
    {
      "epoch": 193.97333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004886266293512153,
      "loss": 0.3093,
      "step": 72740
    },
    {
      "epoch": 194.0,
      "grad_norm": 0.171875,
      "learning_rate": 0.0004886235044195,
      "loss": 0.2977,
      "step": 72750
    },
    {
      "epoch": 194.0,
      "eval_loss": 0.3995967209339142,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6897,
      "eval_samples_per_second": 1.497,
      "eval_steps_per_second": 0.094,
      "step": 72750
    },
    {
      "epoch": 194.02666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004886203790685379,
      "loss": 0.3197,
      "step": 72760
    },
    {
      "epoch": 194.05333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004886172532983345,
      "loss": 0.3267,
      "step": 72770
    },
    {
      "epoch": 194.08,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004886141271088953,
      "loss": 0.3098,
      "step": 72780
    },
    {
      "epoch": 194.10666666666665,
      "grad_norm": 0.24609375,
      "learning_rate": 0.000488611000500226,
      "loss": 0.312,
      "step": 72790
    },
    {
      "epoch": 194.13333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004886078734723319,
      "loss": 0.3037,
      "step": 72800
    },
    {
      "epoch": 194.16,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004886047460252184,
      "loss": 0.3102,
      "step": 72810
    },
    {
      "epoch": 194.18666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004886016181588912,
      "loss": 0.3056,
      "step": 72820
    },
    {
      "epoch": 194.21333333333334,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004885984898733558,
      "loss": 0.2949,
      "step": 72830
    },
    {
      "epoch": 194.24,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004885953611686175,
      "loss": 0.2981,
      "step": 72840
    },
    {
      "epoch": 194.26666666666668,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004885922320446819,
      "loss": 0.3039,
      "step": 72850
    },
    {
      "epoch": 194.29333333333332,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004885891025015545,
      "loss": 0.3006,
      "step": 72860
    },
    {
      "epoch": 194.32,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.000488585972539241,
      "loss": 0.3073,
      "step": 72870
    },
    {
      "epoch": 194.34666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004885828421577465,
      "loss": 0.306,
      "step": 72880
    },
    {
      "epoch": 194.37333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004885797113570768,
      "loss": 0.2982,
      "step": 72890
    },
    {
      "epoch": 194.4,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004885765801372373,
      "loss": 0.3002,
      "step": 72900
    },
    {
      "epoch": 194.42666666666668,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004885734484982334,
      "loss": 0.3071,
      "step": 72910
    },
    {
      "epoch": 194.45333333333335,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004885703164400708,
      "loss": 0.3156,
      "step": 72920
    },
    {
      "epoch": 194.48,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004885671839627549,
      "loss": 0.3111,
      "step": 72930
    },
    {
      "epoch": 194.50666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004885640510662912,
      "loss": 0.3078,
      "step": 72940
    },
    {
      "epoch": 194.53333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004885609177506852,
      "loss": 0.3027,
      "step": 72950
    },
    {
      "epoch": 194.56,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004885577840159425,
      "loss": 0.2992,
      "step": 72960
    },
    {
      "epoch": 194.58666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004885546498620685,
      "loss": 0.3029,
      "step": 72970
    },
    {
      "epoch": 194.61333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004885515152890687,
      "loss": 0.2953,
      "step": 72980
    },
    {
      "epoch": 194.64,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004885483802969487,
      "loss": 0.296,
      "step": 72990
    },
    {
      "epoch": 194.66666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.000488545244885714,
      "loss": 0.3122,
      "step": 73000
    },
    {
      "epoch": 194.69333333333333,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0004885421090553699,
      "loss": 0.2906,
      "step": 73010
    },
    {
      "epoch": 194.72,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004885389728059221,
      "loss": 0.3066,
      "step": 73020
    },
    {
      "epoch": 194.74666666666667,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004885358361373761,
      "loss": 0.308,
      "step": 73030
    },
    {
      "epoch": 194.77333333333334,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004885326990497375,
      "loss": 0.3187,
      "step": 73040
    },
    {
      "epoch": 194.8,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004885295615430117,
      "loss": 0.306,
      "step": 73050
    },
    {
      "epoch": 194.82666666666665,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004885264236172041,
      "loss": 0.295,
      "step": 73060
    },
    {
      "epoch": 194.85333333333332,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004885232852723203,
      "loss": 0.2987,
      "step": 73070
    },
    {
      "epoch": 194.88,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000488520146508366,
      "loss": 0.2989,
      "step": 73080
    },
    {
      "epoch": 194.90666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004885170073253464,
      "loss": 0.2996,
      "step": 73090
    },
    {
      "epoch": 194.93333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004885138677232674,
      "loss": 0.3008,
      "step": 73100
    },
    {
      "epoch": 194.96,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004885107277021341,
      "loss": 0.3005,
      "step": 73110
    },
    {
      "epoch": 194.98666666666668,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004885075872619522,
      "loss": 0.3118,
      "step": 73120
    },
    {
      "epoch": 195.0,
      "eval_loss": 0.3971620202064514,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8027,
      "eval_samples_per_second": 1.481,
      "eval_steps_per_second": 0.093,
      "step": 73125
    },
    {
      "epoch": 195.01333333333332,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004885044464027272,
      "loss": 0.3027,
      "step": 73130
    },
    {
      "epoch": 195.04,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004885013051244648,
      "loss": 0.3289,
      "step": 73140
    },
    {
      "epoch": 195.06666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0004884981634271702,
      "loss": 0.3146,
      "step": 73150
    },
    {
      "epoch": 195.09333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004884950213108492,
      "loss": 0.3102,
      "step": 73160
    },
    {
      "epoch": 195.12,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004884918787755071,
      "loss": 0.3065,
      "step": 73170
    },
    {
      "epoch": 195.14666666666668,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004884887358211496,
      "loss": 0.3075,
      "step": 73180
    },
    {
      "epoch": 195.17333333333335,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004884855924477821,
      "loss": 0.3079,
      "step": 73190
    },
    {
      "epoch": 195.2,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004884824486554102,
      "loss": 0.3013,
      "step": 73200
    },
    {
      "epoch": 195.22666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004884793044440393,
      "loss": 0.2952,
      "step": 73210
    },
    {
      "epoch": 195.25333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004884761598136752,
      "loss": 0.2949,
      "step": 73220
    },
    {
      "epoch": 195.28,
      "grad_norm": 0.212890625,
      "learning_rate": 0.000488473014764323,
      "loss": 0.3132,
      "step": 73230
    },
    {
      "epoch": 195.30666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004884698692959887,
      "loss": 0.2951,
      "step": 73240
    },
    {
      "epoch": 195.33333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004884667234086774,
      "loss": 0.3091,
      "step": 73250
    },
    {
      "epoch": 195.36,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004884635771023949,
      "loss": 0.3006,
      "step": 73260
    },
    {
      "epoch": 195.38666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004884604303771467,
      "loss": 0.2981,
      "step": 73270
    },
    {
      "epoch": 195.41333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004884572832329382,
      "loss": 0.3041,
      "step": 73280
    },
    {
      "epoch": 195.44,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004884541356697749,
      "loss": 0.3117,
      "step": 73290
    },
    {
      "epoch": 195.46666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004884509876876626,
      "loss": 0.3151,
      "step": 73300
    },
    {
      "epoch": 195.49333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004884478392866066,
      "loss": 0.3054,
      "step": 73310
    },
    {
      "epoch": 195.52,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004884446904666126,
      "loss": 0.3089,
      "step": 73320
    },
    {
      "epoch": 195.54666666666665,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004884415412276859,
      "loss": 0.2989,
      "step": 73330
    },
    {
      "epoch": 195.57333333333332,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004884383915698322,
      "loss": 0.3023,
      "step": 73340
    },
    {
      "epoch": 195.6,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004884352414930571,
      "loss": 0.2995,
      "step": 73350
    },
    {
      "epoch": 195.62666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0004884320909973658,
      "loss": 0.2942,
      "step": 73360
    },
    {
      "epoch": 195.65333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004884289400827643,
      "loss": 0.3068,
      "step": 73370
    },
    {
      "epoch": 195.68,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004884257887492578,
      "loss": 0.296,
      "step": 73380
    },
    {
      "epoch": 195.70666666666668,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004884226369968518,
      "loss": 0.2971,
      "step": 73390
    },
    {
      "epoch": 195.73333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004884194848255522,
      "loss": 0.3119,
      "step": 73400
    },
    {
      "epoch": 195.76,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004884163322353642,
      "loss": 0.3134,
      "step": 73410
    },
    {
      "epoch": 195.78666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004884131792262935,
      "loss": 0.3144,
      "step": 73420
    },
    {
      "epoch": 195.81333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004884100257983456,
      "loss": 0.297,
      "step": 73430
    },
    {
      "epoch": 195.84,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000488406871951526,
      "loss": 0.2967,
      "step": 73440
    },
    {
      "epoch": 195.86666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004884037176858402,
      "loss": 0.2984,
      "step": 73450
    },
    {
      "epoch": 195.89333333333335,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000488400563001294,
      "loss": 0.299,
      "step": 73460
    },
    {
      "epoch": 195.92,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004883974078978927,
      "loss": 0.3,
      "step": 73470
    },
    {
      "epoch": 195.94666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004883942523756417,
      "loss": 0.3014,
      "step": 73480
    },
    {
      "epoch": 195.97333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004883910964345469,
      "loss": 0.3082,
      "step": 73490
    },
    {
      "epoch": 196.0,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004883879400746137,
      "loss": 0.2972,
      "step": 73500
    },
    {
      "epoch": 196.0,
      "eval_loss": 0.39889007806777954,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8768,
      "eval_samples_per_second": 1.471,
      "eval_steps_per_second": 0.092,
      "step": 73500
    },
    {
      "epoch": 196.02666666666667,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004883847832958477,
      "loss": 0.3193,
      "step": 73510
    },
    {
      "epoch": 196.05333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004883816260982543,
      "loss": 0.3262,
      "step": 73520
    },
    {
      "epoch": 196.08,
      "grad_norm": 0.234375,
      "learning_rate": 0.0004883784684818391,
      "loss": 0.3101,
      "step": 73530
    },
    {
      "epoch": 196.10666666666665,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004883753104466078,
      "loss": 0.3121,
      "step": 73540
    },
    {
      "epoch": 196.13333333333333,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0004883721519925656,
      "loss": 0.3028,
      "step": 73550
    },
    {
      "epoch": 196.16,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004883689931197184,
      "loss": 0.3103,
      "step": 73560
    },
    {
      "epoch": 196.18666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004883658338280716,
      "loss": 0.3063,
      "step": 73570
    },
    {
      "epoch": 196.21333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.000488362674117631,
      "loss": 0.2945,
      "step": 73580
    },
    {
      "epoch": 196.24,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004883595139884016,
      "loss": 0.2985,
      "step": 73590
    },
    {
      "epoch": 196.26666666666668,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004883563534403894,
      "loss": 0.3036,
      "step": 73600
    },
    {
      "epoch": 196.29333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004883531924735998,
      "loss": 0.3002,
      "step": 73610
    },
    {
      "epoch": 196.32,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004883500310880385,
      "loss": 0.3071,
      "step": 73620
    },
    {
      "epoch": 196.34666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004883468692837108,
      "loss": 0.306,
      "step": 73630
    },
    {
      "epoch": 196.37333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0004883437070606226,
      "loss": 0.2984,
      "step": 73640
    },
    {
      "epoch": 196.4,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000488340544418779,
      "loss": 0.3002,
      "step": 73650
    },
    {
      "epoch": 196.42666666666668,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.000488337381358186,
      "loss": 0.3067,
      "step": 73660
    },
    {
      "epoch": 196.45333333333335,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.000488334217878849,
      "loss": 0.3153,
      "step": 73670
    },
    {
      "epoch": 196.48,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004883310539807732,
      "loss": 0.3104,
      "step": 73680
    },
    {
      "epoch": 196.50666666666666,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004883278896639648,
      "loss": 0.3079,
      "step": 73690
    },
    {
      "epoch": 196.53333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.000488324724928429,
      "loss": 0.3022,
      "step": 73700
    },
    {
      "epoch": 196.56,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004883215597741712,
      "loss": 0.299,
      "step": 73710
    },
    {
      "epoch": 196.58666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004883183942011974,
      "loss": 0.3027,
      "step": 73720
    },
    {
      "epoch": 196.61333333333334,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004883152282095127,
      "loss": 0.2955,
      "step": 73730
    },
    {
      "epoch": 196.64,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000488312061799123,
      "loss": 0.2954,
      "step": 73740
    },
    {
      "epoch": 196.66666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004883088949700339,
      "loss": 0.3113,
      "step": 73750
    },
    {
      "epoch": 196.69333333333333,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0004883057277222506,
      "loss": 0.2904,
      "step": 73760
    },
    {
      "epoch": 196.72,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0004883025600557789,
      "loss": 0.3064,
      "step": 73770
    },
    {
      "epoch": 196.74666666666667,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0004882993919706243,
      "loss": 0.308,
      "step": 73780
    },
    {
      "epoch": 196.77333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004882962234667926,
      "loss": 0.3197,
      "step": 73790
    },
    {
      "epoch": 196.8,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0004882930545442891,
      "loss": 0.3059,
      "step": 73800
    },
    {
      "epoch": 196.82666666666665,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004882898852031194,
      "loss": 0.2949,
      "step": 73810
    },
    {
      "epoch": 196.85333333333332,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000488286715443289,
      "loss": 0.2989,
      "step": 73820
    },
    {
      "epoch": 196.88,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004882835452648037,
      "loss": 0.2979,
      "step": 73830
    },
    {
      "epoch": 196.90666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004882803746676691,
      "loss": 0.3002,
      "step": 73840
    },
    {
      "epoch": 196.93333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.00048827720365189045,
      "loss": 0.3002,
      "step": 73850
    },
    {
      "epoch": 196.96,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004882740322174735,
      "loss": 0.3002,
      "step": 73860
    },
    {
      "epoch": 196.98666666666668,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00048827086036442387,
      "loss": 0.3118,
      "step": 73870
    },
    {
      "epoch": 197.0,
      "eval_loss": 0.39731070399284363,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.1235,
      "eval_samples_per_second": 1.438,
      "eval_steps_per_second": 0.09,
      "step": 73875
    },
    {
      "epoch": 197.01333333333332,
      "grad_norm": 0.234375,
      "learning_rate": 0.000488267688092747,
      "loss": 0.3029,
      "step": 73880
    },
    {
      "epoch": 197.04,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00048826451540244867,
      "loss": 0.3292,
      "step": 73890
    },
    {
      "epoch": 197.06666666666666,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0004882613422935342,
      "loss": 0.3136,
      "step": 73900
    },
    {
      "epoch": 197.09333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004882581687660093,
      "loss": 0.3103,
      "step": 73910
    },
    {
      "epoch": 197.12,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00048825499481987955,
      "loss": 0.3064,
      "step": 73920
    },
    {
      "epoch": 197.14666666666668,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004882518204551506,
      "loss": 0.3076,
      "step": 73930
    },
    {
      "epoch": 197.17333333333335,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004882486456718278,
      "loss": 0.3076,
      "step": 73940
    },
    {
      "epoch": 197.2,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.000488245470469917,
      "loss": 0.3011,
      "step": 73950
    },
    {
      "epoch": 197.22666666666666,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004882422948494236,
      "loss": 0.2954,
      "step": 73960
    },
    {
      "epoch": 197.25333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.00048823911881035317,
      "loss": 0.2952,
      "step": 73970
    },
    {
      "epoch": 197.28,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0004882359423527114,
      "loss": 0.3129,
      "step": 73980
    },
    {
      "epoch": 197.30666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00048823276547650375,
      "loss": 0.2951,
      "step": 73990
    },
    {
      "epoch": 197.33333333333334,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004882295881817359,
      "loss": 0.3097,
      "step": 74000
    },
    {
      "epoch": 197.36,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004882264104684134,
      "loss": 0.3004,
      "step": 74010
    },
    {
      "epoch": 197.38666666666666,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004882232323365419,
      "loss": 0.2979,
      "step": 74020
    },
    {
      "epoch": 197.41333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004882200537861269,
      "loss": 0.3037,
      "step": 74030
    },
    {
      "epoch": 197.44,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004882168748171739,
      "loss": 0.3115,
      "step": 74040
    },
    {
      "epoch": 197.46666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00048821369542968875,
      "loss": 0.3155,
      "step": 74050
    },
    {
      "epoch": 197.49333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004882105156236767,
      "loss": 0.3047,
      "step": 74060
    },
    {
      "epoch": 197.52,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004882073353991436,
      "loss": 0.3086,
      "step": 74070
    },
    {
      "epoch": 197.54666666666665,
      "grad_norm": 0.265625,
      "learning_rate": 0.00048820415475609493,
      "loss": 0.2988,
      "step": 74080
    },
    {
      "epoch": 197.57333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004882009736945363,
      "loss": 0.302,
      "step": 74090
    },
    {
      "epoch": 197.6,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00048819779221447333,
      "loss": 0.2994,
      "step": 74100
    },
    {
      "epoch": 197.62666666666667,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004881946103159115,
      "loss": 0.2943,
      "step": 74110
    },
    {
      "epoch": 197.65333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00048819142799885653,
      "loss": 0.3065,
      "step": 74120
    },
    {
      "epoch": 197.68,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00048818824526331397,
      "loss": 0.2961,
      "step": 74130
    },
    {
      "epoch": 197.70666666666668,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00048818506210928937,
      "loss": 0.2968,
      "step": 74140
    },
    {
      "epoch": 197.73333333333332,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004881818785367883,
      "loss": 0.3123,
      "step": 74150
    },
    {
      "epoch": 197.76,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004881786945458165,
      "loss": 0.3134,
      "step": 74160
    },
    {
      "epoch": 197.78666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004881755101363794,
      "loss": 0.3139,
      "step": 74170
    },
    {
      "epoch": 197.81333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.00048817232530848267,
      "loss": 0.2968,
      "step": 74180
    },
    {
      "epoch": 197.84,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.00048816914006213186,
      "loss": 0.2969,
      "step": 74190
    },
    {
      "epoch": 197.86666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0004881659543973327,
      "loss": 0.2987,
      "step": 74200
    },
    {
      "epoch": 197.89333333333335,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004881627683140906,
      "loss": 0.299,
      "step": 74210
    },
    {
      "epoch": 197.92,
      "grad_norm": 0.216796875,
      "learning_rate": 0.00048815958181241135,
      "loss": 0.2994,
      "step": 74220
    },
    {
      "epoch": 197.94666666666666,
      "grad_norm": 0.1875,
      "learning_rate": 0.00048815639489230034,
      "loss": 0.3016,
      "step": 74230
    },
    {
      "epoch": 197.97333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00048815320755376336,
      "loss": 0.3083,
      "step": 74240
    },
    {
      "epoch": 198.0,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00048815001979680587,
      "loss": 0.2966,
      "step": 74250
    },
    {
      "epoch": 198.0,
      "eval_loss": 0.39946767687797546,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.8408,
      "eval_samples_per_second": 1.476,
      "eval_steps_per_second": 0.092,
      "step": 74250
    },
    {
      "epoch": 198.02666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0004881468316214335,
      "loss": 0.3196,
      "step": 74260
    },
    {
      "epoch": 198.05333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.000488143643027652,
      "loss": 0.3258,
      "step": 74270
    },
    {
      "epoch": 198.08,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004881404540154667,
      "loss": 0.3093,
      "step": 74280
    },
    {
      "epoch": 198.10666666666665,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004881372645848835,
      "loss": 0.3112,
      "step": 74290
    },
    {
      "epoch": 198.13333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00048813407473590777,
      "loss": 0.3027,
      "step": 74300
    },
    {
      "epoch": 198.16,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0004881308844685452,
      "loss": 0.3096,
      "step": 74310
    },
    {
      "epoch": 198.18666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00048812769378280143,
      "loss": 0.305,
      "step": 74320
    },
    {
      "epoch": 198.21333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.00048812450267868204,
      "loss": 0.2936,
      "step": 74330
    },
    {
      "epoch": 198.24,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004881213111561925,
      "loss": 0.2978,
      "step": 74340
    },
    {
      "epoch": 198.26666666666668,
      "grad_norm": 0.1875,
      "learning_rate": 0.00048811811921533867,
      "loss": 0.3038,
      "step": 74350
    },
    {
      "epoch": 198.29333333333332,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000488114926856126,
      "loss": 0.2991,
      "step": 74360
    },
    {
      "epoch": 198.32,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0004881117340785602,
      "loss": 0.3064,
      "step": 74370
    },
    {
      "epoch": 198.34666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004881085408826468,
      "loss": 0.3053,
      "step": 74380
    },
    {
      "epoch": 198.37333333333333,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00048810534726839136,
      "loss": 0.2978,
      "step": 74390
    },
    {
      "epoch": 198.4,
      "grad_norm": 0.1796875,
      "learning_rate": 0.00048810215323579956,
      "loss": 0.299,
      "step": 74400
    },
    {
      "epoch": 198.42666666666668,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.000488098958784877,
      "loss": 0.3068,
      "step": 74410
    },
    {
      "epoch": 198.45333333333335,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00048809576391562934,
      "loss": 0.3146,
      "step": 74420
    },
    {
      "epoch": 198.48,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004880925686280621,
      "loss": 0.3108,
      "step": 74430
    },
    {
      "epoch": 198.50666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.000488089372922181,
      "loss": 0.3076,
      "step": 74440
    },
    {
      "epoch": 198.53333333333333,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004880861767979916,
      "loss": 0.3023,
      "step": 74450
    },
    {
      "epoch": 198.56,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004880829802554995,
      "loss": 0.2991,
      "step": 74460
    },
    {
      "epoch": 198.58666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004880797832947103,
      "loss": 0.3028,
      "step": 74470
    },
    {
      "epoch": 198.61333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.00048807658591562965,
      "loss": 0.2944,
      "step": 74480
    },
    {
      "epoch": 198.64,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00048807338811826317,
      "loss": 0.2952,
      "step": 74490
    },
    {
      "epoch": 198.66666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00048807018990261653,
      "loss": 0.3119,
      "step": 74500
    },
    {
      "epoch": 198.69333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004880669912686953,
      "loss": 0.2902,
      "step": 74510
    },
    {
      "epoch": 198.72,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00048806379221650497,
      "loss": 0.3064,
      "step": 74520
    },
    {
      "epoch": 198.74666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00048806059274605137,
      "loss": 0.3077,
      "step": 74530
    },
    {
      "epoch": 198.77333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00048805739285734,
      "loss": 0.3185,
      "step": 74540
    },
    {
      "epoch": 198.8,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00048805419255037655,
      "loss": 0.3058,
      "step": 74550
    },
    {
      "epoch": 198.82666666666665,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004880509918251666,
      "loss": 0.2941,
      "step": 74560
    },
    {
      "epoch": 198.85333333333332,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00048804779068171576,
      "loss": 0.2985,
      "step": 74570
    },
    {
      "epoch": 198.88,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00048804458912002976,
      "loss": 0.2979,
      "step": 74580
    },
    {
      "epoch": 198.90666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.00048804138714011406,
      "loss": 0.2994,
      "step": 74590
    },
    {
      "epoch": 198.93333333333334,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00048803818474197437,
      "loss": 0.3003,
      "step": 74600
    },
    {
      "epoch": 198.96,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004880349819256164,
      "loss": 0.3,
      "step": 74610
    },
    {
      "epoch": 198.98666666666668,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00048803177869104555,
      "loss": 0.3111,
      "step": 74620
    },
    {
      "epoch": 199.0,
      "eval_loss": 0.39611828327178955,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.7927,
      "eval_samples_per_second": 1.482,
      "eval_steps_per_second": 0.093,
      "step": 74625
    },
    {
      "epoch": 199.01333333333332,
      "grad_norm": 0.265625,
      "learning_rate": 0.0004880285750382677,
      "loss": 0.3021,
      "step": 74630
    },
    {
      "epoch": 199.04,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004880253709672883,
      "loss": 0.3285,
      "step": 74640
    },
    {
      "epoch": 199.06666666666666,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0004880221664781131,
      "loss": 0.3137,
      "step": 74650
    },
    {
      "epoch": 199.09333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00048801896157074767,
      "loss": 0.3101,
      "step": 74660
    },
    {
      "epoch": 199.12,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004880157562451976,
      "loss": 0.307,
      "step": 74670
    },
    {
      "epoch": 199.14666666666668,
      "grad_norm": 0.203125,
      "learning_rate": 0.00048801255050146865,
      "loss": 0.3068,
      "step": 74680
    },
    {
      "epoch": 199.17333333333335,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0004880093443395663,
      "loss": 0.3073,
      "step": 74690
    },
    {
      "epoch": 199.2,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00048800613775949633,
      "loss": 0.3012,
      "step": 74700
    },
    {
      "epoch": 199.22666666666666,
      "grad_norm": 0.203125,
      "learning_rate": 0.00048800293076126425,
      "loss": 0.2945,
      "step": 74710
    },
    {
      "epoch": 199.25333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048799972334487567,
      "loss": 0.2947,
      "step": 74720
    },
    {
      "epoch": 199.28,
      "grad_norm": 0.216796875,
      "learning_rate": 0.00048799651551033644,
      "loss": 0.3129,
      "step": 74730
    },
    {
      "epoch": 199.30666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004879933072576519,
      "loss": 0.2951,
      "step": 74740
    },
    {
      "epoch": 199.33333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.000487990098586828,
      "loss": 0.3091,
      "step": 74750
    },
    {
      "epoch": 199.36,
      "grad_norm": 0.1875,
      "learning_rate": 0.00048798688949787015,
      "loss": 0.3005,
      "step": 74760
    },
    {
      "epoch": 199.38666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.000487983679990784,
      "loss": 0.2974,
      "step": 74770
    },
    {
      "epoch": 199.41333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.00048798047006557533,
      "loss": 0.3033,
      "step": 74780
    },
    {
      "epoch": 199.44,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004879772597222497,
      "loss": 0.3106,
      "step": 74790
    },
    {
      "epoch": 199.46666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00048797404896081263,
      "loss": 0.3153,
      "step": 74800
    },
    {
      "epoch": 199.49333333333334,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00048797083778127,
      "loss": 0.3041,
      "step": 74810
    },
    {
      "epoch": 199.52,
      "grad_norm": 0.169921875,
      "learning_rate": 0.00048796762618362726,
      "loss": 0.308,
      "step": 74820
    },
    {
      "epoch": 199.54666666666665,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00048796441416789016,
      "loss": 0.299,
      "step": 74830
    },
    {
      "epoch": 199.57333333333332,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0004879612017340643,
      "loss": 0.3022,
      "step": 74840
    },
    {
      "epoch": 199.6,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004879579888821553,
      "loss": 0.2985,
      "step": 74850
    },
    {
      "epoch": 199.62666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.00048795477561216886,
      "loss": 0.2938,
      "step": 74860
    },
    {
      "epoch": 199.65333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0004879515619241106,
      "loss": 0.3068,
      "step": 74870
    },
    {
      "epoch": 199.68,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00048794834781798615,
      "loss": 0.2952,
      "step": 74880
    },
    {
      "epoch": 199.70666666666668,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.00048794513329380117,
      "loss": 0.2967,
      "step": 74890
    },
    {
      "epoch": 199.73333333333332,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00048794191835156134,
      "loss": 0.3114,
      "step": 74900
    },
    {
      "epoch": 199.76,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004879387029912723,
      "loss": 0.3127,
      "step": 74910
    },
    {
      "epoch": 199.78666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004879354872129396,
      "loss": 0.3144,
      "step": 74920
    },
    {
      "epoch": 199.81333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.000487932271016569,
      "loss": 0.2963,
      "step": 74930
    },
    {
      "epoch": 199.84,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004879290544021661,
      "loss": 0.2966,
      "step": 74940
    },
    {
      "epoch": 199.86666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004879258373697366,
      "loss": 0.2983,
      "step": 74950
    },
    {
      "epoch": 199.89333333333335,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004879226199192861,
      "loss": 0.2982,
      "step": 74960
    },
    {
      "epoch": 199.92,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004879194020508203,
      "loss": 0.299,
      "step": 74970
    },
    {
      "epoch": 199.94666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004879161837643448,
      "loss": 0.3012,
      "step": 74980
    },
    {
      "epoch": 199.97333333333333,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004879129650598653,
      "loss": 0.3076,
      "step": 74990
    },
    {
      "epoch": 200.0,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.00048790974593738745,
      "loss": 0.2966,
      "step": 75000
    },
    {
      "epoch": 200.0,
      "eval_loss": 0.3961365818977356,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.8029,
      "eval_samples_per_second": 1.356,
      "eval_steps_per_second": 0.085,
      "step": 75000
    },
    {
      "epoch": 200.02666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004879065263969169,
      "loss": 0.3191,
      "step": 75010
    },
    {
      "epoch": 200.05333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0004879033064384593,
      "loss": 0.3257,
      "step": 75020
    },
    {
      "epoch": 200.08,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.00048790008606202024,
      "loss": 0.3096,
      "step": 75030
    },
    {
      "epoch": 200.10666666666665,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004878968652676055,
      "loss": 0.3116,
      "step": 75040
    },
    {
      "epoch": 200.13333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00048789364405522065,
      "loss": 0.3025,
      "step": 75050
    },
    {
      "epoch": 200.16,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00048789042242487144,
      "loss": 0.31,
      "step": 75060
    },
    {
      "epoch": 200.18666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00048788720037656343,
      "loss": 0.3051,
      "step": 75070
    },
    {
      "epoch": 200.21333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004878839779103023,
      "loss": 0.2936,
      "step": 75080
    },
    {
      "epoch": 200.24,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004878807550260938,
      "loss": 0.2974,
      "step": 75090
    },
    {
      "epoch": 200.26666666666668,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004878775317239435,
      "loss": 0.3034,
      "step": 75100
    },
    {
      "epoch": 200.29333333333332,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004878743080038571,
      "loss": 0.2988,
      "step": 75110
    },
    {
      "epoch": 200.32,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.00048787108386584024,
      "loss": 0.3071,
      "step": 75120
    },
    {
      "epoch": 200.34666666666666,
      "grad_norm": 0.208984375,
      "learning_rate": 0.00048786785930989864,
      "loss": 0.3054,
      "step": 75130
    },
    {
      "epoch": 200.37333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004878646343360378,
      "loss": 0.2973,
      "step": 75140
    },
    {
      "epoch": 200.4,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004878614089442637,
      "loss": 0.2991,
      "step": 75150
    },
    {
      "epoch": 200.42666666666668,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.00048785818313458164,
      "loss": 0.3065,
      "step": 75160
    },
    {
      "epoch": 200.45333333333335,
      "grad_norm": 0.232421875,
      "learning_rate": 0.00048785495690699756,
      "loss": 0.3144,
      "step": 75170
    },
    {
      "epoch": 200.48,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.00048785173026151703,
      "loss": 0.3104,
      "step": 75180
    },
    {
      "epoch": 200.50666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.00048784850319814573,
      "loss": 0.3068,
      "step": 75190
    },
    {
      "epoch": 200.53333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004878452757168893,
      "loss": 0.3027,
      "step": 75200
    },
    {
      "epoch": 200.56,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00048784204781775344,
      "loss": 0.2985,
      "step": 75210
    },
    {
      "epoch": 200.58666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00048783881950074384,
      "loss": 0.3024,
      "step": 75220
    },
    {
      "epoch": 200.61333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00048783559076586607,
      "loss": 0.2945,
      "step": 75230
    },
    {
      "epoch": 200.64,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00048783236161312595,
      "loss": 0.2952,
      "step": 75240
    },
    {
      "epoch": 200.66666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004878291320425291,
      "loss": 0.311,
      "step": 75250
    },
    {
      "epoch": 200.69333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004878259020540811,
      "loss": 0.2896,
      "step": 75260
    },
    {
      "epoch": 200.72,
      "grad_norm": 0.236328125,
      "learning_rate": 0.00048782267164778774,
      "loss": 0.3064,
      "step": 75270
    },
    {
      "epoch": 200.74666666666667,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0004878194408236547,
      "loss": 0.307,
      "step": 75280
    },
    {
      "epoch": 200.77333333333334,
      "grad_norm": 0.22265625,
      "learning_rate": 0.00048781620958168753,
      "loss": 0.3181,
      "step": 75290
    },
    {
      "epoch": 200.8,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004878129779218921,
      "loss": 0.3053,
      "step": 75300
    },
    {
      "epoch": 200.82666666666665,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00048780974584427384,
      "loss": 0.2942,
      "step": 75310
    },
    {
      "epoch": 200.85333333333332,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004878065133488386,
      "loss": 0.2985,
      "step": 75320
    },
    {
      "epoch": 200.88,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00048780328043559215,
      "loss": 0.2974,
      "step": 75330
    },
    {
      "epoch": 200.90666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.00048780004710454,
      "loss": 0.2994,
      "step": 75340
    },
    {
      "epoch": 200.93333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00048779681335568784,
      "loss": 0.3001,
      "step": 75350
    },
    {
      "epoch": 200.96,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00048779357918904133,
      "loss": 0.3,
      "step": 75360
    },
    {
      "epoch": 200.98666666666668,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00048779034460460623,
      "loss": 0.3108,
      "step": 75370
    },
    {
      "epoch": 201.0,
      "eval_loss": 0.39679020643234253,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0587,
      "eval_samples_per_second": 1.447,
      "eval_steps_per_second": 0.09,
      "step": 75375
    },
    {
      "epoch": 201.01333333333332,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00048778710960238825,
      "loss": 0.3024,
      "step": 75380
    },
    {
      "epoch": 201.04,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004877838741823931,
      "loss": 0.3286,
      "step": 75390
    },
    {
      "epoch": 201.06666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0004877806383446263,
      "loss": 0.3142,
      "step": 75400
    },
    {
      "epoch": 201.09333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004877774020890936,
      "loss": 0.3102,
      "step": 75410
    },
    {
      "epoch": 201.12,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00048777416541580075,
      "loss": 0.3062,
      "step": 75420
    },
    {
      "epoch": 201.14666666666668,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048777092832475344,
      "loss": 0.3068,
      "step": 75430
    },
    {
      "epoch": 201.17333333333335,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004877676908159573,
      "loss": 0.307,
      "step": 75440
    },
    {
      "epoch": 201.2,
      "grad_norm": 0.265625,
      "learning_rate": 0.00048776445288941793,
      "loss": 0.3006,
      "step": 75450
    },
    {
      "epoch": 201.22666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004877612145451413,
      "loss": 0.2947,
      "step": 75460
    },
    {
      "epoch": 201.25333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0004877579757831328,
      "loss": 0.294,
      "step": 75470
    },
    {
      "epoch": 201.28,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0004877547366033983,
      "loss": 0.3125,
      "step": 75480
    },
    {
      "epoch": 201.30666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004877514970059434,
      "loss": 0.2945,
      "step": 75490
    },
    {
      "epoch": 201.33333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00048774825699077386,
      "loss": 0.3092,
      "step": 75500
    },
    {
      "epoch": 201.36,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004877450165578953,
      "loss": 0.2998,
      "step": 75510
    },
    {
      "epoch": 201.38666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00048774177570731346,
      "loss": 0.2978,
      "step": 75520
    },
    {
      "epoch": 201.41333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.00048773853443903403,
      "loss": 0.3035,
      "step": 75530
    },
    {
      "epoch": 201.44,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004877352927530627,
      "loss": 0.3114,
      "step": 75540
    },
    {
      "epoch": 201.46666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0004877320506494052,
      "loss": 0.3146,
      "step": 75550
    },
    {
      "epoch": 201.49333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.00048772880812806717,
      "loss": 0.3042,
      "step": 75560
    },
    {
      "epoch": 201.52,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004877255651890543,
      "loss": 0.3085,
      "step": 75570
    },
    {
      "epoch": 201.54666666666665,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00048772232183237244,
      "loss": 0.2987,
      "step": 75580
    },
    {
      "epoch": 201.57333333333332,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.000487719078058027,
      "loss": 0.3021,
      "step": 75590
    },
    {
      "epoch": 201.6,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004877158338660239,
      "loss": 0.2988,
      "step": 75600
    },
    {
      "epoch": 201.62666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00048771258925636886,
      "loss": 0.2939,
      "step": 75610
    },
    {
      "epoch": 201.65333333333334,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004877093442290674,
      "loss": 0.3065,
      "step": 75620
    },
    {
      "epoch": 201.68,
      "grad_norm": 0.1796875,
      "learning_rate": 0.00048770609878412543,
      "loss": 0.2943,
      "step": 75630
    },
    {
      "epoch": 201.70666666666668,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00048770285292154845,
      "loss": 0.2965,
      "step": 75640
    },
    {
      "epoch": 201.73333333333332,
      "grad_norm": 0.1796875,
      "learning_rate": 0.00048769960664134227,
      "loss": 0.3109,
      "step": 75650
    },
    {
      "epoch": 201.76,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004876963599435127,
      "loss": 0.3127,
      "step": 75660
    },
    {
      "epoch": 201.78666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048769311282806523,
      "loss": 0.3137,
      "step": 75670
    },
    {
      "epoch": 201.81333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004876898652950057,
      "loss": 0.2968,
      "step": 75680
    },
    {
      "epoch": 201.84,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00048768661734433974,
      "loss": 0.2959,
      "step": 75690
    },
    {
      "epoch": 201.86666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00048768336897607315,
      "loss": 0.2984,
      "step": 75700
    },
    {
      "epoch": 201.89333333333335,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004876801201902115,
      "loss": 0.298,
      "step": 75710
    },
    {
      "epoch": 201.92,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0004876768709867606,
      "loss": 0.2997,
      "step": 75720
    },
    {
      "epoch": 201.94666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004876736213657262,
      "loss": 0.3007,
      "step": 75730
    },
    {
      "epoch": 201.97333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.00048767037132711397,
      "loss": 0.3077,
      "step": 75740
    },
    {
      "epoch": 202.0,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0004876671208709296,
      "loss": 0.2969,
      "step": 75750
    },
    {
      "epoch": 202.0,
      "eval_loss": 0.3992685079574585,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0674,
      "eval_samples_per_second": 1.446,
      "eval_steps_per_second": 0.09,
      "step": 75750
    },
    {
      "epoch": 202.02666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.00048766386999717873,
      "loss": 0.3194,
      "step": 75760
    },
    {
      "epoch": 202.05333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004876606187058671,
      "loss": 0.3256,
      "step": 75770
    },
    {
      "epoch": 202.08,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048765736699700056,
      "loss": 0.3097,
      "step": 75780
    },
    {
      "epoch": 202.10666666666665,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004876541148705847,
      "loss": 0.3111,
      "step": 75790
    },
    {
      "epoch": 202.13333333333333,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00048765086232662526,
      "loss": 0.3026,
      "step": 75800
    },
    {
      "epoch": 202.16,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.000487647609365128,
      "loss": 0.3097,
      "step": 75810
    },
    {
      "epoch": 202.18666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004876443559860985,
      "loss": 0.3048,
      "step": 75820
    },
    {
      "epoch": 202.21333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0004876411021895426,
      "loss": 0.2935,
      "step": 75830
    },
    {
      "epoch": 202.24,
      "grad_norm": 0.193359375,
      "learning_rate": 0.000487637847975466,
      "loss": 0.2976,
      "step": 75840
    },
    {
      "epoch": 202.26666666666668,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004876345933438744,
      "loss": 0.3033,
      "step": 75850
    },
    {
      "epoch": 202.29333333333332,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0004876313382947735,
      "loss": 0.2999,
      "step": 75860
    },
    {
      "epoch": 202.32,
      "grad_norm": 0.19140625,
      "learning_rate": 0.00048762808282816906,
      "loss": 0.3068,
      "step": 75870
    },
    {
      "epoch": 202.34666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004876248269440668,
      "loss": 0.305,
      "step": 75880
    },
    {
      "epoch": 202.37333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004876215706424724,
      "loss": 0.2979,
      "step": 75890
    },
    {
      "epoch": 202.4,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.00048761831392339156,
      "loss": 0.299,
      "step": 75900
    },
    {
      "epoch": 202.42666666666668,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00048761505678683007,
      "loss": 0.3062,
      "step": 75910
    },
    {
      "epoch": 202.45333333333335,
      "grad_norm": 0.208984375,
      "learning_rate": 0.00048761179923279365,
      "loss": 0.3142,
      "step": 75920
    },
    {
      "epoch": 202.48,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00048760854126128796,
      "loss": 0.3103,
      "step": 75930
    },
    {
      "epoch": 202.50666666666666,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004876052828723188,
      "loss": 0.3068,
      "step": 75940
    },
    {
      "epoch": 202.53333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004876020240658918,
      "loss": 0.3023,
      "step": 75950
    },
    {
      "epoch": 202.56,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00048759876484201275,
      "loss": 0.2982,
      "step": 75960
    },
    {
      "epoch": 202.58666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004875955052006874,
      "loss": 0.3024,
      "step": 75970
    },
    {
      "epoch": 202.61333333333334,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0004875922451419215,
      "loss": 0.2951,
      "step": 75980
    },
    {
      "epoch": 202.64,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004875889846657206,
      "loss": 0.2954,
      "step": 75990
    },
    {
      "epoch": 202.66666666666666,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00048758572377209067,
      "loss": 0.3114,
      "step": 76000
    },
    {
      "epoch": 202.69333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004875824624610372,
      "loss": 0.29,
      "step": 76010
    },
    {
      "epoch": 202.72,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004875792007325661,
      "loss": 0.3057,
      "step": 76020
    },
    {
      "epoch": 202.74666666666667,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00048757593858668306,
      "loss": 0.3065,
      "step": 76030
    },
    {
      "epoch": 202.77333333333334,
      "grad_norm": 0.189453125,
      "learning_rate": 0.0004875726760233937,
      "loss": 0.3181,
      "step": 76040
    },
    {
      "epoch": 202.8,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048756941304270397,
      "loss": 0.3054,
      "step": 76050
    },
    {
      "epoch": 202.82666666666665,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00048756614964461944,
      "loss": 0.2941,
      "step": 76060
    },
    {
      "epoch": 202.85333333333332,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.00048756288582914585,
      "loss": 0.2986,
      "step": 76070
    },
    {
      "epoch": 202.88,
      "grad_norm": 0.197265625,
      "learning_rate": 0.00048755962159628897,
      "loss": 0.2972,
      "step": 76080
    },
    {
      "epoch": 202.90666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004875563569460545,
      "loss": 0.2989,
      "step": 76090
    },
    {
      "epoch": 202.93333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004875530918784483,
      "loss": 0.2997,
      "step": 76100
    },
    {
      "epoch": 202.96,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00048754982639347594,
      "loss": 0.2997,
      "step": 76110
    },
    {
      "epoch": 202.98666666666668,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004875465604911432,
      "loss": 0.3113,
      "step": 76120
    },
    {
      "epoch": 203.0,
      "eval_loss": 0.39632460474967957,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.6389,
      "eval_samples_per_second": 1.504,
      "eval_steps_per_second": 0.094,
      "step": 76125
    },
    {
      "epoch": 203.01333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004875432941714559,
      "loss": 0.3019,
      "step": 76130
    },
    {
      "epoch": 203.04,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004875400274344197,
      "loss": 0.3279,
      "step": 76140
    },
    {
      "epoch": 203.06666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004875367602800405,
      "loss": 0.3138,
      "step": 76150
    },
    {
      "epoch": 203.09333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004875334927083237,
      "loss": 0.3097,
      "step": 76160
    },
    {
      "epoch": 203.12,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004875302247192754,
      "loss": 0.3061,
      "step": 76170
    },
    {
      "epoch": 203.14666666666668,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004875269563129011,
      "loss": 0.3065,
      "step": 76180
    },
    {
      "epoch": 203.17333333333335,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00048752368748920664,
      "loss": 0.3071,
      "step": 76190
    },
    {
      "epoch": 203.2,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004875204182481978,
      "loss": 0.3009,
      "step": 76200
    },
    {
      "epoch": 203.22666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004875171485898803,
      "loss": 0.2943,
      "step": 76210
    },
    {
      "epoch": 203.25333333333333,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004875138785142598,
      "loss": 0.2941,
      "step": 76220
    },
    {
      "epoch": 203.28,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.00048751060802134207,
      "loss": 0.3125,
      "step": 76230
    },
    {
      "epoch": 203.30666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.00048750733711113293,
      "loss": 0.2949,
      "step": 76240
    },
    {
      "epoch": 203.33333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004875040657836381,
      "loss": 0.3085,
      "step": 76250
    },
    {
      "epoch": 203.36,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0004875007940388634,
      "loss": 0.2995,
      "step": 76260
    },
    {
      "epoch": 203.38666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00048749752187681437,
      "loss": 0.2975,
      "step": 76270
    },
    {
      "epoch": 203.41333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004874942492974969,
      "loss": 0.303,
      "step": 76280
    },
    {
      "epoch": 203.44,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0004874909763009168,
      "loss": 0.3112,
      "step": 76290
    },
    {
      "epoch": 203.46666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00048748770288707964,
      "loss": 0.3144,
      "step": 76300
    },
    {
      "epoch": 203.49333333333334,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00048748442905599136,
      "loss": 0.3041,
      "step": 76310
    },
    {
      "epoch": 203.52,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00048748115480765764,
      "loss": 0.308,
      "step": 76320
    },
    {
      "epoch": 203.54666666666665,
      "grad_norm": 0.1875,
      "learning_rate": 0.00048747788014208415,
      "loss": 0.2983,
      "step": 76330
    },
    {
      "epoch": 203.57333333333332,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.00048747460505927677,
      "loss": 0.3015,
      "step": 76340
    },
    {
      "epoch": 203.6,
      "grad_norm": 0.197265625,
      "learning_rate": 0.00048747132955924123,
      "loss": 0.2986,
      "step": 76350
    },
    {
      "epoch": 203.62666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.00048746805364198323,
      "loss": 0.2938,
      "step": 76360
    },
    {
      "epoch": 203.65333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0004874647773075085,
      "loss": 0.3066,
      "step": 76370
    },
    {
      "epoch": 203.68,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0004874615005558228,
      "loss": 0.2948,
      "step": 76380
    },
    {
      "epoch": 203.70666666666668,
      "grad_norm": 0.34375,
      "learning_rate": 0.0004874582233869321,
      "loss": 0.2961,
      "step": 76390
    },
    {
      "epoch": 203.73333333333332,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004874549458008419,
      "loss": 0.3111,
      "step": 76400
    },
    {
      "epoch": 203.76,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000487451667797558,
      "loss": 0.3126,
      "step": 76410
    },
    {
      "epoch": 203.78666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00048744838937708626,
      "loss": 0.3139,
      "step": 76420
    },
    {
      "epoch": 203.81333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0004874451105394324,
      "loss": 0.2967,
      "step": 76430
    },
    {
      "epoch": 203.84,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00048744183128460216,
      "loss": 0.2964,
      "step": 76440
    },
    {
      "epoch": 203.86666666666667,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00048743855161260133,
      "loss": 0.298,
      "step": 76450
    },
    {
      "epoch": 203.89333333333335,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0004874352715234356,
      "loss": 0.2982,
      "step": 76460
    },
    {
      "epoch": 203.92,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004874319910171108,
      "loss": 0.2987,
      "step": 76470
    },
    {
      "epoch": 203.94666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.00048742871009363264,
      "loss": 0.3006,
      "step": 76480
    },
    {
      "epoch": 203.97333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.000487425428753007,
      "loss": 0.308,
      "step": 76490
    },
    {
      "epoch": 204.0,
      "grad_norm": 0.16796875,
      "learning_rate": 0.00048742214699523954,
      "loss": 0.2972,
      "step": 76500
    },
    {
      "epoch": 204.0,
      "eval_loss": 0.3993959128856659,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.148,
      "eval_samples_per_second": 1.317,
      "eval_steps_per_second": 0.082,
      "step": 76500
    },
    {
      "epoch": 204.02666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.00048741886482033605,
      "loss": 0.3188,
      "step": 76510
    },
    {
      "epoch": 204.05333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004874155822283023,
      "loss": 0.3259,
      "step": 76520
    },
    {
      "epoch": 204.08,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004874122992191441,
      "loss": 0.3091,
      "step": 76530
    },
    {
      "epoch": 204.10666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00048740901579286713,
      "loss": 0.3108,
      "step": 76540
    },
    {
      "epoch": 204.13333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004874057319494772,
      "loss": 0.3024,
      "step": 76550
    },
    {
      "epoch": 204.16,
      "grad_norm": 0.173828125,
      "learning_rate": 0.00048740244768898013,
      "loss": 0.3092,
      "step": 76560
    },
    {
      "epoch": 204.18666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004873991630113816,
      "loss": 0.3045,
      "step": 76570
    },
    {
      "epoch": 204.21333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.00048739587791668743,
      "loss": 0.2938,
      "step": 76580
    },
    {
      "epoch": 204.24,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004873925924049034,
      "loss": 0.2978,
      "step": 76590
    },
    {
      "epoch": 204.26666666666668,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0004873893064760353,
      "loss": 0.3034,
      "step": 76600
    },
    {
      "epoch": 204.29333333333332,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004873860201300888,
      "loss": 0.299,
      "step": 76610
    },
    {
      "epoch": 204.32,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.00048738273336706983,
      "loss": 0.3061,
      "step": 76620
    },
    {
      "epoch": 204.34666666666666,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00048737944618698403,
      "loss": 0.3047,
      "step": 76630
    },
    {
      "epoch": 204.37333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00048737615858983726,
      "loss": 0.297,
      "step": 76640
    },
    {
      "epoch": 204.4,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004873728705756352,
      "loss": 0.2992,
      "step": 76650
    },
    {
      "epoch": 204.42666666666668,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004873695821443838,
      "loss": 0.3057,
      "step": 76660
    },
    {
      "epoch": 204.45333333333335,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0004873662932960886,
      "loss": 0.3144,
      "step": 76670
    },
    {
      "epoch": 204.48,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004873630040307556,
      "loss": 0.3097,
      "step": 76680
    },
    {
      "epoch": 204.50666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004873597143483904,
      "loss": 0.3067,
      "step": 76690
    },
    {
      "epoch": 204.53333333333333,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.00048735642424899893,
      "loss": 0.3016,
      "step": 76700
    },
    {
      "epoch": 204.56,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004873531337325869,
      "loss": 0.2981,
      "step": 76710
    },
    {
      "epoch": 204.58666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.00048734984279916004,
      "loss": 0.3025,
      "step": 76720
    },
    {
      "epoch": 204.61333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004873465514487243,
      "loss": 0.2946,
      "step": 76730
    },
    {
      "epoch": 204.64,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004873432596812852,
      "loss": 0.2948,
      "step": 76740
    },
    {
      "epoch": 204.66666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00048733996749684885,
      "loss": 0.3105,
      "step": 76750
    },
    {
      "epoch": 204.69333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004873366748954208,
      "loss": 0.2898,
      "step": 76760
    },
    {
      "epoch": 204.72,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004873333818770068,
      "loss": 0.3057,
      "step": 76770
    },
    {
      "epoch": 204.74666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004873300884416128,
      "loss": 0.3064,
      "step": 76780
    },
    {
      "epoch": 204.77333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004873267945892445,
      "loss": 0.3179,
      "step": 76790
    },
    {
      "epoch": 204.8,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004873235003199077,
      "loss": 0.3048,
      "step": 76800
    },
    {
      "epoch": 204.82666666666665,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048732020563360825,
      "loss": 0.2941,
      "step": 76810
    },
    {
      "epoch": 204.85333333333332,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00048731691053035175,
      "loss": 0.2984,
      "step": 76820
    },
    {
      "epoch": 204.88,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004873136150101443,
      "loss": 0.2972,
      "step": 76830
    },
    {
      "epoch": 204.90666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.0004873103190729914,
      "loss": 0.299,
      "step": 76840
    },
    {
      "epoch": 204.93333333333334,
      "grad_norm": 0.17578125,
      "learning_rate": 0.00048730702271889895,
      "loss": 0.2995,
      "step": 76850
    },
    {
      "epoch": 204.96,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0004873037259478727,
      "loss": 0.2998,
      "step": 76860
    },
    {
      "epoch": 204.98666666666668,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00048730042875991855,
      "loss": 0.3107,
      "step": 76870
    },
    {
      "epoch": 205.0,
      "eval_loss": 0.39733168482780457,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.394,
      "eval_samples_per_second": 1.404,
      "eval_steps_per_second": 0.088,
      "step": 76875
    },
    {
      "epoch": 205.01333333333332,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00048729713115504216,
      "loss": 0.3017,
      "step": 76880
    },
    {
      "epoch": 205.04,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0004872938331332495,
      "loss": 0.3278,
      "step": 76890
    },
    {
      "epoch": 205.06666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.00048729053469454616,
      "loss": 0.3132,
      "step": 76900
    },
    {
      "epoch": 205.09333333333333,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004872872358389381,
      "loss": 0.3088,
      "step": 76910
    },
    {
      "epoch": 205.12,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00048728393656643094,
      "loss": 0.3062,
      "step": 76920
    },
    {
      "epoch": 205.14666666666668,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00048728063687703064,
      "loss": 0.3068,
      "step": 76930
    },
    {
      "epoch": 205.17333333333335,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00048727733677074296,
      "loss": 0.3071,
      "step": 76940
    },
    {
      "epoch": 205.2,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004872740362475737,
      "loss": 0.3006,
      "step": 76950
    },
    {
      "epoch": 205.22666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0004872707353075285,
      "loss": 0.2943,
      "step": 76960
    },
    {
      "epoch": 205.25333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.00048726743395061345,
      "loss": 0.2942,
      "step": 76970
    },
    {
      "epoch": 205.28,
      "grad_norm": 0.234375,
      "learning_rate": 0.00048726413217683415,
      "loss": 0.312,
      "step": 76980
    },
    {
      "epoch": 205.30666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0004872608299861964,
      "loss": 0.2945,
      "step": 76990
    },
    {
      "epoch": 205.33333333333334,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0004872575273787061,
      "loss": 0.3085,
      "step": 77000
    },
    {
      "epoch": 205.36,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00048725422435436897,
      "loss": 0.299,
      "step": 77010
    },
    {
      "epoch": 205.38666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0004872509209131909,
      "loss": 0.2971,
      "step": 77020
    },
    {
      "epoch": 205.41333333333333,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0004872476170551776,
      "loss": 0.3027,
      "step": 77030
    },
    {
      "epoch": 205.44,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00048724431278033485,
      "loss": 0.3101,
      "step": 77040
    },
    {
      "epoch": 205.46666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00048724100808866853,
      "loss": 0.314,
      "step": 77050
    },
    {
      "epoch": 205.49333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00048723770298018455,
      "loss": 0.3042,
      "step": 77060
    },
    {
      "epoch": 205.52,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004872343974548885,
      "loss": 0.3075,
      "step": 77070
    },
    {
      "epoch": 205.54666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.0004872310915127863,
      "loss": 0.2981,
      "step": 77080
    },
    {
      "epoch": 205.57333333333332,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00048722778515388377,
      "loss": 0.3016,
      "step": 77090
    },
    {
      "epoch": 205.6,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00048722447837818675,
      "loss": 0.2989,
      "step": 77100
    },
    {
      "epoch": 205.62666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004872211711857009,
      "loss": 0.2932,
      "step": 77110
    },
    {
      "epoch": 205.65333333333334,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0004872178635764322,
      "loss": 0.3058,
      "step": 77120
    },
    {
      "epoch": 205.68,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0004872145555503864,
      "loss": 0.2947,
      "step": 77130
    },
    {
      "epoch": 205.70666666666668,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004872112471075692,
      "loss": 0.2958,
      "step": 77140
    },
    {
      "epoch": 205.73333333333332,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0004872079382479866,
      "loss": 0.3102,
      "step": 77150
    },
    {
      "epoch": 205.76,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004872046289716442,
      "loss": 0.3119,
      "step": 77160
    },
    {
      "epoch": 205.78666666666666,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00048720131927854803,
      "loss": 0.3134,
      "step": 77170
    },
    {
      "epoch": 205.81333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0004871980091687039,
      "loss": 0.2962,
      "step": 77180
    },
    {
      "epoch": 205.84,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004871946986421174,
      "loss": 0.2957,
      "step": 77190
    },
    {
      "epoch": 205.86666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00048719138769879455,
      "loss": 0.2974,
      "step": 77200
    },
    {
      "epoch": 205.89333333333335,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0004871880763387411,
      "loss": 0.298,
      "step": 77210
    },
    {
      "epoch": 205.92,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00048718476456196294,
      "loss": 0.2989,
      "step": 77220
    },
    {
      "epoch": 205.94666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.00048718145236846565,
      "loss": 0.3001,
      "step": 77230
    },
    {
      "epoch": 205.97333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00048717813975825543,
      "loss": 0.3074,
      "step": 77240
    },
    {
      "epoch": 206.0,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00048717482673133773,
      "loss": 0.2963,
      "step": 77250
    },
    {
      "epoch": 206.0,
      "eval_loss": 0.3985230326652527,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 12.113,
      "eval_samples_per_second": 1.321,
      "eval_steps_per_second": 0.083,
      "step": 77250
    },
    {
      "epoch": 206.02666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004871715132877186,
      "loss": 0.3186,
      "step": 77260
    },
    {
      "epoch": 206.05333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.00048716819942740374,
      "loss": 0.325,
      "step": 77270
    },
    {
      "epoch": 206.08,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0004871648851503991,
      "loss": 0.309,
      "step": 77280
    },
    {
      "epoch": 206.10666666666665,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004871615704567104,
      "loss": 0.3109,
      "step": 77290
    },
    {
      "epoch": 206.13333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0004871582553463434,
      "loss": 0.3019,
      "step": 77300
    },
    {
      "epoch": 206.16,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00048715493981930414,
      "loss": 0.3094,
      "step": 77310
    },
    {
      "epoch": 206.18666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.00048715162387559833,
      "loss": 0.3047,
      "step": 77320
    },
    {
      "epoch": 206.21333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048714830751523167,
      "loss": 0.2932,
      "step": 77330
    },
    {
      "epoch": 206.24,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0004871449907382102,
      "loss": 0.2969,
      "step": 77340
    },
    {
      "epoch": 206.26666666666668,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004871416735445396,
      "loss": 0.3024,
      "step": 77350
    },
    {
      "epoch": 206.29333333333332,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00048713835593422575,
      "loss": 0.2988,
      "step": 77360
    },
    {
      "epoch": 206.32,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00048713503790727446,
      "loss": 0.3062,
      "step": 77370
    },
    {
      "epoch": 206.34666666666666,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0004871317194636916,
      "loss": 0.3044,
      "step": 77380
    },
    {
      "epoch": 206.37333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004871284006034831,
      "loss": 0.2975,
      "step": 77390
    },
    {
      "epoch": 206.4,
      "grad_norm": 0.197265625,
      "learning_rate": 0.00048712508132665443,
      "loss": 0.2987,
      "step": 77400
    },
    {
      "epoch": 206.42666666666668,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0004871217616332119,
      "loss": 0.3062,
      "step": 77410
    },
    {
      "epoch": 206.45333333333335,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00048711844152316095,
      "loss": 0.314,
      "step": 77420
    },
    {
      "epoch": 206.48,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.00048711512099650756,
      "loss": 0.3099,
      "step": 77430
    },
    {
      "epoch": 206.50666666666666,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0004871118000532576,
      "loss": 0.3068,
      "step": 77440
    },
    {
      "epoch": 206.53333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004871084786934169,
      "loss": 0.3012,
      "step": 77450
    },
    {
      "epoch": 206.56,
      "grad_norm": 0.197265625,
      "learning_rate": 0.00048710515691699133,
      "loss": 0.2981,
      "step": 77460
    },
    {
      "epoch": 206.58666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0004871018347239866,
      "loss": 0.3021,
      "step": 77470
    },
    {
      "epoch": 206.61333333333334,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0004870985121144086,
      "loss": 0.2945,
      "step": 77480
    },
    {
      "epoch": 206.64,
      "grad_norm": 0.171875,
      "learning_rate": 0.00048709518908826317,
      "loss": 0.2943,
      "step": 77490
    },
    {
      "epoch": 206.66666666666666,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0004870918656455562,
      "loss": 0.3112,
      "step": 77500
    },
    {
      "epoch": 206.69333333333333,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00048708854178629345,
      "loss": 0.2897,
      "step": 77510
    },
    {
      "epoch": 206.72,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004870852175104809,
      "loss": 0.3056,
      "step": 77520
    },
    {
      "epoch": 206.74666666666667,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0004870818928181241,
      "loss": 0.3069,
      "step": 77530
    },
    {
      "epoch": 206.77333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004870785677092292,
      "loss": 0.3183,
      "step": 77540
    },
    {
      "epoch": 206.8,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00048707524218380194,
      "loss": 0.3047,
      "step": 77550
    },
    {
      "epoch": 206.82666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0004870719162418481,
      "loss": 0.2941,
      "step": 77560
    },
    {
      "epoch": 206.85333333333332,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00048706858988337354,
      "loss": 0.2977,
      "step": 77570
    },
    {
      "epoch": 206.88,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00048706526310838416,
      "loss": 0.2969,
      "step": 77580
    },
    {
      "epoch": 206.90666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0004870619359168859,
      "loss": 0.2988,
      "step": 77590
    },
    {
      "epoch": 206.93333333333334,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0004870586083088843,
      "loss": 0.2995,
      "step": 77600
    },
    {
      "epoch": 206.96,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004870552802843855,
      "loss": 0.2993,
      "step": 77610
    },
    {
      "epoch": 206.98666666666668,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.00048705195184339513,
      "loss": 0.3104,
      "step": 77620
    },
    {
      "epoch": 207.0,
      "eval_loss": 0.3973553776741028,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 172.8842,
      "eval_samples_per_second": 0.093,
      "eval_steps_per_second": 0.006,
      "step": 77625
    },
    {
      "epoch": 207.01333333333332,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004870486229859192,
      "loss": 0.3015,
      "step": 77630
    },
    {
      "epoch": 207.04,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0004870452937119636,
      "loss": 0.3284,
      "step": 77640
    },
    {
      "epoch": 207.06666666666666,
      "grad_norm": 0.22265625,
      "learning_rate": 0.000487041964021534,
      "loss": 0.3131,
      "step": 77650
    },
    {
      "epoch": 207.09333333333333,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004870386339146363,
      "loss": 0.3088,
      "step": 77660
    },
    {
      "epoch": 207.12,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00048703530339127643,
      "loss": 0.306,
      "step": 77670
    },
    {
      "epoch": 207.14666666666668,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.00048703197245146014,
      "loss": 0.3061,
      "step": 77680
    },
    {
      "epoch": 207.17333333333335,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004870286410951934,
      "loss": 0.3068,
      "step": 77690
    },
    {
      "epoch": 207.2,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00048702530932248194,
      "loss": 0.2998,
      "step": 77700
    },
    {
      "epoch": 207.22666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00048702197713333174,
      "loss": 0.2946,
      "step": 77710
    },
    {
      "epoch": 207.25333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004870186445277486,
      "loss": 0.2946,
      "step": 77720
    },
    {
      "epoch": 207.28,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004870153115057383,
      "loss": 0.3115,
      "step": 77730
    },
    {
      "epoch": 207.30666666666667,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0004870119780673068,
      "loss": 0.2942,
      "step": 77740
    },
    {
      "epoch": 207.33333333333334,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.00048700864421245984,
      "loss": 0.3086,
      "step": 77750
    },
    {
      "epoch": 207.36,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0004870053099412034,
      "loss": 0.2993,
      "step": 77760
    },
    {
      "epoch": 207.38666666666666,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0004870019752535433,
      "loss": 0.2971,
      "step": 77770
    },
    {
      "epoch": 207.41333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.00048699864014948544,
      "loss": 0.3024,
      "step": 77780
    },
    {
      "epoch": 207.44,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00048699530462903553,
      "loss": 0.3102,
      "step": 77790
    },
    {
      "epoch": 207.46666666666667,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00048699196869219963,
      "loss": 0.3148,
      "step": 77800
    },
    {
      "epoch": 207.49333333333334,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0004869886323389834,
      "loss": 0.3039,
      "step": 77810
    },
    {
      "epoch": 207.52,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00048698529556939285,
      "loss": 0.308,
      "step": 77820
    },
    {
      "epoch": 207.54666666666665,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00048698195838343386,
      "loss": 0.2979,
      "step": 77830
    },
    {
      "epoch": 207.57333333333332,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0004869786207811121,
      "loss": 0.3013,
      "step": 77840
    },
    {
      "epoch": 207.6,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00048697528276243364,
      "loss": 0.2977,
      "step": 77850
    },
    {
      "epoch": 207.62666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.0004869719443274043,
      "loss": 0.2937,
      "step": 77860
    },
    {
      "epoch": 207.65333333333334,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00048696860547602983,
      "loss": 0.3061,
      "step": 77870
    },
    {
      "epoch": 207.68,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.00048696526620831625,
      "loss": 0.2947,
      "step": 77880
    },
    {
      "epoch": 207.70666666666668,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0004869619265242693,
      "loss": 0.2951,
      "step": 77890
    },
    {
      "epoch": 207.73333333333332,
      "grad_norm": 0.203125,
      "learning_rate": 0.00048695858642389497,
      "loss": 0.3106,
      "step": 77900
    },
    {
      "epoch": 207.76,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.00048695524590719897,
      "loss": 0.3115,
      "step": 77910
    },
    {
      "epoch": 207.78666666666666,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.00048695190497418734,
      "loss": 0.3126,
      "step": 77920
    },
    {
      "epoch": 207.81333333333333,
      "grad_norm": 0.21875,
      "learning_rate": 0.0004869485636248658,
      "loss": 0.2958,
      "step": 77930
    },
    {
      "epoch": 207.84,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0004869452218592404,
      "loss": 0.2957,
      "step": 77940
    },
    {
      "epoch": 207.86666666666667,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00048694187967731684,
      "loss": 0.2979,
      "step": 77950
    },
    {
      "epoch": 207.89333333333335,
      "grad_norm": 0.1796875,
      "learning_rate": 0.000486938537079101,
      "loss": 0.2969,
      "step": 77960
    },
    {
      "epoch": 207.92,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00048693519406459884,
      "loss": 0.2981,
      "step": 77970
    },
    {
      "epoch": 207.94666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004869318506338163,
      "loss": 0.3009,
      "step": 77980
    },
    {
      "epoch": 207.97333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00048692850678675907,
      "loss": 0.3078,
      "step": 77990
    },
    {
      "epoch": 208.0,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004869251625234331,
      "loss": 0.2967,
      "step": 78000
    },
    {
      "epoch": 208.0,
      "eval_loss": 0.39741426706314087,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 11.0394,
      "eval_samples_per_second": 1.449,
      "eval_steps_per_second": 0.091,
      "step": 78000
    },
    {
      "epoch": 208.02666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00048692181784384427,
      "loss": 0.3184,
      "step": 78010
    },
    {
      "epoch": 208.05333333333334,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0004869184727479985,
      "loss": 0.3251,
      "step": 78020
    },
    {
      "epoch": 208.08,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0004869151272359016,
      "loss": 0.3085,
      "step": 78030
    },
    {
      "epoch": 208.10666666666665,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0004869117813075595,
      "loss": 0.3109,
      "step": 78040
    },
    {
      "epoch": 208.13333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.000486908434962978,
      "loss": 0.3019,
      "step": 78050
    },
    {
      "epoch": 208.16,
      "grad_norm": 0.197265625,
      "learning_rate": 0.00048690508820216306,
      "loss": 0.3092,
      "step": 78060
    },
    {
      "epoch": 208.18666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.0004869017410251206,
      "loss": 0.3047,
      "step": 78070
    },
    {
      "epoch": 208.21333333333334,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.00048689839343185636,
      "loss": 0.2932,
      "step": 78080
    },
    {
      "epoch": 208.24,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0004868950454223763,
      "loss": 0.2973,
      "step": 78090
    },
    {
      "epoch": 208.26666666666668,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0004868916969966863,
      "loss": 0.3029,
      "step": 78100
    },
    {
      "epoch": 208.29333333333332,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0004868883481547923,
      "loss": 0.2992,
      "step": 78110
    },
    {
      "epoch": 208.32,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00048688499889670015,
      "loss": 0.3057,
      "step": 78120
    },
    {
      "epoch": 208.34666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0004868816492224156,
      "loss": 0.3047,
      "step": 78130
    },
    {
      "epoch": 208.37333333333333,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0004868782991319447,
      "loss": 0.2969,
      "step": 78140
    },
    {
      "epoch": 208.4,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00048687494862529327,
      "loss": 0.2981,
      "step": 78150
    },
    {
      "epoch": 208.42666666666668,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00048687159770246727,
      "loss": 0.3055,
      "step": 78160
    },
    {
      "epoch": 208.45333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0004868682463634724,
      "loss": 0.3147,
      "step": 78170
    },
    {
      "epoch": 208.48,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0004868648946083147,
      "loss": 0.3098,
      "step": 78180
    },
    {
      "epoch": 208.50666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0004868615424370001,
      "loss": 0.3062,
      "step": 78190
    },
    {
      "epoch": 208.53333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00048685818984953443,
      "loss": 0.3013,
      "step": 78200
    },
    {
      "epoch": 208.56,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00048685483684592356,
      "loss": 0.2982,
      "step": 78210
    },
    {
      "epoch": 208.58666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00048685148342617334,
      "loss": 0.3023,
      "step": 78220
    },
    {
      "epoch": 208.61333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0004868481295902898,
      "loss": 0.2941,
      "step": 78230
    },
    {
      "epoch": 208.64,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00048684477533827866,
      "loss": 0.2952,
      "step": 78240
    },
    {
      "epoch": 208.66666666666666,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0004868414206701459,
      "loss": 0.3104,
      "step": 78250
    },
    {
      "epoch": 208.69333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0004868380655858975,
      "loss": 0.2902,
      "step": 78260
    },
    {
      "epoch": 208.72,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0004868347100855392,
      "loss": 0.305,
      "step": 78270
    },
    {
      "epoch": 208.74666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000486831354169077,
      "loss": 0.3066,
      "step": 78280
    },
    {
      "epoch": 208.77333333333334,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00048682799783651676,
      "loss": 0.3174,
      "step": 78290
    },
    {
      "epoch": 208.8,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00048682464108786434,
      "loss": 0.3049,
      "step": 78300
    },
    {
      "epoch": 208.82666666666665,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00048682128392312575,
      "loss": 0.294,
      "step": 78310
    },
    {
      "epoch": 208.85333333333332,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0004868179263423067,
      "loss": 0.2972,
      "step": 78320
    },
    {
      "epoch": 208.88,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0004868145683454133,
      "loss": 0.2972,
      "step": 78330
    },
    {
      "epoch": 208.90666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00048681120993245133,
      "loss": 0.2989,
      "step": 78340
    },
    {
      "epoch": 208.93333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0004868078511034267,
      "loss": 0.2993,
      "step": 78350
    },
    {
      "epoch": 208.96,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0004868044918583453,
      "loss": 0.2984,
      "step": 78360
    },
    {
      "epoch": 208.98666666666668,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0004868011321972131,
      "loss": 0.3106,
      "step": 78370
    },
    {
      "epoch": 209.0,
      "eval_loss": 0.39941051602363586,
      "eval_model_preparation_time": 0.0029,
      "eval_runtime": 10.578,
      "eval_samples_per_second": 1.513,
      "eval_steps_per_second": 0.095,
      "step": 78375
    }
  ],
  "logging_steps": 10,
  "max_steps": 750000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2000,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}