{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 209.0,
  "eval_steps": 500,
  "global_step": 156750,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 25.25,
      "learning_rate": 5.399999999999999e-06,
      "loss": 1.2496,
      "step": 10
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 14.0,
      "learning_rate": 1.14e-05,
      "loss": 1.1719,
      "step": 20
    },
    {
      "epoch": 0.04,
      "grad_norm": 7.34375,
      "learning_rate": 1.74e-05,
      "loss": 1.1075,
      "step": 30
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 8.1875,
      "learning_rate": 2.34e-05,
      "loss": 1.0409,
      "step": 40
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 4.875,
      "learning_rate": 2.94e-05,
      "loss": 1.0041,
      "step": 50
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.953125,
      "learning_rate": 3.539999999999999e-05,
      "loss": 0.9492,
      "step": 60
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 1.4453125,
      "learning_rate": 4.14e-05,
      "loss": 0.8767,
      "step": 70
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.48828125,
      "learning_rate": 4.7399999999999993e-05,
      "loss": 0.783,
      "step": 80
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.453125,
      "learning_rate": 5.339999999999999e-05,
      "loss": 0.7554,
      "step": 90
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 1.3125,
      "learning_rate": 5.94e-05,
      "loss": 0.7656,
      "step": 100
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 1.2578125,
      "learning_rate": 6.539999999999999e-05,
      "loss": 0.7464,
      "step": 110
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8125,
      "learning_rate": 7.139999999999999e-05,
      "loss": 0.7297,
      "step": 120
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 1.8984375,
      "learning_rate": 7.74e-05,
      "loss": 0.6949,
      "step": 130
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 3.296875,
      "learning_rate": 8.34e-05,
      "loss": 0.6978,
      "step": 140
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.234375,
      "learning_rate": 8.939999999999999e-05,
      "loss": 0.7505,
      "step": 150
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.64453125,
      "learning_rate": 9.539999999999999e-05,
      "loss": 0.7417,
      "step": 160
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0001014,
      "loss": 0.7356,
      "step": 170
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.609375,
      "learning_rate": 0.00010739999999999998,
      "loss": 0.6873,
      "step": 180
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 5.6875,
      "learning_rate": 0.00011339999999999999,
      "loss": 0.6981,
      "step": 190
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 12.4375,
      "learning_rate": 0.0001194,
      "loss": 0.7243,
      "step": 200
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.015625,
      "learning_rate": 0.00012539999999999999,
      "loss": 0.6907,
      "step": 210
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001314,
      "loss": 0.6514,
      "step": 220
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0001374,
      "loss": 0.6636,
      "step": 230
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.390625,
      "learning_rate": 0.0001434,
      "loss": 0.6487,
      "step": 240
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001494,
      "loss": 0.6618,
      "step": 250
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 4.5625,
      "learning_rate": 0.00015539999999999998,
      "loss": 0.641,
      "step": 260
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.875,
      "learning_rate": 0.0001614,
      "loss": 0.6432,
      "step": 270
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 7.03125,
      "learning_rate": 0.0001674,
      "loss": 0.6469,
      "step": 280
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 3.0625,
      "learning_rate": 0.00017339999999999996,
      "loss": 0.6582,
      "step": 290
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.28125,
      "learning_rate": 0.00017939999999999997,
      "loss": 0.631,
      "step": 300
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 5.71875,
      "learning_rate": 0.00018539999999999998,
      "loss": 0.6446,
      "step": 310
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 4.15625,
      "learning_rate": 0.0001914,
      "loss": 0.6545,
      "step": 320
    },
    {
      "epoch": 0.44,
      "grad_norm": 5.0625,
      "learning_rate": 0.0001974,
      "loss": 0.6636,
      "step": 330
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 5.8125,
      "learning_rate": 0.00020339999999999998,
      "loss": 0.6508,
      "step": 340
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 5.03125,
      "learning_rate": 0.00020939999999999997,
      "loss": 0.6497,
      "step": 350
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.65625,
      "learning_rate": 0.00021539999999999998,
      "loss": 0.6261,
      "step": 360
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 3.671875,
      "learning_rate": 0.0002214,
      "loss": 0.6402,
      "step": 370
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 2.671875,
      "learning_rate": 0.00022739999999999997,
      "loss": 0.6382,
      "step": 380
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023339999999999998,
      "loss": 0.6261,
      "step": 390
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 2.359375,
      "learning_rate": 0.0002394,
      "loss": 0.6232,
      "step": 400
    },
    {
      "epoch": 0.5466666666666666,
      "grad_norm": 1.0703125,
      "learning_rate": 0.00024539999999999995,
      "loss": 0.6204,
      "step": 410
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.15625,
      "learning_rate": 0.0002514,
      "loss": 0.6031,
      "step": 420
    },
    {
      "epoch": 0.5733333333333334,
      "grad_norm": 3.84375,
      "learning_rate": 0.00025739999999999997,
      "loss": 0.6012,
      "step": 430
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 1.2109375,
      "learning_rate": 0.00026339999999999995,
      "loss": 0.5892,
      "step": 440
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.15625,
      "learning_rate": 0.0002694,
      "loss": 0.6029,
      "step": 450
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00027539999999999997,
      "loss": 0.5724,
      "step": 460
    },
    {
      "epoch": 0.6266666666666667,
      "grad_norm": 9.3125,
      "learning_rate": 0.00028139999999999996,
      "loss": 0.5692,
      "step": 470
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.78125,
      "learning_rate": 0.00028739999999999994,
      "loss": 0.6097,
      "step": 480
    },
    {
      "epoch": 0.6533333333333333,
      "grad_norm": 4.6875,
      "learning_rate": 0.0002934,
      "loss": 0.6122,
      "step": 490
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 2.5625,
      "learning_rate": 0.00029939999999999996,
      "loss": 0.5995,
      "step": 500
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1640625,
      "learning_rate": 0.0002999999999733343,
      "loss": 0.5743,
      "step": 510
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 6.65625,
      "learning_rate": 0.0002999999998811565,
      "loss": 0.5724,
      "step": 520
    },
    {
      "epoch": 0.7066666666666667,
      "grad_norm": 1.21875,
      "learning_rate": 0.0002999999997231375,
      "loss": 0.6099,
      "step": 530
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.53125,
      "learning_rate": 0.0002999999994992773,
      "loss": 0.6212,
      "step": 540
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00029999999920957577,
      "loss": 0.5886,
      "step": 550
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 0.265625,
      "learning_rate": 0.000299999998854033,
      "loss": 0.5844,
      "step": 560
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.000299999998432649,
      "loss": 0.5903,
      "step": 570
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002999999979454238,
      "loss": 0.5844,
      "step": 580
    },
    {
      "epoch": 0.7866666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029999999739235725,
      "loss": 0.5716,
      "step": 590
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029999999677344954,
      "loss": 0.5722,
      "step": 600
    },
    {
      "epoch": 0.8133333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002999999960887006,
      "loss": 0.541,
      "step": 610
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029999999533811034,
      "loss": 0.5601,
      "step": 620
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1015625,
      "learning_rate": 0.00029999999452167883,
      "loss": 0.5636,
      "step": 630
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002999999936394061,
      "loss": 0.5612,
      "step": 640
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 1.875,
      "learning_rate": 0.00029999999269129214,
      "loss": 0.5511,
      "step": 650
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8046875,
      "learning_rate": 0.0002999999916773369,
      "loss": 0.5304,
      "step": 660
    },
    {
      "epoch": 0.8933333333333333,
      "grad_norm": 1.1875,
      "learning_rate": 0.0002999999905975404,
      "loss": 0.5422,
      "step": 670
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 1.1171875,
      "learning_rate": 0.0002999999894519027,
      "loss": 0.5513,
      "step": 680
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.015625,
      "learning_rate": 0.00029999998824042375,
      "loss": 0.5587,
      "step": 690
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00029999998696310354,
      "loss": 0.5388,
      "step": 700
    },
    {
      "epoch": 0.9466666666666667,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002999999856199421,
      "loss": 0.5361,
      "step": 710
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.46875,
      "learning_rate": 0.00029999998421093943,
      "loss": 0.5386,
      "step": 720
    },
    {
      "epoch": 0.9733333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002999999827360955,
      "loss": 0.5517,
      "step": 730
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999999811954103,
      "loss": 0.5371,
      "step": 740
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029999997958888387,
      "loss": 0.5261,
      "step": 750
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.5584771633148193,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1605,
      "eval_samples_per_second": 1.575,
      "eval_steps_per_second": 0.098,
      "step": 750
    },
    {
      "epoch": 1.0133333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002999999779165162,
      "loss": 0.5409,
      "step": 760
    },
    {
      "epoch": 1.0266666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002999999761783073,
      "loss": 0.5476,
      "step": 770
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002999999743742572,
      "loss": 0.5587,
      "step": 780
    },
    {
      "epoch": 1.0533333333333332,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999999725043658,
      "loss": 0.5515,
      "step": 790
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 1.0546875,
      "learning_rate": 0.0002999999705686332,
      "loss": 0.5376,
      "step": 800
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002999999685670593,
      "loss": 0.5478,
      "step": 810
    },
    {
      "epoch": 1.0933333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.00029999996649964427,
      "loss": 0.5361,
      "step": 820
    },
    {
      "epoch": 1.1066666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999999643663879,
      "loss": 0.5197,
      "step": 830
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029999996216729035,
      "loss": 0.5358,
      "step": 840
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002999999599023516,
      "loss": 0.528,
      "step": 850
    },
    {
      "epoch": 1.1466666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002999999575715716,
      "loss": 0.5464,
      "step": 860
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999999551749503,
      "loss": 0.5325,
      "step": 870
    },
    {
      "epoch": 1.1733333333333333,
      "grad_norm": 1.0078125,
      "learning_rate": 0.00029999995271248785,
      "loss": 0.5173,
      "step": 880
    },
    {
      "epoch": 1.1866666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999999501841841,
      "loss": 0.5204,
      "step": 890
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999999475900392,
      "loss": 0.5236,
      "step": 900
    },
    {
      "epoch": 1.2133333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999994493005305,
      "loss": 0.5234,
      "step": 910
    },
    {
      "epoch": 1.2266666666666666,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999999422042256,
      "loss": 0.5349,
      "step": 920
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029999993941255703,
      "loss": 0.5083,
      "step": 930
    },
    {
      "epoch": 1.2533333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029999993655504723,
      "loss": 0.5136,
      "step": 940
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002999999336316961,
      "loss": 0.5062,
      "step": 950
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002999999306425039,
      "loss": 0.5413,
      "step": 960
    },
    {
      "epoch": 1.2933333333333334,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999999275874704,
      "loss": 0.495,
      "step": 970
    },
    {
      "epoch": 1.3066666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002999999244665956,
      "loss": 0.5197,
      "step": 980
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002999999212798797,
      "loss": 0.5193,
      "step": 990
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002999999180273226,
      "loss": 0.5317,
      "step": 1000
    },
    {
      "epoch": 1.3466666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029999991470892423,
      "loss": 0.5172,
      "step": 1010
    },
    {
      "epoch": 1.3599999999999999,
      "grad_norm": 2.109375,
      "learning_rate": 0.0002999999113246847,
      "loss": 0.5282,
      "step": 1020
    },
    {
      "epoch": 1.3733333333333333,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029999990787460385,
      "loss": 0.5221,
      "step": 1030
    },
    {
      "epoch": 1.3866666666666667,
      "grad_norm": 1.390625,
      "learning_rate": 0.00029999990435868187,
      "loss": 0.5156,
      "step": 1040
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029999990077691867,
      "loss": 0.5133,
      "step": 1050
    },
    {
      "epoch": 1.4133333333333333,
      "grad_norm": 0.734375,
      "learning_rate": 0.00029999989712931426,
      "loss": 0.5193,
      "step": 1060
    },
    {
      "epoch": 1.4266666666666667,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029999989341586864,
      "loss": 0.5195,
      "step": 1070
    },
    {
      "epoch": 1.44,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00029999988963658186,
      "loss": 0.5319,
      "step": 1080
    },
    {
      "epoch": 1.4533333333333334,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002999998857914538,
      "loss": 0.5229,
      "step": 1090
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999998818804846,
      "loss": 0.5289,
      "step": 1100
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002999998779036742,
      "loss": 0.506,
      "step": 1110
    },
    {
      "epoch": 1.4933333333333334,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002999998738610226,
      "loss": 0.5233,
      "step": 1120
    },
    {
      "epoch": 1.5066666666666668,
      "grad_norm": 0.19140625,
      "learning_rate": 0.00029999986975252983,
      "loss": 0.5137,
      "step": 1130
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00029999986557819583,
      "loss": 0.5036,
      "step": 1140
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0002999998613380206,
      "loss": 0.5096,
      "step": 1150
    },
    {
      "epoch": 1.5466666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029999985703200424,
      "loss": 0.5144,
      "step": 1160
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999998526601467,
      "loss": 0.5008,
      "step": 1170
    },
    {
      "epoch": 1.5733333333333333,
      "grad_norm": 0.1875,
      "learning_rate": 0.00029999984822244797,
      "loss": 0.5024,
      "step": 1180
    },
    {
      "epoch": 1.5866666666666667,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.00029999984371890807,
      "loss": 0.4929,
      "step": 1190
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.00029999983914952695,
      "loss": 0.5025,
      "step": 1200
    },
    {
      "epoch": 1.6133333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002999998345143046,
      "loss": 0.4761,
      "step": 1210
    },
    {
      "epoch": 1.6266666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029999982981324114,
      "loss": 0.4786,
      "step": 1220
    },
    {
      "epoch": 1.6400000000000001,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00029999982504633655,
      "loss": 0.4986,
      "step": 1230
    },
    {
      "epoch": 1.6533333333333333,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00029999982021359074,
      "loss": 0.5119,
      "step": 1240
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00029999981531500373,
      "loss": 0.4969,
      "step": 1250
    },
    {
      "epoch": 1.6800000000000002,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002999998103505756,
      "loss": 0.486,
      "step": 1260
    },
    {
      "epoch": 1.6933333333333334,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0002999998053203063,
      "loss": 0.4946,
      "step": 1270
    },
    {
      "epoch": 1.7066666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002999998002241958,
      "loss": 0.4939,
      "step": 1280
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00029999979506224413,
      "loss": 0.5151,
      "step": 1290
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999997898344513,
      "loss": 0.5053,
      "step": 1300
    },
    {
      "epoch": 1.7466666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0002999997845408174,
      "loss": 0.5095,
      "step": 1310
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002999997791813423,
      "loss": 0.521,
      "step": 1320
    },
    {
      "epoch": 1.7733333333333334,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000299999773756026,
      "loss": 0.5146,
      "step": 1330
    },
    {
      "epoch": 1.7866666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002999997682648686,
      "loss": 0.5059,
      "step": 1340
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029999976270787,
      "loss": 0.509,
      "step": 1350
    },
    {
      "epoch": 1.8133333333333335,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002999997570850303,
      "loss": 0.4794,
      "step": 1360
    },
    {
      "epoch": 1.8266666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999997513963495,
      "loss": 0.4966,
      "step": 1370
    },
    {
      "epoch": 1.8399999999999999,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00029999974564182754,
      "loss": 0.5099,
      "step": 1380
    },
    {
      "epoch": 1.8533333333333335,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029999973982146436,
      "loss": 0.5028,
      "step": 1390
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002999997339352601,
      "loss": 0.4996,
      "step": 1400
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999997279832147,
      "loss": 0.4762,
      "step": 1410
    },
    {
      "epoch": 1.8933333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.00029999972196532814,
      "loss": 0.4862,
      "step": 1420
    },
    {
      "epoch": 1.9066666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002999997158816005,
      "loss": 0.4976,
      "step": 1430
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029999970973203173,
      "loss": 0.501,
      "step": 1440
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999997035166218,
      "loss": 0.491,
      "step": 1450
    },
    {
      "epoch": 1.9466666666666668,
      "grad_norm": 0.134765625,
      "learning_rate": 0.0002999996972353708,
      "loss": 0.4914,
      "step": 1460
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0002999996908882787,
      "loss": 0.4896,
      "step": 1470
    },
    {
      "epoch": 1.9733333333333334,
      "grad_norm": 0.158203125,
      "learning_rate": 0.00029999968447534545,
      "loss": 0.5119,
      "step": 1480
    },
    {
      "epoch": 1.9866666666666668,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00029999967799657106,
      "loss": 0.4934,
      "step": 1490
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.00029999967145195557,
      "loss": 0.485,
      "step": 1500
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.507718026638031,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6932,
      "eval_samples_per_second": 1.651,
      "eval_steps_per_second": 0.103,
      "step": 1500
    },
    {
      "epoch": 2.013333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.00029999966484149903,
      "loss": 0.5033,
      "step": 1510
    },
    {
      "epoch": 2.026666666666667,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002999996581652013,
      "loss": 0.5092,
      "step": 1520
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.00029999965142306253,
      "loss": 0.5238,
      "step": 1530
    },
    {
      "epoch": 2.0533333333333332,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002999996446150827,
      "loss": 0.5123,
      "step": 1540
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0002999996377412617,
      "loss": 0.5027,
      "step": 1550
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00029999963080159966,
      "loss": 0.5084,
      "step": 1560
    },
    {
      "epoch": 2.0933333333333333,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002999996237960965,
      "loss": 0.5034,
      "step": 1570
    },
    {
      "epoch": 2.1066666666666665,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0002999996167247522,
      "loss": 0.4871,
      "step": 1580
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.16015625,
      "learning_rate": 0.0002999996095875669,
      "loss": 0.4973,
      "step": 1590
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029999960238454054,
      "loss": 0.4929,
      "step": 1600
    },
    {
      "epoch": 2.1466666666666665,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002999995951156731,
      "loss": 0.5105,
      "step": 1610
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00029999958778096454,
      "loss": 0.4998,
      "step": 1620
    },
    {
      "epoch": 2.1733333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029999958038041496,
      "loss": 0.4867,
      "step": 1630
    },
    {
      "epoch": 2.1866666666666665,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029999957291402423,
      "loss": 0.4904,
      "step": 1640
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00029999956538179256,
      "loss": 0.4896,
      "step": 1650
    },
    {
      "epoch": 2.2133333333333334,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999995577837197,
      "loss": 0.4899,
      "step": 1660
    },
    {
      "epoch": 2.2266666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999995501198059,
      "loss": 0.5026,
      "step": 1670
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1875,
      "learning_rate": 0.00029999954239005096,
      "loss": 0.4792,
      "step": 1680
    },
    {
      "epoch": 2.2533333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999995345944551,
      "loss": 0.4859,
      "step": 1690
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00029999952673301805,
      "loss": 0.4809,
      "step": 1700
    },
    {
      "epoch": 2.2800000000000002,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.00029999951880574,
      "loss": 0.5146,
      "step": 1710
    },
    {
      "epoch": 2.2933333333333334,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029999951081262095,
      "loss": 0.4693,
      "step": 1720
    },
    {
      "epoch": 2.3066666666666666,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002999995027536608,
      "loss": 0.4947,
      "step": 1730
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999994946288597,
      "loss": 0.4929,
      "step": 1740
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 0.1611328125,
      "learning_rate": 0.0002999994864382175,
      "loss": 0.5044,
      "step": 1750
    },
    {
      "epoch": 2.3466666666666667,
      "grad_norm": 0.158203125,
      "learning_rate": 0.00029999947818173435,
      "loss": 0.4911,
      "step": 1760
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002999994698594101,
      "loss": 0.5002,
      "step": 1770
    },
    {
      "epoch": 2.3733333333333335,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002999994614712449,
      "loss": 0.491,
      "step": 1780
    },
    {
      "epoch": 2.3866666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00029999945301723864,
      "loss": 0.4881,
      "step": 1790
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002999994444973914,
      "loss": 0.4898,
      "step": 1800
    },
    {
      "epoch": 2.413333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999994359117031,
      "loss": 0.4958,
      "step": 1810
    },
    {
      "epoch": 2.4266666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00029999942726017387,
      "loss": 0.4957,
      "step": 1820
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.25,
      "learning_rate": 0.00029999941854280367,
      "loss": 0.5059,
      "step": 1830
    },
    {
      "epoch": 2.453333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029999940975959237,
      "loss": 0.4971,
      "step": 1840
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.00029999940091054013,
      "loss": 0.5071,
      "step": 1850
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002999993919956469,
      "loss": 0.4864,
      "step": 1860
    },
    {
      "epoch": 2.493333333333333,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002999993830149127,
      "loss": 0.5028,
      "step": 1870
    },
    {
      "epoch": 2.506666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0002999993739683375,
      "loss": 0.4909,
      "step": 1880
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00029999936485592137,
      "loss": 0.4818,
      "step": 1890
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0002999993556776642,
      "loss": 0.4863,
      "step": 1900
    },
    {
      "epoch": 2.546666666666667,
      "grad_norm": 0.1767578125,
      "learning_rate": 0.0002999993464335661,
      "loss": 0.4921,
      "step": 1910
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029999933712362704,
      "loss": 0.4809,
      "step": 1920
    },
    {
      "epoch": 2.5733333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029999932774784705,
      "loss": 0.482,
      "step": 1930
    },
    {
      "epoch": 2.586666666666667,
      "grad_norm": 0.201171875,
      "learning_rate": 0.000299999318306226,
      "loss": 0.471,
      "step": 1940
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.00029999930879876413,
      "loss": 0.4814,
      "step": 1950
    },
    {
      "epoch": 2.6133333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.00029999929922546126,
      "loss": 0.456,
      "step": 1960
    },
    {
      "epoch": 2.626666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029999928958631745,
      "loss": 0.4603,
      "step": 1970
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999992798813327,
      "loss": 0.4804,
      "step": 1980
    },
    {
      "epoch": 2.6533333333333333,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.000299999270110507,
      "loss": 0.492,
      "step": 1990
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029999926027384036,
      "loss": 0.4773,
      "step": 2000
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999925037133284,
      "loss": 0.4672,
      "step": 2010
    },
    {
      "epoch": 2.6933333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029999924040298437,
      "loss": 0.4775,
      "step": 2020
    },
    {
      "epoch": 2.7066666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029999923036879496,
      "loss": 0.4745,
      "step": 2030
    },
    {
      "epoch": 2.7199999999999998,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029999922026876467,
      "loss": 0.4944,
      "step": 2040
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999992101028935,
      "loss": 0.4885,
      "step": 2050
    },
    {
      "epoch": 2.7466666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029999919987118136,
      "loss": 0.4914,
      "step": 2060
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.1806640625,
      "learning_rate": 0.0002999991895736284,
      "loss": 0.5025,
      "step": 2070
    },
    {
      "epoch": 2.7733333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0002999991792102345,
      "loss": 0.496,
      "step": 2080
    },
    {
      "epoch": 2.7866666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002999991687809997,
      "loss": 0.4885,
      "step": 2090
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.181640625,
      "learning_rate": 0.0002999991582859241,
      "loss": 0.4899,
      "step": 2100
    },
    {
      "epoch": 2.8133333333333335,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029999914772500753,
      "loss": 0.4605,
      "step": 2110
    },
    {
      "epoch": 2.8266666666666667,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002999991370982501,
      "loss": 0.4763,
      "step": 2120
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002999991264056518,
      "loss": 0.4928,
      "step": 2130
    },
    {
      "epoch": 2.8533333333333335,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00029999911564721263,
      "loss": 0.4864,
      "step": 2140
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999991048229326,
      "loss": 0.4837,
      "step": 2150
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.1796875,
      "learning_rate": 0.00029999909393281174,
      "loss": 0.461,
      "step": 2160
    },
    {
      "epoch": 2.8933333333333335,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029999908297685,
      "loss": 0.4708,
      "step": 2170
    },
    {
      "epoch": 2.9066666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999990719550474,
      "loss": 0.4823,
      "step": 2180
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.515625,
      "learning_rate": 0.000299999060867404,
      "loss": 0.4828,
      "step": 2190
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029999904971391973,
      "loss": 0.4744,
      "step": 2200
    },
    {
      "epoch": 2.9466666666666668,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999990384945947,
      "loss": 0.4765,
      "step": 2210
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.00029999902720942873,
      "loss": 0.4745,
      "step": 2220
    },
    {
      "epoch": 2.9733333333333336,
      "grad_norm": 0.50390625,
      "learning_rate": 0.000299999015858422,
      "loss": 0.4967,
      "step": 2230
    },
    {
      "epoch": 2.986666666666667,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00029999900444157445,
      "loss": 0.4783,
      "step": 2240
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002999989929588861,
      "loss": 0.4701,
      "step": 2250
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.4911285936832428,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8653,
      "eval_samples_per_second": 1.622,
      "eval_steps_per_second": 0.101,
      "step": 2250
    },
    {
      "epoch": 3.013333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.00029999898141035695,
      "loss": 0.4875,
      "step": 2260
    },
    {
      "epoch": 3.026666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00029999896979598695,
      "loss": 0.4951,
      "step": 2270
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029999895811577617,
      "loss": 0.509,
      "step": 2280
    },
    {
      "epoch": 3.0533333333333332,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002999989463697246,
      "loss": 0.4968,
      "step": 2290
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029999893455783227,
      "loss": 0.486,
      "step": 2300
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999989226800991,
      "loss": 0.4902,
      "step": 2310
    },
    {
      "epoch": 3.0933333333333333,
      "grad_norm": 0.1796875,
      "learning_rate": 0.0002999989107365252,
      "loss": 0.4873,
      "step": 2320
    },
    {
      "epoch": 3.1066666666666665,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0002999988987271105,
      "loss": 0.4735,
      "step": 2330
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.0002999988866518551,
      "loss": 0.4815,
      "step": 2340
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002999988745107589,
      "loss": 0.4778,
      "step": 2350
    },
    {
      "epoch": 3.1466666666666665,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.00029999886230382193,
      "loss": 0.4949,
      "step": 2360
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.1787109375,
      "learning_rate": 0.0002999988500310442,
      "loss": 0.4852,
      "step": 2370
    },
    {
      "epoch": 3.1733333333333333,
      "grad_norm": 0.15625,
      "learning_rate": 0.00029999883769242573,
      "loss": 0.473,
      "step": 2380
    },
    {
      "epoch": 3.1866666666666665,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029999882528796654,
      "loss": 0.4765,
      "step": 2390
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.0002999988128176666,
      "loss": 0.4729,
      "step": 2400
    },
    {
      "epoch": 3.2133333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029999880028152594,
      "loss": 0.4751,
      "step": 2410
    },
    {
      "epoch": 3.2266666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999987876795445,
      "loss": 0.4878,
      "step": 2420
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.25,
      "learning_rate": 0.00029999877501172244,
      "loss": 0.4667,
      "step": 2430
    },
    {
      "epoch": 3.2533333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002999987622780596,
      "loss": 0.4716,
      "step": 2440
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0002999987494785561,
      "loss": 0.4681,
      "step": 2450
    },
    {
      "epoch": 3.2800000000000002,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999987366132119,
      "loss": 0.5011,
      "step": 2460
    },
    {
      "epoch": 3.2933333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000299998723682027,
      "loss": 0.4569,
      "step": 2470
    },
    {
      "epoch": 3.3066666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029999871068500135,
      "loss": 0.4796,
      "step": 2480
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.0002999986976221351,
      "loss": 0.4802,
      "step": 2490
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002999986844934281,
      "loss": 0.4893,
      "step": 2500
    },
    {
      "epoch": 3.3466666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029999867129888047,
      "loss": 0.4791,
      "step": 2510
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002999986580384922,
      "loss": 0.4868,
      "step": 2520
    },
    {
      "epoch": 3.3733333333333335,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.00029999864471226323,
      "loss": 0.4775,
      "step": 2530
    },
    {
      "epoch": 3.3866666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002999986313201936,
      "loss": 0.4752,
      "step": 2540
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999986178622833,
      "loss": 0.4767,
      "step": 2550
    },
    {
      "epoch": 3.413333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002999986043385324,
      "loss": 0.4828,
      "step": 2560
    },
    {
      "epoch": 3.4266666666666667,
      "grad_norm": 0.150390625,
      "learning_rate": 0.00029999859074894086,
      "loss": 0.483,
      "step": 2570
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999857709350866,
      "loss": 0.4924,
      "step": 2580
    },
    {
      "epoch": 3.453333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002999985633722359,
      "loss": 0.4848,
      "step": 2590
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999985495851224,
      "loss": 0.4962,
      "step": 2600
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00029999853573216837,
      "loss": 0.4746,
      "step": 2610
    },
    {
      "epoch": 3.493333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.00029999852181337376,
      "loss": 0.4899,
      "step": 2620
    },
    {
      "epoch": 3.506666666666667,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00029999850782873853,
      "loss": 0.4799,
      "step": 2630
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1396484375,
      "learning_rate": 0.0002999984937782627,
      "loss": 0.4696,
      "step": 2640
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002999984796619463,
      "loss": 0.4766,
      "step": 2650
    },
    {
      "epoch": 3.546666666666667,
      "grad_norm": 0.1533203125,
      "learning_rate": 0.00029999846547978926,
      "loss": 0.4797,
      "step": 2660
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002999984512317917,
      "loss": 0.4686,
      "step": 2670
    },
    {
      "epoch": 3.5733333333333333,
      "grad_norm": 0.13671875,
      "learning_rate": 0.00029999843691795353,
      "loss": 0.4709,
      "step": 2680
    },
    {
      "epoch": 3.586666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999984225382748,
      "loss": 0.4609,
      "step": 2690
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002999984080927555,
      "loss": 0.4696,
      "step": 2700
    },
    {
      "epoch": 3.6133333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002999983935813957,
      "loss": 0.4454,
      "step": 2710
    },
    {
      "epoch": 3.626666666666667,
      "grad_norm": 0.150390625,
      "learning_rate": 0.0002999983790041953,
      "loss": 0.4504,
      "step": 2720
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.1513671875,
      "learning_rate": 0.0002999983643611544,
      "loss": 0.4701,
      "step": 2730
    },
    {
      "epoch": 3.6533333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00029999834965227295,
      "loss": 0.4812,
      "step": 2740
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000299998334877551,
      "loss": 0.4652,
      "step": 2750
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00029999832003698855,
      "loss": 0.458,
      "step": 2760
    },
    {
      "epoch": 3.6933333333333334,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999983051305855,
      "loss": 0.4668,
      "step": 2770
    },
    {
      "epoch": 3.7066666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 0.000299998290158342,
      "loss": 0.4616,
      "step": 2780
    },
    {
      "epoch": 3.7199999999999998,
      "grad_norm": 0.5078125,
      "learning_rate": 0.000299998275120258,
      "loss": 0.4844,
      "step": 2790
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 0.162109375,
      "learning_rate": 0.00029999826001633355,
      "loss": 0.479,
      "step": 2800
    },
    {
      "epoch": 3.7466666666666666,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0002999982448465685,
      "loss": 0.4798,
      "step": 2810
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.208984375,
      "learning_rate": 0.00029999822961096305,
      "loss": 0.492,
      "step": 2820
    },
    {
      "epoch": 3.7733333333333334,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999982143095172,
      "loss": 0.4848,
      "step": 2830
    },
    {
      "epoch": 3.7866666666666666,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002999981989422308,
      "loss": 0.4785,
      "step": 2840
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0002999981835091039,
      "loss": 0.4795,
      "step": 2850
    },
    {
      "epoch": 3.8133333333333335,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002999981680101366,
      "loss": 0.4515,
      "step": 2860
    },
    {
      "epoch": 3.8266666666666667,
      "grad_norm": 0.1484375,
      "learning_rate": 0.00029999815244532887,
      "loss": 0.4663,
      "step": 2870
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999981368146807,
      "loss": 0.4807,
      "step": 2880
    },
    {
      "epoch": 3.8533333333333335,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.000299998121118192,
      "loss": 0.4757,
      "step": 2890
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.171875,
      "learning_rate": 0.000299998105355863,
      "loss": 0.4742,
      "step": 2900
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002999980895276935,
      "loss": 0.4503,
      "step": 2910
    },
    {
      "epoch": 3.8933333333333335,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999980736336836,
      "loss": 0.4615,
      "step": 2920
    },
    {
      "epoch": 3.9066666666666667,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.00029999805767383337,
      "loss": 0.472,
      "step": 2930
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002999980416481427,
      "loss": 0.4736,
      "step": 2940
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.0002999980255566116,
      "loss": 0.4639,
      "step": 2950
    },
    {
      "epoch": 3.9466666666666668,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029999800939924017,
      "loss": 0.4662,
      "step": 2960
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.1357421875,
      "learning_rate": 0.0002999979931760284,
      "loss": 0.4641,
      "step": 2970
    },
    {
      "epoch": 3.9733333333333336,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.00029999797688697613,
      "loss": 0.4844,
      "step": 2980
    },
    {
      "epoch": 3.986666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999979605320836,
      "loss": 0.4671,
      "step": 2990
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002999979441113507,
      "loss": 0.4595,
      "step": 3000
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.4804916977882385,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.881,
      "eval_samples_per_second": 1.619,
      "eval_steps_per_second": 0.101,
      "step": 3000
    },
    {
      "epoch": 4.013333333333334,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029999792762477743,
      "loss": 0.4778,
      "step": 3010
    },
    {
      "epoch": 4.026666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029999791107236385,
      "loss": 0.4855,
      "step": 3020
    },
    {
      "epoch": 4.04,
      "grad_norm": 0.166015625,
      "learning_rate": 0.0002999978944541099,
      "loss": 0.5006,
      "step": 3030
    },
    {
      "epoch": 4.053333333333334,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0002999978777700156,
      "loss": 0.4881,
      "step": 3040
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029999786102008106,
      "loss": 0.4757,
      "step": 3050
    },
    {
      "epoch": 4.08,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999978442043062,
      "loss": 0.4794,
      "step": 3060
    },
    {
      "epoch": 4.093333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.000299997827322691,
      "loss": 0.4756,
      "step": 3070
    },
    {
      "epoch": 4.1066666666666665,
      "grad_norm": 0.16796875,
      "learning_rate": 0.00029999781037523554,
      "loss": 0.4651,
      "step": 3080
    },
    {
      "epoch": 4.12,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029999779336193976,
      "loss": 0.4726,
      "step": 3090
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002999977762828037,
      "loss": 0.4687,
      "step": 3100
    },
    {
      "epoch": 4.1466666666666665,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029999775913782734,
      "loss": 0.487,
      "step": 3110
    },
    {
      "epoch": 4.16,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999977419270108,
      "loss": 0.4759,
      "step": 3120
    },
    {
      "epoch": 4.173333333333334,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999977246503539,
      "loss": 0.4638,
      "step": 3130
    },
    {
      "epoch": 4.1866666666666665,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029999770730785685,
      "loss": 0.4684,
      "step": 3140
    },
    {
      "epoch": 4.2,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002999976898995195,
      "loss": 0.4636,
      "step": 3150
    },
    {
      "epoch": 4.213333333333333,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002999976724253419,
      "loss": 0.4654,
      "step": 3160
    },
    {
      "epoch": 4.226666666666667,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002999976548853241,
      "loss": 0.4771,
      "step": 3170
    },
    {
      "epoch": 4.24,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002999976372794661,
      "loss": 0.4569,
      "step": 3180
    },
    {
      "epoch": 4.253333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.00029999761960776785,
      "loss": 0.4633,
      "step": 3190
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.158203125,
      "learning_rate": 0.0002999976018702294,
      "loss": 0.4601,
      "step": 3200
    },
    {
      "epoch": 4.28,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.00029999758406685075,
      "loss": 0.4916,
      "step": 3210
    },
    {
      "epoch": 4.293333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.00029999756619763195,
      "loss": 0.4493,
      "step": 3220
    },
    {
      "epoch": 4.306666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0002999975482625729,
      "loss": 0.4722,
      "step": 3230
    },
    {
      "epoch": 4.32,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00029999753026167374,
      "loss": 0.473,
      "step": 3240
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029999751219493434,
      "loss": 0.4813,
      "step": 3250
    },
    {
      "epoch": 4.346666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029999749406235486,
      "loss": 0.4701,
      "step": 3260
    },
    {
      "epoch": 4.36,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002999974758639352,
      "loss": 0.4783,
      "step": 3270
    },
    {
      "epoch": 4.373333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002999974575996754,
      "loss": 0.4691,
      "step": 3280
    },
    {
      "epoch": 4.386666666666667,
      "grad_norm": 0.17578125,
      "learning_rate": 0.00029999743926957545,
      "loss": 0.468,
      "step": 3290
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029999742087363546,
      "loss": 0.4688,
      "step": 3300
    },
    {
      "epoch": 4.413333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0002999974024118553,
      "loss": 0.4758,
      "step": 3310
    },
    {
      "epoch": 4.426666666666667,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00029999738388423493,
      "loss": 0.4746,
      "step": 3320
    },
    {
      "epoch": 4.44,
      "grad_norm": 0.1474609375,
      "learning_rate": 0.0002999973652907746,
      "loss": 0.4843,
      "step": 3330
    },
    {
      "epoch": 4.453333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002999973466314741,
      "loss": 0.4772,
      "step": 3340
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 0.1884765625,
      "learning_rate": 0.0002999973279063335,
      "loss": 0.4878,
      "step": 3350
    },
    {
      "epoch": 4.48,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.00029999730911535287,
      "loss": 0.4662,
      "step": 3360
    },
    {
      "epoch": 4.493333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.00029999729025853214,
      "loss": 0.4819,
      "step": 3370
    },
    {
      "epoch": 4.506666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.0002999972713358714,
      "loss": 0.4712,
      "step": 3380
    },
    {
      "epoch": 4.52,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.0002999972523473706,
      "loss": 0.4624,
      "step": 3390
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.00029999723329302973,
      "loss": 0.4684,
      "step": 3400
    },
    {
      "epoch": 4.546666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999972141728488,
      "loss": 0.4707,
      "step": 3410
    },
    {
      "epoch": 4.5600000000000005,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999971949868279,
      "loss": 0.4611,
      "step": 3420
    },
    {
      "epoch": 4.573333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002999971757349669,
      "loss": 0.4635,
      "step": 3430
    },
    {
      "epoch": 4.586666666666667,
      "grad_norm": 0.13671875,
      "learning_rate": 0.000299997156417266,
      "loss": 0.454,
      "step": 3440
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.00029999713703372506,
      "loss": 0.4622,
      "step": 3450
    },
    {
      "epoch": 4.613333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.0002999971175843441,
      "loss": 0.4402,
      "step": 3460
    },
    {
      "epoch": 4.626666666666667,
      "grad_norm": 0.162109375,
      "learning_rate": 0.00029999709806912317,
      "loss": 0.444,
      "step": 3470
    },
    {
      "epoch": 4.64,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999970784880623,
      "loss": 0.4631,
      "step": 3480
    },
    {
      "epoch": 4.653333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029999705884116136,
      "loss": 0.4735,
      "step": 3490
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029999703912842054,
      "loss": 0.4583,
      "step": 3500
    },
    {
      "epoch": 4.68,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00029999701934983975,
      "loss": 0.4503,
      "step": 3510
    },
    {
      "epoch": 4.693333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00029999699950541904,
      "loss": 0.4603,
      "step": 3520
    },
    {
      "epoch": 4.706666666666667,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999969795951584,
      "loss": 0.4546,
      "step": 3530
    },
    {
      "epoch": 4.72,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999969596190578,
      "loss": 0.477,
      "step": 3540
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999969395771173,
      "loss": 0.4727,
      "step": 3550
    },
    {
      "epoch": 4.746666666666667,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002999969194693369,
      "loss": 0.4711,
      "step": 3560
    },
    {
      "epoch": 4.76,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002999968992957166,
      "loss": 0.4837,
      "step": 3570
    },
    {
      "epoch": 4.773333333333333,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002999968790562564,
      "loss": 0.478,
      "step": 3580
    },
    {
      "epoch": 4.786666666666667,
      "grad_norm": 0.1640625,
      "learning_rate": 0.0002999968587509564,
      "loss": 0.4714,
      "step": 3590
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.1708984375,
      "learning_rate": 0.0002999968383798164,
      "loss": 0.4723,
      "step": 3600
    },
    {
      "epoch": 4.8133333333333335,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00029999681794283664,
      "loss": 0.444,
      "step": 3610
    },
    {
      "epoch": 4.826666666666666,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.000299996797440017,
      "loss": 0.4593,
      "step": 3620
    },
    {
      "epoch": 4.84,
      "grad_norm": 0.22265625,
      "learning_rate": 0.00029999677687135747,
      "loss": 0.4742,
      "step": 3630
    },
    {
      "epoch": 4.8533333333333335,
      "grad_norm": 0.1630859375,
      "learning_rate": 0.0002999967562368581,
      "loss": 0.4691,
      "step": 3640
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 0.00029999673553651897,
      "loss": 0.4677,
      "step": 3650
    },
    {
      "epoch": 4.88,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029999671477034,
      "loss": 0.4445,
      "step": 3660
    },
    {
      "epoch": 4.8933333333333335,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999966939383212,
      "loss": 0.4556,
      "step": 3670
    },
    {
      "epoch": 4.906666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029999667304046263,
      "loss": 0.4657,
      "step": 3680
    },
    {
      "epoch": 4.92,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029999665207676424,
      "loss": 0.4654,
      "step": 3690
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.1826171875,
      "learning_rate": 0.0002999966310472261,
      "loss": 0.4573,
      "step": 3700
    },
    {
      "epoch": 4.946666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.00029999660995184816,
      "loss": 0.4604,
      "step": 3710
    },
    {
      "epoch": 4.96,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999965887906305,
      "loss": 0.458,
      "step": 3720
    },
    {
      "epoch": 4.973333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999965675635731,
      "loss": 0.4794,
      "step": 3730
    },
    {
      "epoch": 4.986666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.0002999965462706759,
      "loss": 0.4623,
      "step": 3740
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000299996524911939,
      "loss": 0.453,
      "step": 3750
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.4764450192451477,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0966,
      "eval_samples_per_second": 1.585,
      "eval_steps_per_second": 0.099,
      "step": 3750
    },
    {
      "epoch": 5.013333333333334,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.00029999650348736234,
      "loss": 0.4719,
      "step": 3760
    },
    {
      "epoch": 5.026666666666666,
      "grad_norm": 0.189453125,
      "learning_rate": 0.000299996481996946,
      "loss": 0.4812,
      "step": 3770
    },
    {
      "epoch": 5.04,
      "grad_norm": 0.1689453125,
      "learning_rate": 0.00029999646044068994,
      "loss": 0.4937,
      "step": 3780
    },
    {
      "epoch": 5.053333333333334,
      "grad_norm": 0.1376953125,
      "learning_rate": 0.0002999964388185942,
      "loss": 0.4808,
      "step": 3790
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029999641713065876,
      "loss": 0.4696,
      "step": 3800
    },
    {
      "epoch": 5.08,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029999639537688365,
      "loss": 0.4728,
      "step": 3810
    },
    {
      "epoch": 5.093333333333334,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029999637355726885,
      "loss": 0.4698,
      "step": 3820
    },
    {
      "epoch": 5.1066666666666665,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002999963516718144,
      "loss": 0.4586,
      "step": 3830
    },
    {
      "epoch": 5.12,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029999632972052033,
      "loss": 0.4666,
      "step": 3840
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0002999963077033866,
      "loss": 0.4614,
      "step": 3850
    },
    {
      "epoch": 5.1466666666666665,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029999628562041324,
      "loss": 0.4793,
      "step": 3860
    },
    {
      "epoch": 5.16,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002999962634716003,
      "loss": 0.47,
      "step": 3870
    },
    {
      "epoch": 5.173333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999962412569477,
      "loss": 0.4581,
      "step": 3880
    },
    {
      "epoch": 5.1866666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029999621897645553,
      "loss": 0.4611,
      "step": 3890
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002999961966301237,
      "loss": 0.4571,
      "step": 3900
    },
    {
      "epoch": 5.213333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002999961742179524,
      "loss": 0.4588,
      "step": 3910
    },
    {
      "epoch": 5.226666666666667,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002999961517399415,
      "loss": 0.4704,
      "step": 3920
    },
    {
      "epoch": 5.24,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029999612919609096,
      "loss": 0.4525,
      "step": 3930
    },
    {
      "epoch": 5.253333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029999610658640097,
      "loss": 0.4569,
      "step": 3940
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0002999960839108714,
      "loss": 0.4548,
      "step": 3950
    },
    {
      "epoch": 5.28,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029999606116950226,
      "loss": 0.485,
      "step": 3960
    },
    {
      "epoch": 5.293333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029999603836229367,
      "loss": 0.4425,
      "step": 3970
    },
    {
      "epoch": 5.306666666666667,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00029999601548924554,
      "loss": 0.466,
      "step": 3980
    },
    {
      "epoch": 5.32,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00029999599255035793,
      "loss": 0.4673,
      "step": 3990
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999959695456308,
      "loss": 0.4753,
      "step": 4000
    },
    {
      "epoch": 5.346666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999959464750642,
      "loss": 0.4637,
      "step": 4010
    },
    {
      "epoch": 5.36,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.0002999959233386581,
      "loss": 0.4713,
      "step": 4020
    },
    {
      "epoch": 5.373333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.00029999590013641257,
      "loss": 0.4623,
      "step": 4030
    },
    {
      "epoch": 5.386666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029999587686832757,
      "loss": 0.4596,
      "step": 4040
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029999585353440315,
      "loss": 0.464,
      "step": 4050
    },
    {
      "epoch": 5.413333333333333,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029999583013463926,
      "loss": 0.4694,
      "step": 4060
    },
    {
      "epoch": 5.426666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.000299995806669036,
      "loss": 0.469,
      "step": 4070
    },
    {
      "epoch": 5.44,
      "grad_norm": 0.162109375,
      "learning_rate": 0.0002999957831375933,
      "loss": 0.4779,
      "step": 4080
    },
    {
      "epoch": 5.453333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00029999575954031124,
      "loss": 0.4699,
      "step": 4090
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00029999573587718975,
      "loss": 0.4809,
      "step": 4100
    },
    {
      "epoch": 5.48,
      "grad_norm": 0.1572265625,
      "learning_rate": 0.00029999571214822895,
      "loss": 0.4613,
      "step": 4110
    },
    {
      "epoch": 5.493333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0002999956883534287,
      "loss": 0.4751,
      "step": 4120
    },
    {
      "epoch": 5.506666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029999566449278914,
      "loss": 0.4653,
      "step": 4130
    },
    {
      "epoch": 5.52,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999956405663102,
      "loss": 0.4559,
      "step": 4140
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00029999561657399195,
      "loss": 0.4624,
      "step": 4150
    },
    {
      "epoch": 5.546666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029999559251583436,
      "loss": 0.4662,
      "step": 4160
    },
    {
      "epoch": 5.5600000000000005,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029999556839183745,
      "loss": 0.4555,
      "step": 4170
    },
    {
      "epoch": 5.573333333333333,
      "grad_norm": 0.169921875,
      "learning_rate": 0.0002999955442020013,
      "loss": 0.4589,
      "step": 4180
    },
    {
      "epoch": 5.586666666666667,
      "grad_norm": 0.1875,
      "learning_rate": 0.00029999551994632574,
      "loss": 0.4482,
      "step": 4190
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.345703125,
      "learning_rate": 0.000299995495624811,
      "loss": 0.4555,
      "step": 4200
    },
    {
      "epoch": 5.613333333333333,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.00029999547123745694,
      "loss": 0.4344,
      "step": 4210
    },
    {
      "epoch": 5.626666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029999544678426367,
      "loss": 0.439,
      "step": 4220
    },
    {
      "epoch": 5.64,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029999542226523103,
      "loss": 0.4576,
      "step": 4230
    },
    {
      "epoch": 5.653333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029999539768035924,
      "loss": 0.4679,
      "step": 4240
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00029999537302964824,
      "loss": 0.4534,
      "step": 4250
    },
    {
      "epoch": 5.68,
      "grad_norm": 0.203125,
      "learning_rate": 0.000299995348313098,
      "loss": 0.4455,
      "step": 4260
    },
    {
      "epoch": 5.693333333333333,
      "grad_norm": 0.171875,
      "learning_rate": 0.0002999953235307085,
      "loss": 0.4562,
      "step": 4270
    },
    {
      "epoch": 5.706666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002999952986824799,
      "loss": 0.4488,
      "step": 4280
    },
    {
      "epoch": 5.72,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000299995273768412,
      "loss": 0.4718,
      "step": 4290
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.000299995248788505,
      "loss": 0.4666,
      "step": 4300
    },
    {
      "epoch": 5.746666666666667,
      "grad_norm": 0.240234375,
      "learning_rate": 0.00029999522374275886,
      "loss": 0.4659,
      "step": 4310
    },
    {
      "epoch": 5.76,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002999951986311735,
      "loss": 0.4797,
      "step": 4320
    },
    {
      "epoch": 5.773333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029999517345374903,
      "loss": 0.472,
      "step": 4330
    },
    {
      "epoch": 5.786666666666667,
      "grad_norm": 0.203125,
      "learning_rate": 0.00029999514821048545,
      "loss": 0.4667,
      "step": 4340
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002999951229013827,
      "loss": 0.4677,
      "step": 4350
    },
    {
      "epoch": 5.8133333333333335,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029999509752644087,
      "loss": 0.4398,
      "step": 4360
    },
    {
      "epoch": 5.826666666666666,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029999507208565993,
      "loss": 0.4546,
      "step": 4370
    },
    {
      "epoch": 5.84,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002999950465790399,
      "loss": 0.4686,
      "step": 4380
    },
    {
      "epoch": 5.8533333333333335,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002999950210065808,
      "loss": 0.4638,
      "step": 4390
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999949953682827,
      "loss": 0.4628,
      "step": 4400
    },
    {
      "epoch": 5.88,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029999496966414546,
      "loss": 0.4402,
      "step": 4410
    },
    {
      "epoch": 5.8933333333333335,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029999494389416925,
      "loss": 0.4507,
      "step": 4420
    },
    {
      "epoch": 5.906666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00029999491805835394,
      "loss": 0.461,
      "step": 4430
    },
    {
      "epoch": 5.92,
      "grad_norm": 0.181640625,
      "learning_rate": 0.00029999489215669963,
      "loss": 0.4616,
      "step": 4440
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999948661892063,
      "loss": 0.4529,
      "step": 4450
    },
    {
      "epoch": 5.946666666666666,
      "grad_norm": 0.162109375,
      "learning_rate": 0.000299994840155874,
      "loss": 0.4558,
      "step": 4460
    },
    {
      "epoch": 5.96,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00029999481405670273,
      "loss": 0.4528,
      "step": 4470
    },
    {
      "epoch": 5.973333333333334,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00029999478789169247,
      "loss": 0.4745,
      "step": 4480
    },
    {
      "epoch": 5.986666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002999947616608432,
      "loss": 0.4554,
      "step": 4490
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029999473536415503,
      "loss": 0.4478,
      "step": 4500
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.47071152925491333,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5782,
      "eval_samples_per_second": 1.67,
      "eval_steps_per_second": 0.104,
      "step": 4500
    },
    {
      "epoch": 6.013333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029999470900162796,
      "loss": 0.4661,
      "step": 4510
    },
    {
      "epoch": 6.026666666666666,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002999946825732619,
      "loss": 0.4747,
      "step": 4520
    },
    {
      "epoch": 6.04,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029999465607905696,
      "loss": 0.4882,
      "step": 4530
    },
    {
      "epoch": 6.053333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999946295190131,
      "loss": 0.4757,
      "step": 4540
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029999460289313037,
      "loss": 0.4638,
      "step": 4550
    },
    {
      "epoch": 6.08,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00029999457620140873,
      "loss": 0.4672,
      "step": 4560
    },
    {
      "epoch": 6.093333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002999945494438482,
      "loss": 0.4648,
      "step": 4570
    },
    {
      "epoch": 6.1066666666666665,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.00029999452262044886,
      "loss": 0.4531,
      "step": 4580
    },
    {
      "epoch": 6.12,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002999944957312106,
      "loss": 0.4621,
      "step": 4590
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999944687761336,
      "loss": 0.4556,
      "step": 4600
    },
    {
      "epoch": 6.1466666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029999444175521773,
      "loss": 0.4742,
      "step": 4610
    },
    {
      "epoch": 6.16,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002999944146684631,
      "loss": 0.4666,
      "step": 4620
    },
    {
      "epoch": 6.173333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002999943875158696,
      "loss": 0.454,
      "step": 4630
    },
    {
      "epoch": 6.1866666666666665,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002999943602974373,
      "loss": 0.4568,
      "step": 4640
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.203125,
      "learning_rate": 0.00029999433301316635,
      "loss": 0.452,
      "step": 4650
    },
    {
      "epoch": 6.213333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999430566305654,
      "loss": 0.4532,
      "step": 4660
    },
    {
      "epoch": 6.226666666666667,
      "grad_norm": 0.16796875,
      "learning_rate": 0.000299994278247108,
      "loss": 0.4659,
      "step": 4670
    },
    {
      "epoch": 6.24,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00029999425076532077,
      "loss": 0.4463,
      "step": 4680
    },
    {
      "epoch": 6.253333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.00029999422321769475,
      "loss": 0.4522,
      "step": 4690
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.00029999419560423,
      "loss": 0.4496,
      "step": 4700
    },
    {
      "epoch": 6.28,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002999941679249266,
      "loss": 0.4812,
      "step": 4710
    },
    {
      "epoch": 6.293333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002999941401797845,
      "loss": 0.4387,
      "step": 4720
    },
    {
      "epoch": 6.306666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002999941123688037,
      "loss": 0.4606,
      "step": 4730
    },
    {
      "epoch": 6.32,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00029999408449198425,
      "loss": 0.462,
      "step": 4740
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029999405654932614,
      "loss": 0.4703,
      "step": 4750
    },
    {
      "epoch": 6.346666666666667,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999940285408294,
      "loss": 0.46,
      "step": 4760
    },
    {
      "epoch": 6.36,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000299994000466494,
      "loss": 0.4651,
      "step": 4770
    },
    {
      "epoch": 6.373333333333333,
      "grad_norm": 0.189453125,
      "learning_rate": 0.00029999397232632007,
      "loss": 0.457,
      "step": 4780
    },
    {
      "epoch": 6.386666666666667,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.00029999394412030746,
      "loss": 0.4562,
      "step": 4790
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999939158484563,
      "loss": 0.4586,
      "step": 4800
    },
    {
      "epoch": 6.413333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029999388751076656,
      "loss": 0.4652,
      "step": 4810
    },
    {
      "epoch": 6.426666666666667,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029999385910723823,
      "loss": 0.4651,
      "step": 4820
    },
    {
      "epoch": 6.44,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00029999383063787134,
      "loss": 0.4731,
      "step": 4830
    },
    {
      "epoch": 6.453333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999938021026659,
      "loss": 0.4657,
      "step": 4840
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029999377350162194,
      "loss": 0.4758,
      "step": 4850
    },
    {
      "epoch": 6.48,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999937448347395,
      "loss": 0.4561,
      "step": 4860
    },
    {
      "epoch": 6.493333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999937161020185,
      "loss": 0.4709,
      "step": 4870
    },
    {
      "epoch": 6.506666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000299993687303459,
      "loss": 0.4622,
      "step": 4880
    },
    {
      "epoch": 6.52,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029999365843906106,
      "loss": 0.4516,
      "step": 4890
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.1669921875,
      "learning_rate": 0.00029999362950882465,
      "loss": 0.458,
      "step": 4900
    },
    {
      "epoch": 6.546666666666667,
      "grad_norm": 0.1591796875,
      "learning_rate": 0.0002999936005127498,
      "loss": 0.4612,
      "step": 4910
    },
    {
      "epoch": 6.5600000000000005,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999935714508365,
      "loss": 0.452,
      "step": 4920
    },
    {
      "epoch": 6.573333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029999354232308474,
      "loss": 0.4543,
      "step": 4930
    },
    {
      "epoch": 6.586666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002999935131294946,
      "loss": 0.4448,
      "step": 4940
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00029999348387006606,
      "loss": 0.4499,
      "step": 4950
    },
    {
      "epoch": 6.613333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002999934545447991,
      "loss": 0.431,
      "step": 4960
    },
    {
      "epoch": 6.626666666666667,
      "grad_norm": 0.142578125,
      "learning_rate": 0.00029999342515369385,
      "loss": 0.4344,
      "step": 4970
    },
    {
      "epoch": 6.64,
      "grad_norm": 0.173828125,
      "learning_rate": 0.0002999933956967502,
      "loss": 0.452,
      "step": 4980
    },
    {
      "epoch": 6.653333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999933661739681,
      "loss": 0.4627,
      "step": 4990
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002999933365853478,
      "loss": 0.4482,
      "step": 5000
    },
    {
      "epoch": 6.68,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999933069308891,
      "loss": 0.4412,
      "step": 5010
    },
    {
      "epoch": 6.693333333333333,
      "grad_norm": 0.173828125,
      "learning_rate": 0.00029999327721059207,
      "loss": 0.4512,
      "step": 5020
    },
    {
      "epoch": 6.706666666666667,
      "grad_norm": 0.240234375,
      "learning_rate": 0.00029999324742445676,
      "loss": 0.4443,
      "step": 5030
    },
    {
      "epoch": 6.72,
      "grad_norm": 0.236328125,
      "learning_rate": 0.00029999321757248317,
      "loss": 0.4665,
      "step": 5040
    },
    {
      "epoch": 6.733333333333333,
      "grad_norm": 0.203125,
      "learning_rate": 0.00029999318765467134,
      "loss": 0.4622,
      "step": 5050
    },
    {
      "epoch": 6.746666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999315767102123,
      "loss": 0.4618,
      "step": 5060
    },
    {
      "epoch": 6.76,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002999931276215329,
      "loss": 0.4746,
      "step": 5070
    },
    {
      "epoch": 6.773333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029999309750620626,
      "loss": 0.4669,
      "step": 5080
    },
    {
      "epoch": 6.786666666666667,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.00029999306732504146,
      "loss": 0.4618,
      "step": 5090
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999930370780384,
      "loss": 0.4628,
      "step": 5100
    },
    {
      "epoch": 6.8133333333333335,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002999930067651972,
      "loss": 0.4351,
      "step": 5110
    },
    {
      "epoch": 6.826666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002999929763865178,
      "loss": 0.4494,
      "step": 5120
    },
    {
      "epoch": 6.84,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029999294594200025,
      "loss": 0.4641,
      "step": 5130
    },
    {
      "epoch": 6.8533333333333335,
      "grad_norm": 0.17578125,
      "learning_rate": 0.00029999291543164456,
      "loss": 0.458,
      "step": 5140
    },
    {
      "epoch": 6.866666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029999288485545064,
      "loss": 0.4579,
      "step": 5150
    },
    {
      "epoch": 6.88,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002999928542134187,
      "loss": 0.435,
      "step": 5160
    },
    {
      "epoch": 6.8933333333333335,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002999928235055486,
      "loss": 0.4451,
      "step": 5170
    },
    {
      "epoch": 6.906666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002999927927318404,
      "loss": 0.4559,
      "step": 5180
    },
    {
      "epoch": 6.92,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002999927618922941,
      "loss": 0.4562,
      "step": 5190
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00029999273098690974,
      "loss": 0.4482,
      "step": 5200
    },
    {
      "epoch": 6.946666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00029999270001568735,
      "loss": 0.4508,
      "step": 5210
    },
    {
      "epoch": 6.96,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999926689786269,
      "loss": 0.4479,
      "step": 5220
    },
    {
      "epoch": 6.973333333333334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029999263787572843,
      "loss": 0.4713,
      "step": 5230
    },
    {
      "epoch": 6.986666666666666,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002999926067069919,
      "loss": 0.4525,
      "step": 5240
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999925754724174,
      "loss": 0.4438,
      "step": 5250
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.4673970341682434,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7339,
      "eval_samples_per_second": 1.644,
      "eval_steps_per_second": 0.103,
      "step": 5250
    },
    {
      "epoch": 7.013333333333334,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002999925441720049,
      "loss": 0.4625,
      "step": 5260
    },
    {
      "epoch": 7.026666666666666,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999925128057544,
      "loss": 0.4712,
      "step": 5270
    },
    {
      "epoch": 7.04,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.000299992481373666,
      "loss": 0.4861,
      "step": 5280
    },
    {
      "epoch": 7.053333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999924498757396,
      "loss": 0.473,
      "step": 5290
    },
    {
      "epoch": 7.066666666666666,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999241831197524,
      "loss": 0.4605,
      "step": 5300
    },
    {
      "epoch": 7.08,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.00029999238668237304,
      "loss": 0.4629,
      "step": 5310
    },
    {
      "epoch": 7.093333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002999923549869328,
      "loss": 0.461,
      "step": 5320
    },
    {
      "epoch": 7.1066666666666665,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.0002999923232256548,
      "loss": 0.4498,
      "step": 5330
    },
    {
      "epoch": 7.12,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999922913985389,
      "loss": 0.4568,
      "step": 5340
    },
    {
      "epoch": 7.133333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.00029999225950558505,
      "loss": 0.4507,
      "step": 5350
    },
    {
      "epoch": 7.1466666666666665,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00029999222754679343,
      "loss": 0.4706,
      "step": 5360
    },
    {
      "epoch": 7.16,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00029999219552216395,
      "loss": 0.459,
      "step": 5370
    },
    {
      "epoch": 7.173333333333334,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002999921634316966,
      "loss": 0.4498,
      "step": 5380
    },
    {
      "epoch": 7.1866666666666665,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029999213127539156,
      "loss": 0.4528,
      "step": 5390
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999920990532486,
      "loss": 0.4477,
      "step": 5400
    },
    {
      "epoch": 7.213333333333333,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0002999920667652679,
      "loss": 0.4493,
      "step": 5410
    },
    {
      "epoch": 7.226666666666667,
      "grad_norm": 0.234375,
      "learning_rate": 0.00029999203441144945,
      "loss": 0.4621,
      "step": 5420
    },
    {
      "epoch": 7.24,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029999200199179324,
      "loss": 0.4434,
      "step": 5430
    },
    {
      "epoch": 7.253333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999919695062993,
      "loss": 0.4475,
      "step": 5440
    },
    {
      "epoch": 7.266666666666667,
      "grad_norm": 0.1650390625,
      "learning_rate": 0.0002999919369549676,
      "loss": 0.4454,
      "step": 5450
    },
    {
      "epoch": 7.28,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999919043377982,
      "loss": 0.4768,
      "step": 5460
    },
    {
      "epoch": 7.293333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029999187165479115,
      "loss": 0.4336,
      "step": 5470
    },
    {
      "epoch": 7.306666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029999183890594633,
      "loss": 0.4566,
      "step": 5480
    },
    {
      "epoch": 7.32,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.00029999180609126394,
      "loss": 0.4574,
      "step": 5490
    },
    {
      "epoch": 7.333333333333333,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.00029999177321074385,
      "loss": 0.4662,
      "step": 5500
    },
    {
      "epoch": 7.346666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999917402643861,
      "loss": 0.4554,
      "step": 5510
    },
    {
      "epoch": 7.36,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002999917072521908,
      "loss": 0.4608,
      "step": 5520
    },
    {
      "epoch": 7.373333333333333,
      "grad_norm": 0.1865234375,
      "learning_rate": 0.0002999916741741578,
      "loss": 0.4542,
      "step": 5530
    },
    {
      "epoch": 7.386666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002999916410302872,
      "loss": 0.4508,
      "step": 5540
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.00029999160782057913,
      "loss": 0.4551,
      "step": 5550
    },
    {
      "epoch": 7.413333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999915745450334,
      "loss": 0.4608,
      "step": 5560
    },
    {
      "epoch": 7.426666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029999154120365014,
      "loss": 0.4614,
      "step": 5570
    },
    {
      "epoch": 7.44,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029999150779642936,
      "loss": 0.4688,
      "step": 5580
    },
    {
      "epoch": 7.453333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00029999147432337105,
      "loss": 0.4619,
      "step": 5590
    },
    {
      "epoch": 7.466666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002999914407844752,
      "loss": 0.4718,
      "step": 5600
    },
    {
      "epoch": 7.48,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00029999140717974196,
      "loss": 0.4514,
      "step": 5610
    },
    {
      "epoch": 7.493333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999913735091712,
      "loss": 0.4659,
      "step": 5620
    },
    {
      "epoch": 7.506666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0002999913397727629,
      "loss": 0.4576,
      "step": 5630
    },
    {
      "epoch": 7.52,
      "grad_norm": 0.2041015625,
      "learning_rate": 0.0002999913059705172,
      "loss": 0.448,
      "step": 5640
    },
    {
      "epoch": 7.533333333333333,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00029999127210243406,
      "loss": 0.4533,
      "step": 5650
    },
    {
      "epoch": 7.546666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029999123816851355,
      "loss": 0.4571,
      "step": 5660
    },
    {
      "epoch": 7.5600000000000005,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999912041687556,
      "loss": 0.448,
      "step": 5670
    },
    {
      "epoch": 7.573333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00029999117010316023,
      "loss": 0.4511,
      "step": 5680
    },
    {
      "epoch": 7.586666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999911359717275,
      "loss": 0.4398,
      "step": 5690
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.17578125,
      "learning_rate": 0.00029999110177445745,
      "loss": 0.4459,
      "step": 5700
    },
    {
      "epoch": 7.613333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029999106751135,
      "loss": 0.4271,
      "step": 5710
    },
    {
      "epoch": 7.626666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002999910331824053,
      "loss": 0.4319,
      "step": 5720
    },
    {
      "epoch": 7.64,
      "grad_norm": 0.2021484375,
      "learning_rate": 0.00029999099878762317,
      "loss": 0.4496,
      "step": 5730
    },
    {
      "epoch": 7.653333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002999909643270038,
      "loss": 0.4595,
      "step": 5740
    },
    {
      "epoch": 7.666666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999909298005472,
      "loss": 0.4452,
      "step": 5750
    },
    {
      "epoch": 7.68,
      "grad_norm": 0.193359375,
      "learning_rate": 0.0002999908952082533,
      "loss": 0.4374,
      "step": 5760
    },
    {
      "epoch": 7.693333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00029999086055012213,
      "loss": 0.4473,
      "step": 5770
    },
    {
      "epoch": 7.706666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999908258261537,
      "loss": 0.4401,
      "step": 5780
    },
    {
      "epoch": 7.72,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999907910363481,
      "loss": 0.4639,
      "step": 5790
    },
    {
      "epoch": 7.733333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00029999075618070527,
      "loss": 0.4589,
      "step": 5800
    },
    {
      "epoch": 7.746666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.00029999072125922523,
      "loss": 0.4579,
      "step": 5810
    },
    {
      "epoch": 7.76,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029999068627190804,
      "loss": 0.471,
      "step": 5820
    },
    {
      "epoch": 7.773333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002999906512187537,
      "loss": 0.4634,
      "step": 5830
    },
    {
      "epoch": 7.786666666666667,
      "grad_norm": 0.18359375,
      "learning_rate": 0.00029999061609976217,
      "loss": 0.4587,
      "step": 5840
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.00029999058091493354,
      "loss": 0.4596,
      "step": 5850
    },
    {
      "epoch": 7.8133333333333335,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.00029999054566426776,
      "loss": 0.4319,
      "step": 5860
    },
    {
      "epoch": 7.826666666666666,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029999051034776495,
      "loss": 0.4457,
      "step": 5870
    },
    {
      "epoch": 7.84,
      "grad_norm": 0.2421875,
      "learning_rate": 0.000299990474965425,
      "loss": 0.4599,
      "step": 5880
    },
    {
      "epoch": 7.8533333333333335,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.000299990439517248,
      "loss": 0.4547,
      "step": 5890
    },
    {
      "epoch": 7.866666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999904040032339,
      "loss": 0.4543,
      "step": 5900
    },
    {
      "epoch": 7.88,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999903684233828,
      "loss": 0.4319,
      "step": 5910
    },
    {
      "epoch": 7.8933333333333335,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999903327776947,
      "loss": 0.4427,
      "step": 5920
    },
    {
      "epoch": 7.906666666666666,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.00029999029706616955,
      "loss": 0.4523,
      "step": 5930
    },
    {
      "epoch": 7.92,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00029999026128880746,
      "loss": 0.4534,
      "step": 5940
    },
    {
      "epoch": 7.933333333333334,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029999022544560834,
      "loss": 0.445,
      "step": 5950
    },
    {
      "epoch": 7.946666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029999018953657234,
      "loss": 0.4482,
      "step": 5960
    },
    {
      "epoch": 7.96,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002999901535616993,
      "loss": 0.444,
      "step": 5970
    },
    {
      "epoch": 7.973333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002999901175209894,
      "loss": 0.469,
      "step": 5980
    },
    {
      "epoch": 7.986666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029999008141444255,
      "loss": 0.4493,
      "step": 5990
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999900452420589,
      "loss": 0.44,
      "step": 6000
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.46609070897102356,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7158,
      "eval_samples_per_second": 1.647,
      "eval_steps_per_second": 0.103,
      "step": 6000
    },
    {
      "epoch": 8.013333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.00029999000900383824,
      "loss": 0.4601,
      "step": 6010
    },
    {
      "epoch": 8.026666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.00029998997269978076,
      "loss": 0.4684,
      "step": 6020
    },
    {
      "epoch": 8.04,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00029998993632988647,
      "loss": 0.4804,
      "step": 6030
    },
    {
      "epoch": 8.053333333333333,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999898998941553,
      "loss": 0.4682,
      "step": 6040
    },
    {
      "epoch": 8.066666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002999898633925873,
      "loss": 0.4551,
      "step": 6050
    },
    {
      "epoch": 8.08,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029998982682518256,
      "loss": 0.4605,
      "step": 6060
    },
    {
      "epoch": 8.093333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029998979019194103,
      "loss": 0.4572,
      "step": 6070
    },
    {
      "epoch": 8.106666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002999897534928627,
      "loss": 0.4473,
      "step": 6080
    },
    {
      "epoch": 8.12,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999897167279476,
      "loss": 0.4542,
      "step": 6090
    },
    {
      "epoch": 8.133333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002999896798971958,
      "loss": 0.4469,
      "step": 6100
    },
    {
      "epoch": 8.146666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002999896430006073,
      "loss": 0.4664,
      "step": 6110
    },
    {
      "epoch": 8.16,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029998960603818206,
      "loss": 0.4561,
      "step": 6120
    },
    {
      "epoch": 8.173333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029998956900992015,
      "loss": 0.4463,
      "step": 6130
    },
    {
      "epoch": 8.186666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999895319158216,
      "loss": 0.4492,
      "step": 6140
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999894947558863,
      "loss": 0.4448,
      "step": 6150
    },
    {
      "epoch": 8.213333333333333,
      "grad_norm": 0.19921875,
      "learning_rate": 0.00029998945753011445,
      "loss": 0.4457,
      "step": 6160
    },
    {
      "epoch": 8.226666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999894202385059,
      "loss": 0.4587,
      "step": 6170
    },
    {
      "epoch": 8.24,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999893828810608,
      "loss": 0.4401,
      "step": 6180
    },
    {
      "epoch": 8.253333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002999893454577791,
      "loss": 0.4445,
      "step": 6190
    },
    {
      "epoch": 8.266666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00029998930796866084,
      "loss": 0.4433,
      "step": 6200
    },
    {
      "epoch": 8.28,
      "grad_norm": 0.208984375,
      "learning_rate": 0.000299989270413706,
      "loss": 0.4747,
      "step": 6210
    },
    {
      "epoch": 8.293333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029998923279291463,
      "loss": 0.43,
      "step": 6220
    },
    {
      "epoch": 8.306666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999891951062868,
      "loss": 0.454,
      "step": 6230
    },
    {
      "epoch": 8.32,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002999891573538223,
      "loss": 0.4543,
      "step": 6240
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00029998911953552147,
      "loss": 0.4625,
      "step": 6250
    },
    {
      "epoch": 8.346666666666668,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002999890816513841,
      "loss": 0.4518,
      "step": 6260
    },
    {
      "epoch": 8.36,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002999890437014103,
      "loss": 0.4576,
      "step": 6270
    },
    {
      "epoch": 8.373333333333333,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002999890056856,
      "loss": 0.4516,
      "step": 6280
    },
    {
      "epoch": 8.386666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029998896760395334,
      "loss": 0.449,
      "step": 6290
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029998892945647023,
      "loss": 0.4518,
      "step": 6300
    },
    {
      "epoch": 8.413333333333334,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002999888912431508,
      "loss": 0.4571,
      "step": 6310
    },
    {
      "epoch": 8.426666666666666,
      "grad_norm": 0.185546875,
      "learning_rate": 0.00029998885296399496,
      "loss": 0.4583,
      "step": 6320
    },
    {
      "epoch": 8.44,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029998881461900273,
      "loss": 0.4669,
      "step": 6330
    },
    {
      "epoch": 8.453333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999887762081742,
      "loss": 0.4579,
      "step": 6340
    },
    {
      "epoch": 8.466666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002999887377315093,
      "loss": 0.4685,
      "step": 6350
    },
    {
      "epoch": 8.48,
      "grad_norm": 0.1748046875,
      "learning_rate": 0.0002999886991890081,
      "loss": 0.4492,
      "step": 6360
    },
    {
      "epoch": 8.493333333333334,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002999886605806707,
      "loss": 0.462,
      "step": 6370
    },
    {
      "epoch": 8.506666666666666,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029998862190649695,
      "loss": 0.4553,
      "step": 6380
    },
    {
      "epoch": 8.52,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029998858316648694,
      "loss": 0.4464,
      "step": 6390
    },
    {
      "epoch": 8.533333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029998854436064066,
      "loss": 0.4512,
      "step": 6400
    },
    {
      "epoch": 8.546666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002999885054889582,
      "loss": 0.4541,
      "step": 6410
    },
    {
      "epoch": 8.56,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999884665514396,
      "loss": 0.4443,
      "step": 6420
    },
    {
      "epoch": 8.573333333333334,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0002999884275480847,
      "loss": 0.4476,
      "step": 6430
    },
    {
      "epoch": 8.586666666666666,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.0002999883884788937,
      "loss": 0.4356,
      "step": 6440
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.21484375,
      "learning_rate": 0.00029998834934386655,
      "loss": 0.4429,
      "step": 6450
    },
    {
      "epoch": 8.613333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.00029998831014300324,
      "loss": 0.4242,
      "step": 6460
    },
    {
      "epoch": 8.626666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002999882708763038,
      "loss": 0.4287,
      "step": 6470
    },
    {
      "epoch": 8.64,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00029998823154376826,
      "loss": 0.4466,
      "step": 6480
    },
    {
      "epoch": 8.653333333333332,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002999881921453967,
      "loss": 0.4567,
      "step": 6490
    },
    {
      "epoch": 8.666666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000299988152681189,
      "loss": 0.4411,
      "step": 6500
    },
    {
      "epoch": 8.68,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.0002999881131511453,
      "loss": 0.4347,
      "step": 6510
    },
    {
      "epoch": 8.693333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999880735552655,
      "loss": 0.4431,
      "step": 6520
    },
    {
      "epoch": 8.706666666666667,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029998803389354975,
      "loss": 0.4371,
      "step": 6530
    },
    {
      "epoch": 8.72,
      "grad_norm": 0.224609375,
      "learning_rate": 0.000299987994165998,
      "loss": 0.4609,
      "step": 6540
    },
    {
      "epoch": 8.733333333333333,
      "grad_norm": 0.2099609375,
      "learning_rate": 0.0002999879543726102,
      "loss": 0.4556,
      "step": 6550
    },
    {
      "epoch": 8.746666666666666,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029998791451338655,
      "loss": 0.455,
      "step": 6560
    },
    {
      "epoch": 8.76,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999878745883269,
      "loss": 0.4673,
      "step": 6570
    },
    {
      "epoch": 8.773333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999878345974313,
      "loss": 0.4595,
      "step": 6580
    },
    {
      "epoch": 8.786666666666667,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029998779454069977,
      "loss": 0.4561,
      "step": 6590
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029998775441813244,
      "loss": 0.456,
      "step": 6600
    },
    {
      "epoch": 8.813333333333333,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00029998771422972916,
      "loss": 0.4293,
      "step": 6610
    },
    {
      "epoch": 8.826666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029998767397549004,
      "loss": 0.443,
      "step": 6620
    },
    {
      "epoch": 8.84,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029998763365541507,
      "loss": 0.4554,
      "step": 6630
    },
    {
      "epoch": 8.853333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029998759326950436,
      "loss": 0.4509,
      "step": 6640
    },
    {
      "epoch": 8.866666666666667,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.00029998755281775776,
      "loss": 0.4514,
      "step": 6650
    },
    {
      "epoch": 8.88,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00029998751230017536,
      "loss": 0.4288,
      "step": 6660
    },
    {
      "epoch": 8.893333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999874717167573,
      "loss": 0.4392,
      "step": 6670
    },
    {
      "epoch": 8.906666666666666,
      "grad_norm": 0.1904296875,
      "learning_rate": 0.0002999874310675034,
      "loss": 0.4502,
      "step": 6680
    },
    {
      "epoch": 8.92,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00029998739035241374,
      "loss": 0.4502,
      "step": 6690
    },
    {
      "epoch": 8.933333333333334,
      "grad_norm": 0.1953125,
      "learning_rate": 0.00029998734957148844,
      "loss": 0.4412,
      "step": 6700
    },
    {
      "epoch": 8.946666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999873087247274,
      "loss": 0.4443,
      "step": 6710
    },
    {
      "epoch": 8.96,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999872678121307,
      "loss": 0.441,
      "step": 6720
    },
    {
      "epoch": 8.973333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029998722683369835,
      "loss": 0.4641,
      "step": 6730
    },
    {
      "epoch": 8.986666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999871857894303,
      "loss": 0.4454,
      "step": 6740
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002999871446793267,
      "loss": 0.4362,
      "step": 6750
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.46106764674186707,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.4392,
      "eval_samples_per_second": 1.695,
      "eval_steps_per_second": 0.106,
      "step": 6750
    },
    {
      "epoch": 9.013333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002999871035033875,
      "loss": 0.4569,
      "step": 6760
    },
    {
      "epoch": 9.026666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999870622616126,
      "loss": 0.4647,
      "step": 6770
    },
    {
      "epoch": 9.04,
      "grad_norm": 0.21875,
      "learning_rate": 0.00029998702095400225,
      "loss": 0.4774,
      "step": 6780
    },
    {
      "epoch": 9.053333333333333,
      "grad_norm": 0.20703125,
      "learning_rate": 0.0002999869795805563,
      "loss": 0.4658,
      "step": 6790
    },
    {
      "epoch": 9.066666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999869381412748,
      "loss": 0.4517,
      "step": 6800
    },
    {
      "epoch": 9.08,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002999868966361578,
      "loss": 0.4566,
      "step": 6810
    },
    {
      "epoch": 9.093333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999868550652053,
      "loss": 0.4546,
      "step": 6820
    },
    {
      "epoch": 9.106666666666667,
      "grad_norm": 0.197265625,
      "learning_rate": 0.0002999868134284173,
      "loss": 0.4439,
      "step": 6830
    },
    {
      "epoch": 9.12,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.00029998677172579386,
      "loss": 0.4507,
      "step": 6840
    },
    {
      "epoch": 9.133333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000299986729957335,
      "loss": 0.4442,
      "step": 6850
    },
    {
      "epoch": 9.146666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999866881230407,
      "loss": 0.4617,
      "step": 6860
    },
    {
      "epoch": 9.16,
      "grad_norm": 0.2109375,
      "learning_rate": 0.000299986646222911,
      "loss": 0.4533,
      "step": 6870
    },
    {
      "epoch": 9.173333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999866042569459,
      "loss": 0.4438,
      "step": 6880
    },
    {
      "epoch": 9.186666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029998656222514537,
      "loss": 0.4454,
      "step": 6890
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.203125,
      "learning_rate": 0.00029998652012750955,
      "loss": 0.4408,
      "step": 6900
    },
    {
      "epoch": 9.213333333333333,
      "grad_norm": 0.1728515625,
      "learning_rate": 0.00029998647796403844,
      "loss": 0.443,
      "step": 6910
    },
    {
      "epoch": 9.226666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029998643573473196,
      "loss": 0.4555,
      "step": 6920
    },
    {
      "epoch": 9.24,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002999863934395902,
      "loss": 0.4365,
      "step": 6930
    },
    {
      "epoch": 9.253333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029998635107861315,
      "loss": 0.4399,
      "step": 6940
    },
    {
      "epoch": 9.266666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002999863086518008,
      "loss": 0.4403,
      "step": 6950
    },
    {
      "epoch": 9.28,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999862661591533,
      "loss": 0.4719,
      "step": 6960
    },
    {
      "epoch": 9.293333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999862236006705,
      "loss": 0.4268,
      "step": 6970
    },
    {
      "epoch": 9.306666666666667,
      "grad_norm": 0.1923828125,
      "learning_rate": 0.0002999861809763525,
      "loss": 0.4502,
      "step": 6980
    },
    {
      "epoch": 9.32,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002999861382861994,
      "loss": 0.4503,
      "step": 6990
    },
    {
      "epoch": 9.333333333333334,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002999860955302111,
      "loss": 0.4597,
      "step": 7000
    },
    {
      "epoch": 9.346666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029998605270838765,
      "loss": 0.4502,
      "step": 7010
    },
    {
      "epoch": 9.36,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029998600982072905,
      "loss": 0.4537,
      "step": 7020
    },
    {
      "epoch": 9.373333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029998596686723537,
      "loss": 0.4475,
      "step": 7030
    },
    {
      "epoch": 9.386666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002999859238479066,
      "loss": 0.4443,
      "step": 7040
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999858807627427,
      "loss": 0.4496,
      "step": 7050
    },
    {
      "epoch": 9.413333333333334,
      "grad_norm": 0.1875,
      "learning_rate": 0.0002999858376117438,
      "loss": 0.455,
      "step": 7060
    },
    {
      "epoch": 9.426666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999857943949099,
      "loss": 0.4553,
      "step": 7070
    },
    {
      "epoch": 9.44,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999857511122409,
      "loss": 0.4635,
      "step": 7080
    },
    {
      "epoch": 9.453333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029998570776373695,
      "loss": 0.4562,
      "step": 7090
    },
    {
      "epoch": 9.466666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029998566434939804,
      "loss": 0.4659,
      "step": 7100
    },
    {
      "epoch": 9.48,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.00029998562086922415,
      "loss": 0.4465,
      "step": 7110
    },
    {
      "epoch": 9.493333333333334,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002999855773232153,
      "loss": 0.4585,
      "step": 7120
    },
    {
      "epoch": 9.506666666666666,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029998553371137155,
      "loss": 0.4514,
      "step": 7130
    },
    {
      "epoch": 9.52,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00029998549003369294,
      "loss": 0.4416,
      "step": 7140
    },
    {
      "epoch": 9.533333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002999854462901794,
      "loss": 0.4477,
      "step": 7150
    },
    {
      "epoch": 9.546666666666667,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000299985402480831,
      "loss": 0.4506,
      "step": 7160
    },
    {
      "epoch": 9.56,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999853586056478,
      "loss": 0.4414,
      "step": 7170
    },
    {
      "epoch": 9.573333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029998531466462976,
      "loss": 0.4448,
      "step": 7180
    },
    {
      "epoch": 9.586666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999852706577769,
      "loss": 0.4336,
      "step": 7190
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029998522658508924,
      "loss": 0.4387,
      "step": 7200
    },
    {
      "epoch": 9.613333333333333,
      "grad_norm": 0.19140625,
      "learning_rate": 0.00029998518244656687,
      "loss": 0.4213,
      "step": 7210
    },
    {
      "epoch": 9.626666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00029998513824220973,
      "loss": 0.425,
      "step": 7220
    },
    {
      "epoch": 9.64,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029998509397201784,
      "loss": 0.4435,
      "step": 7230
    },
    {
      "epoch": 9.653333333333332,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029998504963599124,
      "loss": 0.4525,
      "step": 7240
    },
    {
      "epoch": 9.666666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029998500523413,
      "loss": 0.4381,
      "step": 7250
    },
    {
      "epoch": 9.68,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029998496076643407,
      "loss": 0.4318,
      "step": 7260
    },
    {
      "epoch": 9.693333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999849162329035,
      "loss": 0.4409,
      "step": 7270
    },
    {
      "epoch": 9.706666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999848716335383,
      "loss": 0.434,
      "step": 7280
    },
    {
      "epoch": 9.72,
      "grad_norm": 0.22265625,
      "learning_rate": 0.00029998482696833847,
      "loss": 0.4584,
      "step": 7290
    },
    {
      "epoch": 9.733333333333333,
      "grad_norm": 0.2080078125,
      "learning_rate": 0.00029998478223730406,
      "loss": 0.4521,
      "step": 7300
    },
    {
      "epoch": 9.746666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002999847374404351,
      "loss": 0.4521,
      "step": 7310
    },
    {
      "epoch": 9.76,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00029998469257773154,
      "loss": 0.4649,
      "step": 7320
    },
    {
      "epoch": 9.773333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999846476491935,
      "loss": 0.4566,
      "step": 7330
    },
    {
      "epoch": 9.786666666666667,
      "grad_norm": 0.1845703125,
      "learning_rate": 0.0002999846026548209,
      "loss": 0.4533,
      "step": 7340
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029998455759461387,
      "loss": 0.4531,
      "step": 7350
    },
    {
      "epoch": 9.813333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999845124685723,
      "loss": 0.4263,
      "step": 7360
    },
    {
      "epoch": 9.826666666666666,
      "grad_norm": 0.201171875,
      "learning_rate": 0.00029998446727669633,
      "loss": 0.4402,
      "step": 7370
    },
    {
      "epoch": 9.84,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029998442201898594,
      "loss": 0.4528,
      "step": 7380
    },
    {
      "epoch": 9.853333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002999843766954411,
      "loss": 0.4481,
      "step": 7390
    },
    {
      "epoch": 9.866666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002999843313060619,
      "loss": 0.4471,
      "step": 7400
    },
    {
      "epoch": 9.88,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002999842858508483,
      "loss": 0.4255,
      "step": 7410
    },
    {
      "epoch": 9.893333333333333,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002999842403298004,
      "loss": 0.4363,
      "step": 7420
    },
    {
      "epoch": 9.906666666666666,
      "grad_norm": 0.1962890625,
      "learning_rate": 0.0002999841947429181,
      "loss": 0.4469,
      "step": 7430
    },
    {
      "epoch": 9.92,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002999841490902015,
      "loss": 0.4469,
      "step": 7440
    },
    {
      "epoch": 9.933333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029998410337165064,
      "loss": 0.4379,
      "step": 7450
    },
    {
      "epoch": 9.946666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999840575872655,
      "loss": 0.442,
      "step": 7460
    },
    {
      "epoch": 9.96,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029998401173704606,
      "loss": 0.438,
      "step": 7470
    },
    {
      "epoch": 9.973333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029998396582099244,
      "loss": 0.4626,
      "step": 7480
    },
    {
      "epoch": 9.986666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002999839198391046,
      "loss": 0.4427,
      "step": 7490
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999838737913826,
      "loss": 0.4328,
      "step": 7500
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.46097901463508606,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.684,
      "eval_samples_per_second": 1.652,
      "eval_steps_per_second": 0.103,
      "step": 7500
    },
    {
      "epoch": 10.013333333333334,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999838276778263,
      "loss": 0.4539,
      "step": 7510
    },
    {
      "epoch": 10.026666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.000299983781498436,
      "loss": 0.4637,
      "step": 7520
    },
    {
      "epoch": 10.04,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029998373525321154,
      "loss": 0.475,
      "step": 7530
    },
    {
      "epoch": 10.053333333333333,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002999836889421529,
      "loss": 0.4639,
      "step": 7540
    },
    {
      "epoch": 10.066666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999836425652602,
      "loss": 0.4507,
      "step": 7550
    },
    {
      "epoch": 10.08,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999835961225335,
      "loss": 0.4529,
      "step": 7560
    },
    {
      "epoch": 10.093333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029998354961397264,
      "loss": 0.4516,
      "step": 7570
    },
    {
      "epoch": 10.106666666666667,
      "grad_norm": 0.19921875,
      "learning_rate": 0.0002999835030395778,
      "loss": 0.4399,
      "step": 7580
    },
    {
      "epoch": 10.12,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029998345639934895,
      "loss": 0.4479,
      "step": 7590
    },
    {
      "epoch": 10.133333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029998340969328616,
      "loss": 0.4416,
      "step": 7600
    },
    {
      "epoch": 10.146666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999833629213893,
      "loss": 0.4592,
      "step": 7610
    },
    {
      "epoch": 10.16,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999833160836586,
      "loss": 0.4501,
      "step": 7620
    },
    {
      "epoch": 10.173333333333334,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029998326918009394,
      "loss": 0.4417,
      "step": 7630
    },
    {
      "epoch": 10.186666666666667,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.00029998322221069535,
      "loss": 0.4438,
      "step": 7640
    },
    {
      "epoch": 10.2,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029998317517546287,
      "loss": 0.4378,
      "step": 7650
    },
    {
      "epoch": 10.213333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029998312807439655,
      "loss": 0.4394,
      "step": 7660
    },
    {
      "epoch": 10.226666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999830809074964,
      "loss": 0.4519,
      "step": 7670
    },
    {
      "epoch": 10.24,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999830336747624,
      "loss": 0.434,
      "step": 7680
    },
    {
      "epoch": 10.253333333333334,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002999829863761946,
      "loss": 0.4381,
      "step": 7690
    },
    {
      "epoch": 10.266666666666667,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029998293901179303,
      "loss": 0.4379,
      "step": 7700
    },
    {
      "epoch": 10.28,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002999828915815577,
      "loss": 0.4681,
      "step": 7710
    },
    {
      "epoch": 10.293333333333333,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999828440854886,
      "loss": 0.4254,
      "step": 7720
    },
    {
      "epoch": 10.306666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.0002999827965235858,
      "loss": 0.447,
      "step": 7730
    },
    {
      "epoch": 10.32,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999827488958493,
      "loss": 0.4484,
      "step": 7740
    },
    {
      "epoch": 10.333333333333334,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029998270120227914,
      "loss": 0.4568,
      "step": 7750
    },
    {
      "epoch": 10.346666666666668,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999826534428753,
      "loss": 0.4465,
      "step": 7760
    },
    {
      "epoch": 10.36,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002999826056176378,
      "loss": 0.4513,
      "step": 7770
    },
    {
      "epoch": 10.373333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029998255772656677,
      "loss": 0.4453,
      "step": 7780
    },
    {
      "epoch": 10.386666666666667,
      "grad_norm": 0.21875,
      "learning_rate": 0.00029998250976966205,
      "loss": 0.4418,
      "step": 7790
    },
    {
      "epoch": 10.4,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999824617469238,
      "loss": 0.4465,
      "step": 7800
    },
    {
      "epoch": 10.413333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029998241365835205,
      "loss": 0.4518,
      "step": 7810
    },
    {
      "epoch": 10.426666666666666,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002999823655039467,
      "loss": 0.4524,
      "step": 7820
    },
    {
      "epoch": 10.44,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002999823172837079,
      "loss": 0.4611,
      "step": 7830
    },
    {
      "epoch": 10.453333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029998226899763554,
      "loss": 0.4526,
      "step": 7840
    },
    {
      "epoch": 10.466666666666667,
      "grad_norm": 0.208984375,
      "learning_rate": 0.00029998222064572973,
      "loss": 0.4633,
      "step": 7850
    },
    {
      "epoch": 10.48,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0002999821722279905,
      "loss": 0.4432,
      "step": 7860
    },
    {
      "epoch": 10.493333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999821237444179,
      "loss": 0.4556,
      "step": 7870
    },
    {
      "epoch": 10.506666666666666,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002999820751950118,
      "loss": 0.448,
      "step": 7880
    },
    {
      "epoch": 10.52,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00029998202657977236,
      "loss": 0.4396,
      "step": 7890
    },
    {
      "epoch": 10.533333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029998197789869957,
      "loss": 0.4439,
      "step": 7900
    },
    {
      "epoch": 10.546666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029998192915179343,
      "loss": 0.4476,
      "step": 7910
    },
    {
      "epoch": 10.56,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000299981880339054,
      "loss": 0.4396,
      "step": 7920
    },
    {
      "epoch": 10.573333333333334,
      "grad_norm": 0.208984375,
      "learning_rate": 0.0002999818314604812,
      "loss": 0.4425,
      "step": 7930
    },
    {
      "epoch": 10.586666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999817825160752,
      "loss": 0.4318,
      "step": 7940
    },
    {
      "epoch": 10.6,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002999817335058359,
      "loss": 0.4362,
      "step": 7950
    },
    {
      "epoch": 10.613333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002999816844297634,
      "loss": 0.4195,
      "step": 7960
    },
    {
      "epoch": 10.626666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029998163528785764,
      "loss": 0.4238,
      "step": 7970
    },
    {
      "epoch": 10.64,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029998158608011874,
      "loss": 0.4415,
      "step": 7980
    },
    {
      "epoch": 10.653333333333332,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029998153680654664,
      "loss": 0.4507,
      "step": 7990
    },
    {
      "epoch": 10.666666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002999814874671414,
      "loss": 0.4368,
      "step": 8000
    },
    {
      "epoch": 10.68,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.00029998143806190305,
      "loss": 0.4298,
      "step": 8010
    },
    {
      "epoch": 10.693333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999813885908316,
      "loss": 0.4385,
      "step": 8020
    },
    {
      "epoch": 10.706666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999813390539271,
      "loss": 0.4326,
      "step": 8030
    },
    {
      "epoch": 10.72,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999812894511895,
      "loss": 0.4555,
      "step": 8040
    },
    {
      "epoch": 10.733333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002999812397826189,
      "loss": 0.4491,
      "step": 8050
    },
    {
      "epoch": 10.746666666666666,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00029998119004821523,
      "loss": 0.449,
      "step": 8060
    },
    {
      "epoch": 10.76,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002999811402479786,
      "loss": 0.4631,
      "step": 8070
    },
    {
      "epoch": 10.773333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000299981090381909,
      "loss": 0.4542,
      "step": 8080
    },
    {
      "epoch": 10.786666666666667,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999810404500064,
      "loss": 0.4503,
      "step": 8090
    },
    {
      "epoch": 10.8,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00029998099045227096,
      "loss": 0.4513,
      "step": 8100
    },
    {
      "epoch": 10.813333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029998094038870255,
      "loss": 0.4241,
      "step": 8110
    },
    {
      "epoch": 10.826666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029998089025930127,
      "loss": 0.4372,
      "step": 8120
    },
    {
      "epoch": 10.84,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999808400640672,
      "loss": 0.4494,
      "step": 8130
    },
    {
      "epoch": 10.853333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029998078980300017,
      "loss": 0.4456,
      "step": 8140
    },
    {
      "epoch": 10.866666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999807394761004,
      "loss": 0.4457,
      "step": 8150
    },
    {
      "epoch": 10.88,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002999806890833678,
      "loss": 0.4233,
      "step": 8160
    },
    {
      "epoch": 10.893333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029998063862480244,
      "loss": 0.434,
      "step": 8170
    },
    {
      "epoch": 10.906666666666666,
      "grad_norm": 0.232421875,
      "learning_rate": 0.00029998058810040435,
      "loss": 0.4432,
      "step": 8180
    },
    {
      "epoch": 10.92,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00029998053751017345,
      "loss": 0.4455,
      "step": 8190
    },
    {
      "epoch": 10.933333333333334,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029998048685410996,
      "loss": 0.4365,
      "step": 8200
    },
    {
      "epoch": 10.946666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999804361322137,
      "loss": 0.4397,
      "step": 8210
    },
    {
      "epoch": 10.96,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002999803853444848,
      "loss": 0.4352,
      "step": 8220
    },
    {
      "epoch": 10.973333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999803344909233,
      "loss": 0.4597,
      "step": 8230
    },
    {
      "epoch": 10.986666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00029998028357152914,
      "loss": 0.4396,
      "step": 8240
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002999802325863024,
      "loss": 0.431,
      "step": 8250
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.4568580389022827,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.3028,
      "eval_samples_per_second": 1.72,
      "eval_steps_per_second": 0.107,
      "step": 8250
    },
    {
      "epoch": 11.013333333333334,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999801815352431,
      "loss": 0.4509,
      "step": 8260
    },
    {
      "epoch": 11.026666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029998013041835123,
      "loss": 0.4598,
      "step": 8270
    },
    {
      "epoch": 11.04,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029998007923562683,
      "loss": 0.4726,
      "step": 8280
    },
    {
      "epoch": 11.053333333333333,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002999800279870699,
      "loss": 0.4616,
      "step": 8290
    },
    {
      "epoch": 11.066666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002999799766726805,
      "loss": 0.4461,
      "step": 8300
    },
    {
      "epoch": 11.08,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029997992529245867,
      "loss": 0.4509,
      "step": 8310
    },
    {
      "epoch": 11.093333333333334,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002999798738464044,
      "loss": 0.45,
      "step": 8320
    },
    {
      "epoch": 11.106666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002999798223345177,
      "loss": 0.4377,
      "step": 8330
    },
    {
      "epoch": 11.12,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029997977075679863,
      "loss": 0.445,
      "step": 8340
    },
    {
      "epoch": 11.133333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029997971911324716,
      "loss": 0.4384,
      "step": 8350
    },
    {
      "epoch": 11.146666666666667,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999796674038633,
      "loss": 0.4569,
      "step": 8360
    },
    {
      "epoch": 11.16,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999796156286472,
      "loss": 0.4472,
      "step": 8370
    },
    {
      "epoch": 11.173333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029997956378759877,
      "loss": 0.4393,
      "step": 8380
    },
    {
      "epoch": 11.186666666666667,
      "grad_norm": 0.21484375,
      "learning_rate": 0.00029997951188071807,
      "loss": 0.4412,
      "step": 8390
    },
    {
      "epoch": 11.2,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999794599080051,
      "loss": 0.4357,
      "step": 8400
    },
    {
      "epoch": 11.213333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002999794078694599,
      "loss": 0.4375,
      "step": 8410
    },
    {
      "epoch": 11.226666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002999793557650825,
      "loss": 0.4503,
      "step": 8420
    },
    {
      "epoch": 11.24,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999793035948729,
      "loss": 0.4316,
      "step": 8430
    },
    {
      "epoch": 11.253333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999792513588311,
      "loss": 0.4357,
      "step": 8440
    },
    {
      "epoch": 11.266666666666667,
      "grad_norm": 0.236328125,
      "learning_rate": 0.00029997919905695725,
      "loss": 0.435,
      "step": 8450
    },
    {
      "epoch": 11.28,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999791466892512,
      "loss": 0.4645,
      "step": 8460
    },
    {
      "epoch": 11.293333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000299979094255713,
      "loss": 0.4225,
      "step": 8470
    },
    {
      "epoch": 11.306666666666667,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029997904175634287,
      "loss": 0.4447,
      "step": 8480
    },
    {
      "epoch": 11.32,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029997898919114057,
      "loss": 0.4455,
      "step": 8490
    },
    {
      "epoch": 11.333333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029997893656010633,
      "loss": 0.455,
      "step": 8500
    },
    {
      "epoch": 11.346666666666668,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029997888386324004,
      "loss": 0.4435,
      "step": 8510
    },
    {
      "epoch": 11.36,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999788311005418,
      "loss": 0.4496,
      "step": 8520
    },
    {
      "epoch": 11.373333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029997877827201157,
      "loss": 0.4425,
      "step": 8530
    },
    {
      "epoch": 11.386666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002999787253776494,
      "loss": 0.4394,
      "step": 8540
    },
    {
      "epoch": 11.4,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029997867241745533,
      "loss": 0.4436,
      "step": 8550
    },
    {
      "epoch": 11.413333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029997861939142943,
      "loss": 0.4495,
      "step": 8560
    },
    {
      "epoch": 11.426666666666666,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999785662995716,
      "loss": 0.4503,
      "step": 8570
    },
    {
      "epoch": 11.44,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029997851314188197,
      "loss": 0.4595,
      "step": 8580
    },
    {
      "epoch": 11.453333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029997845991836046,
      "loss": 0.4505,
      "step": 8590
    },
    {
      "epoch": 11.466666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029997840662900717,
      "loss": 0.4599,
      "step": 8600
    },
    {
      "epoch": 11.48,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029997835327382215,
      "loss": 0.4404,
      "step": 8610
    },
    {
      "epoch": 11.493333333333334,
      "grad_norm": 0.216796875,
      "learning_rate": 0.00029997829985280535,
      "loss": 0.454,
      "step": 8620
    },
    {
      "epoch": 11.506666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002999782463659569,
      "loss": 0.4468,
      "step": 8630
    },
    {
      "epoch": 11.52,
      "grad_norm": 0.19140625,
      "learning_rate": 0.00029997819281327664,
      "loss": 0.4373,
      "step": 8640
    },
    {
      "epoch": 11.533333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029997813919476477,
      "loss": 0.4416,
      "step": 8650
    },
    {
      "epoch": 11.546666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999780855104212,
      "loss": 0.4459,
      "step": 8660
    },
    {
      "epoch": 11.56,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029997803176024597,
      "loss": 0.4367,
      "step": 8670
    },
    {
      "epoch": 11.573333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999779779442392,
      "loss": 0.4398,
      "step": 8680
    },
    {
      "epoch": 11.586666666666666,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.00029997792406240086,
      "loss": 0.4301,
      "step": 8690
    },
    {
      "epoch": 11.6,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029997787011473096,
      "loss": 0.4341,
      "step": 8700
    },
    {
      "epoch": 11.613333333333333,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999778161012295,
      "loss": 0.4165,
      "step": 8710
    },
    {
      "epoch": 11.626666666666667,
      "grad_norm": 0.19140625,
      "learning_rate": 0.00029997776202189653,
      "loss": 0.421,
      "step": 8720
    },
    {
      "epoch": 11.64,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00029997770787673205,
      "loss": 0.4398,
      "step": 8730
    },
    {
      "epoch": 11.653333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999776536657361,
      "loss": 0.4492,
      "step": 8740
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002999775993889087,
      "loss": 0.4328,
      "step": 8750
    },
    {
      "epoch": 11.68,
      "grad_norm": 0.21875,
      "learning_rate": 0.00029997754504624993,
      "loss": 0.4264,
      "step": 8760
    },
    {
      "epoch": 11.693333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002999774906377598,
      "loss": 0.4358,
      "step": 8770
    },
    {
      "epoch": 11.706666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00029997743616343826,
      "loss": 0.4304,
      "step": 8780
    },
    {
      "epoch": 11.72,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029997738162328537,
      "loss": 0.4532,
      "step": 8790
    },
    {
      "epoch": 11.733333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029997732701730114,
      "loss": 0.4475,
      "step": 8800
    },
    {
      "epoch": 11.746666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029997727234548567,
      "loss": 0.4472,
      "step": 8810
    },
    {
      "epoch": 11.76,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029997721760783886,
      "loss": 0.4592,
      "step": 8820
    },
    {
      "epoch": 11.773333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999771628043608,
      "loss": 0.4511,
      "step": 8830
    },
    {
      "epoch": 11.786666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029997710793505157,
      "loss": 0.4486,
      "step": 8840
    },
    {
      "epoch": 11.8,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002999770529999111,
      "loss": 0.448,
      "step": 8850
    },
    {
      "epoch": 11.813333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029997699799893943,
      "loss": 0.4215,
      "step": 8860
    },
    {
      "epoch": 11.826666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029997694293213664,
      "loss": 0.4344,
      "step": 8870
    },
    {
      "epoch": 11.84,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999768877995027,
      "loss": 0.4463,
      "step": 8880
    },
    {
      "epoch": 11.853333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029997683260103773,
      "loss": 0.4428,
      "step": 8890
    },
    {
      "epoch": 11.866666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999767773367416,
      "loss": 0.4429,
      "step": 8900
    },
    {
      "epoch": 11.88,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00029997672200661446,
      "loss": 0.4221,
      "step": 8910
    },
    {
      "epoch": 11.893333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999766666106563,
      "loss": 0.4323,
      "step": 8920
    },
    {
      "epoch": 11.906666666666666,
      "grad_norm": 0.234375,
      "learning_rate": 0.00029997661114886706,
      "loss": 0.4423,
      "step": 8930
    },
    {
      "epoch": 11.92,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0002999765556212469,
      "loss": 0.4419,
      "step": 8940
    },
    {
      "epoch": 11.933333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029997650002779573,
      "loss": 0.4344,
      "step": 8950
    },
    {
      "epoch": 11.946666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0002999764443685137,
      "loss": 0.438,
      "step": 8960
    },
    {
      "epoch": 11.96,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999763886434007,
      "loss": 0.4336,
      "step": 8970
    },
    {
      "epoch": 11.973333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029997633285245684,
      "loss": 0.4571,
      "step": 8980
    },
    {
      "epoch": 11.986666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029997627699568206,
      "loss": 0.4375,
      "step": 8990
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029997622107307654,
      "loss": 0.4293,
      "step": 9000
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.45683753490448,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7352,
      "eval_samples_per_second": 1.644,
      "eval_steps_per_second": 0.103,
      "step": 9000
    },
    {
      "epoch": 12.013333333333334,
      "grad_norm": 0.220703125,
      "learning_rate": 0.00029997616508464016,
      "loss": 0.4487,
      "step": 9010
    },
    {
      "epoch": 12.026666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000299976109030373,
      "loss": 0.4567,
      "step": 9020
    },
    {
      "epoch": 12.04,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029997605291027504,
      "loss": 0.4689,
      "step": 9030
    },
    {
      "epoch": 12.053333333333333,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.00029997599672434636,
      "loss": 0.4576,
      "step": 9040
    },
    {
      "epoch": 12.066666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299975940472587,
      "loss": 0.4448,
      "step": 9050
    },
    {
      "epoch": 12.08,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029997588415499695,
      "loss": 0.4489,
      "step": 9060
    },
    {
      "epoch": 12.093333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002999758277715762,
      "loss": 0.4478,
      "step": 9070
    },
    {
      "epoch": 12.106666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999757713223248,
      "loss": 0.4365,
      "step": 9080
    },
    {
      "epoch": 12.12,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999757148072428,
      "loss": 0.4431,
      "step": 9090
    },
    {
      "epoch": 12.133333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002999756582263302,
      "loss": 0.4375,
      "step": 9100
    },
    {
      "epoch": 12.146666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999756015795871,
      "loss": 0.4543,
      "step": 9110
    },
    {
      "epoch": 12.16,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002999755448670134,
      "loss": 0.4454,
      "step": 9120
    },
    {
      "epoch": 12.173333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002999754880886092,
      "loss": 0.4371,
      "step": 9130
    },
    {
      "epoch": 12.186666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029997543124437453,
      "loss": 0.4386,
      "step": 9140
    },
    {
      "epoch": 12.2,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999753743343094,
      "loss": 0.4327,
      "step": 9150
    },
    {
      "epoch": 12.213333333333333,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029997531735841376,
      "loss": 0.4344,
      "step": 9160
    },
    {
      "epoch": 12.226666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029997526031668776,
      "loss": 0.4474,
      "step": 9170
    },
    {
      "epoch": 12.24,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029997520320913134,
      "loss": 0.4295,
      "step": 9180
    },
    {
      "epoch": 12.253333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999751460357446,
      "loss": 0.4334,
      "step": 9190
    },
    {
      "epoch": 12.266666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999750887965275,
      "loss": 0.4339,
      "step": 9200
    },
    {
      "epoch": 12.28,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999750314914801,
      "loss": 0.4632,
      "step": 9210
    },
    {
      "epoch": 12.293333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999749741206024,
      "loss": 0.42,
      "step": 9220
    },
    {
      "epoch": 12.306666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029997491668389437,
      "loss": 0.443,
      "step": 9230
    },
    {
      "epoch": 12.32,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999748591813562,
      "loss": 0.443,
      "step": 9240
    },
    {
      "epoch": 12.333333333333334,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029997480161298774,
      "loss": 0.4512,
      "step": 9250
    },
    {
      "epoch": 12.346666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999747439787891,
      "loss": 0.4421,
      "step": 9260
    },
    {
      "epoch": 12.36,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002999746862787604,
      "loss": 0.4457,
      "step": 9270
    },
    {
      "epoch": 12.373333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029997462851290144,
      "loss": 0.4409,
      "step": 9280
    },
    {
      "epoch": 12.386666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002999745706812124,
      "loss": 0.4363,
      "step": 9290
    },
    {
      "epoch": 12.4,
      "grad_norm": 0.2109375,
      "learning_rate": 0.00029997451278369327,
      "loss": 0.4411,
      "step": 9300
    },
    {
      "epoch": 12.413333333333334,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029997445482034415,
      "loss": 0.4465,
      "step": 9310
    },
    {
      "epoch": 12.426666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.00029997439679116486,
      "loss": 0.4483,
      "step": 9320
    },
    {
      "epoch": 12.44,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029997433869615565,
      "loss": 0.4567,
      "step": 9330
    },
    {
      "epoch": 12.453333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029997428053531644,
      "loss": 0.448,
      "step": 9340
    },
    {
      "epoch": 12.466666666666667,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029997422230864724,
      "loss": 0.4585,
      "step": 9350
    },
    {
      "epoch": 12.48,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029997416401614815,
      "loss": 0.4389,
      "step": 9360
    },
    {
      "epoch": 12.493333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029997410565781913,
      "loss": 0.4516,
      "step": 9370
    },
    {
      "epoch": 12.506666666666666,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029997404723366023,
      "loss": 0.445,
      "step": 9380
    },
    {
      "epoch": 12.52,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.00029997398874367145,
      "loss": 0.4361,
      "step": 9390
    },
    {
      "epoch": 12.533333333333333,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999739301878529,
      "loss": 0.44,
      "step": 9400
    },
    {
      "epoch": 12.546666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002999738715662045,
      "loss": 0.4427,
      "step": 9410
    },
    {
      "epoch": 12.56,
      "grad_norm": 0.2001953125,
      "learning_rate": 0.00029997381287872634,
      "loss": 0.4356,
      "step": 9420
    },
    {
      "epoch": 12.573333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999737541254184,
      "loss": 0.4373,
      "step": 9430
    },
    {
      "epoch": 12.586666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999736953062807,
      "loss": 0.4264,
      "step": 9440
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.00029997363642131336,
      "loss": 0.4313,
      "step": 9450
    },
    {
      "epoch": 12.613333333333333,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0002999735774705163,
      "loss": 0.4154,
      "step": 9460
    },
    {
      "epoch": 12.626666666666667,
      "grad_norm": 0.2060546875,
      "learning_rate": 0.0002999735184538896,
      "loss": 0.4201,
      "step": 9470
    },
    {
      "epoch": 12.64,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002999734593714333,
      "loss": 0.4367,
      "step": 9480
    },
    {
      "epoch": 12.653333333333332,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029997340022314736,
      "loss": 0.4466,
      "step": 9490
    },
    {
      "epoch": 12.666666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029997334100903187,
      "loss": 0.431,
      "step": 9500
    },
    {
      "epoch": 12.68,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.0002999732817290868,
      "loss": 0.4252,
      "step": 9510
    },
    {
      "epoch": 12.693333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029997322238331227,
      "loss": 0.4331,
      "step": 9520
    },
    {
      "epoch": 12.706666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999731629717082,
      "loss": 0.4274,
      "step": 9530
    },
    {
      "epoch": 12.72,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029997310349427466,
      "loss": 0.4518,
      "step": 9540
    },
    {
      "epoch": 12.733333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999730439510117,
      "loss": 0.4456,
      "step": 9550
    },
    {
      "epoch": 12.746666666666666,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002999729843419193,
      "loss": 0.4449,
      "step": 9560
    },
    {
      "epoch": 12.76,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002999729246669975,
      "loss": 0.4575,
      "step": 9570
    },
    {
      "epoch": 12.773333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029997286492624637,
      "loss": 0.4491,
      "step": 9580
    },
    {
      "epoch": 12.786666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999728051196659,
      "loss": 0.4468,
      "step": 9590
    },
    {
      "epoch": 12.8,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029997274524725607,
      "loss": 0.4464,
      "step": 9600
    },
    {
      "epoch": 12.813333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029997268530901697,
      "loss": 0.4181,
      "step": 9610
    },
    {
      "epoch": 12.826666666666666,
      "grad_norm": 0.224609375,
      "learning_rate": 0.0002999726253049487,
      "loss": 0.432,
      "step": 9620
    },
    {
      "epoch": 12.84,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002999725652350511,
      "loss": 0.4446,
      "step": 9630
    },
    {
      "epoch": 12.853333333333333,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999725050993243,
      "loss": 0.4398,
      "step": 9640
    },
    {
      "epoch": 12.866666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00029997244489776833,
      "loss": 0.441,
      "step": 9650
    },
    {
      "epoch": 12.88,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999723846303832,
      "loss": 0.4183,
      "step": 9660
    },
    {
      "epoch": 12.893333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000299972324297169,
      "loss": 0.4293,
      "step": 9670
    },
    {
      "epoch": 12.906666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002999722638981256,
      "loss": 0.4397,
      "step": 9680
    },
    {
      "epoch": 12.92,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999722034332532,
      "loss": 0.4406,
      "step": 9690
    },
    {
      "epoch": 12.933333333333334,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.00029997214290255174,
      "loss": 0.4319,
      "step": 9700
    },
    {
      "epoch": 12.946666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.00029997208230602123,
      "loss": 0.4358,
      "step": 9710
    },
    {
      "epoch": 12.96,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999720216436617,
      "loss": 0.4312,
      "step": 9720
    },
    {
      "epoch": 12.973333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029997196091547323,
      "loss": 0.4561,
      "step": 9730
    },
    {
      "epoch": 12.986666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002999719001214559,
      "loss": 0.4355,
      "step": 9740
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00029997183926160954,
      "loss": 0.4264,
      "step": 9750
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.4540138244628906,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.7218,
      "eval_samples_per_second": 1.492,
      "eval_steps_per_second": 0.093,
      "step": 9750
    },
    {
      "epoch": 13.013333333333334,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029997177833593434,
      "loss": 0.4469,
      "step": 9760
    },
    {
      "epoch": 13.026666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999717173444303,
      "loss": 0.4563,
      "step": 9770
    },
    {
      "epoch": 13.04,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00029997165628709737,
      "loss": 0.4677,
      "step": 9780
    },
    {
      "epoch": 13.053333333333333,
      "grad_norm": 0.236328125,
      "learning_rate": 0.00029997159516393566,
      "loss": 0.456,
      "step": 9790
    },
    {
      "epoch": 13.066666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029997153397494516,
      "loss": 0.4425,
      "step": 9800
    },
    {
      "epoch": 13.08,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999714727201259,
      "loss": 0.4457,
      "step": 9810
    },
    {
      "epoch": 13.093333333333334,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999714113994779,
      "loss": 0.445,
      "step": 9820
    },
    {
      "epoch": 13.106666666666667,
      "grad_norm": 0.1982421875,
      "learning_rate": 0.0002999713500130013,
      "loss": 0.4337,
      "step": 9830
    },
    {
      "epoch": 13.12,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002999712885606959,
      "loss": 0.4411,
      "step": 9840
    },
    {
      "epoch": 13.133333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029997122704256195,
      "loss": 0.4338,
      "step": 9850
    },
    {
      "epoch": 13.146666666666667,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0002999711654585993,
      "loss": 0.453,
      "step": 9860
    },
    {
      "epoch": 13.16,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999711038088081,
      "loss": 0.4433,
      "step": 9870
    },
    {
      "epoch": 13.173333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002999710420931883,
      "loss": 0.4357,
      "step": 9880
    },
    {
      "epoch": 13.186666666666667,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00029997098031174003,
      "loss": 0.4371,
      "step": 9890
    },
    {
      "epoch": 13.2,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999709184644632,
      "loss": 0.4322,
      "step": 9900
    },
    {
      "epoch": 13.213333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999708565513579,
      "loss": 0.4324,
      "step": 9910
    },
    {
      "epoch": 13.226666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002999707945724241,
      "loss": 0.4461,
      "step": 9920
    },
    {
      "epoch": 13.24,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999707325276619,
      "loss": 0.4277,
      "step": 9930
    },
    {
      "epoch": 13.253333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999706704170713,
      "loss": 0.4318,
      "step": 9940
    },
    {
      "epoch": 13.266666666666667,
      "grad_norm": 0.20703125,
      "learning_rate": 0.00029997060824065233,
      "loss": 0.4316,
      "step": 9950
    },
    {
      "epoch": 13.28,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.000299970545998405,
      "loss": 0.4625,
      "step": 9960
    },
    {
      "epoch": 13.293333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029997048369032937,
      "loss": 0.4186,
      "step": 9970
    },
    {
      "epoch": 13.306666666666667,
      "grad_norm": 0.220703125,
      "learning_rate": 0.0002999704213164255,
      "loss": 0.4405,
      "step": 9980
    },
    {
      "epoch": 13.32,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999703588766932,
      "loss": 0.4414,
      "step": 9990
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002999702963711328,
      "loss": 0.4494,
      "step": 10000
    },
    {
      "epoch": 13.346666666666668,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029997023379974415,
      "loss": 0.4402,
      "step": 10010
    },
    {
      "epoch": 13.36,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999701711625273,
      "loss": 0.4432,
      "step": 10020
    },
    {
      "epoch": 13.373333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999701084594823,
      "loss": 0.4384,
      "step": 10030
    },
    {
      "epoch": 13.386666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002999700456906092,
      "loss": 0.4347,
      "step": 10040
    },
    {
      "epoch": 13.4,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029996998285590796,
      "loss": 0.4402,
      "step": 10050
    },
    {
      "epoch": 13.413333333333334,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029996991995537867,
      "loss": 0.4447,
      "step": 10060
    },
    {
      "epoch": 13.426666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029996985698902133,
      "loss": 0.4455,
      "step": 10070
    },
    {
      "epoch": 13.44,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029996979395683596,
      "loss": 0.4545,
      "step": 10080
    },
    {
      "epoch": 13.453333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999697308588226,
      "loss": 0.446,
      "step": 10090
    },
    {
      "epoch": 13.466666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029996966769498126,
      "loss": 0.4565,
      "step": 10100
    },
    {
      "epoch": 13.48,
      "grad_norm": 0.236328125,
      "learning_rate": 0.00029996960446531203,
      "loss": 0.4379,
      "step": 10110
    },
    {
      "epoch": 13.493333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999695411698149,
      "loss": 0.4495,
      "step": 10120
    },
    {
      "epoch": 13.506666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999694778084898,
      "loss": 0.4431,
      "step": 10130
    },
    {
      "epoch": 13.52,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00029996941438133694,
      "loss": 0.4343,
      "step": 10140
    },
    {
      "epoch": 13.533333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999693508883562,
      "loss": 0.4375,
      "step": 10150
    },
    {
      "epoch": 13.546666666666667,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999692873295477,
      "loss": 0.4405,
      "step": 10160
    },
    {
      "epoch": 13.56,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029996922370491145,
      "loss": 0.4322,
      "step": 10170
    },
    {
      "epoch": 13.573333333333334,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002999691600144474,
      "loss": 0.4354,
      "step": 10180
    },
    {
      "epoch": 13.586666666666666,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029996909625815566,
      "loss": 0.4263,
      "step": 10190
    },
    {
      "epoch": 13.6,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029996903243603625,
      "loss": 0.4297,
      "step": 10200
    },
    {
      "epoch": 13.613333333333333,
      "grad_norm": 0.232421875,
      "learning_rate": 0.0002999689685480892,
      "loss": 0.4126,
      "step": 10210
    },
    {
      "epoch": 13.626666666666667,
      "grad_norm": 0.1953125,
      "learning_rate": 0.0002999689045943145,
      "loss": 0.4174,
      "step": 10220
    },
    {
      "epoch": 13.64,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999688405747122,
      "loss": 0.4358,
      "step": 10230
    },
    {
      "epoch": 13.653333333333332,
      "grad_norm": 0.212890625,
      "learning_rate": 0.0002999687764892823,
      "loss": 0.446,
      "step": 10240
    },
    {
      "epoch": 13.666666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029996871233802484,
      "loss": 0.4279,
      "step": 10250
    },
    {
      "epoch": 13.68,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029996864812093996,
      "loss": 0.4227,
      "step": 10260
    },
    {
      "epoch": 13.693333333333333,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002999685838380275,
      "loss": 0.4313,
      "step": 10270
    },
    {
      "epoch": 13.706666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002999685194892876,
      "loss": 0.4255,
      "step": 10280
    },
    {
      "epoch": 13.72,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999684550747203,
      "loss": 0.4493,
      "step": 10290
    },
    {
      "epoch": 13.733333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029996839059432556,
      "loss": 0.4438,
      "step": 10300
    },
    {
      "epoch": 13.746666666666666,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999683260481035,
      "loss": 0.4427,
      "step": 10310
    },
    {
      "epoch": 13.76,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002999682614360541,
      "loss": 0.4558,
      "step": 10320
    },
    {
      "epoch": 13.773333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999681967581773,
      "loss": 0.4459,
      "step": 10330
    },
    {
      "epoch": 13.786666666666667,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.00029996813201447326,
      "loss": 0.4449,
      "step": 10340
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000299968067204942,
      "loss": 0.4448,
      "step": 10350
    },
    {
      "epoch": 13.813333333333333,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002999680023295834,
      "loss": 0.4174,
      "step": 10360
    },
    {
      "epoch": 13.826666666666666,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.00029996793738839764,
      "loss": 0.4297,
      "step": 10370
    },
    {
      "epoch": 13.84,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029996787238138474,
      "loss": 0.4422,
      "step": 10380
    },
    {
      "epoch": 13.853333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029996780730854466,
      "loss": 0.4378,
      "step": 10390
    },
    {
      "epoch": 13.866666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029996774216987747,
      "loss": 0.4386,
      "step": 10400
    },
    {
      "epoch": 13.88,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999676769653832,
      "loss": 0.417,
      "step": 10410
    },
    {
      "epoch": 13.893333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029996761169506184,
      "loss": 0.4277,
      "step": 10420
    },
    {
      "epoch": 13.906666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029996754635891346,
      "loss": 0.4377,
      "step": 10430
    },
    {
      "epoch": 13.92,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999674809569381,
      "loss": 0.4384,
      "step": 10440
    },
    {
      "epoch": 13.933333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029996741548913577,
      "loss": 0.431,
      "step": 10450
    },
    {
      "epoch": 13.946666666666667,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00029996734995550646,
      "loss": 0.4339,
      "step": 10460
    },
    {
      "epoch": 13.96,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029996728435605026,
      "loss": 0.4297,
      "step": 10470
    },
    {
      "epoch": 13.973333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999672186907671,
      "loss": 0.4528,
      "step": 10480
    },
    {
      "epoch": 13.986666666666666,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00029996715295965714,
      "loss": 0.4336,
      "step": 10490
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029996708716272034,
      "loss": 0.4242,
      "step": 10500
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.45238059759140015,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6171,
      "eval_samples_per_second": 1.664,
      "eval_steps_per_second": 0.104,
      "step": 10500
    },
    {
      "epoch": 14.013333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029996702129995675,
      "loss": 0.4449,
      "step": 10510
    },
    {
      "epoch": 14.026666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029996695537136636,
      "loss": 0.4541,
      "step": 10520
    },
    {
      "epoch": 14.04,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999668893769493,
      "loss": 0.4659,
      "step": 10530
    },
    {
      "epoch": 14.053333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029996682331670543,
      "loss": 0.4536,
      "step": 10540
    },
    {
      "epoch": 14.066666666666666,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029996675719063493,
      "loss": 0.4403,
      "step": 10550
    },
    {
      "epoch": 14.08,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002999666909987377,
      "loss": 0.4438,
      "step": 10560
    },
    {
      "epoch": 14.093333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029996662474101395,
      "loss": 0.4428,
      "step": 10570
    },
    {
      "epoch": 14.106666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002999665584174635,
      "loss": 0.4323,
      "step": 10580
    },
    {
      "epoch": 14.12,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029996649202808655,
      "loss": 0.4394,
      "step": 10590
    },
    {
      "epoch": 14.133333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.000299966425572883,
      "loss": 0.4323,
      "step": 10600
    },
    {
      "epoch": 14.146666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029996635905185295,
      "loss": 0.4497,
      "step": 10610
    },
    {
      "epoch": 14.16,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029996629246499643,
      "loss": 0.4408,
      "step": 10620
    },
    {
      "epoch": 14.173333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002999662258123135,
      "loss": 0.4343,
      "step": 10630
    },
    {
      "epoch": 14.186666666666667,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002999661590938041,
      "loss": 0.436,
      "step": 10640
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029996609230946826,
      "loss": 0.4298,
      "step": 10650
    },
    {
      "epoch": 14.213333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029996602545930614,
      "loss": 0.4304,
      "step": 10660
    },
    {
      "epoch": 14.226666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029996595854331766,
      "loss": 0.4425,
      "step": 10670
    },
    {
      "epoch": 14.24,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999658915615028,
      "loss": 0.4257,
      "step": 10680
    },
    {
      "epoch": 14.253333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029996582451386177,
      "loss": 0.4296,
      "step": 10690
    },
    {
      "epoch": 14.266666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029996575740039443,
      "loss": 0.4306,
      "step": 10700
    },
    {
      "epoch": 14.28,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002999656902211009,
      "loss": 0.4601,
      "step": 10710
    },
    {
      "epoch": 14.293333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029996562297598115,
      "loss": 0.4157,
      "step": 10720
    },
    {
      "epoch": 14.306666666666667,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029996555566503527,
      "loss": 0.4386,
      "step": 10730
    },
    {
      "epoch": 14.32,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029996548828826325,
      "loss": 0.44,
      "step": 10740
    },
    {
      "epoch": 14.333333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002999654208456651,
      "loss": 0.4476,
      "step": 10750
    },
    {
      "epoch": 14.346666666666668,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999653533372409,
      "loss": 0.4373,
      "step": 10760
    },
    {
      "epoch": 14.36,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029996528576299065,
      "loss": 0.4413,
      "step": 10770
    },
    {
      "epoch": 14.373333333333333,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.0002999652181229144,
      "loss": 0.4368,
      "step": 10780
    },
    {
      "epoch": 14.386666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999651504170122,
      "loss": 0.4334,
      "step": 10790
    },
    {
      "epoch": 14.4,
      "grad_norm": 0.265625,
      "learning_rate": 0.000299965082645284,
      "loss": 0.4386,
      "step": 10800
    },
    {
      "epoch": 14.413333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999650148077299,
      "loss": 0.4425,
      "step": 10810
    },
    {
      "epoch": 14.426666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029996494690434986,
      "loss": 0.4433,
      "step": 10820
    },
    {
      "epoch": 14.44,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000299964878935144,
      "loss": 0.452,
      "step": 10830
    },
    {
      "epoch": 14.453333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999648109001123,
      "loss": 0.4441,
      "step": 10840
    },
    {
      "epoch": 14.466666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029996474279925483,
      "loss": 0.4546,
      "step": 10850
    },
    {
      "epoch": 14.48,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029996467463257154,
      "loss": 0.4359,
      "step": 10860
    },
    {
      "epoch": 14.493333333333334,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999646064000625,
      "loss": 0.4468,
      "step": 10870
    },
    {
      "epoch": 14.506666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999645381017278,
      "loss": 0.4412,
      "step": 10880
    },
    {
      "epoch": 14.52,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029996446973756737,
      "loss": 0.432,
      "step": 10890
    },
    {
      "epoch": 14.533333333333333,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.00029996440130758124,
      "loss": 0.4359,
      "step": 10900
    },
    {
      "epoch": 14.546666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999643328117696,
      "loss": 0.4393,
      "step": 10910
    },
    {
      "epoch": 14.56,
      "grad_norm": 0.1943359375,
      "learning_rate": 0.0002999642642501323,
      "loss": 0.4313,
      "step": 10920
    },
    {
      "epoch": 14.573333333333334,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00029996419562266943,
      "loss": 0.434,
      "step": 10930
    },
    {
      "epoch": 14.586666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000299964126929381,
      "loss": 0.4235,
      "step": 10940
    },
    {
      "epoch": 14.6,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029996405817026716,
      "loss": 0.427,
      "step": 10950
    },
    {
      "epoch": 14.613333333333333,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002999639893453278,
      "loss": 0.4115,
      "step": 10960
    },
    {
      "epoch": 14.626666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000299963920454563,
      "loss": 0.4152,
      "step": 10970
    },
    {
      "epoch": 14.64,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999638514979728,
      "loss": 0.4331,
      "step": 10980
    },
    {
      "epoch": 14.653333333333332,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029996378247555715,
      "loss": 0.4434,
      "step": 10990
    },
    {
      "epoch": 14.666666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999637133873162,
      "loss": 0.4273,
      "step": 11000
    },
    {
      "epoch": 14.68,
      "grad_norm": 0.22265625,
      "learning_rate": 0.00029996364423324996,
      "loss": 0.4211,
      "step": 11010
    },
    {
      "epoch": 14.693333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029996357501335837,
      "loss": 0.43,
      "step": 11020
    },
    {
      "epoch": 14.706666666666667,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029996350572764156,
      "loss": 0.4232,
      "step": 11030
    },
    {
      "epoch": 14.72,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029996343637609947,
      "loss": 0.4484,
      "step": 11040
    },
    {
      "epoch": 14.733333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999633669587322,
      "loss": 0.4418,
      "step": 11050
    },
    {
      "epoch": 14.746666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999632974755398,
      "loss": 0.4401,
      "step": 11060
    },
    {
      "epoch": 14.76,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029996322792652226,
      "loss": 0.4541,
      "step": 11070
    },
    {
      "epoch": 14.773333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029996315831167956,
      "loss": 0.4449,
      "step": 11080
    },
    {
      "epoch": 14.786666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999630886310118,
      "loss": 0.4429,
      "step": 11090
    },
    {
      "epoch": 14.8,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000299963018884519,
      "loss": 0.4421,
      "step": 11100
    },
    {
      "epoch": 14.813333333333333,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029996294907220117,
      "loss": 0.4152,
      "step": 11110
    },
    {
      "epoch": 14.826666666666666,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00029996287919405835,
      "loss": 0.4289,
      "step": 11120
    },
    {
      "epoch": 14.84,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999628092500906,
      "loss": 0.4401,
      "step": 11130
    },
    {
      "epoch": 14.853333333333333,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.0002999627392402979,
      "loss": 0.4355,
      "step": 11140
    },
    {
      "epoch": 14.866666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029996266916468034,
      "loss": 0.4367,
      "step": 11150
    },
    {
      "epoch": 14.88,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999625990232379,
      "loss": 0.4162,
      "step": 11160
    },
    {
      "epoch": 14.893333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999625288159706,
      "loss": 0.4259,
      "step": 11170
    },
    {
      "epoch": 14.906666666666666,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029996245854287855,
      "loss": 0.4357,
      "step": 11180
    },
    {
      "epoch": 14.92,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999623882039617,
      "loss": 0.4361,
      "step": 11190
    },
    {
      "epoch": 14.933333333333334,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.00029996231779922007,
      "loss": 0.4282,
      "step": 11200
    },
    {
      "epoch": 14.946666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029996224732865384,
      "loss": 0.4315,
      "step": 11210
    },
    {
      "epoch": 14.96,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002999621767922628,
      "loss": 0.4275,
      "step": 11220
    },
    {
      "epoch": 14.973333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029996210619004723,
      "loss": 0.4521,
      "step": 11230
    },
    {
      "epoch": 14.986666666666666,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029996203552200697,
      "loss": 0.432,
      "step": 11240
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.232421875,
      "learning_rate": 0.00029996196478814213,
      "loss": 0.4228,
      "step": 11250
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.45217302441596985,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8036,
      "eval_samples_per_second": 1.632,
      "eval_steps_per_second": 0.102,
      "step": 11250
    },
    {
      "epoch": 15.013333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999618939884528,
      "loss": 0.4431,
      "step": 11260
    },
    {
      "epoch": 15.026666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029996182312293885,
      "loss": 0.4525,
      "step": 11270
    },
    {
      "epoch": 15.04,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029996175219160047,
      "loss": 0.4643,
      "step": 11280
    },
    {
      "epoch": 15.053333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029996168119443756,
      "loss": 0.4521,
      "step": 11290
    },
    {
      "epoch": 15.066666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999616101314503,
      "loss": 0.4392,
      "step": 11300
    },
    {
      "epoch": 15.08,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029996153900263865,
      "loss": 0.4426,
      "step": 11310
    },
    {
      "epoch": 15.093333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999614678080026,
      "loss": 0.4416,
      "step": 11320
    },
    {
      "epoch": 15.106666666666667,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999613965475422,
      "loss": 0.4297,
      "step": 11330
    },
    {
      "epoch": 15.12,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002999613252212575,
      "loss": 0.4368,
      "step": 11340
    },
    {
      "epoch": 15.133333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002999612538291485,
      "loss": 0.4299,
      "step": 11350
    },
    {
      "epoch": 15.146666666666667,
      "grad_norm": 0.2275390625,
      "learning_rate": 0.0002999611823712153,
      "loss": 0.4482,
      "step": 11360
    },
    {
      "epoch": 15.16,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002999611108474579,
      "loss": 0.4392,
      "step": 11370
    },
    {
      "epoch": 15.173333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002999610392578763,
      "loss": 0.4315,
      "step": 11380
    },
    {
      "epoch": 15.186666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999609676024705,
      "loss": 0.4334,
      "step": 11390
    },
    {
      "epoch": 15.2,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999608958812407,
      "loss": 0.4282,
      "step": 11400
    },
    {
      "epoch": 15.213333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999608240941867,
      "loss": 0.428,
      "step": 11410
    },
    {
      "epoch": 15.226666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029996075224130873,
      "loss": 0.4416,
      "step": 11420
    },
    {
      "epoch": 15.24,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999606803226067,
      "loss": 0.4238,
      "step": 11430
    },
    {
      "epoch": 15.253333333333334,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002999606083380807,
      "loss": 0.4277,
      "step": 11440
    },
    {
      "epoch": 15.266666666666667,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029996053628773074,
      "loss": 0.4271,
      "step": 11450
    },
    {
      "epoch": 15.28,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999604641715568,
      "loss": 0.4584,
      "step": 11460
    },
    {
      "epoch": 15.293333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029996039198955897,
      "loss": 0.4143,
      "step": 11470
    },
    {
      "epoch": 15.306666666666667,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002999603197417373,
      "loss": 0.4363,
      "step": 11480
    },
    {
      "epoch": 15.32,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029996024742809184,
      "loss": 0.4378,
      "step": 11490
    },
    {
      "epoch": 15.333333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029996017504862256,
      "loss": 0.4463,
      "step": 11500
    },
    {
      "epoch": 15.346666666666668,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029996010260332953,
      "loss": 0.4354,
      "step": 11510
    },
    {
      "epoch": 15.36,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999600300922127,
      "loss": 0.4404,
      "step": 11520
    },
    {
      "epoch": 15.373333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002999599575152722,
      "loss": 0.4349,
      "step": 11530
    },
    {
      "epoch": 15.386666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029995988487250804,
      "loss": 0.4304,
      "step": 11540
    },
    {
      "epoch": 15.4,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029995981216392024,
      "loss": 0.4352,
      "step": 11550
    },
    {
      "epoch": 15.413333333333334,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999597393895088,
      "loss": 0.4407,
      "step": 11560
    },
    {
      "epoch": 15.426666666666666,
      "grad_norm": 0.21875,
      "learning_rate": 0.00029995966654927376,
      "loss": 0.4417,
      "step": 11570
    },
    {
      "epoch": 15.44,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029995959364321524,
      "loss": 0.4507,
      "step": 11580
    },
    {
      "epoch": 15.453333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999595206713332,
      "loss": 0.4414,
      "step": 11590
    },
    {
      "epoch": 15.466666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999594476336276,
      "loss": 0.4518,
      "step": 11600
    },
    {
      "epoch": 15.48,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002999593745300986,
      "loss": 0.4327,
      "step": 11610
    },
    {
      "epoch": 15.493333333333334,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999593013607462,
      "loss": 0.4447,
      "step": 11620
    },
    {
      "epoch": 15.506666666666666,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999592281255704,
      "loss": 0.4389,
      "step": 11630
    },
    {
      "epoch": 15.52,
      "grad_norm": 0.2158203125,
      "learning_rate": 0.0002999591548245713,
      "loss": 0.4306,
      "step": 11640
    },
    {
      "epoch": 15.533333333333333,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002999590814577488,
      "loss": 0.4345,
      "step": 11650
    },
    {
      "epoch": 15.546666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000299959008025103,
      "loss": 0.4375,
      "step": 11660
    },
    {
      "epoch": 15.56,
      "grad_norm": 0.23828125,
      "learning_rate": 0.000299958934526634,
      "loss": 0.4299,
      "step": 11670
    },
    {
      "epoch": 15.573333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029995886096234175,
      "loss": 0.4329,
      "step": 11680
    },
    {
      "epoch": 15.586666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002999587873322263,
      "loss": 0.4213,
      "step": 11690
    },
    {
      "epoch": 15.6,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002999587136362877,
      "loss": 0.4254,
      "step": 11700
    },
    {
      "epoch": 15.613333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.000299958639874526,
      "loss": 0.4097,
      "step": 11710
    },
    {
      "epoch": 15.626666666666667,
      "grad_norm": 0.22265625,
      "learning_rate": 0.0002999585660469412,
      "loss": 0.4148,
      "step": 11720
    },
    {
      "epoch": 15.64,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029995849215353333,
      "loss": 0.4314,
      "step": 11730
    },
    {
      "epoch": 15.653333333333332,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999584181943024,
      "loss": 0.4416,
      "step": 11740
    },
    {
      "epoch": 15.666666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999583441692485,
      "loss": 0.4246,
      "step": 11750
    },
    {
      "epoch": 15.68,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029995827007837163,
      "loss": 0.4194,
      "step": 11760
    },
    {
      "epoch": 15.693333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029995819592167186,
      "loss": 0.4285,
      "step": 11770
    },
    {
      "epoch": 15.706666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029995812169914915,
      "loss": 0.4221,
      "step": 11780
    },
    {
      "epoch": 15.72,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002999580474108036,
      "loss": 0.4462,
      "step": 11790
    },
    {
      "epoch": 15.733333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029995797305663516,
      "loss": 0.4401,
      "step": 11800
    },
    {
      "epoch": 15.746666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029995789863664394,
      "loss": 0.4399,
      "step": 11810
    },
    {
      "epoch": 15.76,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029995782415083,
      "loss": 0.4528,
      "step": 11820
    },
    {
      "epoch": 15.773333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029995774959919327,
      "loss": 0.4445,
      "step": 11830
    },
    {
      "epoch": 15.786666666666667,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029995767498173386,
      "loss": 0.4404,
      "step": 11840
    },
    {
      "epoch": 15.8,
      "grad_norm": 0.234375,
      "learning_rate": 0.0002999576002984518,
      "loss": 0.4402,
      "step": 11850
    },
    {
      "epoch": 15.813333333333333,
      "grad_norm": 0.216796875,
      "learning_rate": 0.00029995752554934704,
      "loss": 0.4142,
      "step": 11860
    },
    {
      "epoch": 15.826666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999574507344197,
      "loss": 0.4266,
      "step": 11870
    },
    {
      "epoch": 15.84,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999573758536698,
      "loss": 0.4389,
      "step": 11880
    },
    {
      "epoch": 15.853333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999573009070973,
      "loss": 0.4334,
      "step": 11890
    },
    {
      "epoch": 15.866666666666667,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029995722589470236,
      "loss": 0.4356,
      "step": 11900
    },
    {
      "epoch": 15.88,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029995715081648495,
      "loss": 0.4136,
      "step": 11910
    },
    {
      "epoch": 15.893333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999570756724451,
      "loss": 0.4246,
      "step": 11920
    },
    {
      "epoch": 15.906666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002999570004625828,
      "loss": 0.4347,
      "step": 11930
    },
    {
      "epoch": 15.92,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029995692518689816,
      "loss": 0.4357,
      "step": 11940
    },
    {
      "epoch": 15.933333333333334,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999568498453912,
      "loss": 0.4272,
      "step": 11950
    },
    {
      "epoch": 15.946666666666667,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.00029995677443806184,
      "loss": 0.4303,
      "step": 11960
    },
    {
      "epoch": 15.96,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002999566989649103,
      "loss": 0.4263,
      "step": 11970
    },
    {
      "epoch": 15.973333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999566234259365,
      "loss": 0.4511,
      "step": 11980
    },
    {
      "epoch": 15.986666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029995654782114043,
      "loss": 0.4294,
      "step": 11990
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999564721505222,
      "loss": 0.4204,
      "step": 12000
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.4513912796974182,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.483,
      "eval_samples_per_second": 1.526,
      "eval_steps_per_second": 0.095,
      "step": 12000
    },
    {
      "epoch": 16.013333333333332,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002999563964140819,
      "loss": 0.4431,
      "step": 12010
    },
    {
      "epoch": 16.026666666666667,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999563206118194,
      "loss": 0.4505,
      "step": 12020
    },
    {
      "epoch": 16.04,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999562447437349,
      "loss": 0.4627,
      "step": 12030
    },
    {
      "epoch": 16.053333333333335,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002999561688098283,
      "loss": 0.451,
      "step": 12040
    },
    {
      "epoch": 16.066666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999560928100997,
      "loss": 0.4373,
      "step": 12050
    },
    {
      "epoch": 16.08,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029995601674454915,
      "loss": 0.4401,
      "step": 12060
    },
    {
      "epoch": 16.093333333333334,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999559406131766,
      "loss": 0.4402,
      "step": 12070
    },
    {
      "epoch": 16.106666666666666,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029995586441598223,
      "loss": 0.429,
      "step": 12080
    },
    {
      "epoch": 16.12,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029995578815296593,
      "loss": 0.4357,
      "step": 12090
    },
    {
      "epoch": 16.133333333333333,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029995571182412777,
      "loss": 0.4282,
      "step": 12100
    },
    {
      "epoch": 16.14666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002999556354294678,
      "loss": 0.4464,
      "step": 12110
    },
    {
      "epoch": 16.16,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002999555589689861,
      "loss": 0.4377,
      "step": 12120
    },
    {
      "epoch": 16.173333333333332,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999554824426826,
      "loss": 0.43,
      "step": 12130
    },
    {
      "epoch": 16.186666666666667,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029995540585055745,
      "loss": 0.4328,
      "step": 12140
    },
    {
      "epoch": 16.2,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999553291926106,
      "loss": 0.4266,
      "step": 12150
    },
    {
      "epoch": 16.213333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999552524688421,
      "loss": 0.4278,
      "step": 12160
    },
    {
      "epoch": 16.226666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029995517567925193,
      "loss": 0.4396,
      "step": 12170
    },
    {
      "epoch": 16.24,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999550988238403,
      "loss": 0.4242,
      "step": 12180
    },
    {
      "epoch": 16.253333333333334,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002999550219026071,
      "loss": 0.425,
      "step": 12190
    },
    {
      "epoch": 16.266666666666666,
      "grad_norm": 0.2197265625,
      "learning_rate": 0.00029995494491555233,
      "loss": 0.426,
      "step": 12200
    },
    {
      "epoch": 16.28,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029995486786267615,
      "loss": 0.4568,
      "step": 12210
    },
    {
      "epoch": 16.293333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999547907439785,
      "loss": 0.4136,
      "step": 12220
    },
    {
      "epoch": 16.306666666666665,
      "grad_norm": 0.23828125,
      "learning_rate": 0.00029995471355945947,
      "loss": 0.4352,
      "step": 12230
    },
    {
      "epoch": 16.32,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00029995463630911906,
      "loss": 0.4364,
      "step": 12240
    },
    {
      "epoch": 16.333333333333332,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029995455899295735,
      "loss": 0.4447,
      "step": 12250
    },
    {
      "epoch": 16.346666666666668,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029995448161097425,
      "loss": 0.4344,
      "step": 12260
    },
    {
      "epoch": 16.36,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029995440416316995,
      "loss": 0.4372,
      "step": 12270
    },
    {
      "epoch": 16.373333333333335,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029995432664954434,
      "loss": 0.4325,
      "step": 12280
    },
    {
      "epoch": 16.386666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999542490700976,
      "loss": 0.4296,
      "step": 12290
    },
    {
      "epoch": 16.4,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999541714248297,
      "loss": 0.4342,
      "step": 12300
    },
    {
      "epoch": 16.413333333333334,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999540937137406,
      "loss": 0.4392,
      "step": 12310
    },
    {
      "epoch": 16.426666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999540159368305,
      "loss": 0.4398,
      "step": 12320
    },
    {
      "epoch": 16.44,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999539380940992,
      "loss": 0.4495,
      "step": 12330
    },
    {
      "epoch": 16.453333333333333,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029995386018554697,
      "loss": 0.441,
      "step": 12340
    },
    {
      "epoch": 16.466666666666665,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999537822111737,
      "loss": 0.4501,
      "step": 12350
    },
    {
      "epoch": 16.48,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002999537041709795,
      "loss": 0.4315,
      "step": 12360
    },
    {
      "epoch": 16.493333333333332,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029995362606496435,
      "loss": 0.4426,
      "step": 12370
    },
    {
      "epoch": 16.506666666666668,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999535478931283,
      "loss": 0.4372,
      "step": 12380
    },
    {
      "epoch": 16.52,
      "grad_norm": 0.193359375,
      "learning_rate": 0.00029995346965547135,
      "loss": 0.428,
      "step": 12390
    },
    {
      "epoch": 16.533333333333335,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029995339135199366,
      "loss": 0.4325,
      "step": 12400
    },
    {
      "epoch": 16.546666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029995331298269515,
      "loss": 0.4352,
      "step": 12410
    },
    {
      "epoch": 16.56,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999532345475759,
      "loss": 0.4282,
      "step": 12420
    },
    {
      "epoch": 16.573333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999531560466359,
      "loss": 0.4307,
      "step": 12430
    },
    {
      "epoch": 16.586666666666666,
      "grad_norm": 0.2109375,
      "learning_rate": 0.0002999530774798752,
      "loss": 0.4191,
      "step": 12440
    },
    {
      "epoch": 16.6,
      "grad_norm": 0.21875,
      "learning_rate": 0.00029995299884729386,
      "loss": 0.4233,
      "step": 12450
    },
    {
      "epoch": 16.613333333333333,
      "grad_norm": 0.212890625,
      "learning_rate": 0.00029995292014889195,
      "loss": 0.4088,
      "step": 12460
    },
    {
      "epoch": 16.626666666666665,
      "grad_norm": 0.205078125,
      "learning_rate": 0.0002999528413846694,
      "loss": 0.4136,
      "step": 12470
    },
    {
      "epoch": 16.64,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002999527625546263,
      "loss": 0.43,
      "step": 12480
    },
    {
      "epoch": 16.653333333333332,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029995268365876266,
      "loss": 0.44,
      "step": 12490
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029995260469707863,
      "loss": 0.424,
      "step": 12500
    },
    {
      "epoch": 16.68,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029995252566957404,
      "loss": 0.4172,
      "step": 12510
    },
    {
      "epoch": 16.693333333333335,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002999524465762491,
      "loss": 0.4266,
      "step": 12520
    },
    {
      "epoch": 16.706666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002999523674171038,
      "loss": 0.4207,
      "step": 12530
    },
    {
      "epoch": 16.72,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029995228819213815,
      "loss": 0.4449,
      "step": 12540
    },
    {
      "epoch": 16.733333333333334,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999522089013522,
      "loss": 0.4371,
      "step": 12550
    },
    {
      "epoch": 16.746666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029995212954474595,
      "loss": 0.4393,
      "step": 12560
    },
    {
      "epoch": 16.76,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029995205012231947,
      "loss": 0.4511,
      "step": 12570
    },
    {
      "epoch": 16.773333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029995197063407275,
      "loss": 0.4423,
      "step": 12580
    },
    {
      "epoch": 16.786666666666665,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029995189108000597,
      "loss": 0.4394,
      "step": 12590
    },
    {
      "epoch": 16.8,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029995181146011895,
      "loss": 0.4392,
      "step": 12600
    },
    {
      "epoch": 16.813333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029995173177441186,
      "loss": 0.4117,
      "step": 12610
    },
    {
      "epoch": 16.826666666666668,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029995165202288476,
      "loss": 0.4252,
      "step": 12620
    },
    {
      "epoch": 16.84,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002999515722055376,
      "loss": 0.4377,
      "step": 12630
    },
    {
      "epoch": 16.85333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029995149232237044,
      "loss": 0.4317,
      "step": 12640
    },
    {
      "epoch": 16.866666666666667,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002999514123733833,
      "loss": 0.4336,
      "step": 12650
    },
    {
      "epoch": 16.88,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999513323585763,
      "loss": 0.4125,
      "step": 12660
    },
    {
      "epoch": 16.893333333333334,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029995125227794936,
      "loss": 0.4231,
      "step": 12670
    },
    {
      "epoch": 16.906666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002999511721315026,
      "loss": 0.4333,
      "step": 12680
    },
    {
      "epoch": 16.92,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029995109191923596,
      "loss": 0.4335,
      "step": 12690
    },
    {
      "epoch": 16.933333333333334,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999510116411496,
      "loss": 0.4266,
      "step": 12700
    },
    {
      "epoch": 16.946666666666665,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999509312972435,
      "loss": 0.4288,
      "step": 12710
    },
    {
      "epoch": 16.96,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002999508508875176,
      "loss": 0.4252,
      "step": 12720
    },
    {
      "epoch": 16.973333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999507704119721,
      "loss": 0.449,
      "step": 12730
    },
    {
      "epoch": 16.986666666666668,
      "grad_norm": 0.24609375,
      "learning_rate": 0.000299950689870607,
      "loss": 0.4282,
      "step": 12740
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002999506092634222,
      "loss": 0.4195,
      "step": 12750
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.44931259751319885,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8797,
      "eval_samples_per_second": 1.619,
      "eval_steps_per_second": 0.101,
      "step": 12750
    },
    {
      "epoch": 17.013333333333332,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029995052859041786,
      "loss": 0.4397,
      "step": 12760
    },
    {
      "epoch": 17.026666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999504478515941,
      "loss": 0.4488,
      "step": 12770
    },
    {
      "epoch": 17.04,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029995036704695067,
      "loss": 0.4607,
      "step": 12780
    },
    {
      "epoch": 17.053333333333335,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999502861764879,
      "loss": 0.4479,
      "step": 12790
    },
    {
      "epoch": 17.066666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029995020524020564,
      "loss": 0.4363,
      "step": 12800
    },
    {
      "epoch": 17.08,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029995012423810396,
      "loss": 0.439,
      "step": 12810
    },
    {
      "epoch": 17.093333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000299950043170183,
      "loss": 0.4397,
      "step": 12820
    },
    {
      "epoch": 17.106666666666666,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999499620364426,
      "loss": 0.4278,
      "step": 12830
    },
    {
      "epoch": 17.12,
      "grad_norm": 0.251953125,
      "learning_rate": 0.000299949880836883,
      "loss": 0.4345,
      "step": 12840
    },
    {
      "epoch": 17.133333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999497995715042,
      "loss": 0.4264,
      "step": 12850
    },
    {
      "epoch": 17.14666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.00029994971824030614,
      "loss": 0.4446,
      "step": 12860
    },
    {
      "epoch": 17.16,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029994963684328886,
      "loss": 0.4363,
      "step": 12870
    },
    {
      "epoch": 17.173333333333332,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029994955538045244,
      "loss": 0.43,
      "step": 12880
    },
    {
      "epoch": 17.186666666666667,
      "grad_norm": 0.80078125,
      "learning_rate": 0.000299949473851797,
      "loss": 0.4309,
      "step": 12890
    },
    {
      "epoch": 17.2,
      "grad_norm": 1.171875,
      "learning_rate": 0.0002999493922573224,
      "loss": 0.4258,
      "step": 12900
    },
    {
      "epoch": 17.213333333333335,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002999493105970288,
      "loss": 0.4269,
      "step": 12910
    },
    {
      "epoch": 17.226666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002999492288709162,
      "loss": 0.4384,
      "step": 12920
    },
    {
      "epoch": 17.24,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999491470789846,
      "loss": 0.421,
      "step": 12930
    },
    {
      "epoch": 17.253333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002999490652212341,
      "loss": 0.4248,
      "step": 12940
    },
    {
      "epoch": 17.266666666666666,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999489832976647,
      "loss": 0.4257,
      "step": 12950
    },
    {
      "epoch": 17.28,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029994890130827646,
      "loss": 0.4558,
      "step": 12960
    },
    {
      "epoch": 17.293333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029994881925306943,
      "loss": 0.412,
      "step": 12970
    },
    {
      "epoch": 17.306666666666665,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999487371320436,
      "loss": 0.4334,
      "step": 12980
    },
    {
      "epoch": 17.32,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029994865494519895,
      "loss": 0.4336,
      "step": 12990
    },
    {
      "epoch": 17.333333333333332,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999485726925356,
      "loss": 0.4422,
      "step": 13000
    },
    {
      "epoch": 17.346666666666668,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029994849037405367,
      "loss": 0.4323,
      "step": 13010
    },
    {
      "epoch": 17.36,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.000299948407989753,
      "loss": 0.4368,
      "step": 13020
    },
    {
      "epoch": 17.373333333333335,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999483255396338,
      "loss": 0.4327,
      "step": 13030
    },
    {
      "epoch": 17.386666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299948243023696,
      "loss": 0.427,
      "step": 13040
    },
    {
      "epoch": 17.4,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.00029994816044193965,
      "loss": 0.4327,
      "step": 13050
    },
    {
      "epoch": 17.413333333333334,
      "grad_norm": 0.228515625,
      "learning_rate": 0.00029994807779436483,
      "loss": 0.4376,
      "step": 13060
    },
    {
      "epoch": 17.426666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029994799508097157,
      "loss": 0.4384,
      "step": 13070
    },
    {
      "epoch": 17.44,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999479123017598,
      "loss": 0.4479,
      "step": 13080
    },
    {
      "epoch": 17.453333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999478294567297,
      "loss": 0.4395,
      "step": 13090
    },
    {
      "epoch": 17.466666666666665,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002999477465458813,
      "loss": 0.4484,
      "step": 13100
    },
    {
      "epoch": 17.48,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029994766356921456,
      "loss": 0.4298,
      "step": 13110
    },
    {
      "epoch": 17.493333333333332,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999475805267295,
      "loss": 0.442,
      "step": 13120
    },
    {
      "epoch": 17.506666666666668,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999474974184262,
      "loss": 0.4354,
      "step": 13130
    },
    {
      "epoch": 17.52,
      "grad_norm": 0.2119140625,
      "learning_rate": 0.00029994741424430477,
      "loss": 0.4267,
      "step": 13140
    },
    {
      "epoch": 17.533333333333335,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029994733100436515,
      "loss": 0.4308,
      "step": 13150
    },
    {
      "epoch": 17.546666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029994724769860735,
      "loss": 0.4342,
      "step": 13160
    },
    {
      "epoch": 17.56,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999471643270315,
      "loss": 0.4272,
      "step": 13170
    },
    {
      "epoch": 17.573333333333334,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029994708088963755,
      "loss": 0.4301,
      "step": 13180
    },
    {
      "epoch": 17.586666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999469973864256,
      "loss": 0.4196,
      "step": 13190
    },
    {
      "epoch": 17.6,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.00029994691381739566,
      "loss": 0.4226,
      "step": 13200
    },
    {
      "epoch": 17.613333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999468301825478,
      "loss": 0.4069,
      "step": 13210
    },
    {
      "epoch": 17.626666666666665,
      "grad_norm": 0.265625,
      "learning_rate": 0.000299946746481882,
      "loss": 0.4119,
      "step": 13220
    },
    {
      "epoch": 17.64,
      "grad_norm": 0.2421875,
      "learning_rate": 0.00029994666271539834,
      "loss": 0.4276,
      "step": 13230
    },
    {
      "epoch": 17.653333333333332,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029994657888309683,
      "loss": 0.4382,
      "step": 13240
    },
    {
      "epoch": 17.666666666666668,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002999464949849775,
      "loss": 0.4229,
      "step": 13250
    },
    {
      "epoch": 17.68,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029994641102104044,
      "loss": 0.4169,
      "step": 13260
    },
    {
      "epoch": 17.693333333333335,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029994632699128566,
      "loss": 0.4249,
      "step": 13270
    },
    {
      "epoch": 17.706666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029994624289571314,
      "loss": 0.4196,
      "step": 13280
    },
    {
      "epoch": 17.72,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029994615873432304,
      "loss": 0.4427,
      "step": 13290
    },
    {
      "epoch": 17.733333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029994607450711526,
      "loss": 0.4367,
      "step": 13300
    },
    {
      "epoch": 17.746666666666666,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029994599021408995,
      "loss": 0.437,
      "step": 13310
    },
    {
      "epoch": 17.76,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029994590585524707,
      "loss": 0.4493,
      "step": 13320
    },
    {
      "epoch": 17.773333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999458214305867,
      "loss": 0.4406,
      "step": 13330
    },
    {
      "epoch": 17.786666666666665,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999457369401088,
      "loss": 0.4382,
      "step": 13340
    },
    {
      "epoch": 17.8,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029994565238381356,
      "loss": 0.4373,
      "step": 13350
    },
    {
      "epoch": 17.813333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029994556776170086,
      "loss": 0.4111,
      "step": 13360
    },
    {
      "epoch": 17.826666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029994548307377085,
      "loss": 0.4235,
      "step": 13370
    },
    {
      "epoch": 17.84,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999453983200235,
      "loss": 0.4352,
      "step": 13380
    },
    {
      "epoch": 17.85333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029994531350045886,
      "loss": 0.4297,
      "step": 13390
    },
    {
      "epoch": 17.866666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029994522861507693,
      "loss": 0.4321,
      "step": 13400
    },
    {
      "epoch": 17.88,
      "grad_norm": 0.234375,
      "learning_rate": 0.00029994514366387786,
      "loss": 0.41,
      "step": 13410
    },
    {
      "epoch": 17.893333333333334,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999450586468616,
      "loss": 0.4212,
      "step": 13420
    },
    {
      "epoch": 17.906666666666666,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999449735640282,
      "loss": 0.4319,
      "step": 13430
    },
    {
      "epoch": 17.92,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029994488841537774,
      "loss": 0.4322,
      "step": 13440
    },
    {
      "epoch": 17.933333333333334,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999448032009102,
      "loss": 0.4255,
      "step": 13450
    },
    {
      "epoch": 17.946666666666665,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029994471792062563,
      "loss": 0.4275,
      "step": 13460
    },
    {
      "epoch": 17.96,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999446325745241,
      "loss": 0.423,
      "step": 13470
    },
    {
      "epoch": 17.973333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029994454716260555,
      "loss": 0.448,
      "step": 13480
    },
    {
      "epoch": 17.986666666666668,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029994446168487014,
      "loss": 0.427,
      "step": 13490
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999443761413179,
      "loss": 0.4181,
      "step": 13500
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.4473983347415924,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.5779,
      "eval_samples_per_second": 1.513,
      "eval_steps_per_second": 0.095,
      "step": 13500
    },
    {
      "epoch": 18.013333333333332,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999442905319488,
      "loss": 0.4376,
      "step": 13510
    },
    {
      "epoch": 18.026666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999442048567628,
      "loss": 0.447,
      "step": 13520
    },
    {
      "epoch": 18.04,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002999441191157602,
      "loss": 0.459,
      "step": 13530
    },
    {
      "epoch": 18.053333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999440333089408,
      "loss": 0.4472,
      "step": 13540
    },
    {
      "epoch": 18.066666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999439474363047,
      "loss": 0.4346,
      "step": 13550
    },
    {
      "epoch": 18.08,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000299943861497852,
      "loss": 0.4375,
      "step": 13560
    },
    {
      "epoch": 18.093333333333334,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999437754935827,
      "loss": 0.4367,
      "step": 13570
    },
    {
      "epoch": 18.106666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029994368942349675,
      "loss": 0.4251,
      "step": 13580
    },
    {
      "epoch": 18.12,
      "grad_norm": 0.25,
      "learning_rate": 0.00029994360328759436,
      "loss": 0.4327,
      "step": 13590
    },
    {
      "epoch": 18.133333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999435170858754,
      "loss": 0.4242,
      "step": 13600
    },
    {
      "epoch": 18.14666666666667,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.00029994343081834004,
      "loss": 0.4431,
      "step": 13610
    },
    {
      "epoch": 18.16,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002999433444849882,
      "loss": 0.4355,
      "step": 13620
    },
    {
      "epoch": 18.173333333333332,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002999432580858201,
      "loss": 0.4283,
      "step": 13630
    },
    {
      "epoch": 18.186666666666667,
      "grad_norm": 0.23046875,
      "learning_rate": 0.00029994317162083554,
      "loss": 0.4294,
      "step": 13640
    },
    {
      "epoch": 18.2,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002999430850900347,
      "loss": 0.4241,
      "step": 13650
    },
    {
      "epoch": 18.213333333333335,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999429984934176,
      "loss": 0.424,
      "step": 13660
    },
    {
      "epoch": 18.226666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999429118309843,
      "loss": 0.4368,
      "step": 13670
    },
    {
      "epoch": 18.24,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029994282510273476,
      "loss": 0.4203,
      "step": 13680
    },
    {
      "epoch": 18.253333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002999427383086691,
      "loss": 0.4235,
      "step": 13690
    },
    {
      "epoch": 18.266666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999426514487873,
      "loss": 0.4238,
      "step": 13700
    },
    {
      "epoch": 18.28,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029994256452308944,
      "loss": 0.4542,
      "step": 13710
    },
    {
      "epoch": 18.293333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999424775315755,
      "loss": 0.4105,
      "step": 13720
    },
    {
      "epoch": 18.306666666666665,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029994239047424564,
      "loss": 0.4324,
      "step": 13730
    },
    {
      "epoch": 18.32,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029994230335109976,
      "loss": 0.4332,
      "step": 13740
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000299942216162138,
      "loss": 0.4405,
      "step": 13750
    },
    {
      "epoch": 18.346666666666668,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999421289073603,
      "loss": 0.4306,
      "step": 13760
    },
    {
      "epoch": 18.36,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002999420415867668,
      "loss": 0.4343,
      "step": 13770
    },
    {
      "epoch": 18.373333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999419542003575,
      "loss": 0.4307,
      "step": 13780
    },
    {
      "epoch": 18.386666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999418667481324,
      "loss": 0.4255,
      "step": 13790
    },
    {
      "epoch": 18.4,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999417792300915,
      "loss": 0.4304,
      "step": 13800
    },
    {
      "epoch": 18.413333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299941691646235,
      "loss": 0.4366,
      "step": 13810
    },
    {
      "epoch": 18.426666666666666,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999416039965628,
      "loss": 0.437,
      "step": 13820
    },
    {
      "epoch": 18.44,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.000299941516281075,
      "loss": 0.4469,
      "step": 13830
    },
    {
      "epoch": 18.453333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029994142849977166,
      "loss": 0.4381,
      "step": 13840
    },
    {
      "epoch": 18.466666666666665,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029994134065265275,
      "loss": 0.4477,
      "step": 13850
    },
    {
      "epoch": 18.48,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999412527397183,
      "loss": 0.4277,
      "step": 13860
    },
    {
      "epoch": 18.493333333333332,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002999411647609684,
      "loss": 0.44,
      "step": 13870
    },
    {
      "epoch": 18.506666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999410767164031,
      "loss": 0.4349,
      "step": 13880
    },
    {
      "epoch": 18.52,
      "grad_norm": 0.21484375,
      "learning_rate": 0.0002999409886060224,
      "loss": 0.4263,
      "step": 13890
    },
    {
      "epoch": 18.533333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029994090042982635,
      "loss": 0.4293,
      "step": 13900
    },
    {
      "epoch": 18.546666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029994081218781505,
      "loss": 0.4324,
      "step": 13910
    },
    {
      "epoch": 18.56,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999407238799884,
      "loss": 0.4255,
      "step": 13920
    },
    {
      "epoch": 18.573333333333334,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029994063550634655,
      "loss": 0.4284,
      "step": 13930
    },
    {
      "epoch": 18.586666666666666,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999405470668895,
      "loss": 0.4171,
      "step": 13940
    },
    {
      "epoch": 18.6,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029994045856161734,
      "loss": 0.4209,
      "step": 13950
    },
    {
      "epoch": 18.613333333333333,
      "grad_norm": 0.224609375,
      "learning_rate": 0.00029994036999053,
      "loss": 0.4061,
      "step": 13960
    },
    {
      "epoch": 18.626666666666665,
      "grad_norm": 0.25,
      "learning_rate": 0.00029994028135362763,
      "loss": 0.4112,
      "step": 13970
    },
    {
      "epoch": 18.64,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999401926509102,
      "loss": 0.4269,
      "step": 13980
    },
    {
      "epoch": 18.653333333333332,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999401038823778,
      "loss": 0.4364,
      "step": 13990
    },
    {
      "epoch": 18.666666666666668,
      "grad_norm": 0.2265625,
      "learning_rate": 0.0002999400150480304,
      "loss": 0.4208,
      "step": 14000
    },
    {
      "epoch": 18.68,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029993992614786813,
      "loss": 0.4155,
      "step": 14010
    },
    {
      "epoch": 18.693333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029993983718189097,
      "loss": 0.4241,
      "step": 14020
    },
    {
      "epoch": 18.706666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029993974815009894,
      "loss": 0.418,
      "step": 14030
    },
    {
      "epoch": 18.72,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999396590524921,
      "loss": 0.4422,
      "step": 14040
    },
    {
      "epoch": 18.733333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999395698890705,
      "loss": 0.4349,
      "step": 14050
    },
    {
      "epoch": 18.746666666666666,
      "grad_norm": 0.2421875,
      "learning_rate": 0.00029993948065983424,
      "loss": 0.4345,
      "step": 14060
    },
    {
      "epoch": 18.76,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029993939136478323,
      "loss": 0.447,
      "step": 14070
    },
    {
      "epoch": 18.773333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999393020039176,
      "loss": 0.4382,
      "step": 14080
    },
    {
      "epoch": 18.786666666666665,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002999392125772373,
      "loss": 0.4368,
      "step": 14090
    },
    {
      "epoch": 18.8,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029993912308474253,
      "loss": 0.4363,
      "step": 14100
    },
    {
      "epoch": 18.813333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999390335264332,
      "loss": 0.4097,
      "step": 14110
    },
    {
      "epoch": 18.826666666666668,
      "grad_norm": 0.25,
      "learning_rate": 0.00029993894390230937,
      "loss": 0.4215,
      "step": 14120
    },
    {
      "epoch": 18.84,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029993885421237106,
      "loss": 0.4341,
      "step": 14130
    },
    {
      "epoch": 18.85333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029993876445661837,
      "loss": 0.43,
      "step": 14140
    },
    {
      "epoch": 18.866666666666667,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002999386746350513,
      "loss": 0.431,
      "step": 14150
    },
    {
      "epoch": 18.88,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999385847476699,
      "loss": 0.4096,
      "step": 14160
    },
    {
      "epoch": 18.893333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029993849479447425,
      "loss": 0.4197,
      "step": 14170
    },
    {
      "epoch": 18.906666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002999384047754643,
      "loss": 0.4301,
      "step": 14180
    },
    {
      "epoch": 18.92,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029993831469064016,
      "loss": 0.432,
      "step": 14190
    },
    {
      "epoch": 18.933333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.00029993822454000185,
      "loss": 0.4229,
      "step": 14200
    },
    {
      "epoch": 18.946666666666665,
      "grad_norm": 0.2216796875,
      "learning_rate": 0.0002999381343235494,
      "loss": 0.4251,
      "step": 14210
    },
    {
      "epoch": 18.96,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029993804404128286,
      "loss": 0.4222,
      "step": 14220
    },
    {
      "epoch": 18.973333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002999379536932022,
      "loss": 0.4459,
      "step": 14230
    },
    {
      "epoch": 18.986666666666668,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999378632793076,
      "loss": 0.4257,
      "step": 14240
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.265625,
      "learning_rate": 0.000299937772799599,
      "loss": 0.4167,
      "step": 14250
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.44740644097328186,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.4164,
      "eval_samples_per_second": 1.536,
      "eval_steps_per_second": 0.096,
      "step": 14250
    },
    {
      "epoch": 19.013333333333332,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002999376822540765,
      "loss": 0.4371,
      "step": 14260
    },
    {
      "epoch": 19.026666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999375916427401,
      "loss": 0.4461,
      "step": 14270
    },
    {
      "epoch": 19.04,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029993750096558977,
      "loss": 0.4577,
      "step": 14280
    },
    {
      "epoch": 19.053333333333335,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0002999374102226257,
      "loss": 0.446,
      "step": 14290
    },
    {
      "epoch": 19.066666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999373194138478,
      "loss": 0.433,
      "step": 14300
    },
    {
      "epoch": 19.08,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999372285392562,
      "loss": 0.4357,
      "step": 14310
    },
    {
      "epoch": 19.093333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002999371375988509,
      "loss": 0.4365,
      "step": 14320
    },
    {
      "epoch": 19.106666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029993704659263195,
      "loss": 0.4242,
      "step": 14330
    },
    {
      "epoch": 19.12,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999369555205994,
      "loss": 0.431,
      "step": 14340
    },
    {
      "epoch": 19.133333333333333,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999368643827532,
      "loss": 0.4231,
      "step": 14350
    },
    {
      "epoch": 19.14666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002999367731790935,
      "loss": 0.4412,
      "step": 14360
    },
    {
      "epoch": 19.16,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029993668190962035,
      "loss": 0.4344,
      "step": 14370
    },
    {
      "epoch": 19.173333333333332,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999365905743337,
      "loss": 0.4264,
      "step": 14380
    },
    {
      "epoch": 19.186666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002999364991732336,
      "loss": 0.4273,
      "step": 14390
    },
    {
      "epoch": 19.2,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002999364077063202,
      "loss": 0.4225,
      "step": 14400
    },
    {
      "epoch": 19.213333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999363161735934,
      "loss": 0.4228,
      "step": 14410
    },
    {
      "epoch": 19.226666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999362245750533,
      "loss": 0.4353,
      "step": 14420
    },
    {
      "epoch": 19.24,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999361329107,
      "loss": 0.4182,
      "step": 14430
    },
    {
      "epoch": 19.253333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999360411805335,
      "loss": 0.4217,
      "step": 14440
    },
    {
      "epoch": 19.266666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029993594938455375,
      "loss": 0.4225,
      "step": 14450
    },
    {
      "epoch": 19.28,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002999358575227609,
      "loss": 0.4529,
      "step": 14460
    },
    {
      "epoch": 19.293333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029993576559515496,
      "loss": 0.409,
      "step": 14470
    },
    {
      "epoch": 19.306666666666665,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029993567360173595,
      "loss": 0.431,
      "step": 14480
    },
    {
      "epoch": 19.32,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999355815425039,
      "loss": 0.4317,
      "step": 14490
    },
    {
      "epoch": 19.333333333333332,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029993548941745896,
      "loss": 0.4396,
      "step": 14500
    },
    {
      "epoch": 19.346666666666668,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029993539722660104,
      "loss": 0.4292,
      "step": 14510
    },
    {
      "epoch": 19.36,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002999353049699302,
      "loss": 0.4331,
      "step": 14520
    },
    {
      "epoch": 19.373333333333335,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999352126474465,
      "loss": 0.4295,
      "step": 14530
    },
    {
      "epoch": 19.386666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029993512025915006,
      "loss": 0.4237,
      "step": 14540
    },
    {
      "epoch": 19.4,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999350278050408,
      "loss": 0.43,
      "step": 14550
    },
    {
      "epoch": 19.413333333333334,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029993493528511885,
      "loss": 0.4357,
      "step": 14560
    },
    {
      "epoch": 19.426666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029993484269938414,
      "loss": 0.4355,
      "step": 14570
    },
    {
      "epoch": 19.44,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029993475004783685,
      "loss": 0.4458,
      "step": 14580
    },
    {
      "epoch": 19.453333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999346573304769,
      "loss": 0.4372,
      "step": 14590
    },
    {
      "epoch": 19.466666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029993456454730443,
      "loss": 0.4468,
      "step": 14600
    },
    {
      "epoch": 19.48,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999344716983194,
      "loss": 0.4268,
      "step": 14610
    },
    {
      "epoch": 19.493333333333332,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999343787835219,
      "loss": 0.4382,
      "step": 14620
    },
    {
      "epoch": 19.506666666666668,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029993428580291195,
      "loss": 0.4335,
      "step": 14630
    },
    {
      "epoch": 19.52,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029993419275648955,
      "loss": 0.4244,
      "step": 14640
    },
    {
      "epoch": 19.533333333333335,
      "grad_norm": 0.2255859375,
      "learning_rate": 0.00029993409964425483,
      "loss": 0.4287,
      "step": 14650
    },
    {
      "epoch": 19.546666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999340064662078,
      "loss": 0.4314,
      "step": 14660
    },
    {
      "epoch": 19.56,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002999339132223485,
      "loss": 0.4239,
      "step": 14670
    },
    {
      "epoch": 19.573333333333334,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029993381991267687,
      "loss": 0.4265,
      "step": 14680
    },
    {
      "epoch": 19.586666666666666,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029993372653719315,
      "loss": 0.4166,
      "step": 14690
    },
    {
      "epoch": 19.6,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029993363309589716,
      "loss": 0.4199,
      "step": 14700
    },
    {
      "epoch": 19.613333333333333,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002999335395887891,
      "loss": 0.4039,
      "step": 14710
    },
    {
      "epoch": 19.626666666666665,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029993344601586904,
      "loss": 0.4095,
      "step": 14720
    },
    {
      "epoch": 19.64,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029993335237713686,
      "loss": 0.4264,
      "step": 14730
    },
    {
      "epoch": 19.653333333333332,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002999332586725927,
      "loss": 0.4349,
      "step": 14740
    },
    {
      "epoch": 19.666666666666668,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999331649022366,
      "loss": 0.4197,
      "step": 14750
    },
    {
      "epoch": 19.68,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029993307106606856,
      "loss": 0.4134,
      "step": 14760
    },
    {
      "epoch": 19.693333333333335,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029993297716408867,
      "loss": 0.4221,
      "step": 14770
    },
    {
      "epoch": 19.706666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029993288319629695,
      "loss": 0.4166,
      "step": 14780
    },
    {
      "epoch": 19.72,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999327891626934,
      "loss": 0.4401,
      "step": 14790
    },
    {
      "epoch": 19.733333333333334,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999326950632782,
      "loss": 0.4339,
      "step": 14800
    },
    {
      "epoch": 19.746666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999326008980512,
      "loss": 0.4337,
      "step": 14810
    },
    {
      "epoch": 19.76,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029993250666701253,
      "loss": 0.4468,
      "step": 14820
    },
    {
      "epoch": 19.773333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029993241237016226,
      "loss": 0.4372,
      "step": 14830
    },
    {
      "epoch": 19.786666666666665,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002999323180075005,
      "loss": 0.4358,
      "step": 14840
    },
    {
      "epoch": 19.8,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002999322235790271,
      "loss": 0.4345,
      "step": 14850
    },
    {
      "epoch": 19.813333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999321290847422,
      "loss": 0.4085,
      "step": 14860
    },
    {
      "epoch": 19.826666666666668,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002999320345246459,
      "loss": 0.4206,
      "step": 14870
    },
    {
      "epoch": 19.84,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002999319398987381,
      "loss": 0.4324,
      "step": 14880
    },
    {
      "epoch": 19.85333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000299931845207019,
      "loss": 0.4275,
      "step": 14890
    },
    {
      "epoch": 19.866666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999317504494885,
      "loss": 0.4292,
      "step": 14900
    },
    {
      "epoch": 19.88,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999316556261467,
      "loss": 0.4082,
      "step": 14910
    },
    {
      "epoch": 19.893333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999315607369937,
      "loss": 0.4187,
      "step": 14920
    },
    {
      "epoch": 19.906666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002999314657820295,
      "loss": 0.4295,
      "step": 14930
    },
    {
      "epoch": 19.92,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029993137076125413,
      "loss": 0.4305,
      "step": 14940
    },
    {
      "epoch": 19.933333333333334,
      "grad_norm": 0.2138671875,
      "learning_rate": 0.00029993127567466764,
      "loss": 0.4228,
      "step": 14950
    },
    {
      "epoch": 19.946666666666665,
      "grad_norm": 0.236328125,
      "learning_rate": 0.00029993118052227,
      "loss": 0.4251,
      "step": 14960
    },
    {
      "epoch": 19.96,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999310853040614,
      "loss": 0.4207,
      "step": 14970
    },
    {
      "epoch": 19.973333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029993099002004176,
      "loss": 0.4448,
      "step": 14980
    },
    {
      "epoch": 19.986666666666668,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002999308946702112,
      "loss": 0.425,
      "step": 14990
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029993079925456966,
      "loss": 0.4164,
      "step": 15000
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.4465210735797882,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9534,
      "eval_samples_per_second": 1.607,
      "eval_steps_per_second": 0.1,
      "step": 15000
    },
    {
      "epoch": 20.013333333333332,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029993070377311727,
      "loss": 0.4351,
      "step": 15010
    },
    {
      "epoch": 20.026666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999306082258541,
      "loss": 0.4447,
      "step": 15020
    },
    {
      "epoch": 20.04,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999305126127801,
      "loss": 0.4564,
      "step": 15030
    },
    {
      "epoch": 20.053333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002999304169338953,
      "loss": 0.4447,
      "step": 15040
    },
    {
      "epoch": 20.066666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002999303211891998,
      "loss": 0.4312,
      "step": 15050
    },
    {
      "epoch": 20.08,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999302253786937,
      "loss": 0.4353,
      "step": 15060
    },
    {
      "epoch": 20.093333333333334,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029993012950237693,
      "loss": 0.4345,
      "step": 15070
    },
    {
      "epoch": 20.106666666666666,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029993003356024964,
      "loss": 0.4236,
      "step": 15080
    },
    {
      "epoch": 20.12,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029992993755231177,
      "loss": 0.4297,
      "step": 15090
    },
    {
      "epoch": 20.133333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999298414785634,
      "loss": 0.4222,
      "step": 15100
    },
    {
      "epoch": 20.14666666666667,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029992974533900454,
      "loss": 0.4403,
      "step": 15110
    },
    {
      "epoch": 20.16,
      "grad_norm": 0.25,
      "learning_rate": 0.00029992964913363535,
      "loss": 0.4328,
      "step": 15120
    },
    {
      "epoch": 20.173333333333332,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029992955286245573,
      "loss": 0.4249,
      "step": 15130
    },
    {
      "epoch": 20.186666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999294565254658,
      "loss": 0.4264,
      "step": 15140
    },
    {
      "epoch": 20.2,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999293601226656,
      "loss": 0.4207,
      "step": 15150
    },
    {
      "epoch": 20.213333333333335,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999292636540552,
      "loss": 0.421,
      "step": 15160
    },
    {
      "epoch": 20.226666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029992916711963453,
      "loss": 0.434,
      "step": 15170
    },
    {
      "epoch": 20.24,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999290705194037,
      "loss": 0.4175,
      "step": 15180
    },
    {
      "epoch": 20.253333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002999289738533628,
      "loss": 0.4214,
      "step": 15190
    },
    {
      "epoch": 20.266666666666666,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029992887712151174,
      "loss": 0.4215,
      "step": 15200
    },
    {
      "epoch": 20.28,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029992878032385076,
      "loss": 0.4522,
      "step": 15210
    },
    {
      "epoch": 20.293333333333333,
      "grad_norm": 0.25,
      "learning_rate": 0.00029992868346037974,
      "loss": 0.4079,
      "step": 15220
    },
    {
      "epoch": 20.306666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029992858653109873,
      "loss": 0.4302,
      "step": 15230
    },
    {
      "epoch": 20.32,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999284895360079,
      "loss": 0.4301,
      "step": 15240
    },
    {
      "epoch": 20.333333333333332,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029992839247510713,
      "loss": 0.4379,
      "step": 15250
    },
    {
      "epoch": 20.346666666666668,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999282953483966,
      "loss": 0.4283,
      "step": 15260
    },
    {
      "epoch": 20.36,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002999281981558763,
      "loss": 0.4307,
      "step": 15270
    },
    {
      "epoch": 20.373333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002999281008975462,
      "loss": 0.4295,
      "step": 15280
    },
    {
      "epoch": 20.386666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029992800357340647,
      "loss": 0.4235,
      "step": 15290
    },
    {
      "epoch": 20.4,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999279061834571,
      "loss": 0.4288,
      "step": 15300
    },
    {
      "epoch": 20.413333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999278087276981,
      "loss": 0.4339,
      "step": 15310
    },
    {
      "epoch": 20.426666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029992771120612954,
      "loss": 0.4341,
      "step": 15320
    },
    {
      "epoch": 20.44,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002999276136187514,
      "loss": 0.4443,
      "step": 15330
    },
    {
      "epoch": 20.453333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002999275159655639,
      "loss": 0.4358,
      "step": 15340
    },
    {
      "epoch": 20.466666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999274182465669,
      "loss": 0.4457,
      "step": 15350
    },
    {
      "epoch": 20.48,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999273204617605,
      "loss": 0.4262,
      "step": 15360
    },
    {
      "epoch": 20.493333333333332,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999272226111448,
      "loss": 0.4374,
      "step": 15370
    },
    {
      "epoch": 20.506666666666668,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999271246947198,
      "loss": 0.4315,
      "step": 15380
    },
    {
      "epoch": 20.52,
      "grad_norm": 0.2294921875,
      "learning_rate": 0.00029992702671248543,
      "loss": 0.4229,
      "step": 15390
    },
    {
      "epoch": 20.533333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029992692866444195,
      "loss": 0.4266,
      "step": 15400
    },
    {
      "epoch": 20.546666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029992683055058924,
      "loss": 0.4299,
      "step": 15410
    },
    {
      "epoch": 20.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029992673237092747,
      "loss": 0.423,
      "step": 15420
    },
    {
      "epoch": 20.573333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029992663412545657,
      "loss": 0.4266,
      "step": 15430
    },
    {
      "epoch": 20.586666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029992653581417656,
      "loss": 0.4156,
      "step": 15440
    },
    {
      "epoch": 20.6,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029992643743708764,
      "loss": 0.4186,
      "step": 15450
    },
    {
      "epoch": 20.613333333333333,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029992633899418976,
      "loss": 0.4032,
      "step": 15460
    },
    {
      "epoch": 20.626666666666665,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002999262404854829,
      "loss": 0.4078,
      "step": 15470
    },
    {
      "epoch": 20.64,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999261419109672,
      "loss": 0.4249,
      "step": 15480
    },
    {
      "epoch": 20.653333333333332,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029992604327064266,
      "loss": 0.4354,
      "step": 15490
    },
    {
      "epoch": 20.666666666666668,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029992594456450933,
      "loss": 0.419,
      "step": 15500
    },
    {
      "epoch": 20.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029992584579256726,
      "loss": 0.413,
      "step": 15510
    },
    {
      "epoch": 20.693333333333335,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999257469548165,
      "loss": 0.4218,
      "step": 15520
    },
    {
      "epoch": 20.706666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029992564805125707,
      "loss": 0.4156,
      "step": 15530
    },
    {
      "epoch": 20.72,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029992554908188905,
      "loss": 0.4387,
      "step": 15540
    },
    {
      "epoch": 20.733333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029992545004671245,
      "loss": 0.432,
      "step": 15550
    },
    {
      "epoch": 20.746666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029992535094572727,
      "loss": 0.4324,
      "step": 15560
    },
    {
      "epoch": 20.76,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002999252517789336,
      "loss": 0.4458,
      "step": 15570
    },
    {
      "epoch": 20.773333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999251525463316,
      "loss": 0.436,
      "step": 15580
    },
    {
      "epoch": 20.786666666666665,
      "grad_norm": 0.234375,
      "learning_rate": 0.00029992505324792114,
      "loss": 0.4344,
      "step": 15590
    },
    {
      "epoch": 20.8,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029992495388370236,
      "loss": 0.433,
      "step": 15600
    },
    {
      "epoch": 20.813333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029992485445367526,
      "loss": 0.4086,
      "step": 15610
    },
    {
      "epoch": 20.826666666666668,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029992475495783987,
      "loss": 0.4195,
      "step": 15620
    },
    {
      "epoch": 20.84,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029992465539619627,
      "loss": 0.4313,
      "step": 15630
    },
    {
      "epoch": 20.85333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999245557687445,
      "loss": 0.4267,
      "step": 15640
    },
    {
      "epoch": 20.866666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999244560754846,
      "loss": 0.4288,
      "step": 15650
    },
    {
      "epoch": 20.88,
      "grad_norm": 0.25,
      "learning_rate": 0.00029992435631641655,
      "loss": 0.4079,
      "step": 15660
    },
    {
      "epoch": 20.893333333333334,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029992425649154054,
      "loss": 0.4179,
      "step": 15670
    },
    {
      "epoch": 20.906666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002999241566008565,
      "loss": 0.4269,
      "step": 15680
    },
    {
      "epoch": 20.92,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029992405664436446,
      "loss": 0.4295,
      "step": 15690
    },
    {
      "epoch": 20.933333333333334,
      "grad_norm": 0.240234375,
      "learning_rate": 0.00029992395662206456,
      "loss": 0.4201,
      "step": 15700
    },
    {
      "epoch": 20.946666666666665,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0002999238565339568,
      "loss": 0.423,
      "step": 15710
    },
    {
      "epoch": 20.96,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029992375638004113,
      "loss": 0.4193,
      "step": 15720
    },
    {
      "epoch": 20.973333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029992365616031777,
      "loss": 0.4441,
      "step": 15730
    },
    {
      "epoch": 20.986666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999235558747866,
      "loss": 0.4228,
      "step": 15740
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029992345552344775,
      "loss": 0.4144,
      "step": 15750
    },
    {
      "epoch": 21.0,
      "eval_loss": 0.4467250108718872,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1322,
      "eval_samples_per_second": 1.579,
      "eval_steps_per_second": 0.099,
      "step": 15750
    },
    {
      "epoch": 21.013333333333332,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029992335510630125,
      "loss": 0.435,
      "step": 15760
    },
    {
      "epoch": 21.026666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029992325462334715,
      "loss": 0.443,
      "step": 15770
    },
    {
      "epoch": 21.04,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002999231540745855,
      "loss": 0.455,
      "step": 15780
    },
    {
      "epoch": 21.053333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029992305346001637,
      "loss": 0.4431,
      "step": 15790
    },
    {
      "epoch": 21.066666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002999229527796397,
      "loss": 0.4293,
      "step": 15800
    },
    {
      "epoch": 21.08,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002999228520334556,
      "loss": 0.4337,
      "step": 15810
    },
    {
      "epoch": 21.093333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029992275122146415,
      "loss": 0.4343,
      "step": 15820
    },
    {
      "epoch": 21.106666666666666,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002999226503436653,
      "loss": 0.4225,
      "step": 15830
    },
    {
      "epoch": 21.12,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999225494000592,
      "loss": 0.4281,
      "step": 15840
    },
    {
      "epoch": 21.133333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002999224483906459,
      "loss": 0.4209,
      "step": 15850
    },
    {
      "epoch": 21.14666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029992234731542527,
      "loss": 0.4396,
      "step": 15860
    },
    {
      "epoch": 21.16,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029992224617439754,
      "loss": 0.4317,
      "step": 15870
    },
    {
      "epoch": 21.173333333333332,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002999221449675627,
      "loss": 0.4238,
      "step": 15880
    },
    {
      "epoch": 21.186666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999220436949207,
      "loss": 0.4258,
      "step": 15890
    },
    {
      "epoch": 21.2,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999219423564718,
      "loss": 0.4186,
      "step": 15900
    },
    {
      "epoch": 21.213333333333335,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999218409522158,
      "loss": 0.4194,
      "step": 15910
    },
    {
      "epoch": 21.226666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029992173948215295,
      "loss": 0.4332,
      "step": 15920
    },
    {
      "epoch": 21.24,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002999216379462832,
      "loss": 0.4157,
      "step": 15930
    },
    {
      "epoch": 21.253333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999215363446065,
      "loss": 0.4195,
      "step": 15940
    },
    {
      "epoch": 21.266666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002999214346771231,
      "loss": 0.4199,
      "step": 15950
    },
    {
      "epoch": 21.28,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999213329438329,
      "loss": 0.4508,
      "step": 15960
    },
    {
      "epoch": 21.293333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002999212311447359,
      "loss": 0.4065,
      "step": 15970
    },
    {
      "epoch": 21.306666666666665,
      "grad_norm": 0.203125,
      "learning_rate": 0.0002999211292798323,
      "loss": 0.4289,
      "step": 15980
    },
    {
      "epoch": 21.32,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999210273491221,
      "loss": 0.4301,
      "step": 15990
    },
    {
      "epoch": 21.333333333333332,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029992092535260527,
      "loss": 0.4373,
      "step": 16000
    },
    {
      "epoch": 21.346666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029992082329028194,
      "loss": 0.4273,
      "step": 16010
    },
    {
      "epoch": 21.36,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029992072116215204,
      "loss": 0.43,
      "step": 16020
    },
    {
      "epoch": 21.373333333333335,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029992061896821573,
      "loss": 0.4269,
      "step": 16030
    },
    {
      "epoch": 21.386666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000299920516708473,
      "loss": 0.4217,
      "step": 16040
    },
    {
      "epoch": 21.4,
      "grad_norm": 0.25,
      "learning_rate": 0.00029992041438292393,
      "loss": 0.428,
      "step": 16050
    },
    {
      "epoch": 21.413333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029992031199156855,
      "loss": 0.432,
      "step": 16060
    },
    {
      "epoch": 21.426666666666666,
      "grad_norm": 0.2373046875,
      "learning_rate": 0.0002999202095344069,
      "loss": 0.4328,
      "step": 16070
    },
    {
      "epoch": 21.44,
      "grad_norm": 0.244140625,
      "learning_rate": 0.000299920107011439,
      "loss": 0.4431,
      "step": 16080
    },
    {
      "epoch": 21.453333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029992000442266494,
      "loss": 0.4343,
      "step": 16090
    },
    {
      "epoch": 21.466666666666665,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029991990176808474,
      "loss": 0.4435,
      "step": 16100
    },
    {
      "epoch": 21.48,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029991979904769845,
      "loss": 0.4243,
      "step": 16110
    },
    {
      "epoch": 21.493333333333332,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999196962615061,
      "loss": 0.4351,
      "step": 16120
    },
    {
      "epoch": 21.506666666666668,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.00029991959340950773,
      "loss": 0.4319,
      "step": 16130
    },
    {
      "epoch": 21.52,
      "grad_norm": 0.2177734375,
      "learning_rate": 0.0002999194904917034,
      "loss": 0.4221,
      "step": 16140
    },
    {
      "epoch": 21.533333333333335,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999193875080932,
      "loss": 0.4264,
      "step": 16150
    },
    {
      "epoch": 21.546666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029991928445867715,
      "loss": 0.4294,
      "step": 16160
    },
    {
      "epoch": 21.56,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999191813434553,
      "loss": 0.4227,
      "step": 16170
    },
    {
      "epoch": 21.573333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002999190781624276,
      "loss": 0.4252,
      "step": 16180
    },
    {
      "epoch": 21.586666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002999189749155942,
      "loss": 0.4142,
      "step": 16190
    },
    {
      "epoch": 21.6,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999188716029551,
      "loss": 0.4171,
      "step": 16200
    },
    {
      "epoch": 21.613333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029991876822451036,
      "loss": 0.4036,
      "step": 16210
    },
    {
      "epoch": 21.626666666666665,
      "grad_norm": 0.234375,
      "learning_rate": 0.00029991866478026007,
      "loss": 0.408,
      "step": 16220
    },
    {
      "epoch": 21.64,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999185612702042,
      "loss": 0.4237,
      "step": 16230
    },
    {
      "epoch": 21.653333333333332,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999184576943428,
      "loss": 0.4341,
      "step": 16240
    },
    {
      "epoch": 21.666666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000299918354052676,
      "loss": 0.4173,
      "step": 16250
    },
    {
      "epoch": 21.68,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029991825034520375,
      "loss": 0.4115,
      "step": 16260
    },
    {
      "epoch": 21.693333333333335,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999181465719262,
      "loss": 0.4203,
      "step": 16270
    },
    {
      "epoch": 21.706666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029991804273284324,
      "loss": 0.4143,
      "step": 16280
    },
    {
      "epoch": 21.72,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299917938827955,
      "loss": 0.4376,
      "step": 16290
    },
    {
      "epoch": 21.733333333333334,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029991783485726163,
      "loss": 0.4331,
      "step": 16300
    },
    {
      "epoch": 21.746666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.000299917730820763,
      "loss": 0.4311,
      "step": 16310
    },
    {
      "epoch": 21.76,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999176267184592,
      "loss": 0.4441,
      "step": 16320
    },
    {
      "epoch": 21.773333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002999175225503504,
      "loss": 0.4355,
      "step": 16330
    },
    {
      "epoch": 21.786666666666665,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999174183164365,
      "loss": 0.4332,
      "step": 16340
    },
    {
      "epoch": 21.8,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999173140167176,
      "loss": 0.4328,
      "step": 16350
    },
    {
      "epoch": 21.813333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999172096511938,
      "loss": 0.4071,
      "step": 16360
    },
    {
      "epoch": 21.826666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000299917105219865,
      "loss": 0.4181,
      "step": 16370
    },
    {
      "epoch": 21.84,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002999170007227314,
      "loss": 0.4294,
      "step": 16380
    },
    {
      "epoch": 21.85333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029991689615979297,
      "loss": 0.4251,
      "step": 16390
    },
    {
      "epoch": 21.866666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029991679153104975,
      "loss": 0.4283,
      "step": 16400
    },
    {
      "epoch": 21.88,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029991668683650185,
      "loss": 0.4061,
      "step": 16410
    },
    {
      "epoch": 21.893333333333334,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999165820761492,
      "loss": 0.4173,
      "step": 16420
    },
    {
      "epoch": 21.906666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299916477249992,
      "loss": 0.4259,
      "step": 16430
    },
    {
      "epoch": 21.92,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002999163723580301,
      "loss": 0.4292,
      "step": 16440
    },
    {
      "epoch": 21.933333333333334,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002999162674002638,
      "loss": 0.4198,
      "step": 16450
    },
    {
      "epoch": 21.946666666666665,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029991616237669283,
      "loss": 0.4219,
      "step": 16460
    },
    {
      "epoch": 21.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029991605728731753,
      "loss": 0.4185,
      "step": 16470
    },
    {
      "epoch": 21.973333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002999159521321378,
      "loss": 0.4438,
      "step": 16480
    },
    {
      "epoch": 21.986666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002999158469111538,
      "loss": 0.4214,
      "step": 16490
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.25,
      "learning_rate": 0.0002999157416243653,
      "loss": 0.4129,
      "step": 16500
    },
    {
      "epoch": 22.0,
      "eval_loss": 0.44583550095558167,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0743,
      "eval_samples_per_second": 1.588,
      "eval_steps_per_second": 0.099,
      "step": 16500
    },
    {
      "epoch": 22.013333333333332,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999156362717727,
      "loss": 0.4332,
      "step": 16510
    },
    {
      "epoch": 22.026666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999155308533758,
      "loss": 0.4428,
      "step": 16520
    },
    {
      "epoch": 22.04,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029991542536917477,
      "loss": 0.4552,
      "step": 16530
    },
    {
      "epoch": 22.053333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029991531981916956,
      "loss": 0.4425,
      "step": 16540
    },
    {
      "epoch": 22.066666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029991521420336033,
      "loss": 0.4284,
      "step": 16550
    },
    {
      "epoch": 22.08,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000299915108521747,
      "loss": 0.4323,
      "step": 16560
    },
    {
      "epoch": 22.093333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029991500277432975,
      "loss": 0.4324,
      "step": 16570
    },
    {
      "epoch": 22.106666666666666,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00029991489696110855,
      "loss": 0.4205,
      "step": 16580
    },
    {
      "epoch": 22.12,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029991479108208344,
      "loss": 0.4281,
      "step": 16590
    },
    {
      "epoch": 22.133333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029991468513725447,
      "loss": 0.4194,
      "step": 16600
    },
    {
      "epoch": 22.14666666666667,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999145791266217,
      "loss": 0.4385,
      "step": 16610
    },
    {
      "epoch": 22.16,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029991447305018515,
      "loss": 0.4302,
      "step": 16620
    },
    {
      "epoch": 22.173333333333332,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000299914366907945,
      "loss": 0.4235,
      "step": 16630
    },
    {
      "epoch": 22.186666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999142606999011,
      "loss": 0.4252,
      "step": 16640
    },
    {
      "epoch": 22.2,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029991415442605357,
      "loss": 0.4182,
      "step": 16650
    },
    {
      "epoch": 22.213333333333335,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029991404808640246,
      "loss": 0.4186,
      "step": 16660
    },
    {
      "epoch": 22.226666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999139416809479,
      "loss": 0.4313,
      "step": 16670
    },
    {
      "epoch": 22.24,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029991383520968983,
      "loss": 0.4143,
      "step": 16680
    },
    {
      "epoch": 22.253333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999137286726283,
      "loss": 0.4186,
      "step": 16690
    },
    {
      "epoch": 22.266666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029991362206976344,
      "loss": 0.4191,
      "step": 16700
    },
    {
      "epoch": 22.28,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029991351540109524,
      "loss": 0.4488,
      "step": 16710
    },
    {
      "epoch": 22.293333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999134086666237,
      "loss": 0.4056,
      "step": 16720
    },
    {
      "epoch": 22.306666666666665,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.000299913301866349,
      "loss": 0.4279,
      "step": 16730
    },
    {
      "epoch": 22.32,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029991319500027104,
      "loss": 0.4283,
      "step": 16740
    },
    {
      "epoch": 22.333333333333332,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029991308806839,
      "loss": 0.4362,
      "step": 16750
    },
    {
      "epoch": 22.346666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999129810707058,
      "loss": 0.4255,
      "step": 16760
    },
    {
      "epoch": 22.36,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999128740072186,
      "loss": 0.429,
      "step": 16770
    },
    {
      "epoch": 22.373333333333335,
      "grad_norm": 0.244140625,
      "learning_rate": 0.00029991276687792834,
      "loss": 0.4269,
      "step": 16780
    },
    {
      "epoch": 22.386666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029991265968283516,
      "loss": 0.4203,
      "step": 16790
    },
    {
      "epoch": 22.4,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029991255242193903,
      "loss": 0.4264,
      "step": 16800
    },
    {
      "epoch": 22.413333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029991244509524007,
      "loss": 0.4314,
      "step": 16810
    },
    {
      "epoch": 22.426666666666666,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002999123377027382,
      "loss": 0.4323,
      "step": 16820
    },
    {
      "epoch": 22.44,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999122302444337,
      "loss": 0.443,
      "step": 16830
    },
    {
      "epoch": 22.453333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002999121227203264,
      "loss": 0.4325,
      "step": 16840
    },
    {
      "epoch": 22.466666666666665,
      "grad_norm": 0.375,
      "learning_rate": 0.00029991201513041645,
      "loss": 0.443,
      "step": 16850
    },
    {
      "epoch": 22.48,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999119074747038,
      "loss": 0.4237,
      "step": 16860
    },
    {
      "epoch": 22.493333333333332,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999117997531887,
      "loss": 0.435,
      "step": 16870
    },
    {
      "epoch": 22.506666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999116919658709,
      "loss": 0.4305,
      "step": 16880
    },
    {
      "epoch": 22.52,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029991158411275077,
      "loss": 0.4208,
      "step": 16890
    },
    {
      "epoch": 22.533333333333335,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002999114761938281,
      "loss": 0.4247,
      "step": 16900
    },
    {
      "epoch": 22.546666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029991136820910305,
      "loss": 0.427,
      "step": 16910
    },
    {
      "epoch": 22.56,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.00029991126015857565,
      "loss": 0.4215,
      "step": 16920
    },
    {
      "epoch": 22.573333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000299911152042246,
      "loss": 0.424,
      "step": 16930
    },
    {
      "epoch": 22.586666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999110438601141,
      "loss": 0.4126,
      "step": 16940
    },
    {
      "epoch": 22.6,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029991093561217993,
      "loss": 0.4162,
      "step": 16950
    },
    {
      "epoch": 22.613333333333333,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002999108272984437,
      "loss": 0.402,
      "step": 16960
    },
    {
      "epoch": 22.626666666666665,
      "grad_norm": 0.216796875,
      "learning_rate": 0.0002999107189189053,
      "loss": 0.4061,
      "step": 16970
    },
    {
      "epoch": 22.64,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029991061047356484,
      "loss": 0.4224,
      "step": 16980
    },
    {
      "epoch": 22.653333333333332,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029991050196242233,
      "loss": 0.4328,
      "step": 16990
    },
    {
      "epoch": 22.666666666666668,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999103933854779,
      "loss": 0.4168,
      "step": 17000
    },
    {
      "epoch": 22.68,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002999102847427316,
      "loss": 0.4117,
      "step": 17010
    },
    {
      "epoch": 22.693333333333335,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029991017603418334,
      "loss": 0.4193,
      "step": 17020
    },
    {
      "epoch": 22.706666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999100672598333,
      "loss": 0.413,
      "step": 17030
    },
    {
      "epoch": 22.72,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999099584196815,
      "loss": 0.438,
      "step": 17040
    },
    {
      "epoch": 22.733333333333334,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999098495137279,
      "loss": 0.4302,
      "step": 17050
    },
    {
      "epoch": 22.746666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029990974054197275,
      "loss": 0.4299,
      "step": 17060
    },
    {
      "epoch": 22.76,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999096315044159,
      "loss": 0.4437,
      "step": 17070
    },
    {
      "epoch": 22.773333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002999095224010575,
      "loss": 0.4335,
      "step": 17080
    },
    {
      "epoch": 22.786666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999094132318975,
      "loss": 0.4324,
      "step": 17090
    },
    {
      "epoch": 22.8,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029990930399693603,
      "loss": 0.4317,
      "step": 17100
    },
    {
      "epoch": 22.813333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029990919469617314,
      "loss": 0.4056,
      "step": 17110
    },
    {
      "epoch": 22.826666666666668,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029990908532960883,
      "loss": 0.417,
      "step": 17120
    },
    {
      "epoch": 22.84,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999089758972432,
      "loss": 0.428,
      "step": 17130
    },
    {
      "epoch": 22.85333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999088663990763,
      "loss": 0.4244,
      "step": 17140
    },
    {
      "epoch": 22.866666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029990875683510814,
      "loss": 0.4268,
      "step": 17150
    },
    {
      "epoch": 22.88,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029990864720533874,
      "loss": 0.4047,
      "step": 17160
    },
    {
      "epoch": 22.893333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999085375097682,
      "loss": 0.4158,
      "step": 17170
    },
    {
      "epoch": 22.906666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999084277483966,
      "loss": 0.4251,
      "step": 17180
    },
    {
      "epoch": 22.92,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002999083179212239,
      "loss": 0.4271,
      "step": 17190
    },
    {
      "epoch": 22.933333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999082080282502,
      "loss": 0.4188,
      "step": 17200
    },
    {
      "epoch": 22.946666666666665,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999080980694756,
      "loss": 0.4205,
      "step": 17210
    },
    {
      "epoch": 22.96,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029990798804490005,
      "loss": 0.4171,
      "step": 17220
    },
    {
      "epoch": 22.973333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002999078779545236,
      "loss": 0.4419,
      "step": 17230
    },
    {
      "epoch": 22.986666666666668,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002999077677983464,
      "loss": 0.4207,
      "step": 17240
    },
    {
      "epoch": 23.0,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002999076575763684,
      "loss": 0.4113,
      "step": 17250
    },
    {
      "epoch": 23.0,
      "eval_loss": 0.4455166757106781,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8486,
      "eval_samples_per_second": 1.625,
      "eval_steps_per_second": 0.102,
      "step": 17250
    },
    {
      "epoch": 23.013333333333332,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002999075472885897,
      "loss": 0.4312,
      "step": 17260
    },
    {
      "epoch": 23.026666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999074369350103,
      "loss": 0.4424,
      "step": 17270
    },
    {
      "epoch": 23.04,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002999073265156303,
      "loss": 0.4536,
      "step": 17280
    },
    {
      "epoch": 23.053333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029990721603044974,
      "loss": 0.4408,
      "step": 17290
    },
    {
      "epoch": 23.066666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029990710547946867,
      "loss": 0.4285,
      "step": 17300
    },
    {
      "epoch": 23.08,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029990699486268703,
      "loss": 0.432,
      "step": 17310
    },
    {
      "epoch": 23.093333333333334,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029990688418010507,
      "loss": 0.4311,
      "step": 17320
    },
    {
      "epoch": 23.106666666666666,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002999067734317227,
      "loss": 0.4203,
      "step": 17330
    },
    {
      "epoch": 23.12,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029990666261754,
      "loss": 0.426,
      "step": 17340
    },
    {
      "epoch": 23.133333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.000299906551737557,
      "loss": 0.4182,
      "step": 17350
    },
    {
      "epoch": 23.14666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029990644079177386,
      "loss": 0.436,
      "step": 17360
    },
    {
      "epoch": 23.16,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029990632978019047,
      "loss": 0.4288,
      "step": 17370
    },
    {
      "epoch": 23.173333333333332,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002999062187028069,
      "loss": 0.4221,
      "step": 17380
    },
    {
      "epoch": 23.186666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002999061075596233,
      "loss": 0.4232,
      "step": 17390
    },
    {
      "epoch": 23.2,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029990599635063963,
      "loss": 0.4179,
      "step": 17400
    },
    {
      "epoch": 23.213333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000299905885075856,
      "loss": 0.4181,
      "step": 17410
    },
    {
      "epoch": 23.226666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029990577373527246,
      "loss": 0.4315,
      "step": 17420
    },
    {
      "epoch": 23.24,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029990566232888894,
      "loss": 0.4142,
      "step": 17430
    },
    {
      "epoch": 23.253333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002999055508567057,
      "loss": 0.4177,
      "step": 17440
    },
    {
      "epoch": 23.266666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029990543931872256,
      "loss": 0.4177,
      "step": 17450
    },
    {
      "epoch": 23.28,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029990532771493976,
      "loss": 0.4494,
      "step": 17460
    },
    {
      "epoch": 23.293333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002999052160453572,
      "loss": 0.4051,
      "step": 17470
    },
    {
      "epoch": 23.306666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000299905104309975,
      "loss": 0.427,
      "step": 17480
    },
    {
      "epoch": 23.32,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029990499250879323,
      "loss": 0.4268,
      "step": 17490
    },
    {
      "epoch": 23.333333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029990488064181195,
      "loss": 0.4351,
      "step": 17500
    },
    {
      "epoch": 23.346666666666668,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002999047687090311,
      "loss": 0.425,
      "step": 17510
    },
    {
      "epoch": 23.36,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002999046567104508,
      "loss": 0.4272,
      "step": 17520
    },
    {
      "epoch": 23.373333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029990454464607117,
      "loss": 0.4255,
      "step": 17530
    },
    {
      "epoch": 23.386666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029990443251589217,
      "loss": 0.4196,
      "step": 17540
    },
    {
      "epoch": 23.4,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029990432031991386,
      "loss": 0.4261,
      "step": 17550
    },
    {
      "epoch": 23.413333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029990420805813624,
      "loss": 0.4295,
      "step": 17560
    },
    {
      "epoch": 23.426666666666666,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002999040957305595,
      "loss": 0.4314,
      "step": 17570
    },
    {
      "epoch": 23.44,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029990398333718356,
      "loss": 0.442,
      "step": 17580
    },
    {
      "epoch": 23.453333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029990387087800856,
      "loss": 0.4317,
      "step": 17590
    },
    {
      "epoch": 23.466666666666665,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029990375835303447,
      "loss": 0.4403,
      "step": 17600
    },
    {
      "epoch": 23.48,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002999036457622614,
      "loss": 0.4218,
      "step": 17610
    },
    {
      "epoch": 23.493333333333332,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029990353310568933,
      "loss": 0.433,
      "step": 17620
    },
    {
      "epoch": 23.506666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002999034203833184,
      "loss": 0.4289,
      "step": 17630
    },
    {
      "epoch": 23.52,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002999033075951486,
      "loss": 0.419,
      "step": 17640
    },
    {
      "epoch": 23.533333333333335,
      "grad_norm": 0.251953125,
      "learning_rate": 0.00029990319474117996,
      "loss": 0.4236,
      "step": 17650
    },
    {
      "epoch": 23.546666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029990308182141257,
      "loss": 0.4261,
      "step": 17660
    },
    {
      "epoch": 23.56,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029990296883584657,
      "loss": 0.4194,
      "step": 17670
    },
    {
      "epoch": 23.573333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002999028557844818,
      "loss": 0.4222,
      "step": 17680
    },
    {
      "epoch": 23.586666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029990274266731843,
      "loss": 0.4124,
      "step": 17690
    },
    {
      "epoch": 23.6,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002999026294843565,
      "loss": 0.4137,
      "step": 17700
    },
    {
      "epoch": 23.613333333333333,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.00029990251623559616,
      "loss": 0.4004,
      "step": 17710
    },
    {
      "epoch": 23.626666666666665,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029990240292103725,
      "loss": 0.4056,
      "step": 17720
    },
    {
      "epoch": 23.64,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029990228954067995,
      "loss": 0.4215,
      "step": 17730
    },
    {
      "epoch": 23.653333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002999021760945243,
      "loss": 0.4313,
      "step": 17740
    },
    {
      "epoch": 23.666666666666668,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029990206258257037,
      "loss": 0.4161,
      "step": 17750
    },
    {
      "epoch": 23.68,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029990194900481813,
      "loss": 0.4096,
      "step": 17760
    },
    {
      "epoch": 23.693333333333335,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0002999018353612677,
      "loss": 0.4181,
      "step": 17770
    },
    {
      "epoch": 23.706666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029990172165191914,
      "loss": 0.413,
      "step": 17780
    },
    {
      "epoch": 23.72,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029990160787677245,
      "loss": 0.4365,
      "step": 17790
    },
    {
      "epoch": 23.733333333333334,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002999014940358277,
      "loss": 0.4298,
      "step": 17800
    },
    {
      "epoch": 23.746666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002999013801290849,
      "loss": 0.4295,
      "step": 17810
    },
    {
      "epoch": 23.76,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029990126615654417,
      "loss": 0.4429,
      "step": 17820
    },
    {
      "epoch": 23.773333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002999011521182055,
      "loss": 0.4329,
      "step": 17830
    },
    {
      "epoch": 23.786666666666665,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029990103801406904,
      "loss": 0.4314,
      "step": 17840
    },
    {
      "epoch": 23.8,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029990092384413474,
      "loss": 0.4303,
      "step": 17850
    },
    {
      "epoch": 23.813333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029990080960840264,
      "loss": 0.4032,
      "step": 17860
    },
    {
      "epoch": 23.826666666666668,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002999006953068728,
      "loss": 0.4162,
      "step": 17870
    },
    {
      "epoch": 23.84,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002999005809395454,
      "loss": 0.4284,
      "step": 17880
    },
    {
      "epoch": 23.85333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002999004665064203,
      "loss": 0.4216,
      "step": 17890
    },
    {
      "epoch": 23.866666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002999003520074977,
      "loss": 0.4252,
      "step": 17900
    },
    {
      "epoch": 23.88,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029990023744277754,
      "loss": 0.4045,
      "step": 17910
    },
    {
      "epoch": 23.893333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029990012281226,
      "loss": 0.4151,
      "step": 17920
    },
    {
      "epoch": 23.906666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299900008115945,
      "loss": 0.4237,
      "step": 17930
    },
    {
      "epoch": 23.92,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998998933538326,
      "loss": 0.4247,
      "step": 17940
    },
    {
      "epoch": 23.933333333333334,
      "grad_norm": 0.2265625,
      "learning_rate": 0.000299899778525923,
      "loss": 0.4177,
      "step": 17950
    },
    {
      "epoch": 23.946666666666665,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998996636322161,
      "loss": 0.4195,
      "step": 17960
    },
    {
      "epoch": 23.96,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029989954867271193,
      "loss": 0.417,
      "step": 17970
    },
    {
      "epoch": 23.973333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029989943364741063,
      "loss": 0.4419,
      "step": 17980
    },
    {
      "epoch": 23.986666666666668,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029989931855631225,
      "loss": 0.4201,
      "step": 17990
    },
    {
      "epoch": 24.0,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998992033994168,
      "loss": 0.4115,
      "step": 18000
    },
    {
      "epoch": 24.0,
      "eval_loss": 0.4436083436012268,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8922,
      "eval_samples_per_second": 1.617,
      "eval_steps_per_second": 0.101,
      "step": 18000
    },
    {
      "epoch": 24.013333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029989908817672434,
      "loss": 0.4317,
      "step": 18010
    },
    {
      "epoch": 24.026666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002998989728882349,
      "loss": 0.4401,
      "step": 18020
    },
    {
      "epoch": 24.04,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029989885753394863,
      "loss": 0.4524,
      "step": 18030
    },
    {
      "epoch": 24.053333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998987421138654,
      "loss": 0.4395,
      "step": 18040
    },
    {
      "epoch": 24.066666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998986266279855,
      "loss": 0.4266,
      "step": 18050
    },
    {
      "epoch": 24.08,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002998985110763087,
      "loss": 0.4311,
      "step": 18060
    },
    {
      "epoch": 24.093333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998983954588353,
      "loss": 0.431,
      "step": 18070
    },
    {
      "epoch": 24.106666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029989827977556523,
      "loss": 0.4195,
      "step": 18080
    },
    {
      "epoch": 24.12,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029989816402649854,
      "loss": 0.4256,
      "step": 18090
    },
    {
      "epoch": 24.133333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998980482116353,
      "loss": 0.4178,
      "step": 18100
    },
    {
      "epoch": 24.14666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998979323309756,
      "loss": 0.4355,
      "step": 18110
    },
    {
      "epoch": 24.16,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002998978163845194,
      "loss": 0.4282,
      "step": 18120
    },
    {
      "epoch": 24.173333333333332,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029989770037226683,
      "loss": 0.4203,
      "step": 18130
    },
    {
      "epoch": 24.186666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998975842942179,
      "loss": 0.4219,
      "step": 18140
    },
    {
      "epoch": 24.2,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002998974681503727,
      "loss": 0.4163,
      "step": 18150
    },
    {
      "epoch": 24.213333333333335,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029989735194073126,
      "loss": 0.4163,
      "step": 18160
    },
    {
      "epoch": 24.226666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029989723566529363,
      "loss": 0.4303,
      "step": 18170
    },
    {
      "epoch": 24.24,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998971193240598,
      "loss": 0.413,
      "step": 18180
    },
    {
      "epoch": 24.253333333333334,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029989700291702993,
      "loss": 0.4167,
      "step": 18190
    },
    {
      "epoch": 24.266666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029989688644420397,
      "loss": 0.4179,
      "step": 18200
    },
    {
      "epoch": 24.28,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998967699055821,
      "loss": 0.4475,
      "step": 18210
    },
    {
      "epoch": 24.293333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029989665330116427,
      "loss": 0.4039,
      "step": 18220
    },
    {
      "epoch": 24.306666666666665,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998965366309505,
      "loss": 0.4262,
      "step": 18230
    },
    {
      "epoch": 24.32,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029989641989494094,
      "loss": 0.4266,
      "step": 18240
    },
    {
      "epoch": 24.333333333333332,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002998963030931356,
      "loss": 0.4337,
      "step": 18250
    },
    {
      "epoch": 24.346666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029989618622553447,
      "loss": 0.4236,
      "step": 18260
    },
    {
      "epoch": 24.36,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029989606929213775,
      "loss": 0.4267,
      "step": 18270
    },
    {
      "epoch": 24.373333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998959522929453,
      "loss": 0.4236,
      "step": 18280
    },
    {
      "epoch": 24.386666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998958352279573,
      "loss": 0.4182,
      "step": 18290
    },
    {
      "epoch": 24.4,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998957180971739,
      "loss": 0.4245,
      "step": 18300
    },
    {
      "epoch": 24.413333333333334,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002998956009005949,
      "loss": 0.4288,
      "step": 18310
    },
    {
      "epoch": 24.426666666666666,
      "grad_norm": 0.248046875,
      "learning_rate": 0.0002998954836382205,
      "loss": 0.4297,
      "step": 18320
    },
    {
      "epoch": 24.44,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998953663100507,
      "loss": 0.4406,
      "step": 18330
    },
    {
      "epoch": 24.453333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002998952489160856,
      "loss": 0.4306,
      "step": 18340
    },
    {
      "epoch": 24.466666666666665,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029989513145632526,
      "loss": 0.4404,
      "step": 18350
    },
    {
      "epoch": 24.48,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998950139307696,
      "loss": 0.4218,
      "step": 18360
    },
    {
      "epoch": 24.493333333333332,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998948963394189,
      "loss": 0.4331,
      "step": 18370
    },
    {
      "epoch": 24.506666666666668,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000299894778682273,
      "loss": 0.4288,
      "step": 18380
    },
    {
      "epoch": 24.52,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029989466095933206,
      "loss": 0.4186,
      "step": 18390
    },
    {
      "epoch": 24.533333333333335,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029989454317059616,
      "loss": 0.4231,
      "step": 18400
    },
    {
      "epoch": 24.546666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029989442531606523,
      "loss": 0.4261,
      "step": 18410
    },
    {
      "epoch": 24.56,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.0002998943073957394,
      "loss": 0.4188,
      "step": 18420
    },
    {
      "epoch": 24.573333333333334,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998941894096188,
      "loss": 0.4221,
      "step": 18430
    },
    {
      "epoch": 24.586666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998940713577033,
      "loss": 0.4108,
      "step": 18440
    },
    {
      "epoch": 24.6,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002998939532399931,
      "loss": 0.4135,
      "step": 18450
    },
    {
      "epoch": 24.613333333333333,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002998938350564881,
      "loss": 0.3995,
      "step": 18460
    },
    {
      "epoch": 24.626666666666665,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029989371680718855,
      "loss": 0.4041,
      "step": 18470
    },
    {
      "epoch": 24.64,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029989359849209434,
      "loss": 0.4208,
      "step": 18480
    },
    {
      "epoch": 24.653333333333332,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029989348011120564,
      "loss": 0.4315,
      "step": 18490
    },
    {
      "epoch": 24.666666666666668,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029989336166452246,
      "loss": 0.4153,
      "step": 18500
    },
    {
      "epoch": 24.68,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029989324315204475,
      "loss": 0.4085,
      "step": 18510
    },
    {
      "epoch": 24.693333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029989312457377276,
      "loss": 0.4171,
      "step": 18520
    },
    {
      "epoch": 24.706666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029989300592970635,
      "loss": 0.4111,
      "step": 18530
    },
    {
      "epoch": 24.72,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029989288721984567,
      "loss": 0.4344,
      "step": 18540
    },
    {
      "epoch": 24.733333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029989276844419083,
      "loss": 0.4285,
      "step": 18550
    },
    {
      "epoch": 24.746666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002998926496027417,
      "loss": 0.4286,
      "step": 18560
    },
    {
      "epoch": 24.76,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029989253069549846,
      "loss": 0.4412,
      "step": 18570
    },
    {
      "epoch": 24.773333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002998924117224612,
      "loss": 0.4323,
      "step": 18580
    },
    {
      "epoch": 24.786666666666665,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998922926836299,
      "loss": 0.4305,
      "step": 18590
    },
    {
      "epoch": 24.8,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029989217357900464,
      "loss": 0.4301,
      "step": 18600
    },
    {
      "epoch": 24.813333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029989205440858545,
      "loss": 0.404,
      "step": 18610
    },
    {
      "epoch": 24.826666666666668,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002998919351723723,
      "loss": 0.4157,
      "step": 18620
    },
    {
      "epoch": 24.84,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029989181587036545,
      "loss": 0.4272,
      "step": 18630
    },
    {
      "epoch": 24.85333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998916965025648,
      "loss": 0.4217,
      "step": 18640
    },
    {
      "epoch": 24.866666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029989157706897045,
      "loss": 0.4238,
      "step": 18650
    },
    {
      "epoch": 24.88,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998914575695824,
      "loss": 0.403,
      "step": 18660
    },
    {
      "epoch": 24.893333333333334,
      "grad_norm": 0.240234375,
      "learning_rate": 0.0002998913380044008,
      "loss": 0.4132,
      "step": 18670
    },
    {
      "epoch": 24.906666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998912183734256,
      "loss": 0.4234,
      "step": 18680
    },
    {
      "epoch": 24.92,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029989109867665695,
      "loss": 0.4234,
      "step": 18690
    },
    {
      "epoch": 24.933333333333334,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002998909789140948,
      "loss": 0.4164,
      "step": 18700
    },
    {
      "epoch": 24.946666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029989085908573926,
      "loss": 0.4183,
      "step": 18710
    },
    {
      "epoch": 24.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998907391915904,
      "loss": 0.416,
      "step": 18720
    },
    {
      "epoch": 24.973333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998906192316483,
      "loss": 0.4415,
      "step": 18730
    },
    {
      "epoch": 24.986666666666668,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029989049920591286,
      "loss": 0.4179,
      "step": 18740
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002998903791143843,
      "loss": 0.4103,
      "step": 18750
    },
    {
      "epoch": 25.0,
      "eval_loss": 0.4437078833580017,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6466,
      "eval_samples_per_second": 1.659,
      "eval_steps_per_second": 0.104,
      "step": 18750
    },
    {
      "epoch": 25.013333333333332,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002998902589570626,
      "loss": 0.4301,
      "step": 18760
    },
    {
      "epoch": 25.026666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998901387339478,
      "loss": 0.4396,
      "step": 18770
    },
    {
      "epoch": 25.04,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029989001844503996,
      "loss": 0.4527,
      "step": 18780
    },
    {
      "epoch": 25.053333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002998898980903392,
      "loss": 0.4392,
      "step": 18790
    },
    {
      "epoch": 25.066666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029988977766984547,
      "loss": 0.4267,
      "step": 18800
    },
    {
      "epoch": 25.08,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998896571835589,
      "loss": 0.4305,
      "step": 18810
    },
    {
      "epoch": 25.093333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998895366314795,
      "loss": 0.4304,
      "step": 18820
    },
    {
      "epoch": 25.106666666666666,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029988941601360737,
      "loss": 0.4192,
      "step": 18830
    },
    {
      "epoch": 25.12,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998892953299425,
      "loss": 0.4247,
      "step": 18840
    },
    {
      "epoch": 25.133333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998891745804849,
      "loss": 0.416,
      "step": 18850
    },
    {
      "epoch": 25.14666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998890537652348,
      "loss": 0.4346,
      "step": 18860
    },
    {
      "epoch": 25.16,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029988893288419215,
      "loss": 0.4271,
      "step": 18870
    },
    {
      "epoch": 25.173333333333332,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002998888119373569,
      "loss": 0.4219,
      "step": 18880
    },
    {
      "epoch": 25.186666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998886909247293,
      "loss": 0.4219,
      "step": 18890
    },
    {
      "epoch": 25.2,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002998885698463093,
      "loss": 0.4149,
      "step": 18900
    },
    {
      "epoch": 25.213333333333335,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029988844870209696,
      "loss": 0.4164,
      "step": 18910
    },
    {
      "epoch": 25.226666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002998883274920923,
      "loss": 0.4288,
      "step": 18920
    },
    {
      "epoch": 25.24,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029988820621629545,
      "loss": 0.4111,
      "step": 18930
    },
    {
      "epoch": 25.253333333333334,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998880848747064,
      "loss": 0.4148,
      "step": 18940
    },
    {
      "epoch": 25.266666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998879634673252,
      "loss": 0.4161,
      "step": 18950
    },
    {
      "epoch": 25.28,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029988784199415196,
      "loss": 0.4463,
      "step": 18960
    },
    {
      "epoch": 25.293333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029988772045518676,
      "loss": 0.4025,
      "step": 18970
    },
    {
      "epoch": 25.306666666666665,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029988759885042946,
      "loss": 0.4249,
      "step": 18980
    },
    {
      "epoch": 25.32,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002998874771798804,
      "loss": 0.4249,
      "step": 18990
    },
    {
      "epoch": 25.333333333333332,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998873554435394,
      "loss": 0.4332,
      "step": 19000
    },
    {
      "epoch": 25.346666666666668,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029988723364140655,
      "loss": 0.423,
      "step": 19010
    },
    {
      "epoch": 25.36,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000299887111773482,
      "loss": 0.4257,
      "step": 19020
    },
    {
      "epoch": 25.373333333333335,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029988698983976573,
      "loss": 0.4222,
      "step": 19030
    },
    {
      "epoch": 25.386666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029988686784025785,
      "loss": 0.4177,
      "step": 19040
    },
    {
      "epoch": 25.4,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029988674577495836,
      "loss": 0.4237,
      "step": 19050
    },
    {
      "epoch": 25.413333333333334,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998866236438673,
      "loss": 0.4278,
      "step": 19060
    },
    {
      "epoch": 25.426666666666666,
      "grad_norm": 0.228515625,
      "learning_rate": 0.0002998865014469848,
      "loss": 0.4287,
      "step": 19070
    },
    {
      "epoch": 25.44,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029988637918431087,
      "loss": 0.4395,
      "step": 19080
    },
    {
      "epoch": 25.453333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029988625685584553,
      "loss": 0.4302,
      "step": 19090
    },
    {
      "epoch": 25.466666666666665,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002998861344615889,
      "loss": 0.4392,
      "step": 19100
    },
    {
      "epoch": 25.48,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000299886012001541,
      "loss": 0.4199,
      "step": 19110
    },
    {
      "epoch": 25.493333333333332,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029988588947570187,
      "loss": 0.4318,
      "step": 19120
    },
    {
      "epoch": 25.506666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002998857668840716,
      "loss": 0.4272,
      "step": 19130
    },
    {
      "epoch": 25.52,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029988564422665017,
      "loss": 0.4178,
      "step": 19140
    },
    {
      "epoch": 25.533333333333335,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029988552150343777,
      "loss": 0.4226,
      "step": 19150
    },
    {
      "epoch": 25.546666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998853987144343,
      "loss": 0.4244,
      "step": 19160
    },
    {
      "epoch": 25.56,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002998852758596399,
      "loss": 0.4182,
      "step": 19170
    },
    {
      "epoch": 25.573333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998851529390546,
      "loss": 0.421,
      "step": 19180
    },
    {
      "epoch": 25.586666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998850299526785,
      "loss": 0.4106,
      "step": 19190
    },
    {
      "epoch": 25.6,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029988490690051155,
      "loss": 0.412,
      "step": 19200
    },
    {
      "epoch": 25.613333333333333,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029988478378255393,
      "loss": 0.3993,
      "step": 19210
    },
    {
      "epoch": 25.626666666666665,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029988466059880563,
      "loss": 0.4043,
      "step": 19220
    },
    {
      "epoch": 25.64,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998845373492667,
      "loss": 0.4201,
      "step": 19230
    },
    {
      "epoch": 25.653333333333332,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029988441403393717,
      "loss": 0.4298,
      "step": 19240
    },
    {
      "epoch": 25.666666666666668,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998842906528172,
      "loss": 0.4136,
      "step": 19250
    },
    {
      "epoch": 25.68,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029988416720590666,
      "loss": 0.408,
      "step": 19260
    },
    {
      "epoch": 25.693333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002998840436932058,
      "loss": 0.4166,
      "step": 19270
    },
    {
      "epoch": 25.706666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029988392011471454,
      "loss": 0.4108,
      "step": 19280
    },
    {
      "epoch": 25.72,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029988379647043304,
      "loss": 0.4343,
      "step": 19290
    },
    {
      "epoch": 25.733333333333334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029988367276036123,
      "loss": 0.4275,
      "step": 19300
    },
    {
      "epoch": 25.746666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998835489844993,
      "loss": 0.4285,
      "step": 19310
    },
    {
      "epoch": 25.76,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029988342514284717,
      "loss": 0.4407,
      "step": 19320
    },
    {
      "epoch": 25.773333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.000299883301235405,
      "loss": 0.4309,
      "step": 19330
    },
    {
      "epoch": 25.786666666666665,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029988317726217274,
      "loss": 0.4297,
      "step": 19340
    },
    {
      "epoch": 25.8,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002998830532231506,
      "loss": 0.4279,
      "step": 19350
    },
    {
      "epoch": 25.813333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998829291183385,
      "loss": 0.4018,
      "step": 19360
    },
    {
      "epoch": 25.826666666666668,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998828049477365,
      "loss": 0.4145,
      "step": 19370
    },
    {
      "epoch": 25.84,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998826807113448,
      "loss": 0.425,
      "step": 19380
    },
    {
      "epoch": 25.85333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998825564091633,
      "loss": 0.4207,
      "step": 19390
    },
    {
      "epoch": 25.866666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000299882432041192,
      "loss": 0.4243,
      "step": 19400
    },
    {
      "epoch": 25.88,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998823076074312,
      "loss": 0.4022,
      "step": 19410
    },
    {
      "epoch": 25.893333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002998821831078807,
      "loss": 0.4128,
      "step": 19420
    },
    {
      "epoch": 25.906666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029988205854254073,
      "loss": 0.4214,
      "step": 19430
    },
    {
      "epoch": 25.92,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029988193391141126,
      "loss": 0.4238,
      "step": 19440
    },
    {
      "epoch": 25.933333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0002998818092144924,
      "loss": 0.4162,
      "step": 19450
    },
    {
      "epoch": 25.946666666666665,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998816844517841,
      "loss": 0.4187,
      "step": 19460
    },
    {
      "epoch": 25.96,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029988155962328656,
      "loss": 0.4144,
      "step": 19470
    },
    {
      "epoch": 25.973333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998814347289997,
      "loss": 0.4405,
      "step": 19480
    },
    {
      "epoch": 25.986666666666668,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998813097689236,
      "loss": 0.4175,
      "step": 19490
    },
    {
      "epoch": 26.0,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029988118474305847,
      "loss": 0.4096,
      "step": 19500
    },
    {
      "epoch": 26.0,
      "eval_loss": 0.44359347224235535,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7448,
      "eval_samples_per_second": 1.642,
      "eval_steps_per_second": 0.103,
      "step": 19500
    },
    {
      "epoch": 26.013333333333332,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998810596514042,
      "loss": 0.4286,
      "step": 19510
    },
    {
      "epoch": 26.026666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998809344939608,
      "loss": 0.439,
      "step": 19520
    },
    {
      "epoch": 26.04,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029988080927072854,
      "loss": 0.4512,
      "step": 19530
    },
    {
      "epoch": 26.053333333333335,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029988068398170725,
      "loss": 0.4387,
      "step": 19540
    },
    {
      "epoch": 26.066666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002998805586268971,
      "loss": 0.4245,
      "step": 19550
    },
    {
      "epoch": 26.08,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998804332062982,
      "loss": 0.4288,
      "step": 19560
    },
    {
      "epoch": 26.093333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029988030771991046,
      "loss": 0.4292,
      "step": 19570
    },
    {
      "epoch": 26.106666666666666,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.000299880182167734,
      "loss": 0.4167,
      "step": 19580
    },
    {
      "epoch": 26.12,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029988005654976897,
      "loss": 0.4232,
      "step": 19590
    },
    {
      "epoch": 26.133333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029987993086601526,
      "loss": 0.4155,
      "step": 19600
    },
    {
      "epoch": 26.14666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000299879805116473,
      "loss": 0.4348,
      "step": 19610
    },
    {
      "epoch": 26.16,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998796793011423,
      "loss": 0.4261,
      "step": 19620
    },
    {
      "epoch": 26.173333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002998795534200231,
      "loss": 0.4201,
      "step": 19630
    },
    {
      "epoch": 26.186666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029987942747311563,
      "loss": 0.4214,
      "step": 19640
    },
    {
      "epoch": 26.2,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029987930146041974,
      "loss": 0.4145,
      "step": 19650
    },
    {
      "epoch": 26.213333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998791753819356,
      "loss": 0.4154,
      "step": 19660
    },
    {
      "epoch": 26.226666666666667,
      "grad_norm": 0.25,
      "learning_rate": 0.0002998790492376633,
      "loss": 0.4277,
      "step": 19670
    },
    {
      "epoch": 26.24,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002998789230276027,
      "loss": 0.4114,
      "step": 19680
    },
    {
      "epoch": 26.253333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029987879675175415,
      "loss": 0.4142,
      "step": 19690
    },
    {
      "epoch": 26.266666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029987867041011745,
      "loss": 0.4156,
      "step": 19700
    },
    {
      "epoch": 26.28,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998785440026928,
      "loss": 0.4457,
      "step": 19710
    },
    {
      "epoch": 26.293333333333333,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029987841752948023,
      "loss": 0.402,
      "step": 19720
    },
    {
      "epoch": 26.306666666666665,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029987829099047976,
      "loss": 0.4239,
      "step": 19730
    },
    {
      "epoch": 26.32,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002998781643856914,
      "loss": 0.4243,
      "step": 19740
    },
    {
      "epoch": 26.333333333333332,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002998780377151154,
      "loss": 0.4314,
      "step": 19750
    },
    {
      "epoch": 26.346666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998779109787516,
      "loss": 0.4216,
      "step": 19760
    },
    {
      "epoch": 26.36,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029987778417660016,
      "loss": 0.4242,
      "step": 19770
    },
    {
      "epoch": 26.373333333333335,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029987765730866105,
      "loss": 0.4215,
      "step": 19780
    },
    {
      "epoch": 26.386666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998775303749345,
      "loss": 0.4163,
      "step": 19790
    },
    {
      "epoch": 26.4,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002998774033754204,
      "loss": 0.4225,
      "step": 19800
    },
    {
      "epoch": 26.413333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029987727631011887,
      "loss": 0.4269,
      "step": 19810
    },
    {
      "epoch": 26.426666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029987714917902996,
      "loss": 0.4292,
      "step": 19820
    },
    {
      "epoch": 26.44,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998770219821537,
      "loss": 0.4386,
      "step": 19830
    },
    {
      "epoch": 26.453333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002998768947194902,
      "loss": 0.429,
      "step": 19840
    },
    {
      "epoch": 26.466666666666665,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998767673910395,
      "loss": 0.439,
      "step": 19850
    },
    {
      "epoch": 26.48,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998766399968017,
      "loss": 0.4194,
      "step": 19860
    },
    {
      "epoch": 26.493333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029987651253677666,
      "loss": 0.4306,
      "step": 19870
    },
    {
      "epoch": 26.506666666666668,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029987638501096465,
      "loss": 0.4267,
      "step": 19880
    },
    {
      "epoch": 26.52,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029987625741936564,
      "loss": 0.4169,
      "step": 19890
    },
    {
      "epoch": 26.533333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029987612976197967,
      "loss": 0.4208,
      "step": 19900
    },
    {
      "epoch": 26.546666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029987600203880687,
      "loss": 0.4243,
      "step": 19910
    },
    {
      "epoch": 26.56,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998758742498472,
      "loss": 0.4175,
      "step": 19920
    },
    {
      "epoch": 26.573333333333334,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998757463951008,
      "loss": 0.4204,
      "step": 19930
    },
    {
      "epoch": 26.586666666666666,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029987561847456774,
      "loss": 0.4092,
      "step": 19940
    },
    {
      "epoch": 26.6,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002998754904882479,
      "loss": 0.4117,
      "step": 19950
    },
    {
      "epoch": 26.613333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029987536243614155,
      "loss": 0.3979,
      "step": 19960
    },
    {
      "epoch": 26.626666666666665,
      "grad_norm": 0.23828125,
      "learning_rate": 0.0002998752343182486,
      "loss": 0.4036,
      "step": 19970
    },
    {
      "epoch": 26.64,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029987510613456924,
      "loss": 0.4181,
      "step": 19980
    },
    {
      "epoch": 26.653333333333332,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029987497788510345,
      "loss": 0.4287,
      "step": 19990
    },
    {
      "epoch": 26.666666666666668,
      "grad_norm": 0.2431640625,
      "learning_rate": 0.0002998748495698512,
      "loss": 0.4127,
      "step": 20000
    },
    {
      "epoch": 26.68,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998747211888127,
      "loss": 0.4064,
      "step": 20010
    },
    {
      "epoch": 26.693333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998745927419879,
      "loss": 0.4152,
      "step": 20020
    },
    {
      "epoch": 26.706666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029987446422937694,
      "loss": 0.4105,
      "step": 20030
    },
    {
      "epoch": 26.72,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002998743356509798,
      "loss": 0.4328,
      "step": 20040
    },
    {
      "epoch": 26.733333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029987420700679663,
      "loss": 0.4264,
      "step": 20050
    },
    {
      "epoch": 26.746666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029987407829682735,
      "loss": 0.4266,
      "step": 20060
    },
    {
      "epoch": 26.76,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029987394952107215,
      "loss": 0.4397,
      "step": 20070
    },
    {
      "epoch": 26.773333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000299873820679531,
      "loss": 0.4295,
      "step": 20080
    },
    {
      "epoch": 26.786666666666665,
      "grad_norm": 0.240234375,
      "learning_rate": 0.000299873691772204,
      "loss": 0.4288,
      "step": 20090
    },
    {
      "epoch": 26.8,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002998735627990912,
      "loss": 0.4289,
      "step": 20100
    },
    {
      "epoch": 26.813333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998734337601926,
      "loss": 0.4012,
      "step": 20110
    },
    {
      "epoch": 26.826666666666668,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002998733046555084,
      "loss": 0.4132,
      "step": 20120
    },
    {
      "epoch": 26.84,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998731754850385,
      "loss": 0.4242,
      "step": 20130
    },
    {
      "epoch": 26.85333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299873046248783,
      "loss": 0.4186,
      "step": 20140
    },
    {
      "epoch": 26.866666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000299872916946742,
      "loss": 0.422,
      "step": 20150
    },
    {
      "epoch": 26.88,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029987278757891557,
      "loss": 0.4016,
      "step": 20160
    },
    {
      "epoch": 26.893333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002998726581453037,
      "loss": 0.4113,
      "step": 20170
    },
    {
      "epoch": 26.906666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998725286459064,
      "loss": 0.4221,
      "step": 20180
    },
    {
      "epoch": 26.92,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998723990807239,
      "loss": 0.4233,
      "step": 20190
    },
    {
      "epoch": 26.933333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998722694497561,
      "loss": 0.4156,
      "step": 20200
    },
    {
      "epoch": 26.946666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002998721397530032,
      "loss": 0.4175,
      "step": 20210
    },
    {
      "epoch": 26.96,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029987200999046507,
      "loss": 0.4131,
      "step": 20220
    },
    {
      "epoch": 26.973333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029987188016214196,
      "loss": 0.4382,
      "step": 20230
    },
    {
      "epoch": 26.986666666666668,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029987175026803374,
      "loss": 0.4166,
      "step": 20240
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029987162030814063,
      "loss": 0.4078,
      "step": 20250
    },
    {
      "epoch": 27.0,
      "eval_loss": 0.4428989291191101,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8837,
      "eval_samples_per_second": 1.619,
      "eval_steps_per_second": 0.101,
      "step": 20250
    },
    {
      "epoch": 27.013333333333332,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029987149028246263,
      "loss": 0.4291,
      "step": 20260
    },
    {
      "epoch": 27.026666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029987136019099975,
      "loss": 0.4381,
      "step": 20270
    },
    {
      "epoch": 27.04,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002998712300337521,
      "loss": 0.4492,
      "step": 20280
    },
    {
      "epoch": 27.053333333333335,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029987109981071975,
      "loss": 0.4382,
      "step": 20290
    },
    {
      "epoch": 27.066666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998709695219027,
      "loss": 0.4241,
      "step": 20300
    },
    {
      "epoch": 27.08,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029987083916730106,
      "loss": 0.4281,
      "step": 20310
    },
    {
      "epoch": 27.093333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998707087469149,
      "loss": 0.4276,
      "step": 20320
    },
    {
      "epoch": 27.106666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998705782607441,
      "loss": 0.4167,
      "step": 20330
    },
    {
      "epoch": 27.12,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029987044770878903,
      "loss": 0.4233,
      "step": 20340
    },
    {
      "epoch": 27.133333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002998703170910495,
      "loss": 0.4153,
      "step": 20350
    },
    {
      "epoch": 27.14666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998701864075256,
      "loss": 0.4326,
      "step": 20360
    },
    {
      "epoch": 27.16,
      "grad_norm": 0.2333984375,
      "learning_rate": 0.0002998700556582175,
      "loss": 0.4261,
      "step": 20370
    },
    {
      "epoch": 27.173333333333332,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998699248431252,
      "loss": 0.4196,
      "step": 20380
    },
    {
      "epoch": 27.186666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998697939622487,
      "loss": 0.4199,
      "step": 20390
    },
    {
      "epoch": 27.2,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998696630155881,
      "loss": 0.4134,
      "step": 20400
    },
    {
      "epoch": 27.213333333333335,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029986953200314344,
      "loss": 0.4136,
      "step": 20410
    },
    {
      "epoch": 27.226666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998694009249149,
      "loss": 0.4268,
      "step": 20420
    },
    {
      "epoch": 27.24,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029986926978090234,
      "loss": 0.4101,
      "step": 20430
    },
    {
      "epoch": 27.253333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998691385711059,
      "loss": 0.4139,
      "step": 20440
    },
    {
      "epoch": 27.266666666666666,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002998690072955257,
      "loss": 0.4139,
      "step": 20450
    },
    {
      "epoch": 27.28,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029986887595416175,
      "loss": 0.4456,
      "step": 20460
    },
    {
      "epoch": 27.293333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029986874454701406,
      "loss": 0.4017,
      "step": 20470
    },
    {
      "epoch": 27.306666666666665,
      "grad_norm": 0.2421875,
      "learning_rate": 0.00029986861307408283,
      "loss": 0.4229,
      "step": 20480
    },
    {
      "epoch": 27.32,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.00029986848153536796,
      "loss": 0.4237,
      "step": 20490
    },
    {
      "epoch": 27.333333333333332,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029986834993086956,
      "loss": 0.4301,
      "step": 20500
    },
    {
      "epoch": 27.346666666666668,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998682182605877,
      "loss": 0.4203,
      "step": 20510
    },
    {
      "epoch": 27.36,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002998680865245225,
      "loss": 0.424,
      "step": 20520
    },
    {
      "epoch": 27.373333333333335,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.00029986795472267385,
      "loss": 0.421,
      "step": 20530
    },
    {
      "epoch": 27.386666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029986782285504196,
      "loss": 0.4157,
      "step": 20540
    },
    {
      "epoch": 27.4,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998676909216268,
      "loss": 0.4218,
      "step": 20550
    },
    {
      "epoch": 27.413333333333334,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998675589224285,
      "loss": 0.4265,
      "step": 20560
    },
    {
      "epoch": 27.426666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998674268574471,
      "loss": 0.4271,
      "step": 20570
    },
    {
      "epoch": 27.44,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998672947266826,
      "loss": 0.4388,
      "step": 20580
    },
    {
      "epoch": 27.453333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002998671625301352,
      "loss": 0.4289,
      "step": 20590
    },
    {
      "epoch": 27.466666666666665,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029986703026780475,
      "loss": 0.4373,
      "step": 20600
    },
    {
      "epoch": 27.48,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029986689793969144,
      "loss": 0.4182,
      "step": 20610
    },
    {
      "epoch": 27.493333333333332,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029986676554579535,
      "loss": 0.4293,
      "step": 20620
    },
    {
      "epoch": 27.506666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029986663308611644,
      "loss": 0.4252,
      "step": 20630
    },
    {
      "epoch": 27.52,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029986650056065486,
      "loss": 0.4175,
      "step": 20640
    },
    {
      "epoch": 27.533333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002998663679694106,
      "loss": 0.4209,
      "step": 20650
    },
    {
      "epoch": 27.546666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029986623531238376,
      "loss": 0.4228,
      "step": 20660
    },
    {
      "epoch": 27.56,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998661025895744,
      "loss": 0.4171,
      "step": 20670
    },
    {
      "epoch": 27.573333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029986596980098254,
      "loss": 0.4196,
      "step": 20680
    },
    {
      "epoch": 27.586666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998658369466083,
      "loss": 0.4084,
      "step": 20690
    },
    {
      "epoch": 27.6,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.00029986570402645163,
      "loss": 0.4103,
      "step": 20700
    },
    {
      "epoch": 27.613333333333333,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998655710405127,
      "loss": 0.3977,
      "step": 20710
    },
    {
      "epoch": 27.626666666666665,
      "grad_norm": 0.2314453125,
      "learning_rate": 0.0002998654379887915,
      "loss": 0.4022,
      "step": 20720
    },
    {
      "epoch": 27.64,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029986530487128817,
      "loss": 0.418,
      "step": 20730
    },
    {
      "epoch": 27.653333333333332,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998651716880027,
      "loss": 0.4283,
      "step": 20740
    },
    {
      "epoch": 27.666666666666668,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998650384389351,
      "loss": 0.4118,
      "step": 20750
    },
    {
      "epoch": 27.68,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029986490512408555,
      "loss": 0.4059,
      "step": 20760
    },
    {
      "epoch": 27.693333333333335,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002998647717434541,
      "loss": 0.4151,
      "step": 20770
    },
    {
      "epoch": 27.706666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029986463829704066,
      "loss": 0.4094,
      "step": 20780
    },
    {
      "epoch": 27.72,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998645047848454,
      "loss": 0.4319,
      "step": 20790
    },
    {
      "epoch": 27.733333333333334,
      "grad_norm": 0.25,
      "learning_rate": 0.0002998643712068684,
      "loss": 0.4256,
      "step": 20800
    },
    {
      "epoch": 27.746666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029986423756310965,
      "loss": 0.4267,
      "step": 20810
    },
    {
      "epoch": 27.76,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002998641038535693,
      "loss": 0.4392,
      "step": 20820
    },
    {
      "epoch": 27.773333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029986397007824726,
      "loss": 0.4291,
      "step": 20830
    },
    {
      "epoch": 27.786666666666665,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029986383623714375,
      "loss": 0.4281,
      "step": 20840
    },
    {
      "epoch": 27.8,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029986370233025877,
      "loss": 0.4265,
      "step": 20850
    },
    {
      "epoch": 27.813333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002998635683575923,
      "loss": 0.4006,
      "step": 20860
    },
    {
      "epoch": 27.826666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029986343431914454,
      "loss": 0.4125,
      "step": 20870
    },
    {
      "epoch": 27.84,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002998633002149154,
      "loss": 0.4238,
      "step": 20880
    },
    {
      "epoch": 27.85333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998631660449051,
      "loss": 0.4188,
      "step": 20890
    },
    {
      "epoch": 27.866666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029986303180911354,
      "loss": 0.421,
      "step": 20900
    },
    {
      "epoch": 27.88,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998628975075409,
      "loss": 0.3999,
      "step": 20910
    },
    {
      "epoch": 27.893333333333334,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029986276314018713,
      "loss": 0.4111,
      "step": 20920
    },
    {
      "epoch": 27.906666666666666,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998626287070524,
      "loss": 0.4202,
      "step": 20930
    },
    {
      "epoch": 27.92,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029986249420813673,
      "loss": 0.4235,
      "step": 20940
    },
    {
      "epoch": 27.933333333333334,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998623596434401,
      "loss": 0.4142,
      "step": 20950
    },
    {
      "epoch": 27.946666666666665,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998622250129627,
      "loss": 0.4159,
      "step": 20960
    },
    {
      "epoch": 27.96,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002998620903167045,
      "loss": 0.412,
      "step": 20970
    },
    {
      "epoch": 27.973333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029986195555466557,
      "loss": 0.4386,
      "step": 20980
    },
    {
      "epoch": 27.986666666666668,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029986182072684603,
      "loss": 0.4158,
      "step": 20990
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029986168583324583,
      "loss": 0.4076,
      "step": 21000
    },
    {
      "epoch": 28.0,
      "eval_loss": 0.4439062774181366,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6979,
      "eval_samples_per_second": 1.65,
      "eval_steps_per_second": 0.103,
      "step": 21000
    },
    {
      "epoch": 28.013333333333332,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002998615508738652,
      "loss": 0.4273,
      "step": 21010
    },
    {
      "epoch": 28.026666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.000299861415848704,
      "loss": 0.437,
      "step": 21020
    },
    {
      "epoch": 28.04,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029986128075776237,
      "loss": 0.4496,
      "step": 21030
    },
    {
      "epoch": 28.053333333333335,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002998611456010404,
      "loss": 0.4372,
      "step": 21040
    },
    {
      "epoch": 28.066666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029986101037853815,
      "loss": 0.4237,
      "step": 21050
    },
    {
      "epoch": 28.08,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002998608750902556,
      "loss": 0.4284,
      "step": 21060
    },
    {
      "epoch": 28.093333333333334,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.000299860739736193,
      "loss": 0.4283,
      "step": 21070
    },
    {
      "epoch": 28.106666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998606043163502,
      "loss": 0.4164,
      "step": 21080
    },
    {
      "epoch": 28.12,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029986046883072727,
      "loss": 0.4223,
      "step": 21090
    },
    {
      "epoch": 28.133333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002998603332793245,
      "loss": 0.4137,
      "step": 21100
    },
    {
      "epoch": 28.14666666666667,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029986019766214164,
      "loss": 0.432,
      "step": 21110
    },
    {
      "epoch": 28.16,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002998600619791789,
      "loss": 0.4242,
      "step": 21120
    },
    {
      "epoch": 28.173333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002998599262304364,
      "loss": 0.4187,
      "step": 21130
    },
    {
      "epoch": 28.186666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002998597904159141,
      "loss": 0.4192,
      "step": 21140
    },
    {
      "epoch": 28.2,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002998596545356121,
      "loss": 0.4124,
      "step": 21150
    },
    {
      "epoch": 28.213333333333335,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029985951858953045,
      "loss": 0.4129,
      "step": 21160
    },
    {
      "epoch": 28.226666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998593825776693,
      "loss": 0.4252,
      "step": 21170
    },
    {
      "epoch": 28.24,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998592465000285,
      "loss": 0.4094,
      "step": 21180
    },
    {
      "epoch": 28.253333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029985911035660827,
      "loss": 0.4122,
      "step": 21190
    },
    {
      "epoch": 28.266666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029985897414740864,
      "loss": 0.414,
      "step": 21200
    },
    {
      "epoch": 28.28,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029985883787242966,
      "loss": 0.4438,
      "step": 21210
    },
    {
      "epoch": 28.293333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002998587015316714,
      "loss": 0.4,
      "step": 21220
    },
    {
      "epoch": 28.306666666666665,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029985856512513393,
      "loss": 0.4218,
      "step": 21230
    },
    {
      "epoch": 28.32,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029985842865281725,
      "loss": 0.4231,
      "step": 21240
    },
    {
      "epoch": 28.333333333333332,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002998582921147215,
      "loss": 0.4309,
      "step": 21250
    },
    {
      "epoch": 28.346666666666668,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002998581555108467,
      "loss": 0.4208,
      "step": 21260
    },
    {
      "epoch": 28.36,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029985801884119284,
      "loss": 0.422,
      "step": 21270
    },
    {
      "epoch": 28.373333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998578821057601,
      "loss": 0.4198,
      "step": 21280
    },
    {
      "epoch": 28.386666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998577453045485,
      "loss": 0.4154,
      "step": 21290
    },
    {
      "epoch": 28.4,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002998576084375581,
      "loss": 0.4213,
      "step": 21300
    },
    {
      "epoch": 28.413333333333334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000299857471504789,
      "loss": 0.4252,
      "step": 21310
    },
    {
      "epoch": 28.426666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002998573345062411,
      "loss": 0.4267,
      "step": 21320
    },
    {
      "epoch": 28.44,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029985719744191465,
      "loss": 0.4374,
      "step": 21330
    },
    {
      "epoch": 28.453333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029985706031180964,
      "loss": 0.4267,
      "step": 21340
    },
    {
      "epoch": 28.466666666666665,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002998569231159261,
      "loss": 0.4361,
      "step": 21350
    },
    {
      "epoch": 28.48,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002998567858542641,
      "loss": 0.4171,
      "step": 21360
    },
    {
      "epoch": 28.493333333333332,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998566485268237,
      "loss": 0.429,
      "step": 21370
    },
    {
      "epoch": 28.506666666666668,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299856511133605,
      "loss": 0.4245,
      "step": 21380
    },
    {
      "epoch": 28.52,
      "grad_norm": 0.2236328125,
      "learning_rate": 0.000299856373674608,
      "loss": 0.4157,
      "step": 21390
    },
    {
      "epoch": 28.533333333333335,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029985623614983285,
      "loss": 0.4178,
      "step": 21400
    },
    {
      "epoch": 28.546666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998560985592795,
      "loss": 0.4216,
      "step": 21410
    },
    {
      "epoch": 28.56,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002998559609029481,
      "loss": 0.416,
      "step": 21420
    },
    {
      "epoch": 28.573333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998558231808387,
      "loss": 0.4184,
      "step": 21430
    },
    {
      "epoch": 28.586666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998556853929513,
      "loss": 0.4079,
      "step": 21440
    },
    {
      "epoch": 28.6,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000299855547539286,
      "loss": 0.4102,
      "step": 21450
    },
    {
      "epoch": 28.613333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029985540961984284,
      "loss": 0.396,
      "step": 21460
    },
    {
      "epoch": 28.626666666666665,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002998552716346219,
      "loss": 0.402,
      "step": 21470
    },
    {
      "epoch": 28.64,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029985513358362324,
      "loss": 0.4178,
      "step": 21480
    },
    {
      "epoch": 28.653333333333332,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998549954668469,
      "loss": 0.4271,
      "step": 21490
    },
    {
      "epoch": 28.666666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029985485728429304,
      "loss": 0.4123,
      "step": 21500
    },
    {
      "epoch": 28.68,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998547190359616,
      "loss": 0.4056,
      "step": 21510
    },
    {
      "epoch": 28.693333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998545807218526,
      "loss": 0.4143,
      "step": 21520
    },
    {
      "epoch": 28.706666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998544423419663,
      "loss": 0.4074,
      "step": 21530
    },
    {
      "epoch": 28.72,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029985430389630255,
      "loss": 0.4312,
      "step": 21540
    },
    {
      "epoch": 28.733333333333334,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998541653848616,
      "loss": 0.4241,
      "step": 21550
    },
    {
      "epoch": 28.746666666666666,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002998540268076433,
      "loss": 0.4255,
      "step": 21560
    },
    {
      "epoch": 28.76,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002998538881646479,
      "loss": 0.4384,
      "step": 21570
    },
    {
      "epoch": 28.773333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998537494558754,
      "loss": 0.4279,
      "step": 21580
    },
    {
      "epoch": 28.786666666666665,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998536106813258,
      "loss": 0.4274,
      "step": 21590
    },
    {
      "epoch": 28.8,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998534718409992,
      "loss": 0.4264,
      "step": 21600
    },
    {
      "epoch": 28.813333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002998533329348957,
      "loss": 0.3998,
      "step": 21610
    },
    {
      "epoch": 28.826666666666668,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998531939630153,
      "loss": 0.4116,
      "step": 21620
    },
    {
      "epoch": 28.84,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002998530549253581,
      "loss": 0.4224,
      "step": 21630
    },
    {
      "epoch": 28.85333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998529158219242,
      "loss": 0.4179,
      "step": 21640
    },
    {
      "epoch": 28.866666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998527766527135,
      "loss": 0.4201,
      "step": 21650
    },
    {
      "epoch": 28.88,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029985263741772627,
      "loss": 0.399,
      "step": 21660
    },
    {
      "epoch": 28.893333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998524981169624,
      "loss": 0.4102,
      "step": 21670
    },
    {
      "epoch": 28.906666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998523587504221,
      "loss": 0.4204,
      "step": 21680
    },
    {
      "epoch": 28.92,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029985221931810537,
      "loss": 0.4216,
      "step": 21690
    },
    {
      "epoch": 28.933333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002998520798200122,
      "loss": 0.4131,
      "step": 21700
    },
    {
      "epoch": 28.946666666666665,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029985194025614265,
      "loss": 0.4159,
      "step": 21710
    },
    {
      "epoch": 28.96,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029985180062649697,
      "loss": 0.4121,
      "step": 21720
    },
    {
      "epoch": 28.973333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299851660931075,
      "loss": 0.438,
      "step": 21730
    },
    {
      "epoch": 28.986666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029985152116987696,
      "loss": 0.4149,
      "step": 21740
    },
    {
      "epoch": 29.0,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002998513813429028,
      "loss": 0.4064,
      "step": 21750
    },
    {
      "epoch": 29.0,
      "eval_loss": 0.443122923374176,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7609,
      "eval_samples_per_second": 1.639,
      "eval_steps_per_second": 0.102,
      "step": 21750
    },
    {
      "epoch": 29.013333333333332,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029985124145015264,
      "loss": 0.4262,
      "step": 21760
    },
    {
      "epoch": 29.026666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998511014916265,
      "loss": 0.4366,
      "step": 21770
    },
    {
      "epoch": 29.04,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998509614673245,
      "loss": 0.4485,
      "step": 21780
    },
    {
      "epoch": 29.053333333333335,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029985082137724665,
      "loss": 0.4353,
      "step": 21790
    },
    {
      "epoch": 29.066666666666666,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029985068122139304,
      "loss": 0.4227,
      "step": 21800
    },
    {
      "epoch": 29.08,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029985054099976376,
      "loss": 0.4268,
      "step": 21810
    },
    {
      "epoch": 29.093333333333334,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029985040071235875,
      "loss": 0.4265,
      "step": 21820
    },
    {
      "epoch": 29.106666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998502603591782,
      "loss": 0.4155,
      "step": 21830
    },
    {
      "epoch": 29.12,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029985011994022214,
      "loss": 0.4217,
      "step": 21840
    },
    {
      "epoch": 29.133333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029984997945549065,
      "loss": 0.4131,
      "step": 21850
    },
    {
      "epoch": 29.14666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998498389049837,
      "loss": 0.4314,
      "step": 21860
    },
    {
      "epoch": 29.16,
      "grad_norm": 0.2392578125,
      "learning_rate": 0.0002998496982887014,
      "loss": 0.4233,
      "step": 21870
    },
    {
      "epoch": 29.173333333333332,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002998495576066439,
      "loss": 0.4169,
      "step": 21880
    },
    {
      "epoch": 29.186666666666667,
      "grad_norm": 0.84765625,
      "learning_rate": 0.0002998494168588111,
      "loss": 0.4175,
      "step": 21890
    },
    {
      "epoch": 29.2,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002998492760452032,
      "loss": 0.4136,
      "step": 21900
    },
    {
      "epoch": 29.213333333333335,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029984913516582025,
      "loss": 0.4134,
      "step": 21910
    },
    {
      "epoch": 29.226666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002998489942206622,
      "loss": 0.4236,
      "step": 21920
    },
    {
      "epoch": 29.24,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029984885320972923,
      "loss": 0.4093,
      "step": 21930
    },
    {
      "epoch": 29.253333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029984871213302135,
      "loss": 0.4124,
      "step": 21940
    },
    {
      "epoch": 29.266666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029984857099053856,
      "loss": 0.413,
      "step": 21950
    },
    {
      "epoch": 29.28,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000299848429782281,
      "loss": 0.4436,
      "step": 21960
    },
    {
      "epoch": 29.293333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998482885082488,
      "loss": 0.3988,
      "step": 21970
    },
    {
      "epoch": 29.306666666666665,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998481471684419,
      "loss": 0.4205,
      "step": 21980
    },
    {
      "epoch": 29.32,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998480057628604,
      "loss": 0.422,
      "step": 21990
    },
    {
      "epoch": 29.333333333333332,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029984786429150436,
      "loss": 0.4288,
      "step": 22000
    },
    {
      "epoch": 29.346666666666668,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998477227543739,
      "loss": 0.4199,
      "step": 22010
    },
    {
      "epoch": 29.36,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029984758115146897,
      "loss": 0.4214,
      "step": 22020
    },
    {
      "epoch": 29.373333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029984743948278974,
      "loss": 0.4198,
      "step": 22030
    },
    {
      "epoch": 29.386666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029984729774833614,
      "loss": 0.4137,
      "step": 22040
    },
    {
      "epoch": 29.4,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998471559481084,
      "loss": 0.4197,
      "step": 22050
    },
    {
      "epoch": 29.413333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002998470140821065,
      "loss": 0.4246,
      "step": 22060
    },
    {
      "epoch": 29.426666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029984687215033046,
      "loss": 0.4258,
      "step": 22070
    },
    {
      "epoch": 29.44,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029984673015278046,
      "loss": 0.437,
      "step": 22080
    },
    {
      "epoch": 29.453333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998465880894564,
      "loss": 0.4272,
      "step": 22090
    },
    {
      "epoch": 29.466666666666665,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002998464459603585,
      "loss": 0.4373,
      "step": 22100
    },
    {
      "epoch": 29.48,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029984630376548666,
      "loss": 0.4166,
      "step": 22110
    },
    {
      "epoch": 29.493333333333332,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998461615048411,
      "loss": 0.4278,
      "step": 22120
    },
    {
      "epoch": 29.506666666666668,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998460191784218,
      "loss": 0.4241,
      "step": 22130
    },
    {
      "epoch": 29.52,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998458767862288,
      "loss": 0.4145,
      "step": 22140
    },
    {
      "epoch": 29.533333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998457343282623,
      "loss": 0.4185,
      "step": 22150
    },
    {
      "epoch": 29.546666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998455918045222,
      "loss": 0.4204,
      "step": 22160
    },
    {
      "epoch": 29.56,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002998454492150087,
      "loss": 0.4144,
      "step": 22170
    },
    {
      "epoch": 29.573333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002998453065597217,
      "loss": 0.4186,
      "step": 22180
    },
    {
      "epoch": 29.586666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029984516383866136,
      "loss": 0.4074,
      "step": 22190
    },
    {
      "epoch": 29.6,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998450210518278,
      "loss": 0.4094,
      "step": 22200
    },
    {
      "epoch": 29.613333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029984487819922093,
      "loss": 0.3963,
      "step": 22210
    },
    {
      "epoch": 29.626666666666665,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029984473528084094,
      "loss": 0.4017,
      "step": 22220
    },
    {
      "epoch": 29.64,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029984459229668784,
      "loss": 0.4164,
      "step": 22230
    },
    {
      "epoch": 29.653333333333332,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029984444924676176,
      "loss": 0.426,
      "step": 22240
    },
    {
      "epoch": 29.666666666666668,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002998443061310627,
      "loss": 0.4102,
      "step": 22250
    },
    {
      "epoch": 29.68,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002998441629495906,
      "loss": 0.4048,
      "step": 22260
    },
    {
      "epoch": 29.693333333333335,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002998440197023458,
      "loss": 0.4133,
      "step": 22270
    },
    {
      "epoch": 29.706666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029984387638932813,
      "loss": 0.4078,
      "step": 22280
    },
    {
      "epoch": 29.72,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998437330105378,
      "loss": 0.4301,
      "step": 22290
    },
    {
      "epoch": 29.733333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002998435895659748,
      "loss": 0.4242,
      "step": 22300
    },
    {
      "epoch": 29.746666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029984344605563914,
      "loss": 0.4242,
      "step": 22310
    },
    {
      "epoch": 29.76,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029984330247953106,
      "loss": 0.4365,
      "step": 22320
    },
    {
      "epoch": 29.773333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029984315883765044,
      "loss": 0.4277,
      "step": 22330
    },
    {
      "epoch": 29.786666666666665,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029984301512999746,
      "loss": 0.4259,
      "step": 22340
    },
    {
      "epoch": 29.8,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998428713565721,
      "loss": 0.4253,
      "step": 22350
    },
    {
      "epoch": 29.813333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029984272751737445,
      "loss": 0.3978,
      "step": 22360
    },
    {
      "epoch": 29.826666666666668,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002998425836124046,
      "loss": 0.4099,
      "step": 22370
    },
    {
      "epoch": 29.84,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029984243964166263,
      "loss": 0.4217,
      "step": 22380
    },
    {
      "epoch": 29.85333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998422956051485,
      "loss": 0.4175,
      "step": 22390
    },
    {
      "epoch": 29.866666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029984215150286237,
      "loss": 0.4197,
      "step": 22400
    },
    {
      "epoch": 29.88,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998420073348043,
      "loss": 0.3997,
      "step": 22410
    },
    {
      "epoch": 29.893333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029984186310097434,
      "loss": 0.4096,
      "step": 22420
    },
    {
      "epoch": 29.906666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998417188013725,
      "loss": 0.4197,
      "step": 22430
    },
    {
      "epoch": 29.92,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029984157443599895,
      "loss": 0.4211,
      "step": 22440
    },
    {
      "epoch": 29.933333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002998414300048537,
      "loss": 0.4131,
      "step": 22450
    },
    {
      "epoch": 29.946666666666665,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998412855079367,
      "loss": 0.4157,
      "step": 22460
    },
    {
      "epoch": 29.96,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998411409452481,
      "loss": 0.4114,
      "step": 22470
    },
    {
      "epoch": 29.973333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029984099631678813,
      "loss": 0.4375,
      "step": 22480
    },
    {
      "epoch": 29.986666666666668,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998408516225566,
      "loss": 0.4142,
      "step": 22490
    },
    {
      "epoch": 30.0,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029984070686255374,
      "loss": 0.4067,
      "step": 22500
    },
    {
      "epoch": 30.0,
      "eval_loss": 0.43998971581459045,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 8.3736,
      "eval_samples_per_second": 1.911,
      "eval_steps_per_second": 0.119,
      "step": 22500
    },
    {
      "epoch": 30.013333333333332,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998405620367795,
      "loss": 0.4267,
      "step": 22510
    },
    {
      "epoch": 30.026666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299840417145234,
      "loss": 0.4357,
      "step": 22520
    },
    {
      "epoch": 30.04,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998402721879173,
      "loss": 0.4479,
      "step": 22530
    },
    {
      "epoch": 30.053333333333335,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029984012716482945,
      "loss": 0.4347,
      "step": 22540
    },
    {
      "epoch": 30.066666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029983998207597055,
      "loss": 0.4219,
      "step": 22550
    },
    {
      "epoch": 30.08,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002998398369213406,
      "loss": 0.4244,
      "step": 22560
    },
    {
      "epoch": 30.093333333333334,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998396917009398,
      "loss": 0.426,
      "step": 22570
    },
    {
      "epoch": 30.106666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.000299839546414768,
      "loss": 0.4134,
      "step": 22580
    },
    {
      "epoch": 30.12,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029983940106282546,
      "loss": 0.4201,
      "step": 22590
    },
    {
      "epoch": 30.133333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998392556451121,
      "loss": 0.4117,
      "step": 22600
    },
    {
      "epoch": 30.14666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998391101616281,
      "loss": 0.4299,
      "step": 22610
    },
    {
      "epoch": 30.16,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002998389646123735,
      "loss": 0.4227,
      "step": 22620
    },
    {
      "epoch": 30.173333333333332,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029983881899734826,
      "loss": 0.4171,
      "step": 22630
    },
    {
      "epoch": 30.186666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029983867331655255,
      "loss": 0.4168,
      "step": 22640
    },
    {
      "epoch": 30.2,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002998385275699864,
      "loss": 0.4116,
      "step": 22650
    },
    {
      "epoch": 30.213333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998383817576499,
      "loss": 0.412,
      "step": 22660
    },
    {
      "epoch": 30.226666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998382358795431,
      "loss": 0.4233,
      "step": 22670
    },
    {
      "epoch": 30.24,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000299838089935666,
      "loss": 0.4078,
      "step": 22680
    },
    {
      "epoch": 30.253333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029983794392601874,
      "loss": 0.4119,
      "step": 22690
    },
    {
      "epoch": 30.266666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029983779785060135,
      "loss": 0.4119,
      "step": 22700
    },
    {
      "epoch": 30.28,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029983765170941393,
      "loss": 0.4436,
      "step": 22710
    },
    {
      "epoch": 30.293333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998375055024565,
      "loss": 0.3985,
      "step": 22720
    },
    {
      "epoch": 30.306666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998373592297292,
      "loss": 0.421,
      "step": 22730
    },
    {
      "epoch": 30.32,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000299837212891232,
      "loss": 0.4204,
      "step": 22740
    },
    {
      "epoch": 30.333333333333332,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029983706648696503,
      "loss": 0.4283,
      "step": 22750
    },
    {
      "epoch": 30.346666666666668,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029983692001692825,
      "loss": 0.4184,
      "step": 22760
    },
    {
      "epoch": 30.36,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998367734811219,
      "loss": 0.4206,
      "step": 22770
    },
    {
      "epoch": 30.373333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998366268795459,
      "loss": 0.4185,
      "step": 22780
    },
    {
      "epoch": 30.386666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029983648021220035,
      "loss": 0.4136,
      "step": 22790
    },
    {
      "epoch": 30.4,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002998363334790854,
      "loss": 0.4196,
      "step": 22800
    },
    {
      "epoch": 30.413333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299836186680201,
      "loss": 0.4235,
      "step": 22810
    },
    {
      "epoch": 30.426666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029983603981554723,
      "loss": 0.4258,
      "step": 22820
    },
    {
      "epoch": 30.44,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998358928851242,
      "loss": 0.4359,
      "step": 22830
    },
    {
      "epoch": 30.453333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002998357458889319,
      "loss": 0.4254,
      "step": 22840
    },
    {
      "epoch": 30.466666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002998355988269705,
      "loss": 0.4358,
      "step": 22850
    },
    {
      "epoch": 30.48,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029983545169924006,
      "loss": 0.4169,
      "step": 22860
    },
    {
      "epoch": 30.493333333333332,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029983530450574053,
      "loss": 0.427,
      "step": 22870
    },
    {
      "epoch": 30.506666666666668,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029983515724647206,
      "loss": 0.4243,
      "step": 22880
    },
    {
      "epoch": 30.52,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998350099214347,
      "loss": 0.4144,
      "step": 22890
    },
    {
      "epoch": 30.533333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998348625306285,
      "loss": 0.4187,
      "step": 22900
    },
    {
      "epoch": 30.546666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029983471507405353,
      "loss": 0.4205,
      "step": 22910
    },
    {
      "epoch": 30.56,
      "grad_norm": 0.24609375,
      "learning_rate": 0.00029983456755170986,
      "loss": 0.4147,
      "step": 22920
    },
    {
      "epoch": 30.573333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002998344199635976,
      "loss": 0.4166,
      "step": 22930
    },
    {
      "epoch": 30.586666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029983427230971673,
      "loss": 0.406,
      "step": 22940
    },
    {
      "epoch": 30.6,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029983412459006734,
      "loss": 0.4073,
      "step": 22950
    },
    {
      "epoch": 30.613333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998339768046496,
      "loss": 0.3951,
      "step": 22960
    },
    {
      "epoch": 30.626666666666665,
      "grad_norm": 0.2353515625,
      "learning_rate": 0.0002998338289534634,
      "loss": 0.4003,
      "step": 22970
    },
    {
      "epoch": 30.64,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002998336810365089,
      "loss": 0.4161,
      "step": 22980
    },
    {
      "epoch": 30.653333333333332,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029983353305378617,
      "loss": 0.4258,
      "step": 22990
    },
    {
      "epoch": 30.666666666666668,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002998333850052953,
      "loss": 0.4112,
      "step": 23000
    },
    {
      "epoch": 30.68,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998332368910362,
      "loss": 0.4027,
      "step": 23010
    },
    {
      "epoch": 30.693333333333335,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029983308871100913,
      "loss": 0.4124,
      "step": 23020
    },
    {
      "epoch": 30.706666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998329404652141,
      "loss": 0.4067,
      "step": 23030
    },
    {
      "epoch": 30.72,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002998327921536511,
      "loss": 0.4299,
      "step": 23040
    },
    {
      "epoch": 30.733333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029983264377632027,
      "loss": 0.4227,
      "step": 23050
    },
    {
      "epoch": 30.746666666666666,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029983249533322164,
      "loss": 0.4237,
      "step": 23060
    },
    {
      "epoch": 30.76,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029983234682435524,
      "loss": 0.4372,
      "step": 23070
    },
    {
      "epoch": 30.773333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029983219824972126,
      "loss": 0.426,
      "step": 23080
    },
    {
      "epoch": 30.786666666666665,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002998320496093197,
      "loss": 0.4255,
      "step": 23090
    },
    {
      "epoch": 30.8,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002998319009031505,
      "loss": 0.4239,
      "step": 23100
    },
    {
      "epoch": 30.813333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002998317521312139,
      "loss": 0.3985,
      "step": 23110
    },
    {
      "epoch": 30.826666666666668,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998316032935099,
      "loss": 0.4111,
      "step": 23120
    },
    {
      "epoch": 30.84,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002998314543900386,
      "loss": 0.4214,
      "step": 23130
    },
    {
      "epoch": 30.85333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029983130542079995,
      "loss": 0.4167,
      "step": 23140
    },
    {
      "epoch": 30.866666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029983115638579415,
      "loss": 0.4193,
      "step": 23150
    },
    {
      "epoch": 30.88,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029983100728502124,
      "loss": 0.3974,
      "step": 23160
    },
    {
      "epoch": 30.893333333333334,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998308581184812,
      "loss": 0.4093,
      "step": 23170
    },
    {
      "epoch": 30.906666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029983070888617416,
      "loss": 0.4186,
      "step": 23180
    },
    {
      "epoch": 30.92,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998305595881002,
      "loss": 0.42,
      "step": 23190
    },
    {
      "epoch": 30.933333333333334,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002998304102242594,
      "loss": 0.4122,
      "step": 23200
    },
    {
      "epoch": 30.946666666666665,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998302607946517,
      "loss": 0.4138,
      "step": 23210
    },
    {
      "epoch": 30.96,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029983011129927736,
      "loss": 0.4096,
      "step": 23220
    },
    {
      "epoch": 30.973333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002998299617381363,
      "loss": 0.4367,
      "step": 23230
    },
    {
      "epoch": 30.986666666666668,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998298121112286,
      "loss": 0.4138,
      "step": 23240
    },
    {
      "epoch": 31.0,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002998296624185544,
      "loss": 0.4056,
      "step": 23250
    },
    {
      "epoch": 31.0,
      "eval_loss": 0.4408172070980072,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9269,
      "eval_samples_per_second": 1.612,
      "eval_steps_per_second": 0.101,
      "step": 23250
    },
    {
      "epoch": 31.013333333333332,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002998295126601137,
      "loss": 0.4253,
      "step": 23260
    },
    {
      "epoch": 31.026666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029982936283590655,
      "loss": 0.4349,
      "step": 23270
    },
    {
      "epoch": 31.04,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029982921294593307,
      "loss": 0.4478,
      "step": 23280
    },
    {
      "epoch": 31.053333333333335,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998290629901933,
      "loss": 0.4354,
      "step": 23290
    },
    {
      "epoch": 31.066666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002998289129686874,
      "loss": 0.4205,
      "step": 23300
    },
    {
      "epoch": 31.08,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029982876288141524,
      "loss": 0.4249,
      "step": 23310
    },
    {
      "epoch": 31.093333333333334,
      "grad_norm": 0.265625,
      "learning_rate": 0.000299828612728377,
      "loss": 0.4256,
      "step": 23320
    },
    {
      "epoch": 31.106666666666666,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029982846250957277,
      "loss": 0.4138,
      "step": 23330
    },
    {
      "epoch": 31.12,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029982831222500256,
      "loss": 0.4194,
      "step": 23340
    },
    {
      "epoch": 31.133333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029982816187466653,
      "loss": 0.4112,
      "step": 23350
    },
    {
      "epoch": 31.14666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002998280114585646,
      "loss": 0.43,
      "step": 23360
    },
    {
      "epoch": 31.16,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029982786097669696,
      "loss": 0.4227,
      "step": 23370
    },
    {
      "epoch": 31.173333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.00029982771042906363,
      "loss": 0.4152,
      "step": 23380
    },
    {
      "epoch": 31.186666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029982755981566465,
      "loss": 0.4167,
      "step": 23390
    },
    {
      "epoch": 31.2,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029982740913650014,
      "loss": 0.4104,
      "step": 23400
    },
    {
      "epoch": 31.213333333333335,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998272583915701,
      "loss": 0.4114,
      "step": 23410
    },
    {
      "epoch": 31.226666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029982710758087467,
      "loss": 0.4244,
      "step": 23420
    },
    {
      "epoch": 31.24,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002998269567044139,
      "loss": 0.4072,
      "step": 23430
    },
    {
      "epoch": 31.253333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029982680576218777,
      "loss": 0.4096,
      "step": 23440
    },
    {
      "epoch": 31.266666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029982665475419644,
      "loss": 0.4109,
      "step": 23450
    },
    {
      "epoch": 31.28,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002998265036804399,
      "loss": 0.4416,
      "step": 23460
    },
    {
      "epoch": 31.293333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029982635254091833,
      "loss": 0.398,
      "step": 23470
    },
    {
      "epoch": 31.306666666666665,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029982620133563176,
      "loss": 0.4201,
      "step": 23480
    },
    {
      "epoch": 31.32,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029982605006458014,
      "loss": 0.4209,
      "step": 23490
    },
    {
      "epoch": 31.333333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002998258987277637,
      "loss": 0.4273,
      "step": 23500
    },
    {
      "epoch": 31.346666666666668,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029982574732518235,
      "loss": 0.4176,
      "step": 23510
    },
    {
      "epoch": 31.36,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002998255958568363,
      "loss": 0.421,
      "step": 23520
    },
    {
      "epoch": 31.373333333333335,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029982544432272557,
      "loss": 0.4181,
      "step": 23530
    },
    {
      "epoch": 31.386666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002998252927228502,
      "loss": 0.4126,
      "step": 23540
    },
    {
      "epoch": 31.4,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998251410572102,
      "loss": 0.4195,
      "step": 23550
    },
    {
      "epoch": 31.413333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029982498932580576,
      "loss": 0.4223,
      "step": 23560
    },
    {
      "epoch": 31.426666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029982483752863685,
      "loss": 0.4242,
      "step": 23570
    },
    {
      "epoch": 31.44,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029982468566570365,
      "loss": 0.4358,
      "step": 23580
    },
    {
      "epoch": 31.453333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029982453373700606,
      "loss": 0.4252,
      "step": 23590
    },
    {
      "epoch": 31.466666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029982438174254434,
      "loss": 0.4348,
      "step": 23600
    },
    {
      "epoch": 31.48,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002998242296823184,
      "loss": 0.415,
      "step": 23610
    },
    {
      "epoch": 31.493333333333332,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998240775563284,
      "loss": 0.4276,
      "step": 23620
    },
    {
      "epoch": 31.506666666666668,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998239253645743,
      "loss": 0.4228,
      "step": 23630
    },
    {
      "epoch": 31.52,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0002998237731070563,
      "loss": 0.414,
      "step": 23640
    },
    {
      "epoch": 31.533333333333335,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002998236207837744,
      "loss": 0.4174,
      "step": 23650
    },
    {
      "epoch": 31.546666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002998234683947286,
      "loss": 0.4196,
      "step": 23660
    },
    {
      "epoch": 31.56,
      "grad_norm": 0.236328125,
      "learning_rate": 0.0002998233159399191,
      "loss": 0.4129,
      "step": 23670
    },
    {
      "epoch": 31.573333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029982316341934593,
      "loss": 0.4164,
      "step": 23680
    },
    {
      "epoch": 31.586666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998230108330091,
      "loss": 0.405,
      "step": 23690
    },
    {
      "epoch": 31.6,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029982285818090865,
      "loss": 0.4082,
      "step": 23700
    },
    {
      "epoch": 31.613333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998227054630448,
      "loss": 0.3939,
      "step": 23710
    },
    {
      "epoch": 31.626666666666665,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029982255267941747,
      "loss": 0.4,
      "step": 23720
    },
    {
      "epoch": 31.64,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029982239983002677,
      "loss": 0.4147,
      "step": 23730
    },
    {
      "epoch": 31.653333333333332,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998222469148728,
      "loss": 0.4259,
      "step": 23740
    },
    {
      "epoch": 31.666666666666668,
      "grad_norm": 0.244140625,
      "learning_rate": 0.0002998220939339556,
      "loss": 0.4092,
      "step": 23750
    },
    {
      "epoch": 31.68,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998219408872753,
      "loss": 0.4029,
      "step": 23760
    },
    {
      "epoch": 31.693333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029982178777483183,
      "loss": 0.4123,
      "step": 23770
    },
    {
      "epoch": 31.706666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029982163459662533,
      "loss": 0.4055,
      "step": 23780
    },
    {
      "epoch": 31.72,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029982148135265595,
      "loss": 0.4292,
      "step": 23790
    },
    {
      "epoch": 31.733333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029982132804292364,
      "loss": 0.4223,
      "step": 23800
    },
    {
      "epoch": 31.746666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029982117466742844,
      "loss": 0.4235,
      "step": 23810
    },
    {
      "epoch": 31.76,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029982102122617054,
      "loss": 0.4358,
      "step": 23820
    },
    {
      "epoch": 31.773333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029982086771915,
      "loss": 0.426,
      "step": 23830
    },
    {
      "epoch": 31.786666666666665,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002998207141463668,
      "loss": 0.4243,
      "step": 23840
    },
    {
      "epoch": 31.8,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000299820560507821,
      "loss": 0.4246,
      "step": 23850
    },
    {
      "epoch": 31.813333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002998204068035127,
      "loss": 0.397,
      "step": 23860
    },
    {
      "epoch": 31.826666666666668,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002998202530334421,
      "loss": 0.4093,
      "step": 23870
    },
    {
      "epoch": 31.84,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029982009919760907,
      "loss": 0.4196,
      "step": 23880
    },
    {
      "epoch": 31.85333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029981994529601377,
      "loss": 0.4154,
      "step": 23890
    },
    {
      "epoch": 31.866666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029981979132865625,
      "loss": 0.4183,
      "step": 23900
    },
    {
      "epoch": 31.88,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002998196372955366,
      "loss": 0.3979,
      "step": 23910
    },
    {
      "epoch": 31.893333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029981948319665483,
      "loss": 0.4084,
      "step": 23920
    },
    {
      "epoch": 31.906666666666666,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998193290320111,
      "loss": 0.4178,
      "step": 23930
    },
    {
      "epoch": 31.92,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029981917480160537,
      "loss": 0.4195,
      "step": 23940
    },
    {
      "epoch": 31.933333333333334,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002998190205054378,
      "loss": 0.4115,
      "step": 23950
    },
    {
      "epoch": 31.946666666666665,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002998188661435084,
      "loss": 0.4143,
      "step": 23960
    },
    {
      "epoch": 31.96,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998187117158173,
      "loss": 0.4104,
      "step": 23970
    },
    {
      "epoch": 31.973333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002998185572223644,
      "loss": 0.4356,
      "step": 23980
    },
    {
      "epoch": 31.986666666666668,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029981840266315,
      "loss": 0.4127,
      "step": 23990
    },
    {
      "epoch": 32.0,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002998182480381741,
      "loss": 0.4048,
      "step": 24000
    },
    {
      "epoch": 32.0,
      "eval_loss": 0.4415372908115387,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2222,
      "eval_samples_per_second": 1.565,
      "eval_steps_per_second": 0.098,
      "step": 24000
    },
    {
      "epoch": 32.013333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029981809334743664,
      "loss": 0.424,
      "step": 24010
    },
    {
      "epoch": 32.026666666666664,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002998179385909378,
      "loss": 0.4343,
      "step": 24020
    },
    {
      "epoch": 32.04,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002998177837686777,
      "loss": 0.4457,
      "step": 24030
    },
    {
      "epoch": 32.053333333333335,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029981762888065623,
      "loss": 0.4336,
      "step": 24040
    },
    {
      "epoch": 32.06666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029981747392687357,
      "loss": 0.421,
      "step": 24050
    },
    {
      "epoch": 32.08,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002998173189073298,
      "loss": 0.4243,
      "step": 24060
    },
    {
      "epoch": 32.093333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000299817163822025,
      "loss": 0.4241,
      "step": 24070
    },
    {
      "epoch": 32.10666666666667,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002998170086709592,
      "loss": 0.4132,
      "step": 24080
    },
    {
      "epoch": 32.12,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029981685345413246,
      "loss": 0.4193,
      "step": 24090
    },
    {
      "epoch": 32.13333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029981669817154483,
      "loss": 0.4107,
      "step": 24100
    },
    {
      "epoch": 32.14666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029981654282319644,
      "loss": 0.4294,
      "step": 24110
    },
    {
      "epoch": 32.16,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998163874090873,
      "loss": 0.422,
      "step": 24120
    },
    {
      "epoch": 32.17333333333333,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029981623192921753,
      "loss": 0.4158,
      "step": 24130
    },
    {
      "epoch": 32.18666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002998160763835872,
      "loss": 0.4163,
      "step": 24140
    },
    {
      "epoch": 32.2,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029981592077219627,
      "loss": 0.4102,
      "step": 24150
    },
    {
      "epoch": 32.21333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998157650950449,
      "loss": 0.4105,
      "step": 24160
    },
    {
      "epoch": 32.22666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029981560935213325,
      "loss": 0.4229,
      "step": 24170
    },
    {
      "epoch": 32.24,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029981545354346124,
      "loss": 0.4068,
      "step": 24180
    },
    {
      "epoch": 32.25333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029981529766902895,
      "loss": 0.41,
      "step": 24190
    },
    {
      "epoch": 32.266666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002998151417288365,
      "loss": 0.4109,
      "step": 24200
    },
    {
      "epoch": 32.28,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000299814985722884,
      "loss": 0.4411,
      "step": 24210
    },
    {
      "epoch": 32.29333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029981482965117136,
      "loss": 0.3969,
      "step": 24220
    },
    {
      "epoch": 32.306666666666665,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029981467351369883,
      "loss": 0.4198,
      "step": 24230
    },
    {
      "epoch": 32.32,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029981451731046635,
      "loss": 0.4196,
      "step": 24240
    },
    {
      "epoch": 32.333333333333336,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998143610414741,
      "loss": 0.4265,
      "step": 24250
    },
    {
      "epoch": 32.346666666666664,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000299814204706722,
      "loss": 0.4169,
      "step": 24260
    },
    {
      "epoch": 32.36,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029981404830621024,
      "loss": 0.4186,
      "step": 24270
    },
    {
      "epoch": 32.373333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002998138918399388,
      "loss": 0.4167,
      "step": 24280
    },
    {
      "epoch": 32.38666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002998137353079079,
      "loss": 0.4134,
      "step": 24290
    },
    {
      "epoch": 32.4,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998135787101175,
      "loss": 0.4182,
      "step": 24300
    },
    {
      "epoch": 32.413333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002998134220465676,
      "loss": 0.423,
      "step": 24310
    },
    {
      "epoch": 32.42666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029981326531725846,
      "loss": 0.4235,
      "step": 24320
    },
    {
      "epoch": 32.44,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002998131085221899,
      "loss": 0.434,
      "step": 24330
    },
    {
      "epoch": 32.45333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029981295166136223,
      "loss": 0.4245,
      "step": 24340
    },
    {
      "epoch": 32.46666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002998127947347754,
      "loss": 0.4346,
      "step": 24350
    },
    {
      "epoch": 32.48,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998126377424295,
      "loss": 0.4146,
      "step": 24360
    },
    {
      "epoch": 32.49333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029981248068432453,
      "loss": 0.4262,
      "step": 24370
    },
    {
      "epoch": 32.50666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029981232356046065,
      "loss": 0.4224,
      "step": 24380
    },
    {
      "epoch": 32.52,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002998121663708379,
      "loss": 0.413,
      "step": 24390
    },
    {
      "epoch": 32.53333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002998120091154563,
      "loss": 0.4164,
      "step": 24400
    },
    {
      "epoch": 32.54666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002998118517943161,
      "loss": 0.419,
      "step": 24410
    },
    {
      "epoch": 32.56,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0002998116944074171,
      "loss": 0.4132,
      "step": 24420
    },
    {
      "epoch": 32.57333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998115369547596,
      "loss": 0.4152,
      "step": 24430
    },
    {
      "epoch": 32.586666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998113794363435,
      "loss": 0.4046,
      "step": 24440
    },
    {
      "epoch": 32.6,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299811221852169,
      "loss": 0.4063,
      "step": 24450
    },
    {
      "epoch": 32.61333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029981106420223606,
      "loss": 0.3945,
      "step": 24460
    },
    {
      "epoch": 32.626666666666665,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029981090648654486,
      "loss": 0.3995,
      "step": 24470
    },
    {
      "epoch": 32.64,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002998107487050954,
      "loss": 0.4142,
      "step": 24480
    },
    {
      "epoch": 32.653333333333336,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029981059085788775,
      "loss": 0.424,
      "step": 24490
    },
    {
      "epoch": 32.666666666666664,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029981043294492196,
      "loss": 0.4099,
      "step": 24500
    },
    {
      "epoch": 32.68,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029981027496619816,
      "loss": 0.4024,
      "step": 24510
    },
    {
      "epoch": 32.693333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029981011692171636,
      "loss": 0.4096,
      "step": 24520
    },
    {
      "epoch": 32.70666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002998099588114767,
      "loss": 0.4052,
      "step": 24530
    },
    {
      "epoch": 32.72,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998098006354792,
      "loss": 0.4288,
      "step": 24540
    },
    {
      "epoch": 32.733333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029980964239372394,
      "loss": 0.4223,
      "step": 24550
    },
    {
      "epoch": 32.74666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029980948408621095,
      "loss": 0.4217,
      "step": 24560
    },
    {
      "epoch": 32.76,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002998093257129404,
      "loss": 0.4356,
      "step": 24570
    },
    {
      "epoch": 32.77333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002998091672739122,
      "loss": 0.426,
      "step": 24580
    },
    {
      "epoch": 32.78666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998090087691266,
      "loss": 0.4244,
      "step": 24590
    },
    {
      "epoch": 32.8,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029980885019858356,
      "loss": 0.423,
      "step": 24600
    },
    {
      "epoch": 32.81333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002998086915622832,
      "loss": 0.397,
      "step": 24610
    },
    {
      "epoch": 32.82666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002998085328602255,
      "loss": 0.4083,
      "step": 24620
    },
    {
      "epoch": 32.84,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998083740924106,
      "loss": 0.4192,
      "step": 24630
    },
    {
      "epoch": 32.85333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998082152588386,
      "loss": 0.415,
      "step": 24640
    },
    {
      "epoch": 32.86666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002998080563595095,
      "loss": 0.4175,
      "step": 24650
    },
    {
      "epoch": 32.88,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029980789739442344,
      "loss": 0.3976,
      "step": 24660
    },
    {
      "epoch": 32.89333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998077383635804,
      "loss": 0.4083,
      "step": 24670
    },
    {
      "epoch": 32.906666666666666,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002998075792669806,
      "loss": 0.4174,
      "step": 24680
    },
    {
      "epoch": 32.92,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002998074201046239,
      "loss": 0.4181,
      "step": 24690
    },
    {
      "epoch": 32.93333333333333,
      "grad_norm": 0.2412109375,
      "learning_rate": 0.0002998072608765106,
      "loss": 0.4117,
      "step": 24700
    },
    {
      "epoch": 32.946666666666665,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029980710158264054,
      "loss": 0.4128,
      "step": 24710
    },
    {
      "epoch": 32.96,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000299806942223014,
      "loss": 0.4094,
      "step": 24720
    },
    {
      "epoch": 32.973333333333336,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029980678279763087,
      "loss": 0.4344,
      "step": 24730
    },
    {
      "epoch": 32.986666666666665,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029980662330649134,
      "loss": 0.4128,
      "step": 24740
    },
    {
      "epoch": 33.0,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029980646374959543,
      "loss": 0.4042,
      "step": 24750
    },
    {
      "epoch": 33.0,
      "eval_loss": 0.43970879912376404,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.5927,
      "eval_samples_per_second": 1.51,
      "eval_steps_per_second": 0.094,
      "step": 24750
    },
    {
      "epoch": 33.013333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002998063041269432,
      "loss": 0.4232,
      "step": 24760
    },
    {
      "epoch": 33.026666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029980614443853476,
      "loss": 0.4334,
      "step": 24770
    },
    {
      "epoch": 33.04,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029980598468437017,
      "loss": 0.4453,
      "step": 24780
    },
    {
      "epoch": 33.053333333333335,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029980582486444947,
      "loss": 0.4323,
      "step": 24790
    },
    {
      "epoch": 33.06666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002998056649787728,
      "loss": 0.4195,
      "step": 24800
    },
    {
      "epoch": 33.08,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002998055050273401,
      "loss": 0.4233,
      "step": 24810
    },
    {
      "epoch": 33.093333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002998053450101516,
      "loss": 0.4236,
      "step": 24820
    },
    {
      "epoch": 33.10666666666667,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0002998051849272073,
      "loss": 0.4117,
      "step": 24830
    },
    {
      "epoch": 33.12,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998050247785072,
      "loss": 0.4178,
      "step": 24840
    },
    {
      "epoch": 33.13333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029980486456405146,
      "loss": 0.4096,
      "step": 24850
    },
    {
      "epoch": 33.14666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029980470428384015,
      "loss": 0.4277,
      "step": 24860
    },
    {
      "epoch": 33.16,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002998045439378733,
      "loss": 0.4212,
      "step": 24870
    },
    {
      "epoch": 33.17333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.000299804383526151,
      "loss": 0.4147,
      "step": 24880
    },
    {
      "epoch": 33.18666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029980422304867326,
      "loss": 0.416,
      "step": 24890
    },
    {
      "epoch": 33.2,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029980406250544025,
      "loss": 0.4086,
      "step": 24900
    },
    {
      "epoch": 33.21333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029980390189645196,
      "loss": 0.4097,
      "step": 24910
    },
    {
      "epoch": 33.22666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029980374122170854,
      "loss": 0.4222,
      "step": 24920
    },
    {
      "epoch": 33.24,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029980358048121,
      "loss": 0.4057,
      "step": 24930
    },
    {
      "epoch": 33.25333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002998034196749564,
      "loss": 0.4093,
      "step": 24940
    },
    {
      "epoch": 33.266666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002998032588029479,
      "loss": 0.4097,
      "step": 24950
    },
    {
      "epoch": 33.28,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029980309786518445,
      "loss": 0.441,
      "step": 24960
    },
    {
      "epoch": 33.29333333333334,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029980293686166626,
      "loss": 0.3961,
      "step": 24970
    },
    {
      "epoch": 33.306666666666665,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002998027757923932,
      "loss": 0.42,
      "step": 24980
    },
    {
      "epoch": 33.32,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029980261465736553,
      "loss": 0.42,
      "step": 24990
    },
    {
      "epoch": 33.333333333333336,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002998024534565833,
      "loss": 0.4266,
      "step": 25000
    },
    {
      "epoch": 33.346666666666664,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002998022921900464,
      "loss": 0.4166,
      "step": 25010
    },
    {
      "epoch": 33.36,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002998021308577552,
      "loss": 0.418,
      "step": 25020
    },
    {
      "epoch": 33.373333333333335,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002998019694597095,
      "loss": 0.4172,
      "step": 25030
    },
    {
      "epoch": 33.38666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002998018079959094,
      "loss": 0.411,
      "step": 25040
    },
    {
      "epoch": 33.4,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002998016464663552,
      "loss": 0.4179,
      "step": 25050
    },
    {
      "epoch": 33.413333333333334,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998014848710467,
      "loss": 0.4221,
      "step": 25060
    },
    {
      "epoch": 33.42666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029980132320998415,
      "loss": 0.4231,
      "step": 25070
    },
    {
      "epoch": 33.44,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002998011614831676,
      "loss": 0.4332,
      "step": 25080
    },
    {
      "epoch": 33.45333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029980099969059704,
      "loss": 0.4242,
      "step": 25090
    },
    {
      "epoch": 33.46666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029980083783227255,
      "loss": 0.4332,
      "step": 25100
    },
    {
      "epoch": 33.48,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002998006759081942,
      "loss": 0.4141,
      "step": 25110
    },
    {
      "epoch": 33.49333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029980051391836215,
      "loss": 0.4246,
      "step": 25120
    },
    {
      "epoch": 33.50666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002998003518627764,
      "loss": 0.4223,
      "step": 25130
    },
    {
      "epoch": 33.52,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029980018974143705,
      "loss": 0.4136,
      "step": 25140
    },
    {
      "epoch": 33.53333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029980002755434414,
      "loss": 0.4155,
      "step": 25150
    },
    {
      "epoch": 33.54666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997998653014978,
      "loss": 0.4195,
      "step": 25160
    },
    {
      "epoch": 33.56,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299799702982898,
      "loss": 0.4129,
      "step": 25170
    },
    {
      "epoch": 33.57333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029979954059854483,
      "loss": 0.4154,
      "step": 25180
    },
    {
      "epoch": 33.586666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029979937814843846,
      "loss": 0.4046,
      "step": 25190
    },
    {
      "epoch": 33.6,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997992156325789,
      "loss": 0.4056,
      "step": 25200
    },
    {
      "epoch": 33.61333333333333,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029979905305096624,
      "loss": 0.393,
      "step": 25210
    },
    {
      "epoch": 33.626666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002997988904036005,
      "loss": 0.3985,
      "step": 25220
    },
    {
      "epoch": 33.64,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997987276904818,
      "loss": 0.414,
      "step": 25230
    },
    {
      "epoch": 33.653333333333336,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002997985649116102,
      "loss": 0.4246,
      "step": 25240
    },
    {
      "epoch": 33.666666666666664,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029979840206698576,
      "loss": 0.4087,
      "step": 25250
    },
    {
      "epoch": 33.68,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029979823915660857,
      "loss": 0.4018,
      "step": 25260
    },
    {
      "epoch": 33.693333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997980761804787,
      "loss": 0.4104,
      "step": 25270
    },
    {
      "epoch": 33.70666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997979131385962,
      "loss": 0.4051,
      "step": 25280
    },
    {
      "epoch": 33.72,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029979775003096114,
      "loss": 0.428,
      "step": 25290
    },
    {
      "epoch": 33.733333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029979758685757363,
      "loss": 0.4209,
      "step": 25300
    },
    {
      "epoch": 33.74666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997974236184337,
      "loss": 0.422,
      "step": 25310
    },
    {
      "epoch": 33.76,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002997972603135415,
      "loss": 0.4334,
      "step": 25320
    },
    {
      "epoch": 33.77333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029979709694289694,
      "loss": 0.4245,
      "step": 25330
    },
    {
      "epoch": 33.78666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029979693350650025,
      "loss": 0.4236,
      "step": 25340
    },
    {
      "epoch": 33.8,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997967700043515,
      "loss": 0.4223,
      "step": 25350
    },
    {
      "epoch": 33.81333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002997966064364506,
      "loss": 0.3958,
      "step": 25360
    },
    {
      "epoch": 33.82666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029979644280279775,
      "loss": 0.4078,
      "step": 25370
    },
    {
      "epoch": 33.84,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000299796279103393,
      "loss": 0.4184,
      "step": 25380
    },
    {
      "epoch": 33.85333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997961153382365,
      "loss": 0.4142,
      "step": 25390
    },
    {
      "epoch": 33.86666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029979595150732817,
      "loss": 0.4178,
      "step": 25400
    },
    {
      "epoch": 33.88,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997957876106682,
      "loss": 0.3972,
      "step": 25410
    },
    {
      "epoch": 33.89333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997956236482566,
      "loss": 0.4082,
      "step": 25420
    },
    {
      "epoch": 33.906666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002997954596200934,
      "loss": 0.4161,
      "step": 25430
    },
    {
      "epoch": 33.92,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029979529552617883,
      "loss": 0.4189,
      "step": 25440
    },
    {
      "epoch": 33.93333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997951313665128,
      "loss": 0.4103,
      "step": 25450
    },
    {
      "epoch": 33.946666666666665,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997949671410955,
      "loss": 0.4126,
      "step": 25460
    },
    {
      "epoch": 33.96,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002997948028499269,
      "loss": 0.409,
      "step": 25470
    },
    {
      "epoch": 33.973333333333336,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029979463849300715,
      "loss": 0.4344,
      "step": 25480
    },
    {
      "epoch": 33.986666666666665,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029979447407033625,
      "loss": 0.4113,
      "step": 25490
    },
    {
      "epoch": 34.0,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029979430958191434,
      "loss": 0.4033,
      "step": 25500
    },
    {
      "epoch": 34.0,
      "eval_loss": 0.4383305609226227,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6393,
      "eval_samples_per_second": 1.66,
      "eval_steps_per_second": 0.104,
      "step": 25500
    },
    {
      "epoch": 34.013333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997941450277414,
      "loss": 0.4222,
      "step": 25510
    },
    {
      "epoch": 34.026666666666664,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029979398040781767,
      "loss": 0.4339,
      "step": 25520
    },
    {
      "epoch": 34.04,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002997938157221431,
      "loss": 0.446,
      "step": 25530
    },
    {
      "epoch": 34.053333333333335,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997936509707178,
      "loss": 0.4316,
      "step": 25540
    },
    {
      "epoch": 34.06666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029979348615354176,
      "loss": 0.4199,
      "step": 25550
    },
    {
      "epoch": 34.08,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029979332127061517,
      "loss": 0.4226,
      "step": 25560
    },
    {
      "epoch": 34.093333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000299793156321938,
      "loss": 0.4234,
      "step": 25570
    },
    {
      "epoch": 34.10666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997929913075104,
      "loss": 0.4113,
      "step": 25580
    },
    {
      "epoch": 34.12,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997928262273325,
      "loss": 0.4181,
      "step": 25590
    },
    {
      "epoch": 34.13333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029979266108140414,
      "loss": 0.4089,
      "step": 25600
    },
    {
      "epoch": 34.14666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997924958697256,
      "loss": 0.4276,
      "step": 25610
    },
    {
      "epoch": 34.16,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002997923305922969,
      "loss": 0.4208,
      "step": 25620
    },
    {
      "epoch": 34.17333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997921652491181,
      "loss": 0.4144,
      "step": 25630
    },
    {
      "epoch": 34.18666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997919998401893,
      "loss": 0.4146,
      "step": 25640
    },
    {
      "epoch": 34.2,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029979183436551054,
      "loss": 0.4086,
      "step": 25650
    },
    {
      "epoch": 34.21333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997916688250819,
      "loss": 0.4083,
      "step": 25660
    },
    {
      "epoch": 34.22666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997915032189035,
      "loss": 0.4228,
      "step": 25670
    },
    {
      "epoch": 34.24,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029979133754697533,
      "loss": 0.4047,
      "step": 25680
    },
    {
      "epoch": 34.25333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029979117180929746,
      "loss": 0.409,
      "step": 25690
    },
    {
      "epoch": 34.266666666666666,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029979100600587005,
      "loss": 0.4093,
      "step": 25700
    },
    {
      "epoch": 34.28,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002997908401366931,
      "loss": 0.4402,
      "step": 25710
    },
    {
      "epoch": 34.29333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029979067420176676,
      "loss": 0.3954,
      "step": 25720
    },
    {
      "epoch": 34.306666666666665,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299790508201091,
      "loss": 0.4189,
      "step": 25730
    },
    {
      "epoch": 34.32,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029979034213466595,
      "loss": 0.4187,
      "step": 25740
    },
    {
      "epoch": 34.333333333333336,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997901760024917,
      "loss": 0.4252,
      "step": 25750
    },
    {
      "epoch": 34.346666666666664,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029979000980456826,
      "loss": 0.4169,
      "step": 25760
    },
    {
      "epoch": 34.36,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997898435408958,
      "loss": 0.4177,
      "step": 25770
    },
    {
      "epoch": 34.373333333333335,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002997896772114743,
      "loss": 0.4155,
      "step": 25780
    },
    {
      "epoch": 34.38666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997895108163039,
      "loss": 0.4102,
      "step": 25790
    },
    {
      "epoch": 34.4,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997893443553846,
      "loss": 0.4166,
      "step": 25800
    },
    {
      "epoch": 34.413333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029978917782871655,
      "loss": 0.4207,
      "step": 25810
    },
    {
      "epoch": 34.42666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029978901123629977,
      "loss": 0.4218,
      "step": 25820
    },
    {
      "epoch": 34.44,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029978884457813437,
      "loss": 0.4329,
      "step": 25830
    },
    {
      "epoch": 34.45333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002997886778542204,
      "loss": 0.4221,
      "step": 25840
    },
    {
      "epoch": 34.46666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002997885110645579,
      "loss": 0.4319,
      "step": 25850
    },
    {
      "epoch": 34.48,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299788344209147,
      "loss": 0.4135,
      "step": 25860
    },
    {
      "epoch": 34.49333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997881772879878,
      "loss": 0.4253,
      "step": 25870
    },
    {
      "epoch": 34.50666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997880103010803,
      "loss": 0.4197,
      "step": 25880
    },
    {
      "epoch": 34.52,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997878432484246,
      "loss": 0.4121,
      "step": 25890
    },
    {
      "epoch": 34.53333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997876761300208,
      "loss": 0.4154,
      "step": 25900
    },
    {
      "epoch": 34.54666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029978750894586894,
      "loss": 0.4179,
      "step": 25910
    },
    {
      "epoch": 34.56,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997873416959691,
      "loss": 0.4107,
      "step": 25920
    },
    {
      "epoch": 34.57333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997871743803213,
      "loss": 0.4148,
      "step": 25930
    },
    {
      "epoch": 34.586666666666666,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002997870069989257,
      "loss": 0.4035,
      "step": 25940
    },
    {
      "epoch": 34.6,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997868395517824,
      "loss": 0.4053,
      "step": 25950
    },
    {
      "epoch": 34.61333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029978667203889135,
      "loss": 0.3926,
      "step": 25960
    },
    {
      "epoch": 34.626666666666665,
      "grad_norm": 0.25,
      "learning_rate": 0.0002997865044602527,
      "loss": 0.3982,
      "step": 25970
    },
    {
      "epoch": 34.64,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002997863368158665,
      "loss": 0.4132,
      "step": 25980
    },
    {
      "epoch": 34.653333333333336,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029978616910573285,
      "loss": 0.4227,
      "step": 25990
    },
    {
      "epoch": 34.666666666666664,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002997860013298519,
      "loss": 0.4082,
      "step": 26000
    },
    {
      "epoch": 34.68,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997858334882235,
      "loss": 0.401,
      "step": 26010
    },
    {
      "epoch": 34.693333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997856655808479,
      "loss": 0.4099,
      "step": 26020
    },
    {
      "epoch": 34.70666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997854976077251,
      "loss": 0.4038,
      "step": 26030
    },
    {
      "epoch": 34.72,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002997853295688553,
      "loss": 0.4266,
      "step": 26040
    },
    {
      "epoch": 34.733333333333334,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002997851614642384,
      "loss": 0.4209,
      "step": 26050
    },
    {
      "epoch": 34.74666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997849932938746,
      "loss": 0.4216,
      "step": 26060
    },
    {
      "epoch": 34.76,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029978482505776385,
      "loss": 0.4343,
      "step": 26070
    },
    {
      "epoch": 34.77333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997846567559064,
      "loss": 0.4236,
      "step": 26080
    },
    {
      "epoch": 34.78666666666667,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002997844883883021,
      "loss": 0.4233,
      "step": 26090
    },
    {
      "epoch": 34.8,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029978431995495125,
      "loss": 0.4228,
      "step": 26100
    },
    {
      "epoch": 34.81333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029978415145585376,
      "loss": 0.3956,
      "step": 26110
    },
    {
      "epoch": 34.82666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997839828910098,
      "loss": 0.4074,
      "step": 26120
    },
    {
      "epoch": 34.84,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002997838142604194,
      "loss": 0.418,
      "step": 26130
    },
    {
      "epoch": 34.85333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002997836455640827,
      "loss": 0.4138,
      "step": 26140
    },
    {
      "epoch": 34.86666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029978347680199966,
      "loss": 0.4168,
      "step": 26150
    },
    {
      "epoch": 34.88,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997833079741704,
      "loss": 0.3969,
      "step": 26160
    },
    {
      "epoch": 34.89333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029978313908059505,
      "loss": 0.4071,
      "step": 26170
    },
    {
      "epoch": 34.906666666666666,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002997829701212736,
      "loss": 0.4152,
      "step": 26180
    },
    {
      "epoch": 34.92,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997828010962062,
      "loss": 0.4182,
      "step": 26190
    },
    {
      "epoch": 34.93333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029978263200539285,
      "loss": 0.4101,
      "step": 26200
    },
    {
      "epoch": 34.946666666666665,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029978246284883365,
      "loss": 0.4114,
      "step": 26210
    },
    {
      "epoch": 34.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997822936265287,
      "loss": 0.4084,
      "step": 26220
    },
    {
      "epoch": 34.973333333333336,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002997821243384781,
      "loss": 0.4339,
      "step": 26230
    },
    {
      "epoch": 34.986666666666665,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997819549846819,
      "loss": 0.4104,
      "step": 26240
    },
    {
      "epoch": 35.0,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029978178556514006,
      "loss": 0.4029,
      "step": 26250
    },
    {
      "epoch": 35.0,
      "eval_loss": 0.4359012544155121,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7438,
      "eval_samples_per_second": 1.642,
      "eval_steps_per_second": 0.103,
      "step": 26250
    },
    {
      "epoch": 35.013333333333335,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002997816160798528,
      "loss": 0.4219,
      "step": 26260
    },
    {
      "epoch": 35.026666666666664,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997814465288202,
      "loss": 0.4317,
      "step": 26270
    },
    {
      "epoch": 35.04,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029978127691204223,
      "loss": 0.4445,
      "step": 26280
    },
    {
      "epoch": 35.053333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299781107229519,
      "loss": 0.4313,
      "step": 26290
    },
    {
      "epoch": 35.06666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029978093748125065,
      "loss": 0.4185,
      "step": 26300
    },
    {
      "epoch": 35.08,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029978076766723716,
      "loss": 0.423,
      "step": 26310
    },
    {
      "epoch": 35.093333333333334,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029978059778747873,
      "loss": 0.4229,
      "step": 26320
    },
    {
      "epoch": 35.10666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002997804278419753,
      "loss": 0.4111,
      "step": 26330
    },
    {
      "epoch": 35.12,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000299780257830727,
      "loss": 0.4166,
      "step": 26340
    },
    {
      "epoch": 35.13333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002997800877537339,
      "loss": 0.4078,
      "step": 26350
    },
    {
      "epoch": 35.14666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997799176109961,
      "loss": 0.4268,
      "step": 26360
    },
    {
      "epoch": 35.16,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029977974740251365,
      "loss": 0.4195,
      "step": 26370
    },
    {
      "epoch": 35.17333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029977957712828664,
      "loss": 0.4138,
      "step": 26380
    },
    {
      "epoch": 35.18666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002997794067883151,
      "loss": 0.414,
      "step": 26390
    },
    {
      "epoch": 35.2,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029977923638259917,
      "loss": 0.4083,
      "step": 26400
    },
    {
      "epoch": 35.21333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997790659111388,
      "loss": 0.4083,
      "step": 26410
    },
    {
      "epoch": 35.22666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029977889537393423,
      "loss": 0.4203,
      "step": 26420
    },
    {
      "epoch": 35.24,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029977872477098547,
      "loss": 0.4041,
      "step": 26430
    },
    {
      "epoch": 35.25333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029977855410229264,
      "loss": 0.4077,
      "step": 26440
    },
    {
      "epoch": 35.266666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997783833678557,
      "loss": 0.4088,
      "step": 26450
    },
    {
      "epoch": 35.28,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997782125676748,
      "loss": 0.4395,
      "step": 26460
    },
    {
      "epoch": 35.29333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029977804170174997,
      "loss": 0.3956,
      "step": 26470
    },
    {
      "epoch": 35.306666666666665,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029977787077008135,
      "loss": 0.4189,
      "step": 26480
    },
    {
      "epoch": 35.32,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029977769977266894,
      "loss": 0.4192,
      "step": 26490
    },
    {
      "epoch": 35.333333333333336,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002997775287095129,
      "loss": 0.4249,
      "step": 26500
    },
    {
      "epoch": 35.346666666666664,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029977735758061327,
      "loss": 0.4148,
      "step": 26510
    },
    {
      "epoch": 35.36,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002997771863859701,
      "loss": 0.4181,
      "step": 26520
    },
    {
      "epoch": 35.373333333333335,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029977701512558344,
      "loss": 0.4157,
      "step": 26530
    },
    {
      "epoch": 35.38666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029977684379945346,
      "loss": 0.4105,
      "step": 26540
    },
    {
      "epoch": 35.4,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029977667240758016,
      "loss": 0.416,
      "step": 26550
    },
    {
      "epoch": 35.413333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029977650094996366,
      "loss": 0.4201,
      "step": 26560
    },
    {
      "epoch": 35.42666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000299776329426604,
      "loss": 0.4216,
      "step": 26570
    },
    {
      "epoch": 35.44,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002997761578375013,
      "loss": 0.4321,
      "step": 26580
    },
    {
      "epoch": 35.45333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029977598618265557,
      "loss": 0.4221,
      "step": 26590
    },
    {
      "epoch": 35.46666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029977581446206697,
      "loss": 0.4313,
      "step": 26600
    },
    {
      "epoch": 35.48,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029977564267573545,
      "loss": 0.4119,
      "step": 26610
    },
    {
      "epoch": 35.49333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002997754708236612,
      "loss": 0.4238,
      "step": 26620
    },
    {
      "epoch": 35.50666666666667,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029977529890584426,
      "loss": 0.421,
      "step": 26630
    },
    {
      "epoch": 35.52,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002997751269222847,
      "loss": 0.4109,
      "step": 26640
    },
    {
      "epoch": 35.53333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997749548729826,
      "loss": 0.4149,
      "step": 26650
    },
    {
      "epoch": 35.54666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000299774782757938,
      "loss": 0.417,
      "step": 26660
    },
    {
      "epoch": 35.56,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000299774610577151,
      "loss": 0.4109,
      "step": 26670
    },
    {
      "epoch": 35.57333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029977443833062174,
      "loss": 0.4147,
      "step": 26680
    },
    {
      "epoch": 35.586666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997742660183502,
      "loss": 0.4038,
      "step": 26690
    },
    {
      "epoch": 35.6,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997740936403365,
      "loss": 0.4057,
      "step": 26700
    },
    {
      "epoch": 35.61333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997739211965807,
      "loss": 0.3922,
      "step": 26710
    },
    {
      "epoch": 35.626666666666665,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002997737486870829,
      "loss": 0.3982,
      "step": 26720
    },
    {
      "epoch": 35.64,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029977357611184316,
      "loss": 0.4131,
      "step": 26730
    },
    {
      "epoch": 35.653333333333336,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029977340347086157,
      "loss": 0.4216,
      "step": 26740
    },
    {
      "epoch": 35.666666666666664,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997732307641382,
      "loss": 0.4065,
      "step": 26750
    },
    {
      "epoch": 35.68,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997730579916731,
      "loss": 0.4008,
      "step": 26760
    },
    {
      "epoch": 35.693333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997728851534663,
      "loss": 0.4096,
      "step": 26770
    },
    {
      "epoch": 35.70666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029977271224951806,
      "loss": 0.404,
      "step": 26780
    },
    {
      "epoch": 35.72,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997725392798283,
      "loss": 0.4272,
      "step": 26790
    },
    {
      "epoch": 35.733333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997723662443971,
      "loss": 0.4199,
      "step": 26800
    },
    {
      "epoch": 35.74666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997721931432246,
      "loss": 0.421,
      "step": 26810
    },
    {
      "epoch": 35.76,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997720199763108,
      "loss": 0.4337,
      "step": 26820
    },
    {
      "epoch": 35.77333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002997718467436559,
      "loss": 0.4226,
      "step": 26830
    },
    {
      "epoch": 35.78666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997716734452598,
      "loss": 0.4223,
      "step": 26840
    },
    {
      "epoch": 35.8,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002997715000811227,
      "loss": 0.4206,
      "step": 26850
    },
    {
      "epoch": 35.81333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002997713266512447,
      "loss": 0.3953,
      "step": 26860
    },
    {
      "epoch": 35.82666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029977115315562577,
      "loss": 0.407,
      "step": 26870
    },
    {
      "epoch": 35.84,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029977097959426604,
      "loss": 0.418,
      "step": 26880
    },
    {
      "epoch": 35.85333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997708059671656,
      "loss": 0.4141,
      "step": 26890
    },
    {
      "epoch": 35.86666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029977063227432457,
      "loss": 0.4149,
      "step": 26900
    },
    {
      "epoch": 35.88,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002997704585157429,
      "loss": 0.3956,
      "step": 26910
    },
    {
      "epoch": 35.89333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029977028469142076,
      "loss": 0.4065,
      "step": 26920
    },
    {
      "epoch": 35.906666666666666,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997701108013582,
      "loss": 0.4148,
      "step": 26930
    },
    {
      "epoch": 35.92,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997699368455553,
      "loss": 0.4167,
      "step": 26940
    },
    {
      "epoch": 35.93333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997697628240121,
      "loss": 0.4093,
      "step": 26950
    },
    {
      "epoch": 35.946666666666665,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029976958873672877,
      "loss": 0.4111,
      "step": 26960
    },
    {
      "epoch": 35.96,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002997694145837053,
      "loss": 0.4079,
      "step": 26970
    },
    {
      "epoch": 35.973333333333336,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002997692403649418,
      "loss": 0.4337,
      "step": 26980
    },
    {
      "epoch": 35.986666666666665,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997690660804383,
      "loss": 0.4101,
      "step": 26990
    },
    {
      "epoch": 36.0,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000299768891730195,
      "loss": 0.4022,
      "step": 27000
    },
    {
      "epoch": 36.0,
      "eval_loss": 0.438571035861969,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6536,
      "eval_samples_per_second": 1.657,
      "eval_steps_per_second": 0.104,
      "step": 27000
    },
    {
      "epoch": 36.013333333333335,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029976871731421183,
      "loss": 0.4219,
      "step": 27010
    },
    {
      "epoch": 36.026666666666664,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997685428324889,
      "loss": 0.4322,
      "step": 27020
    },
    {
      "epoch": 36.04,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002997683682850264,
      "loss": 0.4438,
      "step": 27030
    },
    {
      "epoch": 36.053333333333335,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997681936718243,
      "loss": 0.4311,
      "step": 27040
    },
    {
      "epoch": 36.06666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029976801899288263,
      "loss": 0.4194,
      "step": 27050
    },
    {
      "epoch": 36.08,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029976784424820167,
      "loss": 0.4221,
      "step": 27060
    },
    {
      "epoch": 36.093333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029976766943778124,
      "loss": 0.4224,
      "step": 27070
    },
    {
      "epoch": 36.10666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029976749456162163,
      "loss": 0.4098,
      "step": 27080
    },
    {
      "epoch": 36.12,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997673196197227,
      "loss": 0.4165,
      "step": 27090
    },
    {
      "epoch": 36.13333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997671446120848,
      "loss": 0.4081,
      "step": 27100
    },
    {
      "epoch": 36.14666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997669695387078,
      "loss": 0.4264,
      "step": 27110
    },
    {
      "epoch": 36.16,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002997667943995918,
      "loss": 0.4188,
      "step": 27120
    },
    {
      "epoch": 36.17333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029976661919473696,
      "loss": 0.4144,
      "step": 27130
    },
    {
      "epoch": 36.18666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002997664439241433,
      "loss": 0.4136,
      "step": 27140
    },
    {
      "epoch": 36.2,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002997662685878109,
      "loss": 0.4066,
      "step": 27150
    },
    {
      "epoch": 36.21333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029976609318573986,
      "loss": 0.408,
      "step": 27160
    },
    {
      "epoch": 36.22666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029976591771793025,
      "loss": 0.4198,
      "step": 27170
    },
    {
      "epoch": 36.24,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997657421843821,
      "loss": 0.4031,
      "step": 27180
    },
    {
      "epoch": 36.25333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029976556658509553,
      "loss": 0.4068,
      "step": 27190
    },
    {
      "epoch": 36.266666666666666,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997653909200707,
      "loss": 0.4094,
      "step": 27200
    },
    {
      "epoch": 36.28,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997652151893075,
      "loss": 0.4399,
      "step": 27210
    },
    {
      "epoch": 36.29333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029976503939280614,
      "loss": 0.3952,
      "step": 27220
    },
    {
      "epoch": 36.306666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.00029976486353056666,
      "loss": 0.4171,
      "step": 27230
    },
    {
      "epoch": 36.32,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997646876025892,
      "loss": 0.4182,
      "step": 27240
    },
    {
      "epoch": 36.333333333333336,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997645116088737,
      "loss": 0.4242,
      "step": 27250
    },
    {
      "epoch": 36.346666666666664,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029976433554942033,
      "loss": 0.4158,
      "step": 27260
    },
    {
      "epoch": 36.36,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029976415942422913,
      "loss": 0.4176,
      "step": 27270
    },
    {
      "epoch": 36.373333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029976398323330026,
      "loss": 0.4152,
      "step": 27280
    },
    {
      "epoch": 36.38666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002997638069766337,
      "loss": 0.4096,
      "step": 27290
    },
    {
      "epoch": 36.4,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002997636306542296,
      "loss": 0.4162,
      "step": 27300
    },
    {
      "epoch": 36.413333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029976345426608794,
      "loss": 0.4193,
      "step": 27310
    },
    {
      "epoch": 36.42666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029976327781220893,
      "loss": 0.421,
      "step": 27320
    },
    {
      "epoch": 36.44,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002997631012925925,
      "loss": 0.4322,
      "step": 27330
    },
    {
      "epoch": 36.45333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997629247072389,
      "loss": 0.4218,
      "step": 27340
    },
    {
      "epoch": 36.46666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997627480561481,
      "loss": 0.4316,
      "step": 27350
    },
    {
      "epoch": 36.48,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997625713393201,
      "loss": 0.4122,
      "step": 27360
    },
    {
      "epoch": 36.49333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029976239455675513,
      "loss": 0.4244,
      "step": 27370
    },
    {
      "epoch": 36.50666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029976221770845323,
      "loss": 0.42,
      "step": 27380
    },
    {
      "epoch": 36.52,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997620407944144,
      "loss": 0.4109,
      "step": 27390
    },
    {
      "epoch": 36.53333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002997618638146388,
      "loss": 0.4143,
      "step": 27400
    },
    {
      "epoch": 36.54666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002997616867691265,
      "loss": 0.4166,
      "step": 27410
    },
    {
      "epoch": 36.56,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0002997615096578775,
      "loss": 0.4102,
      "step": 27420
    },
    {
      "epoch": 36.57333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029976133248089194,
      "loss": 0.4135,
      "step": 27430
    },
    {
      "epoch": 36.586666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997611552381699,
      "loss": 0.4025,
      "step": 27440
    },
    {
      "epoch": 36.6,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997609779297115,
      "loss": 0.4034,
      "step": 27450
    },
    {
      "epoch": 36.61333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997608005555167,
      "loss": 0.3923,
      "step": 27460
    },
    {
      "epoch": 36.626666666666665,
      "grad_norm": 0.2451171875,
      "learning_rate": 0.0002997606231155857,
      "loss": 0.3967,
      "step": 27470
    },
    {
      "epoch": 36.64,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002997604456099185,
      "loss": 0.4122,
      "step": 27480
    },
    {
      "epoch": 36.653333333333336,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002997602680385152,
      "loss": 0.4221,
      "step": 27490
    },
    {
      "epoch": 36.666666666666664,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029976009040137594,
      "loss": 0.4071,
      "step": 27500
    },
    {
      "epoch": 36.68,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997599126985006,
      "loss": 0.4,
      "step": 27510
    },
    {
      "epoch": 36.693333333333335,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002997597349298895,
      "loss": 0.4086,
      "step": 27520
    },
    {
      "epoch": 36.70666666666666,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997595570955426,
      "loss": 0.4025,
      "step": 27530
    },
    {
      "epoch": 36.72,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029975937919545994,
      "loss": 0.4256,
      "step": 27540
    },
    {
      "epoch": 36.733333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997592012296417,
      "loss": 0.4194,
      "step": 27550
    },
    {
      "epoch": 36.74666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002997590231980879,
      "loss": 0.4207,
      "step": 27560
    },
    {
      "epoch": 36.76,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002997588451007986,
      "loss": 0.4334,
      "step": 27570
    },
    {
      "epoch": 36.77333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029975866693777395,
      "loss": 0.4233,
      "step": 27580
    },
    {
      "epoch": 36.78666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997584887090139,
      "loss": 0.4215,
      "step": 27590
    },
    {
      "epoch": 36.8,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997583104145187,
      "loss": 0.4203,
      "step": 27600
    },
    {
      "epoch": 36.81333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002997581320542883,
      "loss": 0.3944,
      "step": 27610
    },
    {
      "epoch": 36.82666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997579536283228,
      "loss": 0.406,
      "step": 27620
    },
    {
      "epoch": 36.84,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002997577751366223,
      "loss": 0.4164,
      "step": 27630
    },
    {
      "epoch": 36.85333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029975759657918687,
      "loss": 0.4127,
      "step": 27640
    },
    {
      "epoch": 36.86666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029975741795601664,
      "loss": 0.4151,
      "step": 27650
    },
    {
      "epoch": 36.88,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029975723926711155,
      "loss": 0.3943,
      "step": 27660
    },
    {
      "epoch": 36.89333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997570605124719,
      "loss": 0.405,
      "step": 27670
    },
    {
      "epoch": 36.906666666666666,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997568816920975,
      "loss": 0.4149,
      "step": 27680
    },
    {
      "epoch": 36.92,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002997567028059886,
      "loss": 0.4165,
      "step": 27690
    },
    {
      "epoch": 36.93333333333333,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002997565238541453,
      "loss": 0.4088,
      "step": 27700
    },
    {
      "epoch": 36.946666666666665,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997563448365676,
      "loss": 0.4106,
      "step": 27710
    },
    {
      "epoch": 36.96,
      "grad_norm": 0.265625,
      "learning_rate": 0.00029975616575325556,
      "loss": 0.4079,
      "step": 27720
    },
    {
      "epoch": 36.973333333333336,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002997559866042094,
      "loss": 0.4322,
      "step": 27730
    },
    {
      "epoch": 36.986666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.000299755807389429,
      "loss": 0.4094,
      "step": 27740
    },
    {
      "epoch": 37.0,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029975562810891456,
      "loss": 0.4011,
      "step": 27750
    },
    {
      "epoch": 37.0,
      "eval_loss": 0.43838781118392944,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.4532,
      "eval_samples_per_second": 1.693,
      "eval_steps_per_second": 0.106,
      "step": 27750
    },
    {
      "epoch": 37.013333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029975544876266615,
      "loss": 0.4205,
      "step": 27760
    },
    {
      "epoch": 37.026666666666664,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997552693506838,
      "loss": 0.4317,
      "step": 27770
    },
    {
      "epoch": 37.04,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029975508987296765,
      "loss": 0.4425,
      "step": 27780
    },
    {
      "epoch": 37.053333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997549103295177,
      "loss": 0.4297,
      "step": 27790
    },
    {
      "epoch": 37.06666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997547307203342,
      "loss": 0.4178,
      "step": 27800
    },
    {
      "epoch": 37.08,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029975455104541704,
      "loss": 0.4212,
      "step": 27810
    },
    {
      "epoch": 37.093333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029975437130476634,
      "loss": 0.4211,
      "step": 27820
    },
    {
      "epoch": 37.10666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029975419149838226,
      "loss": 0.4092,
      "step": 27830
    },
    {
      "epoch": 37.12,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997540116262648,
      "loss": 0.4152,
      "step": 27840
    },
    {
      "epoch": 37.13333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029975383168841404,
      "loss": 0.4072,
      "step": 27850
    },
    {
      "epoch": 37.14666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997536516848301,
      "loss": 0.4252,
      "step": 27860
    },
    {
      "epoch": 37.16,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029975347161551307,
      "loss": 0.4187,
      "step": 27870
    },
    {
      "epoch": 37.17333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029975329148046296,
      "loss": 0.4133,
      "step": 27880
    },
    {
      "epoch": 37.18666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029975311127967996,
      "loss": 0.4132,
      "step": 27890
    },
    {
      "epoch": 37.2,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029975293101316405,
      "loss": 0.4053,
      "step": 27900
    },
    {
      "epoch": 37.21333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997527506809153,
      "loss": 0.4067,
      "step": 27910
    },
    {
      "epoch": 37.22666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029975257028293386,
      "loss": 0.4191,
      "step": 27920
    },
    {
      "epoch": 37.24,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997523898192198,
      "loss": 0.4037,
      "step": 27930
    },
    {
      "epoch": 37.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029975220928977315,
      "loss": 0.4068,
      "step": 27940
    },
    {
      "epoch": 37.266666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299752028694594,
      "loss": 0.4075,
      "step": 27950
    },
    {
      "epoch": 37.28,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002997518480336824,
      "loss": 0.4387,
      "step": 27960
    },
    {
      "epoch": 37.29333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997516673070386,
      "loss": 0.3948,
      "step": 27970
    },
    {
      "epoch": 37.306666666666665,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029975148651466244,
      "loss": 0.4165,
      "step": 27980
    },
    {
      "epoch": 37.32,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997513056565542,
      "loss": 0.4174,
      "step": 27990
    },
    {
      "epoch": 37.333333333333336,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997511247327138,
      "loss": 0.4238,
      "step": 28000
    },
    {
      "epoch": 37.346666666666664,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002997509437431414,
      "loss": 0.4145,
      "step": 28010
    },
    {
      "epoch": 37.36,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029975076268783714,
      "loss": 0.4159,
      "step": 28020
    },
    {
      "epoch": 37.373333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000299750581566801,
      "loss": 0.4134,
      "step": 28030
    },
    {
      "epoch": 37.38666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029975040038003305,
      "loss": 0.4092,
      "step": 28040
    },
    {
      "epoch": 37.4,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029975021912753344,
      "loss": 0.4147,
      "step": 28050
    },
    {
      "epoch": 37.413333333333334,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029975003780930223,
      "loss": 0.419,
      "step": 28060
    },
    {
      "epoch": 37.42666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029974985642533953,
      "loss": 0.4202,
      "step": 28070
    },
    {
      "epoch": 37.44,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997496749756453,
      "loss": 0.4312,
      "step": 28080
    },
    {
      "epoch": 37.45333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029974949346021977,
      "loss": 0.4213,
      "step": 28090
    },
    {
      "epoch": 37.46666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029974931187906286,
      "loss": 0.4298,
      "step": 28100
    },
    {
      "epoch": 37.48,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997491302321748,
      "loss": 0.4112,
      "step": 28110
    },
    {
      "epoch": 37.49333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029974894851955556,
      "loss": 0.4226,
      "step": 28120
    },
    {
      "epoch": 37.50666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997487667412053,
      "loss": 0.4197,
      "step": 28130
    },
    {
      "epoch": 37.52,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002997485848971241,
      "loss": 0.4102,
      "step": 28140
    },
    {
      "epoch": 37.53333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299748402987312,
      "loss": 0.4137,
      "step": 28150
    },
    {
      "epoch": 37.54666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000299748221011769,
      "loss": 0.4155,
      "step": 28160
    },
    {
      "epoch": 37.56,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029974803897049536,
      "loss": 0.4097,
      "step": 28170
    },
    {
      "epoch": 37.57333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000299747856863491,
      "loss": 0.4138,
      "step": 28180
    },
    {
      "epoch": 37.586666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002997476746907561,
      "loss": 0.4016,
      "step": 28190
    },
    {
      "epoch": 37.6,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029974749245229075,
      "loss": 0.4042,
      "step": 28200
    },
    {
      "epoch": 37.61333333333333,
      "grad_norm": 0.265625,
      "learning_rate": 0.0002997473101480949,
      "loss": 0.3918,
      "step": 28210
    },
    {
      "epoch": 37.626666666666665,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029974712777816874,
      "loss": 0.3966,
      "step": 28220
    },
    {
      "epoch": 37.64,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0002997469453425124,
      "loss": 0.4109,
      "step": 28230
    },
    {
      "epoch": 37.653333333333336,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997467628411258,
      "loss": 0.4209,
      "step": 28240
    },
    {
      "epoch": 37.666666666666664,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029974658027400917,
      "loss": 0.4064,
      "step": 28250
    },
    {
      "epoch": 37.68,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997463976411625,
      "loss": 0.3998,
      "step": 28260
    },
    {
      "epoch": 37.693333333333335,
      "grad_norm": 0.26171875,
      "learning_rate": 0.00029974621494258585,
      "loss": 0.4086,
      "step": 28270
    },
    {
      "epoch": 37.70666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002997460321782794,
      "loss": 0.4022,
      "step": 28280
    },
    {
      "epoch": 37.72,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997458493482432,
      "loss": 0.4254,
      "step": 28290
    },
    {
      "epoch": 37.733333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997456664524772,
      "loss": 0.4183,
      "step": 28300
    },
    {
      "epoch": 37.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002997454834909817,
      "loss": 0.4197,
      "step": 28310
    },
    {
      "epoch": 37.76,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029974530046375666,
      "loss": 0.4327,
      "step": 28320
    },
    {
      "epoch": 37.77333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997451173708021,
      "loss": 0.4226,
      "step": 28330
    },
    {
      "epoch": 37.78666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00029974493421211826,
      "loss": 0.4211,
      "step": 28340
    },
    {
      "epoch": 37.8,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029974475098770503,
      "loss": 0.4203,
      "step": 28350
    },
    {
      "epoch": 37.81333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002997445676975627,
      "loss": 0.3942,
      "step": 28360
    },
    {
      "epoch": 37.82666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002997443843416912,
      "loss": 0.406,
      "step": 28370
    },
    {
      "epoch": 37.84,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002997442009200906,
      "loss": 0.4167,
      "step": 28380
    },
    {
      "epoch": 37.85333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997440174327611,
      "loss": 0.4113,
      "step": 28390
    },
    {
      "epoch": 37.86666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029974383387970264,
      "loss": 0.4147,
      "step": 28400
    },
    {
      "epoch": 37.88,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997436502609154,
      "loss": 0.3944,
      "step": 28410
    },
    {
      "epoch": 37.89333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002997434665763994,
      "loss": 0.4045,
      "step": 28420
    },
    {
      "epoch": 37.906666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029974328282615485,
      "loss": 0.4143,
      "step": 28430
    },
    {
      "epoch": 37.92,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029974309901018167,
      "loss": 0.4158,
      "step": 28440
    },
    {
      "epoch": 37.93333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029974291512848,
      "loss": 0.4073,
      "step": 28450
    },
    {
      "epoch": 37.946666666666665,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029974273118104993,
      "loss": 0.4107,
      "step": 28460
    },
    {
      "epoch": 37.96,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029974254716789154,
      "loss": 0.4059,
      "step": 28470
    },
    {
      "epoch": 37.973333333333336,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029974236308900497,
      "loss": 0.4327,
      "step": 28480
    },
    {
      "epoch": 37.986666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997421789443901,
      "loss": 0.4088,
      "step": 28490
    },
    {
      "epoch": 38.0,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029974199473404726,
      "loss": 0.4002,
      "step": 28500
    },
    {
      "epoch": 38.0,
      "eval_loss": 0.43744945526123047,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0693,
      "eval_samples_per_second": 1.589,
      "eval_steps_per_second": 0.099,
      "step": 28500
    },
    {
      "epoch": 38.013333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002997418104579764,
      "loss": 0.4201,
      "step": 28510
    },
    {
      "epoch": 38.026666666666664,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029974162611617764,
      "loss": 0.4309,
      "step": 28520
    },
    {
      "epoch": 38.04,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000299741441708651,
      "loss": 0.4422,
      "step": 28530
    },
    {
      "epoch": 38.053333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997412572353966,
      "loss": 0.4302,
      "step": 28540
    },
    {
      "epoch": 38.06666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029974107269641455,
      "loss": 0.4171,
      "step": 28550
    },
    {
      "epoch": 38.08,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997408880917049,
      "loss": 0.421,
      "step": 28560
    },
    {
      "epoch": 38.093333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997407034212677,
      "loss": 0.4217,
      "step": 28570
    },
    {
      "epoch": 38.10666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997405186851031,
      "loss": 0.4096,
      "step": 28580
    },
    {
      "epoch": 38.12,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029974033388321117,
      "loss": 0.4152,
      "step": 28590
    },
    {
      "epoch": 38.13333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997401490155919,
      "loss": 0.4069,
      "step": 28600
    },
    {
      "epoch": 38.14666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997399640822455,
      "loss": 0.425,
      "step": 28610
    },
    {
      "epoch": 38.16,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000299739779083172,
      "loss": 0.4178,
      "step": 28620
    },
    {
      "epoch": 38.17333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997395940183714,
      "loss": 0.4125,
      "step": 28630
    },
    {
      "epoch": 38.18666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997394088878439,
      "loss": 0.4125,
      "step": 28640
    },
    {
      "epoch": 38.2,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002997392236915895,
      "loss": 0.4054,
      "step": 28650
    },
    {
      "epoch": 38.21333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997390384296084,
      "loss": 0.406,
      "step": 28660
    },
    {
      "epoch": 38.22666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997388531019005,
      "loss": 0.4196,
      "step": 28670
    },
    {
      "epoch": 38.24,
      "grad_norm": 0.328125,
      "learning_rate": 0.000299738667708466,
      "loss": 0.4039,
      "step": 28680
    },
    {
      "epoch": 38.25333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000299738482249305,
      "loss": 0.4059,
      "step": 28690
    },
    {
      "epoch": 38.266666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997382967244176,
      "loss": 0.4068,
      "step": 28700
    },
    {
      "epoch": 38.28,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029973811113380373,
      "loss": 0.4377,
      "step": 28710
    },
    {
      "epoch": 38.29333333333334,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002997379254774636,
      "loss": 0.3935,
      "step": 28720
    },
    {
      "epoch": 38.306666666666665,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997377397553972,
      "loss": 0.4153,
      "step": 28730
    },
    {
      "epoch": 38.32,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997375539676047,
      "loss": 0.417,
      "step": 28740
    },
    {
      "epoch": 38.333333333333336,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029973736811408615,
      "loss": 0.4237,
      "step": 28750
    },
    {
      "epoch": 38.346666666666664,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002997371821948417,
      "loss": 0.4126,
      "step": 28760
    },
    {
      "epoch": 38.36,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029973699620987126,
      "loss": 0.4148,
      "step": 28770
    },
    {
      "epoch": 38.373333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029973681015917503,
      "loss": 0.4137,
      "step": 28780
    },
    {
      "epoch": 38.38666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997366240427531,
      "loss": 0.408,
      "step": 28790
    },
    {
      "epoch": 38.4,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029973643786060557,
      "loss": 0.4148,
      "step": 28800
    },
    {
      "epoch": 38.413333333333334,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002997362516127324,
      "loss": 0.4183,
      "step": 28810
    },
    {
      "epoch": 38.42666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029973606529913377,
      "loss": 0.4196,
      "step": 28820
    },
    {
      "epoch": 38.44,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997358789198098,
      "loss": 0.4306,
      "step": 28830
    },
    {
      "epoch": 38.45333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029973569247476045,
      "loss": 0.4202,
      "step": 28840
    },
    {
      "epoch": 38.46666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029973550596398585,
      "loss": 0.4299,
      "step": 28850
    },
    {
      "epoch": 38.48,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029973531938748616,
      "loss": 0.4108,
      "step": 28860
    },
    {
      "epoch": 38.49333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997351327452614,
      "loss": 0.4226,
      "step": 28870
    },
    {
      "epoch": 38.50666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997349460373116,
      "loss": 0.4192,
      "step": 28880
    },
    {
      "epoch": 38.52,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029973475926363695,
      "loss": 0.4094,
      "step": 28890
    },
    {
      "epoch": 38.53333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002997345724242374,
      "loss": 0.4134,
      "step": 28900
    },
    {
      "epoch": 38.54666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002997343855191132,
      "loss": 0.4164,
      "step": 28910
    },
    {
      "epoch": 38.56,
      "grad_norm": 0.248046875,
      "learning_rate": 0.00029973419854826427,
      "loss": 0.4085,
      "step": 28920
    },
    {
      "epoch": 38.57333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029973401151169076,
      "loss": 0.413,
      "step": 28930
    },
    {
      "epoch": 38.586666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002997338244093928,
      "loss": 0.4015,
      "step": 28940
    },
    {
      "epoch": 38.6,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002997336372413704,
      "loss": 0.4033,
      "step": 28950
    },
    {
      "epoch": 38.61333333333333,
      "grad_norm": 0.2578125,
      "learning_rate": 0.00029973345000762366,
      "loss": 0.3902,
      "step": 28960
    },
    {
      "epoch": 38.626666666666665,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997332627081527,
      "loss": 0.3967,
      "step": 28970
    },
    {
      "epoch": 38.64,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029973307534295757,
      "loss": 0.4116,
      "step": 28980
    },
    {
      "epoch": 38.653333333333336,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002997328879120383,
      "loss": 0.4204,
      "step": 28990
    },
    {
      "epoch": 38.666666666666664,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997327004153951,
      "loss": 0.4056,
      "step": 29000
    },
    {
      "epoch": 38.68,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029973251285302793,
      "loss": 0.3986,
      "step": 29010
    },
    {
      "epoch": 38.693333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002997323252249369,
      "loss": 0.4075,
      "step": 29020
    },
    {
      "epoch": 38.70666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997321375311222,
      "loss": 0.402,
      "step": 29030
    },
    {
      "epoch": 38.72,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002997319497715838,
      "loss": 0.4246,
      "step": 29040
    },
    {
      "epoch": 38.733333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029973176194632176,
      "loss": 0.4176,
      "step": 29050
    },
    {
      "epoch": 38.74666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997315740553362,
      "loss": 0.4191,
      "step": 29060
    },
    {
      "epoch": 38.76,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029973138609862727,
      "loss": 0.4326,
      "step": 29070
    },
    {
      "epoch": 38.77333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000299731198076195,
      "loss": 0.4208,
      "step": 29080
    },
    {
      "epoch": 38.78666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997310099880395,
      "loss": 0.4217,
      "step": 29090
    },
    {
      "epoch": 38.8,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029973082183416073,
      "loss": 0.4197,
      "step": 29100
    },
    {
      "epoch": 38.81333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002997306336145589,
      "loss": 0.3932,
      "step": 29110
    },
    {
      "epoch": 38.82666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029973044532923405,
      "loss": 0.405,
      "step": 29120
    },
    {
      "epoch": 38.84,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002997302569781863,
      "loss": 0.4158,
      "step": 29130
    },
    {
      "epoch": 38.85333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029973006856141566,
      "loss": 0.411,
      "step": 29140
    },
    {
      "epoch": 38.86666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997298800789223,
      "loss": 0.4153,
      "step": 29150
    },
    {
      "epoch": 38.88,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997296915307062,
      "loss": 0.3932,
      "step": 29160
    },
    {
      "epoch": 38.89333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002997295029167676,
      "loss": 0.4045,
      "step": 29170
    },
    {
      "epoch": 38.906666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002997293142371064,
      "loss": 0.4136,
      "step": 29180
    },
    {
      "epoch": 38.92,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029972912549172274,
      "loss": 0.4152,
      "step": 29190
    },
    {
      "epoch": 38.93333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002997289366806168,
      "loss": 0.4085,
      "step": 29200
    },
    {
      "epoch": 38.946666666666665,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029972874780378854,
      "loss": 0.41,
      "step": 29210
    },
    {
      "epoch": 38.96,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029972855886123813,
      "loss": 0.4064,
      "step": 29220
    },
    {
      "epoch": 38.973333333333336,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002997283698529656,
      "loss": 0.431,
      "step": 29230
    },
    {
      "epoch": 38.986666666666665,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029972818077897103,
      "loss": 0.4083,
      "step": 29240
    },
    {
      "epoch": 39.0,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029972799163925456,
      "loss": 0.4002,
      "step": 29250
    },
    {
      "epoch": 39.0,
      "eval_loss": 0.4372062087059021,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1342,
      "eval_samples_per_second": 1.579,
      "eval_steps_per_second": 0.099,
      "step": 29250
    },
    {
      "epoch": 39.013333333333335,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029972780243381624,
      "loss": 0.4193,
      "step": 29260
    },
    {
      "epoch": 39.026666666666664,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029972761316265613,
      "loss": 0.4305,
      "step": 29270
    },
    {
      "epoch": 39.04,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029972742382577435,
      "loss": 0.442,
      "step": 29280
    },
    {
      "epoch": 39.053333333333335,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029972723442317094,
      "loss": 0.4289,
      "step": 29290
    },
    {
      "epoch": 39.06666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000299727044954846,
      "loss": 0.4168,
      "step": 29300
    },
    {
      "epoch": 39.08,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002997268554207997,
      "loss": 0.4209,
      "step": 29310
    },
    {
      "epoch": 39.093333333333334,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029972666582103193,
      "loss": 0.4209,
      "step": 29320
    },
    {
      "epoch": 39.10666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000299726476155543,
      "loss": 0.4096,
      "step": 29330
    },
    {
      "epoch": 39.12,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002997262864243328,
      "loss": 0.4143,
      "step": 29340
    },
    {
      "epoch": 39.13333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002997260966274015,
      "loss": 0.406,
      "step": 29350
    },
    {
      "epoch": 39.14666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997259067647492,
      "loss": 0.4244,
      "step": 29360
    },
    {
      "epoch": 39.16,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029972571683637594,
      "loss": 0.4174,
      "step": 29370
    },
    {
      "epoch": 39.17333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002997255268422819,
      "loss": 0.4122,
      "step": 29380
    },
    {
      "epoch": 39.18666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000299725336782467,
      "loss": 0.412,
      "step": 29390
    },
    {
      "epoch": 39.2,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997251466569315,
      "loss": 0.4056,
      "step": 29400
    },
    {
      "epoch": 39.21333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002997249564656753,
      "loss": 0.4065,
      "step": 29410
    },
    {
      "epoch": 39.22666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002997247662086986,
      "loss": 0.4179,
      "step": 29420
    },
    {
      "epoch": 39.24,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997245758860015,
      "loss": 0.4027,
      "step": 29430
    },
    {
      "epoch": 39.25333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.000299724385497584,
      "loss": 0.4055,
      "step": 29440
    },
    {
      "epoch": 39.266666666666666,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002997241950434463,
      "loss": 0.4079,
      "step": 29450
    },
    {
      "epoch": 39.28,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029972400452358834,
      "loss": 0.438,
      "step": 29460
    },
    {
      "epoch": 39.29333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002997238139380103,
      "loss": 0.3931,
      "step": 29470
    },
    {
      "epoch": 39.306666666666665,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997236232867123,
      "loss": 0.4164,
      "step": 29480
    },
    {
      "epoch": 39.32,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002997234325696943,
      "loss": 0.4164,
      "step": 29490
    },
    {
      "epoch": 39.333333333333336,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997232417869564,
      "loss": 0.4232,
      "step": 29500
    },
    {
      "epoch": 39.346666666666664,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029972305093849886,
      "loss": 0.4125,
      "step": 29510
    },
    {
      "epoch": 39.36,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997228600243215,
      "loss": 0.4138,
      "step": 29520
    },
    {
      "epoch": 39.373333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002997226690444246,
      "loss": 0.4131,
      "step": 29530
    },
    {
      "epoch": 39.38666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002997224779988082,
      "loss": 0.4071,
      "step": 29540
    },
    {
      "epoch": 39.4,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029972228688747237,
      "loss": 0.4138,
      "step": 29550
    },
    {
      "epoch": 39.413333333333334,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997220957104171,
      "loss": 0.4183,
      "step": 29560
    },
    {
      "epoch": 39.42666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002997219044676427,
      "loss": 0.4194,
      "step": 29570
    },
    {
      "epoch": 39.44,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029972171315914906,
      "loss": 0.4306,
      "step": 29580
    },
    {
      "epoch": 39.45333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002997215217849363,
      "loss": 0.42,
      "step": 29590
    },
    {
      "epoch": 39.46666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002997213303450046,
      "loss": 0.4294,
      "step": 29600
    },
    {
      "epoch": 39.48,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997211388393539,
      "loss": 0.4105,
      "step": 29610
    },
    {
      "epoch": 39.49333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029972094726798433,
      "loss": 0.4214,
      "step": 29620
    },
    {
      "epoch": 39.50666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299720755630896,
      "loss": 0.4189,
      "step": 29630
    },
    {
      "epoch": 39.52,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000299720563928089,
      "loss": 0.4091,
      "step": 29640
    },
    {
      "epoch": 39.53333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997203721595635,
      "loss": 0.413,
      "step": 29650
    },
    {
      "epoch": 39.54666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002997201803253194,
      "loss": 0.4143,
      "step": 29660
    },
    {
      "epoch": 39.56,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002997199884253569,
      "loss": 0.4088,
      "step": 29670
    },
    {
      "epoch": 39.57333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997197964596761,
      "loss": 0.4125,
      "step": 29680
    },
    {
      "epoch": 39.586666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029971960442827695,
      "loss": 0.4007,
      "step": 29690
    },
    {
      "epoch": 39.6,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029971941233115966,
      "loss": 0.4027,
      "step": 29700
    },
    {
      "epoch": 39.61333333333333,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0002997192201683243,
      "loss": 0.3905,
      "step": 29710
    },
    {
      "epoch": 39.626666666666665,
      "grad_norm": 0.255859375,
      "learning_rate": 0.000299719027939771,
      "loss": 0.3959,
      "step": 29720
    },
    {
      "epoch": 39.64,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997188356454997,
      "loss": 0.4108,
      "step": 29730
    },
    {
      "epoch": 39.653333333333336,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029971864328551056,
      "loss": 0.4205,
      "step": 29740
    },
    {
      "epoch": 39.666666666666664,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029971845085980373,
      "loss": 0.4052,
      "step": 29750
    },
    {
      "epoch": 39.68,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002997182583683792,
      "loss": 0.398,
      "step": 29760
    },
    {
      "epoch": 39.693333333333335,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000299718065811237,
      "loss": 0.4077,
      "step": 29770
    },
    {
      "epoch": 39.70666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029971787318837747,
      "loss": 0.4018,
      "step": 29780
    },
    {
      "epoch": 39.72,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002997176804998004,
      "loss": 0.4245,
      "step": 29790
    },
    {
      "epoch": 39.733333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002997174877455061,
      "loss": 0.4182,
      "step": 29800
    },
    {
      "epoch": 39.74666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029971729492549447,
      "loss": 0.4185,
      "step": 29810
    },
    {
      "epoch": 39.76,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029971710203976576,
      "loss": 0.4312,
      "step": 29820
    },
    {
      "epoch": 39.77333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002997169090883199,
      "loss": 0.4209,
      "step": 29830
    },
    {
      "epoch": 39.78666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029971671607115707,
      "loss": 0.4203,
      "step": 29840
    },
    {
      "epoch": 39.8,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997165229882774,
      "loss": 0.4184,
      "step": 29850
    },
    {
      "epoch": 39.81333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029971632983968085,
      "loss": 0.394,
      "step": 29860
    },
    {
      "epoch": 39.82666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029971613662536754,
      "loss": 0.404,
      "step": 29870
    },
    {
      "epoch": 39.84,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029971594334533765,
      "loss": 0.414,
      "step": 29880
    },
    {
      "epoch": 39.85333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997157499995911,
      "loss": 0.4109,
      "step": 29890
    },
    {
      "epoch": 39.86666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029971555658812817,
      "loss": 0.4141,
      "step": 29900
    },
    {
      "epoch": 39.88,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002997153631109488,
      "loss": 0.3936,
      "step": 29910
    },
    {
      "epoch": 39.89333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029971516956805316,
      "loss": 0.4041,
      "step": 29920
    },
    {
      "epoch": 39.906666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997149759594412,
      "loss": 0.4127,
      "step": 29930
    },
    {
      "epoch": 39.92,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002997147822851132,
      "loss": 0.4148,
      "step": 29940
    },
    {
      "epoch": 39.93333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002997145885450691,
      "loss": 0.4068,
      "step": 29950
    },
    {
      "epoch": 39.946666666666665,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000299714394739309,
      "loss": 0.4083,
      "step": 29960
    },
    {
      "epoch": 39.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997142008678331,
      "loss": 0.4056,
      "step": 29970
    },
    {
      "epoch": 39.973333333333336,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002997140069306413,
      "loss": 0.431,
      "step": 29980
    },
    {
      "epoch": 39.986666666666665,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029971381292773387,
      "loss": 0.4082,
      "step": 29990
    },
    {
      "epoch": 40.0,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997136188591108,
      "loss": 0.3995,
      "step": 30000
    },
    {
      "epoch": 40.0,
      "eval_loss": 0.4372086822986603,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0297,
      "eval_samples_per_second": 1.595,
      "eval_steps_per_second": 0.1,
      "step": 30000
    },
    {
      "epoch": 40.013333333333335,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002997134247247721,
      "loss": 0.4192,
      "step": 30010
    },
    {
      "epoch": 40.026666666666664,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029971323052471803,
      "loss": 0.4304,
      "step": 30020
    },
    {
      "epoch": 40.04,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029971303625894854,
      "loss": 0.4414,
      "step": 30030
    },
    {
      "epoch": 40.053333333333335,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002997128419274638,
      "loss": 0.4291,
      "step": 30040
    },
    {
      "epoch": 40.06666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029971264753026383,
      "loss": 0.4161,
      "step": 30050
    },
    {
      "epoch": 40.08,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002997124530673487,
      "loss": 0.4199,
      "step": 30060
    },
    {
      "epoch": 40.093333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002997122585387186,
      "loss": 0.4214,
      "step": 30070
    },
    {
      "epoch": 40.10666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997120639443735,
      "loss": 0.4083,
      "step": 30080
    },
    {
      "epoch": 40.12,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997118692843136,
      "loss": 0.4148,
      "step": 30090
    },
    {
      "epoch": 40.13333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002997116745585389,
      "loss": 0.4056,
      "step": 30100
    },
    {
      "epoch": 40.14666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029971147976704947,
      "loss": 0.424,
      "step": 30110
    },
    {
      "epoch": 40.16,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002997112849098455,
      "loss": 0.4168,
      "step": 30120
    },
    {
      "epoch": 40.17333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002997110899869269,
      "loss": 0.4115,
      "step": 30130
    },
    {
      "epoch": 40.18666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029971089499829397,
      "loss": 0.4118,
      "step": 30140
    },
    {
      "epoch": 40.2,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002997106999439467,
      "loss": 0.4044,
      "step": 30150
    },
    {
      "epoch": 40.21333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002997105048238851,
      "loss": 0.4059,
      "step": 30160
    },
    {
      "epoch": 40.22666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002997103096381094,
      "loss": 0.4178,
      "step": 30170
    },
    {
      "epoch": 40.24,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002997101143866195,
      "loss": 0.4014,
      "step": 30180
    },
    {
      "epoch": 40.25333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002997099190694156,
      "loss": 0.4052,
      "step": 30190
    },
    {
      "epoch": 40.266666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002997097236864979,
      "loss": 0.4054,
      "step": 30200
    },
    {
      "epoch": 40.28,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029970952823786626,
      "loss": 0.4361,
      "step": 30210
    },
    {
      "epoch": 40.29333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997093327235209,
      "loss": 0.3929,
      "step": 30220
    },
    {
      "epoch": 40.306666666666665,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029970913714346184,
      "loss": 0.4153,
      "step": 30230
    },
    {
      "epoch": 40.32,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029970894149768926,
      "loss": 0.4158,
      "step": 30240
    },
    {
      "epoch": 40.333333333333336,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002997087457862032,
      "loss": 0.4213,
      "step": 30250
    },
    {
      "epoch": 40.346666666666664,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029970855000900366,
      "loss": 0.4123,
      "step": 30260
    },
    {
      "epoch": 40.36,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029970835416609086,
      "loss": 0.4145,
      "step": 30270
    },
    {
      "epoch": 40.373333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029970815825746484,
      "loss": 0.4126,
      "step": 30280
    },
    {
      "epoch": 40.38666666666666,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029970796228312566,
      "loss": 0.408,
      "step": 30290
    },
    {
      "epoch": 40.4,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029970776624307335,
      "loss": 0.4136,
      "step": 30300
    },
    {
      "epoch": 40.413333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002997075701373081,
      "loss": 0.4171,
      "step": 30310
    },
    {
      "epoch": 40.42666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029970737396583,
      "loss": 0.4179,
      "step": 30320
    },
    {
      "epoch": 40.44,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029970717772863907,
      "loss": 0.4301,
      "step": 30330
    },
    {
      "epoch": 40.45333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002997069814257354,
      "loss": 0.4191,
      "step": 30340
    },
    {
      "epoch": 40.46666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029970678505711915,
      "loss": 0.4284,
      "step": 30350
    },
    {
      "epoch": 40.48,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0002997065886227903,
      "loss": 0.4097,
      "step": 30360
    },
    {
      "epoch": 40.49333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029970639212274905,
      "loss": 0.4211,
      "step": 30370
    },
    {
      "epoch": 40.50666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029970619555699535,
      "loss": 0.4184,
      "step": 30380
    },
    {
      "epoch": 40.52,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997059989255294,
      "loss": 0.409,
      "step": 30390
    },
    {
      "epoch": 40.53333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002997058022283513,
      "loss": 0.4121,
      "step": 30400
    },
    {
      "epoch": 40.54666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000299705605465461,
      "loss": 0.4136,
      "step": 30410
    },
    {
      "epoch": 40.56,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002997054086368587,
      "loss": 0.4085,
      "step": 30420
    },
    {
      "epoch": 40.57333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029970521174254455,
      "loss": 0.4111,
      "step": 30430
    },
    {
      "epoch": 40.586666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029970501478251846,
      "loss": 0.4005,
      "step": 30440
    },
    {
      "epoch": 40.6,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002997048177567806,
      "loss": 0.4029,
      "step": 30450
    },
    {
      "epoch": 40.61333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029970462066533106,
      "loss": 0.3899,
      "step": 30460
    },
    {
      "epoch": 40.626666666666665,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002997044235081699,
      "loss": 0.3952,
      "step": 30470
    },
    {
      "epoch": 40.64,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002997042262852973,
      "loss": 0.4097,
      "step": 30480
    },
    {
      "epoch": 40.653333333333336,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029970402899671326,
      "loss": 0.4197,
      "step": 30490
    },
    {
      "epoch": 40.666666666666664,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997038316424178,
      "loss": 0.4044,
      "step": 30500
    },
    {
      "epoch": 40.68,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002997036342224112,
      "loss": 0.3982,
      "step": 30510
    },
    {
      "epoch": 40.693333333333335,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029970343673669343,
      "loss": 0.4062,
      "step": 30520
    },
    {
      "epoch": 40.70666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029970323918526454,
      "loss": 0.4004,
      "step": 30530
    },
    {
      "epoch": 40.72,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029970304156812466,
      "loss": 0.4235,
      "step": 30540
    },
    {
      "epoch": 40.733333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002997028438852739,
      "loss": 0.4178,
      "step": 30550
    },
    {
      "epoch": 40.74666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002997026461367123,
      "loss": 0.418,
      "step": 30560
    },
    {
      "epoch": 40.76,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029970244832244,
      "loss": 0.4306,
      "step": 30570
    },
    {
      "epoch": 40.77333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.000299702250442457,
      "loss": 0.4196,
      "step": 30580
    },
    {
      "epoch": 40.78666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002997020524967635,
      "loss": 0.4195,
      "step": 30590
    },
    {
      "epoch": 40.8,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029970185448535957,
      "loss": 0.4183,
      "step": 30600
    },
    {
      "epoch": 40.81333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002997016564082452,
      "loss": 0.3918,
      "step": 30610
    },
    {
      "epoch": 40.82666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029970145826542055,
      "loss": 0.4038,
      "step": 30620
    },
    {
      "epoch": 40.84,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002997012600568857,
      "loss": 0.415,
      "step": 30630
    },
    {
      "epoch": 40.85333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029970106178264067,
      "loss": 0.411,
      "step": 30640
    },
    {
      "epoch": 40.86666666666667,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002997008634426857,
      "loss": 0.413,
      "step": 30650
    },
    {
      "epoch": 40.88,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002997006650370207,
      "loss": 0.3923,
      "step": 30660
    },
    {
      "epoch": 40.89333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002997004665656459,
      "loss": 0.4038,
      "step": 30670
    },
    {
      "epoch": 40.906666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002997002680285613,
      "loss": 0.412,
      "step": 30680
    },
    {
      "epoch": 40.92,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299700069425767,
      "loss": 0.4147,
      "step": 30690
    },
    {
      "epoch": 40.93333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996998707572632,
      "loss": 0.4073,
      "step": 30700
    },
    {
      "epoch": 40.946666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002996996720230498,
      "loss": 0.4083,
      "step": 30710
    },
    {
      "epoch": 40.96,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000299699473223127,
      "loss": 0.4058,
      "step": 30720
    },
    {
      "epoch": 40.973333333333336,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029969927435749484,
      "loss": 0.4307,
      "step": 30730
    },
    {
      "epoch": 40.986666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029969907542615345,
      "loss": 0.407,
      "step": 30740
    },
    {
      "epoch": 41.0,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002996988764291029,
      "loss": 0.4008,
      "step": 30750
    },
    {
      "epoch": 41.0,
      "eval_loss": 0.43654143810272217,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8407,
      "eval_samples_per_second": 1.626,
      "eval_steps_per_second": 0.102,
      "step": 30750
    },
    {
      "epoch": 41.013333333333335,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002996986773663433,
      "loss": 0.418,
      "step": 30760
    },
    {
      "epoch": 41.026666666666664,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029969847823787464,
      "loss": 0.4291,
      "step": 30770
    },
    {
      "epoch": 41.04,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029969827904369715,
      "loss": 0.4406,
      "step": 30780
    },
    {
      "epoch": 41.053333333333335,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029969807978381084,
      "loss": 0.4287,
      "step": 30790
    },
    {
      "epoch": 41.06666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996978804582158,
      "loss": 0.4149,
      "step": 30800
    },
    {
      "epoch": 41.08,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002996976810669121,
      "loss": 0.4193,
      "step": 30810
    },
    {
      "epoch": 41.093333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002996974816098999,
      "loss": 0.42,
      "step": 30820
    },
    {
      "epoch": 41.10666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029969728208717916,
      "loss": 0.4074,
      "step": 30830
    },
    {
      "epoch": 41.12,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002996970824987501,
      "loss": 0.4125,
      "step": 30840
    },
    {
      "epoch": 41.13333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029969688284461275,
      "loss": 0.4048,
      "step": 30850
    },
    {
      "epoch": 41.14666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002996966831247672,
      "loss": 0.423,
      "step": 30860
    },
    {
      "epoch": 41.16,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996964833392135,
      "loss": 0.417,
      "step": 30870
    },
    {
      "epoch": 41.17333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996962834879518,
      "loss": 0.4114,
      "step": 30880
    },
    {
      "epoch": 41.18666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029969608357098223,
      "loss": 0.4109,
      "step": 30890
    },
    {
      "epoch": 41.2,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996958835883048,
      "loss": 0.4041,
      "step": 30900
    },
    {
      "epoch": 41.21333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002996956835399195,
      "loss": 0.4045,
      "step": 30910
    },
    {
      "epoch": 41.22666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002996954834258266,
      "loss": 0.4164,
      "step": 30920
    },
    {
      "epoch": 41.24,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029969528324602613,
      "loss": 0.4006,
      "step": 30930
    },
    {
      "epoch": 41.25333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029969508300051813,
      "loss": 0.4032,
      "step": 30940
    },
    {
      "epoch": 41.266666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029969488268930276,
      "loss": 0.4059,
      "step": 30950
    },
    {
      "epoch": 41.28,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029969468231238,
      "loss": 0.4354,
      "step": 30960
    },
    {
      "epoch": 41.29333333333334,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002996944818697501,
      "loss": 0.3926,
      "step": 30970
    },
    {
      "epoch": 41.306666666666665,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000299694281361413,
      "loss": 0.4145,
      "step": 30980
    },
    {
      "epoch": 41.32,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029969408078736885,
      "loss": 0.4153,
      "step": 30990
    },
    {
      "epoch": 41.333333333333336,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029969388014761773,
      "loss": 0.4214,
      "step": 31000
    },
    {
      "epoch": 41.346666666666664,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029969367944215967,
      "loss": 0.4115,
      "step": 31010
    },
    {
      "epoch": 41.36,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029969347867099495,
      "loss": 0.413,
      "step": 31020
    },
    {
      "epoch": 41.373333333333335,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029969327783412346,
      "loss": 0.4126,
      "step": 31030
    },
    {
      "epoch": 41.38666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002996930769315453,
      "loss": 0.4066,
      "step": 31040
    },
    {
      "epoch": 41.4,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996928759632607,
      "loss": 0.4125,
      "step": 31050
    },
    {
      "epoch": 41.413333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002996926749292696,
      "loss": 0.4167,
      "step": 31060
    },
    {
      "epoch": 41.42666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029969247382957215,
      "loss": 0.4184,
      "step": 31070
    },
    {
      "epoch": 41.44,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002996922726641685,
      "loss": 0.4292,
      "step": 31080
    },
    {
      "epoch": 41.45333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029969207143305864,
      "loss": 0.419,
      "step": 31090
    },
    {
      "epoch": 41.46666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002996918701362426,
      "loss": 0.428,
      "step": 31100
    },
    {
      "epoch": 41.48,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002996916687737207,
      "loss": 0.4094,
      "step": 31110
    },
    {
      "epoch": 41.49333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996914673454928,
      "loss": 0.4215,
      "step": 31120
    },
    {
      "epoch": 41.50666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002996912658515591,
      "loss": 0.4172,
      "step": 31130
    },
    {
      "epoch": 41.52,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002996910642919197,
      "loss": 0.4083,
      "step": 31140
    },
    {
      "epoch": 41.53333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029969086266657465,
      "loss": 0.4118,
      "step": 31150
    },
    {
      "epoch": 41.54666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000299690660975524,
      "loss": 0.4143,
      "step": 31160
    },
    {
      "epoch": 41.56,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029969045921876796,
      "loss": 0.4065,
      "step": 31170
    },
    {
      "epoch": 41.57333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002996902573963065,
      "loss": 0.4121,
      "step": 31180
    },
    {
      "epoch": 41.586666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029969005550813967,
      "loss": 0.3986,
      "step": 31190
    },
    {
      "epoch": 41.6,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029968985355426775,
      "loss": 0.4009,
      "step": 31200
    },
    {
      "epoch": 41.61333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996896515346907,
      "loss": 0.3891,
      "step": 31210
    },
    {
      "epoch": 41.626666666666665,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002996894494494086,
      "loss": 0.3939,
      "step": 31220
    },
    {
      "epoch": 41.64,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029968924729842155,
      "loss": 0.4094,
      "step": 31230
    },
    {
      "epoch": 41.653333333333336,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029968904508172965,
      "loss": 0.4189,
      "step": 31240
    },
    {
      "epoch": 41.666666666666664,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000299688842799333,
      "loss": 0.404,
      "step": 31250
    },
    {
      "epoch": 41.68,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002996886404512317,
      "loss": 0.3977,
      "step": 31260
    },
    {
      "epoch": 41.693333333333335,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029968843803742577,
      "loss": 0.4067,
      "step": 31270
    },
    {
      "epoch": 41.70666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029968823555791545,
      "loss": 0.3999,
      "step": 31280
    },
    {
      "epoch": 41.72,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029968803301270064,
      "loss": 0.4234,
      "step": 31290
    },
    {
      "epoch": 41.733333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029968783040178155,
      "loss": 0.4165,
      "step": 31300
    },
    {
      "epoch": 41.74666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002996876277251582,
      "loss": 0.4179,
      "step": 31310
    },
    {
      "epoch": 41.76,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029968742498283075,
      "loss": 0.431,
      "step": 31320
    },
    {
      "epoch": 41.77333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002996872221747992,
      "loss": 0.4202,
      "step": 31330
    },
    {
      "epoch": 41.78666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029968701930106376,
      "loss": 0.4192,
      "step": 31340
    },
    {
      "epoch": 41.8,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002996868163616244,
      "loss": 0.4184,
      "step": 31350
    },
    {
      "epoch": 41.81333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029968661335648134,
      "loss": 0.3911,
      "step": 31360
    },
    {
      "epoch": 41.82666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029968641028563453,
      "loss": 0.4024,
      "step": 31370
    },
    {
      "epoch": 41.84,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002996862071490841,
      "loss": 0.413,
      "step": 31380
    },
    {
      "epoch": 41.85333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002996860039468302,
      "loss": 0.41,
      "step": 31390
    },
    {
      "epoch": 41.86666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002996858006788728,
      "loss": 0.4122,
      "step": 31400
    },
    {
      "epoch": 41.88,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029968559734521214,
      "loss": 0.3917,
      "step": 31410
    },
    {
      "epoch": 41.89333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029968539394584817,
      "loss": 0.4042,
      "step": 31420
    },
    {
      "epoch": 41.906666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002996851904807811,
      "loss": 0.4123,
      "step": 31430
    },
    {
      "epoch": 41.92,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029968498695001096,
      "loss": 0.4129,
      "step": 31440
    },
    {
      "epoch": 41.93333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002996847833535379,
      "loss": 0.406,
      "step": 31450
    },
    {
      "epoch": 41.946666666666665,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996845796913618,
      "loss": 0.4085,
      "step": 31460
    },
    {
      "epoch": 41.96,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029968437596348304,
      "loss": 0.4044,
      "step": 31470
    },
    {
      "epoch": 41.973333333333336,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029968417216990153,
      "loss": 0.431,
      "step": 31480
    },
    {
      "epoch": 41.986666666666665,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029968396831061737,
      "loss": 0.4071,
      "step": 31490
    },
    {
      "epoch": 42.0,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029968376438563066,
      "loss": 0.3992,
      "step": 31500
    },
    {
      "epoch": 42.0,
      "eval_loss": 0.4370481073856354,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0465,
      "eval_samples_per_second": 1.593,
      "eval_steps_per_second": 0.1,
      "step": 31500
    },
    {
      "epoch": 42.013333333333335,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002996835603949416,
      "loss": 0.4169,
      "step": 31510
    },
    {
      "epoch": 42.026666666666664,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996833563385501,
      "loss": 0.4294,
      "step": 31520
    },
    {
      "epoch": 42.04,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002996831522164564,
      "loss": 0.4409,
      "step": 31530
    },
    {
      "epoch": 42.053333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002996829480286605,
      "loss": 0.4268,
      "step": 31540
    },
    {
      "epoch": 42.06666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996827437751625,
      "loss": 0.4147,
      "step": 31550
    },
    {
      "epoch": 42.08,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029968253945596255,
      "loss": 0.4186,
      "step": 31560
    },
    {
      "epoch": 42.093333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029968233507106064,
      "loss": 0.4192,
      "step": 31570
    },
    {
      "epoch": 42.10666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000299682130620457,
      "loss": 0.4066,
      "step": 31580
    },
    {
      "epoch": 42.12,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996819261041516,
      "loss": 0.4137,
      "step": 31590
    },
    {
      "epoch": 42.13333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002996817215221445,
      "loss": 0.4039,
      "step": 31600
    },
    {
      "epoch": 42.14666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029968151687443593,
      "loss": 0.4233,
      "step": 31610
    },
    {
      "epoch": 42.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002996813121610259,
      "loss": 0.4161,
      "step": 31620
    },
    {
      "epoch": 42.17333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002996811073819145,
      "loss": 0.4107,
      "step": 31630
    },
    {
      "epoch": 42.18666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002996809025371018,
      "loss": 0.4104,
      "step": 31640
    },
    {
      "epoch": 42.2,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000299680697626588,
      "loss": 0.4033,
      "step": 31650
    },
    {
      "epoch": 42.21333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000299680492650373,
      "loss": 0.4048,
      "step": 31660
    },
    {
      "epoch": 42.22666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029968028760845705,
      "loss": 0.4166,
      "step": 31670
    },
    {
      "epoch": 42.24,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002996800825008402,
      "loss": 0.4015,
      "step": 31680
    },
    {
      "epoch": 42.25333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029967987732752244,
      "loss": 0.4036,
      "step": 31690
    },
    {
      "epoch": 42.266666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000299679672088504,
      "loss": 0.405,
      "step": 31700
    },
    {
      "epoch": 42.28,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000299679466783785,
      "loss": 0.4359,
      "step": 31710
    },
    {
      "epoch": 42.29333333333334,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002996792614133653,
      "loss": 0.3914,
      "step": 31720
    },
    {
      "epoch": 42.306666666666665,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996790559772452,
      "loss": 0.4142,
      "step": 31730
    },
    {
      "epoch": 42.32,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029967885047542473,
      "loss": 0.4148,
      "step": 31740
    },
    {
      "epoch": 42.333333333333336,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000299678644907904,
      "loss": 0.4208,
      "step": 31750
    },
    {
      "epoch": 42.346666666666664,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029967843927468303,
      "loss": 0.4117,
      "step": 31760
    },
    {
      "epoch": 42.36,
      "grad_norm": 0.353515625,
      "learning_rate": 0.000299678233575762,
      "loss": 0.4129,
      "step": 31770
    },
    {
      "epoch": 42.373333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002996780278111409,
      "loss": 0.4117,
      "step": 31780
    },
    {
      "epoch": 42.38666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029967782198081993,
      "loss": 0.406,
      "step": 31790
    },
    {
      "epoch": 42.4,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002996776160847991,
      "loss": 0.4115,
      "step": 31800
    },
    {
      "epoch": 42.413333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029967741012307855,
      "loss": 0.4162,
      "step": 31810
    },
    {
      "epoch": 42.42666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002996772040956583,
      "loss": 0.4183,
      "step": 31820
    },
    {
      "epoch": 42.44,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029967699800253854,
      "loss": 0.4284,
      "step": 31830
    },
    {
      "epoch": 42.45333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002996767918437193,
      "loss": 0.4181,
      "step": 31840
    },
    {
      "epoch": 42.46666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029967658561920067,
      "loss": 0.4273,
      "step": 31850
    },
    {
      "epoch": 42.48,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002996763793289828,
      "loss": 0.4091,
      "step": 31860
    },
    {
      "epoch": 42.49333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029967617297306563,
      "loss": 0.4204,
      "step": 31870
    },
    {
      "epoch": 42.50666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029967596655144945,
      "loss": 0.4168,
      "step": 31880
    },
    {
      "epoch": 42.52,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002996757600641342,
      "loss": 0.4079,
      "step": 31890
    },
    {
      "epoch": 42.53333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029967555351112003,
      "loss": 0.4102,
      "step": 31900
    },
    {
      "epoch": 42.54666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029967534689240706,
      "loss": 0.4134,
      "step": 31910
    },
    {
      "epoch": 42.56,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029967514020799523,
      "loss": 0.4061,
      "step": 31920
    },
    {
      "epoch": 42.57333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029967493345788487,
      "loss": 0.4104,
      "step": 31930
    },
    {
      "epoch": 42.586666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029967472664207593,
      "loss": 0.3989,
      "step": 31940
    },
    {
      "epoch": 42.6,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996745197605685,
      "loss": 0.4007,
      "step": 31950
    },
    {
      "epoch": 42.61333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.00029967431281336266,
      "loss": 0.3888,
      "step": 31960
    },
    {
      "epoch": 42.626666666666665,
      "grad_norm": 0.263671875,
      "learning_rate": 0.00029967410580045855,
      "loss": 0.3941,
      "step": 31970
    },
    {
      "epoch": 42.64,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029967389872185624,
      "loss": 0.409,
      "step": 31980
    },
    {
      "epoch": 42.653333333333336,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002996736915775558,
      "loss": 0.4189,
      "step": 31990
    },
    {
      "epoch": 42.666666666666664,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996734843675574,
      "loss": 0.4041,
      "step": 32000
    },
    {
      "epoch": 42.68,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029967327709186093,
      "loss": 0.3969,
      "step": 32010
    },
    {
      "epoch": 42.693333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029967306975046677,
      "loss": 0.4058,
      "step": 32020
    },
    {
      "epoch": 42.70666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996728623433748,
      "loss": 0.4,
      "step": 32030
    },
    {
      "epoch": 42.72,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002996726548705852,
      "loss": 0.4227,
      "step": 32040
    },
    {
      "epoch": 42.733333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029967244733209797,
      "loss": 0.4162,
      "step": 32050
    },
    {
      "epoch": 42.74666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029967223972791337,
      "loss": 0.4177,
      "step": 32060
    },
    {
      "epoch": 42.76,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002996720320580313,
      "loss": 0.4299,
      "step": 32070
    },
    {
      "epoch": 42.77333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000299671824322452,
      "loss": 0.4191,
      "step": 32080
    },
    {
      "epoch": 42.78666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029967161652117547,
      "loss": 0.4181,
      "step": 32090
    },
    {
      "epoch": 42.8,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029967140865420184,
      "loss": 0.4174,
      "step": 32100
    },
    {
      "epoch": 42.81333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996712007215312,
      "loss": 0.3909,
      "step": 32110
    },
    {
      "epoch": 42.82666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029967099272316364,
      "loss": 0.4026,
      "step": 32120
    },
    {
      "epoch": 42.84,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029967078465909923,
      "loss": 0.4129,
      "step": 32130
    },
    {
      "epoch": 42.85333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002996705765293381,
      "loss": 0.4089,
      "step": 32140
    },
    {
      "epoch": 42.86666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029967036833388025,
      "loss": 0.4118,
      "step": 32150
    },
    {
      "epoch": 42.88,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002996701600727259,
      "loss": 0.3919,
      "step": 32160
    },
    {
      "epoch": 42.89333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029966995174587506,
      "loss": 0.4031,
      "step": 32170
    },
    {
      "epoch": 42.906666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029966974335332786,
      "loss": 0.412,
      "step": 32180
    },
    {
      "epoch": 42.92,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029966953489508435,
      "loss": 0.4137,
      "step": 32190
    },
    {
      "epoch": 42.93333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996693263711447,
      "loss": 0.4064,
      "step": 32200
    },
    {
      "epoch": 42.946666666666665,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996691177815089,
      "loss": 0.4079,
      "step": 32210
    },
    {
      "epoch": 42.96,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029966890912617707,
      "loss": 0.404,
      "step": 32220
    },
    {
      "epoch": 42.973333333333336,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029966870040514936,
      "loss": 0.4307,
      "step": 32230
    },
    {
      "epoch": 42.986666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002996684916184258,
      "loss": 0.4065,
      "step": 32240
    },
    {
      "epoch": 43.0,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996682827660065,
      "loss": 0.3988,
      "step": 32250
    },
    {
      "epoch": 43.0,
      "eval_loss": 0.4350269138813019,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9064,
      "eval_samples_per_second": 1.615,
      "eval_steps_per_second": 0.101,
      "step": 32250
    },
    {
      "epoch": 43.013333333333335,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029966807384789157,
      "loss": 0.4185,
      "step": 32260
    },
    {
      "epoch": 43.026666666666664,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029966786486408106,
      "loss": 0.4284,
      "step": 32270
    },
    {
      "epoch": 43.04,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029966765581457516,
      "loss": 0.4407,
      "step": 32280
    },
    {
      "epoch": 43.053333333333335,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996674466993738,
      "loss": 0.4265,
      "step": 32290
    },
    {
      "epoch": 43.06666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996672375184772,
      "loss": 0.4136,
      "step": 32300
    },
    {
      "epoch": 43.08,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996670282718854,
      "loss": 0.4172,
      "step": 32310
    },
    {
      "epoch": 43.093333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029966681895959857,
      "loss": 0.4191,
      "step": 32320
    },
    {
      "epoch": 43.10666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029966660958161666,
      "loss": 0.4066,
      "step": 32330
    },
    {
      "epoch": 43.12,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996664001379399,
      "loss": 0.4135,
      "step": 32340
    },
    {
      "epoch": 43.13333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029966619062856824,
      "loss": 0.4046,
      "step": 32350
    },
    {
      "epoch": 43.14666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029966598105350196,
      "loss": 0.4229,
      "step": 32360
    },
    {
      "epoch": 43.16,
      "grad_norm": 0.296875,
      "learning_rate": 0.000299665771412741,
      "loss": 0.4152,
      "step": 32370
    },
    {
      "epoch": 43.17333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029966556170628545,
      "loss": 0.4097,
      "step": 32380
    },
    {
      "epoch": 43.18666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996653519341355,
      "loss": 0.4101,
      "step": 32390
    },
    {
      "epoch": 43.2,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002996651420962912,
      "loss": 0.4033,
      "step": 32400
    },
    {
      "epoch": 43.21333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029966493219275256,
      "loss": 0.4031,
      "step": 32410
    },
    {
      "epoch": 43.22666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996647222235198,
      "loss": 0.4164,
      "step": 32420
    },
    {
      "epoch": 43.24,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029966451218859297,
      "loss": 0.4005,
      "step": 32430
    },
    {
      "epoch": 43.25333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029966430208797215,
      "loss": 0.4033,
      "step": 32440
    },
    {
      "epoch": 43.266666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002996640919216574,
      "loss": 0.4053,
      "step": 32450
    },
    {
      "epoch": 43.28,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029966388168964884,
      "loss": 0.4358,
      "step": 32460
    },
    {
      "epoch": 43.29333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996636713919466,
      "loss": 0.3915,
      "step": 32470
    },
    {
      "epoch": 43.306666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002996634610285507,
      "loss": 0.413,
      "step": 32480
    },
    {
      "epoch": 43.32,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029966325059946136,
      "loss": 0.4141,
      "step": 32490
    },
    {
      "epoch": 43.333333333333336,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029966304010467846,
      "loss": 0.4207,
      "step": 32500
    },
    {
      "epoch": 43.346666666666664,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002996628295442023,
      "loss": 0.4103,
      "step": 32510
    },
    {
      "epoch": 43.36,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029966261891803284,
      "loss": 0.4122,
      "step": 32520
    },
    {
      "epoch": 43.373333333333335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002996624082261703,
      "loss": 0.4103,
      "step": 32530
    },
    {
      "epoch": 43.38666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002996621974686146,
      "loss": 0.4056,
      "step": 32540
    },
    {
      "epoch": 43.4,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299661986645366,
      "loss": 0.4121,
      "step": 32550
    },
    {
      "epoch": 43.413333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029966177575642443,
      "loss": 0.4165,
      "step": 32560
    },
    {
      "epoch": 43.42666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029966156480179014,
      "loss": 0.4175,
      "step": 32570
    },
    {
      "epoch": 43.44,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029966135378146317,
      "loss": 0.428,
      "step": 32580
    },
    {
      "epoch": 43.45333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029966114269544357,
      "loss": 0.4177,
      "step": 32590
    },
    {
      "epoch": 43.46666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002996609315437314,
      "loss": 0.4274,
      "step": 32600
    },
    {
      "epoch": 43.48,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029966072032632695,
      "loss": 0.4086,
      "step": 32610
    },
    {
      "epoch": 43.49333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029966050904323,
      "loss": 0.4195,
      "step": 32620
    },
    {
      "epoch": 43.50666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029966029769444097,
      "loss": 0.4158,
      "step": 32630
    },
    {
      "epoch": 43.52,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002996600862799597,
      "loss": 0.408,
      "step": 32640
    },
    {
      "epoch": 43.53333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029965987479978646,
      "loss": 0.4115,
      "step": 32650
    },
    {
      "epoch": 43.54666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029965966325392127,
      "loss": 0.4117,
      "step": 32660
    },
    {
      "epoch": 43.56,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029965945164236416,
      "loss": 0.4064,
      "step": 32670
    },
    {
      "epoch": 43.57333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002996592399651153,
      "loss": 0.4113,
      "step": 32680
    },
    {
      "epoch": 43.586666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029965902822217473,
      "loss": 0.399,
      "step": 32690
    },
    {
      "epoch": 43.6,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029965881641354263,
      "loss": 0.4006,
      "step": 32700
    },
    {
      "epoch": 43.61333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029965860453921904,
      "loss": 0.3882,
      "step": 32710
    },
    {
      "epoch": 43.626666666666665,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000299658392599204,
      "loss": 0.3944,
      "step": 32720
    },
    {
      "epoch": 43.64,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002996581805934977,
      "loss": 0.4086,
      "step": 32730
    },
    {
      "epoch": 43.653333333333336,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996579685221002,
      "loss": 0.4179,
      "step": 32740
    },
    {
      "epoch": 43.666666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029965775638501153,
      "loss": 0.4043,
      "step": 32750
    },
    {
      "epoch": 43.68,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002996575441822319,
      "loss": 0.3964,
      "step": 32760
    },
    {
      "epoch": 43.693333333333335,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002996573319137613,
      "loss": 0.4049,
      "step": 32770
    },
    {
      "epoch": 43.70666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029965711957959985,
      "loss": 0.4003,
      "step": 32780
    },
    {
      "epoch": 43.72,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029965690717974764,
      "loss": 0.4223,
      "step": 32790
    },
    {
      "epoch": 43.733333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996566947142048,
      "loss": 0.416,
      "step": 32800
    },
    {
      "epoch": 43.74666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996564821829714,
      "loss": 0.4174,
      "step": 32810
    },
    {
      "epoch": 43.76,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002996562695860476,
      "loss": 0.4296,
      "step": 32820
    },
    {
      "epoch": 43.77333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029965605692343334,
      "loss": 0.4185,
      "step": 32830
    },
    {
      "epoch": 43.78666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029965584419512886,
      "loss": 0.418,
      "step": 32840
    },
    {
      "epoch": 43.8,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029965563140113414,
      "loss": 0.4174,
      "step": 32850
    },
    {
      "epoch": 43.81333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002996554185414494,
      "loss": 0.3906,
      "step": 32860
    },
    {
      "epoch": 43.82666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002996552056160746,
      "loss": 0.4021,
      "step": 32870
    },
    {
      "epoch": 43.84,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002996549926250099,
      "loss": 0.413,
      "step": 32880
    },
    {
      "epoch": 43.85333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029965477956825544,
      "loss": 0.4083,
      "step": 32890
    },
    {
      "epoch": 43.86666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002996545664458112,
      "loss": 0.4121,
      "step": 32900
    },
    {
      "epoch": 43.88,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029965435325767734,
      "loss": 0.3918,
      "step": 32910
    },
    {
      "epoch": 43.89333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000299654140003854,
      "loss": 0.4021,
      "step": 32920
    },
    {
      "epoch": 43.906666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029965392668434117,
      "loss": 0.411,
      "step": 32930
    },
    {
      "epoch": 43.92,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029965371329913903,
      "loss": 0.4134,
      "step": 32940
    },
    {
      "epoch": 43.93333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029965349984824763,
      "loss": 0.4057,
      "step": 32950
    },
    {
      "epoch": 43.946666666666665,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996532863316671,
      "loss": 0.4071,
      "step": 32960
    },
    {
      "epoch": 43.96,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002996530727493975,
      "loss": 0.4037,
      "step": 32970
    },
    {
      "epoch": 43.973333333333336,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002996528591014389,
      "loss": 0.4297,
      "step": 32980
    },
    {
      "epoch": 43.986666666666665,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002996526453877914,
      "loss": 0.4067,
      "step": 32990
    },
    {
      "epoch": 44.0,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002996524316084552,
      "loss": 0.3989,
      "step": 33000
    },
    {
      "epoch": 44.0,
      "eval_loss": 0.4345279633998871,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6929,
      "eval_samples_per_second": 1.651,
      "eval_steps_per_second": 0.103,
      "step": 33000
    },
    {
      "epoch": 44.013333333333335,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029965221776343025,
      "loss": 0.4171,
      "step": 33010
    },
    {
      "epoch": 44.026666666666664,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002996520038527167,
      "loss": 0.4281,
      "step": 33020
    },
    {
      "epoch": 44.04,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002996517898763147,
      "loss": 0.4401,
      "step": 33030
    },
    {
      "epoch": 44.053333333333335,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002996515758342243,
      "loss": 0.4267,
      "step": 33040
    },
    {
      "epoch": 44.06666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029965136172644557,
      "loss": 0.4139,
      "step": 33050
    },
    {
      "epoch": 44.08,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002996511475529786,
      "loss": 0.4178,
      "step": 33060
    },
    {
      "epoch": 44.093333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002996509333138235,
      "loss": 0.4181,
      "step": 33070
    },
    {
      "epoch": 44.10666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996507190089804,
      "loss": 0.4066,
      "step": 33080
    },
    {
      "epoch": 44.12,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029965050463844935,
      "loss": 0.4119,
      "step": 33090
    },
    {
      "epoch": 44.13333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029965029020223046,
      "loss": 0.404,
      "step": 33100
    },
    {
      "epoch": 44.14666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002996500757003238,
      "loss": 0.4227,
      "step": 33110
    },
    {
      "epoch": 44.16,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029964986113272955,
      "loss": 0.4153,
      "step": 33120
    },
    {
      "epoch": 44.17333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029964964649944765,
      "loss": 0.4087,
      "step": 33130
    },
    {
      "epoch": 44.18666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002996494318004784,
      "loss": 0.4099,
      "step": 33140
    },
    {
      "epoch": 44.2,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029964921703582164,
      "loss": 0.4026,
      "step": 33150
    },
    {
      "epoch": 44.21333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029964900220547775,
      "loss": 0.4035,
      "step": 33160
    },
    {
      "epoch": 44.22666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029964878730944655,
      "loss": 0.4154,
      "step": 33170
    },
    {
      "epoch": 44.24,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029964857234772836,
      "loss": 0.3996,
      "step": 33180
    },
    {
      "epoch": 44.25333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029964835732032314,
      "loss": 0.4023,
      "step": 33190
    },
    {
      "epoch": 44.266666666666666,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000299648142227231,
      "loss": 0.4048,
      "step": 33200
    },
    {
      "epoch": 44.28,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029964792706845206,
      "loss": 0.4342,
      "step": 33210
    },
    {
      "epoch": 44.29333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002996477118439864,
      "loss": 0.3907,
      "step": 33220
    },
    {
      "epoch": 44.306666666666665,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996474965538342,
      "loss": 0.4125,
      "step": 33230
    },
    {
      "epoch": 44.32,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996472811979954,
      "loss": 0.4145,
      "step": 33240
    },
    {
      "epoch": 44.333333333333336,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002996470657764702,
      "loss": 0.4196,
      "step": 33250
    },
    {
      "epoch": 44.346666666666664,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996468502892587,
      "loss": 0.4101,
      "step": 33260
    },
    {
      "epoch": 44.36,
      "grad_norm": 0.375,
      "learning_rate": 0.00029964663473636095,
      "loss": 0.4117,
      "step": 33270
    },
    {
      "epoch": 44.373333333333335,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000299646419117777,
      "loss": 0.4099,
      "step": 33280
    },
    {
      "epoch": 44.38666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000299646203433507,
      "loss": 0.4048,
      "step": 33290
    },
    {
      "epoch": 44.4,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002996459876835511,
      "loss": 0.4103,
      "step": 33300
    },
    {
      "epoch": 44.413333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029964577186790935,
      "loss": 0.4158,
      "step": 33310
    },
    {
      "epoch": 44.42666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029964555598658183,
      "loss": 0.4164,
      "step": 33320
    },
    {
      "epoch": 44.44,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029964534003956863,
      "loss": 0.4277,
      "step": 33330
    },
    {
      "epoch": 44.45333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002996451240268698,
      "loss": 0.4177,
      "step": 33340
    },
    {
      "epoch": 44.46666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029964490794848555,
      "loss": 0.4264,
      "step": 33350
    },
    {
      "epoch": 44.48,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029964469180441595,
      "loss": 0.4072,
      "step": 33360
    },
    {
      "epoch": 44.49333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029964447559466104,
      "loss": 0.4196,
      "step": 33370
    },
    {
      "epoch": 44.50666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996442593192209,
      "loss": 0.416,
      "step": 33380
    },
    {
      "epoch": 44.52,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029964404297809564,
      "loss": 0.4058,
      "step": 33390
    },
    {
      "epoch": 44.53333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002996438265712854,
      "loss": 0.4099,
      "step": 33400
    },
    {
      "epoch": 44.54666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029964361009879027,
      "loss": 0.4114,
      "step": 33410
    },
    {
      "epoch": 44.56,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0002996433935606103,
      "loss": 0.407,
      "step": 33420
    },
    {
      "epoch": 44.57333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029964317695674563,
      "loss": 0.4094,
      "step": 33430
    },
    {
      "epoch": 44.586666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996429602871963,
      "loss": 0.3981,
      "step": 33440
    },
    {
      "epoch": 44.6,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002996427435519625,
      "loss": 0.4007,
      "step": 33450
    },
    {
      "epoch": 44.61333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029964252675104423,
      "loss": 0.3882,
      "step": 33460
    },
    {
      "epoch": 44.626666666666665,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996423098844416,
      "loss": 0.393,
      "step": 33470
    },
    {
      "epoch": 44.64,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029964209295215474,
      "loss": 0.4082,
      "step": 33480
    },
    {
      "epoch": 44.653333333333336,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029964187595418377,
      "loss": 0.4175,
      "step": 33490
    },
    {
      "epoch": 44.666666666666664,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002996416588905287,
      "loss": 0.4023,
      "step": 33500
    },
    {
      "epoch": 44.68,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002996414417611897,
      "loss": 0.3962,
      "step": 33510
    },
    {
      "epoch": 44.693333333333335,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029964122456616684,
      "loss": 0.4049,
      "step": 33520
    },
    {
      "epoch": 44.70666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002996410073054602,
      "loss": 0.3989,
      "step": 33530
    },
    {
      "epoch": 44.72,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029964078997906984,
      "loss": 0.4214,
      "step": 33540
    },
    {
      "epoch": 44.733333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000299640572586996,
      "loss": 0.4155,
      "step": 33550
    },
    {
      "epoch": 44.74666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029964035512923857,
      "loss": 0.4172,
      "step": 33560
    },
    {
      "epoch": 44.76,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002996401376057978,
      "loss": 0.4292,
      "step": 33570
    },
    {
      "epoch": 44.77333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002996399200166738,
      "loss": 0.4178,
      "step": 33580
    },
    {
      "epoch": 44.78666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029963970236186646,
      "loss": 0.4182,
      "step": 33590
    },
    {
      "epoch": 44.8,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996394846413761,
      "loss": 0.4164,
      "step": 33600
    },
    {
      "epoch": 44.81333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002996392668552028,
      "loss": 0.3901,
      "step": 33610
    },
    {
      "epoch": 44.82666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002996390490033465,
      "loss": 0.4025,
      "step": 33620
    },
    {
      "epoch": 44.84,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029963883108580745,
      "loss": 0.4131,
      "step": 33630
    },
    {
      "epoch": 44.85333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029963861310258565,
      "loss": 0.4077,
      "step": 33640
    },
    {
      "epoch": 44.86666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029963839505368125,
      "loss": 0.4109,
      "step": 33650
    },
    {
      "epoch": 44.88,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002996381769390943,
      "loss": 0.3914,
      "step": 33660
    },
    {
      "epoch": 44.89333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029963795875882494,
      "loss": 0.4013,
      "step": 33670
    },
    {
      "epoch": 44.906666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002996377405128732,
      "loss": 0.4101,
      "step": 33680
    },
    {
      "epoch": 44.92,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029963752220123923,
      "loss": 0.4131,
      "step": 33690
    },
    {
      "epoch": 44.93333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029963730382392316,
      "loss": 0.4045,
      "step": 33700
    },
    {
      "epoch": 44.946666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029963708538092505,
      "loss": 0.4074,
      "step": 33710
    },
    {
      "epoch": 44.96,
      "grad_norm": 0.359375,
      "learning_rate": 0.000299636866872245,
      "loss": 0.4044,
      "step": 33720
    },
    {
      "epoch": 44.973333333333336,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029963664829788303,
      "loss": 0.4289,
      "step": 33730
    },
    {
      "epoch": 44.986666666666665,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996364296578393,
      "loss": 0.4054,
      "step": 33740
    },
    {
      "epoch": 45.0,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029963621095211395,
      "loss": 0.3983,
      "step": 33750
    },
    {
      "epoch": 45.0,
      "eval_loss": 0.4378819167613983,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5085,
      "eval_samples_per_second": 1.683,
      "eval_steps_per_second": 0.105,
      "step": 33750
    },
    {
      "epoch": 45.013333333333335,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029963599218070703,
      "loss": 0.4166,
      "step": 33760
    },
    {
      "epoch": 45.026666666666664,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996357733436186,
      "loss": 0.4276,
      "step": 33770
    },
    {
      "epoch": 45.04,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029963555444084884,
      "loss": 0.4392,
      "step": 33780
    },
    {
      "epoch": 45.053333333333335,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029963533547239777,
      "loss": 0.4264,
      "step": 33790
    },
    {
      "epoch": 45.06666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002996351164382655,
      "loss": 0.4147,
      "step": 33800
    },
    {
      "epoch": 45.08,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002996348973384522,
      "loss": 0.417,
      "step": 33810
    },
    {
      "epoch": 45.093333333333334,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002996346781729579,
      "loss": 0.4179,
      "step": 33820
    },
    {
      "epoch": 45.10666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002996344589417827,
      "loss": 0.406,
      "step": 33830
    },
    {
      "epoch": 45.12,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996342396449267,
      "loss": 0.4126,
      "step": 33840
    },
    {
      "epoch": 45.13333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029963402028238993,
      "loss": 0.4037,
      "step": 33850
    },
    {
      "epoch": 45.14666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029963380085417263,
      "loss": 0.4217,
      "step": 33860
    },
    {
      "epoch": 45.16,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002996335813602748,
      "loss": 0.4146,
      "step": 33870
    },
    {
      "epoch": 45.17333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029963336180069655,
      "loss": 0.4096,
      "step": 33880
    },
    {
      "epoch": 45.18666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000299633142175438,
      "loss": 0.408,
      "step": 33890
    },
    {
      "epoch": 45.2,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002996329224844992,
      "loss": 0.4021,
      "step": 33900
    },
    {
      "epoch": 45.21333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002996327027278803,
      "loss": 0.4023,
      "step": 33910
    },
    {
      "epoch": 45.22666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002996324829055814,
      "loss": 0.4148,
      "step": 33920
    },
    {
      "epoch": 45.24,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002996322630176025,
      "loss": 0.4007,
      "step": 33930
    },
    {
      "epoch": 45.25333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029963204306394383,
      "loss": 0.4021,
      "step": 33940
    },
    {
      "epoch": 45.266666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002996318230446054,
      "loss": 0.4037,
      "step": 33950
    },
    {
      "epoch": 45.28,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029963160295958733,
      "loss": 0.4346,
      "step": 33960
    },
    {
      "epoch": 45.29333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002996313828088897,
      "loss": 0.3907,
      "step": 33970
    },
    {
      "epoch": 45.306666666666665,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002996311625925126,
      "loss": 0.4128,
      "step": 33980
    },
    {
      "epoch": 45.32,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029963094231045623,
      "loss": 0.4136,
      "step": 33990
    },
    {
      "epoch": 45.333333333333336,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029963072196272057,
      "loss": 0.4193,
      "step": 34000
    },
    {
      "epoch": 45.346666666666664,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002996305015493057,
      "loss": 0.4101,
      "step": 34010
    },
    {
      "epoch": 45.36,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002996302810702118,
      "loss": 0.4108,
      "step": 34020
    },
    {
      "epoch": 45.373333333333335,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029963006052543894,
      "loss": 0.4106,
      "step": 34030
    },
    {
      "epoch": 45.38666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002996298399149872,
      "loss": 0.4035,
      "step": 34040
    },
    {
      "epoch": 45.4,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029962961923885674,
      "loss": 0.4108,
      "step": 34050
    },
    {
      "epoch": 45.413333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996293984970476,
      "loss": 0.4148,
      "step": 34060
    },
    {
      "epoch": 45.42666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029962917768955983,
      "loss": 0.416,
      "step": 34070
    },
    {
      "epoch": 45.44,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996289568163936,
      "loss": 0.4277,
      "step": 34080
    },
    {
      "epoch": 45.45333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029962873587754897,
      "loss": 0.4169,
      "step": 34090
    },
    {
      "epoch": 45.46666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996285148730261,
      "loss": 0.4267,
      "step": 34100
    },
    {
      "epoch": 45.48,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029962829380282503,
      "loss": 0.407,
      "step": 34110
    },
    {
      "epoch": 45.49333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002996280726669458,
      "loss": 0.4186,
      "step": 34120
    },
    {
      "epoch": 45.50666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002996278514653886,
      "loss": 0.4153,
      "step": 34130
    },
    {
      "epoch": 45.52,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029962763019815355,
      "loss": 0.4057,
      "step": 34140
    },
    {
      "epoch": 45.53333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002996274088652407,
      "loss": 0.409,
      "step": 34150
    },
    {
      "epoch": 45.54666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002996271874666501,
      "loss": 0.412,
      "step": 34160
    },
    {
      "epoch": 45.56,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002996269660023819,
      "loss": 0.4058,
      "step": 34170
    },
    {
      "epoch": 45.57333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002996267444724362,
      "loss": 0.4089,
      "step": 34180
    },
    {
      "epoch": 45.586666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029962652287681313,
      "loss": 0.3981,
      "step": 34190
    },
    {
      "epoch": 45.6,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002996263012155127,
      "loss": 0.3993,
      "step": 34200
    },
    {
      "epoch": 45.61333333333333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029962607948853505,
      "loss": 0.388,
      "step": 34210
    },
    {
      "epoch": 45.626666666666665,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0002996258576958803,
      "loss": 0.393,
      "step": 34220
    },
    {
      "epoch": 45.64,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029962563583754855,
      "loss": 0.4074,
      "step": 34230
    },
    {
      "epoch": 45.653333333333336,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996254139135398,
      "loss": 0.4174,
      "step": 34240
    },
    {
      "epoch": 45.666666666666664,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029962519192385434,
      "loss": 0.4024,
      "step": 34250
    },
    {
      "epoch": 45.68,
      "grad_norm": 0.296875,
      "learning_rate": 0.000299624969868492,
      "loss": 0.3968,
      "step": 34260
    },
    {
      "epoch": 45.693333333333335,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002996247477474531,
      "loss": 0.4039,
      "step": 34270
    },
    {
      "epoch": 45.70666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002996245255607377,
      "loss": 0.3985,
      "step": 34280
    },
    {
      "epoch": 45.72,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002996243033083458,
      "loss": 0.4214,
      "step": 34290
    },
    {
      "epoch": 45.733333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029962408099027765,
      "loss": 0.4144,
      "step": 34300
    },
    {
      "epoch": 45.74666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029962385860653315,
      "loss": 0.4164,
      "step": 34310
    },
    {
      "epoch": 45.76,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029962363615711256,
      "loss": 0.4287,
      "step": 34320
    },
    {
      "epoch": 45.77333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029962341364201593,
      "loss": 0.4168,
      "step": 34330
    },
    {
      "epoch": 45.78666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996231910612433,
      "loss": 0.418,
      "step": 34340
    },
    {
      "epoch": 45.8,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029962296841479485,
      "loss": 0.416,
      "step": 34350
    },
    {
      "epoch": 45.81333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029962274570267066,
      "loss": 0.3897,
      "step": 34360
    },
    {
      "epoch": 45.82666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002996225229248708,
      "loss": 0.4009,
      "step": 34370
    },
    {
      "epoch": 45.84,
      "grad_norm": 0.375,
      "learning_rate": 0.0002996223000813954,
      "loss": 0.4121,
      "step": 34380
    },
    {
      "epoch": 45.85333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996220771722445,
      "loss": 0.4079,
      "step": 34390
    },
    {
      "epoch": 45.86666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996218541974183,
      "loss": 0.4104,
      "step": 34400
    },
    {
      "epoch": 45.88,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029962163115691674,
      "loss": 0.3909,
      "step": 34410
    },
    {
      "epoch": 45.89333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996214080507401,
      "loss": 0.4024,
      "step": 34420
    },
    {
      "epoch": 45.906666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996211848788883,
      "loss": 0.4104,
      "step": 34430
    },
    {
      "epoch": 45.92,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002996209616413616,
      "loss": 0.4122,
      "step": 34440
    },
    {
      "epoch": 45.93333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029962073833816004,
      "loss": 0.4059,
      "step": 34450
    },
    {
      "epoch": 45.946666666666665,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029962051496928364,
      "loss": 0.4073,
      "step": 34460
    },
    {
      "epoch": 45.96,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029962029153473256,
      "loss": 0.4031,
      "step": 34470
    },
    {
      "epoch": 45.973333333333336,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029962006803450696,
      "loss": 0.4291,
      "step": 34480
    },
    {
      "epoch": 45.986666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029961984446860685,
      "loss": 0.4041,
      "step": 34490
    },
    {
      "epoch": 46.0,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002996196208370324,
      "loss": 0.3976,
      "step": 34500
    },
    {
      "epoch": 46.0,
      "eval_loss": 0.43458878993988037,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5141,
      "eval_samples_per_second": 1.682,
      "eval_steps_per_second": 0.105,
      "step": 34500
    },
    {
      "epoch": 46.013333333333335,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002996193971397836,
      "loss": 0.4152,
      "step": 34510
    },
    {
      "epoch": 46.026666666666664,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996191733768606,
      "loss": 0.4281,
      "step": 34520
    },
    {
      "epoch": 46.04,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029961894954826356,
      "loss": 0.4398,
      "step": 34530
    },
    {
      "epoch": 46.053333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996187256539925,
      "loss": 0.4271,
      "step": 34540
    },
    {
      "epoch": 46.06666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029961850169404756,
      "loss": 0.4129,
      "step": 34550
    },
    {
      "epoch": 46.08,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029961827766842886,
      "loss": 0.4169,
      "step": 34560
    },
    {
      "epoch": 46.093333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002996180535771364,
      "loss": 0.4183,
      "step": 34570
    },
    {
      "epoch": 46.10666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002996178294201704,
      "loss": 0.4059,
      "step": 34580
    },
    {
      "epoch": 46.12,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002996176051975309,
      "loss": 0.4115,
      "step": 34590
    },
    {
      "epoch": 46.13333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299617380909218,
      "loss": 0.4033,
      "step": 34600
    },
    {
      "epoch": 46.14666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996171565552317,
      "loss": 0.4223,
      "step": 34610
    },
    {
      "epoch": 46.16,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029961693213557234,
      "loss": 0.4147,
      "step": 34620
    },
    {
      "epoch": 46.17333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996167076502398,
      "loss": 0.4091,
      "step": 34630
    },
    {
      "epoch": 46.18666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002996164830992342,
      "loss": 0.4092,
      "step": 34640
    },
    {
      "epoch": 46.2,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002996162584825558,
      "loss": 0.401,
      "step": 34650
    },
    {
      "epoch": 46.21333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029961603380020455,
      "loss": 0.4024,
      "step": 34660
    },
    {
      "epoch": 46.22666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029961580905218054,
      "loss": 0.4141,
      "step": 34670
    },
    {
      "epoch": 46.24,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029961558423848396,
      "loss": 0.3979,
      "step": 34680
    },
    {
      "epoch": 46.25333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002996153593591149,
      "loss": 0.402,
      "step": 34690
    },
    {
      "epoch": 46.266666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002996151344140734,
      "loss": 0.4039,
      "step": 34700
    },
    {
      "epoch": 46.28,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029961490940335955,
      "loss": 0.433,
      "step": 34710
    },
    {
      "epoch": 46.29333333333334,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996146843269735,
      "loss": 0.3898,
      "step": 34720
    },
    {
      "epoch": 46.306666666666665,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002996144591849153,
      "loss": 0.412,
      "step": 34730
    },
    {
      "epoch": 46.32,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002996142339771852,
      "loss": 0.415,
      "step": 34740
    },
    {
      "epoch": 46.333333333333336,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029961400870378305,
      "loss": 0.4191,
      "step": 34750
    },
    {
      "epoch": 46.346666666666664,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029961378336470915,
      "loss": 0.4105,
      "step": 34760
    },
    {
      "epoch": 46.36,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029961355795996345,
      "loss": 0.4109,
      "step": 34770
    },
    {
      "epoch": 46.373333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002996133324895462,
      "loss": 0.4099,
      "step": 34780
    },
    {
      "epoch": 46.38666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029961310695345744,
      "loss": 0.4038,
      "step": 34790
    },
    {
      "epoch": 46.4,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996128813516972,
      "loss": 0.411,
      "step": 34800
    },
    {
      "epoch": 46.413333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029961265568426566,
      "loss": 0.4142,
      "step": 34810
    },
    {
      "epoch": 46.42666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002996124299511629,
      "loss": 0.4166,
      "step": 34820
    },
    {
      "epoch": 46.44,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029961220415238894,
      "loss": 0.4265,
      "step": 34830
    },
    {
      "epoch": 46.45333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029961197828794406,
      "loss": 0.4168,
      "step": 34840
    },
    {
      "epoch": 46.46666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002996117523578282,
      "loss": 0.4256,
      "step": 34850
    },
    {
      "epoch": 46.48,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002996115263620415,
      "loss": 0.4069,
      "step": 34860
    },
    {
      "epoch": 46.49333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029961130030058407,
      "loss": 0.4187,
      "step": 34870
    },
    {
      "epoch": 46.50666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000299611074173456,
      "loss": 0.4157,
      "step": 34880
    },
    {
      "epoch": 46.52,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002996108479806574,
      "loss": 0.405,
      "step": 34890
    },
    {
      "epoch": 46.53333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029961062172218834,
      "loss": 0.4096,
      "step": 34900
    },
    {
      "epoch": 46.54666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299610395398049,
      "loss": 0.4109,
      "step": 34910
    },
    {
      "epoch": 46.56,
      "grad_norm": 0.25,
      "learning_rate": 0.00029961016900823944,
      "loss": 0.406,
      "step": 34920
    },
    {
      "epoch": 46.57333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029960994255275963,
      "loss": 0.4095,
      "step": 34930
    },
    {
      "epoch": 46.586666666666666,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029960971603160987,
      "loss": 0.3973,
      "step": 34940
    },
    {
      "epoch": 46.6,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996094894447902,
      "loss": 0.3984,
      "step": 34950
    },
    {
      "epoch": 46.61333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002996092627923006,
      "loss": 0.3873,
      "step": 34960
    },
    {
      "epoch": 46.626666666666665,
      "grad_norm": 0.25390625,
      "learning_rate": 0.00029960903607414134,
      "loss": 0.3924,
      "step": 34970
    },
    {
      "epoch": 46.64,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996088092903124,
      "loss": 0.4073,
      "step": 34980
    },
    {
      "epoch": 46.653333333333336,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029960858244081393,
      "loss": 0.4168,
      "step": 34990
    },
    {
      "epoch": 46.666666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029960835552564607,
      "loss": 0.4023,
      "step": 35000
    },
    {
      "epoch": 46.68,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002996081285448088,
      "loss": 0.3961,
      "step": 35010
    },
    {
      "epoch": 46.693333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002996079014983023,
      "loss": 0.4041,
      "step": 35020
    },
    {
      "epoch": 46.70666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029960767438612666,
      "loss": 0.3984,
      "step": 35030
    },
    {
      "epoch": 46.72,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000299607447208282,
      "loss": 0.4213,
      "step": 35040
    },
    {
      "epoch": 46.733333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029960721996476837,
      "loss": 0.4146,
      "step": 35050
    },
    {
      "epoch": 46.74666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029960699265558593,
      "loss": 0.416,
      "step": 35060
    },
    {
      "epoch": 46.76,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029960676528073473,
      "loss": 0.4285,
      "step": 35070
    },
    {
      "epoch": 46.77333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002996065378402149,
      "loss": 0.4171,
      "step": 35080
    },
    {
      "epoch": 46.78666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029960631033402655,
      "loss": 0.4167,
      "step": 35090
    },
    {
      "epoch": 46.8,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029960608276216973,
      "loss": 0.4143,
      "step": 35100
    },
    {
      "epoch": 46.81333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029960585512464453,
      "loss": 0.3894,
      "step": 35110
    },
    {
      "epoch": 46.82666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002996056274214511,
      "loss": 0.4003,
      "step": 35120
    },
    {
      "epoch": 46.84,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029960539965258955,
      "loss": 0.4114,
      "step": 35130
    },
    {
      "epoch": 46.85333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029960517181806,
      "loss": 0.4074,
      "step": 35140
    },
    {
      "epoch": 46.86666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002996049439178624,
      "loss": 0.4099,
      "step": 35150
    },
    {
      "epoch": 46.88,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029960471595199704,
      "loss": 0.3905,
      "step": 35160
    },
    {
      "epoch": 46.89333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029960448792046393,
      "loss": 0.4011,
      "step": 35170
    },
    {
      "epoch": 46.906666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029960425982326314,
      "loss": 0.4095,
      "step": 35180
    },
    {
      "epoch": 46.92,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002996040316603948,
      "loss": 0.4108,
      "step": 35190
    },
    {
      "epoch": 46.93333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002996038034318591,
      "loss": 0.4043,
      "step": 35200
    },
    {
      "epoch": 46.946666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000299603575137656,
      "loss": 0.4046,
      "step": 35210
    },
    {
      "epoch": 46.96,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029960334677778564,
      "loss": 0.4032,
      "step": 35220
    },
    {
      "epoch": 46.973333333333336,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029960311835224815,
      "loss": 0.4282,
      "step": 35230
    },
    {
      "epoch": 46.986666666666665,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002996028898610436,
      "loss": 0.4035,
      "step": 35240
    },
    {
      "epoch": 47.0,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029960266130417217,
      "loss": 0.397,
      "step": 35250
    },
    {
      "epoch": 47.0,
      "eval_loss": 0.434810072183609,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8232,
      "eval_samples_per_second": 1.629,
      "eval_steps_per_second": 0.102,
      "step": 35250
    },
    {
      "epoch": 47.013333333333335,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002996024326816339,
      "loss": 0.4148,
      "step": 35260
    },
    {
      "epoch": 47.026666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029960220399342886,
      "loss": 0.4266,
      "step": 35270
    },
    {
      "epoch": 47.04,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002996019752395571,
      "loss": 0.4388,
      "step": 35280
    },
    {
      "epoch": 47.053333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002996017464200189,
      "loss": 0.4248,
      "step": 35290
    },
    {
      "epoch": 47.06666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029960151753481425,
      "loss": 0.4131,
      "step": 35300
    },
    {
      "epoch": 47.08,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029960128858394323,
      "loss": 0.4168,
      "step": 35310
    },
    {
      "epoch": 47.093333333333334,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029960105956740605,
      "loss": 0.4178,
      "step": 35320
    },
    {
      "epoch": 47.10666666666667,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002996008304852026,
      "loss": 0.4046,
      "step": 35330
    },
    {
      "epoch": 47.12,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002996006013373332,
      "loss": 0.4114,
      "step": 35340
    },
    {
      "epoch": 47.13333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002996003721237979,
      "loss": 0.4027,
      "step": 35350
    },
    {
      "epoch": 47.14666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002996001428445967,
      "loss": 0.4215,
      "step": 35360
    },
    {
      "epoch": 47.16,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029959991349972975,
      "loss": 0.4146,
      "step": 35370
    },
    {
      "epoch": 47.17333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002995996840891972,
      "loss": 0.4072,
      "step": 35380
    },
    {
      "epoch": 47.18666666666667,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002995994546129991,
      "loss": 0.4081,
      "step": 35390
    },
    {
      "epoch": 47.2,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029959922507113556,
      "loss": 0.4016,
      "step": 35400
    },
    {
      "epoch": 47.21333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029959899546360666,
      "loss": 0.4028,
      "step": 35410
    },
    {
      "epoch": 47.22666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995987657904126,
      "loss": 0.4139,
      "step": 35420
    },
    {
      "epoch": 47.24,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002995985360515534,
      "loss": 0.4,
      "step": 35430
    },
    {
      "epoch": 47.25333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029959830624702913,
      "loss": 0.4017,
      "step": 35440
    },
    {
      "epoch": 47.266666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002995980763768399,
      "loss": 0.4021,
      "step": 35450
    },
    {
      "epoch": 47.28,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029959784644098596,
      "loss": 0.4329,
      "step": 35460
    },
    {
      "epoch": 47.29333333333334,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002995976164394672,
      "loss": 0.3891,
      "step": 35470
    },
    {
      "epoch": 47.306666666666665,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029959738637228386,
      "loss": 0.4119,
      "step": 35480
    },
    {
      "epoch": 47.32,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002995971562394359,
      "loss": 0.4126,
      "step": 35490
    },
    {
      "epoch": 47.333333333333336,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002995969260409236,
      "loss": 0.4185,
      "step": 35500
    },
    {
      "epoch": 47.346666666666664,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000299596695776747,
      "loss": 0.4085,
      "step": 35510
    },
    {
      "epoch": 47.36,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995964654469061,
      "loss": 0.4105,
      "step": 35520
    },
    {
      "epoch": 47.373333333333335,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029959623505140115,
      "loss": 0.4096,
      "step": 35530
    },
    {
      "epoch": 47.38666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995960045902321,
      "loss": 0.4028,
      "step": 35540
    },
    {
      "epoch": 47.4,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029959577406339926,
      "loss": 0.4093,
      "step": 35550
    },
    {
      "epoch": 47.413333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029959554347090244,
      "loss": 0.4144,
      "step": 35560
    },
    {
      "epoch": 47.42666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299595312812742,
      "loss": 0.4148,
      "step": 35570
    },
    {
      "epoch": 47.44,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995950820889179,
      "loss": 0.4261,
      "step": 35580
    },
    {
      "epoch": 47.45333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029959485129943034,
      "loss": 0.4169,
      "step": 35590
    },
    {
      "epoch": 47.46666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002995946204442793,
      "loss": 0.4259,
      "step": 35600
    },
    {
      "epoch": 47.48,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000299594389523465,
      "loss": 0.4065,
      "step": 35610
    },
    {
      "epoch": 47.49333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002995941585369875,
      "loss": 0.4179,
      "step": 35620
    },
    {
      "epoch": 47.50666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002995939274848469,
      "loss": 0.4152,
      "step": 35630
    },
    {
      "epoch": 47.52,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029959369636704326,
      "loss": 0.4047,
      "step": 35640
    },
    {
      "epoch": 47.53333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002995934651835767,
      "loss": 0.4087,
      "step": 35650
    },
    {
      "epoch": 47.54666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029959323393444735,
      "loss": 0.4116,
      "step": 35660
    },
    {
      "epoch": 47.56,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002995930026196553,
      "loss": 0.4052,
      "step": 35670
    },
    {
      "epoch": 47.57333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029959277123920065,
      "loss": 0.4097,
      "step": 35680
    },
    {
      "epoch": 47.586666666666666,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002995925397930835,
      "loss": 0.3977,
      "step": 35690
    },
    {
      "epoch": 47.6,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002995923082813039,
      "loss": 0.3991,
      "step": 35700
    },
    {
      "epoch": 47.61333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029959207670386207,
      "loss": 0.3868,
      "step": 35710
    },
    {
      "epoch": 47.626666666666665,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029959184506075806,
      "loss": 0.3925,
      "step": 35720
    },
    {
      "epoch": 47.64,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995916133519919,
      "loss": 0.4069,
      "step": 35730
    },
    {
      "epoch": 47.653333333333336,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029959138157756375,
      "loss": 0.4172,
      "step": 35740
    },
    {
      "epoch": 47.666666666666664,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029959114973747376,
      "loss": 0.4021,
      "step": 35750
    },
    {
      "epoch": 47.68,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000299590917831722,
      "loss": 0.3952,
      "step": 35760
    },
    {
      "epoch": 47.693333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029959068586030846,
      "loss": 0.4031,
      "step": 35770
    },
    {
      "epoch": 47.70666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002995904538232334,
      "loss": 0.3979,
      "step": 35780
    },
    {
      "epoch": 47.72,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029959022172049686,
      "loss": 0.4202,
      "step": 35790
    },
    {
      "epoch": 47.733333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029958998955209885,
      "loss": 0.4143,
      "step": 35800
    },
    {
      "epoch": 47.74666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029958975731803967,
      "loss": 0.4162,
      "step": 35810
    },
    {
      "epoch": 47.76,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002995895250183193,
      "loss": 0.428,
      "step": 35820
    },
    {
      "epoch": 47.77333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002995892926529378,
      "loss": 0.4176,
      "step": 35830
    },
    {
      "epoch": 47.78666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029958906022189535,
      "loss": 0.4165,
      "step": 35840
    },
    {
      "epoch": 47.8,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029958882772519204,
      "loss": 0.4151,
      "step": 35850
    },
    {
      "epoch": 47.81333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000299588595162828,
      "loss": 0.388,
      "step": 35860
    },
    {
      "epoch": 47.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002995883625348032,
      "loss": 0.4007,
      "step": 35870
    },
    {
      "epoch": 47.84,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002995881298411179,
      "loss": 0.4108,
      "step": 35880
    },
    {
      "epoch": 47.85333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002995878970817721,
      "loss": 0.4075,
      "step": 35890
    },
    {
      "epoch": 47.86666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000299587664256766,
      "loss": 0.4102,
      "step": 35900
    },
    {
      "epoch": 47.88,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029958743136609955,
      "loss": 0.3895,
      "step": 35910
    },
    {
      "epoch": 47.89333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029958719840977307,
      "loss": 0.4013,
      "step": 35920
    },
    {
      "epoch": 47.906666666666666,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029958696538778644,
      "loss": 0.4092,
      "step": 35930
    },
    {
      "epoch": 47.92,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029958673230013987,
      "loss": 0.4109,
      "step": 35940
    },
    {
      "epoch": 47.93333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029958649914683347,
      "loss": 0.4037,
      "step": 35950
    },
    {
      "epoch": 47.946666666666665,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995862659278673,
      "loss": 0.4047,
      "step": 35960
    },
    {
      "epoch": 47.96,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002995860326432415,
      "loss": 0.4021,
      "step": 35970
    },
    {
      "epoch": 47.973333333333336,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029958579929295615,
      "loss": 0.4284,
      "step": 35980
    },
    {
      "epoch": 47.986666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002995855658770114,
      "loss": 0.4036,
      "step": 35990
    },
    {
      "epoch": 48.0,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029958533239540726,
      "loss": 0.396,
      "step": 36000
    },
    {
      "epoch": 48.0,
      "eval_loss": 0.43318748474121094,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6114,
      "eval_samples_per_second": 1.665,
      "eval_steps_per_second": 0.104,
      "step": 36000
    },
    {
      "epoch": 48.013333333333335,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995850988481439,
      "loss": 0.4147,
      "step": 36010
    },
    {
      "epoch": 48.026666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029958486523522145,
      "loss": 0.4265,
      "step": 36020
    },
    {
      "epoch": 48.04,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002995846315566399,
      "loss": 0.4382,
      "step": 36030
    },
    {
      "epoch": 48.053333333333335,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002995843978123995,
      "loss": 0.4252,
      "step": 36040
    },
    {
      "epoch": 48.06666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995841640025002,
      "loss": 0.4132,
      "step": 36050
    },
    {
      "epoch": 48.08,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029958393012694223,
      "loss": 0.4159,
      "step": 36060
    },
    {
      "epoch": 48.093333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002995836961857256,
      "loss": 0.4167,
      "step": 36070
    },
    {
      "epoch": 48.10666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029958346217885055,
      "loss": 0.4049,
      "step": 36080
    },
    {
      "epoch": 48.12,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299583228106317,
      "loss": 0.4112,
      "step": 36090
    },
    {
      "epoch": 48.13333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029958299396812515,
      "loss": 0.4023,
      "step": 36100
    },
    {
      "epoch": 48.14666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995827597642751,
      "loss": 0.4215,
      "step": 36110
    },
    {
      "epoch": 48.16,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029958252549476696,
      "loss": 0.4139,
      "step": 36120
    },
    {
      "epoch": 48.17333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002995822911596008,
      "loss": 0.4075,
      "step": 36130
    },
    {
      "epoch": 48.18666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002995820567587767,
      "loss": 0.4078,
      "step": 36140
    },
    {
      "epoch": 48.2,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029958182229229485,
      "loss": 0.4008,
      "step": 36150
    },
    {
      "epoch": 48.21333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002995815877601553,
      "loss": 0.4018,
      "step": 36160
    },
    {
      "epoch": 48.22666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995813531623581,
      "loss": 0.4139,
      "step": 36170
    },
    {
      "epoch": 48.24,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002995811184989035,
      "loss": 0.3984,
      "step": 36180
    },
    {
      "epoch": 48.25333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995808837697915,
      "loss": 0.4,
      "step": 36190
    },
    {
      "epoch": 48.266666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002995806489750222,
      "loss": 0.4027,
      "step": 36200
    },
    {
      "epoch": 48.28,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002995804141145957,
      "loss": 0.4329,
      "step": 36210
    },
    {
      "epoch": 48.29333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002995801791885122,
      "loss": 0.3882,
      "step": 36220
    },
    {
      "epoch": 48.306666666666665,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029957994419677167,
      "loss": 0.4109,
      "step": 36230
    },
    {
      "epoch": 48.32,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029957970913937424,
      "loss": 0.412,
      "step": 36240
    },
    {
      "epoch": 48.333333333333336,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002995794740163201,
      "loss": 0.4182,
      "step": 36250
    },
    {
      "epoch": 48.346666666666664,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995792388276093,
      "loss": 0.4088,
      "step": 36260
    },
    {
      "epoch": 48.36,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029957900357324187,
      "loss": 0.4101,
      "step": 36270
    },
    {
      "epoch": 48.373333333333335,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029957876825321804,
      "loss": 0.409,
      "step": 36280
    },
    {
      "epoch": 48.38666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029957853286753785,
      "loss": 0.4021,
      "step": 36290
    },
    {
      "epoch": 48.4,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995782974162014,
      "loss": 0.4098,
      "step": 36300
    },
    {
      "epoch": 48.413333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029957806189920885,
      "loss": 0.4141,
      "step": 36310
    },
    {
      "epoch": 48.42666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002995778263165602,
      "loss": 0.4155,
      "step": 36320
    },
    {
      "epoch": 48.44,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002995775906682556,
      "loss": 0.4267,
      "step": 36330
    },
    {
      "epoch": 48.45333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002995773549542952,
      "loss": 0.4161,
      "step": 36340
    },
    {
      "epoch": 48.46666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029957711917467906,
      "loss": 0.4248,
      "step": 36350
    },
    {
      "epoch": 48.48,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002995768833294073,
      "loss": 0.4058,
      "step": 36360
    },
    {
      "epoch": 48.49333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029957664741847996,
      "loss": 0.4178,
      "step": 36370
    },
    {
      "epoch": 48.50666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029957641144189723,
      "loss": 0.4139,
      "step": 36380
    },
    {
      "epoch": 48.52,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029957617539965917,
      "loss": 0.4047,
      "step": 36390
    },
    {
      "epoch": 48.53333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029957593929176595,
      "loss": 0.4082,
      "step": 36400
    },
    {
      "epoch": 48.54666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029957570311821757,
      "loss": 0.41,
      "step": 36410
    },
    {
      "epoch": 48.56,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002995754668790142,
      "loss": 0.4043,
      "step": 36420
    },
    {
      "epoch": 48.57333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002995752305741559,
      "loss": 0.4073,
      "step": 36430
    },
    {
      "epoch": 48.586666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029957499420364285,
      "loss": 0.3969,
      "step": 36440
    },
    {
      "epoch": 48.6,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029957475776747506,
      "loss": 0.3983,
      "step": 36450
    },
    {
      "epoch": 48.61333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002995745212656527,
      "loss": 0.3869,
      "step": 36460
    },
    {
      "epoch": 48.626666666666665,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029957428469817583,
      "loss": 0.3916,
      "step": 36470
    },
    {
      "epoch": 48.64,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002995740480650446,
      "loss": 0.4053,
      "step": 36480
    },
    {
      "epoch": 48.653333333333336,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995738113662591,
      "loss": 0.4157,
      "step": 36490
    },
    {
      "epoch": 48.666666666666664,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995735746018194,
      "loss": 0.4015,
      "step": 36500
    },
    {
      "epoch": 48.68,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002995733377717256,
      "loss": 0.3946,
      "step": 36510
    },
    {
      "epoch": 48.693333333333335,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029957310087597785,
      "loss": 0.4031,
      "step": 36520
    },
    {
      "epoch": 48.70666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002995728639145762,
      "loss": 0.3976,
      "step": 36530
    },
    {
      "epoch": 48.72,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029957262688752085,
      "loss": 0.4206,
      "step": 36540
    },
    {
      "epoch": 48.733333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029957238979481184,
      "loss": 0.4137,
      "step": 36550
    },
    {
      "epoch": 48.74666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002995721526364492,
      "loss": 0.4146,
      "step": 36560
    },
    {
      "epoch": 48.76,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029957191541243324,
      "loss": 0.4269,
      "step": 36570
    },
    {
      "epoch": 48.77333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029957167812276383,
      "loss": 0.4167,
      "step": 36580
    },
    {
      "epoch": 48.78666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002995714407674412,
      "loss": 0.4166,
      "step": 36590
    },
    {
      "epoch": 48.8,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002995712033464654,
      "loss": 0.4154,
      "step": 36600
    },
    {
      "epoch": 48.81333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029957096585983664,
      "loss": 0.3888,
      "step": 36610
    },
    {
      "epoch": 48.82666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000299570728307555,
      "loss": 0.4007,
      "step": 36620
    },
    {
      "epoch": 48.84,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029957049068962037,
      "loss": 0.4104,
      "step": 36630
    },
    {
      "epoch": 48.85333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029957025300603315,
      "loss": 0.4061,
      "step": 36640
    },
    {
      "epoch": 48.86666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029957001525679326,
      "loss": 0.4106,
      "step": 36650
    },
    {
      "epoch": 48.88,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029956977744190086,
      "loss": 0.3897,
      "step": 36660
    },
    {
      "epoch": 48.89333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029956953956135606,
      "loss": 0.3995,
      "step": 36670
    },
    {
      "epoch": 48.906666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002995693016151589,
      "loss": 0.4089,
      "step": 36680
    },
    {
      "epoch": 48.92,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029956906360330965,
      "loss": 0.4105,
      "step": 36690
    },
    {
      "epoch": 48.93333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029956882552580825,
      "loss": 0.4038,
      "step": 36700
    },
    {
      "epoch": 48.946666666666665,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029956858738265483,
      "loss": 0.4048,
      "step": 36710
    },
    {
      "epoch": 48.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002995683491738496,
      "loss": 0.403,
      "step": 36720
    },
    {
      "epoch": 48.973333333333336,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029956811089939254,
      "loss": 0.4277,
      "step": 36730
    },
    {
      "epoch": 48.986666666666665,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002995678725592838,
      "loss": 0.4037,
      "step": 36740
    },
    {
      "epoch": 49.0,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029956763415352357,
      "loss": 0.3963,
      "step": 36750
    },
    {
      "epoch": 49.0,
      "eval_loss": 0.4348917007446289,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.657,
      "eval_samples_per_second": 1.657,
      "eval_steps_per_second": 0.104,
      "step": 36750
    },
    {
      "epoch": 49.013333333333335,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995673956821118,
      "loss": 0.4149,
      "step": 36760
    },
    {
      "epoch": 49.026666666666664,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995671571450487,
      "loss": 0.4263,
      "step": 36770
    },
    {
      "epoch": 49.04,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002995669185423343,
      "loss": 0.4385,
      "step": 36780
    },
    {
      "epoch": 49.053333333333335,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002995666798739688,
      "loss": 0.4239,
      "step": 36790
    },
    {
      "epoch": 49.06666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002995664411399522,
      "loss": 0.412,
      "step": 36800
    },
    {
      "epoch": 49.08,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029956620234028463,
      "loss": 0.4152,
      "step": 36810
    },
    {
      "epoch": 49.093333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995659634749663,
      "loss": 0.4169,
      "step": 36820
    },
    {
      "epoch": 49.10666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029956572454399724,
      "loss": 0.4043,
      "step": 36830
    },
    {
      "epoch": 49.12,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002995654855473775,
      "loss": 0.4105,
      "step": 36840
    },
    {
      "epoch": 49.13333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029956524648510724,
      "loss": 0.4023,
      "step": 36850
    },
    {
      "epoch": 49.14666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002995650073571866,
      "loss": 0.4213,
      "step": 36860
    },
    {
      "epoch": 49.16,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002995647681636156,
      "loss": 0.4142,
      "step": 36870
    },
    {
      "epoch": 49.17333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029956452890439445,
      "loss": 0.4077,
      "step": 36880
    },
    {
      "epoch": 49.18666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029956428957952317,
      "loss": 0.4069,
      "step": 36890
    },
    {
      "epoch": 49.2,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029956405018900193,
      "loss": 0.4006,
      "step": 36900
    },
    {
      "epoch": 49.21333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029956381073283073,
      "loss": 0.4012,
      "step": 36910
    },
    {
      "epoch": 49.22666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002995635712110098,
      "loss": 0.4136,
      "step": 36920
    },
    {
      "epoch": 49.24,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029956333162353915,
      "loss": 0.3978,
      "step": 36930
    },
    {
      "epoch": 49.25333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029956309197041894,
      "loss": 0.4012,
      "step": 36940
    },
    {
      "epoch": 49.266666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002995628522516492,
      "loss": 0.4021,
      "step": 36950
    },
    {
      "epoch": 49.28,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029956261246723016,
      "loss": 0.4325,
      "step": 36960
    },
    {
      "epoch": 49.29333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002995623726171618,
      "loss": 0.3885,
      "step": 36970
    },
    {
      "epoch": 49.306666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029956213270144436,
      "loss": 0.4109,
      "step": 36980
    },
    {
      "epoch": 49.32,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002995618927200778,
      "loss": 0.4127,
      "step": 36990
    },
    {
      "epoch": 49.333333333333336,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029956165267306235,
      "loss": 0.4188,
      "step": 37000
    },
    {
      "epoch": 49.346666666666664,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000299561412560398,
      "loss": 0.4081,
      "step": 37010
    },
    {
      "epoch": 49.36,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029956117238208495,
      "loss": 0.4103,
      "step": 37020
    },
    {
      "epoch": 49.373333333333335,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002995609321381233,
      "loss": 0.4087,
      "step": 37030
    },
    {
      "epoch": 49.38666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002995606918285131,
      "loss": 0.4029,
      "step": 37040
    },
    {
      "epoch": 49.4,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002995604514532545,
      "loss": 0.4096,
      "step": 37050
    },
    {
      "epoch": 49.413333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002995602110123475,
      "loss": 0.4141,
      "step": 37060
    },
    {
      "epoch": 49.42666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029955997050579234,
      "loss": 0.4146,
      "step": 37070
    },
    {
      "epoch": 49.44,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002995597299335891,
      "loss": 0.4259,
      "step": 37080
    },
    {
      "epoch": 49.45333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002995594892957379,
      "loss": 0.4159,
      "step": 37090
    },
    {
      "epoch": 49.46666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995592485922387,
      "loss": 0.4237,
      "step": 37100
    },
    {
      "epoch": 49.48,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002995590078230918,
      "loss": 0.4059,
      "step": 37110
    },
    {
      "epoch": 49.49333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002995587669882972,
      "loss": 0.4167,
      "step": 37120
    },
    {
      "epoch": 49.50666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029955852608785504,
      "loss": 0.4135,
      "step": 37130
    },
    {
      "epoch": 49.52,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002995582851217654,
      "loss": 0.405,
      "step": 37140
    },
    {
      "epoch": 49.53333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029955804409002835,
      "loss": 0.4078,
      "step": 37150
    },
    {
      "epoch": 49.54666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002995578029926441,
      "loss": 0.4108,
      "step": 37160
    },
    {
      "epoch": 49.56,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002995575618296127,
      "loss": 0.4049,
      "step": 37170
    },
    {
      "epoch": 49.57333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029955732060093425,
      "loss": 0.4075,
      "step": 37180
    },
    {
      "epoch": 49.586666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029955707930660885,
      "loss": 0.3971,
      "step": 37190
    },
    {
      "epoch": 49.6,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002995568379466366,
      "loss": 0.3982,
      "step": 37200
    },
    {
      "epoch": 49.61333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029955659652101767,
      "loss": 0.386,
      "step": 37210
    },
    {
      "epoch": 49.626666666666665,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029955635502975205,
      "loss": 0.3916,
      "step": 37220
    },
    {
      "epoch": 49.64,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029955611347284,
      "loss": 0.406,
      "step": 37230
    },
    {
      "epoch": 49.653333333333336,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002995558718502815,
      "loss": 0.4156,
      "step": 37240
    },
    {
      "epoch": 49.666666666666664,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029955563016207667,
      "loss": 0.4004,
      "step": 37250
    },
    {
      "epoch": 49.68,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002995553884082256,
      "loss": 0.3945,
      "step": 37260
    },
    {
      "epoch": 49.693333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029955514658872853,
      "loss": 0.4028,
      "step": 37270
    },
    {
      "epoch": 49.70666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995549047035855,
      "loss": 0.3962,
      "step": 37280
    },
    {
      "epoch": 49.72,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029955466275279654,
      "loss": 0.4187,
      "step": 37290
    },
    {
      "epoch": 49.733333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002995544207363618,
      "loss": 0.4125,
      "step": 37300
    },
    {
      "epoch": 49.74666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002995541786542814,
      "loss": 0.4144,
      "step": 37310
    },
    {
      "epoch": 49.76,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029955393650655545,
      "loss": 0.4284,
      "step": 37320
    },
    {
      "epoch": 49.77333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029955369429318407,
      "loss": 0.4156,
      "step": 37330
    },
    {
      "epoch": 49.78666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002995534520141673,
      "loss": 0.4159,
      "step": 37340
    },
    {
      "epoch": 49.8,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029955320966950527,
      "loss": 0.4143,
      "step": 37350
    },
    {
      "epoch": 49.81333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029955296725919816,
      "loss": 0.3886,
      "step": 37360
    },
    {
      "epoch": 49.82666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000299552724783246,
      "loss": 0.3992,
      "step": 37370
    },
    {
      "epoch": 49.84,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029955248224164887,
      "loss": 0.4094,
      "step": 37380
    },
    {
      "epoch": 49.85333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000299552239634407,
      "loss": 0.4064,
      "step": 37390
    },
    {
      "epoch": 49.86666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029955199696152034,
      "loss": 0.4093,
      "step": 37400
    },
    {
      "epoch": 49.88,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029955175422298914,
      "loss": 0.3894,
      "step": 37410
    },
    {
      "epoch": 49.89333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029955151141881345,
      "loss": 0.4002,
      "step": 37420
    },
    {
      "epoch": 49.906666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002995512685489934,
      "loss": 0.4089,
      "step": 37430
    },
    {
      "epoch": 49.92,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000299551025613529,
      "loss": 0.4113,
      "step": 37440
    },
    {
      "epoch": 49.93333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029955078261242044,
      "loss": 0.4034,
      "step": 37450
    },
    {
      "epoch": 49.946666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029955053954566784,
      "loss": 0.4041,
      "step": 37460
    },
    {
      "epoch": 49.96,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002995502964132712,
      "loss": 0.4009,
      "step": 37470
    },
    {
      "epoch": 49.973333333333336,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029955005321523077,
      "loss": 0.4266,
      "step": 37480
    },
    {
      "epoch": 49.986666666666665,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029954980995154656,
      "loss": 0.4032,
      "step": 37490
    },
    {
      "epoch": 50.0,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029954956662221874,
      "loss": 0.3959,
      "step": 37500
    },
    {
      "epoch": 50.0,
      "eval_loss": 0.43659400939941406,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8203,
      "eval_samples_per_second": 1.629,
      "eval_steps_per_second": 0.102,
      "step": 37500
    },
    {
      "epoch": 50.013333333333335,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002995493232272474,
      "loss": 0.4156,
      "step": 37510
    },
    {
      "epoch": 50.026666666666664,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029954907976663256,
      "loss": 0.426,
      "step": 37520
    },
    {
      "epoch": 50.04,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002995488362403745,
      "loss": 0.4374,
      "step": 37530
    },
    {
      "epoch": 50.053333333333335,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002995485926484731,
      "loss": 0.4244,
      "step": 37540
    },
    {
      "epoch": 50.06666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002995483489909287,
      "loss": 0.4123,
      "step": 37550
    },
    {
      "epoch": 50.08,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029954810526774126,
      "loss": 0.4153,
      "step": 37560
    },
    {
      "epoch": 50.093333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029954786147891094,
      "loss": 0.4165,
      "step": 37570
    },
    {
      "epoch": 50.10666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002995476176244378,
      "loss": 0.404,
      "step": 37580
    },
    {
      "epoch": 50.12,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000299547373704322,
      "loss": 0.4103,
      "step": 37590
    },
    {
      "epoch": 50.13333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029954712971856363,
      "loss": 0.4016,
      "step": 37600
    },
    {
      "epoch": 50.14666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029954688566716275,
      "loss": 0.4195,
      "step": 37610
    },
    {
      "epoch": 50.16,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029954664155011954,
      "loss": 0.4127,
      "step": 37620
    },
    {
      "epoch": 50.17333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002995463973674341,
      "loss": 0.4072,
      "step": 37630
    },
    {
      "epoch": 50.18666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002995461531191065,
      "loss": 0.4073,
      "step": 37640
    },
    {
      "epoch": 50.2,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029954590880513685,
      "loss": 0.3997,
      "step": 37650
    },
    {
      "epoch": 50.21333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002995456644255253,
      "loss": 0.3999,
      "step": 37660
    },
    {
      "epoch": 50.22666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029954541998027193,
      "loss": 0.4129,
      "step": 37670
    },
    {
      "epoch": 50.24,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029954517546937684,
      "loss": 0.3983,
      "step": 37680
    },
    {
      "epoch": 50.25333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995449308928401,
      "loss": 0.3998,
      "step": 37690
    },
    {
      "epoch": 50.266666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995446862506619,
      "loss": 0.4016,
      "step": 37700
    },
    {
      "epoch": 50.28,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002995444415428423,
      "loss": 0.4321,
      "step": 37710
    },
    {
      "epoch": 50.29333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002995441967693814,
      "loss": 0.3883,
      "step": 37720
    },
    {
      "epoch": 50.306666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029954395193027933,
      "loss": 0.4104,
      "step": 37730
    },
    {
      "epoch": 50.32,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029954370702553614,
      "loss": 0.4119,
      "step": 37740
    },
    {
      "epoch": 50.333333333333336,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029954346205515205,
      "loss": 0.4174,
      "step": 37750
    },
    {
      "epoch": 50.346666666666664,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002995432170191271,
      "loss": 0.4077,
      "step": 37760
    },
    {
      "epoch": 50.36,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002995429719174614,
      "loss": 0.4089,
      "step": 37770
    },
    {
      "epoch": 50.373333333333335,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029954272675015504,
      "loss": 0.4077,
      "step": 37780
    },
    {
      "epoch": 50.38666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029954248151720813,
      "loss": 0.4026,
      "step": 37790
    },
    {
      "epoch": 50.4,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995422362186208,
      "loss": 0.4086,
      "step": 37800
    },
    {
      "epoch": 50.413333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029954199085439323,
      "loss": 0.4135,
      "step": 37810
    },
    {
      "epoch": 50.42666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995417454245254,
      "loss": 0.4149,
      "step": 37820
    },
    {
      "epoch": 50.44,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029954149992901747,
      "loss": 0.4258,
      "step": 37830
    },
    {
      "epoch": 50.45333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029954125436786955,
      "loss": 0.4152,
      "step": 37840
    },
    {
      "epoch": 50.46666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002995410087410817,
      "loss": 0.4248,
      "step": 37850
    },
    {
      "epoch": 50.48,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002995407630486541,
      "loss": 0.4055,
      "step": 37860
    },
    {
      "epoch": 50.49333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002995405172905868,
      "loss": 0.4175,
      "step": 37870
    },
    {
      "epoch": 50.50666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029954027146688,
      "loss": 0.4135,
      "step": 37880
    },
    {
      "epoch": 50.52,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029954002557753374,
      "loss": 0.4043,
      "step": 37890
    },
    {
      "epoch": 50.53333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002995397796225481,
      "loss": 0.4073,
      "step": 37900
    },
    {
      "epoch": 50.54666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002995395336019232,
      "loss": 0.4096,
      "step": 37910
    },
    {
      "epoch": 50.56,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029953928751565916,
      "loss": 0.404,
      "step": 37920
    },
    {
      "epoch": 50.57333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029953904136375615,
      "loss": 0.4087,
      "step": 37930
    },
    {
      "epoch": 50.586666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002995387951462142,
      "loss": 0.3964,
      "step": 37940
    },
    {
      "epoch": 50.6,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029953854886303344,
      "loss": 0.3976,
      "step": 37950
    },
    {
      "epoch": 50.61333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029953830251421395,
      "loss": 0.3856,
      "step": 37960
    },
    {
      "epoch": 50.626666666666665,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00029953805609975593,
      "loss": 0.3911,
      "step": 37970
    },
    {
      "epoch": 50.64,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002995378096196594,
      "loss": 0.4055,
      "step": 37980
    },
    {
      "epoch": 50.653333333333336,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002995375630739245,
      "loss": 0.417,
      "step": 37990
    },
    {
      "epoch": 50.666666666666664,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002995373164625513,
      "loss": 0.4,
      "step": 38000
    },
    {
      "epoch": 50.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029953706978554,
      "loss": 0.3941,
      "step": 38010
    },
    {
      "epoch": 50.693333333333335,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002995368230428906,
      "loss": 0.4025,
      "step": 38020
    },
    {
      "epoch": 50.70666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002995365762346033,
      "loss": 0.3963,
      "step": 38030
    },
    {
      "epoch": 50.72,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029953632936067815,
      "loss": 0.4187,
      "step": 38040
    },
    {
      "epoch": 50.733333333333334,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002995360824211153,
      "loss": 0.413,
      "step": 38050
    },
    {
      "epoch": 50.74666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029953583541591475,
      "loss": 0.414,
      "step": 38060
    },
    {
      "epoch": 50.76,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029953558834507673,
      "loss": 0.4274,
      "step": 38070
    },
    {
      "epoch": 50.77333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002995353412086014,
      "loss": 0.4148,
      "step": 38080
    },
    {
      "epoch": 50.78666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029953509400648865,
      "loss": 0.4152,
      "step": 38090
    },
    {
      "epoch": 50.8,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029953484673873876,
      "loss": 0.4147,
      "step": 38100
    },
    {
      "epoch": 50.81333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995345994053518,
      "loss": 0.3881,
      "step": 38110
    },
    {
      "epoch": 50.82666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029953435200632785,
      "loss": 0.3977,
      "step": 38120
    },
    {
      "epoch": 50.84,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002995341045416671,
      "loss": 0.4091,
      "step": 38130
    },
    {
      "epoch": 50.85333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002995338570113696,
      "loss": 0.4062,
      "step": 38140
    },
    {
      "epoch": 50.86666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995336094154354,
      "loss": 0.4092,
      "step": 38150
    },
    {
      "epoch": 50.88,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002995333617538647,
      "loss": 0.388,
      "step": 38160
    },
    {
      "epoch": 50.89333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002995331140266576,
      "loss": 0.3996,
      "step": 38170
    },
    {
      "epoch": 50.906666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995328662338142,
      "loss": 0.4081,
      "step": 38180
    },
    {
      "epoch": 50.92,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029953261837533453,
      "loss": 0.4095,
      "step": 38190
    },
    {
      "epoch": 50.93333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029953237045121883,
      "loss": 0.402,
      "step": 38200
    },
    {
      "epoch": 50.946666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029953212246146705,
      "loss": 0.4048,
      "step": 38210
    },
    {
      "epoch": 50.96,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029953187440607946,
      "loss": 0.3999,
      "step": 38220
    },
    {
      "epoch": 50.973333333333336,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002995316262850561,
      "loss": 0.4263,
      "step": 38230
    },
    {
      "epoch": 50.986666666666665,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029953137809839706,
      "loss": 0.402,
      "step": 38240
    },
    {
      "epoch": 51.0,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029953112984610253,
      "loss": 0.3954,
      "step": 38250
    },
    {
      "epoch": 51.0,
      "eval_loss": 0.4338240921497345,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.649,
      "eval_samples_per_second": 1.658,
      "eval_steps_per_second": 0.104,
      "step": 38250
    },
    {
      "epoch": 51.013333333333335,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029953088152817245,
      "loss": 0.4152,
      "step": 38260
    },
    {
      "epoch": 51.026666666666664,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002995306331446071,
      "loss": 0.4259,
      "step": 38270
    },
    {
      "epoch": 51.04,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002995303846954065,
      "loss": 0.4374,
      "step": 38280
    },
    {
      "epoch": 51.053333333333335,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029953013618057083,
      "loss": 0.4235,
      "step": 38290
    },
    {
      "epoch": 51.06666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002995298876001001,
      "loss": 0.4112,
      "step": 38300
    },
    {
      "epoch": 51.08,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002995296389539945,
      "loss": 0.4148,
      "step": 38310
    },
    {
      "epoch": 51.093333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002995293902422541,
      "loss": 0.4158,
      "step": 38320
    },
    {
      "epoch": 51.10666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000299529141464879,
      "loss": 0.403,
      "step": 38330
    },
    {
      "epoch": 51.12,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029952889262186935,
      "loss": 0.4102,
      "step": 38340
    },
    {
      "epoch": 51.13333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029952864371322527,
      "loss": 0.4012,
      "step": 38350
    },
    {
      "epoch": 51.14666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002995283947389468,
      "loss": 0.4197,
      "step": 38360
    },
    {
      "epoch": 51.16,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029952814569903413,
      "loss": 0.4127,
      "step": 38370
    },
    {
      "epoch": 51.17333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002995278965934873,
      "loss": 0.4064,
      "step": 38380
    },
    {
      "epoch": 51.18666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002995276474223064,
      "loss": 0.4059,
      "step": 38390
    },
    {
      "epoch": 51.2,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029952739818549164,
      "loss": 0.3999,
      "step": 38400
    },
    {
      "epoch": 51.21333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002995271488830431,
      "loss": 0.4011,
      "step": 38410
    },
    {
      "epoch": 51.22666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002995268995149608,
      "loss": 0.4136,
      "step": 38420
    },
    {
      "epoch": 51.24,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029952665008124496,
      "loss": 0.3972,
      "step": 38430
    },
    {
      "epoch": 51.25333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029952640058189566,
      "loss": 0.4002,
      "step": 38440
    },
    {
      "epoch": 51.266666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029952615101691294,
      "loss": 0.4018,
      "step": 38450
    },
    {
      "epoch": 51.28,
      "grad_norm": 0.375,
      "learning_rate": 0.000299525901386297,
      "loss": 0.4321,
      "step": 38460
    },
    {
      "epoch": 51.29333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002995256516900479,
      "loss": 0.3873,
      "step": 38470
    },
    {
      "epoch": 51.306666666666665,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00029952540192816575,
      "loss": 0.4101,
      "step": 38480
    },
    {
      "epoch": 51.32,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002995251521006507,
      "loss": 0.4121,
      "step": 38490
    },
    {
      "epoch": 51.333333333333336,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002995249022075028,
      "loss": 0.4173,
      "step": 38500
    },
    {
      "epoch": 51.346666666666664,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029952465224872217,
      "loss": 0.408,
      "step": 38510
    },
    {
      "epoch": 51.36,
      "grad_norm": 0.375,
      "learning_rate": 0.000299524402224309,
      "loss": 0.4089,
      "step": 38520
    },
    {
      "epoch": 51.373333333333335,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002995241521342633,
      "loss": 0.4076,
      "step": 38530
    },
    {
      "epoch": 51.38666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002995239019785852,
      "loss": 0.4021,
      "step": 38540
    },
    {
      "epoch": 51.4,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002995236517572749,
      "loss": 0.4084,
      "step": 38550
    },
    {
      "epoch": 51.413333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995234014703324,
      "loss": 0.4126,
      "step": 38560
    },
    {
      "epoch": 51.42666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029952315111775785,
      "loss": 0.4138,
      "step": 38570
    },
    {
      "epoch": 51.44,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029952290069955133,
      "loss": 0.425,
      "step": 38580
    },
    {
      "epoch": 51.45333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029952265021571307,
      "loss": 0.4155,
      "step": 38590
    },
    {
      "epoch": 51.46666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029952239966624295,
      "loss": 0.4231,
      "step": 38600
    },
    {
      "epoch": 51.48,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995221490511413,
      "loss": 0.4043,
      "step": 38610
    },
    {
      "epoch": 51.49333333333333,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029952189837040814,
      "loss": 0.4164,
      "step": 38620
    },
    {
      "epoch": 51.50666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002995216476240436,
      "loss": 0.4135,
      "step": 38630
    },
    {
      "epoch": 51.52,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029952139681204776,
      "loss": 0.4039,
      "step": 38640
    },
    {
      "epoch": 51.53333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002995211459344208,
      "loss": 0.4072,
      "step": 38650
    },
    {
      "epoch": 51.54666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029952089499116273,
      "loss": 0.41,
      "step": 38660
    },
    {
      "epoch": 51.56,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002995206439822737,
      "loss": 0.4042,
      "step": 38670
    },
    {
      "epoch": 51.57333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002995203929077539,
      "loss": 0.406,
      "step": 38680
    },
    {
      "epoch": 51.586666666666666,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002995201417676033,
      "loss": 0.3959,
      "step": 38690
    },
    {
      "epoch": 51.6,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002995198905618221,
      "loss": 0.3978,
      "step": 38700
    },
    {
      "epoch": 51.61333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995196392904104,
      "loss": 0.3865,
      "step": 38710
    },
    {
      "epoch": 51.626666666666665,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0002995193879533683,
      "loss": 0.3911,
      "step": 38720
    },
    {
      "epoch": 51.64,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002995191365506959,
      "loss": 0.4055,
      "step": 38730
    },
    {
      "epoch": 51.653333333333336,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002995188850823933,
      "loss": 0.4155,
      "step": 38740
    },
    {
      "epoch": 51.666666666666664,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002995186335484607,
      "loss": 0.4001,
      "step": 38750
    },
    {
      "epoch": 51.68,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002995183819488981,
      "loss": 0.3935,
      "step": 38760
    },
    {
      "epoch": 51.693333333333335,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002995181302837056,
      "loss": 0.4021,
      "step": 38770
    },
    {
      "epoch": 51.70666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029951787855288345,
      "loss": 0.396,
      "step": 38780
    },
    {
      "epoch": 51.72,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029951762675643165,
      "loss": 0.4192,
      "step": 38790
    },
    {
      "epoch": 51.733333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029951737489435033,
      "loss": 0.4124,
      "step": 38800
    },
    {
      "epoch": 51.74666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002995171229666396,
      "loss": 0.4146,
      "step": 38810
    },
    {
      "epoch": 51.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002995168709732996,
      "loss": 0.4264,
      "step": 38820
    },
    {
      "epoch": 51.77333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029951661891433037,
      "loss": 0.4149,
      "step": 38830
    },
    {
      "epoch": 51.78666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002995163667897321,
      "loss": 0.4149,
      "step": 38840
    },
    {
      "epoch": 51.8,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995161145995048,
      "loss": 0.4141,
      "step": 38850
    },
    {
      "epoch": 51.81333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002995158623436487,
      "loss": 0.3873,
      "step": 38860
    },
    {
      "epoch": 51.82666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002995156100221639,
      "loss": 0.3989,
      "step": 38870
    },
    {
      "epoch": 51.84,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029951535763505046,
      "loss": 0.409,
      "step": 38880
    },
    {
      "epoch": 51.85333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002995151051823085,
      "loss": 0.4058,
      "step": 38890
    },
    {
      "epoch": 51.86666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029951485266393806,
      "loss": 0.4081,
      "step": 38900
    },
    {
      "epoch": 51.88,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029951460007993937,
      "loss": 0.3882,
      "step": 38910
    },
    {
      "epoch": 51.89333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029951434743031246,
      "loss": 0.3994,
      "step": 38920
    },
    {
      "epoch": 51.906666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029951409471505754,
      "loss": 0.4077,
      "step": 38930
    },
    {
      "epoch": 51.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029951384193417456,
      "loss": 0.4102,
      "step": 38940
    },
    {
      "epoch": 51.93333333333333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002995135890876638,
      "loss": 0.4019,
      "step": 38950
    },
    {
      "epoch": 51.946666666666665,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029951333617552525,
      "loss": 0.4037,
      "step": 38960
    },
    {
      "epoch": 51.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002995130831977591,
      "loss": 0.4,
      "step": 38970
    },
    {
      "epoch": 51.973333333333336,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029951283015436543,
      "loss": 0.4272,
      "step": 38980
    },
    {
      "epoch": 51.986666666666665,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029951257704534433,
      "loss": 0.402,
      "step": 38990
    },
    {
      "epoch": 52.0,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000299512323870696,
      "loss": 0.3957,
      "step": 39000
    },
    {
      "epoch": 52.0,
      "eval_loss": 0.4338739514350891,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6922,
      "eval_samples_per_second": 1.651,
      "eval_steps_per_second": 0.103,
      "step": 39000
    },
    {
      "epoch": 52.013333333333335,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029951207063042045,
      "loss": 0.4131,
      "step": 39010
    },
    {
      "epoch": 52.026666666666664,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029951181732451777,
      "loss": 0.4257,
      "step": 39020
    },
    {
      "epoch": 52.04,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002995115639529881,
      "loss": 0.4368,
      "step": 39030
    },
    {
      "epoch": 52.053333333333335,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029951131051583166,
      "loss": 0.4235,
      "step": 39040
    },
    {
      "epoch": 52.06666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029951105701304844,
      "loss": 0.4118,
      "step": 39050
    },
    {
      "epoch": 52.08,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002995108034446386,
      "loss": 0.4138,
      "step": 39060
    },
    {
      "epoch": 52.093333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002995105498106022,
      "loss": 0.4161,
      "step": 39070
    },
    {
      "epoch": 52.10666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029951029611093944,
      "loss": 0.403,
      "step": 39080
    },
    {
      "epoch": 52.12,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002995100423456503,
      "loss": 0.4099,
      "step": 39090
    },
    {
      "epoch": 52.13333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002995097885147351,
      "loss": 0.4011,
      "step": 39100
    },
    {
      "epoch": 52.14666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002995095346181938,
      "loss": 0.4184,
      "step": 39110
    },
    {
      "epoch": 52.16,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029950928065602646,
      "loss": 0.4123,
      "step": 39120
    },
    {
      "epoch": 52.17333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002995090266282333,
      "loss": 0.4072,
      "step": 39130
    },
    {
      "epoch": 52.18666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002995087725348144,
      "loss": 0.4064,
      "step": 39140
    },
    {
      "epoch": 52.2,
      "grad_norm": 0.375,
      "learning_rate": 0.0002995085183757699,
      "loss": 0.3993,
      "step": 39150
    },
    {
      "epoch": 52.21333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029950826415109984,
      "loss": 0.4001,
      "step": 39160
    },
    {
      "epoch": 52.22666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029950800986080437,
      "loss": 0.4126,
      "step": 39170
    },
    {
      "epoch": 52.24,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029950775550488366,
      "loss": 0.3974,
      "step": 39180
    },
    {
      "epoch": 52.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002995075010833377,
      "loss": 0.3995,
      "step": 39190
    },
    {
      "epoch": 52.266666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029950724659616674,
      "loss": 0.4002,
      "step": 39200
    },
    {
      "epoch": 52.28,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002995069920433708,
      "loss": 0.4302,
      "step": 39210
    },
    {
      "epoch": 52.29333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029950673742495,
      "loss": 0.3871,
      "step": 39220
    },
    {
      "epoch": 52.306666666666665,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029950648274090444,
      "loss": 0.4091,
      "step": 39230
    },
    {
      "epoch": 52.32,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029950622799123424,
      "loss": 0.4118,
      "step": 39240
    },
    {
      "epoch": 52.333333333333336,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029950597317593956,
      "loss": 0.4172,
      "step": 39250
    },
    {
      "epoch": 52.346666666666664,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002995057182950205,
      "loss": 0.4077,
      "step": 39260
    },
    {
      "epoch": 52.36,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029950546334847714,
      "loss": 0.4072,
      "step": 39270
    },
    {
      "epoch": 52.373333333333335,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002995052083363096,
      "loss": 0.4076,
      "step": 39280
    },
    {
      "epoch": 52.38666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000299504953258518,
      "loss": 0.4011,
      "step": 39290
    },
    {
      "epoch": 52.4,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002995046981151024,
      "loss": 0.4078,
      "step": 39300
    },
    {
      "epoch": 52.413333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029950444290606303,
      "loss": 0.4117,
      "step": 39310
    },
    {
      "epoch": 52.42666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029950418763139986,
      "loss": 0.4142,
      "step": 39320
    },
    {
      "epoch": 52.44,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029950393229111313,
      "loss": 0.4238,
      "step": 39330
    },
    {
      "epoch": 52.45333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002995036768852029,
      "loss": 0.4146,
      "step": 39340
    },
    {
      "epoch": 52.46666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029950342141366927,
      "loss": 0.4242,
      "step": 39350
    },
    {
      "epoch": 52.48,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002995031658765123,
      "loss": 0.4043,
      "step": 39360
    },
    {
      "epoch": 52.49333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029950291027373225,
      "loss": 0.416,
      "step": 39370
    },
    {
      "epoch": 52.50666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002995026546053291,
      "loss": 0.413,
      "step": 39380
    },
    {
      "epoch": 52.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000299502398871303,
      "loss": 0.4044,
      "step": 39390
    },
    {
      "epoch": 52.53333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029950214307165407,
      "loss": 0.4068,
      "step": 39400
    },
    {
      "epoch": 52.54666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002995018872063824,
      "loss": 0.4093,
      "step": 39410
    },
    {
      "epoch": 52.56,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0002995016312754882,
      "loss": 0.4038,
      "step": 39420
    },
    {
      "epoch": 52.57333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002995013752789714,
      "loss": 0.4069,
      "step": 39430
    },
    {
      "epoch": 52.586666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002995011192168323,
      "loss": 0.395,
      "step": 39440
    },
    {
      "epoch": 52.6,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029950086308907093,
      "loss": 0.3972,
      "step": 39450
    },
    {
      "epoch": 52.61333333333333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002995006068956873,
      "loss": 0.386,
      "step": 39460
    },
    {
      "epoch": 52.626666666666665,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002995003506366817,
      "loss": 0.3911,
      "step": 39470
    },
    {
      "epoch": 52.64,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002995000943120542,
      "loss": 0.4057,
      "step": 39480
    },
    {
      "epoch": 52.653333333333336,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002994998379218048,
      "loss": 0.4154,
      "step": 39490
    },
    {
      "epoch": 52.666666666666664,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002994995814659338,
      "loss": 0.3997,
      "step": 39500
    },
    {
      "epoch": 52.68,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002994993249444411,
      "loss": 0.3933,
      "step": 39510
    },
    {
      "epoch": 52.693333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000299499068357327,
      "loss": 0.4018,
      "step": 39520
    },
    {
      "epoch": 52.70666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002994988117045915,
      "loss": 0.3957,
      "step": 39530
    },
    {
      "epoch": 52.72,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029949855498623474,
      "loss": 0.4179,
      "step": 39540
    },
    {
      "epoch": 52.733333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002994982982022568,
      "loss": 0.4119,
      "step": 39550
    },
    {
      "epoch": 52.74666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029949804135265783,
      "loss": 0.4131,
      "step": 39560
    },
    {
      "epoch": 52.76,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000299497784437438,
      "loss": 0.4265,
      "step": 39570
    },
    {
      "epoch": 52.77333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029949752745659736,
      "loss": 0.4147,
      "step": 39580
    },
    {
      "epoch": 52.78666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000299497270410136,
      "loss": 0.4144,
      "step": 39590
    },
    {
      "epoch": 52.8,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029949701329805403,
      "loss": 0.4139,
      "step": 39600
    },
    {
      "epoch": 52.81333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002994967561203516,
      "loss": 0.3869,
      "step": 39610
    },
    {
      "epoch": 52.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029949649887702883,
      "loss": 0.3979,
      "step": 39620
    },
    {
      "epoch": 52.84,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029949624156808585,
      "loss": 0.4102,
      "step": 39630
    },
    {
      "epoch": 52.85333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029949598419352273,
      "loss": 0.4046,
      "step": 39640
    },
    {
      "epoch": 52.86666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002994957267533396,
      "loss": 0.4092,
      "step": 39650
    },
    {
      "epoch": 52.88,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002994954692475365,
      "loss": 0.3881,
      "step": 39660
    },
    {
      "epoch": 52.89333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029949521167611364,
      "loss": 0.3989,
      "step": 39670
    },
    {
      "epoch": 52.906666666666666,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029949495403907114,
      "loss": 0.4076,
      "step": 39680
    },
    {
      "epoch": 52.92,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002994946963364091,
      "loss": 0.4108,
      "step": 39690
    },
    {
      "epoch": 52.93333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029949443856812754,
      "loss": 0.4025,
      "step": 39700
    },
    {
      "epoch": 52.946666666666665,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029949418073422666,
      "loss": 0.4036,
      "step": 39710
    },
    {
      "epoch": 52.96,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029949392283470656,
      "loss": 0.4,
      "step": 39720
    },
    {
      "epoch": 52.973333333333336,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029949366486956735,
      "loss": 0.4269,
      "step": 39730
    },
    {
      "epoch": 52.986666666666665,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002994934068388092,
      "loss": 0.401,
      "step": 39740
    },
    {
      "epoch": 53.0,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029949314874243207,
      "loss": 0.3946,
      "step": 39750
    },
    {
      "epoch": 53.0,
      "eval_loss": 0.4362297058105469,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2206,
      "eval_samples_per_second": 1.565,
      "eval_steps_per_second": 0.098,
      "step": 39750
    },
    {
      "epoch": 53.013333333333335,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029949289058043616,
      "loss": 0.4133,
      "step": 39760
    },
    {
      "epoch": 53.026666666666664,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002994926323528217,
      "loss": 0.4248,
      "step": 39770
    },
    {
      "epoch": 53.04,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029949237405958864,
      "loss": 0.4365,
      "step": 39780
    },
    {
      "epoch": 53.053333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002994921157007371,
      "loss": 0.4228,
      "step": 39790
    },
    {
      "epoch": 53.06666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029949185727626726,
      "loss": 0.4107,
      "step": 39800
    },
    {
      "epoch": 53.08,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029949159878617926,
      "loss": 0.4135,
      "step": 39810
    },
    {
      "epoch": 53.093333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029949134023047317,
      "loss": 0.4148,
      "step": 39820
    },
    {
      "epoch": 53.10666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029949108160914905,
      "loss": 0.4036,
      "step": 39830
    },
    {
      "epoch": 53.12,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002994908229222071,
      "loss": 0.409,
      "step": 39840
    },
    {
      "epoch": 53.13333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029949056416964743,
      "loss": 0.4,
      "step": 39850
    },
    {
      "epoch": 53.14666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002994903053514701,
      "loss": 0.42,
      "step": 39860
    },
    {
      "epoch": 53.16,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002994900464676752,
      "loss": 0.4116,
      "step": 39870
    },
    {
      "epoch": 53.17333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029948978751826295,
      "loss": 0.4054,
      "step": 39880
    },
    {
      "epoch": 53.18666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002994895285032334,
      "loss": 0.4056,
      "step": 39890
    },
    {
      "epoch": 53.2,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002994892694225867,
      "loss": 0.3994,
      "step": 39900
    },
    {
      "epoch": 53.21333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002994890102763228,
      "loss": 0.3999,
      "step": 39910
    },
    {
      "epoch": 53.22666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002994887510644421,
      "loss": 0.412,
      "step": 39920
    },
    {
      "epoch": 53.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029948849178694444,
      "loss": 0.3969,
      "step": 39930
    },
    {
      "epoch": 53.25333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029948823244383007,
      "loss": 0.3987,
      "step": 39940
    },
    {
      "epoch": 53.266666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029948797303509914,
      "loss": 0.4009,
      "step": 39950
    },
    {
      "epoch": 53.28,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002994877135607517,
      "loss": 0.4325,
      "step": 39960
    },
    {
      "epoch": 53.29333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029948745402078784,
      "loss": 0.3869,
      "step": 39970
    },
    {
      "epoch": 53.306666666666665,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029948719441520776,
      "loss": 0.409,
      "step": 39980
    },
    {
      "epoch": 53.32,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002994869347440115,
      "loss": 0.411,
      "step": 39990
    },
    {
      "epoch": 53.333333333333336,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029948667500719913,
      "loss": 0.4163,
      "step": 40000
    },
    {
      "epoch": 53.346666666666664,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002994864152047709,
      "loss": 0.4071,
      "step": 40010
    },
    {
      "epoch": 53.36,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029948615533672684,
      "loss": 0.4085,
      "step": 40020
    },
    {
      "epoch": 53.373333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029948589540306706,
      "loss": 0.4077,
      "step": 40030
    },
    {
      "epoch": 53.38666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002994856354037917,
      "loss": 0.4006,
      "step": 40040
    },
    {
      "epoch": 53.4,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994853753389009,
      "loss": 0.4071,
      "step": 40050
    },
    {
      "epoch": 53.413333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029948511520839474,
      "loss": 0.4108,
      "step": 40060
    },
    {
      "epoch": 53.42666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002994848550122733,
      "loss": 0.4136,
      "step": 40070
    },
    {
      "epoch": 53.44,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002994845947505367,
      "loss": 0.4247,
      "step": 40080
    },
    {
      "epoch": 53.45333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029948433442318514,
      "loss": 0.4133,
      "step": 40090
    },
    {
      "epoch": 53.46666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002994840740302187,
      "loss": 0.424,
      "step": 40100
    },
    {
      "epoch": 53.48,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029948381357163743,
      "loss": 0.4039,
      "step": 40110
    },
    {
      "epoch": 53.49333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029948355304744147,
      "loss": 0.4165,
      "step": 40120
    },
    {
      "epoch": 53.50666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000299483292457631,
      "loss": 0.4132,
      "step": 40130
    },
    {
      "epoch": 53.52,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029948303180220607,
      "loss": 0.4035,
      "step": 40140
    },
    {
      "epoch": 53.53333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029948277108116675,
      "loss": 0.4061,
      "step": 40150
    },
    {
      "epoch": 53.54666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002994825102945133,
      "loss": 0.4077,
      "step": 40160
    },
    {
      "epoch": 53.56,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002994822494422457,
      "loss": 0.4028,
      "step": 40170
    },
    {
      "epoch": 53.57333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029948198852436413,
      "loss": 0.4066,
      "step": 40180
    },
    {
      "epoch": 53.586666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029948172754086863,
      "loss": 0.3944,
      "step": 40190
    },
    {
      "epoch": 53.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029948146649175943,
      "loss": 0.3967,
      "step": 40200
    },
    {
      "epoch": 53.61333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002994812053770366,
      "loss": 0.3851,
      "step": 40210
    },
    {
      "epoch": 53.626666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029948094419670024,
      "loss": 0.3908,
      "step": 40220
    },
    {
      "epoch": 53.64,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029948068295075045,
      "loss": 0.4039,
      "step": 40230
    },
    {
      "epoch": 53.653333333333336,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029948042163918735,
      "loss": 0.4149,
      "step": 40240
    },
    {
      "epoch": 53.666666666666664,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029948016026201104,
      "loss": 0.4001,
      "step": 40250
    },
    {
      "epoch": 53.68,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002994798988192217,
      "loss": 0.3921,
      "step": 40260
    },
    {
      "epoch": 53.693333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994796373108194,
      "loss": 0.4017,
      "step": 40270
    },
    {
      "epoch": 53.70666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002994793757368042,
      "loss": 0.3965,
      "step": 40280
    },
    {
      "epoch": 53.72,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002994791140971764,
      "loss": 0.4188,
      "step": 40290
    },
    {
      "epoch": 53.733333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002994788523919359,
      "loss": 0.4116,
      "step": 40300
    },
    {
      "epoch": 53.74666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994785906210829,
      "loss": 0.4126,
      "step": 40310
    },
    {
      "epoch": 53.76,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029947832878461753,
      "loss": 0.4268,
      "step": 40320
    },
    {
      "epoch": 53.77333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002994780668825399,
      "loss": 0.4139,
      "step": 40330
    },
    {
      "epoch": 53.78666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029947780491485014,
      "loss": 0.4146,
      "step": 40340
    },
    {
      "epoch": 53.8,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029947754288154834,
      "loss": 0.4134,
      "step": 40350
    },
    {
      "epoch": 53.81333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002994772807826346,
      "loss": 0.3868,
      "step": 40360
    },
    {
      "epoch": 53.82666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029947701861810904,
      "loss": 0.3977,
      "step": 40370
    },
    {
      "epoch": 53.84,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002994767563879718,
      "loss": 0.4091,
      "step": 40380
    },
    {
      "epoch": 53.85333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000299476494092223,
      "loss": 0.4044,
      "step": 40390
    },
    {
      "epoch": 53.86666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002994762317308627,
      "loss": 0.4075,
      "step": 40400
    },
    {
      "epoch": 53.88,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002994759693038911,
      "loss": 0.3867,
      "step": 40410
    },
    {
      "epoch": 53.89333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029947570681130827,
      "loss": 0.399,
      "step": 40420
    },
    {
      "epoch": 53.906666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994754442531143,
      "loss": 0.4072,
      "step": 40430
    },
    {
      "epoch": 53.92,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002994751816293093,
      "loss": 0.4094,
      "step": 40440
    },
    {
      "epoch": 53.93333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002994749189398935,
      "loss": 0.4,
      "step": 40450
    },
    {
      "epoch": 53.946666666666665,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029947465618486685,
      "loss": 0.4023,
      "step": 40460
    },
    {
      "epoch": 53.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002994743933642296,
      "loss": 0.4001,
      "step": 40470
    },
    {
      "epoch": 53.973333333333336,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002994741304779818,
      "loss": 0.4259,
      "step": 40480
    },
    {
      "epoch": 53.986666666666665,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029947386752612355,
      "loss": 0.401,
      "step": 40490
    },
    {
      "epoch": 54.0,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000299473604508655,
      "loss": 0.3942,
      "step": 40500
    },
    {
      "epoch": 54.0,
      "eval_loss": 0.4341832399368286,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7299,
      "eval_samples_per_second": 1.644,
      "eval_steps_per_second": 0.103,
      "step": 40500
    },
    {
      "epoch": 54.013333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029947334142557626,
      "loss": 0.4142,
      "step": 40510
    },
    {
      "epoch": 54.026666666666664,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002994730782768875,
      "loss": 0.4248,
      "step": 40520
    },
    {
      "epoch": 54.04,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994728150625887,
      "loss": 0.4369,
      "step": 40530
    },
    {
      "epoch": 54.053333333333335,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029947255178268005,
      "loss": 0.4232,
      "step": 40540
    },
    {
      "epoch": 54.06666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029947228843716175,
      "loss": 0.4105,
      "step": 40550
    },
    {
      "epoch": 54.08,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029947202502603377,
      "loss": 0.4156,
      "step": 40560
    },
    {
      "epoch": 54.093333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994717615492963,
      "loss": 0.4157,
      "step": 40570
    },
    {
      "epoch": 54.10666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002994714980069495,
      "loss": 0.4027,
      "step": 40580
    },
    {
      "epoch": 54.12,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002994712343989933,
      "loss": 0.4087,
      "step": 40590
    },
    {
      "epoch": 54.13333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994709707254281,
      "loss": 0.3999,
      "step": 40600
    },
    {
      "epoch": 54.14666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029947070698625375,
      "loss": 0.4187,
      "step": 40610
    },
    {
      "epoch": 54.16,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0002994704431814705,
      "loss": 0.4113,
      "step": 40620
    },
    {
      "epoch": 54.17333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002994701793110785,
      "loss": 0.4066,
      "step": 40630
    },
    {
      "epoch": 54.18666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002994699153750778,
      "loss": 0.4055,
      "step": 40640
    },
    {
      "epoch": 54.2,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029946965137346847,
      "loss": 0.3988,
      "step": 40650
    },
    {
      "epoch": 54.21333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002994693873062507,
      "loss": 0.399,
      "step": 40660
    },
    {
      "epoch": 54.22666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002994691231734246,
      "loss": 0.4118,
      "step": 40670
    },
    {
      "epoch": 54.24,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002994688589749903,
      "loss": 0.3953,
      "step": 40680
    },
    {
      "epoch": 54.25333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002994685947109479,
      "loss": 0.3988,
      "step": 40690
    },
    {
      "epoch": 54.266666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029946833038129746,
      "loss": 0.4003,
      "step": 40700
    },
    {
      "epoch": 54.28,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029946806598603917,
      "loss": 0.4312,
      "step": 40710
    },
    {
      "epoch": 54.29333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002994678015251731,
      "loss": 0.3865,
      "step": 40720
    },
    {
      "epoch": 54.306666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002994675369986994,
      "loss": 0.4095,
      "step": 40730
    },
    {
      "epoch": 54.32,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002994672724066182,
      "loss": 0.4099,
      "step": 40740
    },
    {
      "epoch": 54.333333333333336,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994670077489295,
      "loss": 0.4164,
      "step": 40750
    },
    {
      "epoch": 54.346666666666664,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994667430256336,
      "loss": 0.4063,
      "step": 40760
    },
    {
      "epoch": 54.36,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029946647823673046,
      "loss": 0.4068,
      "step": 40770
    },
    {
      "epoch": 54.373333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994662133822203,
      "loss": 0.4071,
      "step": 40780
    },
    {
      "epoch": 54.38666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029946594846210313,
      "loss": 0.4007,
      "step": 40790
    },
    {
      "epoch": 54.4,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002994656834763792,
      "loss": 0.4074,
      "step": 40800
    },
    {
      "epoch": 54.413333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029946541842504847,
      "loss": 0.4111,
      "step": 40810
    },
    {
      "epoch": 54.42666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002994651533081112,
      "loss": 0.4134,
      "step": 40820
    },
    {
      "epoch": 54.44,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029946488812556744,
      "loss": 0.4233,
      "step": 40830
    },
    {
      "epoch": 54.45333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002994646228774173,
      "loss": 0.414,
      "step": 40840
    },
    {
      "epoch": 54.46666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994643575636609,
      "loss": 0.4227,
      "step": 40850
    },
    {
      "epoch": 54.48,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994640921842984,
      "loss": 0.4031,
      "step": 40860
    },
    {
      "epoch": 54.49333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029946382673932986,
      "loss": 0.4156,
      "step": 40870
    },
    {
      "epoch": 54.50666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994635612287554,
      "loss": 0.4121,
      "step": 40880
    },
    {
      "epoch": 54.52,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029946329565257515,
      "loss": 0.4035,
      "step": 40890
    },
    {
      "epoch": 54.53333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002994630300107893,
      "loss": 0.4059,
      "step": 40900
    },
    {
      "epoch": 54.54666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002994627643033979,
      "loss": 0.4071,
      "step": 40910
    },
    {
      "epoch": 54.56,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029946249853040095,
      "loss": 0.4015,
      "step": 40920
    },
    {
      "epoch": 54.57333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002994622326917988,
      "loss": 0.406,
      "step": 40930
    },
    {
      "epoch": 54.586666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994619667875914,
      "loss": 0.3942,
      "step": 40940
    },
    {
      "epoch": 54.6,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002994617008177789,
      "loss": 0.396,
      "step": 40950
    },
    {
      "epoch": 54.61333333333333,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002994614347823615,
      "loss": 0.3849,
      "step": 40960
    },
    {
      "epoch": 54.626666666666665,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002994611686813392,
      "loss": 0.3904,
      "step": 40970
    },
    {
      "epoch": 54.64,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029946090251471214,
      "loss": 0.4039,
      "step": 40980
    },
    {
      "epoch": 54.653333333333336,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994606362824805,
      "loss": 0.4135,
      "step": 40990
    },
    {
      "epoch": 54.666666666666664,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029946036998464436,
      "loss": 0.3997,
      "step": 41000
    },
    {
      "epoch": 54.68,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029946010362120383,
      "loss": 0.3922,
      "step": 41010
    },
    {
      "epoch": 54.693333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029945983719215904,
      "loss": 0.4015,
      "step": 41020
    },
    {
      "epoch": 54.70666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029945957069751005,
      "loss": 0.3951,
      "step": 41030
    },
    {
      "epoch": 54.72,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029945930413725707,
      "loss": 0.419,
      "step": 41040
    },
    {
      "epoch": 54.733333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002994590375114002,
      "loss": 0.4109,
      "step": 41050
    },
    {
      "epoch": 54.74666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002994587708199395,
      "loss": 0.413,
      "step": 41060
    },
    {
      "epoch": 54.76,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002994585040628751,
      "loss": 0.4254,
      "step": 41070
    },
    {
      "epoch": 54.77333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029945823724020714,
      "loss": 0.4144,
      "step": 41080
    },
    {
      "epoch": 54.78666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029945797035193584,
      "loss": 0.4137,
      "step": 41090
    },
    {
      "epoch": 54.8,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994577033980611,
      "loss": 0.4132,
      "step": 41100
    },
    {
      "epoch": 54.81333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029945743637858316,
      "loss": 0.3855,
      "step": 41110
    },
    {
      "epoch": 54.82666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002994571692935021,
      "loss": 0.3971,
      "step": 41120
    },
    {
      "epoch": 54.84,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002994569021428181,
      "loss": 0.4088,
      "step": 41130
    },
    {
      "epoch": 54.85333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029945663492653125,
      "loss": 0.4039,
      "step": 41140
    },
    {
      "epoch": 54.86666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029945636764464165,
      "loss": 0.4078,
      "step": 41150
    },
    {
      "epoch": 54.88,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994561002971494,
      "loss": 0.3862,
      "step": 41160
    },
    {
      "epoch": 54.89333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029945583288405465,
      "loss": 0.3983,
      "step": 41170
    },
    {
      "epoch": 54.906666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029945556540535753,
      "loss": 0.4066,
      "step": 41180
    },
    {
      "epoch": 54.92,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994552978610581,
      "loss": 0.4084,
      "step": 41190
    },
    {
      "epoch": 54.93333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029945503025115657,
      "loss": 0.4012,
      "step": 41200
    },
    {
      "epoch": 54.946666666666665,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029945476257565296,
      "loss": 0.4029,
      "step": 41210
    },
    {
      "epoch": 54.96,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994544948345474,
      "loss": 0.4008,
      "step": 41220
    },
    {
      "epoch": 54.973333333333336,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029945422702784005,
      "loss": 0.426,
      "step": 41230
    },
    {
      "epoch": 54.986666666666665,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002994539591555311,
      "loss": 0.4019,
      "step": 41240
    },
    {
      "epoch": 55.0,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029945369121762045,
      "loss": 0.3944,
      "step": 41250
    },
    {
      "epoch": 55.0,
      "eval_loss": 0.43345198035240173,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9771,
      "eval_samples_per_second": 1.604,
      "eval_steps_per_second": 0.1,
      "step": 41250
    },
    {
      "epoch": 55.013333333333335,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029945342321410843,
      "loss": 0.4139,
      "step": 41260
    },
    {
      "epoch": 55.026666666666664,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029945315514499503,
      "loss": 0.4246,
      "step": 41270
    },
    {
      "epoch": 55.04,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029945288701028046,
      "loss": 0.4368,
      "step": 41280
    },
    {
      "epoch": 55.053333333333335,
      "grad_norm": 0.375,
      "learning_rate": 0.00029945261880996477,
      "loss": 0.4229,
      "step": 41290
    },
    {
      "epoch": 55.06666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002994523505440481,
      "loss": 0.4109,
      "step": 41300
    },
    {
      "epoch": 55.08,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002994520822125306,
      "loss": 0.4141,
      "step": 41310
    },
    {
      "epoch": 55.093333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029945181381541225,
      "loss": 0.4143,
      "step": 41320
    },
    {
      "epoch": 55.10666666666667,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029945154535269335,
      "loss": 0.4025,
      "step": 41330
    },
    {
      "epoch": 55.12,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002994512768243739,
      "loss": 0.4079,
      "step": 41340
    },
    {
      "epoch": 55.13333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002994510082304541,
      "loss": 0.4004,
      "step": 41350
    },
    {
      "epoch": 55.14666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029945073957093405,
      "loss": 0.4182,
      "step": 41360
    },
    {
      "epoch": 55.16,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029945047084581377,
      "loss": 0.4116,
      "step": 41370
    },
    {
      "epoch": 55.17333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002994502020550935,
      "loss": 0.406,
      "step": 41380
    },
    {
      "epoch": 55.18666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002994499331987733,
      "loss": 0.4056,
      "step": 41390
    },
    {
      "epoch": 55.2,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002994496642768533,
      "loss": 0.3982,
      "step": 41400
    },
    {
      "epoch": 55.21333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002994493952893336,
      "loss": 0.3983,
      "step": 41410
    },
    {
      "epoch": 55.22666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002994491262362144,
      "loss": 0.4106,
      "step": 41420
    },
    {
      "epoch": 55.24,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029944885711749564,
      "loss": 0.3948,
      "step": 41430
    },
    {
      "epoch": 55.25333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029944858793317763,
      "loss": 0.3992,
      "step": 41440
    },
    {
      "epoch": 55.266666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029944831868326035,
      "loss": 0.4012,
      "step": 41450
    },
    {
      "epoch": 55.28,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029944804936774406,
      "loss": 0.4307,
      "step": 41460
    },
    {
      "epoch": 55.29333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002994477799866287,
      "loss": 0.3865,
      "step": 41470
    },
    {
      "epoch": 55.306666666666665,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029944751053991454,
      "loss": 0.4094,
      "step": 41480
    },
    {
      "epoch": 55.32,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0002994472410276016,
      "loss": 0.4101,
      "step": 41490
    },
    {
      "epoch": 55.333333333333336,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994469714496901,
      "loss": 0.4157,
      "step": 41500
    },
    {
      "epoch": 55.346666666666664,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002994467018061801,
      "loss": 0.4056,
      "step": 41510
    },
    {
      "epoch": 55.36,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029944643209707164,
      "loss": 0.4067,
      "step": 41520
    },
    {
      "epoch": 55.373333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000299446162322365,
      "loss": 0.4061,
      "step": 41530
    },
    {
      "epoch": 55.38666666666666,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00029944589248206017,
      "loss": 0.3995,
      "step": 41540
    },
    {
      "epoch": 55.4,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002994456225761573,
      "loss": 0.4076,
      "step": 41550
    },
    {
      "epoch": 55.413333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029944535260465654,
      "loss": 0.411,
      "step": 41560
    },
    {
      "epoch": 55.42666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000299445082567558,
      "loss": 0.4124,
      "step": 41570
    },
    {
      "epoch": 55.44,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002994448124648617,
      "loss": 0.4235,
      "step": 41580
    },
    {
      "epoch": 55.45333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029944454229656795,
      "loss": 0.4128,
      "step": 41590
    },
    {
      "epoch": 55.46666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002994442720626767,
      "loss": 0.422,
      "step": 41600
    },
    {
      "epoch": 55.48,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002994440017631882,
      "loss": 0.4032,
      "step": 41610
    },
    {
      "epoch": 55.49333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002994437313981025,
      "loss": 0.415,
      "step": 41620
    },
    {
      "epoch": 55.50666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002994434609674196,
      "loss": 0.4129,
      "step": 41630
    },
    {
      "epoch": 55.52,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002994431904711398,
      "loss": 0.4032,
      "step": 41640
    },
    {
      "epoch": 55.53333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002994429199092632,
      "loss": 0.4061,
      "step": 41650
    },
    {
      "epoch": 55.54666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029944264928178987,
      "loss": 0.4086,
      "step": 41660
    },
    {
      "epoch": 55.56,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002994423785887199,
      "loss": 0.4016,
      "step": 41670
    },
    {
      "epoch": 55.57333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029944210783005345,
      "loss": 0.4056,
      "step": 41680
    },
    {
      "epoch": 55.586666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002994418370057907,
      "loss": 0.3936,
      "step": 41690
    },
    {
      "epoch": 55.6,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029944156611593165,
      "loss": 0.3959,
      "step": 41700
    },
    {
      "epoch": 55.61333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002994412951604764,
      "loss": 0.3852,
      "step": 41710
    },
    {
      "epoch": 55.626666666666665,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002994410241394252,
      "loss": 0.3894,
      "step": 41720
    },
    {
      "epoch": 55.64,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029944075305277817,
      "loss": 0.403,
      "step": 41730
    },
    {
      "epoch": 55.653333333333336,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002994404819005353,
      "loss": 0.4139,
      "step": 41740
    },
    {
      "epoch": 55.666666666666664,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002994402106826968,
      "loss": 0.3995,
      "step": 41750
    },
    {
      "epoch": 55.68,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029943993939926273,
      "loss": 0.3923,
      "step": 41760
    },
    {
      "epoch": 55.693333333333335,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002994396680502333,
      "loss": 0.4005,
      "step": 41770
    },
    {
      "epoch": 55.70666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002994393966356085,
      "loss": 0.395,
      "step": 41780
    },
    {
      "epoch": 55.72,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002994391251553886,
      "loss": 0.4167,
      "step": 41790
    },
    {
      "epoch": 55.733333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029943885360957356,
      "loss": 0.411,
      "step": 41800
    },
    {
      "epoch": 55.74666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029943858199816365,
      "loss": 0.4128,
      "step": 41810
    },
    {
      "epoch": 55.76,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994383103211589,
      "loss": 0.4254,
      "step": 41820
    },
    {
      "epoch": 55.77333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002994380385785594,
      "loss": 0.4141,
      "step": 41830
    },
    {
      "epoch": 55.78666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002994377667703654,
      "loss": 0.4128,
      "step": 41840
    },
    {
      "epoch": 55.8,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029943749489657695,
      "loss": 0.4121,
      "step": 41850
    },
    {
      "epoch": 55.81333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029943722295719405,
      "loss": 0.3851,
      "step": 41860
    },
    {
      "epoch": 55.82666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299436950952217,
      "loss": 0.3968,
      "step": 41870
    },
    {
      "epoch": 55.84,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002994366788816458,
      "loss": 0.4081,
      "step": 41880
    },
    {
      "epoch": 55.85333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002994364067454807,
      "loss": 0.4039,
      "step": 41890
    },
    {
      "epoch": 55.86666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002994361345437217,
      "loss": 0.4072,
      "step": 41900
    },
    {
      "epoch": 55.88,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029943586227636893,
      "loss": 0.3861,
      "step": 41910
    },
    {
      "epoch": 55.89333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029943558994342253,
      "loss": 0.3985,
      "step": 41920
    },
    {
      "epoch": 55.906666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029943531754488266,
      "loss": 0.4075,
      "step": 41930
    },
    {
      "epoch": 55.92,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002994350450807493,
      "loss": 0.4084,
      "step": 41940
    },
    {
      "epoch": 55.93333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029943477255102284,
      "loss": 0.4019,
      "step": 41950
    },
    {
      "epoch": 55.946666666666665,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994344999557031,
      "loss": 0.4025,
      "step": 41960
    },
    {
      "epoch": 55.96,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029943422729479036,
      "loss": 0.3986,
      "step": 41970
    },
    {
      "epoch": 55.973333333333336,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029943395456828476,
      "loss": 0.4257,
      "step": 41980
    },
    {
      "epoch": 55.986666666666665,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029943368177618633,
      "loss": 0.4007,
      "step": 41990
    },
    {
      "epoch": 56.0,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029943340891849525,
      "loss": 0.395,
      "step": 42000
    },
    {
      "epoch": 56.0,
      "eval_loss": 0.43282973766326904,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.4527,
      "eval_samples_per_second": 1.693,
      "eval_steps_per_second": 0.106,
      "step": 42000
    },
    {
      "epoch": 56.013333333333335,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002994331359952116,
      "loss": 0.4131,
      "step": 42010
    },
    {
      "epoch": 56.026666666666664,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029943286300633553,
      "loss": 0.4243,
      "step": 42020
    },
    {
      "epoch": 56.04,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002994325899518671,
      "loss": 0.4355,
      "step": 42030
    },
    {
      "epoch": 56.053333333333335,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994323168318066,
      "loss": 0.4227,
      "step": 42040
    },
    {
      "epoch": 56.06666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029943204364615394,
      "loss": 0.4104,
      "step": 42050
    },
    {
      "epoch": 56.08,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002994317703949094,
      "loss": 0.4144,
      "step": 42060
    },
    {
      "epoch": 56.093333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029943149707807294,
      "loss": 0.4148,
      "step": 42070
    },
    {
      "epoch": 56.10666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002994312236956448,
      "loss": 0.4014,
      "step": 42080
    },
    {
      "epoch": 56.12,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002994309502476251,
      "loss": 0.4081,
      "step": 42090
    },
    {
      "epoch": 56.13333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029943067673401393,
      "loss": 0.3993,
      "step": 42100
    },
    {
      "epoch": 56.14666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029943040315481134,
      "loss": 0.418,
      "step": 42110
    },
    {
      "epoch": 56.16,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002994301295100176,
      "loss": 0.4114,
      "step": 42120
    },
    {
      "epoch": 56.17333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029942985579963275,
      "loss": 0.4053,
      "step": 42130
    },
    {
      "epoch": 56.18666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994295820236569,
      "loss": 0.4053,
      "step": 42140
    },
    {
      "epoch": 56.2,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994293081820901,
      "loss": 0.3975,
      "step": 42150
    },
    {
      "epoch": 56.21333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029942903427493265,
      "loss": 0.3983,
      "step": 42160
    },
    {
      "epoch": 56.22666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029942876030218457,
      "loss": 0.4115,
      "step": 42170
    },
    {
      "epoch": 56.24,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029942848626384594,
      "loss": 0.3958,
      "step": 42180
    },
    {
      "epoch": 56.25333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029942821215991693,
      "loss": 0.3985,
      "step": 42190
    },
    {
      "epoch": 56.266666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029942793799039765,
      "loss": 0.3996,
      "step": 42200
    },
    {
      "epoch": 56.28,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994276637552882,
      "loss": 0.4301,
      "step": 42210
    },
    {
      "epoch": 56.29333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029942738945458875,
      "loss": 0.3861,
      "step": 42220
    },
    {
      "epoch": 56.306666666666665,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994271150882994,
      "loss": 0.4089,
      "step": 42230
    },
    {
      "epoch": 56.32,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002994268406564203,
      "loss": 0.4102,
      "step": 42240
    },
    {
      "epoch": 56.333333333333336,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029942656615895147,
      "loss": 0.4161,
      "step": 42250
    },
    {
      "epoch": 56.346666666666664,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002994262915958931,
      "loss": 0.406,
      "step": 42260
    },
    {
      "epoch": 56.36,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002994260169672453,
      "loss": 0.4059,
      "step": 42270
    },
    {
      "epoch": 56.373333333333335,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002994257422730082,
      "loss": 0.4061,
      "step": 42280
    },
    {
      "epoch": 56.38666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029942546751318195,
      "loss": 0.3994,
      "step": 42290
    },
    {
      "epoch": 56.4,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002994251926877666,
      "loss": 0.4062,
      "step": 42300
    },
    {
      "epoch": 56.413333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002994249177967623,
      "loss": 0.4108,
      "step": 42310
    },
    {
      "epoch": 56.42666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029942464284016924,
      "loss": 0.4123,
      "step": 42320
    },
    {
      "epoch": 56.44,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029942436781798745,
      "loss": 0.4228,
      "step": 42330
    },
    {
      "epoch": 56.45333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029942409273021707,
      "loss": 0.413,
      "step": 42340
    },
    {
      "epoch": 56.46666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002994238175768582,
      "loss": 0.4214,
      "step": 42350
    },
    {
      "epoch": 56.48,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000299423542357911,
      "loss": 0.403,
      "step": 42360
    },
    {
      "epoch": 56.49333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002994232670733756,
      "loss": 0.4149,
      "step": 42370
    },
    {
      "epoch": 56.50666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029942299172325217,
      "loss": 0.4114,
      "step": 42380
    },
    {
      "epoch": 56.52,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00029942271630754066,
      "loss": 0.402,
      "step": 42390
    },
    {
      "epoch": 56.53333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002994224408262414,
      "loss": 0.4054,
      "step": 42400
    },
    {
      "epoch": 56.54666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002994221652793543,
      "loss": 0.4079,
      "step": 42410
    },
    {
      "epoch": 56.56,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029942188966687963,
      "loss": 0.4013,
      "step": 42420
    },
    {
      "epoch": 56.57333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029942161398881744,
      "loss": 0.4051,
      "step": 42430
    },
    {
      "epoch": 56.586666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002994213382451679,
      "loss": 0.3937,
      "step": 42440
    },
    {
      "epoch": 56.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002994210624359311,
      "loss": 0.3961,
      "step": 42450
    },
    {
      "epoch": 56.61333333333333,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002994207865611072,
      "loss": 0.3839,
      "step": 42460
    },
    {
      "epoch": 56.626666666666665,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002994205106206963,
      "loss": 0.389,
      "step": 42470
    },
    {
      "epoch": 56.64,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029942023461469844,
      "loss": 0.4038,
      "step": 42480
    },
    {
      "epoch": 56.653333333333336,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029941995854311385,
      "loss": 0.4133,
      "step": 42490
    },
    {
      "epoch": 56.666666666666664,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029941968240594267,
      "loss": 0.3988,
      "step": 42500
    },
    {
      "epoch": 56.68,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002994194062031849,
      "loss": 0.3913,
      "step": 42510
    },
    {
      "epoch": 56.693333333333335,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002994191299348407,
      "loss": 0.4014,
      "step": 42520
    },
    {
      "epoch": 56.70666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002994188536009103,
      "loss": 0.3946,
      "step": 42530
    },
    {
      "epoch": 56.72,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002994185772013937,
      "loss": 0.4174,
      "step": 42540
    },
    {
      "epoch": 56.733333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029941830073629104,
      "loss": 0.4102,
      "step": 42550
    },
    {
      "epoch": 56.74666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002994180242056025,
      "loss": 0.4127,
      "step": 42560
    },
    {
      "epoch": 56.76,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002994177476093282,
      "loss": 0.4247,
      "step": 42570
    },
    {
      "epoch": 56.77333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029941747094746815,
      "loss": 0.4137,
      "step": 42580
    },
    {
      "epoch": 56.78666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029941719422002256,
      "loss": 0.4136,
      "step": 42590
    },
    {
      "epoch": 56.8,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002994169174269916,
      "loss": 0.4119,
      "step": 42600
    },
    {
      "epoch": 56.81333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029941664056837525,
      "loss": 0.3857,
      "step": 42610
    },
    {
      "epoch": 56.82666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029941636364417374,
      "loss": 0.3961,
      "step": 42620
    },
    {
      "epoch": 56.84,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029941608665438716,
      "loss": 0.4081,
      "step": 42630
    },
    {
      "epoch": 56.85333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029941580959901563,
      "loss": 0.4033,
      "step": 42640
    },
    {
      "epoch": 56.86666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002994155324780593,
      "loss": 0.4078,
      "step": 42650
    },
    {
      "epoch": 56.88,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002994152552915182,
      "loss": 0.3884,
      "step": 42660
    },
    {
      "epoch": 56.89333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994149780393926,
      "loss": 0.3977,
      "step": 42670
    },
    {
      "epoch": 56.906666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002994147007216825,
      "loss": 0.4059,
      "step": 42680
    },
    {
      "epoch": 56.92,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029941442333838807,
      "loss": 0.4078,
      "step": 42690
    },
    {
      "epoch": 56.93333333333333,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002994141458895095,
      "loss": 0.4014,
      "step": 42700
    },
    {
      "epoch": 56.946666666666665,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029941386837504673,
      "loss": 0.402,
      "step": 42710
    },
    {
      "epoch": 56.96,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000299413590795,
      "loss": 0.3996,
      "step": 42720
    },
    {
      "epoch": 56.973333333333336,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029941331314936945,
      "loss": 0.425,
      "step": 42730
    },
    {
      "epoch": 56.986666666666665,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002994130354381552,
      "loss": 0.4001,
      "step": 42740
    },
    {
      "epoch": 57.0,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002994127576613573,
      "loss": 0.3925,
      "step": 42750
    },
    {
      "epoch": 57.0,
      "eval_loss": 0.43237635493278503,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5084,
      "eval_samples_per_second": 1.683,
      "eval_steps_per_second": 0.105,
      "step": 42750
    },
    {
      "epoch": 57.013333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029941247981897593,
      "loss": 0.412,
      "step": 42760
    },
    {
      "epoch": 57.026666666666664,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029941220191101117,
      "loss": 0.4245,
      "step": 42770
    },
    {
      "epoch": 57.04,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002994119239374632,
      "loss": 0.4353,
      "step": 42780
    },
    {
      "epoch": 57.053333333333335,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029941164589833213,
      "loss": 0.4222,
      "step": 42790
    },
    {
      "epoch": 57.06666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000299411367793618,
      "loss": 0.4095,
      "step": 42800
    },
    {
      "epoch": 57.08,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029941108962332105,
      "loss": 0.4125,
      "step": 42810
    },
    {
      "epoch": 57.093333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029941081138744135,
      "loss": 0.414,
      "step": 42820
    },
    {
      "epoch": 57.10666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000299410533085979,
      "loss": 0.4023,
      "step": 42830
    },
    {
      "epoch": 57.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002994102547189341,
      "loss": 0.4079,
      "step": 42840
    },
    {
      "epoch": 57.13333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002994099762863069,
      "loss": 0.3997,
      "step": 42850
    },
    {
      "epoch": 57.14666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002994096977880974,
      "loss": 0.4174,
      "step": 42860
    },
    {
      "epoch": 57.16,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029940941922430576,
      "loss": 0.4105,
      "step": 42870
    },
    {
      "epoch": 57.17333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029940914059493206,
      "loss": 0.4044,
      "step": 42880
    },
    {
      "epoch": 57.18666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002994088618999765,
      "loss": 0.4047,
      "step": 42890
    },
    {
      "epoch": 57.2,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029940858313943917,
      "loss": 0.3975,
      "step": 42900
    },
    {
      "epoch": 57.21333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002994083043133202,
      "loss": 0.3982,
      "step": 42910
    },
    {
      "epoch": 57.22666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029940802542161965,
      "loss": 0.4105,
      "step": 42920
    },
    {
      "epoch": 57.24,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029940774646433773,
      "loss": 0.3952,
      "step": 42930
    },
    {
      "epoch": 57.25333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029940746744147454,
      "loss": 0.3974,
      "step": 42940
    },
    {
      "epoch": 57.266666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029940718835303013,
      "loss": 0.3992,
      "step": 42950
    },
    {
      "epoch": 57.28,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002994069091990047,
      "loss": 0.4295,
      "step": 42960
    },
    {
      "epoch": 57.29333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002994066299793984,
      "loss": 0.3856,
      "step": 42970
    },
    {
      "epoch": 57.306666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002994063506942113,
      "loss": 0.4081,
      "step": 42980
    },
    {
      "epoch": 57.32,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002994060713434435,
      "loss": 0.4103,
      "step": 42990
    },
    {
      "epoch": 57.333333333333336,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002994057919270951,
      "loss": 0.4149,
      "step": 43000
    },
    {
      "epoch": 57.346666666666664,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029940551244516636,
      "loss": 0.4056,
      "step": 43010
    },
    {
      "epoch": 57.36,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002994052328976573,
      "loss": 0.4061,
      "step": 43020
    },
    {
      "epoch": 57.373333333333335,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000299404953284568,
      "loss": 0.4061,
      "step": 43030
    },
    {
      "epoch": 57.38666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029940467360589873,
      "loss": 0.3993,
      "step": 43040
    },
    {
      "epoch": 57.4,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002994043938616495,
      "loss": 0.4062,
      "step": 43050
    },
    {
      "epoch": 57.413333333333334,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029940411405182036,
      "loss": 0.4112,
      "step": 43060
    },
    {
      "epoch": 57.42666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029940383417641165,
      "loss": 0.4121,
      "step": 43070
    },
    {
      "epoch": 57.44,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002994035542354233,
      "loss": 0.4229,
      "step": 43080
    },
    {
      "epoch": 57.45333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029940327422885556,
      "loss": 0.4122,
      "step": 43090
    },
    {
      "epoch": 57.46666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029940299415670844,
      "loss": 0.422,
      "step": 43100
    },
    {
      "epoch": 57.48,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029940271401898217,
      "loss": 0.4021,
      "step": 43110
    },
    {
      "epoch": 57.49333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002994024338156768,
      "loss": 0.4145,
      "step": 43120
    },
    {
      "epoch": 57.50666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029940215354679246,
      "loss": 0.4113,
      "step": 43130
    },
    {
      "epoch": 57.52,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029940187321232935,
      "loss": 0.4022,
      "step": 43140
    },
    {
      "epoch": 57.53333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029940159281228746,
      "loss": 0.4059,
      "step": 43150
    },
    {
      "epoch": 57.54666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029940131234666706,
      "loss": 0.4075,
      "step": 43160
    },
    {
      "epoch": 57.56,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029940103181546815,
      "loss": 0.4015,
      "step": 43170
    },
    {
      "epoch": 57.57333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002994007512186909,
      "loss": 0.405,
      "step": 43180
    },
    {
      "epoch": 57.586666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029940047055633545,
      "loss": 0.3931,
      "step": 43190
    },
    {
      "epoch": 57.6,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002994001898284019,
      "loss": 0.3955,
      "step": 43200
    },
    {
      "epoch": 57.61333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002993999090348904,
      "loss": 0.3848,
      "step": 43210
    },
    {
      "epoch": 57.626666666666665,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029939962817580103,
      "loss": 0.3887,
      "step": 43220
    },
    {
      "epoch": 57.64,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029939934725113393,
      "loss": 0.4029,
      "step": 43230
    },
    {
      "epoch": 57.653333333333336,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993990662608893,
      "loss": 0.4127,
      "step": 43240
    },
    {
      "epoch": 57.666666666666664,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002993987852050671,
      "loss": 0.3987,
      "step": 43250
    },
    {
      "epoch": 57.68,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029939850408366764,
      "loss": 0.3919,
      "step": 43260
    },
    {
      "epoch": 57.693333333333335,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029939822289669094,
      "loss": 0.4002,
      "step": 43270
    },
    {
      "epoch": 57.70666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002993979416441371,
      "loss": 0.3943,
      "step": 43280
    },
    {
      "epoch": 57.72,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002993976603260063,
      "loss": 0.4163,
      "step": 43290
    },
    {
      "epoch": 57.733333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029939737894229857,
      "loss": 0.411,
      "step": 43300
    },
    {
      "epoch": 57.74666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002993970974930142,
      "loss": 0.4122,
      "step": 43310
    },
    {
      "epoch": 57.76,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002993968159781532,
      "loss": 0.4247,
      "step": 43320
    },
    {
      "epoch": 57.77333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002993965343977157,
      "loss": 0.4138,
      "step": 43330
    },
    {
      "epoch": 57.78666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002993962527517018,
      "loss": 0.4122,
      "step": 43340
    },
    {
      "epoch": 57.8,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029939597104011175,
      "loss": 0.411,
      "step": 43350
    },
    {
      "epoch": 57.81333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993956892629455,
      "loss": 0.3858,
      "step": 43360
    },
    {
      "epoch": 57.82666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029939540742020325,
      "loss": 0.396,
      "step": 43370
    },
    {
      "epoch": 57.84,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002993951255118852,
      "loss": 0.4066,
      "step": 43380
    },
    {
      "epoch": 57.85333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002993948435379914,
      "loss": 0.4023,
      "step": 43390
    },
    {
      "epoch": 57.86666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002993945614985219,
      "loss": 0.4064,
      "step": 43400
    },
    {
      "epoch": 57.88,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029939427939347697,
      "loss": 0.3863,
      "step": 43410
    },
    {
      "epoch": 57.89333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029939399722285666,
      "loss": 0.3974,
      "step": 43420
    },
    {
      "epoch": 57.906666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002993937149866611,
      "loss": 0.4059,
      "step": 43430
    },
    {
      "epoch": 57.92,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029939343268489037,
      "loss": 0.4076,
      "step": 43440
    },
    {
      "epoch": 57.93333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029939315031754466,
      "loss": 0.3997,
      "step": 43450
    },
    {
      "epoch": 57.946666666666665,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029939286788462413,
      "loss": 0.4012,
      "step": 43460
    },
    {
      "epoch": 57.96,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002993925853861288,
      "loss": 0.3993,
      "step": 43470
    },
    {
      "epoch": 57.973333333333336,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002993923028220588,
      "loss": 0.4246,
      "step": 43480
    },
    {
      "epoch": 57.986666666666665,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029939202019241436,
      "loss": 0.3998,
      "step": 43490
    },
    {
      "epoch": 58.0,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002993917374971955,
      "loss": 0.3934,
      "step": 43500
    },
    {
      "epoch": 58.0,
      "eval_loss": 0.4333595931529999,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8241,
      "eval_samples_per_second": 1.629,
      "eval_steps_per_second": 0.102,
      "step": 43500
    },
    {
      "epoch": 58.013333333333335,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029939145473640243,
      "loss": 0.411,
      "step": 43510
    },
    {
      "epoch": 58.026666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002993911719100352,
      "loss": 0.4237,
      "step": 43520
    },
    {
      "epoch": 58.04,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993908890180939,
      "loss": 0.4352,
      "step": 43530
    },
    {
      "epoch": 58.053333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002993906060605788,
      "loss": 0.4228,
      "step": 43540
    },
    {
      "epoch": 58.06666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029939032303748995,
      "loss": 0.4095,
      "step": 43550
    },
    {
      "epoch": 58.08,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029939003994882736,
      "loss": 0.4127,
      "step": 43560
    },
    {
      "epoch": 58.093333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029938975679459135,
      "loss": 0.4141,
      "step": 43570
    },
    {
      "epoch": 58.10666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002993894735747819,
      "loss": 0.4027,
      "step": 43580
    },
    {
      "epoch": 58.12,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993891902893992,
      "loss": 0.4068,
      "step": 43590
    },
    {
      "epoch": 58.13333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993889069384434,
      "loss": 0.3991,
      "step": 43600
    },
    {
      "epoch": 58.14666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029938862352191453,
      "loss": 0.417,
      "step": 43610
    },
    {
      "epoch": 58.16,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002993883400398128,
      "loss": 0.4102,
      "step": 43620
    },
    {
      "epoch": 58.17333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029938805649213827,
      "loss": 0.4048,
      "step": 43630
    },
    {
      "epoch": 58.18666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002993877728788911,
      "loss": 0.4041,
      "step": 43640
    },
    {
      "epoch": 58.2,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002993874892000715,
      "loss": 0.3967,
      "step": 43650
    },
    {
      "epoch": 58.21333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002993872054556794,
      "loss": 0.3984,
      "step": 43660
    },
    {
      "epoch": 58.22666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029938692164571505,
      "loss": 0.4102,
      "step": 43670
    },
    {
      "epoch": 58.24,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029938663777017864,
      "loss": 0.3948,
      "step": 43680
    },
    {
      "epoch": 58.25333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002993863538290701,
      "loss": 0.3982,
      "step": 43690
    },
    {
      "epoch": 58.266666666666666,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029938606982238974,
      "loss": 0.4001,
      "step": 43700
    },
    {
      "epoch": 58.28,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002993857857501376,
      "loss": 0.43,
      "step": 43710
    },
    {
      "epoch": 58.29333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029938550161231375,
      "loss": 0.3855,
      "step": 43720
    },
    {
      "epoch": 58.306666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029938521740891844,
      "loss": 0.4081,
      "step": 43730
    },
    {
      "epoch": 58.32,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029938493313995173,
      "loss": 0.4098,
      "step": 43740
    },
    {
      "epoch": 58.333333333333336,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002993846488054137,
      "loss": 0.4154,
      "step": 43750
    },
    {
      "epoch": 58.346666666666664,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002993843644053046,
      "loss": 0.4052,
      "step": 43760
    },
    {
      "epoch": 58.36,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029938407993962445,
      "loss": 0.4054,
      "step": 43770
    },
    {
      "epoch": 58.373333333333335,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029938379540837335,
      "loss": 0.4061,
      "step": 43780
    },
    {
      "epoch": 58.38666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029938351081155155,
      "loss": 0.3995,
      "step": 43790
    },
    {
      "epoch": 58.4,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002993832261491591,
      "loss": 0.4057,
      "step": 43800
    },
    {
      "epoch": 58.413333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993829414211961,
      "loss": 0.4095,
      "step": 43810
    },
    {
      "epoch": 58.42666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029938265662766267,
      "loss": 0.4122,
      "step": 43820
    },
    {
      "epoch": 58.44,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002993823717685591,
      "loss": 0.4226,
      "step": 43830
    },
    {
      "epoch": 58.45333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002993820868438852,
      "loss": 0.4119,
      "step": 43840
    },
    {
      "epoch": 58.46666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002993818018536414,
      "loss": 0.4218,
      "step": 43850
    },
    {
      "epoch": 58.48,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029938151679782766,
      "loss": 0.4026,
      "step": 43860
    },
    {
      "epoch": 58.49333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002993812316764442,
      "loss": 0.4142,
      "step": 43870
    },
    {
      "epoch": 58.50666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029938094648949103,
      "loss": 0.4118,
      "step": 43880
    },
    {
      "epoch": 58.52,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029938066123696836,
      "loss": 0.4024,
      "step": 43890
    },
    {
      "epoch": 58.53333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002993803759188763,
      "loss": 0.4059,
      "step": 43900
    },
    {
      "epoch": 58.54666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000299380090535215,
      "loss": 0.4084,
      "step": 43910
    },
    {
      "epoch": 58.56,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029937980508598454,
      "loss": 0.4006,
      "step": 43920
    },
    {
      "epoch": 58.57333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029937951957118497,
      "loss": 0.4053,
      "step": 43930
    },
    {
      "epoch": 58.586666666666666,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002993792339908166,
      "loss": 0.3937,
      "step": 43940
    },
    {
      "epoch": 58.6,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029937894834487945,
      "loss": 0.3941,
      "step": 43950
    },
    {
      "epoch": 58.61333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002993786626333736,
      "loss": 0.3836,
      "step": 43960
    },
    {
      "epoch": 58.626666666666665,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993783768562993,
      "loss": 0.3892,
      "step": 43970
    },
    {
      "epoch": 58.64,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029937809101365656,
      "loss": 0.4024,
      "step": 43980
    },
    {
      "epoch": 58.653333333333336,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993778051054456,
      "loss": 0.4123,
      "step": 43990
    },
    {
      "epoch": 58.666666666666664,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029937751913166645,
      "loss": 0.3988,
      "step": 44000
    },
    {
      "epoch": 58.68,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029937723309231935,
      "loss": 0.3912,
      "step": 44010
    },
    {
      "epoch": 58.693333333333335,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002993769469874043,
      "loss": 0.3995,
      "step": 44020
    },
    {
      "epoch": 58.70666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002993766608169215,
      "loss": 0.3946,
      "step": 44030
    },
    {
      "epoch": 58.72,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029937637458087106,
      "loss": 0.4157,
      "step": 44040
    },
    {
      "epoch": 58.733333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029937608827925306,
      "loss": 0.41,
      "step": 44050
    },
    {
      "epoch": 58.74666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002993758019120678,
      "loss": 0.412,
      "step": 44060
    },
    {
      "epoch": 58.76,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029937551547931516,
      "loss": 0.4247,
      "step": 44070
    },
    {
      "epoch": 58.77333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029937522898099535,
      "loss": 0.412,
      "step": 44080
    },
    {
      "epoch": 58.78666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029937494241710864,
      "loss": 0.4135,
      "step": 44090
    },
    {
      "epoch": 58.8,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029937465578765496,
      "loss": 0.4107,
      "step": 44100
    },
    {
      "epoch": 58.81333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002993743690926346,
      "loss": 0.3845,
      "step": 44110
    },
    {
      "epoch": 58.82666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002993740823320476,
      "loss": 0.3955,
      "step": 44120
    },
    {
      "epoch": 58.84,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029937379550589404,
      "loss": 0.4069,
      "step": 44130
    },
    {
      "epoch": 58.85333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993735086141741,
      "loss": 0.4028,
      "step": 44140
    },
    {
      "epoch": 58.86666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002993732216568879,
      "loss": 0.4066,
      "step": 44150
    },
    {
      "epoch": 58.88,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002993729346340356,
      "loss": 0.3865,
      "step": 44160
    },
    {
      "epoch": 58.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029937264754561723,
      "loss": 0.3978,
      "step": 44170
    },
    {
      "epoch": 58.906666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029937236039163305,
      "loss": 0.4046,
      "step": 44180
    },
    {
      "epoch": 58.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993720731720831,
      "loss": 0.4079,
      "step": 44190
    },
    {
      "epoch": 58.93333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002993717858869675,
      "loss": 0.3996,
      "step": 44200
    },
    {
      "epoch": 58.946666666666665,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029937149853628646,
      "loss": 0.4017,
      "step": 44210
    },
    {
      "epoch": 58.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029937121112004006,
      "loss": 0.3977,
      "step": 44220
    },
    {
      "epoch": 58.973333333333336,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002993709236382283,
      "loss": 0.4253,
      "step": 44230
    },
    {
      "epoch": 58.986666666666665,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002993706360908515,
      "loss": 0.4002,
      "step": 44240
    },
    {
      "epoch": 59.0,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002993703484779097,
      "loss": 0.3925,
      "step": 44250
    },
    {
      "epoch": 59.0,
      "eval_loss": 0.43168219923973083,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9145,
      "eval_samples_per_second": 1.614,
      "eval_steps_per_second": 0.101,
      "step": 44250
    },
    {
      "epoch": 59.013333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029937006079940303,
      "loss": 0.4114,
      "step": 44260
    },
    {
      "epoch": 59.026666666666664,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029936977305533157,
      "loss": 0.4225,
      "step": 44270
    },
    {
      "epoch": 59.04,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002993694852456955,
      "loss": 0.436,
      "step": 44280
    },
    {
      "epoch": 59.053333333333335,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029936919737049496,
      "loss": 0.422,
      "step": 44290
    },
    {
      "epoch": 59.06666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993689094297301,
      "loss": 0.4089,
      "step": 44300
    },
    {
      "epoch": 59.08,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029936862142340096,
      "loss": 0.4127,
      "step": 44310
    },
    {
      "epoch": 59.093333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029936833335150774,
      "loss": 0.4137,
      "step": 44320
    },
    {
      "epoch": 59.10666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993680452140505,
      "loss": 0.4011,
      "step": 44330
    },
    {
      "epoch": 59.12,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002993677570110294,
      "loss": 0.4068,
      "step": 44340
    },
    {
      "epoch": 59.13333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002993674687424446,
      "loss": 0.3981,
      "step": 44350
    },
    {
      "epoch": 59.14666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029936718040829614,
      "loss": 0.4171,
      "step": 44360
    },
    {
      "epoch": 59.16,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029936689200858426,
      "loss": 0.4098,
      "step": 44370
    },
    {
      "epoch": 59.17333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000299366603543309,
      "loss": 0.404,
      "step": 44380
    },
    {
      "epoch": 59.18666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002993663150124705,
      "loss": 0.4043,
      "step": 44390
    },
    {
      "epoch": 59.2,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029936602641606895,
      "loss": 0.3969,
      "step": 44400
    },
    {
      "epoch": 59.21333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029936573775410434,
      "loss": 0.3971,
      "step": 44410
    },
    {
      "epoch": 59.22666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000299365449026577,
      "loss": 0.4097,
      "step": 44420
    },
    {
      "epoch": 59.24,
      "grad_norm": 0.375,
      "learning_rate": 0.00029936516023348686,
      "loss": 0.3952,
      "step": 44430
    },
    {
      "epoch": 59.25333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029936487137483415,
      "loss": 0.3978,
      "step": 44440
    },
    {
      "epoch": 59.266666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000299364582450619,
      "loss": 0.3983,
      "step": 44450
    },
    {
      "epoch": 59.28,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029936429346084144,
      "loss": 0.4287,
      "step": 44460
    },
    {
      "epoch": 59.29333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002993640044055017,
      "loss": 0.3855,
      "step": 44470
    },
    {
      "epoch": 59.306666666666665,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029936371528459997,
      "loss": 0.4077,
      "step": 44480
    },
    {
      "epoch": 59.32,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993634260981362,
      "loss": 0.4091,
      "step": 44490
    },
    {
      "epoch": 59.333333333333336,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002993631368461106,
      "loss": 0.4147,
      "step": 44500
    },
    {
      "epoch": 59.346666666666664,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002993628475285233,
      "loss": 0.4043,
      "step": 44510
    },
    {
      "epoch": 59.36,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002993625581453744,
      "loss": 0.4073,
      "step": 44520
    },
    {
      "epoch": 59.373333333333335,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029936226869666405,
      "loss": 0.406,
      "step": 44530
    },
    {
      "epoch": 59.38666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029936197918239245,
      "loss": 0.3989,
      "step": 44540
    },
    {
      "epoch": 59.4,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029936168960255957,
      "loss": 0.4052,
      "step": 44550
    },
    {
      "epoch": 59.413333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029936139995716564,
      "loss": 0.4099,
      "step": 44560
    },
    {
      "epoch": 59.42666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002993611102462108,
      "loss": 0.4119,
      "step": 44570
    },
    {
      "epoch": 59.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029936082046969515,
      "loss": 0.4223,
      "step": 44580
    },
    {
      "epoch": 59.45333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029936053062761876,
      "loss": 0.4118,
      "step": 44590
    },
    {
      "epoch": 59.46666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029936024071998185,
      "loss": 0.4206,
      "step": 44600
    },
    {
      "epoch": 59.48,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002993599507467845,
      "loss": 0.4021,
      "step": 44610
    },
    {
      "epoch": 59.49333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002993596607080269,
      "loss": 0.4131,
      "step": 44620
    },
    {
      "epoch": 59.50666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029935937060370904,
      "loss": 0.4117,
      "step": 44630
    },
    {
      "epoch": 59.52,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002993590804338311,
      "loss": 0.4016,
      "step": 44640
    },
    {
      "epoch": 59.53333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002993587901983934,
      "loss": 0.4048,
      "step": 44650
    },
    {
      "epoch": 59.54666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002993584998973957,
      "loss": 0.4065,
      "step": 44660
    },
    {
      "epoch": 59.56,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029935820953083843,
      "loss": 0.4005,
      "step": 44670
    },
    {
      "epoch": 59.57333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029935791909872165,
      "loss": 0.4039,
      "step": 44680
    },
    {
      "epoch": 59.586666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029935762860104544,
      "loss": 0.3931,
      "step": 44690
    },
    {
      "epoch": 59.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002993573380378099,
      "loss": 0.3948,
      "step": 44700
    },
    {
      "epoch": 59.61333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002993570474090153,
      "loss": 0.3838,
      "step": 44710
    },
    {
      "epoch": 59.626666666666665,
      "grad_norm": 0.28125,
      "learning_rate": 0.00029935675671466155,
      "loss": 0.3888,
      "step": 44720
    },
    {
      "epoch": 59.64,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029935646595474893,
      "loss": 0.4035,
      "step": 44730
    },
    {
      "epoch": 59.653333333333336,
      "grad_norm": 0.375,
      "learning_rate": 0.0002993561751292776,
      "loss": 0.4125,
      "step": 44740
    },
    {
      "epoch": 59.666666666666664,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002993558842382475,
      "loss": 0.3991,
      "step": 44750
    },
    {
      "epoch": 59.68,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000299355593281659,
      "loss": 0.3906,
      "step": 44760
    },
    {
      "epoch": 59.693333333333335,
      "grad_norm": 0.3125,
      "learning_rate": 0.000299355302259512,
      "loss": 0.4005,
      "step": 44770
    },
    {
      "epoch": 59.70666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002993550111718068,
      "loss": 0.3932,
      "step": 44780
    },
    {
      "epoch": 59.72,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029935472001854353,
      "loss": 0.4162,
      "step": 44790
    },
    {
      "epoch": 59.733333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002993544287997221,
      "loss": 0.4103,
      "step": 44800
    },
    {
      "epoch": 59.74666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002993541375153429,
      "loss": 0.4116,
      "step": 44810
    },
    {
      "epoch": 59.76,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029935384616540595,
      "loss": 0.4255,
      "step": 44820
    },
    {
      "epoch": 59.77333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029935355474991135,
      "loss": 0.4118,
      "step": 44830
    },
    {
      "epoch": 59.78666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002993532632688592,
      "loss": 0.4121,
      "step": 44840
    },
    {
      "epoch": 59.8,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993529717222497,
      "loss": 0.4117,
      "step": 44850
    },
    {
      "epoch": 59.81333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029935268011008307,
      "loss": 0.3849,
      "step": 44860
    },
    {
      "epoch": 59.82666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993523884323592,
      "loss": 0.3954,
      "step": 44870
    },
    {
      "epoch": 59.84,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029935209668907836,
      "loss": 0.4068,
      "step": 44880
    },
    {
      "epoch": 59.85333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002993518048802407,
      "loss": 0.4026,
      "step": 44890
    },
    {
      "epoch": 59.86666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002993515130058463,
      "loss": 0.4064,
      "step": 44900
    },
    {
      "epoch": 59.88,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002993512210658953,
      "loss": 0.3863,
      "step": 44910
    },
    {
      "epoch": 59.89333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993509290603878,
      "loss": 0.3971,
      "step": 44920
    },
    {
      "epoch": 59.906666666666666,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029935063698932396,
      "loss": 0.4049,
      "step": 44930
    },
    {
      "epoch": 59.92,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002993503448527039,
      "loss": 0.4071,
      "step": 44940
    },
    {
      "epoch": 59.93333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002993500526505278,
      "loss": 0.4001,
      "step": 44950
    },
    {
      "epoch": 59.946666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002993497603827957,
      "loss": 0.4014,
      "step": 44960
    },
    {
      "epoch": 59.96,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00029934946804950776,
      "loss": 0.3988,
      "step": 44970
    },
    {
      "epoch": 59.973333333333336,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002993491756506641,
      "loss": 0.4248,
      "step": 44980
    },
    {
      "epoch": 59.986666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002993488831862649,
      "loss": 0.3996,
      "step": 44990
    },
    {
      "epoch": 60.0,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002993485906563103,
      "loss": 0.3936,
      "step": 45000
    },
    {
      "epoch": 60.0,
      "eval_loss": 0.43261629343032837,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 8.5292,
      "eval_samples_per_second": 1.876,
      "eval_steps_per_second": 0.117,
      "step": 45000
    },
    {
      "epoch": 60.013333333333335,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029934829806080033,
      "loss": 0.4114,
      "step": 45010
    },
    {
      "epoch": 60.026666666666664,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029934800539973514,
      "loss": 0.422,
      "step": 45020
    },
    {
      "epoch": 60.04,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002993477126731149,
      "loss": 0.435,
      "step": 45030
    },
    {
      "epoch": 60.053333333333335,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993474198809398,
      "loss": 0.4211,
      "step": 45040
    },
    {
      "epoch": 60.06666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029934712702320976,
      "loss": 0.4077,
      "step": 45050
    },
    {
      "epoch": 60.08,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029934683409992517,
      "loss": 0.4118,
      "step": 45060
    },
    {
      "epoch": 60.093333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299346541111086,
      "loss": 0.4131,
      "step": 45070
    },
    {
      "epoch": 60.10666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029934624805669235,
      "loss": 0.4013,
      "step": 45080
    },
    {
      "epoch": 60.12,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029934595493674444,
      "loss": 0.4065,
      "step": 45090
    },
    {
      "epoch": 60.13333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002993456617512424,
      "loss": 0.3976,
      "step": 45100
    },
    {
      "epoch": 60.14666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993453685001863,
      "loss": 0.4167,
      "step": 45110
    },
    {
      "epoch": 60.16,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002993450751835763,
      "loss": 0.4096,
      "step": 45120
    },
    {
      "epoch": 60.17333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029934478180141256,
      "loss": 0.4043,
      "step": 45130
    },
    {
      "epoch": 60.18666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002993444883536951,
      "loss": 0.404,
      "step": 45140
    },
    {
      "epoch": 60.2,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002993441948404242,
      "loss": 0.3961,
      "step": 45150
    },
    {
      "epoch": 60.21333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002993439012615999,
      "loss": 0.3975,
      "step": 45160
    },
    {
      "epoch": 60.22666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029934360761722225,
      "loss": 0.4089,
      "step": 45170
    },
    {
      "epoch": 60.24,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993433139072916,
      "loss": 0.3942,
      "step": 45180
    },
    {
      "epoch": 60.25333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002993430201318078,
      "loss": 0.397,
      "step": 45190
    },
    {
      "epoch": 60.266666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029934272629077125,
      "loss": 0.3983,
      "step": 45200
    },
    {
      "epoch": 60.28,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002993424323841819,
      "loss": 0.4296,
      "step": 45210
    },
    {
      "epoch": 60.29333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029934213841203993,
      "loss": 0.3851,
      "step": 45220
    },
    {
      "epoch": 60.306666666666665,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993418443743455,
      "loss": 0.4084,
      "step": 45230
    },
    {
      "epoch": 60.32,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002993415502710987,
      "loss": 0.409,
      "step": 45240
    },
    {
      "epoch": 60.333333333333336,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002993412561022997,
      "loss": 0.4127,
      "step": 45250
    },
    {
      "epoch": 60.346666666666664,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029934096186794856,
      "loss": 0.4048,
      "step": 45260
    },
    {
      "epoch": 60.36,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029934066756804543,
      "loss": 0.4059,
      "step": 45270
    },
    {
      "epoch": 60.373333333333335,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002993403732025905,
      "loss": 0.4048,
      "step": 45280
    },
    {
      "epoch": 60.38666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029934007877158386,
      "loss": 0.3984,
      "step": 45290
    },
    {
      "epoch": 60.4,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029933978427502565,
      "loss": 0.4053,
      "step": 45300
    },
    {
      "epoch": 60.413333333333334,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002993394897129159,
      "loss": 0.409,
      "step": 45310
    },
    {
      "epoch": 60.42666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029933919508525495,
      "loss": 0.4115,
      "step": 45320
    },
    {
      "epoch": 60.44,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029933890039204273,
      "loss": 0.4228,
      "step": 45330
    },
    {
      "epoch": 60.45333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029933860563327943,
      "loss": 0.4113,
      "step": 45340
    },
    {
      "epoch": 60.46666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002993383108089653,
      "loss": 0.4216,
      "step": 45350
    },
    {
      "epoch": 60.48,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029933801591910025,
      "loss": 0.4018,
      "step": 45360
    },
    {
      "epoch": 60.49333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029933772096368453,
      "loss": 0.4133,
      "step": 45370
    },
    {
      "epoch": 60.50666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002993374259427183,
      "loss": 0.4109,
      "step": 45380
    },
    {
      "epoch": 60.52,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029933713085620163,
      "loss": 0.401,
      "step": 45390
    },
    {
      "epoch": 60.53333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029933683570413473,
      "loss": 0.405,
      "step": 45400
    },
    {
      "epoch": 60.54666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002993365404865176,
      "loss": 0.4064,
      "step": 45410
    },
    {
      "epoch": 60.56,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002993362452033505,
      "loss": 0.4008,
      "step": 45420
    },
    {
      "epoch": 60.57333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029933594985463344,
      "loss": 0.4036,
      "step": 45430
    },
    {
      "epoch": 60.586666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029933565444036666,
      "loss": 0.3925,
      "step": 45440
    },
    {
      "epoch": 60.6,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002993353589605502,
      "loss": 0.3946,
      "step": 45450
    },
    {
      "epoch": 60.61333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029933506341518426,
      "loss": 0.3831,
      "step": 45460
    },
    {
      "epoch": 60.626666666666665,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002993347678042689,
      "loss": 0.3883,
      "step": 45470
    },
    {
      "epoch": 60.64,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002993344721278043,
      "loss": 0.4025,
      "step": 45480
    },
    {
      "epoch": 60.653333333333336,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029933417638579063,
      "loss": 0.4119,
      "step": 45490
    },
    {
      "epoch": 60.666666666666664,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002993338805782279,
      "loss": 0.398,
      "step": 45500
    },
    {
      "epoch": 60.68,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029933358470511634,
      "loss": 0.3905,
      "step": 45510
    },
    {
      "epoch": 60.693333333333335,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029933328876645605,
      "loss": 0.3993,
      "step": 45520
    },
    {
      "epoch": 60.70666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002993329927622471,
      "loss": 0.3937,
      "step": 45530
    },
    {
      "epoch": 60.72,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029933269669248975,
      "loss": 0.4161,
      "step": 45540
    },
    {
      "epoch": 60.733333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002993324005571841,
      "loss": 0.4093,
      "step": 45550
    },
    {
      "epoch": 60.74666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029933210435633014,
      "loss": 0.4112,
      "step": 45560
    },
    {
      "epoch": 60.76,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029933180808992815,
      "loss": 0.4244,
      "step": 45570
    },
    {
      "epoch": 60.77333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002993315117579782,
      "loss": 0.4123,
      "step": 45580
    },
    {
      "epoch": 60.78666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993312153604804,
      "loss": 0.4117,
      "step": 45590
    },
    {
      "epoch": 60.8,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002993309188974349,
      "loss": 0.4101,
      "step": 45600
    },
    {
      "epoch": 60.81333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002993306223688419,
      "loss": 0.3854,
      "step": 45610
    },
    {
      "epoch": 60.82666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002993303257747014,
      "loss": 0.3948,
      "step": 45620
    },
    {
      "epoch": 60.84,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029933002911501367,
      "loss": 0.4063,
      "step": 45630
    },
    {
      "epoch": 60.85333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029932973238977874,
      "loss": 0.4018,
      "step": 45640
    },
    {
      "epoch": 60.86666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029932943559899674,
      "loss": 0.4052,
      "step": 45650
    },
    {
      "epoch": 60.88,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993291387426679,
      "loss": 0.3863,
      "step": 45660
    },
    {
      "epoch": 60.89333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002993288418207922,
      "loss": 0.3965,
      "step": 45670
    },
    {
      "epoch": 60.906666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029932854483336984,
      "loss": 0.4045,
      "step": 45680
    },
    {
      "epoch": 60.92,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029932824778040103,
      "loss": 0.4064,
      "step": 45690
    },
    {
      "epoch": 60.93333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029932795066188575,
      "loss": 0.3995,
      "step": 45700
    },
    {
      "epoch": 60.946666666666665,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029932765347782426,
      "loss": 0.4009,
      "step": 45710
    },
    {
      "epoch": 60.96,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002993273562282167,
      "loss": 0.3983,
      "step": 45720
    },
    {
      "epoch": 60.973333333333336,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029932705891306307,
      "loss": 0.4248,
      "step": 45730
    },
    {
      "epoch": 60.986666666666665,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002993267615323636,
      "loss": 0.3988,
      "step": 45740
    },
    {
      "epoch": 61.0,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029932646408611837,
      "loss": 0.3925,
      "step": 45750
    },
    {
      "epoch": 61.0,
      "eval_loss": 0.4304877817630768,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.845,
      "eval_samples_per_second": 1.625,
      "eval_steps_per_second": 0.102,
      "step": 45750
    },
    {
      "epoch": 61.013333333333335,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002993261665743275,
      "loss": 0.4115,
      "step": 45760
    },
    {
      "epoch": 61.026666666666664,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002993258689969912,
      "loss": 0.4221,
      "step": 45770
    },
    {
      "epoch": 61.04,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029932557135410956,
      "loss": 0.4356,
      "step": 45780
    },
    {
      "epoch": 61.053333333333335,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002993252736456827,
      "loss": 0.4207,
      "step": 45790
    },
    {
      "epoch": 61.06666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029932497587171076,
      "loss": 0.4089,
      "step": 45800
    },
    {
      "epoch": 61.08,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002993246780321939,
      "loss": 0.412,
      "step": 45810
    },
    {
      "epoch": 61.093333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002993243801271321,
      "loss": 0.4127,
      "step": 45820
    },
    {
      "epoch": 61.10666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029932408215652573,
      "loss": 0.4004,
      "step": 45830
    },
    {
      "epoch": 61.12,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029932378412037474,
      "loss": 0.4069,
      "step": 45840
    },
    {
      "epoch": 61.13333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002993234860186793,
      "loss": 0.3974,
      "step": 45850
    },
    {
      "epoch": 61.14666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993231878514396,
      "loss": 0.4159,
      "step": 45860
    },
    {
      "epoch": 61.16,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029932288961865574,
      "loss": 0.4091,
      "step": 45870
    },
    {
      "epoch": 61.17333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993225913203278,
      "loss": 0.4042,
      "step": 45880
    },
    {
      "epoch": 61.18666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000299322292956456,
      "loss": 0.4026,
      "step": 45890
    },
    {
      "epoch": 61.2,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029932199452704044,
      "loss": 0.3956,
      "step": 45900
    },
    {
      "epoch": 61.21333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029932169603208116,
      "loss": 0.3979,
      "step": 45910
    },
    {
      "epoch": 61.22666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029932139747157845,
      "loss": 0.4086,
      "step": 45920
    },
    {
      "epoch": 61.24,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002993210988455323,
      "loss": 0.3938,
      "step": 45930
    },
    {
      "epoch": 61.25333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002993208001539429,
      "loss": 0.3962,
      "step": 45940
    },
    {
      "epoch": 61.266666666666666,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0002993205013968104,
      "loss": 0.398,
      "step": 45950
    },
    {
      "epoch": 61.28,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002993202025741349,
      "loss": 0.4291,
      "step": 45960
    },
    {
      "epoch": 61.29333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029931990368591656,
      "loss": 0.3842,
      "step": 45970
    },
    {
      "epoch": 61.306666666666665,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029931960473215545,
      "loss": 0.4071,
      "step": 45980
    },
    {
      "epoch": 61.32,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002993193057128518,
      "loss": 0.4087,
      "step": 45990
    },
    {
      "epoch": 61.333333333333336,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029931900662800564,
      "loss": 0.4132,
      "step": 46000
    },
    {
      "epoch": 61.346666666666664,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029931870747761715,
      "loss": 0.4039,
      "step": 46010
    },
    {
      "epoch": 61.36,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029931840826168647,
      "loss": 0.4043,
      "step": 46020
    },
    {
      "epoch": 61.373333333333335,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002993181089802137,
      "loss": 0.405,
      "step": 46030
    },
    {
      "epoch": 61.38666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029931780963319903,
      "loss": 0.3979,
      "step": 46040
    },
    {
      "epoch": 61.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029931751022064254,
      "loss": 0.4054,
      "step": 46050
    },
    {
      "epoch": 61.413333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029931721074254435,
      "loss": 0.409,
      "step": 46060
    },
    {
      "epoch": 61.42666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993169111989047,
      "loss": 0.4109,
      "step": 46070
    },
    {
      "epoch": 61.44,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002993166115897235,
      "loss": 0.4214,
      "step": 46080
    },
    {
      "epoch": 61.45333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029931631191500114,
      "loss": 0.4112,
      "step": 46090
    },
    {
      "epoch": 61.46666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029931601217473756,
      "loss": 0.4205,
      "step": 46100
    },
    {
      "epoch": 61.48,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029931571236893297,
      "loss": 0.4017,
      "step": 46110
    },
    {
      "epoch": 61.49333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002993154124975875,
      "loss": 0.4134,
      "step": 46120
    },
    {
      "epoch": 61.50666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002993151125607013,
      "loss": 0.4107,
      "step": 46130
    },
    {
      "epoch": 61.52,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002993148125582744,
      "loss": 0.4008,
      "step": 46140
    },
    {
      "epoch": 61.53333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002993145124903071,
      "loss": 0.4042,
      "step": 46150
    },
    {
      "epoch": 61.54666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993142123567994,
      "loss": 0.4068,
      "step": 46160
    },
    {
      "epoch": 61.56,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029931391215775146,
      "loss": 0.4005,
      "step": 46170
    },
    {
      "epoch": 61.57333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002993136118931634,
      "loss": 0.4037,
      "step": 46180
    },
    {
      "epoch": 61.586666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029931331156303546,
      "loss": 0.3932,
      "step": 46190
    },
    {
      "epoch": 61.6,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029931301116736765,
      "loss": 0.3943,
      "step": 46200
    },
    {
      "epoch": 61.61333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029931271070616014,
      "loss": 0.3833,
      "step": 46210
    },
    {
      "epoch": 61.626666666666665,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029931241017941304,
      "loss": 0.3879,
      "step": 46220
    },
    {
      "epoch": 61.64,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029931210958712647,
      "loss": 0.4025,
      "step": 46230
    },
    {
      "epoch": 61.653333333333336,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029931180892930063,
      "loss": 0.412,
      "step": 46240
    },
    {
      "epoch": 61.666666666666664,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029931150820593563,
      "loss": 0.3981,
      "step": 46250
    },
    {
      "epoch": 61.68,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002993112074170316,
      "loss": 0.3909,
      "step": 46260
    },
    {
      "epoch": 61.693333333333335,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029931090656258857,
      "loss": 0.3983,
      "step": 46270
    },
    {
      "epoch": 61.70666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029931060564260687,
      "loss": 0.392,
      "step": 46280
    },
    {
      "epoch": 61.72,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029931030465708646,
      "loss": 0.4161,
      "step": 46290
    },
    {
      "epoch": 61.733333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002993100036060276,
      "loss": 0.4093,
      "step": 46300
    },
    {
      "epoch": 61.74666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002993097024894303,
      "loss": 0.4114,
      "step": 46310
    },
    {
      "epoch": 61.76,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002993094013072948,
      "loss": 0.4229,
      "step": 46320
    },
    {
      "epoch": 61.77333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002993091000596211,
      "loss": 0.4121,
      "step": 46330
    },
    {
      "epoch": 61.78666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002993087987464095,
      "loss": 0.4115,
      "step": 46340
    },
    {
      "epoch": 61.8,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029930849736766,
      "loss": 0.4104,
      "step": 46350
    },
    {
      "epoch": 61.81333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029930819592337277,
      "loss": 0.384,
      "step": 46360
    },
    {
      "epoch": 61.82666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000299307894413548,
      "loss": 0.3954,
      "step": 46370
    },
    {
      "epoch": 61.84,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029930759283818573,
      "loss": 0.4057,
      "step": 46380
    },
    {
      "epoch": 61.85333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993072911972862,
      "loss": 0.4017,
      "step": 46390
    },
    {
      "epoch": 61.86666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002993069894908494,
      "loss": 0.4053,
      "step": 46400
    },
    {
      "epoch": 61.88,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002993066877188756,
      "loss": 0.3851,
      "step": 46410
    },
    {
      "epoch": 61.89333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029930638588136484,
      "loss": 0.3969,
      "step": 46420
    },
    {
      "epoch": 61.906666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002993060839783173,
      "loss": 0.4051,
      "step": 46430
    },
    {
      "epoch": 61.92,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002993057820097331,
      "loss": 0.4082,
      "step": 46440
    },
    {
      "epoch": 61.93333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029930547997561235,
      "loss": 0.4006,
      "step": 46450
    },
    {
      "epoch": 61.946666666666665,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029930517787595527,
      "loss": 0.4005,
      "step": 46460
    },
    {
      "epoch": 61.96,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029930487571076185,
      "loss": 0.398,
      "step": 46470
    },
    {
      "epoch": 61.973333333333336,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029930457348003236,
      "loss": 0.4249,
      "step": 46480
    },
    {
      "epoch": 61.986666666666665,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002993042711837668,
      "loss": 0.3992,
      "step": 46490
    },
    {
      "epoch": 62.0,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002993039688219655,
      "loss": 0.3926,
      "step": 46500
    },
    {
      "epoch": 62.0,
      "eval_loss": 0.4326027035713196,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2687,
      "eval_samples_per_second": 1.558,
      "eval_steps_per_second": 0.097,
      "step": 46500
    },
    {
      "epoch": 62.013333333333335,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029930366639462834,
      "loss": 0.4108,
      "step": 46510
    },
    {
      "epoch": 62.026666666666664,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002993033639017556,
      "loss": 0.4229,
      "step": 46520
    },
    {
      "epoch": 62.04,
      "grad_norm": 0.375,
      "learning_rate": 0.0002993030613433474,
      "loss": 0.4345,
      "step": 46530
    },
    {
      "epoch": 62.053333333333335,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002993027587194039,
      "loss": 0.4213,
      "step": 46540
    },
    {
      "epoch": 62.06666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002993024560299252,
      "loss": 0.408,
      "step": 46550
    },
    {
      "epoch": 62.08,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002993021532749114,
      "loss": 0.4117,
      "step": 46560
    },
    {
      "epoch": 62.093333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029930185045436267,
      "loss": 0.4122,
      "step": 46570
    },
    {
      "epoch": 62.10666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029930154756827916,
      "loss": 0.4006,
      "step": 46580
    },
    {
      "epoch": 62.12,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000299301244616661,
      "loss": 0.406,
      "step": 46590
    },
    {
      "epoch": 62.13333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029930094159950823,
      "loss": 0.3984,
      "step": 46600
    },
    {
      "epoch": 62.14666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002993006385168211,
      "loss": 0.4174,
      "step": 46610
    },
    {
      "epoch": 62.16,
      "grad_norm": 0.375,
      "learning_rate": 0.0002993003353685997,
      "loss": 0.4094,
      "step": 46620
    },
    {
      "epoch": 62.17333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002993000321548442,
      "loss": 0.4039,
      "step": 46630
    },
    {
      "epoch": 62.18666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029929972887555463,
      "loss": 0.4038,
      "step": 46640
    },
    {
      "epoch": 62.2,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002992994255307312,
      "loss": 0.3971,
      "step": 46650
    },
    {
      "epoch": 62.21333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002992991221203741,
      "loss": 0.3968,
      "step": 46660
    },
    {
      "epoch": 62.22666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002992988186444833,
      "loss": 0.4091,
      "step": 46670
    },
    {
      "epoch": 62.24,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029929851510305904,
      "loss": 0.3939,
      "step": 46680
    },
    {
      "epoch": 62.25333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002992982114961015,
      "loss": 0.3966,
      "step": 46690
    },
    {
      "epoch": 62.266666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029929790782361074,
      "loss": 0.3987,
      "step": 46700
    },
    {
      "epoch": 62.28,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029929760408558685,
      "loss": 0.4291,
      "step": 46710
    },
    {
      "epoch": 62.29333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029929730028203005,
      "loss": 0.3851,
      "step": 46720
    },
    {
      "epoch": 62.306666666666665,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002992969964129405,
      "loss": 0.4077,
      "step": 46730
    },
    {
      "epoch": 62.32,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029929669247831823,
      "loss": 0.4083,
      "step": 46740
    },
    {
      "epoch": 62.333333333333336,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002992963884781634,
      "loss": 0.414,
      "step": 46750
    },
    {
      "epoch": 62.346666666666664,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002992960844124762,
      "loss": 0.4034,
      "step": 46760
    },
    {
      "epoch": 62.36,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029929578028125675,
      "loss": 0.4049,
      "step": 46770
    },
    {
      "epoch": 62.373333333333335,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002992954760845051,
      "loss": 0.4048,
      "step": 46780
    },
    {
      "epoch": 62.38666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002992951718222215,
      "loss": 0.3976,
      "step": 46790
    },
    {
      "epoch": 62.4,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299294867494406,
      "loss": 0.405,
      "step": 46800
    },
    {
      "epoch": 62.413333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029929456310105875,
      "loss": 0.4084,
      "step": 46810
    },
    {
      "epoch": 62.42666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002992942586421799,
      "loss": 0.4103,
      "step": 46820
    },
    {
      "epoch": 62.44,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002992939541177696,
      "loss": 0.4222,
      "step": 46830
    },
    {
      "epoch": 62.45333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000299293649527828,
      "loss": 0.4109,
      "step": 46840
    },
    {
      "epoch": 62.46666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029929334487235513,
      "loss": 0.4202,
      "step": 46850
    },
    {
      "epoch": 62.48,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992930401513512,
      "loss": 0.4012,
      "step": 46860
    },
    {
      "epoch": 62.49333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002992927353648164,
      "loss": 0.413,
      "step": 46870
    },
    {
      "epoch": 62.50666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002992924305127507,
      "loss": 0.41,
      "step": 46880
    },
    {
      "epoch": 62.52,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002992921255951544,
      "loss": 0.4002,
      "step": 46890
    },
    {
      "epoch": 62.53333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002992918206120275,
      "loss": 0.4042,
      "step": 46900
    },
    {
      "epoch": 62.54666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002992915155633703,
      "loss": 0.4056,
      "step": 46910
    },
    {
      "epoch": 62.56,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002992912104491828,
      "loss": 0.4004,
      "step": 46920
    },
    {
      "epoch": 62.57333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002992909052694651,
      "loss": 0.4045,
      "step": 46930
    },
    {
      "epoch": 62.586666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002992906000242175,
      "loss": 0.3928,
      "step": 46940
    },
    {
      "epoch": 62.6,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029929029471344,
      "loss": 0.3944,
      "step": 46950
    },
    {
      "epoch": 62.61333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002992899893371327,
      "loss": 0.3822,
      "step": 46960
    },
    {
      "epoch": 62.626666666666665,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00029928968389529586,
      "loss": 0.3884,
      "step": 46970
    },
    {
      "epoch": 62.64,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029928937838792955,
      "loss": 0.4018,
      "step": 46980
    },
    {
      "epoch": 62.653333333333336,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029928907281503395,
      "loss": 0.4121,
      "step": 46990
    },
    {
      "epoch": 62.666666666666664,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002992887671766091,
      "loss": 0.3969,
      "step": 47000
    },
    {
      "epoch": 62.68,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002992884614726552,
      "loss": 0.3901,
      "step": 47010
    },
    {
      "epoch": 62.693333333333335,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029928815570317245,
      "loss": 0.3988,
      "step": 47020
    },
    {
      "epoch": 62.70666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002992878498681608,
      "loss": 0.3925,
      "step": 47030
    },
    {
      "epoch": 62.72,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002992875439676206,
      "loss": 0.4145,
      "step": 47040
    },
    {
      "epoch": 62.733333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029928723800155176,
      "loss": 0.4094,
      "step": 47050
    },
    {
      "epoch": 62.74666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002992869319699546,
      "loss": 0.4102,
      "step": 47060
    },
    {
      "epoch": 62.76,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002992866258728292,
      "loss": 0.4232,
      "step": 47070
    },
    {
      "epoch": 62.77333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002992863197101756,
      "loss": 0.4118,
      "step": 47080
    },
    {
      "epoch": 62.78666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002992860134819941,
      "loss": 0.4123,
      "step": 47090
    },
    {
      "epoch": 62.8,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029928570718828476,
      "loss": 0.4113,
      "step": 47100
    },
    {
      "epoch": 62.81333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002992854008290476,
      "loss": 0.3842,
      "step": 47110
    },
    {
      "epoch": 62.82666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029928509440428294,
      "loss": 0.3955,
      "step": 47120
    },
    {
      "epoch": 62.84,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002992847879139908,
      "loss": 0.4061,
      "step": 47130
    },
    {
      "epoch": 62.85333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002992844813581714,
      "loss": 0.4011,
      "step": 47140
    },
    {
      "epoch": 62.86666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029928417473682476,
      "loss": 0.4054,
      "step": 47150
    },
    {
      "epoch": 62.88,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002992838680499511,
      "loss": 0.3848,
      "step": 47160
    },
    {
      "epoch": 62.89333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029928356129755055,
      "loss": 0.3969,
      "step": 47170
    },
    {
      "epoch": 62.906666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002992832544796232,
      "loss": 0.4045,
      "step": 47180
    },
    {
      "epoch": 62.92,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002992829475961692,
      "loss": 0.4064,
      "step": 47190
    },
    {
      "epoch": 62.93333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029928264064718867,
      "loss": 0.3995,
      "step": 47200
    },
    {
      "epoch": 62.946666666666665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029928233363268186,
      "loss": 0.4004,
      "step": 47210
    },
    {
      "epoch": 62.96,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029928202655264875,
      "loss": 0.3975,
      "step": 47220
    },
    {
      "epoch": 62.973333333333336,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029928171940708955,
      "loss": 0.4233,
      "step": 47230
    },
    {
      "epoch": 62.986666666666665,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029928141219600436,
      "loss": 0.3981,
      "step": 47240
    },
    {
      "epoch": 63.0,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029928110491939336,
      "loss": 0.3914,
      "step": 47250
    },
    {
      "epoch": 63.0,
      "eval_loss": 0.4315524399280548,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6431,
      "eval_samples_per_second": 1.659,
      "eval_steps_per_second": 0.104,
      "step": 47250
    },
    {
      "epoch": 63.013333333333335,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002992807975772567,
      "loss": 0.4096,
      "step": 47260
    },
    {
      "epoch": 63.026666666666664,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029928049016959444,
      "loss": 0.4219,
      "step": 47270
    },
    {
      "epoch": 63.04,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029928018269640674,
      "loss": 0.4334,
      "step": 47280
    },
    {
      "epoch": 63.053333333333335,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029927987515769377,
      "loss": 0.4211,
      "step": 47290
    },
    {
      "epoch": 63.06666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002992795675534556,
      "loss": 0.4071,
      "step": 47300
    },
    {
      "epoch": 63.08,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002992792598836925,
      "loss": 0.4116,
      "step": 47310
    },
    {
      "epoch": 63.093333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029927895214840444,
      "loss": 0.4127,
      "step": 47320
    },
    {
      "epoch": 63.10666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029927864434759166,
      "loss": 0.4001,
      "step": 47330
    },
    {
      "epoch": 63.12,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029927833648125425,
      "loss": 0.4057,
      "step": 47340
    },
    {
      "epoch": 63.13333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029927802854939233,
      "loss": 0.3973,
      "step": 47350
    },
    {
      "epoch": 63.14666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029927772055200616,
      "loss": 0.4157,
      "step": 47360
    },
    {
      "epoch": 63.16,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002992774124890957,
      "loss": 0.4089,
      "step": 47370
    },
    {
      "epoch": 63.17333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992771043606612,
      "loss": 0.404,
      "step": 47380
    },
    {
      "epoch": 63.18666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029927679616670273,
      "loss": 0.4033,
      "step": 47390
    },
    {
      "epoch": 63.2,
      "grad_norm": 0.375,
      "learning_rate": 0.00029927648790722044,
      "loss": 0.3956,
      "step": 47400
    },
    {
      "epoch": 63.21333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992761795822145,
      "loss": 0.3965,
      "step": 47410
    },
    {
      "epoch": 63.22666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029927587119168503,
      "loss": 0.409,
      "step": 47420
    },
    {
      "epoch": 63.24,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002992755627356322,
      "loss": 0.3932,
      "step": 47430
    },
    {
      "epoch": 63.25333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029927525421405605,
      "loss": 0.3951,
      "step": 47440
    },
    {
      "epoch": 63.266666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029927494562695677,
      "loss": 0.3985,
      "step": 47450
    },
    {
      "epoch": 63.28,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992746369743345,
      "loss": 0.4293,
      "step": 47460
    },
    {
      "epoch": 63.29333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029927432825618936,
      "loss": 0.3834,
      "step": 47470
    },
    {
      "epoch": 63.306666666666665,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029927401947252156,
      "loss": 0.407,
      "step": 47480
    },
    {
      "epoch": 63.32,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029927371062333114,
      "loss": 0.4086,
      "step": 47490
    },
    {
      "epoch": 63.333333333333336,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029927340170861827,
      "loss": 0.4134,
      "step": 47500
    },
    {
      "epoch": 63.346666666666664,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002992730927283831,
      "loss": 0.4035,
      "step": 47510
    },
    {
      "epoch": 63.36,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029927278368262574,
      "loss": 0.404,
      "step": 47520
    },
    {
      "epoch": 63.373333333333335,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002992724745713463,
      "loss": 0.4037,
      "step": 47530
    },
    {
      "epoch": 63.38666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.000299272165394545,
      "loss": 0.3975,
      "step": 47540
    },
    {
      "epoch": 63.4,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002992718561522219,
      "loss": 0.4038,
      "step": 47550
    },
    {
      "epoch": 63.413333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029927154684437717,
      "loss": 0.4089,
      "step": 47560
    },
    {
      "epoch": 63.42666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029927123747101094,
      "loss": 0.4099,
      "step": 47570
    },
    {
      "epoch": 63.44,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029927092803212334,
      "loss": 0.4211,
      "step": 47580
    },
    {
      "epoch": 63.45333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002992706185277145,
      "loss": 0.412,
      "step": 47590
    },
    {
      "epoch": 63.46666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002992703089577846,
      "loss": 0.4188,
      "step": 47600
    },
    {
      "epoch": 63.48,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002992699993223337,
      "loss": 0.4009,
      "step": 47610
    },
    {
      "epoch": 63.49333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.000299269689621362,
      "loss": 0.4122,
      "step": 47620
    },
    {
      "epoch": 63.50666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029926937985486963,
      "loss": 0.4104,
      "step": 47630
    },
    {
      "epoch": 63.52,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002992690700228567,
      "loss": 0.4,
      "step": 47640
    },
    {
      "epoch": 63.53333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029926876012532336,
      "loss": 0.4044,
      "step": 47650
    },
    {
      "epoch": 63.54666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002992684501622697,
      "loss": 0.4052,
      "step": 47660
    },
    {
      "epoch": 63.56,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029926814013369593,
      "loss": 0.3997,
      "step": 47670
    },
    {
      "epoch": 63.57333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002992678300396022,
      "loss": 0.403,
      "step": 47680
    },
    {
      "epoch": 63.586666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029926751987998854,
      "loss": 0.3914,
      "step": 47690
    },
    {
      "epoch": 63.6,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002992672096548552,
      "loss": 0.3935,
      "step": 47700
    },
    {
      "epoch": 63.61333333333333,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0002992668993642022,
      "loss": 0.3825,
      "step": 47710
    },
    {
      "epoch": 63.626666666666665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029926658900802976,
      "loss": 0.3881,
      "step": 47720
    },
    {
      "epoch": 63.64,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000299266278586338,
      "loss": 0.4014,
      "step": 47730
    },
    {
      "epoch": 63.653333333333336,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029926596809912707,
      "loss": 0.4109,
      "step": 47740
    },
    {
      "epoch": 63.666666666666664,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029926565754639705,
      "loss": 0.3979,
      "step": 47750
    },
    {
      "epoch": 63.68,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029926534692814816,
      "loss": 0.3904,
      "step": 47760
    },
    {
      "epoch": 63.693333333333335,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029926503624438044,
      "loss": 0.3994,
      "step": 47770
    },
    {
      "epoch": 63.70666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002992647254950941,
      "loss": 0.3924,
      "step": 47780
    },
    {
      "epoch": 63.72,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002992644146802893,
      "loss": 0.4149,
      "step": 47790
    },
    {
      "epoch": 63.733333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029926410379996606,
      "loss": 0.409,
      "step": 47800
    },
    {
      "epoch": 63.74666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029926379285412456,
      "loss": 0.4109,
      "step": 47810
    },
    {
      "epoch": 63.76,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029926348184276504,
      "loss": 0.4231,
      "step": 47820
    },
    {
      "epoch": 63.77333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002992631707658875,
      "loss": 0.4117,
      "step": 47830
    },
    {
      "epoch": 63.78666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992628596234922,
      "loss": 0.4119,
      "step": 47840
    },
    {
      "epoch": 63.8,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002992625484155791,
      "loss": 0.4093,
      "step": 47850
    },
    {
      "epoch": 63.81333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002992622371421486,
      "loss": 0.3834,
      "step": 47860
    },
    {
      "epoch": 63.82666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992619258032006,
      "loss": 0.3937,
      "step": 47870
    },
    {
      "epoch": 63.84,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029926161439873533,
      "loss": 0.4057,
      "step": 47880
    },
    {
      "epoch": 63.85333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029926130292875293,
      "loss": 0.401,
      "step": 47890
    },
    {
      "epoch": 63.86666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002992609913932535,
      "loss": 0.4042,
      "step": 47900
    },
    {
      "epoch": 63.88,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029926067979223724,
      "loss": 0.3848,
      "step": 47910
    },
    {
      "epoch": 63.89333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029926036812570427,
      "loss": 0.3959,
      "step": 47920
    },
    {
      "epoch": 63.906666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002992600563936546,
      "loss": 0.4036,
      "step": 47930
    },
    {
      "epoch": 63.92,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002992597445960886,
      "loss": 0.406,
      "step": 47940
    },
    {
      "epoch": 63.93333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002992594327330062,
      "loss": 0.3985,
      "step": 47950
    },
    {
      "epoch": 63.946666666666665,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002992591208044076,
      "loss": 0.4004,
      "step": 47960
    },
    {
      "epoch": 63.96,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000299258808810293,
      "loss": 0.3969,
      "step": 47970
    },
    {
      "epoch": 63.973333333333336,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029925849675066247,
      "loss": 0.4235,
      "step": 47980
    },
    {
      "epoch": 63.986666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002992581846255162,
      "loss": 0.3992,
      "step": 47990
    },
    {
      "epoch": 64.0,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029925787243485427,
      "loss": 0.392,
      "step": 48000
    },
    {
      "epoch": 64.0,
      "eval_loss": 0.4317149519920349,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7894,
      "eval_samples_per_second": 1.634,
      "eval_steps_per_second": 0.102,
      "step": 48000
    },
    {
      "epoch": 64.01333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002992575601786768,
      "loss": 0.4093,
      "step": 48010
    },
    {
      "epoch": 64.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029925724785698405,
      "loss": 0.4224,
      "step": 48020
    },
    {
      "epoch": 64.04,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000299256935469776,
      "loss": 0.4339,
      "step": 48030
    },
    {
      "epoch": 64.05333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002992566230170529,
      "loss": 0.421,
      "step": 48040
    },
    {
      "epoch": 64.06666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029925631049881483,
      "loss": 0.407,
      "step": 48050
    },
    {
      "epoch": 64.08,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029925599791506195,
      "loss": 0.4114,
      "step": 48060
    },
    {
      "epoch": 64.09333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002992556852657944,
      "loss": 0.4115,
      "step": 48070
    },
    {
      "epoch": 64.10666666666667,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029925537255101235,
      "loss": 0.3999,
      "step": 48080
    },
    {
      "epoch": 64.12,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002992550597707159,
      "loss": 0.4061,
      "step": 48090
    },
    {
      "epoch": 64.13333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992547469249051,
      "loss": 0.3977,
      "step": 48100
    },
    {
      "epoch": 64.14666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002992544340135802,
      "loss": 0.4155,
      "step": 48110
    },
    {
      "epoch": 64.16,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002992541210367414,
      "loss": 0.4096,
      "step": 48120
    },
    {
      "epoch": 64.17333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029925380799438866,
      "loss": 0.4027,
      "step": 48130
    },
    {
      "epoch": 64.18666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029925349488652225,
      "loss": 0.4028,
      "step": 48140
    },
    {
      "epoch": 64.2,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029925318171314223,
      "loss": 0.3948,
      "step": 48150
    },
    {
      "epoch": 64.21333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002992528684742488,
      "loss": 0.397,
      "step": 48160
    },
    {
      "epoch": 64.22666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000299252555169842,
      "loss": 0.4085,
      "step": 48170
    },
    {
      "epoch": 64.24,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002992522417999221,
      "loss": 0.3926,
      "step": 48180
    },
    {
      "epoch": 64.25333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002992519283644891,
      "loss": 0.3961,
      "step": 48190
    },
    {
      "epoch": 64.26666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002992516148635433,
      "loss": 0.3971,
      "step": 48200
    },
    {
      "epoch": 64.28,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002992513012970847,
      "loss": 0.4285,
      "step": 48210
    },
    {
      "epoch": 64.29333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002992509876651136,
      "loss": 0.384,
      "step": 48220
    },
    {
      "epoch": 64.30666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029925067396762984,
      "loss": 0.4068,
      "step": 48230
    },
    {
      "epoch": 64.32,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029925036020463384,
      "loss": 0.4077,
      "step": 48240
    },
    {
      "epoch": 64.33333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992500463761256,
      "loss": 0.413,
      "step": 48250
    },
    {
      "epoch": 64.34666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002992497324821054,
      "loss": 0.4028,
      "step": 48260
    },
    {
      "epoch": 64.36,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002992494185225731,
      "loss": 0.4044,
      "step": 48270
    },
    {
      "epoch": 64.37333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029924910449752914,
      "loss": 0.4033,
      "step": 48280
    },
    {
      "epoch": 64.38666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002992487904069735,
      "loss": 0.3969,
      "step": 48290
    },
    {
      "epoch": 64.4,
      "grad_norm": 0.375,
      "learning_rate": 0.00029924847625090634,
      "loss": 0.4039,
      "step": 48300
    },
    {
      "epoch": 64.41333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002992481620293278,
      "loss": 0.4084,
      "step": 48310
    },
    {
      "epoch": 64.42666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029924784774223805,
      "loss": 0.4091,
      "step": 48320
    },
    {
      "epoch": 64.44,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029924753338963714,
      "loss": 0.4215,
      "step": 48330
    },
    {
      "epoch": 64.45333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029924721897152536,
      "loss": 0.4109,
      "step": 48340
    },
    {
      "epoch": 64.46666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002992469044879027,
      "loss": 0.4199,
      "step": 48350
    },
    {
      "epoch": 64.48,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029924658993876936,
      "loss": 0.4005,
      "step": 48360
    },
    {
      "epoch": 64.49333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029924627532412545,
      "loss": 0.4116,
      "step": 48370
    },
    {
      "epoch": 64.50666666666666,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002992459606439712,
      "loss": 0.4095,
      "step": 48380
    },
    {
      "epoch": 64.52,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002992456458983066,
      "loss": 0.4003,
      "step": 48390
    },
    {
      "epoch": 64.53333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029924533108713195,
      "loss": 0.4033,
      "step": 48400
    },
    {
      "epoch": 64.54666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002992450162104472,
      "loss": 0.4052,
      "step": 48410
    },
    {
      "epoch": 64.56,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029924470126825267,
      "loss": 0.3999,
      "step": 48420
    },
    {
      "epoch": 64.57333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029924438626054845,
      "loss": 0.4025,
      "step": 48430
    },
    {
      "epoch": 64.58666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002992440711873346,
      "loss": 0.3913,
      "step": 48440
    },
    {
      "epoch": 64.6,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029924375604861134,
      "loss": 0.3936,
      "step": 48450
    },
    {
      "epoch": 64.61333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002992434408443787,
      "loss": 0.3827,
      "step": 48460
    },
    {
      "epoch": 64.62666666666667,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000299243125574637,
      "loss": 0.3875,
      "step": 48470
    },
    {
      "epoch": 64.64,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029924281023938624,
      "loss": 0.4014,
      "step": 48480
    },
    {
      "epoch": 64.65333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029924249483862653,
      "loss": 0.4103,
      "step": 48490
    },
    {
      "epoch": 64.66666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002992421793723582,
      "loss": 0.3978,
      "step": 48500
    },
    {
      "epoch": 64.68,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029924186384058116,
      "loss": 0.3911,
      "step": 48510
    },
    {
      "epoch": 64.69333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002992415482432956,
      "loss": 0.3994,
      "step": 48520
    },
    {
      "epoch": 64.70666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029924123258050184,
      "loss": 0.3925,
      "step": 48530
    },
    {
      "epoch": 64.72,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029924091685219984,
      "loss": 0.4146,
      "step": 48540
    },
    {
      "epoch": 64.73333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029924060105838973,
      "loss": 0.409,
      "step": 48550
    },
    {
      "epoch": 64.74666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029924028519907176,
      "loss": 0.4106,
      "step": 48560
    },
    {
      "epoch": 64.76,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029923996927424596,
      "loss": 0.4234,
      "step": 48570
    },
    {
      "epoch": 64.77333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029923965328391256,
      "loss": 0.4106,
      "step": 48580
    },
    {
      "epoch": 64.78666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029923933722807167,
      "loss": 0.4111,
      "step": 48590
    },
    {
      "epoch": 64.8,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029923902110672333,
      "loss": 0.4097,
      "step": 48600
    },
    {
      "epoch": 64.81333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002992387049198679,
      "loss": 0.3834,
      "step": 48610
    },
    {
      "epoch": 64.82666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002992383886675053,
      "loss": 0.3942,
      "step": 48620
    },
    {
      "epoch": 64.84,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029923807234963573,
      "loss": 0.4053,
      "step": 48630
    },
    {
      "epoch": 64.85333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002992377559662594,
      "loss": 0.4011,
      "step": 48640
    },
    {
      "epoch": 64.86666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002992374395173764,
      "loss": 0.4046,
      "step": 48650
    },
    {
      "epoch": 64.88,
      "grad_norm": 0.375,
      "learning_rate": 0.00029923712300298686,
      "loss": 0.3848,
      "step": 48660
    },
    {
      "epoch": 64.89333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029923680642309094,
      "loss": 0.3961,
      "step": 48670
    },
    {
      "epoch": 64.90666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029923648977768876,
      "loss": 0.4044,
      "step": 48680
    },
    {
      "epoch": 64.92,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029923617306678045,
      "loss": 0.4063,
      "step": 48690
    },
    {
      "epoch": 64.93333333333334,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029923585629036616,
      "loss": 0.3993,
      "step": 48700
    },
    {
      "epoch": 64.94666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029923553944844605,
      "loss": 0.3996,
      "step": 48710
    },
    {
      "epoch": 64.96,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029923522254102024,
      "loss": 0.3965,
      "step": 48720
    },
    {
      "epoch": 64.97333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029923490556808894,
      "loss": 0.4227,
      "step": 48730
    },
    {
      "epoch": 64.98666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029923458852965215,
      "loss": 0.3985,
      "step": 48740
    },
    {
      "epoch": 65.0,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029923427142571003,
      "loss": 0.3911,
      "step": 48750
    },
    {
      "epoch": 65.0,
      "eval_loss": 0.43181222677230835,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5167,
      "eval_samples_per_second": 1.681,
      "eval_steps_per_second": 0.105,
      "step": 48750
    },
    {
      "epoch": 65.01333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029923395425626286,
      "loss": 0.4091,
      "step": 48760
    },
    {
      "epoch": 65.02666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002992336370213107,
      "loss": 0.4219,
      "step": 48770
    },
    {
      "epoch": 65.04,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002992333197208536,
      "loss": 0.4338,
      "step": 48780
    },
    {
      "epoch": 65.05333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002992330023548919,
      "loss": 0.4201,
      "step": 48790
    },
    {
      "epoch": 65.06666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002992326849234255,
      "loss": 0.4076,
      "step": 48800
    },
    {
      "epoch": 65.08,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029923236742645474,
      "loss": 0.4107,
      "step": 48810
    },
    {
      "epoch": 65.09333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002992320498639796,
      "loss": 0.4117,
      "step": 48820
    },
    {
      "epoch": 65.10666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029923173223600036,
      "loss": 0.3989,
      "step": 48830
    },
    {
      "epoch": 65.12,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000299231414542517,
      "loss": 0.4054,
      "step": 48840
    },
    {
      "epoch": 65.13333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002992310967835299,
      "loss": 0.3971,
      "step": 48850
    },
    {
      "epoch": 65.14666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002992307789590389,
      "loss": 0.4161,
      "step": 48860
    },
    {
      "epoch": 65.16,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029923046106904443,
      "loss": 0.4096,
      "step": 48870
    },
    {
      "epoch": 65.17333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002992301431135464,
      "loss": 0.4028,
      "step": 48880
    },
    {
      "epoch": 65.18666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029922982509254505,
      "loss": 0.4019,
      "step": 48890
    },
    {
      "epoch": 65.2,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002992295070060406,
      "loss": 0.3955,
      "step": 48900
    },
    {
      "epoch": 65.21333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299229188854033,
      "loss": 0.3961,
      "step": 48910
    },
    {
      "epoch": 65.22666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029922887063652253,
      "loss": 0.4079,
      "step": 48920
    },
    {
      "epoch": 65.24,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002992285523535093,
      "loss": 0.3934,
      "step": 48930
    },
    {
      "epoch": 65.25333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002992282340049934,
      "loss": 0.3956,
      "step": 48940
    },
    {
      "epoch": 65.26666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029922791559097505,
      "loss": 0.3974,
      "step": 48950
    },
    {
      "epoch": 65.28,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002992275971114544,
      "loss": 0.4281,
      "step": 48960
    },
    {
      "epoch": 65.29333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002992272785664315,
      "loss": 0.3835,
      "step": 48970
    },
    {
      "epoch": 65.30666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029922695995590647,
      "loss": 0.4058,
      "step": 48980
    },
    {
      "epoch": 65.32,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029922664127987955,
      "loss": 0.4084,
      "step": 48990
    },
    {
      "epoch": 65.33333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002992263225383509,
      "loss": 0.4138,
      "step": 49000
    },
    {
      "epoch": 65.34666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029922600373132047,
      "loss": 0.4027,
      "step": 49010
    },
    {
      "epoch": 65.36,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002992256848587886,
      "loss": 0.4035,
      "step": 49020
    },
    {
      "epoch": 65.37333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029922536592075536,
      "loss": 0.404,
      "step": 49030
    },
    {
      "epoch": 65.38666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029922504691722094,
      "loss": 0.3967,
      "step": 49040
    },
    {
      "epoch": 65.4,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002992247278481854,
      "loss": 0.4039,
      "step": 49050
    },
    {
      "epoch": 65.41333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029922440871364887,
      "loss": 0.407,
      "step": 49060
    },
    {
      "epoch": 65.42666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029922408951361154,
      "loss": 0.4096,
      "step": 49070
    },
    {
      "epoch": 65.44,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029922377024807354,
      "loss": 0.421,
      "step": 49080
    },
    {
      "epoch": 65.45333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029922345091703504,
      "loss": 0.4101,
      "step": 49090
    },
    {
      "epoch": 65.46666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002992231315204961,
      "loss": 0.4199,
      "step": 49100
    },
    {
      "epoch": 65.48,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029922281205845697,
      "loss": 0.4002,
      "step": 49110
    },
    {
      "epoch": 65.49333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002992224925309177,
      "loss": 0.412,
      "step": 49120
    },
    {
      "epoch": 65.50666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002992221729378785,
      "loss": 0.4097,
      "step": 49130
    },
    {
      "epoch": 65.52,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002992218532793394,
      "loss": 0.4006,
      "step": 49140
    },
    {
      "epoch": 65.53333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029922153355530065,
      "loss": 0.403,
      "step": 49150
    },
    {
      "epoch": 65.54666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002992212137657624,
      "loss": 0.4051,
      "step": 49160
    },
    {
      "epoch": 65.56,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029922089391072463,
      "loss": 0.4,
      "step": 49170
    },
    {
      "epoch": 65.57333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002992205739901877,
      "loss": 0.4024,
      "step": 49180
    },
    {
      "epoch": 65.58666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002992202540041516,
      "loss": 0.3919,
      "step": 49190
    },
    {
      "epoch": 65.6,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002992199339526165,
      "loss": 0.3935,
      "step": 49200
    },
    {
      "epoch": 65.61333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029921961383558255,
      "loss": 0.3817,
      "step": 49210
    },
    {
      "epoch": 65.62666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002992192936530499,
      "loss": 0.3869,
      "step": 49220
    },
    {
      "epoch": 65.64,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002992189734050187,
      "loss": 0.4015,
      "step": 49230
    },
    {
      "epoch": 65.65333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029921865309148906,
      "loss": 0.4113,
      "step": 49240
    },
    {
      "epoch": 65.66666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029921833271246117,
      "loss": 0.3964,
      "step": 49250
    },
    {
      "epoch": 65.68,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002992180122679351,
      "loss": 0.3899,
      "step": 49260
    },
    {
      "epoch": 65.69333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029921769175791105,
      "loss": 0.399,
      "step": 49270
    },
    {
      "epoch": 65.70666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029921737118238914,
      "loss": 0.392,
      "step": 49280
    },
    {
      "epoch": 65.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002992170505413695,
      "loss": 0.4149,
      "step": 49290
    },
    {
      "epoch": 65.73333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029921672983485226,
      "loss": 0.4083,
      "step": 49300
    },
    {
      "epoch": 65.74666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002992164090628376,
      "loss": 0.4103,
      "step": 49310
    },
    {
      "epoch": 65.76,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029921608822532563,
      "loss": 0.4227,
      "step": 49320
    },
    {
      "epoch": 65.77333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002992157673223165,
      "loss": 0.4114,
      "step": 49330
    },
    {
      "epoch": 65.78666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029921544635381033,
      "loss": 0.4104,
      "step": 49340
    },
    {
      "epoch": 65.8,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029921512531980735,
      "loss": 0.4095,
      "step": 49350
    },
    {
      "epoch": 65.81333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002992148042203076,
      "loss": 0.3826,
      "step": 49360
    },
    {
      "epoch": 65.82666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029921448305531126,
      "loss": 0.3935,
      "step": 49370
    },
    {
      "epoch": 65.84,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002992141618248185,
      "loss": 0.405,
      "step": 49380
    },
    {
      "epoch": 65.85333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029921384052882937,
      "loss": 0.4005,
      "step": 49390
    },
    {
      "epoch": 65.86666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029921351916734404,
      "loss": 0.4038,
      "step": 49400
    },
    {
      "epoch": 65.88,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029921319774036276,
      "loss": 0.384,
      "step": 49410
    },
    {
      "epoch": 65.89333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029921287624788554,
      "loss": 0.3956,
      "step": 49420
    },
    {
      "epoch": 65.90666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029921255468991263,
      "loss": 0.4035,
      "step": 49430
    },
    {
      "epoch": 65.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029921223306644405,
      "loss": 0.4062,
      "step": 49440
    },
    {
      "epoch": 65.93333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029921191137748,
      "loss": 0.3987,
      "step": 49450
    },
    {
      "epoch": 65.94666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002992115896230207,
      "loss": 0.4003,
      "step": 49460
    },
    {
      "epoch": 65.96,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029921126780306615,
      "loss": 0.3973,
      "step": 49470
    },
    {
      "epoch": 65.97333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002992109459176166,
      "loss": 0.4221,
      "step": 49480
    },
    {
      "epoch": 65.98666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002992106239666721,
      "loss": 0.3978,
      "step": 49490
    },
    {
      "epoch": 66.0,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002992103019502329,
      "loss": 0.3908,
      "step": 49500
    },
    {
      "epoch": 66.0,
      "eval_loss": 0.4309389293193817,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7169,
      "eval_samples_per_second": 1.647,
      "eval_steps_per_second": 0.103,
      "step": 49500
    },
    {
      "epoch": 66.01333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000299209979868299,
      "loss": 0.4097,
      "step": 49510
    },
    {
      "epoch": 66.02666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002992096577208707,
      "loss": 0.4215,
      "step": 49520
    },
    {
      "epoch": 66.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029920933550794807,
      "loss": 0.4333,
      "step": 49530
    },
    {
      "epoch": 66.05333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002992090132295312,
      "loss": 0.4198,
      "step": 49540
    },
    {
      "epoch": 66.06666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002992086908856203,
      "loss": 0.4066,
      "step": 49550
    },
    {
      "epoch": 66.08,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029920836847621544,
      "loss": 0.4105,
      "step": 49560
    },
    {
      "epoch": 66.09333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002992080460013169,
      "loss": 0.4121,
      "step": 49570
    },
    {
      "epoch": 66.10666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002992077234609247,
      "loss": 0.3993,
      "step": 49580
    },
    {
      "epoch": 66.12,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029920740085503895,
      "loss": 0.4057,
      "step": 49590
    },
    {
      "epoch": 66.13333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002992070781836599,
      "loss": 0.397,
      "step": 49600
    },
    {
      "epoch": 66.14666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029920675544678764,
      "loss": 0.4154,
      "step": 49610
    },
    {
      "epoch": 66.16,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029920643264442234,
      "loss": 0.4091,
      "step": 49620
    },
    {
      "epoch": 66.17333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029920610977656414,
      "loss": 0.4033,
      "step": 49630
    },
    {
      "epoch": 66.18666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002992057868432131,
      "loss": 0.4018,
      "step": 49640
    },
    {
      "epoch": 66.2,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029920546384436947,
      "loss": 0.3959,
      "step": 49650
    },
    {
      "epoch": 66.21333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029920514078003333,
      "loss": 0.3962,
      "step": 49660
    },
    {
      "epoch": 66.22666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029920481765020483,
      "loss": 0.408,
      "step": 49670
    },
    {
      "epoch": 66.24,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002992044944548841,
      "loss": 0.3931,
      "step": 49680
    },
    {
      "epoch": 66.25333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029920417119407136,
      "loss": 0.3958,
      "step": 49690
    },
    {
      "epoch": 66.26666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029920384786776667,
      "loss": 0.3976,
      "step": 49700
    },
    {
      "epoch": 66.28,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029920352447597014,
      "loss": 0.4272,
      "step": 49710
    },
    {
      "epoch": 66.29333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029920320101868206,
      "loss": 0.3832,
      "step": 49720
    },
    {
      "epoch": 66.30666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002992028774959024,
      "loss": 0.406,
      "step": 49730
    },
    {
      "epoch": 66.32,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029920255390763144,
      "loss": 0.4081,
      "step": 49740
    },
    {
      "epoch": 66.33333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029920223025386923,
      "loss": 0.413,
      "step": 49750
    },
    {
      "epoch": 66.34666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029920190653461595,
      "loss": 0.4032,
      "step": 49760
    },
    {
      "epoch": 66.36,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002992015827498717,
      "loss": 0.4031,
      "step": 49770
    },
    {
      "epoch": 66.37333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002992012588996367,
      "loss": 0.4029,
      "step": 49780
    },
    {
      "epoch": 66.38666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002992009349839111,
      "loss": 0.3967,
      "step": 49790
    },
    {
      "epoch": 66.4,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002992006110026949,
      "loss": 0.4035,
      "step": 49800
    },
    {
      "epoch": 66.41333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002992002869559884,
      "loss": 0.4078,
      "step": 49810
    },
    {
      "epoch": 66.42666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002991999628437916,
      "loss": 0.4103,
      "step": 49820
    },
    {
      "epoch": 66.44,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002991996386661048,
      "loss": 0.4209,
      "step": 49830
    },
    {
      "epoch": 66.45333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029919931442292806,
      "loss": 0.4105,
      "step": 49840
    },
    {
      "epoch": 66.46666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002991989901142615,
      "loss": 0.4187,
      "step": 49850
    },
    {
      "epoch": 66.48,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991986657401053,
      "loss": 0.4005,
      "step": 49860
    },
    {
      "epoch": 66.49333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029919834130045955,
      "loss": 0.4121,
      "step": 49870
    },
    {
      "epoch": 66.50666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029919801679532444,
      "loss": 0.408,
      "step": 49880
    },
    {
      "epoch": 66.52,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029919769222470016,
      "loss": 0.4,
      "step": 49890
    },
    {
      "epoch": 66.53333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029919736758858675,
      "loss": 0.4024,
      "step": 49900
    },
    {
      "epoch": 66.54666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002991970428869844,
      "loss": 0.4066,
      "step": 49910
    },
    {
      "epoch": 66.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029919671811989325,
      "loss": 0.3989,
      "step": 49920
    },
    {
      "epoch": 66.57333333333334,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029919639328731347,
      "loss": 0.4029,
      "step": 49930
    },
    {
      "epoch": 66.58666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029919606838924517,
      "loss": 0.3909,
      "step": 49940
    },
    {
      "epoch": 66.6,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002991957434256885,
      "loss": 0.3934,
      "step": 49950
    },
    {
      "epoch": 66.61333333333333,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00029919541839664354,
      "loss": 0.3818,
      "step": 49960
    },
    {
      "epoch": 66.62666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002991950933021106,
      "loss": 0.3873,
      "step": 49970
    },
    {
      "epoch": 66.64,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002991947681420896,
      "loss": 0.4009,
      "step": 49980
    },
    {
      "epoch": 66.65333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002991944429165809,
      "loss": 0.4102,
      "step": 49990
    },
    {
      "epoch": 66.66666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029919411762558453,
      "loss": 0.3967,
      "step": 50000
    },
    {
      "epoch": 66.68,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002991937922691006,
      "loss": 0.3886,
      "step": 50010
    },
    {
      "epoch": 66.69333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002991934668471294,
      "loss": 0.3981,
      "step": 50020
    },
    {
      "epoch": 66.70666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029919314135967083,
      "loss": 0.3923,
      "step": 50030
    },
    {
      "epoch": 66.72,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002991928158067252,
      "loss": 0.4143,
      "step": 50040
    },
    {
      "epoch": 66.73333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991924901882927,
      "loss": 0.4078,
      "step": 50050
    },
    {
      "epoch": 66.74666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002991921645043734,
      "loss": 0.4098,
      "step": 50060
    },
    {
      "epoch": 66.76,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002991918387549674,
      "loss": 0.4231,
      "step": 50070
    },
    {
      "epoch": 66.77333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002991915129400749,
      "loss": 0.4096,
      "step": 50080
    },
    {
      "epoch": 66.78666666666666,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000299191187059696,
      "loss": 0.4101,
      "step": 50090
    },
    {
      "epoch": 66.8,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002991908611138309,
      "loss": 0.4099,
      "step": 50100
    },
    {
      "epoch": 66.81333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002991905351024797,
      "loss": 0.383,
      "step": 50110
    },
    {
      "epoch": 66.82666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029919020902564257,
      "loss": 0.3936,
      "step": 50120
    },
    {
      "epoch": 66.84,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002991898828833197,
      "loss": 0.4047,
      "step": 50130
    },
    {
      "epoch": 66.85333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002991895566755111,
      "loss": 0.4003,
      "step": 50140
    },
    {
      "epoch": 66.86666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000299189230402217,
      "loss": 0.4039,
      "step": 50150
    },
    {
      "epoch": 66.88,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029918890406343754,
      "loss": 0.3847,
      "step": 50160
    },
    {
      "epoch": 66.89333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029918857765917286,
      "loss": 0.3951,
      "step": 50170
    },
    {
      "epoch": 66.90666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991882511894231,
      "loss": 0.4026,
      "step": 50180
    },
    {
      "epoch": 66.92,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029918792465418836,
      "loss": 0.4054,
      "step": 50190
    },
    {
      "epoch": 66.93333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029918759805346886,
      "loss": 0.3977,
      "step": 50200
    },
    {
      "epoch": 66.94666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002991872713872647,
      "loss": 0.3994,
      "step": 50210
    },
    {
      "epoch": 66.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029918694465557604,
      "loss": 0.3963,
      "step": 50220
    },
    {
      "epoch": 66.97333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.000299186617858403,
      "loss": 0.4232,
      "step": 50230
    },
    {
      "epoch": 66.98666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029918629099574573,
      "loss": 0.3969,
      "step": 50240
    },
    {
      "epoch": 67.0,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029918596406760444,
      "loss": 0.391,
      "step": 50250
    },
    {
      "epoch": 67.0,
      "eval_loss": 0.43170082569122314,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0939,
      "eval_samples_per_second": 1.585,
      "eval_steps_per_second": 0.099,
      "step": 50250
    },
    {
      "epoch": 67.01333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002991856370739791,
      "loss": 0.4089,
      "step": 50260
    },
    {
      "epoch": 67.02666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029918531001487005,
      "loss": 0.4212,
      "step": 50270
    },
    {
      "epoch": 67.04,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029918498289027733,
      "loss": 0.4333,
      "step": 50280
    },
    {
      "epoch": 67.05333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029918465570020114,
      "loss": 0.4198,
      "step": 50290
    },
    {
      "epoch": 67.06666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991843284446416,
      "loss": 0.4061,
      "step": 50300
    },
    {
      "epoch": 67.08,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029918400112359875,
      "loss": 0.4102,
      "step": 50310
    },
    {
      "epoch": 67.09333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002991836737370729,
      "loss": 0.4112,
      "step": 50320
    },
    {
      "epoch": 67.10666666666667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002991833462850641,
      "loss": 0.3994,
      "step": 50330
    },
    {
      "epoch": 67.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002991830187675725,
      "loss": 0.4049,
      "step": 50340
    },
    {
      "epoch": 67.13333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002991826911845983,
      "loss": 0.396,
      "step": 50350
    },
    {
      "epoch": 67.14666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002991823635361416,
      "loss": 0.4142,
      "step": 50360
    },
    {
      "epoch": 67.16,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002991820358222025,
      "loss": 0.4084,
      "step": 50370
    },
    {
      "epoch": 67.17333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029918170804278123,
      "loss": 0.4029,
      "step": 50380
    },
    {
      "epoch": 67.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002991813801978778,
      "loss": 0.4007,
      "step": 50390
    },
    {
      "epoch": 67.2,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002991810522874926,
      "loss": 0.3946,
      "step": 50400
    },
    {
      "epoch": 67.21333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029918072431162556,
      "loss": 0.3957,
      "step": 50410
    },
    {
      "epoch": 67.22666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029918039627027687,
      "loss": 0.4078,
      "step": 50420
    },
    {
      "epoch": 67.24,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029918006816344664,
      "loss": 0.3923,
      "step": 50430
    },
    {
      "epoch": 67.25333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991797399911351,
      "loss": 0.3951,
      "step": 50440
    },
    {
      "epoch": 67.26666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029917941175334236,
      "loss": 0.3966,
      "step": 50450
    },
    {
      "epoch": 67.28,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002991790834500686,
      "loss": 0.4267,
      "step": 50460
    },
    {
      "epoch": 67.29333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029917875508131387,
      "loss": 0.3833,
      "step": 50470
    },
    {
      "epoch": 67.30666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002991784266470784,
      "loss": 0.4068,
      "step": 50480
    },
    {
      "epoch": 67.32,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002991780981473623,
      "loss": 0.4072,
      "step": 50490
    },
    {
      "epoch": 67.33333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002991777695821657,
      "loss": 0.4125,
      "step": 50500
    },
    {
      "epoch": 67.34666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002991774409514888,
      "loss": 0.4033,
      "step": 50510
    },
    {
      "epoch": 67.36,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029917711225533163,
      "loss": 0.4039,
      "step": 50520
    },
    {
      "epoch": 67.37333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002991767834936945,
      "loss": 0.4032,
      "step": 50530
    },
    {
      "epoch": 67.38666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002991764546665774,
      "loss": 0.396,
      "step": 50540
    },
    {
      "epoch": 67.4,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029917612577398054,
      "loss": 0.4035,
      "step": 50550
    },
    {
      "epoch": 67.41333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002991757968159041,
      "loss": 0.4086,
      "step": 50560
    },
    {
      "epoch": 67.42666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029917546779234815,
      "loss": 0.4094,
      "step": 50570
    },
    {
      "epoch": 67.44,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029917513870331294,
      "loss": 0.42,
      "step": 50580
    },
    {
      "epoch": 67.45333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029917480954879847,
      "loss": 0.4091,
      "step": 50590
    },
    {
      "epoch": 67.46666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029917448032880503,
      "loss": 0.4182,
      "step": 50600
    },
    {
      "epoch": 67.48,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029917415104333266,
      "loss": 0.4005,
      "step": 50610
    },
    {
      "epoch": 67.49333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029917382169238147,
      "loss": 0.4115,
      "step": 50620
    },
    {
      "epoch": 67.50666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029917349227595174,
      "loss": 0.4092,
      "step": 50630
    },
    {
      "epoch": 67.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002991731627940436,
      "loss": 0.3999,
      "step": 50640
    },
    {
      "epoch": 67.53333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029917283324665706,
      "loss": 0.4034,
      "step": 50650
    },
    {
      "epoch": 67.54666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029917250363379244,
      "loss": 0.4051,
      "step": 50660
    },
    {
      "epoch": 67.56,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002991721739554497,
      "loss": 0.3985,
      "step": 50670
    },
    {
      "epoch": 67.57333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002991718442116291,
      "loss": 0.4021,
      "step": 50680
    },
    {
      "epoch": 67.58666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029917151440233083,
      "loss": 0.3905,
      "step": 50690
    },
    {
      "epoch": 67.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991711845275549,
      "loss": 0.3927,
      "step": 50700
    },
    {
      "epoch": 67.61333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002991708545873015,
      "loss": 0.3819,
      "step": 50710
    },
    {
      "epoch": 67.62666666666667,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00029917052458157086,
      "loss": 0.3883,
      "step": 50720
    },
    {
      "epoch": 67.64,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000299170194510363,
      "loss": 0.4008,
      "step": 50730
    },
    {
      "epoch": 67.65333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029916986437367816,
      "loss": 0.4104,
      "step": 50740
    },
    {
      "epoch": 67.66666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002991695341715165,
      "loss": 0.397,
      "step": 50750
    },
    {
      "epoch": 67.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029916920390387806,
      "loss": 0.3892,
      "step": 50760
    },
    {
      "epoch": 67.69333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029916887357076303,
      "loss": 0.3976,
      "step": 50770
    },
    {
      "epoch": 67.70666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029916854317217157,
      "loss": 0.3918,
      "step": 50780
    },
    {
      "epoch": 67.72,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029916821270810384,
      "loss": 0.4136,
      "step": 50790
    },
    {
      "epoch": 67.73333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029916788217856,
      "loss": 0.4071,
      "step": 50800
    },
    {
      "epoch": 67.74666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002991675515835401,
      "loss": 0.4102,
      "step": 50810
    },
    {
      "epoch": 67.76,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991672209230444,
      "loss": 0.4223,
      "step": 50820
    },
    {
      "epoch": 67.77333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029916689019707297,
      "loss": 0.4095,
      "step": 50830
    },
    {
      "epoch": 67.78666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029916655940562595,
      "loss": 0.4103,
      "step": 50840
    },
    {
      "epoch": 67.8,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002991662285487035,
      "loss": 0.4096,
      "step": 50850
    },
    {
      "epoch": 67.81333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029916589762630586,
      "loss": 0.3822,
      "step": 50860
    },
    {
      "epoch": 67.82666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.000299165566638433,
      "loss": 0.3926,
      "step": 50870
    },
    {
      "epoch": 67.84,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029916523558508524,
      "loss": 0.4037,
      "step": 50880
    },
    {
      "epoch": 67.85333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029916490446626256,
      "loss": 0.3991,
      "step": 50890
    },
    {
      "epoch": 67.86666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029916457328196523,
      "loss": 0.4042,
      "step": 50900
    },
    {
      "epoch": 67.88,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029916424203219337,
      "loss": 0.3841,
      "step": 50910
    },
    {
      "epoch": 67.89333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029916391071694714,
      "loss": 0.395,
      "step": 50920
    },
    {
      "epoch": 67.90666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029916357933622664,
      "loss": 0.4022,
      "step": 50930
    },
    {
      "epoch": 67.92,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299163247890032,
      "loss": 0.4044,
      "step": 50940
    },
    {
      "epoch": 67.93333333333334,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002991629163783634,
      "loss": 0.3972,
      "step": 50950
    },
    {
      "epoch": 67.94666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002991625848012209,
      "loss": 0.3993,
      "step": 50960
    },
    {
      "epoch": 67.96,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029916225315860487,
      "loss": 0.3978,
      "step": 50970
    },
    {
      "epoch": 67.97333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002991619214505152,
      "loss": 0.4215,
      "step": 50980
    },
    {
      "epoch": 67.98666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002991615896769522,
      "loss": 0.3977,
      "step": 50990
    },
    {
      "epoch": 68.0,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000299161257837916,
      "loss": 0.3906,
      "step": 51000
    },
    {
      "epoch": 68.0,
      "eval_loss": 0.4319671094417572,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8906,
      "eval_samples_per_second": 1.618,
      "eval_steps_per_second": 0.101,
      "step": 51000
    },
    {
      "epoch": 68.01333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002991609259334067,
      "loss": 0.4081,
      "step": 51010
    },
    {
      "epoch": 68.02666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029916059396342437,
      "loss": 0.4215,
      "step": 51020
    },
    {
      "epoch": 68.04,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991602619279693,
      "loss": 0.4312,
      "step": 51030
    },
    {
      "epoch": 68.05333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002991599298270416,
      "loss": 0.419,
      "step": 51040
    },
    {
      "epoch": 68.06666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029915959766064137,
      "loss": 0.4067,
      "step": 51050
    },
    {
      "epoch": 68.08,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029915926542876877,
      "loss": 0.4102,
      "step": 51060
    },
    {
      "epoch": 68.09333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029915893313142396,
      "loss": 0.4108,
      "step": 51070
    },
    {
      "epoch": 68.10666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029915860076860706,
      "loss": 0.399,
      "step": 51080
    },
    {
      "epoch": 68.12,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002991582683403183,
      "loss": 0.4039,
      "step": 51090
    },
    {
      "epoch": 68.13333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991579358465577,
      "loss": 0.3958,
      "step": 51100
    },
    {
      "epoch": 68.14666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029915760328732546,
      "loss": 0.4146,
      "step": 51110
    },
    {
      "epoch": 68.16,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029915727066262175,
      "loss": 0.4076,
      "step": 51120
    },
    {
      "epoch": 68.17333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002991569379724467,
      "loss": 0.4017,
      "step": 51130
    },
    {
      "epoch": 68.18666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029915660521680047,
      "loss": 0.4017,
      "step": 51140
    },
    {
      "epoch": 68.2,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002991562723956832,
      "loss": 0.3949,
      "step": 51150
    },
    {
      "epoch": 68.21333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029915593950909504,
      "loss": 0.395,
      "step": 51160
    },
    {
      "epoch": 68.22666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029915560655703605,
      "loss": 0.4071,
      "step": 51170
    },
    {
      "epoch": 68.24,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002991552735395065,
      "loss": 0.391,
      "step": 51180
    },
    {
      "epoch": 68.25333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002991549404565065,
      "loss": 0.3948,
      "step": 51190
    },
    {
      "epoch": 68.26666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029915460730803615,
      "loss": 0.3969,
      "step": 51200
    },
    {
      "epoch": 68.28,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029915427409409566,
      "loss": 0.4266,
      "step": 51210
    },
    {
      "epoch": 68.29333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029915394081468514,
      "loss": 0.3816,
      "step": 51220
    },
    {
      "epoch": 68.30666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002991536074698047,
      "loss": 0.4056,
      "step": 51230
    },
    {
      "epoch": 68.32,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002991532740594546,
      "loss": 0.4073,
      "step": 51240
    },
    {
      "epoch": 68.33333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002991529405836348,
      "loss": 0.4113,
      "step": 51250
    },
    {
      "epoch": 68.34666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029915260704234566,
      "loss": 0.4015,
      "step": 51260
    },
    {
      "epoch": 68.36,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029915227343558717,
      "loss": 0.4021,
      "step": 51270
    },
    {
      "epoch": 68.37333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002991519397633596,
      "loss": 0.4031,
      "step": 51280
    },
    {
      "epoch": 68.38666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029915160602566297,
      "loss": 0.3962,
      "step": 51290
    },
    {
      "epoch": 68.4,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029915127222249747,
      "loss": 0.4032,
      "step": 51300
    },
    {
      "epoch": 68.41333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002991509383538633,
      "loss": 0.4069,
      "step": 51310
    },
    {
      "epoch": 68.42666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002991506044197606,
      "loss": 0.4103,
      "step": 51320
    },
    {
      "epoch": 68.44,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002991502704201894,
      "loss": 0.4203,
      "step": 51330
    },
    {
      "epoch": 68.45333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029914993635515,
      "loss": 0.4091,
      "step": 51340
    },
    {
      "epoch": 68.46666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029914960222464246,
      "loss": 0.4187,
      "step": 51350
    },
    {
      "epoch": 68.48,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029914926802866693,
      "loss": 0.3997,
      "step": 51360
    },
    {
      "epoch": 68.49333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002991489337672236,
      "loss": 0.4109,
      "step": 51370
    },
    {
      "epoch": 68.50666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029914859944031255,
      "loss": 0.4082,
      "step": 51380
    },
    {
      "epoch": 68.52,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029914826504793407,
      "loss": 0.4,
      "step": 51390
    },
    {
      "epoch": 68.53333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002991479305900881,
      "loss": 0.4022,
      "step": 51400
    },
    {
      "epoch": 68.54666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002991475960667749,
      "loss": 0.4048,
      "step": 51410
    },
    {
      "epoch": 68.56,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002991472614779946,
      "loss": 0.399,
      "step": 51420
    },
    {
      "epoch": 68.57333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002991469268237474,
      "loss": 0.4019,
      "step": 51430
    },
    {
      "epoch": 68.58666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029914659210403336,
      "loss": 0.3903,
      "step": 51440
    },
    {
      "epoch": 68.6,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002991462573188527,
      "loss": 0.3931,
      "step": 51450
    },
    {
      "epoch": 68.61333333333333,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0002991459224682055,
      "loss": 0.3816,
      "step": 51460
    },
    {
      "epoch": 68.62666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299145587552092,
      "loss": 0.3866,
      "step": 51470
    },
    {
      "epoch": 68.64,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002991452525705122,
      "loss": 0.3996,
      "step": 51480
    },
    {
      "epoch": 68.65333333333334,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002991449175234664,
      "loss": 0.4103,
      "step": 51490
    },
    {
      "epoch": 68.66666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029914458241095464,
      "loss": 0.395,
      "step": 51500
    },
    {
      "epoch": 68.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029914424723297714,
      "loss": 0.3896,
      "step": 51510
    },
    {
      "epoch": 68.69333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000299143911989534,
      "loss": 0.3972,
      "step": 51520
    },
    {
      "epoch": 68.70666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029914357668062543,
      "loss": 0.3904,
      "step": 51530
    },
    {
      "epoch": 68.72,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002991432413062515,
      "loss": 0.4132,
      "step": 51540
    },
    {
      "epoch": 68.73333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029914290586641233,
      "loss": 0.4078,
      "step": 51550
    },
    {
      "epoch": 68.74666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029914257036110813,
      "loss": 0.4097,
      "step": 51560
    },
    {
      "epoch": 68.76,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002991422347903391,
      "loss": 0.4229,
      "step": 51570
    },
    {
      "epoch": 68.77333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029914189915410534,
      "loss": 0.4108,
      "step": 51580
    },
    {
      "epoch": 68.78666666666666,
      "grad_norm": 0.2890625,
      "learning_rate": 0.00029914156345240697,
      "loss": 0.4093,
      "step": 51590
    },
    {
      "epoch": 68.8,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029914122768524414,
      "loss": 0.4083,
      "step": 51600
    },
    {
      "epoch": 68.81333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029914089185261697,
      "loss": 0.382,
      "step": 51610
    },
    {
      "epoch": 68.82666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029914055595452573,
      "loss": 0.3926,
      "step": 51620
    },
    {
      "epoch": 68.84,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029914021999097047,
      "loss": 0.4044,
      "step": 51630
    },
    {
      "epoch": 68.85333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002991398839619513,
      "loss": 0.4,
      "step": 51640
    },
    {
      "epoch": 68.86666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029913954786746843,
      "loss": 0.4033,
      "step": 51650
    },
    {
      "epoch": 68.88,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029913921170752203,
      "loss": 0.3834,
      "step": 51660
    },
    {
      "epoch": 68.89333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002991388754821122,
      "loss": 0.3943,
      "step": 51670
    },
    {
      "epoch": 68.90666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029913853919123914,
      "loss": 0.4019,
      "step": 51680
    },
    {
      "epoch": 68.92,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002991382028349029,
      "loss": 0.4043,
      "step": 51690
    },
    {
      "epoch": 68.93333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002991378664131038,
      "loss": 0.3972,
      "step": 51700
    },
    {
      "epoch": 68.94666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029913752992584175,
      "loss": 0.3991,
      "step": 51710
    },
    {
      "epoch": 68.96,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991371933731171,
      "loss": 0.3968,
      "step": 51720
    },
    {
      "epoch": 68.97333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002991368567549299,
      "loss": 0.4219,
      "step": 51730
    },
    {
      "epoch": 68.98666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002991365200712803,
      "loss": 0.3973,
      "step": 51740
    },
    {
      "epoch": 69.0,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002991361833221685,
      "loss": 0.3893,
      "step": 51750
    },
    {
      "epoch": 69.0,
      "eval_loss": 0.4300023913383484,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1154,
      "eval_samples_per_second": 1.582,
      "eval_steps_per_second": 0.099,
      "step": 51750
    },
    {
      "epoch": 69.01333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002991358465075946,
      "loss": 0.4085,
      "step": 51760
    },
    {
      "epoch": 69.02666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029913550962755876,
      "loss": 0.4208,
      "step": 51770
    },
    {
      "epoch": 69.04,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029913517268206116,
      "loss": 0.4326,
      "step": 51780
    },
    {
      "epoch": 69.05333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029913483567110187,
      "loss": 0.4182,
      "step": 51790
    },
    {
      "epoch": 69.06666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002991344985946811,
      "loss": 0.4067,
      "step": 51800
    },
    {
      "epoch": 69.08,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029913416145279905,
      "loss": 0.4108,
      "step": 51810
    },
    {
      "epoch": 69.09333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991338242454557,
      "loss": 0.4114,
      "step": 51820
    },
    {
      "epoch": 69.10666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029913348697265137,
      "loss": 0.3988,
      "step": 51830
    },
    {
      "epoch": 69.12,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002991331496343861,
      "loss": 0.4049,
      "step": 51840
    },
    {
      "epoch": 69.13333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029913281223066014,
      "loss": 0.3954,
      "step": 51850
    },
    {
      "epoch": 69.14666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002991324747614735,
      "loss": 0.4144,
      "step": 51860
    },
    {
      "epoch": 69.16,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029913213722682644,
      "loss": 0.4078,
      "step": 51870
    },
    {
      "epoch": 69.17333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029913179962671907,
      "loss": 0.4017,
      "step": 51880
    },
    {
      "epoch": 69.18666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991314619611515,
      "loss": 0.401,
      "step": 51890
    },
    {
      "epoch": 69.2,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000299131124230124,
      "loss": 0.3951,
      "step": 51900
    },
    {
      "epoch": 69.21333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002991307864336366,
      "loss": 0.3953,
      "step": 51910
    },
    {
      "epoch": 69.22666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029913044857168944,
      "loss": 0.4059,
      "step": 51920
    },
    {
      "epoch": 69.24,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002991301106442828,
      "loss": 0.392,
      "step": 51930
    },
    {
      "epoch": 69.25333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002991297726514166,
      "loss": 0.3943,
      "step": 51940
    },
    {
      "epoch": 69.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029912943459309125,
      "loss": 0.3961,
      "step": 51950
    },
    {
      "epoch": 69.28,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029912909646930675,
      "loss": 0.4264,
      "step": 51960
    },
    {
      "epoch": 69.29333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002991287582800633,
      "loss": 0.3827,
      "step": 51970
    },
    {
      "epoch": 69.30666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000299128420025361,
      "loss": 0.4048,
      "step": 51980
    },
    {
      "epoch": 69.32,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002991280817052,
      "loss": 0.4076,
      "step": 51990
    },
    {
      "epoch": 69.33333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002991277433195805,
      "loss": 0.4129,
      "step": 52000
    },
    {
      "epoch": 69.34666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029912740486850265,
      "loss": 0.4022,
      "step": 52010
    },
    {
      "epoch": 69.36,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002991270663519665,
      "loss": 0.4024,
      "step": 52020
    },
    {
      "epoch": 69.37333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991267277699723,
      "loss": 0.4034,
      "step": 52030
    },
    {
      "epoch": 69.38666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029912638912252016,
      "loss": 0.3955,
      "step": 52040
    },
    {
      "epoch": 69.4,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002991260504096103,
      "loss": 0.4026,
      "step": 52050
    },
    {
      "epoch": 69.41333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002991257116312427,
      "loss": 0.4073,
      "step": 52060
    },
    {
      "epoch": 69.42666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029912537278741765,
      "loss": 0.4095,
      "step": 52070
    },
    {
      "epoch": 69.44,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002991250338781353,
      "loss": 0.4198,
      "step": 52080
    },
    {
      "epoch": 69.45333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029912469490339574,
      "loss": 0.4091,
      "step": 52090
    },
    {
      "epoch": 69.46666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029912435586319905,
      "loss": 0.418,
      "step": 52100
    },
    {
      "epoch": 69.48,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002991240167575456,
      "loss": 0.3986,
      "step": 52110
    },
    {
      "epoch": 69.49333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002991236775864353,
      "loss": 0.4113,
      "step": 52120
    },
    {
      "epoch": 69.50666666666666,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029912333834986846,
      "loss": 0.4083,
      "step": 52130
    },
    {
      "epoch": 69.52,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002991229990478452,
      "loss": 0.3989,
      "step": 52140
    },
    {
      "epoch": 69.53333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002991226596803656,
      "loss": 0.4024,
      "step": 52150
    },
    {
      "epoch": 69.54666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029912232024742984,
      "loss": 0.4045,
      "step": 52160
    },
    {
      "epoch": 69.56,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029912198074903815,
      "loss": 0.3985,
      "step": 52170
    },
    {
      "epoch": 69.57333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029912164118519057,
      "loss": 0.4024,
      "step": 52180
    },
    {
      "epoch": 69.58666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029912130155588726,
      "loss": 0.3907,
      "step": 52190
    },
    {
      "epoch": 69.6,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002991209618611284,
      "loss": 0.3926,
      "step": 52200
    },
    {
      "epoch": 69.61333333333333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002991206221009142,
      "loss": 0.3814,
      "step": 52210
    },
    {
      "epoch": 69.62666666666667,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0002991202822752446,
      "loss": 0.3873,
      "step": 52220
    },
    {
      "epoch": 69.64,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029911994238412005,
      "loss": 0.3993,
      "step": 52230
    },
    {
      "epoch": 69.65333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002991196024275405,
      "loss": 0.4097,
      "step": 52240
    },
    {
      "epoch": 69.66666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002991192624055061,
      "loss": 0.3958,
      "step": 52250
    },
    {
      "epoch": 69.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002991189223180171,
      "loss": 0.3878,
      "step": 52260
    },
    {
      "epoch": 69.69333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002991185821650736,
      "loss": 0.3976,
      "step": 52270
    },
    {
      "epoch": 69.70666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002991182419466757,
      "loss": 0.3908,
      "step": 52280
    },
    {
      "epoch": 69.72,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029911790166282356,
      "loss": 0.4133,
      "step": 52290
    },
    {
      "epoch": 69.73333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002991175613135174,
      "loss": 0.4077,
      "step": 52300
    },
    {
      "epoch": 69.74666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002991172208987574,
      "loss": 0.4094,
      "step": 52310
    },
    {
      "epoch": 69.76,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029911688041854356,
      "loss": 0.4228,
      "step": 52320
    },
    {
      "epoch": 69.77333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002991165398728761,
      "loss": 0.4093,
      "step": 52330
    },
    {
      "epoch": 69.78666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002991161992617552,
      "loss": 0.4092,
      "step": 52340
    },
    {
      "epoch": 69.8,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000299115858585181,
      "loss": 0.4085,
      "step": 52350
    },
    {
      "epoch": 69.81333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002991155178431536,
      "loss": 0.3822,
      "step": 52360
    },
    {
      "epoch": 69.82666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002991151770356732,
      "loss": 0.3919,
      "step": 52370
    },
    {
      "epoch": 69.84,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029911483616273997,
      "loss": 0.4043,
      "step": 52380
    },
    {
      "epoch": 69.85333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029911449522435405,
      "loss": 0.3993,
      "step": 52390
    },
    {
      "epoch": 69.86666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029911415422051544,
      "loss": 0.403,
      "step": 52400
    },
    {
      "epoch": 69.88,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002991138131512245,
      "loss": 0.3838,
      "step": 52410
    },
    {
      "epoch": 69.89333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029911347201648134,
      "loss": 0.3948,
      "step": 52420
    },
    {
      "epoch": 69.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029911313081628597,
      "loss": 0.4015,
      "step": 52430
    },
    {
      "epoch": 69.92,
      "grad_norm": 0.375,
      "learning_rate": 0.0002991127895506387,
      "loss": 0.4045,
      "step": 52440
    },
    {
      "epoch": 69.93333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002991124482195396,
      "loss": 0.3978,
      "step": 52450
    },
    {
      "epoch": 69.94666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002991121068229888,
      "loss": 0.399,
      "step": 52460
    },
    {
      "epoch": 69.96,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002991117653609865,
      "loss": 0.3963,
      "step": 52470
    },
    {
      "epoch": 69.97333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029911142383353285,
      "loss": 0.4217,
      "step": 52480
    },
    {
      "epoch": 69.98666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000299111082240628,
      "loss": 0.3965,
      "step": 52490
    },
    {
      "epoch": 70.0,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029911074058227205,
      "loss": 0.3895,
      "step": 52500
    },
    {
      "epoch": 70.0,
      "eval_loss": 0.4303988814353943,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6292,
      "eval_samples_per_second": 1.662,
      "eval_steps_per_second": 0.104,
      "step": 52500
    },
    {
      "epoch": 70.01333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029911039885846514,
      "loss": 0.4083,
      "step": 52510
    },
    {
      "epoch": 70.02666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029911005706920754,
      "loss": 0.4206,
      "step": 52520
    },
    {
      "epoch": 70.04,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029910971521449926,
      "loss": 0.4329,
      "step": 52530
    },
    {
      "epoch": 70.05333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002991093732943406,
      "loss": 0.4193,
      "step": 52540
    },
    {
      "epoch": 70.06666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002991090313087315,
      "loss": 0.4066,
      "step": 52550
    },
    {
      "epoch": 70.08,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002991086892576724,
      "loss": 0.4103,
      "step": 52560
    },
    {
      "epoch": 70.09333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002991083471411631,
      "loss": 0.4108,
      "step": 52570
    },
    {
      "epoch": 70.10666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029910800495920413,
      "loss": 0.3987,
      "step": 52580
    },
    {
      "epoch": 70.12,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002991076627117953,
      "loss": 0.4047,
      "step": 52590
    },
    {
      "epoch": 70.13333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000299107320398937,
      "loss": 0.3949,
      "step": 52600
    },
    {
      "epoch": 70.14666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991069780206292,
      "loss": 0.4137,
      "step": 52610
    },
    {
      "epoch": 70.16,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029910663557687216,
      "loss": 0.4073,
      "step": 52620
    },
    {
      "epoch": 70.17333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.000299106293067666,
      "loss": 0.4011,
      "step": 52630
    },
    {
      "epoch": 70.18666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002991059504930109,
      "loss": 0.4013,
      "step": 52640
    },
    {
      "epoch": 70.2,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029910560785290693,
      "loss": 0.3937,
      "step": 52650
    },
    {
      "epoch": 70.21333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029910526514735435,
      "loss": 0.3955,
      "step": 52660
    },
    {
      "epoch": 70.22666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029910492237635326,
      "loss": 0.407,
      "step": 52670
    },
    {
      "epoch": 70.24,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002991045795399038,
      "loss": 0.3913,
      "step": 52680
    },
    {
      "epoch": 70.25333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002991042366380061,
      "loss": 0.3937,
      "step": 52690
    },
    {
      "epoch": 70.26666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029910389367066037,
      "loss": 0.3959,
      "step": 52700
    },
    {
      "epoch": 70.28,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029910355063786674,
      "loss": 0.4267,
      "step": 52710
    },
    {
      "epoch": 70.29333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002991032075396253,
      "loss": 0.3819,
      "step": 52720
    },
    {
      "epoch": 70.30666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029910286437593626,
      "loss": 0.4056,
      "step": 52730
    },
    {
      "epoch": 70.32,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002991025211467998,
      "loss": 0.4071,
      "step": 52740
    },
    {
      "epoch": 70.33333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000299102177852216,
      "loss": 0.4112,
      "step": 52750
    },
    {
      "epoch": 70.34666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029910183449218506,
      "loss": 0.4018,
      "step": 52760
    },
    {
      "epoch": 70.36,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002991014910667071,
      "loss": 0.4033,
      "step": 52770
    },
    {
      "epoch": 70.37333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002991011475757823,
      "loss": 0.4031,
      "step": 52780
    },
    {
      "epoch": 70.38666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002991008040194108,
      "loss": 0.3957,
      "step": 52790
    },
    {
      "epoch": 70.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002991004603975927,
      "loss": 0.4024,
      "step": 52800
    },
    {
      "epoch": 70.41333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002991001167103282,
      "loss": 0.4062,
      "step": 52810
    },
    {
      "epoch": 70.42666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002990997729576175,
      "loss": 0.4081,
      "step": 52820
    },
    {
      "epoch": 70.44,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029909942913946067,
      "loss": 0.4195,
      "step": 52830
    },
    {
      "epoch": 70.45333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002990990852558579,
      "loss": 0.4097,
      "step": 52840
    },
    {
      "epoch": 70.46666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002990987413068093,
      "loss": 0.4182,
      "step": 52850
    },
    {
      "epoch": 70.48,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029909839729231507,
      "loss": 0.3992,
      "step": 52860
    },
    {
      "epoch": 70.49333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029909805321237534,
      "loss": 0.411,
      "step": 52870
    },
    {
      "epoch": 70.50666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029909770906699025,
      "loss": 0.4083,
      "step": 52880
    },
    {
      "epoch": 70.52,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029909736485615995,
      "loss": 0.3987,
      "step": 52890
    },
    {
      "epoch": 70.53333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029909702057988465,
      "loss": 0.4027,
      "step": 52900
    },
    {
      "epoch": 70.54666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002990966762381644,
      "loss": 0.4048,
      "step": 52910
    },
    {
      "epoch": 70.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029909633183099947,
      "loss": 0.3983,
      "step": 52920
    },
    {
      "epoch": 70.57333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029909598735838996,
      "loss": 0.4021,
      "step": 52930
    },
    {
      "epoch": 70.58666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029909564282033595,
      "loss": 0.3892,
      "step": 52940
    },
    {
      "epoch": 70.6,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029909529821683765,
      "loss": 0.3922,
      "step": 52950
    },
    {
      "epoch": 70.61333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029909495354789523,
      "loss": 0.3809,
      "step": 52960
    },
    {
      "epoch": 70.62666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029909460881350885,
      "loss": 0.3852,
      "step": 52970
    },
    {
      "epoch": 70.64,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029909426401367856,
      "loss": 0.4006,
      "step": 52980
    },
    {
      "epoch": 70.65333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002990939191484047,
      "loss": 0.4087,
      "step": 52990
    },
    {
      "epoch": 70.66666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029909357421768724,
      "loss": 0.3956,
      "step": 53000
    },
    {
      "epoch": 70.68,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029909322922152637,
      "loss": 0.3884,
      "step": 53010
    },
    {
      "epoch": 70.69333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002990928841599223,
      "loss": 0.3981,
      "step": 53020
    },
    {
      "epoch": 70.70666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002990925390328752,
      "loss": 0.3911,
      "step": 53030
    },
    {
      "epoch": 70.72,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002990921938403851,
      "loss": 0.4142,
      "step": 53040
    },
    {
      "epoch": 70.73333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002990918485824522,
      "loss": 0.4069,
      "step": 53050
    },
    {
      "epoch": 70.74666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029909150325907675,
      "loss": 0.4079,
      "step": 53060
    },
    {
      "epoch": 70.76,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029909115787025883,
      "loss": 0.4212,
      "step": 53070
    },
    {
      "epoch": 70.77333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002990908124159985,
      "loss": 0.409,
      "step": 53080
    },
    {
      "epoch": 70.78666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002990904668962961,
      "loss": 0.409,
      "step": 53090
    },
    {
      "epoch": 70.8,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002990901213111516,
      "loss": 0.4082,
      "step": 53100
    },
    {
      "epoch": 70.81333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002990897756605653,
      "loss": 0.3819,
      "step": 53110
    },
    {
      "epoch": 70.82666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029908942994453727,
      "loss": 0.3922,
      "step": 53120
    },
    {
      "epoch": 70.84,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002990890841630676,
      "loss": 0.404,
      "step": 53130
    },
    {
      "epoch": 70.85333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029908873831615667,
      "loss": 0.3991,
      "step": 53140
    },
    {
      "epoch": 70.86666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029908839240380436,
      "loss": 0.403,
      "step": 53150
    },
    {
      "epoch": 70.88,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000299088046426011,
      "loss": 0.3827,
      "step": 53160
    },
    {
      "epoch": 70.89333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002990877003827767,
      "loss": 0.3945,
      "step": 53170
    },
    {
      "epoch": 70.90666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029908735427410156,
      "loss": 0.4017,
      "step": 53180
    },
    {
      "epoch": 70.92,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029908700809998576,
      "loss": 0.4046,
      "step": 53190
    },
    {
      "epoch": 70.93333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029908666186042953,
      "loss": 0.3973,
      "step": 53200
    },
    {
      "epoch": 70.94666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029908631555543286,
      "loss": 0.3983,
      "step": 53210
    },
    {
      "epoch": 70.96,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000299085969184996,
      "loss": 0.3958,
      "step": 53220
    },
    {
      "epoch": 70.97333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002990856227491192,
      "loss": 0.4213,
      "step": 53230
    },
    {
      "epoch": 70.98666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990852762478024,
      "loss": 0.3964,
      "step": 53240
    },
    {
      "epoch": 71.0,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029908492968104593,
      "loss": 0.3895,
      "step": 53250
    },
    {
      "epoch": 71.0,
      "eval_loss": 0.43028220534324646,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.89,
      "eval_samples_per_second": 1.618,
      "eval_steps_per_second": 0.101,
      "step": 53250
    },
    {
      "epoch": 71.01333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029908458304884984,
      "loss": 0.4078,
      "step": 53260
    },
    {
      "epoch": 71.02666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990842363512143,
      "loss": 0.4196,
      "step": 53270
    },
    {
      "epoch": 71.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002990838895881395,
      "loss": 0.432,
      "step": 53280
    },
    {
      "epoch": 71.05333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029908354275962556,
      "loss": 0.4182,
      "step": 53290
    },
    {
      "epoch": 71.06666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029908319586567265,
      "loss": 0.4058,
      "step": 53300
    },
    {
      "epoch": 71.08,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002990828489062809,
      "loss": 0.4096,
      "step": 53310
    },
    {
      "epoch": 71.09333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990825018814505,
      "loss": 0.4102,
      "step": 53320
    },
    {
      "epoch": 71.10666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029908215479118155,
      "loss": 0.398,
      "step": 53330
    },
    {
      "epoch": 71.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029908180763547426,
      "loss": 0.4039,
      "step": 53340
    },
    {
      "epoch": 71.13333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029908146041432876,
      "loss": 0.3946,
      "step": 53350
    },
    {
      "epoch": 71.14666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002990811131277451,
      "loss": 0.4141,
      "step": 53360
    },
    {
      "epoch": 71.16,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029908076577572366,
      "loss": 0.4067,
      "step": 53370
    },
    {
      "epoch": 71.17333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990804183582644,
      "loss": 0.4019,
      "step": 53380
    },
    {
      "epoch": 71.18666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002990800708753675,
      "loss": 0.4013,
      "step": 53390
    },
    {
      "epoch": 71.2,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002990797233270332,
      "loss": 0.3933,
      "step": 53400
    },
    {
      "epoch": 71.21333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029907937571326156,
      "loss": 0.3945,
      "step": 53410
    },
    {
      "epoch": 71.22666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029907902803405284,
      "loss": 0.4067,
      "step": 53420
    },
    {
      "epoch": 71.24,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990786802894071,
      "loss": 0.391,
      "step": 53430
    },
    {
      "epoch": 71.25333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002990783324793245,
      "loss": 0.3939,
      "step": 53440
    },
    {
      "epoch": 71.26666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029907798460380514,
      "loss": 0.3955,
      "step": 53450
    },
    {
      "epoch": 71.28,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990776366628493,
      "loss": 0.4254,
      "step": 53460
    },
    {
      "epoch": 71.29333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002990772886564571,
      "loss": 0.3818,
      "step": 53470
    },
    {
      "epoch": 71.30666666666667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029907694058462864,
      "loss": 0.4052,
      "step": 53480
    },
    {
      "epoch": 71.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029907659244736407,
      "loss": 0.4063,
      "step": 53490
    },
    {
      "epoch": 71.33333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002990762442446636,
      "loss": 0.4118,
      "step": 53500
    },
    {
      "epoch": 71.34666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002990758959765274,
      "loss": 0.402,
      "step": 53510
    },
    {
      "epoch": 71.36,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029907554764295555,
      "loss": 0.4018,
      "step": 53520
    },
    {
      "epoch": 71.37333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002990751992439482,
      "loss": 0.402,
      "step": 53530
    },
    {
      "epoch": 71.38666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002990748507795055,
      "loss": 0.3962,
      "step": 53540
    },
    {
      "epoch": 71.4,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029907450224962777,
      "loss": 0.402,
      "step": 53550
    },
    {
      "epoch": 71.41333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029907415365431494,
      "loss": 0.4065,
      "step": 53560
    },
    {
      "epoch": 71.42666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002990738049935672,
      "loss": 0.4085,
      "step": 53570
    },
    {
      "epoch": 71.44,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990734562673849,
      "loss": 0.4199,
      "step": 53580
    },
    {
      "epoch": 71.45333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029907310747576794,
      "loss": 0.4087,
      "step": 53590
    },
    {
      "epoch": 71.46666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002990727586187166,
      "loss": 0.4174,
      "step": 53600
    },
    {
      "epoch": 71.48,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029907240969623104,
      "loss": 0.3986,
      "step": 53610
    },
    {
      "epoch": 71.49333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002990720607083114,
      "loss": 0.41,
      "step": 53620
    },
    {
      "epoch": 71.50666666666666,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029907171165495777,
      "loss": 0.4079,
      "step": 53630
    },
    {
      "epoch": 71.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002990713625361704,
      "loss": 0.3982,
      "step": 53640
    },
    {
      "epoch": 71.53333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029907101335194936,
      "loss": 0.4013,
      "step": 53650
    },
    {
      "epoch": 71.54666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002990706641022949,
      "loss": 0.4038,
      "step": 53660
    },
    {
      "epoch": 71.56,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029907031478720706,
      "loss": 0.3975,
      "step": 53670
    },
    {
      "epoch": 71.57333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990699654066861,
      "loss": 0.4015,
      "step": 53680
    },
    {
      "epoch": 71.58666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.000299069615960732,
      "loss": 0.3902,
      "step": 53690
    },
    {
      "epoch": 71.6,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002990692664493452,
      "loss": 0.3926,
      "step": 53700
    },
    {
      "epoch": 71.61333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002990689168725256,
      "loss": 0.3809,
      "step": 53710
    },
    {
      "epoch": 71.62666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029906856723027343,
      "loss": 0.3859,
      "step": 53720
    },
    {
      "epoch": 71.64,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029906821752258885,
      "loss": 0.4,
      "step": 53730
    },
    {
      "epoch": 71.65333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002990678677494721,
      "loss": 0.4093,
      "step": 53740
    },
    {
      "epoch": 71.66666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029906751791092316,
      "loss": 0.3958,
      "step": 53750
    },
    {
      "epoch": 71.68,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002990671680069423,
      "loss": 0.3882,
      "step": 53760
    },
    {
      "epoch": 71.69333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029906681803752966,
      "loss": 0.397,
      "step": 53770
    },
    {
      "epoch": 71.70666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002990664680026854,
      "loss": 0.3905,
      "step": 53780
    },
    {
      "epoch": 71.72,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029906611790240964,
      "loss": 0.4134,
      "step": 53790
    },
    {
      "epoch": 71.73333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029906576773670255,
      "loss": 0.4077,
      "step": 53800
    },
    {
      "epoch": 71.74666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002990654175055643,
      "loss": 0.4088,
      "step": 53810
    },
    {
      "epoch": 71.76,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029906506720899504,
      "loss": 0.4219,
      "step": 53820
    },
    {
      "epoch": 71.77333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029906471684699483,
      "loss": 0.4107,
      "step": 53830
    },
    {
      "epoch": 71.78666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.000299064366419564,
      "loss": 0.4092,
      "step": 53840
    },
    {
      "epoch": 71.8,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029906401592670254,
      "loss": 0.4073,
      "step": 53850
    },
    {
      "epoch": 71.81333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002990636653684107,
      "loss": 0.3816,
      "step": 53860
    },
    {
      "epoch": 71.82666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002990633147446886,
      "loss": 0.3917,
      "step": 53870
    },
    {
      "epoch": 71.84,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002990629640555364,
      "loss": 0.4027,
      "step": 53880
    },
    {
      "epoch": 71.85333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002990626133009543,
      "loss": 0.3987,
      "step": 53890
    },
    {
      "epoch": 71.86666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002990622624809423,
      "loss": 0.4025,
      "step": 53900
    },
    {
      "epoch": 71.88,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002990619115955008,
      "loss": 0.3831,
      "step": 53910
    },
    {
      "epoch": 71.89333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002990615606446297,
      "loss": 0.3935,
      "step": 53920
    },
    {
      "epoch": 71.90666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002990612096283294,
      "loss": 0.402,
      "step": 53930
    },
    {
      "epoch": 71.92,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029906085854659983,
      "loss": 0.4047,
      "step": 53940
    },
    {
      "epoch": 71.93333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029906050739944123,
      "loss": 0.396,
      "step": 53950
    },
    {
      "epoch": 71.94666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990601561868538,
      "loss": 0.3974,
      "step": 53960
    },
    {
      "epoch": 71.96,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029905980490883767,
      "loss": 0.395,
      "step": 53970
    },
    {
      "epoch": 71.97333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029905945356539294,
      "loss": 0.4214,
      "step": 53980
    },
    {
      "epoch": 71.98666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002990591021565198,
      "loss": 0.3955,
      "step": 53990
    },
    {
      "epoch": 72.0,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002990587506822185,
      "loss": 0.3899,
      "step": 54000
    },
    {
      "epoch": 72.0,
      "eval_loss": 0.43145257234573364,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.3991,
      "eval_samples_per_second": 1.539,
      "eval_steps_per_second": 0.096,
      "step": 54000
    },
    {
      "epoch": 72.01333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029905839914248897,
      "loss": 0.4074,
      "step": 54010
    },
    {
      "epoch": 72.02666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029905804753733154,
      "loss": 0.4204,
      "step": 54020
    },
    {
      "epoch": 72.04,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029905769586674637,
      "loss": 0.4321,
      "step": 54030
    },
    {
      "epoch": 72.05333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029905734413073355,
      "loss": 0.4192,
      "step": 54040
    },
    {
      "epoch": 72.06666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029905699232929324,
      "loss": 0.4056,
      "step": 54050
    },
    {
      "epoch": 72.08,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002990566404624256,
      "loss": 0.4101,
      "step": 54060
    },
    {
      "epoch": 72.09333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029905628853013085,
      "loss": 0.41,
      "step": 54070
    },
    {
      "epoch": 72.10666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000299055936532409,
      "loss": 0.3975,
      "step": 54080
    },
    {
      "epoch": 72.12,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990555844692603,
      "loss": 0.4034,
      "step": 54090
    },
    {
      "epoch": 72.13333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029905523234068494,
      "loss": 0.3947,
      "step": 54100
    },
    {
      "epoch": 72.14666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000299054880146683,
      "loss": 0.4142,
      "step": 54110
    },
    {
      "epoch": 72.16,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002990545278872547,
      "loss": 0.4067,
      "step": 54120
    },
    {
      "epoch": 72.17333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002990541755624001,
      "loss": 0.4018,
      "step": 54130
    },
    {
      "epoch": 72.18666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002990538231721194,
      "loss": 0.4,
      "step": 54140
    },
    {
      "epoch": 72.2,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029905347071641287,
      "loss": 0.3932,
      "step": 54150
    },
    {
      "epoch": 72.21333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002990531181952805,
      "loss": 0.3949,
      "step": 54160
    },
    {
      "epoch": 72.22666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029905276560872253,
      "loss": 0.4066,
      "step": 54170
    },
    {
      "epoch": 72.24,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000299052412956739,
      "loss": 0.3913,
      "step": 54180
    },
    {
      "epoch": 72.25333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029905206023933024,
      "loss": 0.3933,
      "step": 54190
    },
    {
      "epoch": 72.26666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002990517074564963,
      "loss": 0.3951,
      "step": 54200
    },
    {
      "epoch": 72.28,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002990513546082374,
      "loss": 0.4255,
      "step": 54210
    },
    {
      "epoch": 72.29333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029905100169455356,
      "loss": 0.3816,
      "step": 54220
    },
    {
      "epoch": 72.30666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002990506487154451,
      "loss": 0.405,
      "step": 54230
    },
    {
      "epoch": 72.32,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029905029567091205,
      "loss": 0.4067,
      "step": 54240
    },
    {
      "epoch": 72.33333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029904994256095465,
      "loss": 0.4114,
      "step": 54250
    },
    {
      "epoch": 72.34666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.000299049589385573,
      "loss": 0.4008,
      "step": 54260
    },
    {
      "epoch": 72.36,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029904923614476733,
      "loss": 0.4015,
      "step": 54270
    },
    {
      "epoch": 72.37333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002990488828385377,
      "loss": 0.4025,
      "step": 54280
    },
    {
      "epoch": 72.38666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002990485294668843,
      "loss": 0.3956,
      "step": 54290
    },
    {
      "epoch": 72.4,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029904817602980727,
      "loss": 0.4017,
      "step": 54300
    },
    {
      "epoch": 72.41333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002990478225273068,
      "loss": 0.4063,
      "step": 54310
    },
    {
      "epoch": 72.42666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029904746895938303,
      "loss": 0.4073,
      "step": 54320
    },
    {
      "epoch": 72.44,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002990471153260361,
      "loss": 0.4194,
      "step": 54330
    },
    {
      "epoch": 72.45333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002990467616272662,
      "loss": 0.4081,
      "step": 54340
    },
    {
      "epoch": 72.46666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002990464078630735,
      "loss": 0.4171,
      "step": 54350
    },
    {
      "epoch": 72.48,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029904605403345807,
      "loss": 0.3981,
      "step": 54360
    },
    {
      "epoch": 72.49333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002990457001384202,
      "loss": 0.4107,
      "step": 54370
    },
    {
      "epoch": 72.50666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002990453461779599,
      "loss": 0.4081,
      "step": 54380
    },
    {
      "epoch": 72.52,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002990449921520774,
      "loss": 0.3983,
      "step": 54390
    },
    {
      "epoch": 72.53333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002990446380607728,
      "loss": 0.4012,
      "step": 54400
    },
    {
      "epoch": 72.54666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029904428390404637,
      "loss": 0.4037,
      "step": 54410
    },
    {
      "epoch": 72.56,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002990439296818981,
      "loss": 0.3986,
      "step": 54420
    },
    {
      "epoch": 72.57333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029904357539432835,
      "loss": 0.402,
      "step": 54430
    },
    {
      "epoch": 72.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029904322104133707,
      "loss": 0.3902,
      "step": 54440
    },
    {
      "epoch": 72.6,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002990428666229246,
      "loss": 0.3918,
      "step": 54450
    },
    {
      "epoch": 72.61333333333333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0002990425121390909,
      "loss": 0.381,
      "step": 54460
    },
    {
      "epoch": 72.62666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002990421575898363,
      "loss": 0.3855,
      "step": 54470
    },
    {
      "epoch": 72.64,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002990418029751609,
      "loss": 0.3988,
      "step": 54480
    },
    {
      "epoch": 72.65333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990414482950648,
      "loss": 0.4097,
      "step": 54490
    },
    {
      "epoch": 72.66666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029904109354954826,
      "loss": 0.3949,
      "step": 54500
    },
    {
      "epoch": 72.68,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002990407387386113,
      "loss": 0.3886,
      "step": 54510
    },
    {
      "epoch": 72.69333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002990403838622542,
      "loss": 0.3973,
      "step": 54520
    },
    {
      "epoch": 72.70666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029904002892047705,
      "loss": 0.3902,
      "step": 54530
    },
    {
      "epoch": 72.72,
      "grad_norm": 0.375,
      "learning_rate": 0.00029903967391328,
      "loss": 0.4127,
      "step": 54540
    },
    {
      "epoch": 72.73333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029903931884066326,
      "loss": 0.4057,
      "step": 54550
    },
    {
      "epoch": 72.74666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000299038963702627,
      "loss": 0.4084,
      "step": 54560
    },
    {
      "epoch": 72.76,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002990386084991712,
      "loss": 0.4209,
      "step": 54570
    },
    {
      "epoch": 72.77333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002990382532302963,
      "loss": 0.409,
      "step": 54580
    },
    {
      "epoch": 72.78666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029903789789600217,
      "loss": 0.409,
      "step": 54590
    },
    {
      "epoch": 72.8,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029903754249628915,
      "loss": 0.4081,
      "step": 54600
    },
    {
      "epoch": 72.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002990371870311573,
      "loss": 0.3815,
      "step": 54610
    },
    {
      "epoch": 72.82666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990368315006069,
      "loss": 0.3914,
      "step": 54620
    },
    {
      "epoch": 72.84,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029903647590463794,
      "loss": 0.4027,
      "step": 54630
    },
    {
      "epoch": 72.85333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029903612024325077,
      "loss": 0.3984,
      "step": 54640
    },
    {
      "epoch": 72.86666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029903576451644533,
      "loss": 0.4029,
      "step": 54650
    },
    {
      "epoch": 72.88,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002990354087242219,
      "loss": 0.3823,
      "step": 54660
    },
    {
      "epoch": 72.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002990350528665807,
      "loss": 0.3943,
      "step": 54670
    },
    {
      "epoch": 72.90666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002990346969435217,
      "loss": 0.4012,
      "step": 54680
    },
    {
      "epoch": 72.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002990343409550452,
      "loss": 0.4041,
      "step": 54690
    },
    {
      "epoch": 72.93333333333334,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002990339849011514,
      "loss": 0.3968,
      "step": 54700
    },
    {
      "epoch": 72.94666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029903362878184027,
      "loss": 0.3982,
      "step": 54710
    },
    {
      "epoch": 72.96,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029903327259711213,
      "loss": 0.3958,
      "step": 54720
    },
    {
      "epoch": 72.97333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002990329163469671,
      "loss": 0.4211,
      "step": 54730
    },
    {
      "epoch": 72.98666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002990325600314052,
      "loss": 0.3954,
      "step": 54740
    },
    {
      "epoch": 73.0,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029903220365042684,
      "loss": 0.389,
      "step": 54750
    },
    {
      "epoch": 73.0,
      "eval_loss": 0.43216657638549805,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5043,
      "eval_samples_per_second": 1.683,
      "eval_steps_per_second": 0.105,
      "step": 54750
    },
    {
      "epoch": 73.01333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002990318472040319,
      "loss": 0.4076,
      "step": 54760
    },
    {
      "epoch": 73.02666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029903149069222075,
      "loss": 0.4196,
      "step": 54770
    },
    {
      "epoch": 73.04,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002990311341149935,
      "loss": 0.4324,
      "step": 54780
    },
    {
      "epoch": 73.05333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029903077747235016,
      "loss": 0.4176,
      "step": 54790
    },
    {
      "epoch": 73.06666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029903042076429113,
      "loss": 0.4052,
      "step": 54800
    },
    {
      "epoch": 73.08,
      "grad_norm": 0.375,
      "learning_rate": 0.0002990300639908164,
      "loss": 0.4094,
      "step": 54810
    },
    {
      "epoch": 73.09333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990297071519261,
      "loss": 0.4114,
      "step": 54820
    },
    {
      "epoch": 73.10666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029902935024762054,
      "loss": 0.3981,
      "step": 54830
    },
    {
      "epoch": 73.12,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002990289932778997,
      "loss": 0.4023,
      "step": 54840
    },
    {
      "epoch": 73.13333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029902863624276394,
      "loss": 0.3947,
      "step": 54850
    },
    {
      "epoch": 73.14666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002990282791422132,
      "loss": 0.4139,
      "step": 54860
    },
    {
      "epoch": 73.16,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002990279219762478,
      "loss": 0.407,
      "step": 54870
    },
    {
      "epoch": 73.17333333333333,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029902756474486784,
      "loss": 0.4017,
      "step": 54880
    },
    {
      "epoch": 73.18666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029902720744807347,
      "loss": 0.4005,
      "step": 54890
    },
    {
      "epoch": 73.2,
      "grad_norm": 0.375,
      "learning_rate": 0.0002990268500858648,
      "loss": 0.3944,
      "step": 54900
    },
    {
      "epoch": 73.21333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029902649265824203,
      "loss": 0.3938,
      "step": 54910
    },
    {
      "epoch": 73.22666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002990261351652054,
      "loss": 0.406,
      "step": 54920
    },
    {
      "epoch": 73.24,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000299025777606755,
      "loss": 0.3914,
      "step": 54930
    },
    {
      "epoch": 73.25333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002990254199828909,
      "loss": 0.3926,
      "step": 54940
    },
    {
      "epoch": 73.26666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002990250622936134,
      "loss": 0.395,
      "step": 54950
    },
    {
      "epoch": 73.28,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002990247045389225,
      "loss": 0.4246,
      "step": 54960
    },
    {
      "epoch": 73.29333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002990243467188185,
      "loss": 0.3815,
      "step": 54970
    },
    {
      "epoch": 73.30666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002990239888333015,
      "loss": 0.4045,
      "step": 54980
    },
    {
      "epoch": 73.32,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029902363088237167,
      "loss": 0.4065,
      "step": 54990
    },
    {
      "epoch": 73.33333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029902327286602913,
      "loss": 0.4115,
      "step": 55000
    },
    {
      "epoch": 73.34666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002990229147842741,
      "loss": 0.4015,
      "step": 55010
    },
    {
      "epoch": 73.36,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002990225566371067,
      "loss": 0.4016,
      "step": 55020
    },
    {
      "epoch": 73.37333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002990221984245271,
      "loss": 0.4013,
      "step": 55030
    },
    {
      "epoch": 73.38666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029902184014653547,
      "loss": 0.395,
      "step": 55040
    },
    {
      "epoch": 73.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002990214818031319,
      "loss": 0.4011,
      "step": 55050
    },
    {
      "epoch": 73.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029902112339431664,
      "loss": 0.4066,
      "step": 55060
    },
    {
      "epoch": 73.42666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029902076492008977,
      "loss": 0.4087,
      "step": 55070
    },
    {
      "epoch": 73.44,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002990204063804514,
      "loss": 0.4189,
      "step": 55080
    },
    {
      "epoch": 73.45333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002990200477754019,
      "loss": 0.4079,
      "step": 55090
    },
    {
      "epoch": 73.46666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002990196891049412,
      "loss": 0.4175,
      "step": 55100
    },
    {
      "epoch": 73.48,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002990193303690696,
      "loss": 0.3989,
      "step": 55110
    },
    {
      "epoch": 73.49333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002990189715677872,
      "loss": 0.4105,
      "step": 55120
    },
    {
      "epoch": 73.50666666666666,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029901861270109414,
      "loss": 0.4079,
      "step": 55130
    },
    {
      "epoch": 73.52,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029901825376899065,
      "loss": 0.3985,
      "step": 55140
    },
    {
      "epoch": 73.53333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029901789477147675,
      "loss": 0.4015,
      "step": 55150
    },
    {
      "epoch": 73.54666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029901753570855277,
      "loss": 0.4036,
      "step": 55160
    },
    {
      "epoch": 73.56,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029901717658021876,
      "loss": 0.3975,
      "step": 55170
    },
    {
      "epoch": 73.57333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002990168173864749,
      "loss": 0.401,
      "step": 55180
    },
    {
      "epoch": 73.58666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029901645812732133,
      "loss": 0.3894,
      "step": 55190
    },
    {
      "epoch": 73.6,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002990160988027583,
      "loss": 0.3915,
      "step": 55200
    },
    {
      "epoch": 73.61333333333333,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002990157394127858,
      "loss": 0.3802,
      "step": 55210
    },
    {
      "epoch": 73.62666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029901537995740416,
      "loss": 0.3857,
      "step": 55220
    },
    {
      "epoch": 73.64,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002990150204366134,
      "loss": 0.3978,
      "step": 55230
    },
    {
      "epoch": 73.65333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002990146608504138,
      "loss": 0.4088,
      "step": 55240
    },
    {
      "epoch": 73.66666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002990143011988054,
      "loss": 0.3946,
      "step": 55250
    },
    {
      "epoch": 73.68,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002990139414817884,
      "loss": 0.3888,
      "step": 55260
    },
    {
      "epoch": 73.69333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029901358169936304,
      "loss": 0.396,
      "step": 55270
    },
    {
      "epoch": 73.70666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029901322185152943,
      "loss": 0.3894,
      "step": 55280
    },
    {
      "epoch": 73.72,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029901286193828765,
      "loss": 0.4126,
      "step": 55290
    },
    {
      "epoch": 73.73333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002990125019596379,
      "loss": 0.4059,
      "step": 55300
    },
    {
      "epoch": 73.74666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002990121419155804,
      "loss": 0.4075,
      "step": 55310
    },
    {
      "epoch": 73.76,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029901178180611525,
      "loss": 0.4211,
      "step": 55320
    },
    {
      "epoch": 73.77333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029901142163124263,
      "loss": 0.4089,
      "step": 55330
    },
    {
      "epoch": 73.78666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002990110613909627,
      "loss": 0.4077,
      "step": 55340
    },
    {
      "epoch": 73.8,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029901070108527555,
      "loss": 0.4073,
      "step": 55350
    },
    {
      "epoch": 73.81333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002990103407141814,
      "loss": 0.3812,
      "step": 55360
    },
    {
      "epoch": 73.82666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029900998027768046,
      "loss": 0.392,
      "step": 55370
    },
    {
      "epoch": 73.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002990096197757728,
      "loss": 0.4037,
      "step": 55380
    },
    {
      "epoch": 73.85333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002990092592084586,
      "loss": 0.3984,
      "step": 55390
    },
    {
      "epoch": 73.86666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029900889857573804,
      "loss": 0.4014,
      "step": 55400
    },
    {
      "epoch": 73.88,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029900853787761123,
      "loss": 0.3828,
      "step": 55410
    },
    {
      "epoch": 73.89333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002990081771140784,
      "loss": 0.3936,
      "step": 55420
    },
    {
      "epoch": 73.90666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002990078162851397,
      "loss": 0.4013,
      "step": 55430
    },
    {
      "epoch": 73.92,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002990074553907953,
      "loss": 0.4034,
      "step": 55440
    },
    {
      "epoch": 73.93333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029900709443104524,
      "loss": 0.3969,
      "step": 55450
    },
    {
      "epoch": 73.94666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002990067334058897,
      "loss": 0.3986,
      "step": 55460
    },
    {
      "epoch": 73.96,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000299006372315329,
      "loss": 0.3958,
      "step": 55470
    },
    {
      "epoch": 73.97333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029900601115936314,
      "loss": 0.4203,
      "step": 55480
    },
    {
      "epoch": 73.98666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002990056499379924,
      "loss": 0.3951,
      "step": 55490
    },
    {
      "epoch": 74.0,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029900528865121683,
      "loss": 0.3897,
      "step": 55500
    },
    {
      "epoch": 74.0,
      "eval_loss": 0.43118083477020264,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1587,
      "eval_samples_per_second": 1.575,
      "eval_steps_per_second": 0.098,
      "step": 55500
    },
    {
      "epoch": 74.01333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002990049272990366,
      "loss": 0.4071,
      "step": 55510
    },
    {
      "epoch": 74.02666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029900456588145195,
      "loss": 0.4197,
      "step": 55520
    },
    {
      "epoch": 74.04,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029900420439846296,
      "loss": 0.4314,
      "step": 55530
    },
    {
      "epoch": 74.05333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029900384285006984,
      "loss": 0.4178,
      "step": 55540
    },
    {
      "epoch": 74.06666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002990034812362727,
      "loss": 0.4057,
      "step": 55550
    },
    {
      "epoch": 74.08,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029900311955707176,
      "loss": 0.4094,
      "step": 55560
    },
    {
      "epoch": 74.09333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029900275781246706,
      "loss": 0.4099,
      "step": 55570
    },
    {
      "epoch": 74.10666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029900239600245894,
      "loss": 0.3983,
      "step": 55580
    },
    {
      "epoch": 74.12,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002990020341270474,
      "loss": 0.4035,
      "step": 55590
    },
    {
      "epoch": 74.13333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002990016721862327,
      "loss": 0.3945,
      "step": 55600
    },
    {
      "epoch": 74.14666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002990013101800149,
      "loss": 0.4141,
      "step": 55610
    },
    {
      "epoch": 74.16,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029900094810839426,
      "loss": 0.4066,
      "step": 55620
    },
    {
      "epoch": 74.17333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029900058597137093,
      "loss": 0.4017,
      "step": 55630
    },
    {
      "epoch": 74.18666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029900022376894495,
      "loss": 0.3997,
      "step": 55640
    },
    {
      "epoch": 74.2,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029899986150111663,
      "loss": 0.393,
      "step": 55650
    },
    {
      "epoch": 74.21333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029899949916788605,
      "loss": 0.3941,
      "step": 55660
    },
    {
      "epoch": 74.22666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029899913676925335,
      "loss": 0.4056,
      "step": 55670
    },
    {
      "epoch": 74.24,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029899877430521876,
      "loss": 0.3909,
      "step": 55680
    },
    {
      "epoch": 74.25333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002989984117757824,
      "loss": 0.3928,
      "step": 55690
    },
    {
      "epoch": 74.26666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002989980491809444,
      "loss": 0.3952,
      "step": 55700
    },
    {
      "epoch": 74.28,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029899768652070493,
      "loss": 0.4251,
      "step": 55710
    },
    {
      "epoch": 74.29333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029899732379506423,
      "loss": 0.381,
      "step": 55720
    },
    {
      "epoch": 74.30666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029899696100402234,
      "loss": 0.4042,
      "step": 55730
    },
    {
      "epoch": 74.32,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029899659814757953,
      "loss": 0.4061,
      "step": 55740
    },
    {
      "epoch": 74.33333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029899623522573586,
      "loss": 0.4105,
      "step": 55750
    },
    {
      "epoch": 74.34666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029899587223849154,
      "loss": 0.4008,
      "step": 55760
    },
    {
      "epoch": 74.36,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029899550918584673,
      "loss": 0.401,
      "step": 55770
    },
    {
      "epoch": 74.37333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002989951460678016,
      "loss": 0.4019,
      "step": 55780
    },
    {
      "epoch": 74.38666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029899478288435626,
      "loss": 0.3951,
      "step": 55790
    },
    {
      "epoch": 74.4,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029899441963551093,
      "loss": 0.4024,
      "step": 55800
    },
    {
      "epoch": 74.41333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029899405632126576,
      "loss": 0.4061,
      "step": 55810
    },
    {
      "epoch": 74.42666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029899369294162086,
      "loss": 0.4065,
      "step": 55820
    },
    {
      "epoch": 74.44,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002989933294965764,
      "loss": 0.419,
      "step": 55830
    },
    {
      "epoch": 74.45333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002989929659861326,
      "loss": 0.4072,
      "step": 55840
    },
    {
      "epoch": 74.46666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002989926024102896,
      "loss": 0.4171,
      "step": 55850
    },
    {
      "epoch": 74.48,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002989922387690475,
      "loss": 0.3984,
      "step": 55860
    },
    {
      "epoch": 74.49333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002989918750624065,
      "loss": 0.4096,
      "step": 55870
    },
    {
      "epoch": 74.50666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002989915112903668,
      "loss": 0.4075,
      "step": 55880
    },
    {
      "epoch": 74.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989911474529284,
      "loss": 0.3988,
      "step": 55890
    },
    {
      "epoch": 74.53333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002989907835500917,
      "loss": 0.4014,
      "step": 55900
    },
    {
      "epoch": 74.54666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002989904195818567,
      "loss": 0.4032,
      "step": 55910
    },
    {
      "epoch": 74.56,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002989900555482236,
      "loss": 0.3974,
      "step": 55920
    },
    {
      "epoch": 74.57333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029898969144919255,
      "loss": 0.4015,
      "step": 55930
    },
    {
      "epoch": 74.58666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002989893272847637,
      "loss": 0.3895,
      "step": 55940
    },
    {
      "epoch": 74.6,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029898896305493726,
      "loss": 0.3918,
      "step": 55950
    },
    {
      "epoch": 74.61333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029898859875971334,
      "loss": 0.3798,
      "step": 55960
    },
    {
      "epoch": 74.62666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029898823439909213,
      "loss": 0.3854,
      "step": 55970
    },
    {
      "epoch": 74.64,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989878699730738,
      "loss": 0.399,
      "step": 55980
    },
    {
      "epoch": 74.65333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002989875054816584,
      "loss": 0.408,
      "step": 55990
    },
    {
      "epoch": 74.66666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029898714092484624,
      "loss": 0.3948,
      "step": 56000
    },
    {
      "epoch": 74.68,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002989867763026374,
      "loss": 0.387,
      "step": 56010
    },
    {
      "epoch": 74.69333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029898641161503204,
      "loss": 0.3962,
      "step": 56020
    },
    {
      "epoch": 74.70666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029898604686203037,
      "loss": 0.3901,
      "step": 56030
    },
    {
      "epoch": 74.72,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029898568204363255,
      "loss": 0.4135,
      "step": 56040
    },
    {
      "epoch": 74.73333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029898531715983863,
      "loss": 0.4058,
      "step": 56050
    },
    {
      "epoch": 74.74666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002989849522106489,
      "loss": 0.4071,
      "step": 56060
    },
    {
      "epoch": 74.76,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029898458719606344,
      "loss": 0.4211,
      "step": 56070
    },
    {
      "epoch": 74.77333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029898422211608244,
      "loss": 0.4082,
      "step": 56080
    },
    {
      "epoch": 74.78666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029898385697070605,
      "loss": 0.4088,
      "step": 56090
    },
    {
      "epoch": 74.8,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002989834917599345,
      "loss": 0.4079,
      "step": 56100
    },
    {
      "epoch": 74.81333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002989831264837678,
      "loss": 0.3806,
      "step": 56110
    },
    {
      "epoch": 74.82666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002989827611422062,
      "loss": 0.3915,
      "step": 56120
    },
    {
      "epoch": 74.84,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029898239573524995,
      "loss": 0.4031,
      "step": 56130
    },
    {
      "epoch": 74.85333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000298982030262899,
      "loss": 0.398,
      "step": 56140
    },
    {
      "epoch": 74.86666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029898166472515375,
      "loss": 0.4019,
      "step": 56150
    },
    {
      "epoch": 74.88,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002989812991220142,
      "loss": 0.3829,
      "step": 56160
    },
    {
      "epoch": 74.89333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029898093345348054,
      "loss": 0.3937,
      "step": 56170
    },
    {
      "epoch": 74.90666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002989805677195529,
      "loss": 0.4011,
      "step": 56180
    },
    {
      "epoch": 74.92,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989802019202315,
      "loss": 0.4042,
      "step": 56190
    },
    {
      "epoch": 74.93333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029897983605551654,
      "loss": 0.3956,
      "step": 56200
    },
    {
      "epoch": 74.94666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029897947012540806,
      "loss": 0.3964,
      "step": 56210
    },
    {
      "epoch": 74.96,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002989791041299063,
      "loss": 0.3936,
      "step": 56220
    },
    {
      "epoch": 74.97333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029897873806901143,
      "loss": 0.4201,
      "step": 56230
    },
    {
      "epoch": 74.98666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029897837194272356,
      "loss": 0.3952,
      "step": 56240
    },
    {
      "epoch": 75.0,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002989780057510429,
      "loss": 0.3884,
      "step": 56250
    },
    {
      "epoch": 75.0,
      "eval_loss": 0.43030357360839844,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0148,
      "eval_samples_per_second": 1.598,
      "eval_steps_per_second": 0.1,
      "step": 56250
    },
    {
      "epoch": 75.01333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029897763949396957,
      "loss": 0.4076,
      "step": 56260
    },
    {
      "epoch": 75.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002989772731715038,
      "loss": 0.419,
      "step": 56270
    },
    {
      "epoch": 75.04,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029897690678364557,
      "loss": 0.4311,
      "step": 56280
    },
    {
      "epoch": 75.05333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029897654033039523,
      "loss": 0.4175,
      "step": 56290
    },
    {
      "epoch": 75.06666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989761738117529,
      "loss": 0.4053,
      "step": 56300
    },
    {
      "epoch": 75.08,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029897580722771874,
      "loss": 0.4085,
      "step": 56310
    },
    {
      "epoch": 75.09333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029897544057829286,
      "loss": 0.4092,
      "step": 56320
    },
    {
      "epoch": 75.10666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029897507386347544,
      "loss": 0.398,
      "step": 56330
    },
    {
      "epoch": 75.12,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029897470708326664,
      "loss": 0.4024,
      "step": 56340
    },
    {
      "epoch": 75.13333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002989743402376667,
      "loss": 0.395,
      "step": 56350
    },
    {
      "epoch": 75.14666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029897397332667567,
      "loss": 0.4142,
      "step": 56360
    },
    {
      "epoch": 75.16,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029897360635029377,
      "loss": 0.4056,
      "step": 56370
    },
    {
      "epoch": 75.17333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029897323930852115,
      "loss": 0.4018,
      "step": 56380
    },
    {
      "epoch": 75.18666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029897287220135795,
      "loss": 0.4002,
      "step": 56390
    },
    {
      "epoch": 75.2,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029897250502880436,
      "loss": 0.3934,
      "step": 56400
    },
    {
      "epoch": 75.21333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029897213779086053,
      "loss": 0.3932,
      "step": 56410
    },
    {
      "epoch": 75.22666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002989717704875266,
      "loss": 0.4058,
      "step": 56420
    },
    {
      "epoch": 75.24,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029897140311880286,
      "loss": 0.39,
      "step": 56430
    },
    {
      "epoch": 75.25333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029897103568468923,
      "loss": 0.3934,
      "step": 56440
    },
    {
      "epoch": 75.26666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002989706681851861,
      "loss": 0.3953,
      "step": 56450
    },
    {
      "epoch": 75.28,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029897030062029343,
      "loss": 0.4253,
      "step": 56460
    },
    {
      "epoch": 75.29333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002989699329900116,
      "loss": 0.3817,
      "step": 56470
    },
    {
      "epoch": 75.30666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002989695652943406,
      "loss": 0.4039,
      "step": 56480
    },
    {
      "epoch": 75.32,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029896919753328064,
      "loss": 0.4048,
      "step": 56490
    },
    {
      "epoch": 75.33333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029896882970683193,
      "loss": 0.411,
      "step": 56500
    },
    {
      "epoch": 75.34666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002989684618149946,
      "loss": 0.4009,
      "step": 56510
    },
    {
      "epoch": 75.36,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029896809385776877,
      "loss": 0.4009,
      "step": 56520
    },
    {
      "epoch": 75.37333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029896772583515465,
      "loss": 0.401,
      "step": 56530
    },
    {
      "epoch": 75.38666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029896735774715235,
      "loss": 0.3946,
      "step": 56540
    },
    {
      "epoch": 75.4,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029896698959376214,
      "loss": 0.4015,
      "step": 56550
    },
    {
      "epoch": 75.41333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002989666213749841,
      "loss": 0.406,
      "step": 56560
    },
    {
      "epoch": 75.42666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002989662530908184,
      "loss": 0.4076,
      "step": 56570
    },
    {
      "epoch": 75.44,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029896588474126516,
      "loss": 0.4175,
      "step": 56580
    },
    {
      "epoch": 75.45333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002989655163263246,
      "loss": 0.4087,
      "step": 56590
    },
    {
      "epoch": 75.46666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002989651478459969,
      "loss": 0.4167,
      "step": 56600
    },
    {
      "epoch": 75.48,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002989647793002822,
      "loss": 0.3974,
      "step": 56610
    },
    {
      "epoch": 75.49333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029896441068918067,
      "loss": 0.4098,
      "step": 56620
    },
    {
      "epoch": 75.50666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029896404201269235,
      "loss": 0.4066,
      "step": 56630
    },
    {
      "epoch": 75.52,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002989636732708176,
      "loss": 0.3974,
      "step": 56640
    },
    {
      "epoch": 75.53333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029896330446355643,
      "loss": 0.4012,
      "step": 56650
    },
    {
      "epoch": 75.54666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002989629355909091,
      "loss": 0.4034,
      "step": 56660
    },
    {
      "epoch": 75.56,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002989625666528757,
      "loss": 0.3969,
      "step": 56670
    },
    {
      "epoch": 75.57333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029896219764945643,
      "loss": 0.4009,
      "step": 56680
    },
    {
      "epoch": 75.58666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002989618285806515,
      "loss": 0.3893,
      "step": 56690
    },
    {
      "epoch": 75.6,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029896145944646095,
      "loss": 0.3909,
      "step": 56700
    },
    {
      "epoch": 75.61333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029896109024688504,
      "loss": 0.38,
      "step": 56710
    },
    {
      "epoch": 75.62666666666667,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0002989607209819239,
      "loss": 0.3846,
      "step": 56720
    },
    {
      "epoch": 75.64,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002989603516515777,
      "loss": 0.3984,
      "step": 56730
    },
    {
      "epoch": 75.65333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029895998225584655,
      "loss": 0.408,
      "step": 56740
    },
    {
      "epoch": 75.66666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002989596127947307,
      "loss": 0.3955,
      "step": 56750
    },
    {
      "epoch": 75.68,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002989592432682302,
      "loss": 0.387,
      "step": 56760
    },
    {
      "epoch": 75.69333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002989588736763454,
      "loss": 0.3956,
      "step": 56770
    },
    {
      "epoch": 75.70666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002989585040190763,
      "loss": 0.3903,
      "step": 56780
    },
    {
      "epoch": 75.72,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029895813429642304,
      "loss": 0.4117,
      "step": 56790
    },
    {
      "epoch": 75.73333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029895776450838594,
      "loss": 0.4049,
      "step": 56800
    },
    {
      "epoch": 75.74666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029895739465496504,
      "loss": 0.4082,
      "step": 56810
    },
    {
      "epoch": 75.76,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002989570247361605,
      "loss": 0.4211,
      "step": 56820
    },
    {
      "epoch": 75.77333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029895665475197254,
      "loss": 0.4074,
      "step": 56830
    },
    {
      "epoch": 75.78666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002989562847024013,
      "loss": 0.4081,
      "step": 56840
    },
    {
      "epoch": 75.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029895591458744695,
      "loss": 0.4073,
      "step": 56850
    },
    {
      "epoch": 75.81333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029895554440710967,
      "loss": 0.3811,
      "step": 56860
    },
    {
      "epoch": 75.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002989551741613895,
      "loss": 0.3915,
      "step": 56870
    },
    {
      "epoch": 75.84,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002989548038502868,
      "loss": 0.4019,
      "step": 56880
    },
    {
      "epoch": 75.85333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029895443347380154,
      "loss": 0.3971,
      "step": 56890
    },
    {
      "epoch": 75.86666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029895406303193404,
      "loss": 0.4027,
      "step": 56900
    },
    {
      "epoch": 75.88,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002989536925246844,
      "loss": 0.3814,
      "step": 56910
    },
    {
      "epoch": 75.89333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002989533219520527,
      "loss": 0.3946,
      "step": 56920
    },
    {
      "epoch": 75.90666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029895295131403927,
      "loss": 0.3999,
      "step": 56930
    },
    {
      "epoch": 75.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029895258061064415,
      "loss": 0.4022,
      "step": 56940
    },
    {
      "epoch": 75.93333333333334,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002989522098418675,
      "loss": 0.3966,
      "step": 56950
    },
    {
      "epoch": 75.94666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002989518390077096,
      "loss": 0.3969,
      "step": 56960
    },
    {
      "epoch": 75.96,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029895146810817044,
      "loss": 0.3947,
      "step": 56970
    },
    {
      "epoch": 75.97333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029895109714325036,
      "loss": 0.4216,
      "step": 56980
    },
    {
      "epoch": 75.98666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029895072611294937,
      "loss": 0.3958,
      "step": 56990
    },
    {
      "epoch": 76.0,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029895035501726773,
      "loss": 0.3887,
      "step": 57000
    },
    {
      "epoch": 76.0,
      "eval_loss": 0.430258184671402,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7475,
      "eval_samples_per_second": 1.641,
      "eval_steps_per_second": 0.103,
      "step": 57000
    },
    {
      "epoch": 76.01333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002989499838562056,
      "loss": 0.4068,
      "step": 57010
    },
    {
      "epoch": 76.02666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029894961262976307,
      "loss": 0.419,
      "step": 57020
    },
    {
      "epoch": 76.04,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029894924133794037,
      "loss": 0.4319,
      "step": 57030
    },
    {
      "epoch": 76.05333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002989488699807377,
      "loss": 0.4174,
      "step": 57040
    },
    {
      "epoch": 76.06666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029894849855815504,
      "loss": 0.4052,
      "step": 57050
    },
    {
      "epoch": 76.08,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002989481270701928,
      "loss": 0.4088,
      "step": 57060
    },
    {
      "epoch": 76.09333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029894775551685094,
      "loss": 0.4096,
      "step": 57070
    },
    {
      "epoch": 76.10666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029894738389812974,
      "loss": 0.3965,
      "step": 57080
    },
    {
      "epoch": 76.12,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989470122140293,
      "loss": 0.4033,
      "step": 57090
    },
    {
      "epoch": 76.13333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029894664046454985,
      "loss": 0.3941,
      "step": 57100
    },
    {
      "epoch": 76.14666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002989462686496915,
      "loss": 0.4124,
      "step": 57110
    },
    {
      "epoch": 76.16,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029894589676945444,
      "loss": 0.4066,
      "step": 57120
    },
    {
      "epoch": 76.17333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002989455248238388,
      "loss": 0.4012,
      "step": 57130
    },
    {
      "epoch": 76.18666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002989451528128447,
      "loss": 0.4005,
      "step": 57140
    },
    {
      "epoch": 76.2,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002989447807364725,
      "loss": 0.3926,
      "step": 57150
    },
    {
      "epoch": 76.21333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002989444085947221,
      "loss": 0.3938,
      "step": 57160
    },
    {
      "epoch": 76.22666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029894403638759383,
      "loss": 0.4054,
      "step": 57170
    },
    {
      "epoch": 76.24,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002989436641150879,
      "loss": 0.3896,
      "step": 57180
    },
    {
      "epoch": 76.25333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989432917772043,
      "loss": 0.3919,
      "step": 57190
    },
    {
      "epoch": 76.26666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029894291937394336,
      "loss": 0.3943,
      "step": 57200
    },
    {
      "epoch": 76.28,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029894254690530507,
      "loss": 0.4251,
      "step": 57210
    },
    {
      "epoch": 76.29333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029894217437128977,
      "loss": 0.3811,
      "step": 57220
    },
    {
      "epoch": 76.30666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002989418017718975,
      "loss": 0.4041,
      "step": 57230
    },
    {
      "epoch": 76.32,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002989414291071285,
      "loss": 0.4058,
      "step": 57240
    },
    {
      "epoch": 76.33333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002989410563769829,
      "loss": 0.4102,
      "step": 57250
    },
    {
      "epoch": 76.34666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029894068358146084,
      "loss": 0.4,
      "step": 57260
    },
    {
      "epoch": 76.36,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002989403107205625,
      "loss": 0.4003,
      "step": 57270
    },
    {
      "epoch": 76.37333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002989399377942881,
      "loss": 0.4015,
      "step": 57280
    },
    {
      "epoch": 76.38666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029893956480263773,
      "loss": 0.3945,
      "step": 57290
    },
    {
      "epoch": 76.4,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029893919174561154,
      "loss": 0.4014,
      "step": 57300
    },
    {
      "epoch": 76.41333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029893881862320975,
      "loss": 0.4056,
      "step": 57310
    },
    {
      "epoch": 76.42666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002989384454354326,
      "loss": 0.4076,
      "step": 57320
    },
    {
      "epoch": 76.44,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029893807218228,
      "loss": 0.4182,
      "step": 57330
    },
    {
      "epoch": 76.45333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002989376988637524,
      "loss": 0.4076,
      "step": 57340
    },
    {
      "epoch": 76.46666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002989373254798498,
      "loss": 0.4161,
      "step": 57350
    },
    {
      "epoch": 76.48,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029893695203057246,
      "loss": 0.3978,
      "step": 57360
    },
    {
      "epoch": 76.49333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002989365785159204,
      "loss": 0.4091,
      "step": 57370
    },
    {
      "epoch": 76.50666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002989362049358939,
      "loss": 0.4081,
      "step": 57380
    },
    {
      "epoch": 76.52,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002989358312904931,
      "loss": 0.3977,
      "step": 57390
    },
    {
      "epoch": 76.53333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029893545757971816,
      "loss": 0.4016,
      "step": 57400
    },
    {
      "epoch": 76.54666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002989350838035692,
      "loss": 0.4029,
      "step": 57410
    },
    {
      "epoch": 76.56,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00029893470996204645,
      "loss": 0.3964,
      "step": 57420
    },
    {
      "epoch": 76.57333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989343360551501,
      "loss": 0.3996,
      "step": 57430
    },
    {
      "epoch": 76.58666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029893396208288025,
      "loss": 0.3895,
      "step": 57440
    },
    {
      "epoch": 76.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029893358804523705,
      "loss": 0.3914,
      "step": 57450
    },
    {
      "epoch": 76.61333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029893321394222074,
      "loss": 0.3803,
      "step": 57460
    },
    {
      "epoch": 76.62666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00029893283977383133,
      "loss": 0.3853,
      "step": 57470
    },
    {
      "epoch": 76.64,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002989324655400692,
      "loss": 0.3978,
      "step": 57480
    },
    {
      "epoch": 76.65333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029893209124093437,
      "loss": 0.4084,
      "step": 57490
    },
    {
      "epoch": 76.66666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029893171687642704,
      "loss": 0.3947,
      "step": 57500
    },
    {
      "epoch": 76.68,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029893134244654736,
      "loss": 0.3873,
      "step": 57510
    },
    {
      "epoch": 76.69333333333333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002989309679512955,
      "loss": 0.3963,
      "step": 57520
    },
    {
      "epoch": 76.70666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029893059339067165,
      "loss": 0.3894,
      "step": 57530
    },
    {
      "epoch": 76.72,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029893021876467596,
      "loss": 0.4117,
      "step": 57540
    },
    {
      "epoch": 76.73333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002989298440733086,
      "loss": 0.4056,
      "step": 57550
    },
    {
      "epoch": 76.74666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029892946931656973,
      "loss": 0.4075,
      "step": 57560
    },
    {
      "epoch": 76.76,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002989290944944595,
      "loss": 0.4202,
      "step": 57570
    },
    {
      "epoch": 76.77333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029892871960697807,
      "loss": 0.4091,
      "step": 57580
    },
    {
      "epoch": 76.78666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029892834465412567,
      "loss": 0.4081,
      "step": 57590
    },
    {
      "epoch": 76.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002989279696359024,
      "loss": 0.4068,
      "step": 57600
    },
    {
      "epoch": 76.81333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029892759455230837,
      "loss": 0.38,
      "step": 57610
    },
    {
      "epoch": 76.82666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029892721940334385,
      "loss": 0.3912,
      "step": 57620
    },
    {
      "epoch": 76.84,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000298926844189009,
      "loss": 0.4019,
      "step": 57630
    },
    {
      "epoch": 76.85333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029892646890930394,
      "loss": 0.3977,
      "step": 57640
    },
    {
      "epoch": 76.86666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989260935642288,
      "loss": 0.401,
      "step": 57650
    },
    {
      "epoch": 76.88,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029892571815378385,
      "loss": 0.3814,
      "step": 57660
    },
    {
      "epoch": 76.89333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002989253426779692,
      "loss": 0.3928,
      "step": 57670
    },
    {
      "epoch": 76.90666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000298924967136785,
      "loss": 0.4007,
      "step": 57680
    },
    {
      "epoch": 76.92,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002989245915302314,
      "loss": 0.403,
      "step": 57690
    },
    {
      "epoch": 76.93333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029892421585830866,
      "loss": 0.3964,
      "step": 57700
    },
    {
      "epoch": 76.94666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989238401210168,
      "loss": 0.3961,
      "step": 57710
    },
    {
      "epoch": 76.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002989234643183561,
      "loss": 0.3945,
      "step": 57720
    },
    {
      "epoch": 76.97333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002989230884503267,
      "loss": 0.4207,
      "step": 57730
    },
    {
      "epoch": 76.98666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029892271251692867,
      "loss": 0.3957,
      "step": 57740
    },
    {
      "epoch": 77.0,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029892233651816237,
      "loss": 0.3895,
      "step": 57750
    },
    {
      "epoch": 77.0,
      "eval_loss": 0.43025487661361694,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6172,
      "eval_samples_per_second": 1.664,
      "eval_steps_per_second": 0.104,
      "step": 57750
    },
    {
      "epoch": 77.01333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002989219604540278,
      "loss": 0.4065,
      "step": 57760
    },
    {
      "epoch": 77.02666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002989215843245252,
      "loss": 0.419,
      "step": 57770
    },
    {
      "epoch": 77.04,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989212081296547,
      "loss": 0.4316,
      "step": 57780
    },
    {
      "epoch": 77.05333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029892083186941644,
      "loss": 0.4177,
      "step": 57790
    },
    {
      "epoch": 77.06666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002989204555438106,
      "loss": 0.404,
      "step": 57800
    },
    {
      "epoch": 77.08,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029892007915283743,
      "loss": 0.4079,
      "step": 57810
    },
    {
      "epoch": 77.09333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002989197026964971,
      "loss": 0.4097,
      "step": 57820
    },
    {
      "epoch": 77.10666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029891932617478957,
      "loss": 0.3975,
      "step": 57830
    },
    {
      "epoch": 77.12,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002989189495877152,
      "loss": 0.4021,
      "step": 57840
    },
    {
      "epoch": 77.13333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002989185729352741,
      "loss": 0.3942,
      "step": 57850
    },
    {
      "epoch": 77.14666666666666,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029891819621746644,
      "loss": 0.4129,
      "step": 57860
    },
    {
      "epoch": 77.16,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029891781943429234,
      "loss": 0.4064,
      "step": 57870
    },
    {
      "epoch": 77.17333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029891744258575206,
      "loss": 0.3995,
      "step": 57880
    },
    {
      "epoch": 77.18666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002989170656718457,
      "loss": 0.4,
      "step": 57890
    },
    {
      "epoch": 77.2,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029891668869257344,
      "loss": 0.3927,
      "step": 57900
    },
    {
      "epoch": 77.21333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002989163116479354,
      "loss": 0.3936,
      "step": 57910
    },
    {
      "epoch": 77.22666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002989159345379318,
      "loss": 0.4041,
      "step": 57920
    },
    {
      "epoch": 77.24,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002989155573625628,
      "loss": 0.3897,
      "step": 57930
    },
    {
      "epoch": 77.25333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002989151801218286,
      "loss": 0.3923,
      "step": 57940
    },
    {
      "epoch": 77.26666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029891480281572926,
      "loss": 0.3952,
      "step": 57950
    },
    {
      "epoch": 77.28,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029891442544426505,
      "loss": 0.425,
      "step": 57960
    },
    {
      "epoch": 77.29333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989140480074361,
      "loss": 0.3807,
      "step": 57970
    },
    {
      "epoch": 77.30666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002989136705052425,
      "loss": 0.4035,
      "step": 57980
    },
    {
      "epoch": 77.32,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029891329293768457,
      "loss": 0.4051,
      "step": 57990
    },
    {
      "epoch": 77.33333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029891291530476235,
      "loss": 0.41,
      "step": 58000
    },
    {
      "epoch": 77.34666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000298912537606476,
      "loss": 0.3996,
      "step": 58010
    },
    {
      "epoch": 77.36,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002989121598428258,
      "loss": 0.401,
      "step": 58020
    },
    {
      "epoch": 77.37333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002989117820138119,
      "loss": 0.402,
      "step": 58030
    },
    {
      "epoch": 77.38666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029891140411943427,
      "loss": 0.394,
      "step": 58040
    },
    {
      "epoch": 77.4,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989110261596933,
      "loss": 0.4009,
      "step": 58050
    },
    {
      "epoch": 77.41333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029891064813458907,
      "loss": 0.4061,
      "step": 58060
    },
    {
      "epoch": 77.42666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029891027004412177,
      "loss": 0.4073,
      "step": 58070
    },
    {
      "epoch": 77.44,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029890989188829155,
      "loss": 0.4179,
      "step": 58080
    },
    {
      "epoch": 77.45333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029890951366709853,
      "loss": 0.407,
      "step": 58090
    },
    {
      "epoch": 77.46666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000298909135380543,
      "loss": 0.4168,
      "step": 58100
    },
    {
      "epoch": 77.48,
      "grad_norm": 0.375,
      "learning_rate": 0.000298908757028625,
      "loss": 0.3984,
      "step": 58110
    },
    {
      "epoch": 77.49333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002989083786113447,
      "loss": 0.4088,
      "step": 58120
    },
    {
      "epoch": 77.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029890800012870235,
      "loss": 0.4061,
      "step": 58130
    },
    {
      "epoch": 77.52,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002989076215806981,
      "loss": 0.3973,
      "step": 58140
    },
    {
      "epoch": 77.53333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002989072429673321,
      "loss": 0.4002,
      "step": 58150
    },
    {
      "epoch": 77.54666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029890686428860443,
      "loss": 0.4023,
      "step": 58160
    },
    {
      "epoch": 77.56,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002989064855445154,
      "loss": 0.3973,
      "step": 58170
    },
    {
      "epoch": 77.57333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029890610673506506,
      "loss": 0.4003,
      "step": 58180
    },
    {
      "epoch": 77.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029890572786025365,
      "loss": 0.3887,
      "step": 58190
    },
    {
      "epoch": 77.6,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002989053489200813,
      "loss": 0.3902,
      "step": 58200
    },
    {
      "epoch": 77.61333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002989049699145482,
      "loss": 0.379,
      "step": 58210
    },
    {
      "epoch": 77.62666666666667,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0002989045908436545,
      "loss": 0.3838,
      "step": 58220
    },
    {
      "epoch": 77.64,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029890421170740037,
      "loss": 0.3984,
      "step": 58230
    },
    {
      "epoch": 77.65333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.000298903832505786,
      "loss": 0.4081,
      "step": 58240
    },
    {
      "epoch": 77.66666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002989034532388115,
      "loss": 0.3938,
      "step": 58250
    },
    {
      "epoch": 77.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029890307390647707,
      "loss": 0.3864,
      "step": 58260
    },
    {
      "epoch": 77.69333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029890269450878293,
      "loss": 0.3955,
      "step": 58270
    },
    {
      "epoch": 77.70666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002989023150457291,
      "loss": 0.3889,
      "step": 58280
    },
    {
      "epoch": 77.72,
      "grad_norm": 0.3125,
      "learning_rate": 0.000298901935517316,
      "loss": 0.4108,
      "step": 58290
    },
    {
      "epoch": 77.73333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002989015559235435,
      "loss": 0.4056,
      "step": 58300
    },
    {
      "epoch": 77.74666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002989011762644119,
      "loss": 0.4077,
      "step": 58310
    },
    {
      "epoch": 77.76,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002989007965399214,
      "loss": 0.4201,
      "step": 58320
    },
    {
      "epoch": 77.77333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029890041675007217,
      "loss": 0.4083,
      "step": 58330
    },
    {
      "epoch": 77.78666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029890003689486433,
      "loss": 0.4085,
      "step": 58340
    },
    {
      "epoch": 77.8,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029889965697429803,
      "loss": 0.4074,
      "step": 58350
    },
    {
      "epoch": 77.81333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029889927698837347,
      "loss": 0.3801,
      "step": 58360
    },
    {
      "epoch": 77.82666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029889889693709087,
      "loss": 0.3907,
      "step": 58370
    },
    {
      "epoch": 77.84,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002988985168204503,
      "loss": 0.4023,
      "step": 58380
    },
    {
      "epoch": 77.85333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000298898136638452,
      "loss": 0.3979,
      "step": 58390
    },
    {
      "epoch": 77.86666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029889775639109603,
      "loss": 0.4014,
      "step": 58400
    },
    {
      "epoch": 77.88,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029889737607838264,
      "loss": 0.3818,
      "step": 58410
    },
    {
      "epoch": 77.89333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298896995700312,
      "loss": 0.3929,
      "step": 58420
    },
    {
      "epoch": 77.90666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029889661525688433,
      "loss": 0.4003,
      "step": 58430
    },
    {
      "epoch": 77.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002988962347480997,
      "loss": 0.4033,
      "step": 58440
    },
    {
      "epoch": 77.93333333333334,
      "grad_norm": 0.296875,
      "learning_rate": 0.00029889585417395827,
      "loss": 0.3959,
      "step": 58450
    },
    {
      "epoch": 77.94666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029889547353446026,
      "loss": 0.3967,
      "step": 58460
    },
    {
      "epoch": 77.96,
      "grad_norm": 0.375,
      "learning_rate": 0.00029889509282960585,
      "loss": 0.3944,
      "step": 58470
    },
    {
      "epoch": 77.97333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002988947120593952,
      "loss": 0.4203,
      "step": 58480
    },
    {
      "epoch": 77.98666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002988943312238284,
      "loss": 0.3942,
      "step": 58490
    },
    {
      "epoch": 78.0,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002988939503229057,
      "loss": 0.3875,
      "step": 58500
    },
    {
      "epoch": 78.0,
      "eval_loss": 0.42954668402671814,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7424,
      "eval_samples_per_second": 1.642,
      "eval_steps_per_second": 0.103,
      "step": 58500
    },
    {
      "epoch": 78.01333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002988935693566272,
      "loss": 0.407,
      "step": 58510
    },
    {
      "epoch": 78.02666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002988931883249932,
      "loss": 0.4184,
      "step": 58520
    },
    {
      "epoch": 78.04,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029889280722800366,
      "loss": 0.431,
      "step": 58530
    },
    {
      "epoch": 78.05333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000298892426065659,
      "loss": 0.4179,
      "step": 58540
    },
    {
      "epoch": 78.06666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002988920448379592,
      "loss": 0.4049,
      "step": 58550
    },
    {
      "epoch": 78.08,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002988916635449044,
      "loss": 0.4083,
      "step": 58560
    },
    {
      "epoch": 78.09333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002988912821864949,
      "loss": 0.4099,
      "step": 58570
    },
    {
      "epoch": 78.10666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029889090076273085,
      "loss": 0.3968,
      "step": 58580
    },
    {
      "epoch": 78.12,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029889051927361234,
      "loss": 0.4032,
      "step": 58590
    },
    {
      "epoch": 78.13333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002988901377191396,
      "loss": 0.3943,
      "step": 58600
    },
    {
      "epoch": 78.14666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002988897560993127,
      "loss": 0.4125,
      "step": 58610
    },
    {
      "epoch": 78.16,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000298889374414132,
      "loss": 0.4061,
      "step": 58620
    },
    {
      "epoch": 78.17333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029888899266359745,
      "loss": 0.4001,
      "step": 58630
    },
    {
      "epoch": 78.18666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029888861084770936,
      "loss": 0.3993,
      "step": 58640
    },
    {
      "epoch": 78.2,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002988882289664679,
      "loss": 0.3925,
      "step": 58650
    },
    {
      "epoch": 78.21333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002988878470198731,
      "loss": 0.3937,
      "step": 58660
    },
    {
      "epoch": 78.22666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002988874650079253,
      "loss": 0.405,
      "step": 58670
    },
    {
      "epoch": 78.24,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029888708293062457,
      "loss": 0.3906,
      "step": 58680
    },
    {
      "epoch": 78.25333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029888670078797105,
      "loss": 0.3935,
      "step": 58690
    },
    {
      "epoch": 78.26666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029888631857996503,
      "loss": 0.3941,
      "step": 58700
    },
    {
      "epoch": 78.28,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002988859363066065,
      "loss": 0.4243,
      "step": 58710
    },
    {
      "epoch": 78.29333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029888555396789584,
      "loss": 0.3797,
      "step": 58720
    },
    {
      "epoch": 78.30666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029888517156383305,
      "loss": 0.4036,
      "step": 58730
    },
    {
      "epoch": 78.32,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029888478909441835,
      "loss": 0.4058,
      "step": 58740
    },
    {
      "epoch": 78.33333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029888440655965196,
      "loss": 0.41,
      "step": 58750
    },
    {
      "epoch": 78.34666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002988840239595339,
      "loss": 0.401,
      "step": 58760
    },
    {
      "epoch": 78.36,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002988836412940645,
      "loss": 0.4003,
      "step": 58770
    },
    {
      "epoch": 78.37333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002988832585632439,
      "loss": 0.4004,
      "step": 58780
    },
    {
      "epoch": 78.38666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002988828757670722,
      "loss": 0.3943,
      "step": 58790
    },
    {
      "epoch": 78.4,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029888249290554964,
      "loss": 0.4008,
      "step": 58800
    },
    {
      "epoch": 78.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002988821099786763,
      "loss": 0.4057,
      "step": 58810
    },
    {
      "epoch": 78.42666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002988817269864524,
      "loss": 0.4068,
      "step": 58820
    },
    {
      "epoch": 78.44,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029888134392887813,
      "loss": 0.4179,
      "step": 58830
    },
    {
      "epoch": 78.45333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029888096080595364,
      "loss": 0.4073,
      "step": 58840
    },
    {
      "epoch": 78.46666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029888057761767907,
      "loss": 0.4169,
      "step": 58850
    },
    {
      "epoch": 78.48,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002988801943640546,
      "loss": 0.3975,
      "step": 58860
    },
    {
      "epoch": 78.49333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029887981104508043,
      "loss": 0.4091,
      "step": 58870
    },
    {
      "epoch": 78.50666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029887942766075674,
      "loss": 0.4068,
      "step": 58880
    },
    {
      "epoch": 78.52,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029887904421108363,
      "loss": 0.3975,
      "step": 58890
    },
    {
      "epoch": 78.53333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029887866069606137,
      "loss": 0.4004,
      "step": 58900
    },
    {
      "epoch": 78.54666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029887827711568997,
      "loss": 0.4028,
      "step": 58910
    },
    {
      "epoch": 78.56,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029887789346996974,
      "loss": 0.3967,
      "step": 58920
    },
    {
      "epoch": 78.57333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029887750975890075,
      "loss": 0.4007,
      "step": 58930
    },
    {
      "epoch": 78.58666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002988771259824833,
      "loss": 0.3889,
      "step": 58940
    },
    {
      "epoch": 78.6,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002988767421407174,
      "loss": 0.39,
      "step": 58950
    },
    {
      "epoch": 78.61333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002988763582336034,
      "loss": 0.3802,
      "step": 58960
    },
    {
      "epoch": 78.62666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002988759742611412,
      "loss": 0.3847,
      "step": 58970
    },
    {
      "epoch": 78.64,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002988755902233313,
      "loss": 0.3983,
      "step": 58980
    },
    {
      "epoch": 78.65333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002988752061201736,
      "loss": 0.4079,
      "step": 58990
    },
    {
      "epoch": 78.66666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002988748219516684,
      "loss": 0.3946,
      "step": 59000
    },
    {
      "epoch": 78.68,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029887443771781585,
      "loss": 0.3875,
      "step": 59010
    },
    {
      "epoch": 78.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002988740534186161,
      "loss": 0.3953,
      "step": 59020
    },
    {
      "epoch": 78.70666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029887366905406926,
      "loss": 0.3881,
      "step": 59030
    },
    {
      "epoch": 78.72,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029887328462417564,
      "loss": 0.4109,
      "step": 59040
    },
    {
      "epoch": 78.73333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002988729001289353,
      "loss": 0.4054,
      "step": 59050
    },
    {
      "epoch": 78.74666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002988725155683485,
      "loss": 0.4074,
      "step": 59060
    },
    {
      "epoch": 78.76,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029887213094241527,
      "loss": 0.4201,
      "step": 59070
    },
    {
      "epoch": 78.77333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002988717462511359,
      "loss": 0.4078,
      "step": 59080
    },
    {
      "epoch": 78.78666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002988713614945105,
      "loss": 0.4081,
      "step": 59090
    },
    {
      "epoch": 78.8,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002988709766725393,
      "loss": 0.4066,
      "step": 59100
    },
    {
      "epoch": 78.81333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002988705917852224,
      "loss": 0.3798,
      "step": 59110
    },
    {
      "epoch": 78.82666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029887020683256,
      "loss": 0.3905,
      "step": 59120
    },
    {
      "epoch": 78.84,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002988698218145522,
      "loss": 0.4017,
      "step": 59130
    },
    {
      "epoch": 78.85333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002988694367311993,
      "loss": 0.397,
      "step": 59140
    },
    {
      "epoch": 78.86666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029886905158250135,
      "loss": 0.4015,
      "step": 59150
    },
    {
      "epoch": 78.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002988686663684586,
      "loss": 0.3814,
      "step": 59160
    },
    {
      "epoch": 78.89333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002988682810890712,
      "loss": 0.3925,
      "step": 59170
    },
    {
      "epoch": 78.90666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029886789574433935,
      "loss": 0.4008,
      "step": 59180
    },
    {
      "epoch": 78.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029886751033426315,
      "loss": 0.4035,
      "step": 59190
    },
    {
      "epoch": 78.93333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029886712485884274,
      "loss": 0.3958,
      "step": 59200
    },
    {
      "epoch": 78.94666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029886673931807845,
      "loss": 0.3963,
      "step": 59210
    },
    {
      "epoch": 78.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029886635371197026,
      "loss": 0.3948,
      "step": 59220
    },
    {
      "epoch": 78.97333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002988659680405184,
      "loss": 0.4202,
      "step": 59230
    },
    {
      "epoch": 78.98666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002988655823037232,
      "loss": 0.3939,
      "step": 59240
    },
    {
      "epoch": 79.0,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029886519650158453,
      "loss": 0.3886,
      "step": 59250
    },
    {
      "epoch": 79.0,
      "eval_loss": 0.43000805377960205,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7982,
      "eval_samples_per_second": 1.633,
      "eval_steps_per_second": 0.102,
      "step": 59250
    },
    {
      "epoch": 79.01333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029886481063410284,
      "loss": 0.4056,
      "step": 59260
    },
    {
      "epoch": 79.02666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029886442470127814,
      "loss": 0.4188,
      "step": 59270
    },
    {
      "epoch": 79.04,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002988640387031106,
      "loss": 0.4306,
      "step": 59280
    },
    {
      "epoch": 79.05333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002988636526396005,
      "loss": 0.4167,
      "step": 59290
    },
    {
      "epoch": 79.06666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029886326651074795,
      "loss": 0.4041,
      "step": 59300
    },
    {
      "epoch": 79.08,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029886288031655305,
      "loss": 0.4077,
      "step": 59310
    },
    {
      "epoch": 79.09333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029886249405701605,
      "loss": 0.4096,
      "step": 59320
    },
    {
      "epoch": 79.10666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002988621077321371,
      "loss": 0.3957,
      "step": 59330
    },
    {
      "epoch": 79.12,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029886172134191636,
      "loss": 0.4024,
      "step": 59340
    },
    {
      "epoch": 79.13333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029886133488635404,
      "loss": 0.3937,
      "step": 59350
    },
    {
      "epoch": 79.14666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029886094836545027,
      "loss": 0.4119,
      "step": 59360
    },
    {
      "epoch": 79.16,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029886056177920526,
      "loss": 0.4053,
      "step": 59370
    },
    {
      "epoch": 79.17333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002988601751276191,
      "loss": 0.3999,
      "step": 59380
    },
    {
      "epoch": 79.18666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.000298859788410692,
      "loss": 0.3993,
      "step": 59390
    },
    {
      "epoch": 79.2,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029885940162842415,
      "loss": 0.3917,
      "step": 59400
    },
    {
      "epoch": 79.21333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002988590147808157,
      "loss": 0.3932,
      "step": 59410
    },
    {
      "epoch": 79.22666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029885862786786685,
      "loss": 0.4046,
      "step": 59420
    },
    {
      "epoch": 79.24,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002988582408895777,
      "loss": 0.3888,
      "step": 59430
    },
    {
      "epoch": 79.25333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002988578538459485,
      "loss": 0.3917,
      "step": 59440
    },
    {
      "epoch": 79.26666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0002988574667369794,
      "loss": 0.3943,
      "step": 59450
    },
    {
      "epoch": 79.28,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029885707956267055,
      "loss": 0.4241,
      "step": 59460
    },
    {
      "epoch": 79.29333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029885669232302206,
      "loss": 0.3804,
      "step": 59470
    },
    {
      "epoch": 79.30666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002988563050180342,
      "loss": 0.4032,
      "step": 59480
    },
    {
      "epoch": 79.32,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029885591764770717,
      "loss": 0.405,
      "step": 59490
    },
    {
      "epoch": 79.33333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029885553021204104,
      "loss": 0.4089,
      "step": 59500
    },
    {
      "epoch": 79.34666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029885514271103597,
      "loss": 0.401,
      "step": 59510
    },
    {
      "epoch": 79.36,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029885475514469226,
      "loss": 0.4002,
      "step": 59520
    },
    {
      "epoch": 79.37333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029885436751300997,
      "loss": 0.4,
      "step": 59530
    },
    {
      "epoch": 79.38666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029885397981598927,
      "loss": 0.3937,
      "step": 59540
    },
    {
      "epoch": 79.4,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002988535920536303,
      "loss": 0.4002,
      "step": 59550
    },
    {
      "epoch": 79.41333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002988532042259334,
      "loss": 0.4051,
      "step": 59560
    },
    {
      "epoch": 79.42666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002988528163328986,
      "loss": 0.4066,
      "step": 59570
    },
    {
      "epoch": 79.44,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000298852428374526,
      "loss": 0.4175,
      "step": 59580
    },
    {
      "epoch": 79.45333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029885204035081595,
      "loss": 0.4069,
      "step": 59590
    },
    {
      "epoch": 79.46666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029885165226176857,
      "loss": 0.4166,
      "step": 59600
    },
    {
      "epoch": 79.48,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029885126410738395,
      "loss": 0.3965,
      "step": 59610
    },
    {
      "epoch": 79.49333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002988508758876623,
      "loss": 0.4089,
      "step": 59620
    },
    {
      "epoch": 79.50666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002988504876026038,
      "loss": 0.4068,
      "step": 59630
    },
    {
      "epoch": 79.52,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029885009925220864,
      "loss": 0.3964,
      "step": 59640
    },
    {
      "epoch": 79.53333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.000298849710836477,
      "loss": 0.4017,
      "step": 59650
    },
    {
      "epoch": 79.54666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000298849322355409,
      "loss": 0.4014,
      "step": 59660
    },
    {
      "epoch": 79.56,
      "grad_norm": 0.28125,
      "learning_rate": 0.0002988489338090048,
      "loss": 0.3956,
      "step": 59670
    },
    {
      "epoch": 79.57333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002988485451972646,
      "loss": 0.3997,
      "step": 59680
    },
    {
      "epoch": 79.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029884815652018857,
      "loss": 0.3883,
      "step": 59690
    },
    {
      "epoch": 79.6,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002988477677777769,
      "loss": 0.3898,
      "step": 59700
    },
    {
      "epoch": 79.61333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029884737897002976,
      "loss": 0.3795,
      "step": 59710
    },
    {
      "epoch": 79.62666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029884699009694726,
      "loss": 0.3849,
      "step": 59720
    },
    {
      "epoch": 79.64,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002988466011585296,
      "loss": 0.3975,
      "step": 59730
    },
    {
      "epoch": 79.65333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002988462121547771,
      "loss": 0.4069,
      "step": 59740
    },
    {
      "epoch": 79.66666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029884582308568967,
      "loss": 0.3944,
      "step": 59750
    },
    {
      "epoch": 79.68,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029884543395126766,
      "loss": 0.3857,
      "step": 59760
    },
    {
      "epoch": 79.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029884504475151115,
      "loss": 0.3955,
      "step": 59770
    },
    {
      "epoch": 79.70666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029884465548642034,
      "loss": 0.3886,
      "step": 59780
    },
    {
      "epoch": 79.72,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029884426615599545,
      "loss": 0.4111,
      "step": 59790
    },
    {
      "epoch": 79.73333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002988438767602366,
      "loss": 0.4045,
      "step": 59800
    },
    {
      "epoch": 79.74666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029884348729914393,
      "loss": 0.4067,
      "step": 59810
    },
    {
      "epoch": 79.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029884309777271774,
      "loss": 0.4192,
      "step": 59820
    },
    {
      "epoch": 79.77333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029884270818095806,
      "loss": 0.4076,
      "step": 59830
    },
    {
      "epoch": 79.78666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002988423185238651,
      "loss": 0.4082,
      "step": 59840
    },
    {
      "epoch": 79.8,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002988419288014391,
      "loss": 0.4074,
      "step": 59850
    },
    {
      "epoch": 79.81333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002988415390136801,
      "loss": 0.3801,
      "step": 59860
    },
    {
      "epoch": 79.82666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002988411491605884,
      "loss": 0.3903,
      "step": 59870
    },
    {
      "epoch": 79.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002988407592421641,
      "loss": 0.4019,
      "step": 59880
    },
    {
      "epoch": 79.85333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002988403692584074,
      "loss": 0.3971,
      "step": 59890
    },
    {
      "epoch": 79.86666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029883997920931846,
      "loss": 0.4003,
      "step": 59900
    },
    {
      "epoch": 79.88,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029883958909489745,
      "loss": 0.3817,
      "step": 59910
    },
    {
      "epoch": 79.89333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002988391989151445,
      "loss": 0.393,
      "step": 59920
    },
    {
      "epoch": 79.90666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029883880867005984,
      "loss": 0.4002,
      "step": 59930
    },
    {
      "epoch": 79.92,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002988384183596437,
      "loss": 0.4025,
      "step": 59940
    },
    {
      "epoch": 79.93333333333334,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029883802798389607,
      "loss": 0.3958,
      "step": 59950
    },
    {
      "epoch": 79.94666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002988376375428173,
      "loss": 0.3966,
      "step": 59960
    },
    {
      "epoch": 79.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002988372470364075,
      "loss": 0.3934,
      "step": 59970
    },
    {
      "epoch": 79.97333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002988368564646668,
      "loss": 0.4191,
      "step": 59980
    },
    {
      "epoch": 79.98666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002988364658275954,
      "loss": 0.3943,
      "step": 59990
    },
    {
      "epoch": 80.0,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029883607512519347,
      "loss": 0.3875,
      "step": 60000
    },
    {
      "epoch": 80.0,
      "eval_loss": 0.4296361804008484,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5353,
      "eval_samples_per_second": 1.678,
      "eval_steps_per_second": 0.105,
      "step": 60000
    },
    {
      "epoch": 80.01333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002988356843574612,
      "loss": 0.4054,
      "step": 60010
    },
    {
      "epoch": 80.02666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029883529352439875,
      "loss": 0.418,
      "step": 60020
    },
    {
      "epoch": 80.04,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029883490262600627,
      "loss": 0.4307,
      "step": 60030
    },
    {
      "epoch": 80.05333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000298834511662284,
      "loss": 0.4172,
      "step": 60040
    },
    {
      "epoch": 80.06666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000298834120633232,
      "loss": 0.404,
      "step": 60050
    },
    {
      "epoch": 80.08,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029883372953885053,
      "loss": 0.4071,
      "step": 60060
    },
    {
      "epoch": 80.09333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002988333383791398,
      "loss": 0.4091,
      "step": 60070
    },
    {
      "epoch": 80.10666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002988329471540998,
      "loss": 0.3956,
      "step": 60080
    },
    {
      "epoch": 80.12,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002988325558637309,
      "loss": 0.4019,
      "step": 60090
    },
    {
      "epoch": 80.13333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029883216450803313,
      "loss": 0.3929,
      "step": 60100
    },
    {
      "epoch": 80.14666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029883177308700674,
      "loss": 0.4126,
      "step": 60110
    },
    {
      "epoch": 80.16,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002988313816006519,
      "loss": 0.4057,
      "step": 60120
    },
    {
      "epoch": 80.17333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002988309900489688,
      "loss": 0.3999,
      "step": 60130
    },
    {
      "epoch": 80.18666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002988305984319575,
      "loss": 0.3992,
      "step": 60140
    },
    {
      "epoch": 80.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002988302067496183,
      "loss": 0.3925,
      "step": 60150
    },
    {
      "epoch": 80.21333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002988298150019513,
      "loss": 0.3931,
      "step": 60160
    },
    {
      "epoch": 80.22666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002988294231889567,
      "loss": 0.4054,
      "step": 60170
    },
    {
      "epoch": 80.24,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029882903131063466,
      "loss": 0.39,
      "step": 60180
    },
    {
      "epoch": 80.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029882863936698536,
      "loss": 0.3917,
      "step": 60190
    },
    {
      "epoch": 80.26666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000298828247358009,
      "loss": 0.3947,
      "step": 60200
    },
    {
      "epoch": 80.28,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029882785528370567,
      "loss": 0.4246,
      "step": 60210
    },
    {
      "epoch": 80.29333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029882746314407565,
      "loss": 0.3796,
      "step": 60220
    },
    {
      "epoch": 80.30666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000298827070939119,
      "loss": 0.4032,
      "step": 60230
    },
    {
      "epoch": 80.32,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000298826678668836,
      "loss": 0.4054,
      "step": 60240
    },
    {
      "epoch": 80.33333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029882628633322674,
      "loss": 0.4096,
      "step": 60250
    },
    {
      "epoch": 80.34666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029882589393229143,
      "loss": 0.3991,
      "step": 60260
    },
    {
      "epoch": 80.36,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002988255014660302,
      "loss": 0.3992,
      "step": 60270
    },
    {
      "epoch": 80.37333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029882510893444335,
      "loss": 0.4007,
      "step": 60280
    },
    {
      "epoch": 80.38666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029882471633753085,
      "loss": 0.3936,
      "step": 60290
    },
    {
      "epoch": 80.4,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029882432367529305,
      "loss": 0.3996,
      "step": 60300
    },
    {
      "epoch": 80.41333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029882393094773,
      "loss": 0.4051,
      "step": 60310
    },
    {
      "epoch": 80.42666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029882353815484196,
      "loss": 0.4063,
      "step": 60320
    },
    {
      "epoch": 80.44,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002988231452966291,
      "loss": 0.4178,
      "step": 60330
    },
    {
      "epoch": 80.45333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029882275237309153,
      "loss": 0.4066,
      "step": 60340
    },
    {
      "epoch": 80.46666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002988223593842294,
      "loss": 0.4166,
      "step": 60350
    },
    {
      "epoch": 80.48,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000298821966330043,
      "loss": 0.3977,
      "step": 60360
    },
    {
      "epoch": 80.49333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029882157321053243,
      "loss": 0.4084,
      "step": 60370
    },
    {
      "epoch": 80.50666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002988211800256979,
      "loss": 0.4063,
      "step": 60380
    },
    {
      "epoch": 80.52,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002988207867755395,
      "loss": 0.3961,
      "step": 60390
    },
    {
      "epoch": 80.53333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002988203934600575,
      "loss": 0.3999,
      "step": 60400
    },
    {
      "epoch": 80.54666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029882000007925197,
      "loss": 0.4024,
      "step": 60410
    },
    {
      "epoch": 80.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002988196066331232,
      "loss": 0.3951,
      "step": 60420
    },
    {
      "epoch": 80.57333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029881921312167127,
      "loss": 0.4001,
      "step": 60430
    },
    {
      "epoch": 80.58666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002988188195448964,
      "loss": 0.3888,
      "step": 60440
    },
    {
      "epoch": 80.6,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029881842590279877,
      "loss": 0.39,
      "step": 60450
    },
    {
      "epoch": 80.61333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029881803219537854,
      "loss": 0.3793,
      "step": 60460
    },
    {
      "epoch": 80.62666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002988176384226358,
      "loss": 0.3841,
      "step": 60470
    },
    {
      "epoch": 80.64,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029881724458457085,
      "loss": 0.3974,
      "step": 60480
    },
    {
      "epoch": 80.65333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029881685068118384,
      "loss": 0.4069,
      "step": 60490
    },
    {
      "epoch": 80.66666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029881645671247484,
      "loss": 0.3936,
      "step": 60500
    },
    {
      "epoch": 80.68,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002988160626784442,
      "loss": 0.3862,
      "step": 60510
    },
    {
      "epoch": 80.69333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002988156685790919,
      "loss": 0.3952,
      "step": 60520
    },
    {
      "epoch": 80.70666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002988152744144182,
      "loss": 0.3881,
      "step": 60530
    },
    {
      "epoch": 80.72,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029881488018442334,
      "loss": 0.4114,
      "step": 60540
    },
    {
      "epoch": 80.73333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002988144858891074,
      "loss": 0.4044,
      "step": 60550
    },
    {
      "epoch": 80.74666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002988140915284705,
      "loss": 0.4066,
      "step": 60560
    },
    {
      "epoch": 80.76,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000298813697102513,
      "loss": 0.4197,
      "step": 60570
    },
    {
      "epoch": 80.77333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029881330261123494,
      "loss": 0.4069,
      "step": 60580
    },
    {
      "epoch": 80.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029881290805463655,
      "loss": 0.4077,
      "step": 60590
    },
    {
      "epoch": 80.8,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002988125134327179,
      "loss": 0.4057,
      "step": 60600
    },
    {
      "epoch": 80.81333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029881211874547935,
      "loss": 0.3798,
      "step": 60610
    },
    {
      "epoch": 80.82666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029881172399292085,
      "loss": 0.3904,
      "step": 60620
    },
    {
      "epoch": 80.84,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029881132917504276,
      "loss": 0.4017,
      "step": 60630
    },
    {
      "epoch": 80.85333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002988109342918451,
      "loss": 0.3969,
      "step": 60640
    },
    {
      "epoch": 80.86666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002988105393433282,
      "loss": 0.4007,
      "step": 60650
    },
    {
      "epoch": 80.88,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029881014432949214,
      "loss": 0.3824,
      "step": 60660
    },
    {
      "epoch": 80.89333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002988097492503371,
      "loss": 0.3926,
      "step": 60670
    },
    {
      "epoch": 80.90666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002988093541058632,
      "loss": 0.4003,
      "step": 60680
    },
    {
      "epoch": 80.92,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002988089588960708,
      "loss": 0.4023,
      "step": 60690
    },
    {
      "epoch": 80.93333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002988085636209598,
      "loss": 0.3949,
      "step": 60700
    },
    {
      "epoch": 80.94666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029880816828053064,
      "loss": 0.3959,
      "step": 60710
    },
    {
      "epoch": 80.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002988077728747833,
      "loss": 0.3935,
      "step": 60720
    },
    {
      "epoch": 80.97333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002988073774037181,
      "loss": 0.4188,
      "step": 60730
    },
    {
      "epoch": 80.98666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002988069818673351,
      "loss": 0.3933,
      "step": 60740
    },
    {
      "epoch": 81.0,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002988065862656345,
      "loss": 0.3886,
      "step": 60750
    },
    {
      "epoch": 81.0,
      "eval_loss": 0.42978671193122864,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.615,
      "eval_samples_per_second": 1.664,
      "eval_steps_per_second": 0.104,
      "step": 60750
    },
    {
      "epoch": 81.01333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002988061905986165,
      "loss": 0.407,
      "step": 60760
    },
    {
      "epoch": 81.02666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029880579486628127,
      "loss": 0.4176,
      "step": 60770
    },
    {
      "epoch": 81.04,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029880539906862897,
      "loss": 0.4306,
      "step": 60780
    },
    {
      "epoch": 81.05333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029880500320565983,
      "loss": 0.4163,
      "step": 60790
    },
    {
      "epoch": 81.06666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002988046072773739,
      "loss": 0.4042,
      "step": 60800
    },
    {
      "epoch": 81.08,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029880421128377146,
      "loss": 0.4081,
      "step": 60810
    },
    {
      "epoch": 81.09333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002988038152248527,
      "loss": 0.4078,
      "step": 60820
    },
    {
      "epoch": 81.10666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029880341910061765,
      "loss": 0.397,
      "step": 60830
    },
    {
      "epoch": 81.12,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029880302291106664,
      "loss": 0.4015,
      "step": 60840
    },
    {
      "epoch": 81.13333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002988026266561998,
      "loss": 0.3942,
      "step": 60850
    },
    {
      "epoch": 81.14666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029880223033601727,
      "loss": 0.4113,
      "step": 60860
    },
    {
      "epoch": 81.16,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029880183395051917,
      "loss": 0.4052,
      "step": 60870
    },
    {
      "epoch": 81.17333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029880143749970586,
      "loss": 0.3989,
      "step": 60880
    },
    {
      "epoch": 81.18666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029880104098357733,
      "loss": 0.3977,
      "step": 60890
    },
    {
      "epoch": 81.2,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002988006444021338,
      "loss": 0.392,
      "step": 60900
    },
    {
      "epoch": 81.21333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002988002477553755,
      "loss": 0.3929,
      "step": 60910
    },
    {
      "epoch": 81.22666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002987998510433026,
      "loss": 0.4044,
      "step": 60920
    },
    {
      "epoch": 81.24,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029879945426591523,
      "loss": 0.3892,
      "step": 60930
    },
    {
      "epoch": 81.25333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002987990574232136,
      "loss": 0.3917,
      "step": 60940
    },
    {
      "epoch": 81.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002987986605151978,
      "loss": 0.3935,
      "step": 60950
    },
    {
      "epoch": 81.28,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987982635418681,
      "loss": 0.4242,
      "step": 60960
    },
    {
      "epoch": 81.29333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029879786650322465,
      "loss": 0.38,
      "step": 60970
    },
    {
      "epoch": 81.30666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002987974693992676,
      "loss": 0.4031,
      "step": 60980
    },
    {
      "epoch": 81.32,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002987970722299972,
      "loss": 0.4045,
      "step": 60990
    },
    {
      "epoch": 81.33333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002987966749954135,
      "loss": 0.4084,
      "step": 61000
    },
    {
      "epoch": 81.34666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029879627769551675,
      "loss": 0.3989,
      "step": 61010
    },
    {
      "epoch": 81.36,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002987958803303071,
      "loss": 0.3995,
      "step": 61020
    },
    {
      "epoch": 81.37333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029879548289978486,
      "loss": 0.4009,
      "step": 61030
    },
    {
      "epoch": 81.38666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029879508540394995,
      "loss": 0.3928,
      "step": 61040
    },
    {
      "epoch": 81.4,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002987946878428027,
      "loss": 0.4005,
      "step": 61050
    },
    {
      "epoch": 81.41333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029879429021634327,
      "loss": 0.4051,
      "step": 61060
    },
    {
      "epoch": 81.42666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002987938925245718,
      "loss": 0.4067,
      "step": 61070
    },
    {
      "epoch": 81.44,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002987934947674886,
      "loss": 0.417,
      "step": 61080
    },
    {
      "epoch": 81.45333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029879309694509366,
      "loss": 0.4076,
      "step": 61090
    },
    {
      "epoch": 81.46666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987926990573872,
      "loss": 0.4151,
      "step": 61100
    },
    {
      "epoch": 81.48,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002987923011043695,
      "loss": 0.3968,
      "step": 61110
    },
    {
      "epoch": 81.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002987919030860406,
      "loss": 0.4081,
      "step": 61120
    },
    {
      "epoch": 81.50666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029879150500240076,
      "loss": 0.406,
      "step": 61130
    },
    {
      "epoch": 81.52,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002987911068534501,
      "loss": 0.397,
      "step": 61140
    },
    {
      "epoch": 81.53333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029879070863918884,
      "loss": 0.4001,
      "step": 61150
    },
    {
      "epoch": 81.54666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002987903103596172,
      "loss": 0.4022,
      "step": 61160
    },
    {
      "epoch": 81.56,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002987899120147352,
      "loss": 0.3966,
      "step": 61170
    },
    {
      "epoch": 81.57333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002987895136045431,
      "loss": 0.3999,
      "step": 61180
    },
    {
      "epoch": 81.58666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002987891151290412,
      "loss": 0.3876,
      "step": 61190
    },
    {
      "epoch": 81.6,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029878871658822943,
      "loss": 0.3905,
      "step": 61200
    },
    {
      "epoch": 81.61333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029878831798210823,
      "loss": 0.3798,
      "step": 61210
    },
    {
      "epoch": 81.62666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029878791931067756,
      "loss": 0.3851,
      "step": 61220
    },
    {
      "epoch": 81.64,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029878752057393765,
      "loss": 0.3974,
      "step": 61230
    },
    {
      "epoch": 81.65333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029878712177188875,
      "loss": 0.4078,
      "step": 61240
    },
    {
      "epoch": 81.66666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029878672290453094,
      "loss": 0.3952,
      "step": 61250
    },
    {
      "epoch": 81.68,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002987863239718644,
      "loss": 0.3861,
      "step": 61260
    },
    {
      "epoch": 81.69333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002987859249738894,
      "loss": 0.3945,
      "step": 61270
    },
    {
      "epoch": 81.70666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029878552591060606,
      "loss": 0.3883,
      "step": 61280
    },
    {
      "epoch": 81.72,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029878512678201455,
      "loss": 0.4111,
      "step": 61290
    },
    {
      "epoch": 81.73333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002987847275881151,
      "loss": 0.4042,
      "step": 61300
    },
    {
      "epoch": 81.74666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029878432832890775,
      "loss": 0.4062,
      "step": 61310
    },
    {
      "epoch": 81.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002987839290043928,
      "loss": 0.4194,
      "step": 61320
    },
    {
      "epoch": 81.77333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029878352961457035,
      "loss": 0.4066,
      "step": 61330
    },
    {
      "epoch": 81.78666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029878313015944063,
      "loss": 0.4075,
      "step": 61340
    },
    {
      "epoch": 81.8,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987827306390038,
      "loss": 0.4062,
      "step": 61350
    },
    {
      "epoch": 81.81333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029878233105326004,
      "loss": 0.3792,
      "step": 61360
    },
    {
      "epoch": 81.82666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029878193140220956,
      "loss": 0.3883,
      "step": 61370
    },
    {
      "epoch": 81.84,
      "grad_norm": 0.375,
      "learning_rate": 0.0002987815316858524,
      "loss": 0.4011,
      "step": 61380
    },
    {
      "epoch": 81.85333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987811319041889,
      "loss": 0.3971,
      "step": 61390
    },
    {
      "epoch": 81.86666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002987807320572191,
      "loss": 0.4009,
      "step": 61400
    },
    {
      "epoch": 81.88,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029878033214494323,
      "loss": 0.3811,
      "step": 61410
    },
    {
      "epoch": 81.89333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002987799321673615,
      "loss": 0.3916,
      "step": 61420
    },
    {
      "epoch": 81.90666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029877953212447414,
      "loss": 0.3992,
      "step": 61430
    },
    {
      "epoch": 81.92,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029877913201628115,
      "loss": 0.4022,
      "step": 61440
    },
    {
      "epoch": 81.93333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029877873184278286,
      "loss": 0.3947,
      "step": 61450
    },
    {
      "epoch": 81.94666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002987783316039793,
      "loss": 0.3963,
      "step": 61460
    },
    {
      "epoch": 81.96,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002987779312998708,
      "loss": 0.3939,
      "step": 61470
    },
    {
      "epoch": 81.97333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029877753093045744,
      "loss": 0.4201,
      "step": 61480
    },
    {
      "epoch": 81.98666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029877713049573945,
      "loss": 0.3937,
      "step": 61490
    },
    {
      "epoch": 82.0,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000298776729995717,
      "loss": 0.3886,
      "step": 61500
    },
    {
      "epoch": 82.0,
      "eval_loss": 0.42987674474716187,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1408,
      "eval_samples_per_second": 1.578,
      "eval_steps_per_second": 0.099,
      "step": 61500
    },
    {
      "epoch": 82.01333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002987763294303902,
      "loss": 0.4052,
      "step": 61510
    },
    {
      "epoch": 82.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029877592879975926,
      "loss": 0.4171,
      "step": 61520
    },
    {
      "epoch": 82.04,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002987755281038244,
      "loss": 0.431,
      "step": 61530
    },
    {
      "epoch": 82.05333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029877512734258573,
      "loss": 0.4165,
      "step": 61540
    },
    {
      "epoch": 82.06666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002987747265160435,
      "loss": 0.4042,
      "step": 61550
    },
    {
      "epoch": 82.08,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002987743256241978,
      "loss": 0.408,
      "step": 61560
    },
    {
      "epoch": 82.09333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002987739246670489,
      "loss": 0.4093,
      "step": 61570
    },
    {
      "epoch": 82.10666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002987735236445968,
      "loss": 0.3958,
      "step": 61580
    },
    {
      "epoch": 82.12,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029877312255684196,
      "loss": 0.4009,
      "step": 61590
    },
    {
      "epoch": 82.13333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987727214037843,
      "loss": 0.3922,
      "step": 61600
    },
    {
      "epoch": 82.14666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029877232018542417,
      "loss": 0.4107,
      "step": 61610
    },
    {
      "epoch": 82.16,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002987719189017616,
      "loss": 0.4051,
      "step": 61620
    },
    {
      "epoch": 82.17333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002987715175527969,
      "loss": 0.3999,
      "step": 61630
    },
    {
      "epoch": 82.18666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002987711161385301,
      "loss": 0.3989,
      "step": 61640
    },
    {
      "epoch": 82.2,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002987707146589615,
      "loss": 0.39,
      "step": 61650
    },
    {
      "epoch": 82.21333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029877031311409126,
      "loss": 0.3933,
      "step": 61660
    },
    {
      "epoch": 82.22666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002987699115039195,
      "loss": 0.4047,
      "step": 61670
    },
    {
      "epoch": 82.24,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029876950982844644,
      "loss": 0.3898,
      "step": 61680
    },
    {
      "epoch": 82.25333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002987691080876723,
      "loss": 0.3918,
      "step": 61690
    },
    {
      "epoch": 82.26666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002987687062815971,
      "loss": 0.394,
      "step": 61700
    },
    {
      "epoch": 82.28,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002987683044102212,
      "loss": 0.424,
      "step": 61710
    },
    {
      "epoch": 82.29333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002987679024735446,
      "loss": 0.3794,
      "step": 61720
    },
    {
      "epoch": 82.30666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029876750047156764,
      "loss": 0.4026,
      "step": 61730
    },
    {
      "epoch": 82.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002987670984042904,
      "loss": 0.4049,
      "step": 61740
    },
    {
      "epoch": 82.33333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002987666962717131,
      "loss": 0.4092,
      "step": 61750
    },
    {
      "epoch": 82.34666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002987662940738359,
      "loss": 0.3989,
      "step": 61760
    },
    {
      "epoch": 82.36,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029876589181065895,
      "loss": 0.3991,
      "step": 61770
    },
    {
      "epoch": 82.37333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002987654894821825,
      "loss": 0.3998,
      "step": 61780
    },
    {
      "epoch": 82.38666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002987650870884066,
      "loss": 0.3937,
      "step": 61790
    },
    {
      "epoch": 82.4,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029876468462933155,
      "loss": 0.4007,
      "step": 61800
    },
    {
      "epoch": 82.41333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029876428210495753,
      "loss": 0.4045,
      "step": 61810
    },
    {
      "epoch": 82.42666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987638795152846,
      "loss": 0.4062,
      "step": 61820
    },
    {
      "epoch": 82.44,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000298763476860313,
      "loss": 0.4168,
      "step": 61830
    },
    {
      "epoch": 82.45333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029876307414004297,
      "loss": 0.4062,
      "step": 61840
    },
    {
      "epoch": 82.46666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002987626713544746,
      "loss": 0.4163,
      "step": 61850
    },
    {
      "epoch": 82.48,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002987622685036081,
      "loss": 0.3959,
      "step": 61860
    },
    {
      "epoch": 82.49333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029876186558744366,
      "loss": 0.4083,
      "step": 61870
    },
    {
      "epoch": 82.50666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002987614626059814,
      "loss": 0.406,
      "step": 61880
    },
    {
      "epoch": 82.52,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002987610595592215,
      "loss": 0.3964,
      "step": 61890
    },
    {
      "epoch": 82.53333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987606564471643,
      "loss": 0.4001,
      "step": 61900
    },
    {
      "epoch": 82.54666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002987602532698097,
      "loss": 0.4014,
      "step": 61910
    },
    {
      "epoch": 82.56,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00029875985002715815,
      "loss": 0.3967,
      "step": 61920
    },
    {
      "epoch": 82.57333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029875944671920964,
      "loss": 0.3991,
      "step": 61930
    },
    {
      "epoch": 82.58666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029875904334596446,
      "loss": 0.3875,
      "step": 61940
    },
    {
      "epoch": 82.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029875863990742267,
      "loss": 0.3896,
      "step": 61950
    },
    {
      "epoch": 82.61333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002987582364035845,
      "loss": 0.3795,
      "step": 61960
    },
    {
      "epoch": 82.62666666666667,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00029875783283445025,
      "loss": 0.3843,
      "step": 61970
    },
    {
      "epoch": 82.64,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029875742920001995,
      "loss": 0.3973,
      "step": 61980
    },
    {
      "epoch": 82.65333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029875702550029374,
      "loss": 0.4069,
      "step": 61990
    },
    {
      "epoch": 82.66666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000298756621735272,
      "loss": 0.3934,
      "step": 62000
    },
    {
      "epoch": 82.68,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002987562179049547,
      "loss": 0.3862,
      "step": 62010
    },
    {
      "epoch": 82.69333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987558140093421,
      "loss": 0.3952,
      "step": 62020
    },
    {
      "epoch": 82.70666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002987554100484344,
      "loss": 0.3891,
      "step": 62030
    },
    {
      "epoch": 82.72,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002987550060222317,
      "loss": 0.4113,
      "step": 62040
    },
    {
      "epoch": 82.73333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987546019307343,
      "loss": 0.4039,
      "step": 62050
    },
    {
      "epoch": 82.74666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002987541977739423,
      "loss": 0.4066,
      "step": 62060
    },
    {
      "epoch": 82.76,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987537935518558,
      "loss": 0.4202,
      "step": 62070
    },
    {
      "epoch": 82.77333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029875338926447516,
      "loss": 0.4066,
      "step": 62080
    },
    {
      "epoch": 82.78666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029875298491180045,
      "loss": 0.4075,
      "step": 62090
    },
    {
      "epoch": 82.8,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029875258049383177,
      "loss": 0.4056,
      "step": 62100
    },
    {
      "epoch": 82.81333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029875217601056946,
      "loss": 0.3797,
      "step": 62110
    },
    {
      "epoch": 82.82666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029875177146201367,
      "loss": 0.3903,
      "step": 62120
    },
    {
      "epoch": 82.84,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002987513668481644,
      "loss": 0.4008,
      "step": 62130
    },
    {
      "epoch": 82.85333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029875096216902205,
      "loss": 0.3959,
      "step": 62140
    },
    {
      "epoch": 82.86666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029875055742458666,
      "loss": 0.4004,
      "step": 62150
    },
    {
      "epoch": 82.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029875015261485855,
      "loss": 0.381,
      "step": 62160
    },
    {
      "epoch": 82.89333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029874974773983767,
      "loss": 0.3919,
      "step": 62170
    },
    {
      "epoch": 82.90666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002987493427995244,
      "loss": 0.4003,
      "step": 62180
    },
    {
      "epoch": 82.92,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002987489377939188,
      "loss": 0.4015,
      "step": 62190
    },
    {
      "epoch": 82.93333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987485327230211,
      "loss": 0.3952,
      "step": 62200
    },
    {
      "epoch": 82.94666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029874812758683156,
      "loss": 0.3957,
      "step": 62210
    },
    {
      "epoch": 82.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002987477223853502,
      "loss": 0.3938,
      "step": 62220
    },
    {
      "epoch": 82.97333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029874731711857725,
      "loss": 0.4194,
      "step": 62230
    },
    {
      "epoch": 82.98666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029874691178651295,
      "loss": 0.393,
      "step": 62240
    },
    {
      "epoch": 83.0,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987465063891574,
      "loss": 0.3881,
      "step": 62250
    },
    {
      "epoch": 83.0,
      "eval_loss": 0.42971071600914,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9949,
      "eval_samples_per_second": 1.601,
      "eval_steps_per_second": 0.1,
      "step": 62250
    },
    {
      "epoch": 83.01333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987461009265108,
      "loss": 0.4051,
      "step": 62260
    },
    {
      "epoch": 83.02666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002987456953985734,
      "loss": 0.4174,
      "step": 62270
    },
    {
      "epoch": 83.04,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029874528980534525,
      "loss": 0.4303,
      "step": 62280
    },
    {
      "epoch": 83.05333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029874488414682665,
      "loss": 0.4169,
      "step": 62290
    },
    {
      "epoch": 83.06666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029874447842301766,
      "loss": 0.4037,
      "step": 62300
    },
    {
      "epoch": 83.08,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029874407263391856,
      "loss": 0.4069,
      "step": 62310
    },
    {
      "epoch": 83.09333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002987436667795295,
      "loss": 0.4086,
      "step": 62320
    },
    {
      "epoch": 83.10666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029874326085985067,
      "loss": 0.3963,
      "step": 62330
    },
    {
      "epoch": 83.12,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029874285487488215,
      "loss": 0.402,
      "step": 62340
    },
    {
      "epoch": 83.13333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002987424488246243,
      "loss": 0.3929,
      "step": 62350
    },
    {
      "epoch": 83.14666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029874204270907706,
      "loss": 0.4118,
      "step": 62360
    },
    {
      "epoch": 83.16,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002987416365282408,
      "loss": 0.4054,
      "step": 62370
    },
    {
      "epoch": 83.17333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029874123028211563,
      "loss": 0.3989,
      "step": 62380
    },
    {
      "epoch": 83.18666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029874082397070176,
      "loss": 0.3974,
      "step": 62390
    },
    {
      "epoch": 83.2,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029874041759399934,
      "loss": 0.392,
      "step": 62400
    },
    {
      "epoch": 83.21333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029874001115200855,
      "loss": 0.3925,
      "step": 62410
    },
    {
      "epoch": 83.22666666666667,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002987396046447296,
      "loss": 0.4046,
      "step": 62420
    },
    {
      "epoch": 83.24,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002987391980721626,
      "loss": 0.3893,
      "step": 62430
    },
    {
      "epoch": 83.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002987387914343078,
      "loss": 0.3923,
      "step": 62440
    },
    {
      "epoch": 83.26666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002987383847311653,
      "loss": 0.3937,
      "step": 62450
    },
    {
      "epoch": 83.28,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029873797796273535,
      "loss": 0.4231,
      "step": 62460
    },
    {
      "epoch": 83.29333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987375711290181,
      "loss": 0.3787,
      "step": 62470
    },
    {
      "epoch": 83.30666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029873716423001374,
      "loss": 0.4028,
      "step": 62480
    },
    {
      "epoch": 83.32,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002987367572657225,
      "loss": 0.4041,
      "step": 62490
    },
    {
      "epoch": 83.33333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002987363502361444,
      "loss": 0.4088,
      "step": 62500
    },
    {
      "epoch": 83.34666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029873594314127976,
      "loss": 0.399,
      "step": 62510
    },
    {
      "epoch": 83.36,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029873553598112873,
      "loss": 0.3986,
      "step": 62520
    },
    {
      "epoch": 83.37333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029873512875569144,
      "loss": 0.4007,
      "step": 62530
    },
    {
      "epoch": 83.38666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029873472146496816,
      "loss": 0.3921,
      "step": 62540
    },
    {
      "epoch": 83.4,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000298734314108959,
      "loss": 0.4001,
      "step": 62550
    },
    {
      "epoch": 83.41333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029873390668766416,
      "loss": 0.4026,
      "step": 62560
    },
    {
      "epoch": 83.42666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029873349920108376,
      "loss": 0.4059,
      "step": 62570
    },
    {
      "epoch": 83.44,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987330916492181,
      "loss": 0.4165,
      "step": 62580
    },
    {
      "epoch": 83.45333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002987326840320672,
      "loss": 0.406,
      "step": 62590
    },
    {
      "epoch": 83.46666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002987322763496314,
      "loss": 0.4154,
      "step": 62600
    },
    {
      "epoch": 83.48,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029873186860191077,
      "loss": 0.3964,
      "step": 62610
    },
    {
      "epoch": 83.49333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029873146078890556,
      "loss": 0.4078,
      "step": 62620
    },
    {
      "epoch": 83.50666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987310529106159,
      "loss": 0.406,
      "step": 62630
    },
    {
      "epoch": 83.52,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029873064496704194,
      "loss": 0.3962,
      "step": 62640
    },
    {
      "epoch": 83.53333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000298730236958184,
      "loss": 0.3994,
      "step": 62650
    },
    {
      "epoch": 83.54666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002987298288840421,
      "loss": 0.4012,
      "step": 62660
    },
    {
      "epoch": 83.56,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029872942074461647,
      "loss": 0.3957,
      "step": 62670
    },
    {
      "epoch": 83.57333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029872901253990734,
      "loss": 0.3995,
      "step": 62680
    },
    {
      "epoch": 83.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002987286042699148,
      "loss": 0.3884,
      "step": 62690
    },
    {
      "epoch": 83.6,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002987281959346391,
      "loss": 0.39,
      "step": 62700
    },
    {
      "epoch": 83.61333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002987277875340804,
      "loss": 0.3794,
      "step": 62710
    },
    {
      "epoch": 83.62666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002987273790682389,
      "loss": 0.3836,
      "step": 62720
    },
    {
      "epoch": 83.64,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002987269705371148,
      "loss": 0.3978,
      "step": 62730
    },
    {
      "epoch": 83.65333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029872656194070813,
      "loss": 0.4067,
      "step": 62740
    },
    {
      "epoch": 83.66666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002987261532790192,
      "loss": 0.3936,
      "step": 62750
    },
    {
      "epoch": 83.68,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002987257445520482,
      "loss": 0.3854,
      "step": 62760
    },
    {
      "epoch": 83.69333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002987253357597953,
      "loss": 0.3951,
      "step": 62770
    },
    {
      "epoch": 83.70666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002987249269022606,
      "loss": 0.3889,
      "step": 62780
    },
    {
      "epoch": 83.72,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002987245179794443,
      "loss": 0.4107,
      "step": 62790
    },
    {
      "epoch": 83.73333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002987241089913467,
      "loss": 0.4043,
      "step": 62800
    },
    {
      "epoch": 83.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029872369993796786,
      "loss": 0.4069,
      "step": 62810
    },
    {
      "epoch": 83.76,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029872329081930796,
      "loss": 0.4201,
      "step": 62820
    },
    {
      "epoch": 83.77333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029872288163536727,
      "loss": 0.4069,
      "step": 62830
    },
    {
      "epoch": 83.78666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029872247238614584,
      "loss": 0.4071,
      "step": 62840
    },
    {
      "epoch": 83.8,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029872206307164395,
      "loss": 0.406,
      "step": 62850
    },
    {
      "epoch": 83.81333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002987216536918618,
      "loss": 0.3789,
      "step": 62860
    },
    {
      "epoch": 83.82666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002987212442467995,
      "loss": 0.3891,
      "step": 62870
    },
    {
      "epoch": 83.84,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002987208347364572,
      "loss": 0.4003,
      "step": 62880
    },
    {
      "epoch": 83.85333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002987204251608352,
      "loss": 0.3953,
      "step": 62890
    },
    {
      "epoch": 83.86666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002987200155199335,
      "loss": 0.4002,
      "step": 62900
    },
    {
      "epoch": 83.88,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002987196058137525,
      "loss": 0.3805,
      "step": 62910
    },
    {
      "epoch": 83.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029871919604229223,
      "loss": 0.3926,
      "step": 62920
    },
    {
      "epoch": 83.90666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029871878620555287,
      "loss": 0.3992,
      "step": 62930
    },
    {
      "epoch": 83.92,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029871837630353473,
      "loss": 0.4014,
      "step": 62940
    },
    {
      "epoch": 83.93333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002987179663362378,
      "loss": 0.3946,
      "step": 62950
    },
    {
      "epoch": 83.94666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987175563036624,
      "loss": 0.3965,
      "step": 62960
    },
    {
      "epoch": 83.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002987171462058087,
      "loss": 0.3944,
      "step": 62970
    },
    {
      "epoch": 83.97333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029871673604267676,
      "loss": 0.4201,
      "step": 62980
    },
    {
      "epoch": 83.98666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029871632581426693,
      "loss": 0.394,
      "step": 62990
    },
    {
      "epoch": 84.0,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002987159155205793,
      "loss": 0.3874,
      "step": 63000
    },
    {
      "epoch": 84.0,
      "eval_loss": 0.4306502640247345,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1325,
      "eval_samples_per_second": 1.579,
      "eval_steps_per_second": 0.099,
      "step": 63000
    },
    {
      "epoch": 84.01333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.000298715505161614,
      "loss": 0.4057,
      "step": 63010
    },
    {
      "epoch": 84.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029871509473737134,
      "loss": 0.4178,
      "step": 63020
    },
    {
      "epoch": 84.04,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002987146842478514,
      "loss": 0.4298,
      "step": 63030
    },
    {
      "epoch": 84.05333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987142736930544,
      "loss": 0.4165,
      "step": 63040
    },
    {
      "epoch": 84.06666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029871386307298047,
      "loss": 0.4032,
      "step": 63050
    },
    {
      "epoch": 84.08,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029871345238762984,
      "loss": 0.4072,
      "step": 63060
    },
    {
      "epoch": 84.09333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002987130416370027,
      "loss": 0.4077,
      "step": 63070
    },
    {
      "epoch": 84.10666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002987126308210992,
      "loss": 0.3953,
      "step": 63080
    },
    {
      "epoch": 84.12,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002987122199399196,
      "loss": 0.4016,
      "step": 63090
    },
    {
      "epoch": 84.13333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029871180899346397,
      "loss": 0.3931,
      "step": 63100
    },
    {
      "epoch": 84.14666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002987113979817325,
      "loss": 0.4106,
      "step": 63110
    },
    {
      "epoch": 84.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002987109869047254,
      "loss": 0.4043,
      "step": 63120
    },
    {
      "epoch": 84.17333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002987105757624428,
      "loss": 0.3994,
      "step": 63130
    },
    {
      "epoch": 84.18666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000298710164554885,
      "loss": 0.3982,
      "step": 63140
    },
    {
      "epoch": 84.2,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029870975328205216,
      "loss": 0.3913,
      "step": 63150
    },
    {
      "epoch": 84.21333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002987093419439443,
      "loss": 0.3919,
      "step": 63160
    },
    {
      "epoch": 84.22666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029870893054056183,
      "loss": 0.4032,
      "step": 63170
    },
    {
      "epoch": 84.24,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002987085190719048,
      "loss": 0.3892,
      "step": 63180
    },
    {
      "epoch": 84.25333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987081075379733,
      "loss": 0.3908,
      "step": 63190
    },
    {
      "epoch": 84.26666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002987076959387677,
      "loss": 0.3931,
      "step": 63200
    },
    {
      "epoch": 84.28,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987072842742881,
      "loss": 0.4233,
      "step": 63210
    },
    {
      "epoch": 84.29333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029870687254453465,
      "loss": 0.3791,
      "step": 63220
    },
    {
      "epoch": 84.30666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002987064607495076,
      "loss": 0.4027,
      "step": 63230
    },
    {
      "epoch": 84.32,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000298706048889207,
      "loss": 0.404,
      "step": 63240
    },
    {
      "epoch": 84.33333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029870563696363317,
      "loss": 0.4085,
      "step": 63250
    },
    {
      "epoch": 84.34666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029870522497278624,
      "loss": 0.3994,
      "step": 63260
    },
    {
      "epoch": 84.36,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002987048129166664,
      "loss": 0.3992,
      "step": 63270
    },
    {
      "epoch": 84.37333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002987044007952738,
      "loss": 0.4001,
      "step": 63280
    },
    {
      "epoch": 84.38666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002987039886086087,
      "loss": 0.3929,
      "step": 63290
    },
    {
      "epoch": 84.4,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029870357635667115,
      "loss": 0.3994,
      "step": 63300
    },
    {
      "epoch": 84.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002987031640394615,
      "loss": 0.4048,
      "step": 63310
    },
    {
      "epoch": 84.42666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029870275165697974,
      "loss": 0.4055,
      "step": 63320
    },
    {
      "epoch": 84.44,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029870233920922617,
      "loss": 0.4171,
      "step": 63330
    },
    {
      "epoch": 84.45333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029870192669620096,
      "loss": 0.4062,
      "step": 63340
    },
    {
      "epoch": 84.46666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002987015141179043,
      "loss": 0.4153,
      "step": 63350
    },
    {
      "epoch": 84.48,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029870110147433627,
      "loss": 0.3962,
      "step": 63360
    },
    {
      "epoch": 84.49333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002987006887654972,
      "loss": 0.4085,
      "step": 63370
    },
    {
      "epoch": 84.50666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002987002759913872,
      "loss": 0.4056,
      "step": 63380
    },
    {
      "epoch": 84.52,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029869986315200645,
      "loss": 0.3959,
      "step": 63390
    },
    {
      "epoch": 84.53333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002986994502473551,
      "loss": 0.3993,
      "step": 63400
    },
    {
      "epoch": 84.54666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002986990372774334,
      "loss": 0.4014,
      "step": 63410
    },
    {
      "epoch": 84.56,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002986986242422415,
      "loss": 0.395,
      "step": 63420
    },
    {
      "epoch": 84.57333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002986982111417796,
      "loss": 0.3987,
      "step": 63430
    },
    {
      "epoch": 84.58666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002986977979760478,
      "loss": 0.3862,
      "step": 63440
    },
    {
      "epoch": 84.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029869738474504637,
      "loss": 0.389,
      "step": 63450
    },
    {
      "epoch": 84.61333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029869697144877547,
      "loss": 0.3782,
      "step": 63460
    },
    {
      "epoch": 84.62666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029869655808723527,
      "loss": 0.3834,
      "step": 63470
    },
    {
      "epoch": 84.64,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000298696144660426,
      "loss": 0.397,
      "step": 63480
    },
    {
      "epoch": 84.65333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002986957311683477,
      "loss": 0.4078,
      "step": 63490
    },
    {
      "epoch": 84.66666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029869531761100073,
      "loss": 0.3921,
      "step": 63500
    },
    {
      "epoch": 84.68,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029869490398838513,
      "loss": 0.3853,
      "step": 63510
    },
    {
      "epoch": 84.69333333333333,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029869449030050116,
      "loss": 0.3943,
      "step": 63520
    },
    {
      "epoch": 84.70666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000298694076547349,
      "loss": 0.388,
      "step": 63530
    },
    {
      "epoch": 84.72,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986936627289288,
      "loss": 0.4101,
      "step": 63540
    },
    {
      "epoch": 84.73333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002986932488452408,
      "loss": 0.4038,
      "step": 63550
    },
    {
      "epoch": 84.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002986928348962851,
      "loss": 0.406,
      "step": 63560
    },
    {
      "epoch": 84.76,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002986924208820619,
      "loss": 0.4193,
      "step": 63570
    },
    {
      "epoch": 84.77333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029869200680257145,
      "loss": 0.407,
      "step": 63580
    },
    {
      "epoch": 84.78666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002986915926578138,
      "loss": 0.4066,
      "step": 63590
    },
    {
      "epoch": 84.8,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002986911784477893,
      "loss": 0.4054,
      "step": 63600
    },
    {
      "epoch": 84.81333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000298690764172498,
      "loss": 0.3785,
      "step": 63610
    },
    {
      "epoch": 84.82666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029869034983194016,
      "loss": 0.3879,
      "step": 63620
    },
    {
      "epoch": 84.84,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029868993542611595,
      "loss": 0.4004,
      "step": 63630
    },
    {
      "epoch": 84.85333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002986895209550255,
      "loss": 0.3954,
      "step": 63640
    },
    {
      "epoch": 84.86666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000298689106418669,
      "loss": 0.4006,
      "step": 63650
    },
    {
      "epoch": 84.88,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002986886918170467,
      "loss": 0.3811,
      "step": 63660
    },
    {
      "epoch": 84.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029868827715015875,
      "loss": 0.3916,
      "step": 63670
    },
    {
      "epoch": 84.90666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029868786241800524,
      "loss": 0.3991,
      "step": 63680
    },
    {
      "epoch": 84.92,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002986874476205865,
      "loss": 0.4017,
      "step": 63690
    },
    {
      "epoch": 84.93333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029868703275790263,
      "loss": 0.3939,
      "step": 63700
    },
    {
      "epoch": 84.94666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002986866178299538,
      "loss": 0.3953,
      "step": 63710
    },
    {
      "epoch": 84.96,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029868620283674024,
      "loss": 0.3936,
      "step": 63720
    },
    {
      "epoch": 84.97333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002986857877782621,
      "loss": 0.4199,
      "step": 63730
    },
    {
      "epoch": 84.98666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002986853726545196,
      "loss": 0.3934,
      "step": 63740
    },
    {
      "epoch": 85.0,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029868495746551287,
      "loss": 0.3878,
      "step": 63750
    },
    {
      "epoch": 85.0,
      "eval_loss": 0.4299112856388092,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8768,
      "eval_samples_per_second": 1.62,
      "eval_steps_per_second": 0.101,
      "step": 63750
    },
    {
      "epoch": 85.01333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002986845422112422,
      "loss": 0.4045,
      "step": 63760
    },
    {
      "epoch": 85.02666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029868412689170755,
      "loss": 0.4172,
      "step": 63770
    },
    {
      "epoch": 85.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002986837115069093,
      "loss": 0.4297,
      "step": 63780
    },
    {
      "epoch": 85.05333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002986832960568476,
      "loss": 0.4165,
      "step": 63790
    },
    {
      "epoch": 85.06666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002986828805415226,
      "loss": 0.4028,
      "step": 63800
    },
    {
      "epoch": 85.08,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002986824649609345,
      "loss": 0.4072,
      "step": 63810
    },
    {
      "epoch": 85.09333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002986820493150834,
      "loss": 0.4069,
      "step": 63820
    },
    {
      "epoch": 85.10666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002986816336039696,
      "loss": 0.3953,
      "step": 63830
    },
    {
      "epoch": 85.12,
      "grad_norm": 0.375,
      "learning_rate": 0.0002986812178275933,
      "loss": 0.4009,
      "step": 63840
    },
    {
      "epoch": 85.13333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029868080198595454,
      "loss": 0.3925,
      "step": 63850
    },
    {
      "epoch": 85.14666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029868038607905355,
      "loss": 0.4117,
      "step": 63860
    },
    {
      "epoch": 85.16,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029867997010689064,
      "loss": 0.4046,
      "step": 63870
    },
    {
      "epoch": 85.17333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029867955406946586,
      "loss": 0.3989,
      "step": 63880
    },
    {
      "epoch": 85.18666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029867913796677943,
      "loss": 0.3984,
      "step": 63890
    },
    {
      "epoch": 85.2,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002986787217988315,
      "loss": 0.3913,
      "step": 63900
    },
    {
      "epoch": 85.21333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002986783055656223,
      "loss": 0.392,
      "step": 63910
    },
    {
      "epoch": 85.22666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000298677889267152,
      "loss": 0.4041,
      "step": 63920
    },
    {
      "epoch": 85.24,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002986774729034208,
      "loss": 0.3878,
      "step": 63930
    },
    {
      "epoch": 85.25333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002986770564744288,
      "loss": 0.3904,
      "step": 63940
    },
    {
      "epoch": 85.26666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029867663998017633,
      "loss": 0.3935,
      "step": 63950
    },
    {
      "epoch": 85.28,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002986762234206635,
      "loss": 0.4231,
      "step": 63960
    },
    {
      "epoch": 85.29333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002986758067958904,
      "loss": 0.379,
      "step": 63970
    },
    {
      "epoch": 85.30666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002986753901058573,
      "loss": 0.4029,
      "step": 63980
    },
    {
      "epoch": 85.32,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029867497335056445,
      "loss": 0.4046,
      "step": 63990
    },
    {
      "epoch": 85.33333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002986745565300119,
      "loss": 0.4078,
      "step": 64000
    },
    {
      "epoch": 85.34666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029867413964419987,
      "loss": 0.3987,
      "step": 64010
    },
    {
      "epoch": 85.36,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002986737226931286,
      "loss": 0.3989,
      "step": 64020
    },
    {
      "epoch": 85.37333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986733056767983,
      "loss": 0.3991,
      "step": 64030
    },
    {
      "epoch": 85.38666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000298672888595209,
      "loss": 0.3927,
      "step": 64040
    },
    {
      "epoch": 85.4,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000298672471448361,
      "loss": 0.3992,
      "step": 64050
    },
    {
      "epoch": 85.41333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002986720542362545,
      "loss": 0.4037,
      "step": 64060
    },
    {
      "epoch": 85.42666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002986716369588896,
      "loss": 0.4056,
      "step": 64070
    },
    {
      "epoch": 85.44,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002986712196162665,
      "loss": 0.4168,
      "step": 64080
    },
    {
      "epoch": 85.45333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029867080220838545,
      "loss": 0.4058,
      "step": 64090
    },
    {
      "epoch": 85.46666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002986703847352466,
      "loss": 0.4144,
      "step": 64100
    },
    {
      "epoch": 85.48,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002986699671968501,
      "loss": 0.3957,
      "step": 64110
    },
    {
      "epoch": 85.49333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029866954959319614,
      "loss": 0.4085,
      "step": 64120
    },
    {
      "epoch": 85.50666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029866913192428497,
      "loss": 0.406,
      "step": 64130
    },
    {
      "epoch": 85.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002986687141901167,
      "loss": 0.3972,
      "step": 64140
    },
    {
      "epoch": 85.53333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002986682963906915,
      "loss": 0.399,
      "step": 64150
    },
    {
      "epoch": 85.54666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029866787852600966,
      "loss": 0.4012,
      "step": 64160
    },
    {
      "epoch": 85.56,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029866746059607123,
      "loss": 0.395,
      "step": 64170
    },
    {
      "epoch": 85.57333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002986670426008765,
      "loss": 0.3994,
      "step": 64180
    },
    {
      "epoch": 85.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002986666245404256,
      "loss": 0.3879,
      "step": 64190
    },
    {
      "epoch": 85.6,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002986662064147187,
      "loss": 0.3891,
      "step": 64200
    },
    {
      "epoch": 85.61333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000298665788223756,
      "loss": 0.378,
      "step": 64210
    },
    {
      "epoch": 85.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029866536996753777,
      "loss": 0.384,
      "step": 64220
    },
    {
      "epoch": 85.64,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000298664951646064,
      "loss": 0.3972,
      "step": 64230
    },
    {
      "epoch": 85.65333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002986645332593351,
      "loss": 0.4061,
      "step": 64240
    },
    {
      "epoch": 85.66666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002986641148073511,
      "loss": 0.3931,
      "step": 64250
    },
    {
      "epoch": 85.68,
      "grad_norm": 0.375,
      "learning_rate": 0.0002986636962901122,
      "loss": 0.3858,
      "step": 64260
    },
    {
      "epoch": 85.69333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029866327770761863,
      "loss": 0.3949,
      "step": 64270
    },
    {
      "epoch": 85.70666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002986628590598706,
      "loss": 0.387,
      "step": 64280
    },
    {
      "epoch": 85.72,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002986624403468682,
      "loss": 0.4098,
      "step": 64290
    },
    {
      "epoch": 85.73333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029866202156861164,
      "loss": 0.4033,
      "step": 64300
    },
    {
      "epoch": 85.74666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029866160272510114,
      "loss": 0.4049,
      "step": 64310
    },
    {
      "epoch": 85.76,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029866118381633686,
      "loss": 0.4197,
      "step": 64320
    },
    {
      "epoch": 85.77333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029866076484231905,
      "loss": 0.4064,
      "step": 64330
    },
    {
      "epoch": 85.78666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002986603458030478,
      "loss": 0.4066,
      "step": 64340
    },
    {
      "epoch": 85.8,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002986599266985233,
      "loss": 0.4053,
      "step": 64350
    },
    {
      "epoch": 85.81333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002986595075287458,
      "loss": 0.3792,
      "step": 64360
    },
    {
      "epoch": 85.82666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029865908829371544,
      "loss": 0.3893,
      "step": 64370
    },
    {
      "epoch": 85.84,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002986586689934324,
      "loss": 0.4003,
      "step": 64380
    },
    {
      "epoch": 85.85333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029865824962789695,
      "loss": 0.3955,
      "step": 64390
    },
    {
      "epoch": 85.86666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002986578301971091,
      "loss": 0.4003,
      "step": 64400
    },
    {
      "epoch": 85.88,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986574107010692,
      "loss": 0.3808,
      "step": 64410
    },
    {
      "epoch": 85.89333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029865699113977736,
      "loss": 0.3917,
      "step": 64420
    },
    {
      "epoch": 85.90666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002986565715132337,
      "loss": 0.399,
      "step": 64430
    },
    {
      "epoch": 85.92,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029865615182143857,
      "loss": 0.4016,
      "step": 64440
    },
    {
      "epoch": 85.93333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.000298655732064392,
      "loss": 0.3946,
      "step": 64450
    },
    {
      "epoch": 85.94666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029865531224209426,
      "loss": 0.3961,
      "step": 64460
    },
    {
      "epoch": 85.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029865489235454554,
      "loss": 0.3937,
      "step": 64470
    },
    {
      "epoch": 85.97333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029865447240174595,
      "loss": 0.4193,
      "step": 64480
    },
    {
      "epoch": 85.98666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002986540523836958,
      "loss": 0.3928,
      "step": 64490
    },
    {
      "epoch": 86.0,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002986536323003951,
      "loss": 0.3876,
      "step": 64500
    },
    {
      "epoch": 86.0,
      "eval_loss": 0.42981016635894775,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8661,
      "eval_samples_per_second": 1.622,
      "eval_steps_per_second": 0.101,
      "step": 64500
    },
    {
      "epoch": 86.01333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002986532121518441,
      "loss": 0.4047,
      "step": 64510
    },
    {
      "epoch": 86.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029865279193804314,
      "loss": 0.4165,
      "step": 64520
    },
    {
      "epoch": 86.04,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002986523716589922,
      "loss": 0.4297,
      "step": 64530
    },
    {
      "epoch": 86.05333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002986519513146915,
      "loss": 0.4162,
      "step": 64540
    },
    {
      "epoch": 86.06666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002986515309051413,
      "loss": 0.4031,
      "step": 64550
    },
    {
      "epoch": 86.08,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002986511104303418,
      "loss": 0.4067,
      "step": 64560
    },
    {
      "epoch": 86.09333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002986506898902931,
      "loss": 0.408,
      "step": 64570
    },
    {
      "epoch": 86.10666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029865026928499537,
      "loss": 0.3952,
      "step": 64580
    },
    {
      "epoch": 86.12,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002986498486144489,
      "loss": 0.4017,
      "step": 64590
    },
    {
      "epoch": 86.13333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029864942787865385,
      "loss": 0.3924,
      "step": 64600
    },
    {
      "epoch": 86.14666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029864900707761026,
      "loss": 0.4112,
      "step": 64610
    },
    {
      "epoch": 86.16,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002986485862113185,
      "loss": 0.4046,
      "step": 64620
    },
    {
      "epoch": 86.17333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029864816527977873,
      "loss": 0.3994,
      "step": 64630
    },
    {
      "epoch": 86.18666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.000298647744282991,
      "loss": 0.397,
      "step": 64640
    },
    {
      "epoch": 86.2,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002986473232209556,
      "loss": 0.3911,
      "step": 64650
    },
    {
      "epoch": 86.21333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002986469020936727,
      "loss": 0.391,
      "step": 64660
    },
    {
      "epoch": 86.22666666666667,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029864648090114254,
      "loss": 0.4036,
      "step": 64670
    },
    {
      "epoch": 86.24,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002986460596433652,
      "loss": 0.389,
      "step": 64680
    },
    {
      "epoch": 86.25333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029864563832034086,
      "loss": 0.3906,
      "step": 64690
    },
    {
      "epoch": 86.26666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029864521693206985,
      "loss": 0.3932,
      "step": 64700
    },
    {
      "epoch": 86.28,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002986447954785522,
      "loss": 0.4236,
      "step": 64710
    },
    {
      "epoch": 86.29333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002986443739597882,
      "loss": 0.3785,
      "step": 64720
    },
    {
      "epoch": 86.30666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986439523757779,
      "loss": 0.4015,
      "step": 64730
    },
    {
      "epoch": 86.32,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029864353072652167,
      "loss": 0.404,
      "step": 64740
    },
    {
      "epoch": 86.33333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029864310901201965,
      "loss": 0.4084,
      "step": 64750
    },
    {
      "epoch": 86.34666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002986426872322718,
      "loss": 0.398,
      "step": 64760
    },
    {
      "epoch": 86.36,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002986422653872786,
      "loss": 0.399,
      "step": 64770
    },
    {
      "epoch": 86.37333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029864184347704016,
      "loss": 0.4005,
      "step": 64780
    },
    {
      "epoch": 86.38666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002986414215015565,
      "loss": 0.3924,
      "step": 64790
    },
    {
      "epoch": 86.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029864099946082804,
      "loss": 0.3988,
      "step": 64800
    },
    {
      "epoch": 86.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029864057735485476,
      "loss": 0.4037,
      "step": 64810
    },
    {
      "epoch": 86.42666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.000298640155183637,
      "loss": 0.4056,
      "step": 64820
    },
    {
      "epoch": 86.44,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029863973294717486,
      "loss": 0.4162,
      "step": 64830
    },
    {
      "epoch": 86.45333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002986393106454685,
      "loss": 0.4058,
      "step": 64840
    },
    {
      "epoch": 86.46666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029863888827851823,
      "loss": 0.4145,
      "step": 64850
    },
    {
      "epoch": 86.48,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002986384658463242,
      "loss": 0.3957,
      "step": 64860
    },
    {
      "epoch": 86.49333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029863804334888643,
      "loss": 0.4079,
      "step": 64870
    },
    {
      "epoch": 86.50666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002986376207862053,
      "loss": 0.4048,
      "step": 64880
    },
    {
      "epoch": 86.52,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002986371981582809,
      "loss": 0.3956,
      "step": 64890
    },
    {
      "epoch": 86.53333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002986367754651135,
      "loss": 0.399,
      "step": 64900
    },
    {
      "epoch": 86.54666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029863635270670316,
      "loss": 0.4011,
      "step": 64910
    },
    {
      "epoch": 86.56,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0002986359298830501,
      "loss": 0.3954,
      "step": 64920
    },
    {
      "epoch": 86.57333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002986355069941546,
      "loss": 0.3981,
      "step": 64930
    },
    {
      "epoch": 86.58666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029863508404001676,
      "loss": 0.3869,
      "step": 64940
    },
    {
      "epoch": 86.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029863466102063687,
      "loss": 0.389,
      "step": 64950
    },
    {
      "epoch": 86.61333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002986342379360149,
      "loss": 0.3788,
      "step": 64960
    },
    {
      "epoch": 86.62666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002986338147861513,
      "loss": 0.3836,
      "step": 64970
    },
    {
      "epoch": 86.64,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298633391571046,
      "loss": 0.3958,
      "step": 64980
    },
    {
      "epoch": 86.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002986329682906994,
      "loss": 0.4059,
      "step": 64990
    },
    {
      "epoch": 86.66666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029863254494511156,
      "loss": 0.3929,
      "step": 65000
    },
    {
      "epoch": 86.68,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029863212153428276,
      "loss": 0.3861,
      "step": 65010
    },
    {
      "epoch": 86.69333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029863169805821306,
      "loss": 0.3939,
      "step": 65020
    },
    {
      "epoch": 86.70666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029863127451690275,
      "loss": 0.3873,
      "step": 65030
    },
    {
      "epoch": 86.72,
      "grad_norm": 0.34375,
      "learning_rate": 0.000298630850910352,
      "loss": 0.4098,
      "step": 65040
    },
    {
      "epoch": 86.73333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002986304272385609,
      "loss": 0.4031,
      "step": 65050
    },
    {
      "epoch": 86.74666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002986300035015298,
      "loss": 0.4058,
      "step": 65060
    },
    {
      "epoch": 86.76,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002986295796992587,
      "loss": 0.419,
      "step": 65070
    },
    {
      "epoch": 86.77333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029862915583174797,
      "loss": 0.4064,
      "step": 65080
    },
    {
      "epoch": 86.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029862873189899773,
      "loss": 0.4066,
      "step": 65090
    },
    {
      "epoch": 86.8,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002986283079010081,
      "loss": 0.4042,
      "step": 65100
    },
    {
      "epoch": 86.81333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029862788383777926,
      "loss": 0.379,
      "step": 65110
    },
    {
      "epoch": 86.82666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002986274597093115,
      "loss": 0.389,
      "step": 65120
    },
    {
      "epoch": 86.84,
      "grad_norm": 0.375,
      "learning_rate": 0.000298627035515605,
      "loss": 0.4005,
      "step": 65130
    },
    {
      "epoch": 86.85333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029862661125665984,
      "loss": 0.3956,
      "step": 65140
    },
    {
      "epoch": 86.86666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002986261869324763,
      "loss": 0.3994,
      "step": 65150
    },
    {
      "epoch": 86.88,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029862576254305453,
      "loss": 0.3799,
      "step": 65160
    },
    {
      "epoch": 86.89333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002986253380883947,
      "loss": 0.3922,
      "step": 65170
    },
    {
      "epoch": 86.90666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029862491356849705,
      "loss": 0.3997,
      "step": 65180
    },
    {
      "epoch": 86.92,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002986244889833617,
      "loss": 0.4017,
      "step": 65190
    },
    {
      "epoch": 86.93333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002986240643329889,
      "loss": 0.3944,
      "step": 65200
    },
    {
      "epoch": 86.94666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002986236396173788,
      "loss": 0.3947,
      "step": 65210
    },
    {
      "epoch": 86.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029862321483653157,
      "loss": 0.3931,
      "step": 65220
    },
    {
      "epoch": 86.97333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002986227899904475,
      "loss": 0.4189,
      "step": 65230
    },
    {
      "epoch": 86.98666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002986223650791266,
      "loss": 0.3925,
      "step": 65240
    },
    {
      "epoch": 87.0,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029862194010256914,
      "loss": 0.387,
      "step": 65250
    },
    {
      "epoch": 87.0,
      "eval_loss": 0.429412841796875,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6604,
      "eval_samples_per_second": 1.656,
      "eval_steps_per_second": 0.104,
      "step": 65250
    },
    {
      "epoch": 87.01333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002986215150607754,
      "loss": 0.4051,
      "step": 65260
    },
    {
      "epoch": 87.02666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029862108995374546,
      "loss": 0.4167,
      "step": 65270
    },
    {
      "epoch": 87.04,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029862066478147947,
      "loss": 0.4294,
      "step": 65280
    },
    {
      "epoch": 87.05333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029862023954397774,
      "loss": 0.4151,
      "step": 65290
    },
    {
      "epoch": 87.06666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029861981424124037,
      "loss": 0.4036,
      "step": 65300
    },
    {
      "epoch": 87.08,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002986193888732676,
      "loss": 0.407,
      "step": 65310
    },
    {
      "epoch": 87.09333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029861896344005956,
      "loss": 0.4079,
      "step": 65320
    },
    {
      "epoch": 87.10666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029861853794161644,
      "loss": 0.3962,
      "step": 65330
    },
    {
      "epoch": 87.12,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029861811237793856,
      "loss": 0.4011,
      "step": 65340
    },
    {
      "epoch": 87.13333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986176867490259,
      "loss": 0.3919,
      "step": 65350
    },
    {
      "epoch": 87.14666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029861726105487877,
      "loss": 0.4103,
      "step": 65360
    },
    {
      "epoch": 87.16,
      "grad_norm": 0.375,
      "learning_rate": 0.0002986168352954973,
      "loss": 0.4034,
      "step": 65370
    },
    {
      "epoch": 87.17333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029861640947088176,
      "loss": 0.3985,
      "step": 65380
    },
    {
      "epoch": 87.18666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002986159835810322,
      "loss": 0.3975,
      "step": 65390
    },
    {
      "epoch": 87.2,
      "grad_norm": 0.375,
      "learning_rate": 0.000298615557625949,
      "loss": 0.3905,
      "step": 65400
    },
    {
      "epoch": 87.21333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002986151316056322,
      "loss": 0.391,
      "step": 65410
    },
    {
      "epoch": 87.22666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298614705520082,
      "loss": 0.403,
      "step": 65420
    },
    {
      "epoch": 87.24,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002986142793692987,
      "loss": 0.3876,
      "step": 65430
    },
    {
      "epoch": 87.25333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002986138531532823,
      "loss": 0.3909,
      "step": 65440
    },
    {
      "epoch": 87.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029861342687203315,
      "loss": 0.3928,
      "step": 65450
    },
    {
      "epoch": 87.28,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029861300052555137,
      "loss": 0.4223,
      "step": 65460
    },
    {
      "epoch": 87.29333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029861257411383717,
      "loss": 0.3785,
      "step": 65470
    },
    {
      "epoch": 87.30666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029861214763689063,
      "loss": 0.4015,
      "step": 65480
    },
    {
      "epoch": 87.32,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029861172109471205,
      "loss": 0.4041,
      "step": 65490
    },
    {
      "epoch": 87.33333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002986112944873017,
      "loss": 0.4075,
      "step": 65500
    },
    {
      "epoch": 87.34666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002986108678146596,
      "loss": 0.3974,
      "step": 65510
    },
    {
      "epoch": 87.36,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000298610441076786,
      "loss": 0.3977,
      "step": 65520
    },
    {
      "epoch": 87.37333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298610014273681,
      "loss": 0.3991,
      "step": 65530
    },
    {
      "epoch": 87.38666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029860958740534493,
      "loss": 0.3916,
      "step": 65540
    },
    {
      "epoch": 87.4,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000298609160471778,
      "loss": 0.3994,
      "step": 65550
    },
    {
      "epoch": 87.41333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002986087334729802,
      "loss": 0.4035,
      "step": 65560
    },
    {
      "epoch": 87.42666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029860830640895193,
      "loss": 0.4047,
      "step": 65570
    },
    {
      "epoch": 87.44,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002986078792796932,
      "loss": 0.4159,
      "step": 65580
    },
    {
      "epoch": 87.45333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029860745208520434,
      "loss": 0.4059,
      "step": 65590
    },
    {
      "epoch": 87.46666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029860702482548547,
      "loss": 0.4144,
      "step": 65600
    },
    {
      "epoch": 87.48,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029860659750053677,
      "loss": 0.3956,
      "step": 65610
    },
    {
      "epoch": 87.49333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029860617011035845,
      "loss": 0.4082,
      "step": 65620
    },
    {
      "epoch": 87.50666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002986057426549507,
      "loss": 0.4066,
      "step": 65630
    },
    {
      "epoch": 87.52,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986053151343137,
      "loss": 0.3951,
      "step": 65640
    },
    {
      "epoch": 87.53333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002986048875484476,
      "loss": 0.3991,
      "step": 65650
    },
    {
      "epoch": 87.54666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002986044598973526,
      "loss": 0.4006,
      "step": 65660
    },
    {
      "epoch": 87.56,
      "grad_norm": 0.359375,
      "learning_rate": 0.000298604032181029,
      "loss": 0.3953,
      "step": 65670
    },
    {
      "epoch": 87.57333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029860360439947685,
      "loss": 0.3985,
      "step": 65680
    },
    {
      "epoch": 87.58666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002986031765526964,
      "loss": 0.3872,
      "step": 65690
    },
    {
      "epoch": 87.6,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002986027486406878,
      "loss": 0.3894,
      "step": 65700
    },
    {
      "epoch": 87.61333333333333,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002986023206634513,
      "loss": 0.3795,
      "step": 65710
    },
    {
      "epoch": 87.62666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.000298601892620987,
      "loss": 0.3835,
      "step": 65720
    },
    {
      "epoch": 87.64,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002986014645132952,
      "loss": 0.3963,
      "step": 65730
    },
    {
      "epoch": 87.65333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000298601036340376,
      "loss": 0.4054,
      "step": 65740
    },
    {
      "epoch": 87.66666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002986006081022296,
      "loss": 0.3925,
      "step": 65750
    },
    {
      "epoch": 87.68,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002986001797988562,
      "loss": 0.3845,
      "step": 65760
    },
    {
      "epoch": 87.69333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000298599751430256,
      "loss": 0.3941,
      "step": 65770
    },
    {
      "epoch": 87.70666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029859932299642917,
      "loss": 0.3876,
      "step": 65780
    },
    {
      "epoch": 87.72,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985988944973759,
      "loss": 0.4106,
      "step": 65790
    },
    {
      "epoch": 87.73333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029859846593309643,
      "loss": 0.4043,
      "step": 65800
    },
    {
      "epoch": 87.74666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029859803730359084,
      "loss": 0.4053,
      "step": 65810
    },
    {
      "epoch": 87.76,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029859760860885944,
      "loss": 0.4191,
      "step": 65820
    },
    {
      "epoch": 87.77333333333333,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002985971798489023,
      "loss": 0.4054,
      "step": 65830
    },
    {
      "epoch": 87.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002985967510237197,
      "loss": 0.4059,
      "step": 65840
    },
    {
      "epoch": 87.8,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002985963221333118,
      "loss": 0.4047,
      "step": 65850
    },
    {
      "epoch": 87.81333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029859589317767876,
      "loss": 0.3786,
      "step": 65860
    },
    {
      "epoch": 87.82666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002985954641568208,
      "loss": 0.3887,
      "step": 65870
    },
    {
      "epoch": 87.84,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029859503507073817,
      "loss": 0.4001,
      "step": 65880
    },
    {
      "epoch": 87.85333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002985946059194309,
      "loss": 0.3952,
      "step": 65890
    },
    {
      "epoch": 87.86666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002985941767028993,
      "loss": 0.3992,
      "step": 65900
    },
    {
      "epoch": 87.88,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029859374742114347,
      "loss": 0.3804,
      "step": 65910
    },
    {
      "epoch": 87.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002985933180741637,
      "loss": 0.3911,
      "step": 65920
    },
    {
      "epoch": 87.90666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002985928886619602,
      "loss": 0.3981,
      "step": 65930
    },
    {
      "epoch": 87.92,
      "grad_norm": 0.375,
      "learning_rate": 0.00029859245918453293,
      "loss": 0.4013,
      "step": 65940
    },
    {
      "epoch": 87.93333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029859202964188235,
      "loss": 0.3947,
      "step": 65950
    },
    {
      "epoch": 87.94666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002985916000340085,
      "loss": 0.3955,
      "step": 65960
    },
    {
      "epoch": 87.96,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029859117036091164,
      "loss": 0.3929,
      "step": 65970
    },
    {
      "epoch": 87.97333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002985907406225919,
      "loss": 0.4193,
      "step": 65980
    },
    {
      "epoch": 87.98666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002985903108190495,
      "loss": 0.3928,
      "step": 65990
    },
    {
      "epoch": 88.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029858988095028466,
      "loss": 0.387,
      "step": 66000
    },
    {
      "epoch": 88.0,
      "eval_loss": 0.4300340712070465,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.7851,
      "eval_samples_per_second": 1.484,
      "eval_steps_per_second": 0.093,
      "step": 66000
    },
    {
      "epoch": 88.01333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002985894510162975,
      "loss": 0.4048,
      "step": 66010
    },
    {
      "epoch": 88.02666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029858902101708817,
      "loss": 0.4176,
      "step": 66020
    },
    {
      "epoch": 88.04,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000298588590952657,
      "loss": 0.4299,
      "step": 66030
    },
    {
      "epoch": 88.05333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002985881608230041,
      "loss": 0.4155,
      "step": 66040
    },
    {
      "epoch": 88.06666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029858773062812967,
      "loss": 0.4026,
      "step": 66050
    },
    {
      "epoch": 88.08,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002985873003680339,
      "loss": 0.407,
      "step": 66060
    },
    {
      "epoch": 88.09333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029858687004271695,
      "loss": 0.4075,
      "step": 66070
    },
    {
      "epoch": 88.10666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000298586439652179,
      "loss": 0.395,
      "step": 66080
    },
    {
      "epoch": 88.12,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002985860091964203,
      "loss": 0.401,
      "step": 66090
    },
    {
      "epoch": 88.13333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029858557867544104,
      "loss": 0.3925,
      "step": 66100
    },
    {
      "epoch": 88.14666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029858514808924137,
      "loss": 0.4114,
      "step": 66110
    },
    {
      "epoch": 88.16,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002985847174378215,
      "loss": 0.4049,
      "step": 66120
    },
    {
      "epoch": 88.17333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029858428672118153,
      "loss": 0.3984,
      "step": 66130
    },
    {
      "epoch": 88.18666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029858385593932186,
      "loss": 0.3977,
      "step": 66140
    },
    {
      "epoch": 88.2,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029858342509224244,
      "loss": 0.3903,
      "step": 66150
    },
    {
      "epoch": 88.21333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002985829941799436,
      "loss": 0.3918,
      "step": 66160
    },
    {
      "epoch": 88.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002985825632024255,
      "loss": 0.4033,
      "step": 66170
    },
    {
      "epoch": 88.24,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002985821321596883,
      "loss": 0.3877,
      "step": 66180
    },
    {
      "epoch": 88.25333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002985817010517322,
      "loss": 0.3901,
      "step": 66190
    },
    {
      "epoch": 88.26666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002985812698785574,
      "loss": 0.392,
      "step": 66200
    },
    {
      "epoch": 88.28,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002985808386401641,
      "loss": 0.422,
      "step": 66210
    },
    {
      "epoch": 88.29333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029858040733655246,
      "loss": 0.3789,
      "step": 66220
    },
    {
      "epoch": 88.30666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029857997596772275,
      "loss": 0.4018,
      "step": 66230
    },
    {
      "epoch": 88.32,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002985795445336751,
      "loss": 0.4029,
      "step": 66240
    },
    {
      "epoch": 88.33333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002985791130344096,
      "loss": 0.4072,
      "step": 66250
    },
    {
      "epoch": 88.34666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029857868146992663,
      "loss": 0.398,
      "step": 66260
    },
    {
      "epoch": 88.36,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002985782498402263,
      "loss": 0.3982,
      "step": 66270
    },
    {
      "epoch": 88.37333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029857781814530873,
      "loss": 0.4002,
      "step": 66280
    },
    {
      "epoch": 88.38666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002985773863851742,
      "loss": 0.3917,
      "step": 66290
    },
    {
      "epoch": 88.4,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029857695455982284,
      "loss": 0.3997,
      "step": 66300
    },
    {
      "epoch": 88.41333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002985765226692548,
      "loss": 0.4033,
      "step": 66310
    },
    {
      "epoch": 88.42666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002985760907134704,
      "loss": 0.4054,
      "step": 66320
    },
    {
      "epoch": 88.44,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002985756586924698,
      "loss": 0.4161,
      "step": 66330
    },
    {
      "epoch": 88.45333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002985752266062531,
      "loss": 0.4047,
      "step": 66340
    },
    {
      "epoch": 88.46666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002985747944548206,
      "loss": 0.414,
      "step": 66350
    },
    {
      "epoch": 88.48,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029857436223817236,
      "loss": 0.3954,
      "step": 66360
    },
    {
      "epoch": 88.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985739299563087,
      "loss": 0.4078,
      "step": 66370
    },
    {
      "epoch": 88.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002985734976092297,
      "loss": 0.4047,
      "step": 66380
    },
    {
      "epoch": 88.52,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002985730651969357,
      "loss": 0.3947,
      "step": 66390
    },
    {
      "epoch": 88.53333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029857263271942664,
      "loss": 0.3993,
      "step": 66400
    },
    {
      "epoch": 88.54666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029857220017670295,
      "loss": 0.4009,
      "step": 66410
    },
    {
      "epoch": 88.56,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029857176756876476,
      "loss": 0.3944,
      "step": 66420
    },
    {
      "epoch": 88.57333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002985713348956122,
      "loss": 0.3989,
      "step": 66430
    },
    {
      "epoch": 88.58666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029857090215724546,
      "loss": 0.3872,
      "step": 66440
    },
    {
      "epoch": 88.6,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002985704693536648,
      "loss": 0.3885,
      "step": 66450
    },
    {
      "epoch": 88.61333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029857003648487036,
      "loss": 0.3776,
      "step": 66460
    },
    {
      "epoch": 88.62666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029856960355086233,
      "loss": 0.3835,
      "step": 66470
    },
    {
      "epoch": 88.64,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029856917055164095,
      "loss": 0.3959,
      "step": 66480
    },
    {
      "epoch": 88.65333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029856873748720626,
      "loss": 0.406,
      "step": 66490
    },
    {
      "epoch": 88.66666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029856830435755867,
      "loss": 0.3931,
      "step": 66500
    },
    {
      "epoch": 88.68,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029856787116269826,
      "loss": 0.3841,
      "step": 66510
    },
    {
      "epoch": 88.69333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002985674379026252,
      "loss": 0.3942,
      "step": 66520
    },
    {
      "epoch": 88.70666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029856700457733966,
      "loss": 0.3873,
      "step": 66530
    },
    {
      "epoch": 88.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002985665711868419,
      "loss": 0.4096,
      "step": 66540
    },
    {
      "epoch": 88.73333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029856613773113216,
      "loss": 0.4039,
      "step": 66550
    },
    {
      "epoch": 88.74666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002985657042102104,
      "loss": 0.4066,
      "step": 66560
    },
    {
      "epoch": 88.76,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002985652706240771,
      "loss": 0.4176,
      "step": 66570
    },
    {
      "epoch": 88.77333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002985648369727323,
      "loss": 0.406,
      "step": 66580
    },
    {
      "epoch": 88.78666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029856440325617614,
      "loss": 0.4051,
      "step": 66590
    },
    {
      "epoch": 88.8,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002985639694744089,
      "loss": 0.4032,
      "step": 66600
    },
    {
      "epoch": 88.81333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002985635356274307,
      "loss": 0.3784,
      "step": 66610
    },
    {
      "epoch": 88.82666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029856310171524187,
      "loss": 0.388,
      "step": 66620
    },
    {
      "epoch": 88.84,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029856266773784244,
      "loss": 0.4,
      "step": 66630
    },
    {
      "epoch": 88.85333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029856223369523265,
      "loss": 0.3951,
      "step": 66640
    },
    {
      "epoch": 88.86666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029856179958741275,
      "loss": 0.3991,
      "step": 66650
    },
    {
      "epoch": 88.88,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029856136541438286,
      "loss": 0.3793,
      "step": 66660
    },
    {
      "epoch": 88.89333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002985609311761432,
      "loss": 0.3912,
      "step": 66670
    },
    {
      "epoch": 88.90666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029856049687269394,
      "loss": 0.3978,
      "step": 66680
    },
    {
      "epoch": 88.92,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029856006250403533,
      "loss": 0.401,
      "step": 66690
    },
    {
      "epoch": 88.93333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002985596280701675,
      "loss": 0.3936,
      "step": 66700
    },
    {
      "epoch": 88.94666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002985591935710907,
      "loss": 0.3946,
      "step": 66710
    },
    {
      "epoch": 88.96,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000298558759006805,
      "loss": 0.3925,
      "step": 66720
    },
    {
      "epoch": 88.97333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029855832437731075,
      "loss": 0.4194,
      "step": 66730
    },
    {
      "epoch": 88.98666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000298557889682608,
      "loss": 0.3919,
      "step": 66740
    },
    {
      "epoch": 89.0,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029855745492269703,
      "loss": 0.386,
      "step": 66750
    },
    {
      "epoch": 89.0,
      "eval_loss": 0.4287775158882141,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.4584,
      "eval_samples_per_second": 1.53,
      "eval_steps_per_second": 0.096,
      "step": 66750
    },
    {
      "epoch": 89.01333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298557020097578,
      "loss": 0.4049,
      "step": 66760
    },
    {
      "epoch": 89.02666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002985565852072511,
      "loss": 0.416,
      "step": 66770
    },
    {
      "epoch": 89.04,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002985561502517165,
      "loss": 0.4289,
      "step": 66780
    },
    {
      "epoch": 89.05333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002985557152309745,
      "loss": 0.416,
      "step": 66790
    },
    {
      "epoch": 89.06666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002985552801450251,
      "loss": 0.4032,
      "step": 66800
    },
    {
      "epoch": 89.08,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002985548449938687,
      "loss": 0.4059,
      "step": 66810
    },
    {
      "epoch": 89.09333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985544097775053,
      "loss": 0.4074,
      "step": 66820
    },
    {
      "epoch": 89.10666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029855397449593524,
      "loss": 0.3951,
      "step": 66830
    },
    {
      "epoch": 89.12,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002985535391491586,
      "loss": 0.3996,
      "step": 66840
    },
    {
      "epoch": 89.13333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029855310373717565,
      "loss": 0.3924,
      "step": 66850
    },
    {
      "epoch": 89.14666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029855266825998657,
      "loss": 0.4104,
      "step": 66860
    },
    {
      "epoch": 89.16,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029855223271759156,
      "loss": 0.4041,
      "step": 66870
    },
    {
      "epoch": 89.17333333333333,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00029855179710999073,
      "loss": 0.3996,
      "step": 66880
    },
    {
      "epoch": 89.18666666666667,
      "grad_norm": 0.9609375,
      "learning_rate": 0.0002985513614371843,
      "loss": 0.397,
      "step": 66890
    },
    {
      "epoch": 89.2,
      "grad_norm": 1.140625,
      "learning_rate": 0.0002985509256991726,
      "loss": 0.3917,
      "step": 66900
    },
    {
      "epoch": 89.21333333333334,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002985504898959556,
      "loss": 0.3925,
      "step": 66910
    },
    {
      "epoch": 89.22666666666667,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00029855005402753366,
      "loss": 0.4032,
      "step": 66920
    },
    {
      "epoch": 89.24,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002985496180939069,
      "loss": 0.3876,
      "step": 66930
    },
    {
      "epoch": 89.25333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029854918209507557,
      "loss": 0.3907,
      "step": 66940
    },
    {
      "epoch": 89.26666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985487460310397,
      "loss": 0.3928,
      "step": 66950
    },
    {
      "epoch": 89.28,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002985483099017997,
      "loss": 0.4233,
      "step": 66960
    },
    {
      "epoch": 89.29333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029854787370735557,
      "loss": 0.3792,
      "step": 66970
    },
    {
      "epoch": 89.30666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002985474374477077,
      "loss": 0.4016,
      "step": 66980
    },
    {
      "epoch": 89.32,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029854700112285607,
      "loss": 0.4031,
      "step": 66990
    },
    {
      "epoch": 89.33333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000298546564732801,
      "loss": 0.4066,
      "step": 67000
    },
    {
      "epoch": 89.34666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002985461282775427,
      "loss": 0.3978,
      "step": 67010
    },
    {
      "epoch": 89.36,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029854569175708125,
      "loss": 0.3984,
      "step": 67020
    },
    {
      "epoch": 89.37333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000298545255171417,
      "loss": 0.399,
      "step": 67030
    },
    {
      "epoch": 89.38666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029854481852054993,
      "loss": 0.3912,
      "step": 67040
    },
    {
      "epoch": 89.4,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002985443818044804,
      "loss": 0.3989,
      "step": 67050
    },
    {
      "epoch": 89.41333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002985439450232086,
      "loss": 0.4029,
      "step": 67060
    },
    {
      "epoch": 89.42666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002985435081767346,
      "loss": 0.4053,
      "step": 67070
    },
    {
      "epoch": 89.44,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002985430712650587,
      "loss": 0.4159,
      "step": 67080
    },
    {
      "epoch": 89.45333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029854263428818106,
      "loss": 0.4056,
      "step": 67090
    },
    {
      "epoch": 89.46666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002985421972461019,
      "loss": 0.4139,
      "step": 67100
    },
    {
      "epoch": 89.48,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002985417601388213,
      "loss": 0.3953,
      "step": 67110
    },
    {
      "epoch": 89.49333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002985413229663396,
      "loss": 0.4066,
      "step": 67120
    },
    {
      "epoch": 89.50666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985408857286569,
      "loss": 0.4052,
      "step": 67130
    },
    {
      "epoch": 89.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029854044842577337,
      "loss": 0.3948,
      "step": 67140
    },
    {
      "epoch": 89.53333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029854001105768935,
      "loss": 0.3974,
      "step": 67150
    },
    {
      "epoch": 89.54666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985395736244048,
      "loss": 0.4,
      "step": 67160
    },
    {
      "epoch": 89.56,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002985391361259202,
      "loss": 0.394,
      "step": 67170
    },
    {
      "epoch": 89.57333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002985386985622355,
      "loss": 0.3987,
      "step": 67180
    },
    {
      "epoch": 89.58666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000298538260933351,
      "loss": 0.3871,
      "step": 67190
    },
    {
      "epoch": 89.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029853782323926683,
      "loss": 0.3881,
      "step": 67200
    },
    {
      "epoch": 89.61333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029853738547998325,
      "loss": 0.3779,
      "step": 67210
    },
    {
      "epoch": 89.62666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029853694765550037,
      "loss": 0.3837,
      "step": 67220
    },
    {
      "epoch": 89.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002985365097658185,
      "loss": 0.3956,
      "step": 67230
    },
    {
      "epoch": 89.65333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029853607181093775,
      "loss": 0.4066,
      "step": 67240
    },
    {
      "epoch": 89.66666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002985356337908583,
      "loss": 0.3927,
      "step": 67250
    },
    {
      "epoch": 89.68,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029853519570558043,
      "loss": 0.3854,
      "step": 67260
    },
    {
      "epoch": 89.69333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002985347575551042,
      "loss": 0.3932,
      "step": 67270
    },
    {
      "epoch": 89.70666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029853431933942994,
      "loss": 0.3872,
      "step": 67280
    },
    {
      "epoch": 89.72,
      "grad_norm": 0.375,
      "learning_rate": 0.0002985338810585578,
      "loss": 0.409,
      "step": 67290
    },
    {
      "epoch": 89.73333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002985334427124879,
      "loss": 0.4026,
      "step": 67300
    },
    {
      "epoch": 89.74666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002985330043012205,
      "loss": 0.4054,
      "step": 67310
    },
    {
      "epoch": 89.76,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002985325658247557,
      "loss": 0.4189,
      "step": 67320
    },
    {
      "epoch": 89.77333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002985321272830939,
      "loss": 0.4048,
      "step": 67330
    },
    {
      "epoch": 89.78666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029853168867623506,
      "loss": 0.4058,
      "step": 67340
    },
    {
      "epoch": 89.8,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002985312500041795,
      "loss": 0.4043,
      "step": 67350
    },
    {
      "epoch": 89.81333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002985308112669274,
      "loss": 0.3782,
      "step": 67360
    },
    {
      "epoch": 89.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029853037246447894,
      "loss": 0.3875,
      "step": 67370
    },
    {
      "epoch": 89.84,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002985299335968343,
      "loss": 0.3991,
      "step": 67380
    },
    {
      "epoch": 89.85333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002985294946639937,
      "loss": 0.394,
      "step": 67390
    },
    {
      "epoch": 89.86666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002985290556659573,
      "loss": 0.399,
      "step": 67400
    },
    {
      "epoch": 89.88,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002985286166027253,
      "loss": 0.3795,
      "step": 67410
    },
    {
      "epoch": 89.89333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002985281774742979,
      "loss": 0.3909,
      "step": 67420
    },
    {
      "epoch": 89.90666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029852773828067535,
      "loss": 0.3976,
      "step": 67430
    },
    {
      "epoch": 89.92,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002985272990218577,
      "loss": 0.4009,
      "step": 67440
    },
    {
      "epoch": 89.93333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002985268596978453,
      "loss": 0.3941,
      "step": 67450
    },
    {
      "epoch": 89.94666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002985264203086383,
      "loss": 0.3943,
      "step": 67460
    },
    {
      "epoch": 89.96,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002985259808542368,
      "loss": 0.3913,
      "step": 67470
    },
    {
      "epoch": 89.97333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029852554133464107,
      "loss": 0.4176,
      "step": 67480
    },
    {
      "epoch": 89.98666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029852510174985133,
      "loss": 0.391,
      "step": 67490
    },
    {
      "epoch": 90.0,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002985246620998677,
      "loss": 0.3867,
      "step": 67500
    },
    {
      "epoch": 90.0,
      "eval_loss": 0.4301512539386749,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9285,
      "eval_samples_per_second": 1.612,
      "eval_steps_per_second": 0.101,
      "step": 67500
    },
    {
      "epoch": 90.01333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002985242223846904,
      "loss": 0.4043,
      "step": 67510
    },
    {
      "epoch": 90.02666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029852378260431965,
      "loss": 0.4162,
      "step": 67520
    },
    {
      "epoch": 90.04,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002985233427587556,
      "loss": 0.4298,
      "step": 67530
    },
    {
      "epoch": 90.05333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029852290284799847,
      "loss": 0.4151,
      "step": 67540
    },
    {
      "epoch": 90.06666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002985224628720485,
      "loss": 0.4039,
      "step": 67550
    },
    {
      "epoch": 90.08,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002985220228309058,
      "loss": 0.4064,
      "step": 67560
    },
    {
      "epoch": 90.09333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002985215827245706,
      "loss": 0.4068,
      "step": 67570
    },
    {
      "epoch": 90.10666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029852114255304304,
      "loss": 0.3947,
      "step": 67580
    },
    {
      "epoch": 90.12,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029852070231632346,
      "loss": 0.3991,
      "step": 67590
    },
    {
      "epoch": 90.13333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029852026201441183,
      "loss": 0.3919,
      "step": 67600
    },
    {
      "epoch": 90.14666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002985198216473086,
      "loss": 0.4099,
      "step": 67610
    },
    {
      "epoch": 90.16,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029851938121501373,
      "loss": 0.4045,
      "step": 67620
    },
    {
      "epoch": 90.17333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002985189407175276,
      "loss": 0.3978,
      "step": 67630
    },
    {
      "epoch": 90.18666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029851850015485027,
      "loss": 0.3977,
      "step": 67640
    },
    {
      "epoch": 90.2,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000298518059526982,
      "loss": 0.3903,
      "step": 67650
    },
    {
      "epoch": 90.21333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002985176188339229,
      "loss": 0.3916,
      "step": 67660
    },
    {
      "epoch": 90.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029851717807567334,
      "loss": 0.4026,
      "step": 67670
    },
    {
      "epoch": 90.24,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002985167372522333,
      "loss": 0.3866,
      "step": 67680
    },
    {
      "epoch": 90.25333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002985162963636031,
      "loss": 0.3904,
      "step": 67690
    },
    {
      "epoch": 90.26666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000298515855409783,
      "loss": 0.3922,
      "step": 67700
    },
    {
      "epoch": 90.28,
      "grad_norm": 0.390625,
      "learning_rate": 0.000298515414390773,
      "loss": 0.422,
      "step": 67710
    },
    {
      "epoch": 90.29333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029851497330657346,
      "loss": 0.3784,
      "step": 67720
    },
    {
      "epoch": 90.30666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029851453215718447,
      "loss": 0.4019,
      "step": 67730
    },
    {
      "epoch": 90.32,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029851409094260625,
      "loss": 0.4035,
      "step": 67740
    },
    {
      "epoch": 90.33333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002985136496628391,
      "loss": 0.4069,
      "step": 67750
    },
    {
      "epoch": 90.34666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029851320831788305,
      "loss": 0.3974,
      "step": 67760
    },
    {
      "epoch": 90.36,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00029851276690773834,
      "loss": 0.3983,
      "step": 67770
    },
    {
      "epoch": 90.37333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002985123254324052,
      "loss": 0.3995,
      "step": 67780
    },
    {
      "epoch": 90.38666666666667,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029851188389188384,
      "loss": 0.3924,
      "step": 67790
    },
    {
      "epoch": 90.4,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029851144228617443,
      "loss": 0.3988,
      "step": 67800
    },
    {
      "epoch": 90.41333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002985110006152772,
      "loss": 0.4029,
      "step": 67810
    },
    {
      "epoch": 90.42666666666666,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002985105588791922,
      "loss": 0.4043,
      "step": 67820
    },
    {
      "epoch": 90.44,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029851011707791983,
      "loss": 0.4161,
      "step": 67830
    },
    {
      "epoch": 90.45333333333333,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002985096752114601,
      "loss": 0.4048,
      "step": 67840
    },
    {
      "epoch": 90.46666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029850923327981335,
      "loss": 0.4139,
      "step": 67850
    },
    {
      "epoch": 90.48,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002985087912829797,
      "loss": 0.3948,
      "step": 67860
    },
    {
      "epoch": 90.49333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002985083492209593,
      "loss": 0.408,
      "step": 67870
    },
    {
      "epoch": 90.50666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002985079070937524,
      "loss": 0.4037,
      "step": 67880
    },
    {
      "epoch": 90.52,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029850746490135926,
      "loss": 0.3954,
      "step": 67890
    },
    {
      "epoch": 90.53333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029850702264378,
      "loss": 0.3972,
      "step": 67900
    },
    {
      "epoch": 90.54666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002985065803210148,
      "loss": 0.4,
      "step": 67910
    },
    {
      "epoch": 90.56,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002985061379330639,
      "loss": 0.3949,
      "step": 67920
    },
    {
      "epoch": 90.57333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002985056954799274,
      "loss": 0.398,
      "step": 67930
    },
    {
      "epoch": 90.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002985052529616056,
      "loss": 0.3869,
      "step": 67940
    },
    {
      "epoch": 90.6,
      "grad_norm": 0.375,
      "learning_rate": 0.00029850481037809866,
      "loss": 0.3894,
      "step": 67950
    },
    {
      "epoch": 90.61333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029850436772940677,
      "loss": 0.3784,
      "step": 67960
    },
    {
      "epoch": 90.62666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00029850392501553014,
      "loss": 0.3836,
      "step": 67970
    },
    {
      "epoch": 90.64,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002985034822364689,
      "loss": 0.3956,
      "step": 67980
    },
    {
      "epoch": 90.65333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029850303939222335,
      "loss": 0.4051,
      "step": 67990
    },
    {
      "epoch": 90.66666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029850259648279363,
      "loss": 0.3934,
      "step": 68000
    },
    {
      "epoch": 90.68,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002985021535081799,
      "loss": 0.3844,
      "step": 68010
    },
    {
      "epoch": 90.69333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029850171046838243,
      "loss": 0.3941,
      "step": 68020
    },
    {
      "epoch": 90.70666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002985012673634013,
      "loss": 0.3872,
      "step": 68030
    },
    {
      "epoch": 90.72,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002985008241932368,
      "loss": 0.4089,
      "step": 68040
    },
    {
      "epoch": 90.73333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029850038095788914,
      "loss": 0.4026,
      "step": 68050
    },
    {
      "epoch": 90.74666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029849993765735847,
      "loss": 0.4052,
      "step": 68060
    },
    {
      "epoch": 90.76,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029849949429164497,
      "loss": 0.4184,
      "step": 68070
    },
    {
      "epoch": 90.77333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029849905086074886,
      "loss": 0.4052,
      "step": 68080
    },
    {
      "epoch": 90.78666666666666,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029849860736467034,
      "loss": 0.4055,
      "step": 68090
    },
    {
      "epoch": 90.8,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029849816380340954,
      "loss": 0.4042,
      "step": 68100
    },
    {
      "epoch": 90.81333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002984977201769668,
      "loss": 0.3772,
      "step": 68110
    },
    {
      "epoch": 90.82666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029849727648534216,
      "loss": 0.3882,
      "step": 68120
    },
    {
      "epoch": 90.84,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002984968327285359,
      "loss": 0.3995,
      "step": 68130
    },
    {
      "epoch": 90.85333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002984963889065482,
      "loss": 0.3956,
      "step": 68140
    },
    {
      "epoch": 90.86666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029849594501937923,
      "loss": 0.3983,
      "step": 68150
    },
    {
      "epoch": 90.88,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002984955010670292,
      "loss": 0.3795,
      "step": 68160
    },
    {
      "epoch": 90.89333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029849505704949834,
      "loss": 0.3912,
      "step": 68170
    },
    {
      "epoch": 90.90666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029849461296678676,
      "loss": 0.3982,
      "step": 68180
    },
    {
      "epoch": 90.92,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029849416881889474,
      "loss": 0.4007,
      "step": 68190
    },
    {
      "epoch": 90.93333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029849372460582244,
      "loss": 0.3935,
      "step": 68200
    },
    {
      "epoch": 90.94666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029849328032757007,
      "loss": 0.3944,
      "step": 68210
    },
    {
      "epoch": 90.96,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002984928359841378,
      "loss": 0.3916,
      "step": 68220
    },
    {
      "epoch": 90.97333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029849239157552583,
      "loss": 0.4171,
      "step": 68230
    },
    {
      "epoch": 90.98666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002984919471017344,
      "loss": 0.3919,
      "step": 68240
    },
    {
      "epoch": 91.0,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002984915025627636,
      "loss": 0.3864,
      "step": 68250
    },
    {
      "epoch": 91.0,
      "eval_loss": 0.4294961392879486,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2185,
      "eval_samples_per_second": 1.566,
      "eval_steps_per_second": 0.098,
      "step": 68250
    },
    {
      "epoch": 91.01333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002984910579586138,
      "loss": 0.4039,
      "step": 68260
    },
    {
      "epoch": 91.02666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029849061328928497,
      "loss": 0.4171,
      "step": 68270
    },
    {
      "epoch": 91.04,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002984901685547775,
      "loss": 0.4286,
      "step": 68280
    },
    {
      "epoch": 91.05333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002984897237550915,
      "loss": 0.4154,
      "step": 68290
    },
    {
      "epoch": 91.06666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029848927889022714,
      "loss": 0.4027,
      "step": 68300
    },
    {
      "epoch": 91.08,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002984888339601846,
      "loss": 0.4053,
      "step": 68310
    },
    {
      "epoch": 91.09333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002984883889649642,
      "loss": 0.4074,
      "step": 68320
    },
    {
      "epoch": 91.10666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002984879439045661,
      "loss": 0.3938,
      "step": 68330
    },
    {
      "epoch": 91.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002984874987789904,
      "loss": 0.3997,
      "step": 68340
    },
    {
      "epoch": 91.13333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002984870535882373,
      "loss": 0.391,
      "step": 68350
    },
    {
      "epoch": 91.14666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002984866083323071,
      "loss": 0.41,
      "step": 68360
    },
    {
      "epoch": 91.16,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002984861630112,
      "loss": 0.404,
      "step": 68370
    },
    {
      "epoch": 91.17333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029848571762491606,
      "loss": 0.3979,
      "step": 68380
    },
    {
      "epoch": 91.18666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029848527217345557,
      "loss": 0.3967,
      "step": 68390
    },
    {
      "epoch": 91.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002984848266568187,
      "loss": 0.3908,
      "step": 68400
    },
    {
      "epoch": 91.21333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029848438107500565,
      "loss": 0.3908,
      "step": 68410
    },
    {
      "epoch": 91.22666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002984839354280166,
      "loss": 0.4032,
      "step": 68420
    },
    {
      "epoch": 91.24,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029848348971585185,
      "loss": 0.3858,
      "step": 68430
    },
    {
      "epoch": 91.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002984830439385114,
      "loss": 0.3896,
      "step": 68440
    },
    {
      "epoch": 91.26666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002984825980959956,
      "loss": 0.3918,
      "step": 68450
    },
    {
      "epoch": 91.28,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029848215218830464,
      "loss": 0.4219,
      "step": 68460
    },
    {
      "epoch": 91.29333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029848170621543863,
      "loss": 0.3775,
      "step": 68470
    },
    {
      "epoch": 91.30666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002984812601773978,
      "loss": 0.4011,
      "step": 68480
    },
    {
      "epoch": 91.32,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002984808140741824,
      "loss": 0.4025,
      "step": 68490
    },
    {
      "epoch": 91.33333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002984803679057926,
      "loss": 0.4069,
      "step": 68500
    },
    {
      "epoch": 91.34666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029847992167222854,
      "loss": 0.3968,
      "step": 68510
    },
    {
      "epoch": 91.36,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002984794753734905,
      "loss": 0.3983,
      "step": 68520
    },
    {
      "epoch": 91.37333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029847902900957863,
      "loss": 0.3989,
      "step": 68530
    },
    {
      "epoch": 91.38666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029847858258049304,
      "loss": 0.3911,
      "step": 68540
    },
    {
      "epoch": 91.4,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002984781360862341,
      "loss": 0.3984,
      "step": 68550
    },
    {
      "epoch": 91.41333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029847768952680193,
      "loss": 0.4031,
      "step": 68560
    },
    {
      "epoch": 91.42666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029847724290219663,
      "loss": 0.4049,
      "step": 68570
    },
    {
      "epoch": 91.44,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002984767962124185,
      "loss": 0.4159,
      "step": 68580
    },
    {
      "epoch": 91.45333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002984763494574678,
      "loss": 0.4042,
      "step": 68590
    },
    {
      "epoch": 91.46666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029847590263734457,
      "loss": 0.4132,
      "step": 68600
    },
    {
      "epoch": 91.48,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002984754557520491,
      "loss": 0.3948,
      "step": 68610
    },
    {
      "epoch": 91.49333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029847500880158157,
      "loss": 0.4065,
      "step": 68620
    },
    {
      "epoch": 91.50666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002984745617859422,
      "loss": 0.4049,
      "step": 68630
    },
    {
      "epoch": 91.52,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002984741147051311,
      "loss": 0.3947,
      "step": 68640
    },
    {
      "epoch": 91.53333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002984736675591486,
      "loss": 0.3981,
      "step": 68650
    },
    {
      "epoch": 91.54666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029847322034799473,
      "loss": 0.3998,
      "step": 68660
    },
    {
      "epoch": 91.56,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002984727730716698,
      "loss": 0.394,
      "step": 68670
    },
    {
      "epoch": 91.57333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029847232573017405,
      "loss": 0.3984,
      "step": 68680
    },
    {
      "epoch": 91.58666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002984718783235076,
      "loss": 0.3862,
      "step": 68690
    },
    {
      "epoch": 91.6,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002984714308516706,
      "loss": 0.3885,
      "step": 68700
    },
    {
      "epoch": 91.61333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002984709833146633,
      "loss": 0.3774,
      "step": 68710
    },
    {
      "epoch": 91.62666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000298470535712486,
      "loss": 0.3826,
      "step": 68720
    },
    {
      "epoch": 91.64,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002984700880451387,
      "loss": 0.3958,
      "step": 68730
    },
    {
      "epoch": 91.65333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002984696403126217,
      "loss": 0.4061,
      "step": 68740
    },
    {
      "epoch": 91.66666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002984691925149352,
      "loss": 0.3911,
      "step": 68750
    },
    {
      "epoch": 91.68,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002984687446520794,
      "loss": 0.385,
      "step": 68760
    },
    {
      "epoch": 91.69333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002984682967240545,
      "loss": 0.3936,
      "step": 68770
    },
    {
      "epoch": 91.70666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029846784873086067,
      "loss": 0.3864,
      "step": 68780
    },
    {
      "epoch": 91.72,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029846740067249807,
      "loss": 0.4095,
      "step": 68790
    },
    {
      "epoch": 91.73333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029846695254896695,
      "loss": 0.4027,
      "step": 68800
    },
    {
      "epoch": 91.74666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002984665043602675,
      "loss": 0.4049,
      "step": 68810
    },
    {
      "epoch": 91.76,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029846605610639996,
      "loss": 0.4175,
      "step": 68820
    },
    {
      "epoch": 91.77333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002984656077873645,
      "loss": 0.4051,
      "step": 68830
    },
    {
      "epoch": 91.78666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002984651594031612,
      "loss": 0.4058,
      "step": 68840
    },
    {
      "epoch": 91.8,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029846471095379043,
      "loss": 0.4038,
      "step": 68850
    },
    {
      "epoch": 91.81333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002984642624392523,
      "loss": 0.3783,
      "step": 68860
    },
    {
      "epoch": 91.82666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029846381385954703,
      "loss": 0.3887,
      "step": 68870
    },
    {
      "epoch": 91.84,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002984633652146748,
      "loss": 0.4,
      "step": 68880
    },
    {
      "epoch": 91.85333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002984629165046358,
      "loss": 0.3946,
      "step": 68890
    },
    {
      "epoch": 91.86666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029846246772943026,
      "loss": 0.3988,
      "step": 68900
    },
    {
      "epoch": 91.88,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029846201888905833,
      "loss": 0.3791,
      "step": 68910
    },
    {
      "epoch": 91.89333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029846156998352026,
      "loss": 0.3903,
      "step": 68920
    },
    {
      "epoch": 91.90666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029846112101281617,
      "loss": 0.3977,
      "step": 68930
    },
    {
      "epoch": 91.92,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002984606719769464,
      "loss": 0.4001,
      "step": 68940
    },
    {
      "epoch": 91.93333333333334,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000298460222875911,
      "loss": 0.3937,
      "step": 68950
    },
    {
      "epoch": 91.94666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029845977370971023,
      "loss": 0.3947,
      "step": 68960
    },
    {
      "epoch": 91.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029845932447834426,
      "loss": 0.3923,
      "step": 68970
    },
    {
      "epoch": 91.97333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029845887518181334,
      "loss": 0.4178,
      "step": 68980
    },
    {
      "epoch": 91.98666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002984584258201176,
      "loss": 0.3912,
      "step": 68990
    },
    {
      "epoch": 92.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002984579763932573,
      "loss": 0.3863,
      "step": 69000
    },
    {
      "epoch": 92.0,
      "eval_loss": 0.4288484454154968,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5535,
      "eval_samples_per_second": 1.675,
      "eval_steps_per_second": 0.105,
      "step": 69000
    },
    {
      "epoch": 92.01333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029845752690123257,
      "loss": 0.4039,
      "step": 69010
    },
    {
      "epoch": 92.02666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002984570773440437,
      "loss": 0.4167,
      "step": 69020
    },
    {
      "epoch": 92.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002984566277216908,
      "loss": 0.4291,
      "step": 69030
    },
    {
      "epoch": 92.05333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002984561780341741,
      "loss": 0.4145,
      "step": 69040
    },
    {
      "epoch": 92.06666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002984557282814938,
      "loss": 0.402,
      "step": 69050
    },
    {
      "epoch": 92.08,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029845527846365013,
      "loss": 0.4069,
      "step": 69060
    },
    {
      "epoch": 92.09333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029845482858064325,
      "loss": 0.4067,
      "step": 69070
    },
    {
      "epoch": 92.10666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029845437863247333,
      "loss": 0.3955,
      "step": 69080
    },
    {
      "epoch": 92.12,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029845392861914063,
      "loss": 0.3995,
      "step": 69090
    },
    {
      "epoch": 92.13333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029845347854064527,
      "loss": 0.391,
      "step": 69100
    },
    {
      "epoch": 92.14666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002984530283969875,
      "loss": 0.4101,
      "step": 69110
    },
    {
      "epoch": 92.16,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002984525781881675,
      "loss": 0.4034,
      "step": 69120
    },
    {
      "epoch": 92.17333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029845212791418553,
      "loss": 0.3983,
      "step": 69130
    },
    {
      "epoch": 92.18666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002984516775750417,
      "loss": 0.3965,
      "step": 69140
    },
    {
      "epoch": 92.2,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029845122717073625,
      "loss": 0.3901,
      "step": 69150
    },
    {
      "epoch": 92.21333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002984507767012694,
      "loss": 0.3906,
      "step": 69160
    },
    {
      "epoch": 92.22666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002984503261666413,
      "loss": 0.402,
      "step": 69170
    },
    {
      "epoch": 92.24,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029844987556685215,
      "loss": 0.3871,
      "step": 69180
    },
    {
      "epoch": 92.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002984494249019022,
      "loss": 0.3888,
      "step": 69190
    },
    {
      "epoch": 92.26666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029844897417179156,
      "loss": 0.3913,
      "step": 69200
    },
    {
      "epoch": 92.28,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002984485233765205,
      "loss": 0.4226,
      "step": 69210
    },
    {
      "epoch": 92.29333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002984480725160892,
      "loss": 0.378,
      "step": 69220
    },
    {
      "epoch": 92.30666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029844762159049785,
      "loss": 0.4009,
      "step": 69230
    },
    {
      "epoch": 92.32,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002984471705997467,
      "loss": 0.4036,
      "step": 69240
    },
    {
      "epoch": 92.33333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002984467195438358,
      "loss": 0.4066,
      "step": 69250
    },
    {
      "epoch": 92.34666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002984462684227656,
      "loss": 0.3969,
      "step": 69260
    },
    {
      "epoch": 92.36,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029844581723653603,
      "loss": 0.3974,
      "step": 69270
    },
    {
      "epoch": 92.37333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029844536598514745,
      "loss": 0.3988,
      "step": 69280
    },
    {
      "epoch": 92.38666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002984449146686,
      "loss": 0.3919,
      "step": 69290
    },
    {
      "epoch": 92.4,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002984444632868939,
      "loss": 0.3984,
      "step": 69300
    },
    {
      "epoch": 92.41333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002984440118400293,
      "loss": 0.4024,
      "step": 69310
    },
    {
      "epoch": 92.42666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002984435603280065,
      "loss": 0.4041,
      "step": 69320
    },
    {
      "epoch": 92.44,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029844310875082563,
      "loss": 0.4156,
      "step": 69330
    },
    {
      "epoch": 92.45333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029844265710848687,
      "loss": 0.4047,
      "step": 69340
    },
    {
      "epoch": 92.46666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002984422054009905,
      "loss": 0.414,
      "step": 69350
    },
    {
      "epoch": 92.48,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002984417536283366,
      "loss": 0.395,
      "step": 69360
    },
    {
      "epoch": 92.49333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029844130179052544,
      "loss": 0.4066,
      "step": 69370
    },
    {
      "epoch": 92.50666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002984408498875572,
      "loss": 0.4052,
      "step": 69380
    },
    {
      "epoch": 92.52,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002984403979194321,
      "loss": 0.3956,
      "step": 69390
    },
    {
      "epoch": 92.53333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029843994588615034,
      "loss": 0.398,
      "step": 69400
    },
    {
      "epoch": 92.54666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029843949378771206,
      "loss": 0.3998,
      "step": 69410
    },
    {
      "epoch": 92.56,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029843904162411757,
      "loss": 0.3936,
      "step": 69420
    },
    {
      "epoch": 92.57333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002984385893953669,
      "loss": 0.3967,
      "step": 69430
    },
    {
      "epoch": 92.58666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029843813710146044,
      "loss": 0.3863,
      "step": 69440
    },
    {
      "epoch": 92.6,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029843768474239823,
      "loss": 0.3878,
      "step": 69450
    },
    {
      "epoch": 92.61333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002984372323181806,
      "loss": 0.3771,
      "step": 69460
    },
    {
      "epoch": 92.62666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029843677982880766,
      "loss": 0.3831,
      "step": 69470
    },
    {
      "epoch": 92.64,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002984363272742796,
      "loss": 0.3955,
      "step": 69480
    },
    {
      "epoch": 92.65333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002984358746545967,
      "loss": 0.4056,
      "step": 69490
    },
    {
      "epoch": 92.66666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002984354219697591,
      "loss": 0.3916,
      "step": 69500
    },
    {
      "epoch": 92.68,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000298434969219767,
      "loss": 0.3849,
      "step": 69510
    },
    {
      "epoch": 92.69333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029843451640462054,
      "loss": 0.3938,
      "step": 69520
    },
    {
      "epoch": 92.70666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002984340635243201,
      "loss": 0.3862,
      "step": 69530
    },
    {
      "epoch": 92.72,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002984336105788657,
      "loss": 0.4095,
      "step": 69540
    },
    {
      "epoch": 92.73333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002984331575682576,
      "loss": 0.4026,
      "step": 69550
    },
    {
      "epoch": 92.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002984327044924961,
      "loss": 0.4054,
      "step": 69560
    },
    {
      "epoch": 92.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029843225135158116,
      "loss": 0.4181,
      "step": 69570
    },
    {
      "epoch": 92.77333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002984317981455132,
      "loss": 0.4043,
      "step": 69580
    },
    {
      "epoch": 92.78666666666666,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029843134487429236,
      "loss": 0.4058,
      "step": 69590
    },
    {
      "epoch": 92.8,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029843089153791877,
      "loss": 0.4036,
      "step": 69600
    },
    {
      "epoch": 92.81333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002984304381363927,
      "loss": 0.3772,
      "step": 69610
    },
    {
      "epoch": 92.82666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002984299846697143,
      "loss": 0.3875,
      "step": 69620
    },
    {
      "epoch": 92.84,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002984295311378838,
      "loss": 0.3994,
      "step": 69630
    },
    {
      "epoch": 92.85333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029842907754090145,
      "loss": 0.3947,
      "step": 69640
    },
    {
      "epoch": 92.86666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029842862387876733,
      "loss": 0.3991,
      "step": 69650
    },
    {
      "epoch": 92.88,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002984281701514817,
      "loss": 0.3793,
      "step": 69660
    },
    {
      "epoch": 92.89333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002984277163590448,
      "loss": 0.3905,
      "step": 69670
    },
    {
      "epoch": 92.90666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002984272625014568,
      "loss": 0.3975,
      "step": 69680
    },
    {
      "epoch": 92.92,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002984268085787179,
      "loss": 0.4003,
      "step": 69690
    },
    {
      "epoch": 92.93333333333334,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029842635459082824,
      "loss": 0.3937,
      "step": 69700
    },
    {
      "epoch": 92.94666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029842590053778806,
      "loss": 0.3942,
      "step": 69710
    },
    {
      "epoch": 92.96,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002984254464195976,
      "loss": 0.3921,
      "step": 69720
    },
    {
      "epoch": 92.97333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000298424992236257,
      "loss": 0.417,
      "step": 69730
    },
    {
      "epoch": 92.98666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002984245379877665,
      "loss": 0.3912,
      "step": 69740
    },
    {
      "epoch": 93.0,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002984240836741263,
      "loss": 0.3862,
      "step": 69750
    },
    {
      "epoch": 93.0,
      "eval_loss": 0.43076202273368835,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2055,
      "eval_samples_per_second": 1.568,
      "eval_steps_per_second": 0.098,
      "step": 69750
    },
    {
      "epoch": 93.01333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002984236292953366,
      "loss": 0.4033,
      "step": 69760
    },
    {
      "epoch": 93.02666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002984231748513976,
      "loss": 0.4167,
      "step": 69770
    },
    {
      "epoch": 93.04,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002984227203423094,
      "loss": 0.4288,
      "step": 69780
    },
    {
      "epoch": 93.05333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002984222657680724,
      "loss": 0.4148,
      "step": 69790
    },
    {
      "epoch": 93.06666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002984218111286866,
      "loss": 0.4017,
      "step": 69800
    },
    {
      "epoch": 93.08,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029842135642415234,
      "loss": 0.4057,
      "step": 69810
    },
    {
      "epoch": 93.09333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002984209016544697,
      "loss": 0.4064,
      "step": 69820
    },
    {
      "epoch": 93.10666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000298420446819639,
      "loss": 0.3944,
      "step": 69830
    },
    {
      "epoch": 93.12,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002984199919196603,
      "loss": 0.4002,
      "step": 69840
    },
    {
      "epoch": 93.13333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029841953695453397,
      "loss": 0.3913,
      "step": 69850
    },
    {
      "epoch": 93.14666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029841908192426004,
      "loss": 0.4096,
      "step": 69860
    },
    {
      "epoch": 93.16,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002984186268288389,
      "loss": 0.4038,
      "step": 69870
    },
    {
      "epoch": 93.17333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029841817166827053,
      "loss": 0.3989,
      "step": 69880
    },
    {
      "epoch": 93.18666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029841771644255533,
      "loss": 0.3971,
      "step": 69890
    },
    {
      "epoch": 93.2,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029841726115169335,
      "loss": 0.3898,
      "step": 69900
    },
    {
      "epoch": 93.21333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029841680579568487,
      "loss": 0.3904,
      "step": 69910
    },
    {
      "epoch": 93.22666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002984163503745301,
      "loss": 0.4016,
      "step": 69920
    },
    {
      "epoch": 93.24,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002984158948882292,
      "loss": 0.3874,
      "step": 69930
    },
    {
      "epoch": 93.25333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029841543933678235,
      "loss": 0.3895,
      "step": 69940
    },
    {
      "epoch": 93.26666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029841498372018977,
      "loss": 0.3915,
      "step": 69950
    },
    {
      "epoch": 93.28,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029841452803845166,
      "loss": 0.4219,
      "step": 69960
    },
    {
      "epoch": 93.29333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002984140722915683,
      "loss": 0.3774,
      "step": 69970
    },
    {
      "epoch": 93.30666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029841361647953976,
      "loss": 0.4007,
      "step": 69980
    },
    {
      "epoch": 93.32,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002984131606023663,
      "loss": 0.4035,
      "step": 69990
    },
    {
      "epoch": 93.33333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029841270466004816,
      "loss": 0.4071,
      "step": 70000
    },
    {
      "epoch": 93.34666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029841224865258546,
      "loss": 0.3983,
      "step": 70010
    },
    {
      "epoch": 93.36,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002984117925799785,
      "loss": 0.3969,
      "step": 70020
    },
    {
      "epoch": 93.37333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002984113364422274,
      "loss": 0.3984,
      "step": 70030
    },
    {
      "epoch": 93.38666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029841088023933236,
      "loss": 0.3906,
      "step": 70040
    },
    {
      "epoch": 93.4,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002984104239712936,
      "loss": 0.3976,
      "step": 70050
    },
    {
      "epoch": 93.41333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002984099676381113,
      "loss": 0.4022,
      "step": 70060
    },
    {
      "epoch": 93.42666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002984095112397857,
      "loss": 0.4033,
      "step": 70070
    },
    {
      "epoch": 93.44,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000298409054776317,
      "loss": 0.415,
      "step": 70080
    },
    {
      "epoch": 93.45333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002984085982477054,
      "loss": 0.4035,
      "step": 70090
    },
    {
      "epoch": 93.46666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029840814165395105,
      "loss": 0.4129,
      "step": 70100
    },
    {
      "epoch": 93.48,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002984076849950542,
      "loss": 0.3956,
      "step": 70110
    },
    {
      "epoch": 93.49333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029840722827101504,
      "loss": 0.4062,
      "step": 70120
    },
    {
      "epoch": 93.50666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029840677148183374,
      "loss": 0.4045,
      "step": 70130
    },
    {
      "epoch": 93.52,
      "grad_norm": 0.375,
      "learning_rate": 0.00029840631462751054,
      "loss": 0.3952,
      "step": 70140
    },
    {
      "epoch": 93.53333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002984058577080456,
      "loss": 0.398,
      "step": 70150
    },
    {
      "epoch": 93.54666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002984054007234392,
      "loss": 0.4003,
      "step": 70160
    },
    {
      "epoch": 93.56,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029840494367369143,
      "loss": 0.3937,
      "step": 70170
    },
    {
      "epoch": 93.57333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002984044865588026,
      "loss": 0.3974,
      "step": 70180
    },
    {
      "epoch": 93.58666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002984040293787728,
      "loss": 0.3861,
      "step": 70190
    },
    {
      "epoch": 93.6,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029840357213360236,
      "loss": 0.3877,
      "step": 70200
    },
    {
      "epoch": 93.61333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002984031148232913,
      "loss": 0.3783,
      "step": 70210
    },
    {
      "epoch": 93.62666666666667,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029840265744784,
      "loss": 0.3833,
      "step": 70220
    },
    {
      "epoch": 93.64,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002984022000072486,
      "loss": 0.3958,
      "step": 70230
    },
    {
      "epoch": 93.65333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002984017425015173,
      "loss": 0.4053,
      "step": 70240
    },
    {
      "epoch": 93.66666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029840128493064625,
      "loss": 0.3915,
      "step": 70250
    },
    {
      "epoch": 93.68,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002984008272946357,
      "loss": 0.3844,
      "step": 70260
    },
    {
      "epoch": 93.69333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029840036959348585,
      "loss": 0.3934,
      "step": 70270
    },
    {
      "epoch": 93.70666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029839991182719695,
      "loss": 0.3864,
      "step": 70280
    },
    {
      "epoch": 93.72,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029839945399576907,
      "loss": 0.4087,
      "step": 70290
    },
    {
      "epoch": 93.73333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029839899609920254,
      "loss": 0.4036,
      "step": 70300
    },
    {
      "epoch": 93.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002983985381374974,
      "loss": 0.4049,
      "step": 70310
    },
    {
      "epoch": 93.76,
      "grad_norm": 0.375,
      "learning_rate": 0.0002983980801106541,
      "loss": 0.4178,
      "step": 70320
    },
    {
      "epoch": 93.77333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002983976220186726,
      "loss": 0.4058,
      "step": 70330
    },
    {
      "epoch": 93.78666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002983971638615533,
      "loss": 0.4053,
      "step": 70340
    },
    {
      "epoch": 93.8,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002983967056392962,
      "loss": 0.4031,
      "step": 70350
    },
    {
      "epoch": 93.81333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002983962473519017,
      "loss": 0.378,
      "step": 70360
    },
    {
      "epoch": 93.82666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002983957889993698,
      "loss": 0.3885,
      "step": 70370
    },
    {
      "epoch": 93.84,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029839533058170087,
      "loss": 0.3992,
      "step": 70380
    },
    {
      "epoch": 93.85333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029839487209889506,
      "loss": 0.3945,
      "step": 70390
    },
    {
      "epoch": 93.86666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029839441355095255,
      "loss": 0.3985,
      "step": 70400
    },
    {
      "epoch": 93.88,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002983939549378735,
      "loss": 0.3791,
      "step": 70410
    },
    {
      "epoch": 93.89333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002983934962596582,
      "loss": 0.391,
      "step": 70420
    },
    {
      "epoch": 93.90666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002983930375163068,
      "loss": 0.3979,
      "step": 70430
    },
    {
      "epoch": 93.92,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002983925787078195,
      "loss": 0.3998,
      "step": 70440
    },
    {
      "epoch": 93.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002983921198341965,
      "loss": 0.3928,
      "step": 70450
    },
    {
      "epoch": 93.94666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029839166089543805,
      "loss": 0.3947,
      "step": 70460
    },
    {
      "epoch": 93.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002983912018915444,
      "loss": 0.3925,
      "step": 70470
    },
    {
      "epoch": 93.97333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002983907428225155,
      "loss": 0.417,
      "step": 70480
    },
    {
      "epoch": 93.98666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029839028368835183,
      "loss": 0.3912,
      "step": 70490
    },
    {
      "epoch": 94.0,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029838982448905345,
      "loss": 0.3861,
      "step": 70500
    },
    {
      "epoch": 94.0,
      "eval_loss": 0.42953479290008545,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9969,
      "eval_samples_per_second": 1.6,
      "eval_steps_per_second": 0.1,
      "step": 70500
    },
    {
      "epoch": 94.01333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002983893652246206,
      "loss": 0.404,
      "step": 70510
    },
    {
      "epoch": 94.02666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002983889058950535,
      "loss": 0.4161,
      "step": 70520
    },
    {
      "epoch": 94.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002983884465003523,
      "loss": 0.4284,
      "step": 70530
    },
    {
      "epoch": 94.05333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029838798704051725,
      "loss": 0.4141,
      "step": 70540
    },
    {
      "epoch": 94.06666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002983875275155485,
      "loss": 0.4014,
      "step": 70550
    },
    {
      "epoch": 94.08,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029838706792544625,
      "loss": 0.4053,
      "step": 70560
    },
    {
      "epoch": 94.09333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029838660827021077,
      "loss": 0.4063,
      "step": 70570
    },
    {
      "epoch": 94.10666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002983861485498423,
      "loss": 0.395,
      "step": 70580
    },
    {
      "epoch": 94.12,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002983856887643409,
      "loss": 0.4,
      "step": 70590
    },
    {
      "epoch": 94.13333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002983852289137068,
      "loss": 0.3908,
      "step": 70600
    },
    {
      "epoch": 94.14666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002983847689979403,
      "loss": 0.4096,
      "step": 70610
    },
    {
      "epoch": 94.16,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002983843090170415,
      "loss": 0.4022,
      "step": 70620
    },
    {
      "epoch": 94.17333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029838384897101067,
      "loss": 0.3983,
      "step": 70630
    },
    {
      "epoch": 94.18666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029838338885984796,
      "loss": 0.3967,
      "step": 70640
    },
    {
      "epoch": 94.2,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029838292868355365,
      "loss": 0.389,
      "step": 70650
    },
    {
      "epoch": 94.21333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029838246844212784,
      "loss": 0.3907,
      "step": 70660
    },
    {
      "epoch": 94.22666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002983820081355708,
      "loss": 0.402,
      "step": 70670
    },
    {
      "epoch": 94.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029838154776388277,
      "loss": 0.387,
      "step": 70680
    },
    {
      "epoch": 94.25333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002983810873270638,
      "loss": 0.3895,
      "step": 70690
    },
    {
      "epoch": 94.26666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002983806268251142,
      "loss": 0.3915,
      "step": 70700
    },
    {
      "epoch": 94.28,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029838016625803425,
      "loss": 0.4212,
      "step": 70710
    },
    {
      "epoch": 94.29333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000298379705625824,
      "loss": 0.3766,
      "step": 70720
    },
    {
      "epoch": 94.30666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029837924492848373,
      "loss": 0.4007,
      "step": 70730
    },
    {
      "epoch": 94.32,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002983787841660136,
      "loss": 0.4027,
      "step": 70740
    },
    {
      "epoch": 94.33333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029837832333841385,
      "loss": 0.4068,
      "step": 70750
    },
    {
      "epoch": 94.34666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002983778624456847,
      "loss": 0.3968,
      "step": 70760
    },
    {
      "epoch": 94.36,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029837740148782634,
      "loss": 0.3974,
      "step": 70770
    },
    {
      "epoch": 94.37333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029837694046483886,
      "loss": 0.3982,
      "step": 70780
    },
    {
      "epoch": 94.38666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029837647937672266,
      "loss": 0.3912,
      "step": 70790
    },
    {
      "epoch": 94.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002983760182234778,
      "loss": 0.3983,
      "step": 70800
    },
    {
      "epoch": 94.41333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983755570051045,
      "loss": 0.4022,
      "step": 70810
    },
    {
      "epoch": 94.42666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029837509572160304,
      "loss": 0.4046,
      "step": 70820
    },
    {
      "epoch": 94.44,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029837463437297354,
      "loss": 0.4151,
      "step": 70830
    },
    {
      "epoch": 94.45333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002983741729592162,
      "loss": 0.4039,
      "step": 70840
    },
    {
      "epoch": 94.46666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002983737114803313,
      "loss": 0.4134,
      "step": 70850
    },
    {
      "epoch": 94.48,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000298373249936319,
      "loss": 0.3942,
      "step": 70860
    },
    {
      "epoch": 94.49333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029837278832717945,
      "loss": 0.4062,
      "step": 70870
    },
    {
      "epoch": 94.50666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002983723266529129,
      "loss": 0.4051,
      "step": 70880
    },
    {
      "epoch": 94.52,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002983718649135196,
      "loss": 0.3957,
      "step": 70890
    },
    {
      "epoch": 94.53333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029837140310899976,
      "loss": 0.398,
      "step": 70900
    },
    {
      "epoch": 94.54666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002983709412393534,
      "loss": 0.3997,
      "step": 70910
    },
    {
      "epoch": 94.56,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029837047930458095,
      "loss": 0.3941,
      "step": 70920
    },
    {
      "epoch": 94.57333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002983700173046825,
      "loss": 0.3968,
      "step": 70930
    },
    {
      "epoch": 94.58666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002983695552396582,
      "loss": 0.3857,
      "step": 70940
    },
    {
      "epoch": 94.6,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002983690931095084,
      "loss": 0.3877,
      "step": 70950
    },
    {
      "epoch": 94.61333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002983686309142332,
      "loss": 0.3778,
      "step": 70960
    },
    {
      "epoch": 94.62666666666667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0002983681686538328,
      "loss": 0.3824,
      "step": 70970
    },
    {
      "epoch": 94.64,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029836770632830743,
      "loss": 0.3948,
      "step": 70980
    },
    {
      "epoch": 94.65333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029836724393765736,
      "loss": 0.4044,
      "step": 70990
    },
    {
      "epoch": 94.66666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002983667814818827,
      "loss": 0.3911,
      "step": 71000
    },
    {
      "epoch": 94.68,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002983663189609836,
      "loss": 0.3838,
      "step": 71010
    },
    {
      "epoch": 94.69333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002983658563749604,
      "loss": 0.3928,
      "step": 71020
    },
    {
      "epoch": 94.70666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029836539372381324,
      "loss": 0.386,
      "step": 71030
    },
    {
      "epoch": 94.72,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002983649310075423,
      "loss": 0.409,
      "step": 71040
    },
    {
      "epoch": 94.73333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002983644682261478,
      "loss": 0.4032,
      "step": 71050
    },
    {
      "epoch": 94.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983640053796301,
      "loss": 0.4035,
      "step": 71060
    },
    {
      "epoch": 94.76,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002983635424679891,
      "loss": 0.4176,
      "step": 71070
    },
    {
      "epoch": 94.77333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002983630794912252,
      "loss": 0.4055,
      "step": 71080
    },
    {
      "epoch": 94.78666666666666,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029836261644933856,
      "loss": 0.4052,
      "step": 71090
    },
    {
      "epoch": 94.8,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002983621533423294,
      "loss": 0.4038,
      "step": 71100
    },
    {
      "epoch": 94.81333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002983616901701979,
      "loss": 0.3777,
      "step": 71110
    },
    {
      "epoch": 94.82666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029836122693294425,
      "loss": 0.3868,
      "step": 71120
    },
    {
      "epoch": 94.84,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029836076363056873,
      "loss": 0.3992,
      "step": 71130
    },
    {
      "epoch": 94.85333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029836030026307147,
      "loss": 0.3944,
      "step": 71140
    },
    {
      "epoch": 94.86666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002983598368304527,
      "loss": 0.3986,
      "step": 71150
    },
    {
      "epoch": 94.88,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002983593733327126,
      "loss": 0.3803,
      "step": 71160
    },
    {
      "epoch": 94.89333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983589097698514,
      "loss": 0.3904,
      "step": 71170
    },
    {
      "epoch": 94.90666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029835844614186925,
      "loss": 0.3968,
      "step": 71180
    },
    {
      "epoch": 94.92,
      "grad_norm": 0.375,
      "learning_rate": 0.00029835798244876645,
      "loss": 0.4002,
      "step": 71190
    },
    {
      "epoch": 94.93333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002983575186905431,
      "loss": 0.3932,
      "step": 71200
    },
    {
      "epoch": 94.94666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002983570548671995,
      "loss": 0.3937,
      "step": 71210
    },
    {
      "epoch": 94.96,
      "grad_norm": 0.296875,
      "learning_rate": 0.0002983565909787358,
      "loss": 0.3921,
      "step": 71220
    },
    {
      "epoch": 94.97333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002983561270251522,
      "loss": 0.4176,
      "step": 71230
    },
    {
      "epoch": 94.98666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029835566300644894,
      "loss": 0.3915,
      "step": 71240
    },
    {
      "epoch": 95.0,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002983551989226262,
      "loss": 0.386,
      "step": 71250
    },
    {
      "epoch": 95.0,
      "eval_loss": 0.4297771155834198,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9652,
      "eval_samples_per_second": 1.606,
      "eval_steps_per_second": 0.1,
      "step": 71250
    },
    {
      "epoch": 95.01333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029835473477368414,
      "loss": 0.4043,
      "step": 71260
    },
    {
      "epoch": 95.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000298354270559623,
      "loss": 0.4163,
      "step": 71270
    },
    {
      "epoch": 95.04,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000298353806280443,
      "loss": 0.4286,
      "step": 71280
    },
    {
      "epoch": 95.05333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002983533419361444,
      "loss": 0.4141,
      "step": 71290
    },
    {
      "epoch": 95.06666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029835287752672733,
      "loss": 0.4021,
      "step": 71300
    },
    {
      "epoch": 95.08,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029835241305219194,
      "loss": 0.4051,
      "step": 71310
    },
    {
      "epoch": 95.09333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002983519485125385,
      "loss": 0.4071,
      "step": 71320
    },
    {
      "epoch": 95.10666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029835148390776724,
      "loss": 0.3948,
      "step": 71330
    },
    {
      "epoch": 95.12,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983510192378783,
      "loss": 0.4003,
      "step": 71340
    },
    {
      "epoch": 95.13333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029835055450287197,
      "loss": 0.3909,
      "step": 71350
    },
    {
      "epoch": 95.14666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029835008970274834,
      "loss": 0.4102,
      "step": 71360
    },
    {
      "epoch": 95.16,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002983496248375077,
      "loss": 0.4031,
      "step": 71370
    },
    {
      "epoch": 95.17333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002983491599071502,
      "loss": 0.3977,
      "step": 71380
    },
    {
      "epoch": 95.18666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002983486949116761,
      "loss": 0.3963,
      "step": 71390
    },
    {
      "epoch": 95.2,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002983482298510856,
      "loss": 0.3891,
      "step": 71400
    },
    {
      "epoch": 95.21333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029834776472537885,
      "loss": 0.3899,
      "step": 71410
    },
    {
      "epoch": 95.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002983472995345561,
      "loss": 0.4015,
      "step": 71420
    },
    {
      "epoch": 95.24,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002983468342786175,
      "loss": 0.3865,
      "step": 71430
    },
    {
      "epoch": 95.25333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029834636895756335,
      "loss": 0.3886,
      "step": 71440
    },
    {
      "epoch": 95.26666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029834590357139375,
      "loss": 0.3918,
      "step": 71450
    },
    {
      "epoch": 95.28,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029834543812010903,
      "loss": 0.4204,
      "step": 71460
    },
    {
      "epoch": 95.29333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029834497260370924,
      "loss": 0.3771,
      "step": 71470
    },
    {
      "epoch": 95.30666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029834450702219466,
      "loss": 0.4014,
      "step": 71480
    },
    {
      "epoch": 95.32,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029834404137556555,
      "loss": 0.4023,
      "step": 71490
    },
    {
      "epoch": 95.33333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029834357566382207,
      "loss": 0.4059,
      "step": 71500
    },
    {
      "epoch": 95.34666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029834310988696434,
      "loss": 0.396,
      "step": 71510
    },
    {
      "epoch": 95.36,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002983426440449927,
      "loss": 0.3971,
      "step": 71520
    },
    {
      "epoch": 95.37333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029834217813790725,
      "loss": 0.3974,
      "step": 71530
    },
    {
      "epoch": 95.38666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002983417121657082,
      "loss": 0.3905,
      "step": 71540
    },
    {
      "epoch": 95.4,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002983412461283959,
      "loss": 0.3983,
      "step": 71550
    },
    {
      "epoch": 95.41333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002983407800259704,
      "loss": 0.4029,
      "step": 71560
    },
    {
      "epoch": 95.42666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029834031385843194,
      "loss": 0.4042,
      "step": 71570
    },
    {
      "epoch": 95.44,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002983398476257807,
      "loss": 0.4148,
      "step": 71580
    },
    {
      "epoch": 95.45333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029833938132801696,
      "loss": 0.404,
      "step": 71590
    },
    {
      "epoch": 95.46666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002983389149651409,
      "loss": 0.4126,
      "step": 71600
    },
    {
      "epoch": 95.48,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002983384485371527,
      "loss": 0.3947,
      "step": 71610
    },
    {
      "epoch": 95.49333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002983379820440526,
      "loss": 0.4062,
      "step": 71620
    },
    {
      "epoch": 95.50666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002983375154858407,
      "loss": 0.403,
      "step": 71630
    },
    {
      "epoch": 95.52,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029833704886251736,
      "loss": 0.3945,
      "step": 71640
    },
    {
      "epoch": 95.53333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029833658217408266,
      "loss": 0.3975,
      "step": 71650
    },
    {
      "epoch": 95.54666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002983361154205369,
      "loss": 0.4001,
      "step": 71660
    },
    {
      "epoch": 95.56,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002983356486018802,
      "loss": 0.393,
      "step": 71670
    },
    {
      "epoch": 95.57333333333334,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029833518171811283,
      "loss": 0.3986,
      "step": 71680
    },
    {
      "epoch": 95.58666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000298334714769235,
      "loss": 0.3856,
      "step": 71690
    },
    {
      "epoch": 95.6,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002983342477552468,
      "loss": 0.388,
      "step": 71700
    },
    {
      "epoch": 95.61333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002983337806761486,
      "loss": 0.3767,
      "step": 71710
    },
    {
      "epoch": 95.62666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029833331353194045,
      "loss": 0.3825,
      "step": 71720
    },
    {
      "epoch": 95.64,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029833284632262266,
      "loss": 0.3947,
      "step": 71730
    },
    {
      "epoch": 95.65333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983323790481954,
      "loss": 0.4046,
      "step": 71740
    },
    {
      "epoch": 95.66666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002983319117086589,
      "loss": 0.3915,
      "step": 71750
    },
    {
      "epoch": 95.68,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002983314443040133,
      "loss": 0.3841,
      "step": 71760
    },
    {
      "epoch": 95.69333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002983309768342589,
      "loss": 0.3929,
      "step": 71770
    },
    {
      "epoch": 95.70666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002983305092993958,
      "loss": 0.3864,
      "step": 71780
    },
    {
      "epoch": 95.72,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002983300416994243,
      "loss": 0.4086,
      "step": 71790
    },
    {
      "epoch": 95.73333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983295740343446,
      "loss": 0.402,
      "step": 71800
    },
    {
      "epoch": 95.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002983291063041568,
      "loss": 0.4039,
      "step": 71810
    },
    {
      "epoch": 95.76,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002983286385088612,
      "loss": 0.4172,
      "step": 71820
    },
    {
      "epoch": 95.77333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000298328170648458,
      "loss": 0.4052,
      "step": 71830
    },
    {
      "epoch": 95.78666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029832770272294736,
      "loss": 0.4047,
      "step": 71840
    },
    {
      "epoch": 95.8,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002983272347323295,
      "loss": 0.4034,
      "step": 71850
    },
    {
      "epoch": 95.81333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029832676667660465,
      "loss": 0.3776,
      "step": 71860
    },
    {
      "epoch": 95.82666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029832629855577306,
      "loss": 0.3872,
      "step": 71870
    },
    {
      "epoch": 95.84,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002983258303698348,
      "loss": 0.3974,
      "step": 71880
    },
    {
      "epoch": 95.85333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002983253621187902,
      "loss": 0.3943,
      "step": 71890
    },
    {
      "epoch": 95.86666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029832489380263936,
      "loss": 0.3984,
      "step": 71900
    },
    {
      "epoch": 95.88,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029832442542138257,
      "loss": 0.3794,
      "step": 71910
    },
    {
      "epoch": 95.89333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002983239569750201,
      "loss": 0.3908,
      "step": 71920
    },
    {
      "epoch": 95.90666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002983234884635519,
      "loss": 0.3971,
      "step": 71930
    },
    {
      "epoch": 95.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002983230198869784,
      "loss": 0.3993,
      "step": 71940
    },
    {
      "epoch": 95.93333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029832255124529985,
      "loss": 0.3927,
      "step": 71950
    },
    {
      "epoch": 95.94666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002983220825385163,
      "loss": 0.395,
      "step": 71960
    },
    {
      "epoch": 95.96,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029832161376662795,
      "loss": 0.392,
      "step": 71970
    },
    {
      "epoch": 95.97333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002983211449296351,
      "loss": 0.4175,
      "step": 71980
    },
    {
      "epoch": 95.98666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029832067602753796,
      "loss": 0.3911,
      "step": 71990
    },
    {
      "epoch": 96.0,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002983202070603366,
      "loss": 0.3858,
      "step": 72000
    },
    {
      "epoch": 96.0,
      "eval_loss": 0.42892059683799744,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8523,
      "eval_samples_per_second": 1.624,
      "eval_steps_per_second": 0.101,
      "step": 72000
    },
    {
      "epoch": 96.01333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002983197380280314,
      "loss": 0.4026,
      "step": 72010
    },
    {
      "epoch": 96.02666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029831926893062247,
      "loss": 0.4162,
      "step": 72020
    },
    {
      "epoch": 96.04,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029831879976811,
      "loss": 0.4281,
      "step": 72030
    },
    {
      "epoch": 96.05333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002983183305404943,
      "loss": 0.4144,
      "step": 72040
    },
    {
      "epoch": 96.06666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029831786124777545,
      "loss": 0.4016,
      "step": 72050
    },
    {
      "epoch": 96.08,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029831739188995374,
      "loss": 0.4042,
      "step": 72060
    },
    {
      "epoch": 96.09333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002983169224670293,
      "loss": 0.4057,
      "step": 72070
    },
    {
      "epoch": 96.10666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002983164529790024,
      "loss": 0.3938,
      "step": 72080
    },
    {
      "epoch": 96.12,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002983159834258733,
      "loss": 0.3987,
      "step": 72090
    },
    {
      "epoch": 96.13333333333334,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002983155138076421,
      "loss": 0.3906,
      "step": 72100
    },
    {
      "epoch": 96.14666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298315044124309,
      "loss": 0.409,
      "step": 72110
    },
    {
      "epoch": 96.16,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029831457437587427,
      "loss": 0.4025,
      "step": 72120
    },
    {
      "epoch": 96.17333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002983141045623381,
      "loss": 0.3983,
      "step": 72130
    },
    {
      "epoch": 96.18666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002983136346837007,
      "loss": 0.3965,
      "step": 72140
    },
    {
      "epoch": 96.2,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002983131647399622,
      "loss": 0.3894,
      "step": 72150
    },
    {
      "epoch": 96.21333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029831269473112296,
      "loss": 0.39,
      "step": 72160
    },
    {
      "epoch": 96.22666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000298312224657183,
      "loss": 0.4016,
      "step": 72170
    },
    {
      "epoch": 96.24,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029831175451814273,
      "loss": 0.3866,
      "step": 72180
    },
    {
      "epoch": 96.25333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029831128431400224,
      "loss": 0.389,
      "step": 72190
    },
    {
      "epoch": 96.26666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002983108140447617,
      "loss": 0.3916,
      "step": 72200
    },
    {
      "epoch": 96.28,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002983103437104214,
      "loss": 0.4208,
      "step": 72210
    },
    {
      "epoch": 96.29333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002983098733109815,
      "loss": 0.3767,
      "step": 72220
    },
    {
      "epoch": 96.30666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002983094028464422,
      "loss": 0.4004,
      "step": 72230
    },
    {
      "epoch": 96.32,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029830893231680373,
      "loss": 0.4028,
      "step": 72240
    },
    {
      "epoch": 96.33333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002983084617220663,
      "loss": 0.4056,
      "step": 72250
    },
    {
      "epoch": 96.34666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002983079910622301,
      "loss": 0.3965,
      "step": 72260
    },
    {
      "epoch": 96.36,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002983075203372953,
      "loss": 0.3964,
      "step": 72270
    },
    {
      "epoch": 96.37333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002983070495472622,
      "loss": 0.3982,
      "step": 72280
    },
    {
      "epoch": 96.38666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.000298306578692131,
      "loss": 0.3906,
      "step": 72290
    },
    {
      "epoch": 96.4,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002983061077719018,
      "loss": 0.3975,
      "step": 72300
    },
    {
      "epoch": 96.41333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002983056367865749,
      "loss": 0.401,
      "step": 72310
    },
    {
      "epoch": 96.42666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029830516573615045,
      "loss": 0.4035,
      "step": 72320
    },
    {
      "epoch": 96.44,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002983046946206287,
      "loss": 0.4146,
      "step": 72330
    },
    {
      "epoch": 96.45333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029830422344000987,
      "loss": 0.4042,
      "step": 72340
    },
    {
      "epoch": 96.46666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002983037521942941,
      "loss": 0.413,
      "step": 72350
    },
    {
      "epoch": 96.48,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029830328088348166,
      "loss": 0.3947,
      "step": 72360
    },
    {
      "epoch": 96.49333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002983028095075727,
      "loss": 0.4063,
      "step": 72370
    },
    {
      "epoch": 96.50666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029830233806656743,
      "loss": 0.4039,
      "step": 72380
    },
    {
      "epoch": 96.52,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029830186656046613,
      "loss": 0.3934,
      "step": 72390
    },
    {
      "epoch": 96.53333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000298301394989269,
      "loss": 0.3976,
      "step": 72400
    },
    {
      "epoch": 96.54666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029830092335297615,
      "loss": 0.3997,
      "step": 72410
    },
    {
      "epoch": 96.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029830045165158786,
      "loss": 0.393,
      "step": 72420
    },
    {
      "epoch": 96.57333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029829997988510434,
      "loss": 0.3973,
      "step": 72430
    },
    {
      "epoch": 96.58666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029829950805352576,
      "loss": 0.3857,
      "step": 72440
    },
    {
      "epoch": 96.6,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029829903615685233,
      "loss": 0.387,
      "step": 72450
    },
    {
      "epoch": 96.61333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002982985641950843,
      "loss": 0.3769,
      "step": 72460
    },
    {
      "epoch": 96.62666666666667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029829809216822185,
      "loss": 0.3821,
      "step": 72470
    },
    {
      "epoch": 96.64,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029829762007626523,
      "loss": 0.3944,
      "step": 72480
    },
    {
      "epoch": 96.65333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002982971479192146,
      "loss": 0.4044,
      "step": 72490
    },
    {
      "epoch": 96.66666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029829667569707005,
      "loss": 0.3912,
      "step": 72500
    },
    {
      "epoch": 96.68,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029829620340983203,
      "loss": 0.3832,
      "step": 72510
    },
    {
      "epoch": 96.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002982957310575006,
      "loss": 0.3939,
      "step": 72520
    },
    {
      "epoch": 96.70666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029829525864007595,
      "loss": 0.3858,
      "step": 72530
    },
    {
      "epoch": 96.72,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002982947861575584,
      "loss": 0.4089,
      "step": 72540
    },
    {
      "epoch": 96.73333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029829431360994807,
      "loss": 0.4025,
      "step": 72550
    },
    {
      "epoch": 96.74666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029829384099724514,
      "loss": 0.4033,
      "step": 72560
    },
    {
      "epoch": 96.76,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002982933683194499,
      "loss": 0.4168,
      "step": 72570
    },
    {
      "epoch": 96.77333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029829289557656253,
      "loss": 0.4042,
      "step": 72580
    },
    {
      "epoch": 96.78666666666666,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00029829242276858324,
      "loss": 0.4049,
      "step": 72590
    },
    {
      "epoch": 96.8,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002982919498955122,
      "loss": 0.4038,
      "step": 72600
    },
    {
      "epoch": 96.81333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002982914769573497,
      "loss": 0.3766,
      "step": 72610
    },
    {
      "epoch": 96.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002982910039540958,
      "loss": 0.3868,
      "step": 72620
    },
    {
      "epoch": 96.84,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002982905308857509,
      "loss": 0.3988,
      "step": 72630
    },
    {
      "epoch": 96.85333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000298290057752315,
      "loss": 0.3935,
      "step": 72640
    },
    {
      "epoch": 96.86666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029828958455378854,
      "loss": 0.3983,
      "step": 72650
    },
    {
      "epoch": 96.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002982891112901715,
      "loss": 0.3785,
      "step": 72660
    },
    {
      "epoch": 96.89333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029828863796146427,
      "loss": 0.3905,
      "step": 72670
    },
    {
      "epoch": 96.90666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002982881645676669,
      "loss": 0.3974,
      "step": 72680
    },
    {
      "epoch": 96.92,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029828769110877974,
      "loss": 0.4009,
      "step": 72690
    },
    {
      "epoch": 96.93333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029828721758480293,
      "loss": 0.3925,
      "step": 72700
    },
    {
      "epoch": 96.94666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029828674399573664,
      "loss": 0.3942,
      "step": 72710
    },
    {
      "epoch": 96.96,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029828627034158114,
      "loss": 0.3914,
      "step": 72720
    },
    {
      "epoch": 96.97333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029828579662233664,
      "loss": 0.4165,
      "step": 72730
    },
    {
      "epoch": 96.98666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029828532283800326,
      "loss": 0.3909,
      "step": 72740
    },
    {
      "epoch": 97.0,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002982848489885813,
      "loss": 0.3849,
      "step": 72750
    },
    {
      "epoch": 97.0,
      "eval_loss": 0.42961400747299194,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7252,
      "eval_samples_per_second": 1.645,
      "eval_steps_per_second": 0.103,
      "step": 72750
    },
    {
      "epoch": 97.01333333333334,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000298284375074071,
      "loss": 0.4037,
      "step": 72760
    },
    {
      "epoch": 97.02666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029828390109447247,
      "loss": 0.416,
      "step": 72770
    },
    {
      "epoch": 97.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029828342704978593,
      "loss": 0.4283,
      "step": 72780
    },
    {
      "epoch": 97.05333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029828295294001165,
      "loss": 0.414,
      "step": 72790
    },
    {
      "epoch": 97.06666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002982824787651498,
      "loss": 0.4011,
      "step": 72800
    },
    {
      "epoch": 97.08,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002982820045252006,
      "loss": 0.4052,
      "step": 72810
    },
    {
      "epoch": 97.09333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029828153022016423,
      "loss": 0.4059,
      "step": 72820
    },
    {
      "epoch": 97.10666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002982810558500409,
      "loss": 0.3938,
      "step": 72830
    },
    {
      "epoch": 97.12,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002982805814148309,
      "loss": 0.399,
      "step": 72840
    },
    {
      "epoch": 97.13333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002982801069145343,
      "loss": 0.3899,
      "step": 72850
    },
    {
      "epoch": 97.14666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002982796323491515,
      "loss": 0.4086,
      "step": 72860
    },
    {
      "epoch": 97.16,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002982791577186825,
      "loss": 0.4033,
      "step": 72870
    },
    {
      "epoch": 97.17333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029827868302312755,
      "loss": 0.3976,
      "step": 72880
    },
    {
      "epoch": 97.18666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029827820826248703,
      "loss": 0.3959,
      "step": 72890
    },
    {
      "epoch": 97.2,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002982777334367609,
      "loss": 0.3891,
      "step": 72900
    },
    {
      "epoch": 97.21333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002982772585459496,
      "loss": 0.3902,
      "step": 72910
    },
    {
      "epoch": 97.22666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002982767835900532,
      "loss": 0.4013,
      "step": 72920
    },
    {
      "epoch": 97.24,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002982763085690719,
      "loss": 0.3867,
      "step": 72930
    },
    {
      "epoch": 97.25333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000298275833483006,
      "loss": 0.3885,
      "step": 72940
    },
    {
      "epoch": 97.26666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029827535833185564,
      "loss": 0.391,
      "step": 72950
    },
    {
      "epoch": 97.28,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002982748831156211,
      "loss": 0.4203,
      "step": 72960
    },
    {
      "epoch": 97.29333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002982744078343025,
      "loss": 0.3769,
      "step": 72970
    },
    {
      "epoch": 97.30666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029827393248790004,
      "loss": 0.4007,
      "step": 72980
    },
    {
      "epoch": 97.32,
      "grad_norm": 0.328125,
      "learning_rate": 0.000298273457076414,
      "loss": 0.4014,
      "step": 72990
    },
    {
      "epoch": 97.33333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029827298159984457,
      "loss": 0.4062,
      "step": 73000
    },
    {
      "epoch": 97.34666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029827250605819197,
      "loss": 0.3969,
      "step": 73010
    },
    {
      "epoch": 97.36,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002982720304514564,
      "loss": 0.397,
      "step": 73020
    },
    {
      "epoch": 97.37333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000298271554779638,
      "loss": 0.3977,
      "step": 73030
    },
    {
      "epoch": 97.38666666666667,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029827107904273705,
      "loss": 0.3903,
      "step": 73040
    },
    {
      "epoch": 97.4,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002982706032407538,
      "loss": 0.3976,
      "step": 73050
    },
    {
      "epoch": 97.41333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029827012737368837,
      "loss": 0.4009,
      "step": 73060
    },
    {
      "epoch": 97.42666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029826965144154094,
      "loss": 0.4032,
      "step": 73070
    },
    {
      "epoch": 97.44,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982691754443119,
      "loss": 0.4146,
      "step": 73080
    },
    {
      "epoch": 97.45333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002982686993820013,
      "loss": 0.4041,
      "step": 73090
    },
    {
      "epoch": 97.46666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002982682232546094,
      "loss": 0.4132,
      "step": 73100
    },
    {
      "epoch": 97.48,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002982677470621363,
      "loss": 0.3943,
      "step": 73110
    },
    {
      "epoch": 97.49333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002982672708045824,
      "loss": 0.4067,
      "step": 73120
    },
    {
      "epoch": 97.50666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002982667944819478,
      "loss": 0.4033,
      "step": 73130
    },
    {
      "epoch": 97.52,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029826631809423275,
      "loss": 0.3949,
      "step": 73140
    },
    {
      "epoch": 97.53333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002982658416414374,
      "loss": 0.3972,
      "step": 73150
    },
    {
      "epoch": 97.54666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000298265365123562,
      "loss": 0.399,
      "step": 73160
    },
    {
      "epoch": 97.56,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002982648885406068,
      "loss": 0.3936,
      "step": 73170
    },
    {
      "epoch": 97.57333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029826441189257193,
      "loss": 0.3967,
      "step": 73180
    },
    {
      "epoch": 97.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002982639351794576,
      "loss": 0.3867,
      "step": 73190
    },
    {
      "epoch": 97.6,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029826345840126405,
      "loss": 0.3876,
      "step": 73200
    },
    {
      "epoch": 97.61333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029826298155799155,
      "loss": 0.3772,
      "step": 73210
    },
    {
      "epoch": 97.62666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002982625046496402,
      "loss": 0.3828,
      "step": 73220
    },
    {
      "epoch": 97.64,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002982620276762103,
      "loss": 0.3949,
      "step": 73230
    },
    {
      "epoch": 97.65333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000298261550637702,
      "loss": 0.4041,
      "step": 73240
    },
    {
      "epoch": 97.66666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002982610735341155,
      "loss": 0.3908,
      "step": 73250
    },
    {
      "epoch": 97.68,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029826059636545106,
      "loss": 0.3834,
      "step": 73260
    },
    {
      "epoch": 97.69333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002982601191317089,
      "loss": 0.3918,
      "step": 73270
    },
    {
      "epoch": 97.70666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002982596418328892,
      "loss": 0.386,
      "step": 73280
    },
    {
      "epoch": 97.72,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029825916446899213,
      "loss": 0.4078,
      "step": 73290
    },
    {
      "epoch": 97.73333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002982586870400179,
      "loss": 0.4021,
      "step": 73300
    },
    {
      "epoch": 97.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002982582095459668,
      "loss": 0.4034,
      "step": 73310
    },
    {
      "epoch": 97.76,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000298257731986839,
      "loss": 0.4172,
      "step": 73320
    },
    {
      "epoch": 97.77333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002982572543626347,
      "loss": 0.4039,
      "step": 73330
    },
    {
      "epoch": 97.78666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982567766733541,
      "loss": 0.4057,
      "step": 73340
    },
    {
      "epoch": 97.8,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982562989189974,
      "loss": 0.4025,
      "step": 73350
    },
    {
      "epoch": 97.81333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029825582109956495,
      "loss": 0.3766,
      "step": 73360
    },
    {
      "epoch": 97.82666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002982553432150567,
      "loss": 0.3874,
      "step": 73370
    },
    {
      "epoch": 97.84,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002982548652654731,
      "loss": 0.3982,
      "step": 73380
    },
    {
      "epoch": 97.85333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029825438725081423,
      "loss": 0.3937,
      "step": 73390
    },
    {
      "epoch": 97.86666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029825390917108033,
      "loss": 0.3977,
      "step": 73400
    },
    {
      "epoch": 97.88,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002982534310262716,
      "loss": 0.3785,
      "step": 73410
    },
    {
      "epoch": 97.89333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002982529528163883,
      "loss": 0.3899,
      "step": 73420
    },
    {
      "epoch": 97.90666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029825247454143055,
      "loss": 0.397,
      "step": 73430
    },
    {
      "epoch": 97.92,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029825199620139864,
      "loss": 0.3999,
      "step": 73440
    },
    {
      "epoch": 97.93333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029825151779629274,
      "loss": 0.3928,
      "step": 73450
    },
    {
      "epoch": 97.94666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982510393261131,
      "loss": 0.3939,
      "step": 73460
    },
    {
      "epoch": 97.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002982505607908599,
      "loss": 0.3914,
      "step": 73470
    },
    {
      "epoch": 97.97333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002982500821905333,
      "loss": 0.4173,
      "step": 73480
    },
    {
      "epoch": 97.98666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002982496035251336,
      "loss": 0.39,
      "step": 73490
    },
    {
      "epoch": 98.0,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000298249124794661,
      "loss": 0.3854,
      "step": 73500
    },
    {
      "epoch": 98.0,
      "eval_loss": 0.4290412366390228,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0693,
      "eval_samples_per_second": 1.589,
      "eval_steps_per_second": 0.099,
      "step": 73500
    },
    {
      "epoch": 98.01333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002982486459991156,
      "loss": 0.4023,
      "step": 73510
    },
    {
      "epoch": 98.02666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002982481671384978,
      "loss": 0.4163,
      "step": 73520
    },
    {
      "epoch": 98.04,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002982476882128076,
      "loss": 0.4277,
      "step": 73530
    },
    {
      "epoch": 98.05333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002982472092220454,
      "loss": 0.4145,
      "step": 73540
    },
    {
      "epoch": 98.06666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002982467301662113,
      "loss": 0.4013,
      "step": 73550
    },
    {
      "epoch": 98.08,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029824625104530553,
      "loss": 0.4058,
      "step": 73560
    },
    {
      "epoch": 98.09333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029824577185932823,
      "loss": 0.4058,
      "step": 73570
    },
    {
      "epoch": 98.10666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002982452926082798,
      "loss": 0.3936,
      "step": 73580
    },
    {
      "epoch": 98.12,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029824481329216026,
      "loss": 0.3995,
      "step": 73590
    },
    {
      "epoch": 98.13333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002982443339109699,
      "loss": 0.3912,
      "step": 73600
    },
    {
      "epoch": 98.14666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029824385446470896,
      "loss": 0.4086,
      "step": 73610
    },
    {
      "epoch": 98.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002982433749533776,
      "loss": 0.4029,
      "step": 73620
    },
    {
      "epoch": 98.17333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029824289537697606,
      "loss": 0.3976,
      "step": 73630
    },
    {
      "epoch": 98.18666666666667,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029824241573550456,
      "loss": 0.3964,
      "step": 73640
    },
    {
      "epoch": 98.2,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029824193602896325,
      "loss": 0.389,
      "step": 73650
    },
    {
      "epoch": 98.21333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029824145625735235,
      "loss": 0.3896,
      "step": 73660
    },
    {
      "epoch": 98.22666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029824097642067214,
      "loss": 0.4016,
      "step": 73670
    },
    {
      "epoch": 98.24,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029824049651892273,
      "loss": 0.3875,
      "step": 73680
    },
    {
      "epoch": 98.25333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029824001655210443,
      "loss": 0.3888,
      "step": 73690
    },
    {
      "epoch": 98.26666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029823953652021747,
      "loss": 0.3915,
      "step": 73700
    },
    {
      "epoch": 98.28,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029823905642326195,
      "loss": 0.4203,
      "step": 73710
    },
    {
      "epoch": 98.29333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002982385762612381,
      "loss": 0.377,
      "step": 73720
    },
    {
      "epoch": 98.30666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029823809603414617,
      "loss": 0.3993,
      "step": 73730
    },
    {
      "epoch": 98.32,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002982376157419864,
      "loss": 0.4025,
      "step": 73740
    },
    {
      "epoch": 98.33333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029823713538475893,
      "loss": 0.4064,
      "step": 73750
    },
    {
      "epoch": 98.34666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029823665496246405,
      "loss": 0.3962,
      "step": 73760
    },
    {
      "epoch": 98.36,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002982361744751019,
      "loss": 0.3968,
      "step": 73770
    },
    {
      "epoch": 98.37333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029823569392267273,
      "loss": 0.3976,
      "step": 73780
    },
    {
      "epoch": 98.38666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029823521330517674,
      "loss": 0.3901,
      "step": 73790
    },
    {
      "epoch": 98.4,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002982347326226141,
      "loss": 0.3977,
      "step": 73800
    },
    {
      "epoch": 98.41333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029823425187498515,
      "loss": 0.4017,
      "step": 73810
    },
    {
      "epoch": 98.42666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002982337710622899,
      "loss": 0.4038,
      "step": 73820
    },
    {
      "epoch": 98.44,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982332901845287,
      "loss": 0.4147,
      "step": 73830
    },
    {
      "epoch": 98.45333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029823280924170175,
      "loss": 0.4028,
      "step": 73840
    },
    {
      "epoch": 98.46666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002982323282338093,
      "loss": 0.4131,
      "step": 73850
    },
    {
      "epoch": 98.48,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029823184716085144,
      "loss": 0.3948,
      "step": 73860
    },
    {
      "epoch": 98.49333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002982313660228284,
      "loss": 0.4065,
      "step": 73870
    },
    {
      "epoch": 98.50666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029823088481974056,
      "loss": 0.4036,
      "step": 73880
    },
    {
      "epoch": 98.52,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002982304035515879,
      "loss": 0.3943,
      "step": 73890
    },
    {
      "epoch": 98.53333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002982299222183708,
      "loss": 0.398,
      "step": 73900
    },
    {
      "epoch": 98.54666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029822944082008937,
      "loss": 0.3983,
      "step": 73910
    },
    {
      "epoch": 98.56,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029822895935674394,
      "loss": 0.3932,
      "step": 73920
    },
    {
      "epoch": 98.57333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029822847782833456,
      "loss": 0.3966,
      "step": 73930
    },
    {
      "epoch": 98.58666666666667,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029822799623486156,
      "loss": 0.3863,
      "step": 73940
    },
    {
      "epoch": 98.6,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002982275145763251,
      "loss": 0.3879,
      "step": 73950
    },
    {
      "epoch": 98.61333333333333,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002982270328527254,
      "loss": 0.3766,
      "step": 73960
    },
    {
      "epoch": 98.62666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982265510640627,
      "loss": 0.382,
      "step": 73970
    },
    {
      "epoch": 98.64,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029822606921033724,
      "loss": 0.3942,
      "step": 73980
    },
    {
      "epoch": 98.65333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002982255872915491,
      "loss": 0.4039,
      "step": 73990
    },
    {
      "epoch": 98.66666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029822510530769865,
      "loss": 0.3917,
      "step": 74000
    },
    {
      "epoch": 98.68,
      "grad_norm": 0.4375,
      "learning_rate": 0.000298224623258786,
      "loss": 0.3839,
      "step": 74010
    },
    {
      "epoch": 98.69333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029822414114481137,
      "loss": 0.392,
      "step": 74020
    },
    {
      "epoch": 98.70666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000298223658965775,
      "loss": 0.3863,
      "step": 74030
    },
    {
      "epoch": 98.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002982231767216771,
      "loss": 0.4081,
      "step": 74040
    },
    {
      "epoch": 98.73333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002982226944125178,
      "loss": 0.4017,
      "step": 74050
    },
    {
      "epoch": 98.74666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029822221203829746,
      "loss": 0.4037,
      "step": 74060
    },
    {
      "epoch": 98.76,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002982217295990162,
      "loss": 0.4173,
      "step": 74070
    },
    {
      "epoch": 98.77333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029822124709467425,
      "loss": 0.4046,
      "step": 74080
    },
    {
      "epoch": 98.78666666666666,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002982207645252718,
      "loss": 0.4038,
      "step": 74090
    },
    {
      "epoch": 98.8,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029822028189080906,
      "loss": 0.4031,
      "step": 74100
    },
    {
      "epoch": 98.81333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002982197991912863,
      "loss": 0.3761,
      "step": 74110
    },
    {
      "epoch": 98.82666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002982193164267037,
      "loss": 0.3863,
      "step": 74120
    },
    {
      "epoch": 98.84,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002982188335970615,
      "loss": 0.3982,
      "step": 74130
    },
    {
      "epoch": 98.85333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002982183507023598,
      "loss": 0.3935,
      "step": 74140
    },
    {
      "epoch": 98.86666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029821786774259895,
      "loss": 0.3977,
      "step": 74150
    },
    {
      "epoch": 98.88,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029821738471777904,
      "loss": 0.3785,
      "step": 74160
    },
    {
      "epoch": 98.89333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002982169016279004,
      "loss": 0.3898,
      "step": 74170
    },
    {
      "epoch": 98.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029821641847296317,
      "loss": 0.3964,
      "step": 74180
    },
    {
      "epoch": 98.92,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002982159352529676,
      "loss": 0.3995,
      "step": 74190
    },
    {
      "epoch": 98.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029821545196791384,
      "loss": 0.3927,
      "step": 74200
    },
    {
      "epoch": 98.94666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029821496861780216,
      "loss": 0.3938,
      "step": 74210
    },
    {
      "epoch": 98.96,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002982144852026327,
      "loss": 0.3914,
      "step": 74220
    },
    {
      "epoch": 98.97333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002982140017224058,
      "loss": 0.4166,
      "step": 74230
    },
    {
      "epoch": 98.98666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002982135181771216,
      "loss": 0.3903,
      "step": 74240
    },
    {
      "epoch": 99.0,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002982130345667803,
      "loss": 0.3856,
      "step": 74250
    },
    {
      "epoch": 99.0,
      "eval_loss": 0.4287482798099518,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9618,
      "eval_samples_per_second": 1.606,
      "eval_steps_per_second": 0.1,
      "step": 74250
    },
    {
      "epoch": 99.01333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002982125508913821,
      "loss": 0.4031,
      "step": 74260
    },
    {
      "epoch": 99.02666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029821206715092724,
      "loss": 0.4161,
      "step": 74270
    },
    {
      "epoch": 99.04,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029821158334541597,
      "loss": 0.4271,
      "step": 74280
    },
    {
      "epoch": 99.05333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982110994748485,
      "loss": 0.4142,
      "step": 74290
    },
    {
      "epoch": 99.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002982106155392249,
      "loss": 0.4015,
      "step": 74300
    },
    {
      "epoch": 99.08,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029821013153854555,
      "loss": 0.4048,
      "step": 74310
    },
    {
      "epoch": 99.09333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002982096474728105,
      "loss": 0.4063,
      "step": 74320
    },
    {
      "epoch": 99.10666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029820916334202016,
      "loss": 0.3932,
      "step": 74330
    },
    {
      "epoch": 99.12,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029820867914617463,
      "loss": 0.3994,
      "step": 74340
    },
    {
      "epoch": 99.13333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029820819488527415,
      "loss": 0.3905,
      "step": 74350
    },
    {
      "epoch": 99.14666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002982077105593189,
      "loss": 0.4088,
      "step": 74360
    },
    {
      "epoch": 99.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029820722616830906,
      "loss": 0.4031,
      "step": 74370
    },
    {
      "epoch": 99.17333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.000298206741712245,
      "loss": 0.3968,
      "step": 74380
    },
    {
      "epoch": 99.18666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002982062571911267,
      "loss": 0.3968,
      "step": 74390
    },
    {
      "epoch": 99.2,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002982057726049546,
      "loss": 0.3899,
      "step": 74400
    },
    {
      "epoch": 99.21333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029820528795372874,
      "loss": 0.3896,
      "step": 74410
    },
    {
      "epoch": 99.22666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002982048032374495,
      "loss": 0.4013,
      "step": 74420
    },
    {
      "epoch": 99.24,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002982043184561169,
      "loss": 0.3866,
      "step": 74430
    },
    {
      "epoch": 99.25333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029820383360973124,
      "loss": 0.3887,
      "step": 74440
    },
    {
      "epoch": 99.26666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002982033486982928,
      "loss": 0.3906,
      "step": 74450
    },
    {
      "epoch": 99.28,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002982028637218017,
      "loss": 0.4213,
      "step": 74460
    },
    {
      "epoch": 99.29333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002982023786802583,
      "loss": 0.3772,
      "step": 74470
    },
    {
      "epoch": 99.30666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002982018935736626,
      "loss": 0.4001,
      "step": 74480
    },
    {
      "epoch": 99.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002982014084020149,
      "loss": 0.4027,
      "step": 74490
    },
    {
      "epoch": 99.33333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029820092316531544,
      "loss": 0.4066,
      "step": 74500
    },
    {
      "epoch": 99.34666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029820043786356446,
      "loss": 0.3967,
      "step": 74510
    },
    {
      "epoch": 99.36,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002981999524967621,
      "loss": 0.3964,
      "step": 74520
    },
    {
      "epoch": 99.37333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002981994670649086,
      "loss": 0.3988,
      "step": 74530
    },
    {
      "epoch": 99.38666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002981989815680042,
      "loss": 0.389,
      "step": 74540
    },
    {
      "epoch": 99.4,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029819849600604907,
      "loss": 0.3979,
      "step": 74550
    },
    {
      "epoch": 99.41333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029819801037904344,
      "loss": 0.4015,
      "step": 74560
    },
    {
      "epoch": 99.42666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002981975246869876,
      "loss": 0.4036,
      "step": 74570
    },
    {
      "epoch": 99.44,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002981970389298816,
      "loss": 0.4149,
      "step": 74580
    },
    {
      "epoch": 99.45333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002981965531077258,
      "loss": 0.4034,
      "step": 74590
    },
    {
      "epoch": 99.46666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029819606722052036,
      "loss": 0.4135,
      "step": 74600
    },
    {
      "epoch": 99.48,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029819558126826547,
      "loss": 0.3939,
      "step": 74610
    },
    {
      "epoch": 99.49333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002981950952509614,
      "loss": 0.4058,
      "step": 74620
    },
    {
      "epoch": 99.50666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002981946091686083,
      "loss": 0.4031,
      "step": 74630
    },
    {
      "epoch": 99.52,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002981941230212064,
      "loss": 0.3936,
      "step": 74640
    },
    {
      "epoch": 99.53333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029819363680875594,
      "loss": 0.3973,
      "step": 74650
    },
    {
      "epoch": 99.54666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002981931505312571,
      "loss": 0.3989,
      "step": 74660
    },
    {
      "epoch": 99.56,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029819266418871013,
      "loss": 0.3931,
      "step": 74670
    },
    {
      "epoch": 99.57333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002981921777811152,
      "loss": 0.3969,
      "step": 74680
    },
    {
      "epoch": 99.58666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002981916913084726,
      "loss": 0.385,
      "step": 74690
    },
    {
      "epoch": 99.6,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002981912047707824,
      "loss": 0.3866,
      "step": 74700
    },
    {
      "epoch": 99.61333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029819071816804504,
      "loss": 0.3767,
      "step": 74710
    },
    {
      "epoch": 99.62666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002981902315002605,
      "loss": 0.3827,
      "step": 74720
    },
    {
      "epoch": 99.64,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002981897447674292,
      "loss": 0.3948,
      "step": 74730
    },
    {
      "epoch": 99.65333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029818925796955113,
      "loss": 0.4038,
      "step": 74740
    },
    {
      "epoch": 99.66666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029818877110662664,
      "loss": 0.3917,
      "step": 74750
    },
    {
      "epoch": 99.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000298188284178656,
      "loss": 0.3829,
      "step": 74760
    },
    {
      "epoch": 99.69333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002981877971856393,
      "loss": 0.3927,
      "step": 74770
    },
    {
      "epoch": 99.70666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002981873101275768,
      "loss": 0.3856,
      "step": 74780
    },
    {
      "epoch": 99.72,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029818682300446865,
      "loss": 0.4081,
      "step": 74790
    },
    {
      "epoch": 99.73333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002981863358163152,
      "loss": 0.4011,
      "step": 74800
    },
    {
      "epoch": 99.74666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002981858485631166,
      "loss": 0.4042,
      "step": 74810
    },
    {
      "epoch": 99.76,
      "grad_norm": 0.359375,
      "learning_rate": 0.000298185361244873,
      "loss": 0.4177,
      "step": 74820
    },
    {
      "epoch": 99.77333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029818487386158477,
      "loss": 0.4044,
      "step": 74830
    },
    {
      "epoch": 99.78666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029818438641325193,
      "loss": 0.4047,
      "step": 74840
    },
    {
      "epoch": 99.8,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981838988998749,
      "loss": 0.4039,
      "step": 74850
    },
    {
      "epoch": 99.81333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002981834113214536,
      "loss": 0.3765,
      "step": 74860
    },
    {
      "epoch": 99.82666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029818292367798856,
      "loss": 0.3864,
      "step": 74870
    },
    {
      "epoch": 99.84,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029818243596947984,
      "loss": 0.3974,
      "step": 74880
    },
    {
      "epoch": 99.85333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002981819481959277,
      "loss": 0.3938,
      "step": 74890
    },
    {
      "epoch": 99.86666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002981814603573323,
      "loss": 0.3977,
      "step": 74900
    },
    {
      "epoch": 99.88,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981809724536939,
      "loss": 0.3782,
      "step": 74910
    },
    {
      "epoch": 99.89333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981804844850127,
      "loss": 0.3897,
      "step": 74920
    },
    {
      "epoch": 99.90666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029817999645128886,
      "loss": 0.3967,
      "step": 74930
    },
    {
      "epoch": 99.92,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029817950835252265,
      "loss": 0.3984,
      "step": 74940
    },
    {
      "epoch": 99.93333333333334,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029817902018871434,
      "loss": 0.3924,
      "step": 74950
    },
    {
      "epoch": 99.94666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029817853195986403,
      "loss": 0.3928,
      "step": 74960
    },
    {
      "epoch": 99.96,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029817804366597206,
      "loss": 0.3913,
      "step": 74970
    },
    {
      "epoch": 99.97333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002981775553070385,
      "loss": 0.4154,
      "step": 74980
    },
    {
      "epoch": 99.98666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029817706688306365,
      "loss": 0.3904,
      "step": 74990
    },
    {
      "epoch": 100.0,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029817657839404776,
      "loss": 0.3848,
      "step": 75000
    },
    {
      "epoch": 100.0,
      "eval_loss": 0.42911437153816223,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8267,
      "eval_samples_per_second": 1.628,
      "eval_steps_per_second": 0.102,
      "step": 75000
    },
    {
      "epoch": 100.01333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002981760898399909,
      "loss": 0.4026,
      "step": 75010
    },
    {
      "epoch": 100.02666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029817560122089346,
      "loss": 0.4161,
      "step": 75020
    },
    {
      "epoch": 100.04,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002981751125367556,
      "loss": 0.4275,
      "step": 75030
    },
    {
      "epoch": 100.05333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002981746237875775,
      "loss": 0.4133,
      "step": 75040
    },
    {
      "epoch": 100.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029817413497335927,
      "loss": 0.4015,
      "step": 75050
    },
    {
      "epoch": 100.08,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029817364609410134,
      "loss": 0.4045,
      "step": 75060
    },
    {
      "epoch": 100.09333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029817315714980385,
      "loss": 0.4059,
      "step": 75070
    },
    {
      "epoch": 100.10666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002981726681404669,
      "loss": 0.3934,
      "step": 75080
    },
    {
      "epoch": 100.12,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002981721790660908,
      "loss": 0.3979,
      "step": 75090
    },
    {
      "epoch": 100.13333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029817168992667586,
      "loss": 0.3896,
      "step": 75100
    },
    {
      "epoch": 100.14666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002981712007222221,
      "loss": 0.4085,
      "step": 75110
    },
    {
      "epoch": 100.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029817071145272985,
      "loss": 0.4032,
      "step": 75120
    },
    {
      "epoch": 100.17333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029817022211819927,
      "loss": 0.3977,
      "step": 75130
    },
    {
      "epoch": 100.18666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029816973271863065,
      "loss": 0.396,
      "step": 75140
    },
    {
      "epoch": 100.2,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029816924325402417,
      "loss": 0.3887,
      "step": 75150
    },
    {
      "epoch": 100.21333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029816875372438,
      "loss": 0.389,
      "step": 75160
    },
    {
      "epoch": 100.22666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002981682641296984,
      "loss": 0.4014,
      "step": 75170
    },
    {
      "epoch": 100.24,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002981677744699796,
      "loss": 0.386,
      "step": 75180
    },
    {
      "epoch": 100.25333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029816728474522377,
      "loss": 0.3884,
      "step": 75190
    },
    {
      "epoch": 100.26666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002981667949554311,
      "loss": 0.3903,
      "step": 75200
    },
    {
      "epoch": 100.28,
      "grad_norm": 0.375,
      "learning_rate": 0.00029816630510060195,
      "loss": 0.4211,
      "step": 75210
    },
    {
      "epoch": 100.29333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029816581518073636,
      "loss": 0.3767,
      "step": 75220
    },
    {
      "epoch": 100.30666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029816532519583465,
      "loss": 0.4004,
      "step": 75230
    },
    {
      "epoch": 100.32,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029816483514589695,
      "loss": 0.4021,
      "step": 75240
    },
    {
      "epoch": 100.33333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029816434503092366,
      "loss": 0.4055,
      "step": 75250
    },
    {
      "epoch": 100.34666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029816385485091477,
      "loss": 0.3957,
      "step": 75260
    },
    {
      "epoch": 100.36,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00029816336460587056,
      "loss": 0.3964,
      "step": 75270
    },
    {
      "epoch": 100.37333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029816287429579135,
      "loss": 0.3976,
      "step": 75280
    },
    {
      "epoch": 100.38666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029816238392067724,
      "loss": 0.3903,
      "step": 75290
    },
    {
      "epoch": 100.4,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002981618934805285,
      "loss": 0.3967,
      "step": 75300
    },
    {
      "epoch": 100.41333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029816140297534533,
      "loss": 0.4013,
      "step": 75310
    },
    {
      "epoch": 100.42666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029816091240512796,
      "loss": 0.4042,
      "step": 75320
    },
    {
      "epoch": 100.44,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002981604217698766,
      "loss": 0.4141,
      "step": 75330
    },
    {
      "epoch": 100.45333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002981599310695914,
      "loss": 0.4043,
      "step": 75340
    },
    {
      "epoch": 100.46666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002981594403042727,
      "loss": 0.4127,
      "step": 75350
    },
    {
      "epoch": 100.48,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029815894947392063,
      "loss": 0.3938,
      "step": 75360
    },
    {
      "epoch": 100.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002981584585785354,
      "loss": 0.4055,
      "step": 75370
    },
    {
      "epoch": 100.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029815796761811726,
      "loss": 0.4039,
      "step": 75380
    },
    {
      "epoch": 100.52,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029815747659266644,
      "loss": 0.3939,
      "step": 75390
    },
    {
      "epoch": 100.53333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002981569855021831,
      "loss": 0.3967,
      "step": 75400
    },
    {
      "epoch": 100.54666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002981564943466675,
      "loss": 0.3985,
      "step": 75410
    },
    {
      "epoch": 100.56,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029815600312611986,
      "loss": 0.3934,
      "step": 75420
    },
    {
      "epoch": 100.57333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029815551184054036,
      "loss": 0.3965,
      "step": 75430
    },
    {
      "epoch": 100.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029815502048992923,
      "loss": 0.3846,
      "step": 75440
    },
    {
      "epoch": 100.6,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002981545290742867,
      "loss": 0.3865,
      "step": 75450
    },
    {
      "epoch": 100.61333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000298154037593613,
      "loss": 0.3767,
      "step": 75460
    },
    {
      "epoch": 100.62666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029815354604790823,
      "loss": 0.3818,
      "step": 75470
    },
    {
      "epoch": 100.64,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029815305443717276,
      "loss": 0.3942,
      "step": 75480
    },
    {
      "epoch": 100.65333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029815256276140674,
      "loss": 0.4043,
      "step": 75490
    },
    {
      "epoch": 100.66666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002981520710206104,
      "loss": 0.391,
      "step": 75500
    },
    {
      "epoch": 100.68,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002981515792147839,
      "loss": 0.3828,
      "step": 75510
    },
    {
      "epoch": 100.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002981510873439275,
      "loss": 0.3923,
      "step": 75520
    },
    {
      "epoch": 100.70666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029815059540804146,
      "loss": 0.3854,
      "step": 75530
    },
    {
      "epoch": 100.72,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002981501034071259,
      "loss": 0.4076,
      "step": 75540
    },
    {
      "epoch": 100.73333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002981496113411811,
      "loss": 0.4017,
      "step": 75550
    },
    {
      "epoch": 100.74666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029814911921020735,
      "loss": 0.4034,
      "step": 75560
    },
    {
      "epoch": 100.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002981486270142047,
      "loss": 0.4169,
      "step": 75570
    },
    {
      "epoch": 100.77333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029814813475317344,
      "loss": 0.4044,
      "step": 75580
    },
    {
      "epoch": 100.78666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002981476424271138,
      "loss": 0.4049,
      "step": 75590
    },
    {
      "epoch": 100.8,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029814715003602605,
      "loss": 0.4027,
      "step": 75600
    },
    {
      "epoch": 100.81333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002981466575799103,
      "loss": 0.375,
      "step": 75610
    },
    {
      "epoch": 100.82666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029814616505876673,
      "loss": 0.387,
      "step": 75620
    },
    {
      "epoch": 100.84,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002981456724725957,
      "loss": 0.3976,
      "step": 75630
    },
    {
      "epoch": 100.85333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002981451798213974,
      "loss": 0.3937,
      "step": 75640
    },
    {
      "epoch": 100.86666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000298144687105172,
      "loss": 0.3973,
      "step": 75650
    },
    {
      "epoch": 100.88,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029814419432391966,
      "loss": 0.3786,
      "step": 75660
    },
    {
      "epoch": 100.89333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002981437014776407,
      "loss": 0.39,
      "step": 75670
    },
    {
      "epoch": 100.90666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002981432085663353,
      "loss": 0.3972,
      "step": 75680
    },
    {
      "epoch": 100.92,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029814271559000364,
      "loss": 0.3983,
      "step": 75690
    },
    {
      "epoch": 100.93333333333334,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029814222254864606,
      "loss": 0.3926,
      "step": 75700
    },
    {
      "epoch": 100.94666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002981417294422626,
      "loss": 0.3939,
      "step": 75710
    },
    {
      "epoch": 100.96,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981412362708536,
      "loss": 0.3912,
      "step": 75720
    },
    {
      "epoch": 100.97333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002981407430344192,
      "loss": 0.4165,
      "step": 75730
    },
    {
      "epoch": 100.98666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002981402497329597,
      "loss": 0.3903,
      "step": 75740
    },
    {
      "epoch": 101.0,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029813975636647526,
      "loss": 0.3853,
      "step": 75750
    },
    {
      "epoch": 101.0,
      "eval_loss": 0.43032407760620117,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.3762,
      "eval_samples_per_second": 1.706,
      "eval_steps_per_second": 0.107,
      "step": 75750
    },
    {
      "epoch": 101.01333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002981392629349661,
      "loss": 0.4021,
      "step": 75760
    },
    {
      "epoch": 101.02666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002981387694384325,
      "loss": 0.4149,
      "step": 75770
    },
    {
      "epoch": 101.04,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002981382758768745,
      "loss": 0.4284,
      "step": 75780
    },
    {
      "epoch": 101.05333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029813778225029256,
      "loss": 0.4143,
      "step": 75790
    },
    {
      "epoch": 101.06666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002981372885586867,
      "loss": 0.4016,
      "step": 75800
    },
    {
      "epoch": 101.08,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029813679480205724,
      "loss": 0.4053,
      "step": 75810
    },
    {
      "epoch": 101.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029813630098040434,
      "loss": 0.4058,
      "step": 75820
    },
    {
      "epoch": 101.10666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981358070937283,
      "loss": 0.3933,
      "step": 75830
    },
    {
      "epoch": 101.12,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002981353131420293,
      "loss": 0.398,
      "step": 75840
    },
    {
      "epoch": 101.13333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029813481912530743,
      "loss": 0.3898,
      "step": 75850
    },
    {
      "epoch": 101.14666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002981343250435631,
      "loss": 0.4091,
      "step": 75860
    },
    {
      "epoch": 101.16,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002981338308967964,
      "loss": 0.4022,
      "step": 75870
    },
    {
      "epoch": 101.17333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002981333366850077,
      "loss": 0.396,
      "step": 75880
    },
    {
      "epoch": 101.18666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000298132842408197,
      "loss": 0.3954,
      "step": 75890
    },
    {
      "epoch": 101.2,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029813234806636463,
      "loss": 0.3894,
      "step": 75900
    },
    {
      "epoch": 101.21333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002981318536595108,
      "loss": 0.3898,
      "step": 75910
    },
    {
      "epoch": 101.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002981313591876358,
      "loss": 0.4011,
      "step": 75920
    },
    {
      "epoch": 101.24,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029813086465073965,
      "loss": 0.3866,
      "step": 75930
    },
    {
      "epoch": 101.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029813037004882277,
      "loss": 0.3887,
      "step": 75940
    },
    {
      "epoch": 101.26666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002981298753818853,
      "loss": 0.3908,
      "step": 75950
    },
    {
      "epoch": 101.28,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029812938064992744,
      "loss": 0.4208,
      "step": 75960
    },
    {
      "epoch": 101.29333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002981288858529494,
      "loss": 0.3764,
      "step": 75970
    },
    {
      "epoch": 101.30666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029812839099095146,
      "loss": 0.3999,
      "step": 75980
    },
    {
      "epoch": 101.32,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002981278960639338,
      "loss": 0.4025,
      "step": 75990
    },
    {
      "epoch": 101.33333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029812740107189664,
      "loss": 0.4055,
      "step": 76000
    },
    {
      "epoch": 101.34666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029812690601484015,
      "loss": 0.3956,
      "step": 76010
    },
    {
      "epoch": 101.36,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029812641089276465,
      "loss": 0.3967,
      "step": 76020
    },
    {
      "epoch": 101.37333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029812591570567025,
      "loss": 0.3969,
      "step": 76030
    },
    {
      "epoch": 101.38666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029812542045355717,
      "loss": 0.3893,
      "step": 76040
    },
    {
      "epoch": 101.4,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002981249251364257,
      "loss": 0.3965,
      "step": 76050
    },
    {
      "epoch": 101.41333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002981244297542761,
      "loss": 0.4007,
      "step": 76060
    },
    {
      "epoch": 101.42666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002981239343071085,
      "loss": 0.4024,
      "step": 76070
    },
    {
      "epoch": 101.44,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002981234387949231,
      "loss": 0.4144,
      "step": 76080
    },
    {
      "epoch": 101.45333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029812294321772013,
      "loss": 0.4022,
      "step": 76090
    },
    {
      "epoch": 101.46666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029812244757549983,
      "loss": 0.4121,
      "step": 76100
    },
    {
      "epoch": 101.48,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002981219518682625,
      "loss": 0.3934,
      "step": 76110
    },
    {
      "epoch": 101.49333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002981214560960082,
      "loss": 0.4052,
      "step": 76120
    },
    {
      "epoch": 101.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029812096025873724,
      "loss": 0.4032,
      "step": 76130
    },
    {
      "epoch": 101.52,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002981204643564498,
      "loss": 0.3935,
      "step": 76140
    },
    {
      "epoch": 101.53333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029811996838914617,
      "loss": 0.397,
      "step": 76150
    },
    {
      "epoch": 101.54666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029811947235682646,
      "loss": 0.3991,
      "step": 76160
    },
    {
      "epoch": 101.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029811897625949094,
      "loss": 0.3934,
      "step": 76170
    },
    {
      "epoch": 101.57333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002981184800971399,
      "loss": 0.3967,
      "step": 76180
    },
    {
      "epoch": 101.58666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002981179838697734,
      "loss": 0.3854,
      "step": 76190
    },
    {
      "epoch": 101.6,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002981174875773918,
      "loss": 0.387,
      "step": 76200
    },
    {
      "epoch": 101.61333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029811699121999526,
      "loss": 0.377,
      "step": 76210
    },
    {
      "epoch": 101.62666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000298116494797584,
      "loss": 0.382,
      "step": 76220
    },
    {
      "epoch": 101.64,
      "grad_norm": 0.375,
      "learning_rate": 0.00029811599831015823,
      "loss": 0.394,
      "step": 76230
    },
    {
      "epoch": 101.65333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981155017577181,
      "loss": 0.4037,
      "step": 76240
    },
    {
      "epoch": 101.66666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029811500514026403,
      "loss": 0.3904,
      "step": 76250
    },
    {
      "epoch": 101.68,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002981145084577961,
      "loss": 0.383,
      "step": 76260
    },
    {
      "epoch": 101.69333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029811401171031445,
      "loss": 0.3918,
      "step": 76270
    },
    {
      "epoch": 101.70666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029811351489781945,
      "loss": 0.3844,
      "step": 76280
    },
    {
      "epoch": 101.72,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029811301802031123,
      "loss": 0.4077,
      "step": 76290
    },
    {
      "epoch": 101.73333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029811252107779014,
      "loss": 0.4014,
      "step": 76300
    },
    {
      "epoch": 101.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029811202407025616,
      "loss": 0.403,
      "step": 76310
    },
    {
      "epoch": 101.76,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029811152699770973,
      "loss": 0.4169,
      "step": 76320
    },
    {
      "epoch": 101.77333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029811102986015097,
      "loss": 0.4032,
      "step": 76330
    },
    {
      "epoch": 101.78666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029811053265758,
      "loss": 0.4048,
      "step": 76340
    },
    {
      "epoch": 101.8,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002981100353899972,
      "loss": 0.4024,
      "step": 76350
    },
    {
      "epoch": 101.81333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002981095380574028,
      "loss": 0.376,
      "step": 76360
    },
    {
      "epoch": 101.82666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029810904065979694,
      "loss": 0.3861,
      "step": 76370
    },
    {
      "epoch": 101.84,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002981085431971798,
      "loss": 0.3987,
      "step": 76380
    },
    {
      "epoch": 101.85333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002981080456695517,
      "loss": 0.3931,
      "step": 76390
    },
    {
      "epoch": 101.86666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002981075480769128,
      "loss": 0.3971,
      "step": 76400
    },
    {
      "epoch": 101.88,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002981070504192633,
      "loss": 0.378,
      "step": 76410
    },
    {
      "epoch": 101.89333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029810655269660346,
      "loss": 0.3888,
      "step": 76420
    },
    {
      "epoch": 101.90666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002981060549089335,
      "loss": 0.3964,
      "step": 76430
    },
    {
      "epoch": 101.92,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029810555705625356,
      "loss": 0.399,
      "step": 76440
    },
    {
      "epoch": 101.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000298105059138564,
      "loss": 0.3919,
      "step": 76450
    },
    {
      "epoch": 101.94666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029810456115586493,
      "loss": 0.394,
      "step": 76460
    },
    {
      "epoch": 101.96,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002981040631081566,
      "loss": 0.3909,
      "step": 76470
    },
    {
      "epoch": 101.97333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002981035649954392,
      "loss": 0.4165,
      "step": 76480
    },
    {
      "epoch": 101.98666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029810306681771296,
      "loss": 0.3897,
      "step": 76490
    },
    {
      "epoch": 102.0,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002981025685749782,
      "loss": 0.3847,
      "step": 76500
    },
    {
      "epoch": 102.0,
      "eval_loss": 0.42988264560699463,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1026,
      "eval_samples_per_second": 1.584,
      "eval_steps_per_second": 0.099,
      "step": 76500
    },
    {
      "epoch": 102.01333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029810207026723497,
      "loss": 0.4019,
      "step": 76510
    },
    {
      "epoch": 102.02666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029810157189448354,
      "loss": 0.4142,
      "step": 76520
    },
    {
      "epoch": 102.04,
      "grad_norm": 0.375,
      "learning_rate": 0.0002981010734567242,
      "loss": 0.4268,
      "step": 76530
    },
    {
      "epoch": 102.05333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002981005749539572,
      "loss": 0.4136,
      "step": 76540
    },
    {
      "epoch": 102.06666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002981000763861826,
      "loss": 0.4008,
      "step": 76550
    },
    {
      "epoch": 102.08,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029809957775340075,
      "loss": 0.405,
      "step": 76560
    },
    {
      "epoch": 102.09333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029809907905561185,
      "loss": 0.4054,
      "step": 76570
    },
    {
      "epoch": 102.10666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029809858029281603,
      "loss": 0.3936,
      "step": 76580
    },
    {
      "epoch": 102.12,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029809808146501356,
      "loss": 0.3981,
      "step": 76590
    },
    {
      "epoch": 102.13333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029809758257220477,
      "loss": 0.3902,
      "step": 76600
    },
    {
      "epoch": 102.14666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002980970836143897,
      "loss": 0.4096,
      "step": 76610
    },
    {
      "epoch": 102.16,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002980965845915687,
      "loss": 0.4021,
      "step": 76620
    },
    {
      "epoch": 102.17333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029809608550374186,
      "loss": 0.397,
      "step": 76630
    },
    {
      "epoch": 102.18666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029809558635090957,
      "loss": 0.395,
      "step": 76640
    },
    {
      "epoch": 102.2,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029809508713307193,
      "loss": 0.3887,
      "step": 76650
    },
    {
      "epoch": 102.21333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029809458785022916,
      "loss": 0.3888,
      "step": 76660
    },
    {
      "epoch": 102.22666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002980940885023815,
      "loss": 0.4012,
      "step": 76670
    },
    {
      "epoch": 102.24,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029809358908952914,
      "loss": 0.3862,
      "step": 76680
    },
    {
      "epoch": 102.25333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029809308961167245,
      "loss": 0.3878,
      "step": 76690
    },
    {
      "epoch": 102.26666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029809259006881143,
      "loss": 0.3904,
      "step": 76700
    },
    {
      "epoch": 102.28,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002980920904609465,
      "loss": 0.421,
      "step": 76710
    },
    {
      "epoch": 102.29333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002980915907880777,
      "loss": 0.3767,
      "step": 76720
    },
    {
      "epoch": 102.30666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029809109105020536,
      "loss": 0.4,
      "step": 76730
    },
    {
      "epoch": 102.32,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002980905912473296,
      "loss": 0.4019,
      "step": 76740
    },
    {
      "epoch": 102.33333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002980900913794508,
      "loss": 0.4053,
      "step": 76750
    },
    {
      "epoch": 102.34666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029808959144656905,
      "loss": 0.3952,
      "step": 76760
    },
    {
      "epoch": 102.36,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029808909144868464,
      "loss": 0.3958,
      "step": 76770
    },
    {
      "epoch": 102.37333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029808859138579776,
      "loss": 0.3977,
      "step": 76780
    },
    {
      "epoch": 102.38666666666667,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002980880912579086,
      "loss": 0.3898,
      "step": 76790
    },
    {
      "epoch": 102.4,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002980875910650174,
      "loss": 0.3968,
      "step": 76800
    },
    {
      "epoch": 102.41333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002980870908071244,
      "loss": 0.402,
      "step": 76810
    },
    {
      "epoch": 102.42666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002980865904842298,
      "loss": 0.4036,
      "step": 76820
    },
    {
      "epoch": 102.44,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002980860900963338,
      "loss": 0.4146,
      "step": 76830
    },
    {
      "epoch": 102.45333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002980855896434367,
      "loss": 0.4033,
      "step": 76840
    },
    {
      "epoch": 102.46666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002980850891255386,
      "loss": 0.412,
      "step": 76850
    },
    {
      "epoch": 102.48,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002980845885426398,
      "loss": 0.3925,
      "step": 76860
    },
    {
      "epoch": 102.49333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002980840878947406,
      "loss": 0.4054,
      "step": 76870
    },
    {
      "epoch": 102.50666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000298083587181841,
      "loss": 0.4034,
      "step": 76880
    },
    {
      "epoch": 102.52,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029808308640394144,
      "loss": 0.3939,
      "step": 76890
    },
    {
      "epoch": 102.53333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.000298082585561042,
      "loss": 0.3965,
      "step": 76900
    },
    {
      "epoch": 102.54666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029808208465314297,
      "loss": 0.399,
      "step": 76910
    },
    {
      "epoch": 102.56,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029808158368024444,
      "loss": 0.393,
      "step": 76920
    },
    {
      "epoch": 102.57333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029808108264234686,
      "loss": 0.3966,
      "step": 76930
    },
    {
      "epoch": 102.58666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029808058153945027,
      "loss": 0.3851,
      "step": 76940
    },
    {
      "epoch": 102.6,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029808008037155494,
      "loss": 0.3864,
      "step": 76950
    },
    {
      "epoch": 102.61333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002980795791386611,
      "loss": 0.3766,
      "step": 76960
    },
    {
      "epoch": 102.62666666666667,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00029807907784076896,
      "loss": 0.3809,
      "step": 76970
    },
    {
      "epoch": 102.64,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029807857647787874,
      "loss": 0.3942,
      "step": 76980
    },
    {
      "epoch": 102.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002980780750499907,
      "loss": 0.4036,
      "step": 76990
    },
    {
      "epoch": 102.66666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029807757355710497,
      "loss": 0.3909,
      "step": 77000
    },
    {
      "epoch": 102.68,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002980770719992219,
      "loss": 0.3831,
      "step": 77010
    },
    {
      "epoch": 102.69333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002980765703763415,
      "loss": 0.3921,
      "step": 77020
    },
    {
      "epoch": 102.70666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029807606868846424,
      "loss": 0.3856,
      "step": 77030
    },
    {
      "epoch": 102.72,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002980755669355902,
      "loss": 0.4077,
      "step": 77040
    },
    {
      "epoch": 102.73333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002980750651177196,
      "loss": 0.4005,
      "step": 77050
    },
    {
      "epoch": 102.74666666666667,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002980745632348527,
      "loss": 0.4031,
      "step": 77060
    },
    {
      "epoch": 102.76,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002980740612869897,
      "loss": 0.4167,
      "step": 77070
    },
    {
      "epoch": 102.77333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002980735592741308,
      "loss": 0.4035,
      "step": 77080
    },
    {
      "epoch": 102.78666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002980730571962763,
      "loss": 0.4037,
      "step": 77090
    },
    {
      "epoch": 102.8,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029807255505342637,
      "loss": 0.4027,
      "step": 77100
    },
    {
      "epoch": 102.81333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002980720528455812,
      "loss": 0.3757,
      "step": 77110
    },
    {
      "epoch": 102.82666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000298071550572741,
      "loss": 0.3848,
      "step": 77120
    },
    {
      "epoch": 102.84,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029807104823490605,
      "loss": 0.3966,
      "step": 77130
    },
    {
      "epoch": 102.85333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002980705458320766,
      "loss": 0.3924,
      "step": 77140
    },
    {
      "epoch": 102.86666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002980700433642527,
      "loss": 0.3974,
      "step": 77150
    },
    {
      "epoch": 102.88,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002980695408314348,
      "loss": 0.378,
      "step": 77160
    },
    {
      "epoch": 102.89333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029806903823362295,
      "loss": 0.3894,
      "step": 77170
    },
    {
      "epoch": 102.90666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002980685355708175,
      "loss": 0.3956,
      "step": 77180
    },
    {
      "epoch": 102.92,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002980680328430185,
      "loss": 0.399,
      "step": 77190
    },
    {
      "epoch": 102.93333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029806753005022637,
      "loss": 0.392,
      "step": 77200
    },
    {
      "epoch": 102.94666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002980670271924412,
      "loss": 0.394,
      "step": 77210
    },
    {
      "epoch": 102.96,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029806652426966326,
      "loss": 0.3902,
      "step": 77220
    },
    {
      "epoch": 102.97333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002980660212818927,
      "loss": 0.4159,
      "step": 77230
    },
    {
      "epoch": 102.98666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029806551822912983,
      "loss": 0.3898,
      "step": 77240
    },
    {
      "epoch": 103.0,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002980650151113748,
      "loss": 0.3842,
      "step": 77250
    },
    {
      "epoch": 103.0,
      "eval_loss": 0.4284389615058899,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0398,
      "eval_samples_per_second": 1.594,
      "eval_steps_per_second": 0.1,
      "step": 77250
    },
    {
      "epoch": 103.01333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002980645119286279,
      "loss": 0.4021,
      "step": 77260
    },
    {
      "epoch": 103.02666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002980640086808893,
      "loss": 0.4142,
      "step": 77270
    },
    {
      "epoch": 103.04,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029806350536815926,
      "loss": 0.4267,
      "step": 77280
    },
    {
      "epoch": 103.05333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000298063001990438,
      "loss": 0.4141,
      "step": 77290
    },
    {
      "epoch": 103.06666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029806249854772565,
      "loss": 0.4007,
      "step": 77300
    },
    {
      "epoch": 103.08,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002980619950400225,
      "loss": 0.4042,
      "step": 77310
    },
    {
      "epoch": 103.09333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002980614914673288,
      "loss": 0.4051,
      "step": 77320
    },
    {
      "epoch": 103.10666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029806098782964475,
      "loss": 0.3937,
      "step": 77330
    },
    {
      "epoch": 103.12,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00029806048412697056,
      "loss": 0.3988,
      "step": 77340
    },
    {
      "epoch": 103.13333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029805998035930647,
      "loss": 0.3898,
      "step": 77350
    },
    {
      "epoch": 103.14666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029805947652665265,
      "loss": 0.4087,
      "step": 77360
    },
    {
      "epoch": 103.16,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002980589726290094,
      "loss": 0.4027,
      "step": 77370
    },
    {
      "epoch": 103.17333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002980584686663769,
      "loss": 0.3971,
      "step": 77380
    },
    {
      "epoch": 103.18666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029805796463875533,
      "loss": 0.395,
      "step": 77390
    },
    {
      "epoch": 103.2,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029805746054614496,
      "loss": 0.3879,
      "step": 77400
    },
    {
      "epoch": 103.21333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000298056956388546,
      "loss": 0.3885,
      "step": 77410
    },
    {
      "epoch": 103.22666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002980564521659587,
      "loss": 0.4,
      "step": 77420
    },
    {
      "epoch": 103.24,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029805594787838324,
      "loss": 0.3855,
      "step": 77430
    },
    {
      "epoch": 103.25333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029805544352581984,
      "loss": 0.3883,
      "step": 77440
    },
    {
      "epoch": 103.26666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029805493910826876,
      "loss": 0.3906,
      "step": 77450
    },
    {
      "epoch": 103.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029805443462573017,
      "loss": 0.4205,
      "step": 77460
    },
    {
      "epoch": 103.29333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029805393007820434,
      "loss": 0.3769,
      "step": 77470
    },
    {
      "epoch": 103.30666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002980534254656915,
      "loss": 0.4001,
      "step": 77480
    },
    {
      "epoch": 103.32,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029805292078819177,
      "loss": 0.4013,
      "step": 77490
    },
    {
      "epoch": 103.33333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002980524160457055,
      "loss": 0.4054,
      "step": 77500
    },
    {
      "epoch": 103.34666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029805191123823284,
      "loss": 0.3963,
      "step": 77510
    },
    {
      "epoch": 103.36,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029805140636577406,
      "loss": 0.3957,
      "step": 77520
    },
    {
      "epoch": 103.37333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002980509014283293,
      "loss": 0.3978,
      "step": 77530
    },
    {
      "epoch": 103.38666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002980503964258989,
      "loss": 0.3888,
      "step": 77540
    },
    {
      "epoch": 103.4,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029804989135848295,
      "loss": 0.3961,
      "step": 77550
    },
    {
      "epoch": 103.41333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002980493862260817,
      "loss": 0.4023,
      "step": 77560
    },
    {
      "epoch": 103.42666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002980488810286955,
      "loss": 0.4024,
      "step": 77570
    },
    {
      "epoch": 103.44,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029804837576632445,
      "loss": 0.4143,
      "step": 77580
    },
    {
      "epoch": 103.45333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029804787043896875,
      "loss": 0.4029,
      "step": 77590
    },
    {
      "epoch": 103.46666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029804736504662874,
      "loss": 0.4111,
      "step": 77600
    },
    {
      "epoch": 103.48,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002980468595893045,
      "loss": 0.3936,
      "step": 77610
    },
    {
      "epoch": 103.49333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029804635406699637,
      "loss": 0.4052,
      "step": 77620
    },
    {
      "epoch": 103.50666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002980458484797045,
      "loss": 0.4027,
      "step": 77630
    },
    {
      "epoch": 103.52,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002980453428274292,
      "loss": 0.3935,
      "step": 77640
    },
    {
      "epoch": 103.53333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002980448371101706,
      "loss": 0.396,
      "step": 77650
    },
    {
      "epoch": 103.54666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029804433132792893,
      "loss": 0.3978,
      "step": 77660
    },
    {
      "epoch": 103.56,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029804382548070447,
      "loss": 0.3928,
      "step": 77670
    },
    {
      "epoch": 103.57333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002980433195684974,
      "loss": 0.3967,
      "step": 77680
    },
    {
      "epoch": 103.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002980428135913079,
      "loss": 0.3854,
      "step": 77690
    },
    {
      "epoch": 103.6,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029804230754913627,
      "loss": 0.3873,
      "step": 77700
    },
    {
      "epoch": 103.61333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002980418014419827,
      "loss": 0.3767,
      "step": 77710
    },
    {
      "epoch": 103.62666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029804129526984745,
      "loss": 0.3811,
      "step": 77720
    },
    {
      "epoch": 103.64,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029804078903273066,
      "loss": 0.3946,
      "step": 77730
    },
    {
      "epoch": 103.65333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029804028273063265,
      "loss": 0.4036,
      "step": 77740
    },
    {
      "epoch": 103.66666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002980397763635536,
      "loss": 0.3897,
      "step": 77750
    },
    {
      "epoch": 103.68,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029803926993149366,
      "loss": 0.3823,
      "step": 77760
    },
    {
      "epoch": 103.69333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002980387634344531,
      "loss": 0.3924,
      "step": 77770
    },
    {
      "epoch": 103.70666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002980382568724322,
      "loss": 0.3854,
      "step": 77780
    },
    {
      "epoch": 103.72,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002980377502454312,
      "loss": 0.4073,
      "step": 77790
    },
    {
      "epoch": 103.73333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029803724355345016,
      "loss": 0.4015,
      "step": 77800
    },
    {
      "epoch": 103.74666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002980367367964895,
      "loss": 0.4036,
      "step": 77810
    },
    {
      "epoch": 103.76,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002980362299745493,
      "loss": 0.4158,
      "step": 77820
    },
    {
      "epoch": 103.77333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002980357230876298,
      "loss": 0.403,
      "step": 77830
    },
    {
      "epoch": 103.78666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002980352161357313,
      "loss": 0.4034,
      "step": 77840
    },
    {
      "epoch": 103.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000298034709118854,
      "loss": 0.4022,
      "step": 77850
    },
    {
      "epoch": 103.81333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000298034202036998,
      "loss": 0.3758,
      "step": 77860
    },
    {
      "epoch": 103.82666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002980336948901637,
      "loss": 0.3862,
      "step": 77870
    },
    {
      "epoch": 103.84,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002980331876783513,
      "loss": 0.3979,
      "step": 77880
    },
    {
      "epoch": 103.85333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002980326804015608,
      "loss": 0.3925,
      "step": 77890
    },
    {
      "epoch": 103.86666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002980321730597927,
      "loss": 0.3969,
      "step": 77900
    },
    {
      "epoch": 103.88,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002980316656530471,
      "loss": 0.379,
      "step": 77910
    },
    {
      "epoch": 103.89333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029803115818132425,
      "loss": 0.3896,
      "step": 77920
    },
    {
      "epoch": 103.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029803065064462435,
      "loss": 0.3962,
      "step": 77930
    },
    {
      "epoch": 103.92,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002980301430429476,
      "loss": 0.3987,
      "step": 77940
    },
    {
      "epoch": 103.93333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002980296353762943,
      "loss": 0.392,
      "step": 77950
    },
    {
      "epoch": 103.94666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029802912764466453,
      "loss": 0.3929,
      "step": 77960
    },
    {
      "epoch": 103.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002980286198480587,
      "loss": 0.3912,
      "step": 77970
    },
    {
      "epoch": 103.97333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029802811198647694,
      "loss": 0.4158,
      "step": 77980
    },
    {
      "epoch": 103.98666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002980276040599194,
      "loss": 0.3898,
      "step": 77990
    },
    {
      "epoch": 104.0,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029802709606838645,
      "loss": 0.3844,
      "step": 78000
    },
    {
      "epoch": 104.0,
      "eval_loss": 0.4279639422893524,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6951,
      "eval_samples_per_second": 1.65,
      "eval_steps_per_second": 0.103,
      "step": 78000
    },
    {
      "epoch": 104.01333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029802658801187824,
      "loss": 0.402,
      "step": 78010
    },
    {
      "epoch": 104.02666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029802607989039493,
      "loss": 0.4143,
      "step": 78020
    },
    {
      "epoch": 104.04,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002980255717039369,
      "loss": 0.4281,
      "step": 78030
    },
    {
      "epoch": 104.05333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002980250634525042,
      "loss": 0.4131,
      "step": 78040
    },
    {
      "epoch": 104.06666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002980245551360971,
      "loss": 0.4003,
      "step": 78050
    },
    {
      "epoch": 104.08,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029802404675471596,
      "loss": 0.4043,
      "step": 78060
    },
    {
      "epoch": 104.09333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029802353830836085,
      "loss": 0.4051,
      "step": 78070
    },
    {
      "epoch": 104.10666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029802302979703205,
      "loss": 0.393,
      "step": 78080
    },
    {
      "epoch": 104.12,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029802252122072977,
      "loss": 0.3978,
      "step": 78090
    },
    {
      "epoch": 104.13333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029802201257945424,
      "loss": 0.3895,
      "step": 78100
    },
    {
      "epoch": 104.14666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002980215038732057,
      "loss": 0.4095,
      "step": 78110
    },
    {
      "epoch": 104.16,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002980209951019843,
      "loss": 0.4024,
      "step": 78120
    },
    {
      "epoch": 104.17333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029802048626579035,
      "loss": 0.3972,
      "step": 78130
    },
    {
      "epoch": 104.18666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029801997736462403,
      "loss": 0.3955,
      "step": 78140
    },
    {
      "epoch": 104.2,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002980194683984856,
      "loss": 0.3876,
      "step": 78150
    },
    {
      "epoch": 104.21333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029801895936737525,
      "loss": 0.3893,
      "step": 78160
    },
    {
      "epoch": 104.22666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029801845027129317,
      "loss": 0.4007,
      "step": 78170
    },
    {
      "epoch": 104.24,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029801794111023974,
      "loss": 0.3853,
      "step": 78180
    },
    {
      "epoch": 104.25333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029801743188421494,
      "loss": 0.3885,
      "step": 78190
    },
    {
      "epoch": 104.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002980169225932192,
      "loss": 0.3907,
      "step": 78200
    },
    {
      "epoch": 104.28,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002980164132372526,
      "loss": 0.4198,
      "step": 78210
    },
    {
      "epoch": 104.29333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029801590381631546,
      "loss": 0.3764,
      "step": 78220
    },
    {
      "epoch": 104.30666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000298015394330408,
      "loss": 0.3987,
      "step": 78230
    },
    {
      "epoch": 104.32,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002980148847795304,
      "loss": 0.4022,
      "step": 78240
    },
    {
      "epoch": 104.33333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002980143751636829,
      "loss": 0.405,
      "step": 78250
    },
    {
      "epoch": 104.34666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029801386548286573,
      "loss": 0.3953,
      "step": 78260
    },
    {
      "epoch": 104.36,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002980133557370791,
      "loss": 0.3962,
      "step": 78270
    },
    {
      "epoch": 104.37333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029801284592632324,
      "loss": 0.3967,
      "step": 78280
    },
    {
      "epoch": 104.38666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002980123360505984,
      "loss": 0.3889,
      "step": 78290
    },
    {
      "epoch": 104.4,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029801182610990476,
      "loss": 0.3964,
      "step": 78300
    },
    {
      "epoch": 104.41333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002980113161042425,
      "loss": 0.4011,
      "step": 78310
    },
    {
      "epoch": 104.42666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000298010806033612,
      "loss": 0.4031,
      "step": 78320
    },
    {
      "epoch": 104.44,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029801029589801337,
      "loss": 0.4138,
      "step": 78330
    },
    {
      "epoch": 104.45333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029800978569744684,
      "loss": 0.4033,
      "step": 78340
    },
    {
      "epoch": 104.46666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029800927543191264,
      "loss": 0.4112,
      "step": 78350
    },
    {
      "epoch": 104.48,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000298008765101411,
      "loss": 0.3934,
      "step": 78360
    },
    {
      "epoch": 104.49333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002980082547059422,
      "loss": 0.4049,
      "step": 78370
    },
    {
      "epoch": 104.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029800774424550635,
      "loss": 0.4032,
      "step": 78380
    },
    {
      "epoch": 104.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029800723372010374,
      "loss": 0.3933,
      "step": 78390
    },
    {
      "epoch": 104.53333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002980067231297346,
      "loss": 0.3969,
      "step": 78400
    },
    {
      "epoch": 104.54666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029800621247439915,
      "loss": 0.3985,
      "step": 78410
    },
    {
      "epoch": 104.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002980057017540976,
      "loss": 0.3925,
      "step": 78420
    },
    {
      "epoch": 104.57333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029800519096883016,
      "loss": 0.3958,
      "step": 78430
    },
    {
      "epoch": 104.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002980046801185971,
      "loss": 0.3843,
      "step": 78440
    },
    {
      "epoch": 104.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002980041692033986,
      "loss": 0.387,
      "step": 78450
    },
    {
      "epoch": 104.61333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029800365822323495,
      "loss": 0.3761,
      "step": 78460
    },
    {
      "epoch": 104.62666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002980031471781063,
      "loss": 0.3814,
      "step": 78470
    },
    {
      "epoch": 104.64,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002980026360680129,
      "loss": 0.3946,
      "step": 78480
    },
    {
      "epoch": 104.65333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000298002124892955,
      "loss": 0.4036,
      "step": 78490
    },
    {
      "epoch": 104.66666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029800161365293277,
      "loss": 0.3903,
      "step": 78500
    },
    {
      "epoch": 104.68,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029800110234794646,
      "loss": 0.3829,
      "step": 78510
    },
    {
      "epoch": 104.69333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029800059097799634,
      "loss": 0.3913,
      "step": 78520
    },
    {
      "epoch": 104.70666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029800007954308255,
      "loss": 0.3853,
      "step": 78530
    },
    {
      "epoch": 104.72,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002979995680432054,
      "loss": 0.4079,
      "step": 78540
    },
    {
      "epoch": 104.73333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000297999056478365,
      "loss": 0.4013,
      "step": 78550
    },
    {
      "epoch": 104.74666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002979985448485617,
      "loss": 0.403,
      "step": 78560
    },
    {
      "epoch": 104.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002979980331537957,
      "loss": 0.4165,
      "step": 78570
    },
    {
      "epoch": 104.77333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002979975213940672,
      "loss": 0.4035,
      "step": 78580
    },
    {
      "epoch": 104.78666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029799700956937636,
      "loss": 0.4036,
      "step": 78590
    },
    {
      "epoch": 104.8,
      "grad_norm": 0.375,
      "learning_rate": 0.0002979964976797235,
      "loss": 0.402,
      "step": 78600
    },
    {
      "epoch": 104.81333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002979959857251088,
      "loss": 0.3757,
      "step": 78610
    },
    {
      "epoch": 104.82666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002979954737055325,
      "loss": 0.3863,
      "step": 78620
    },
    {
      "epoch": 104.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029799496162099485,
      "loss": 0.398,
      "step": 78630
    },
    {
      "epoch": 104.85333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000297994449471496,
      "loss": 0.3932,
      "step": 78640
    },
    {
      "epoch": 104.86666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002979939372570363,
      "loss": 0.3975,
      "step": 78650
    },
    {
      "epoch": 104.88,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002979934249776158,
      "loss": 0.3786,
      "step": 78660
    },
    {
      "epoch": 104.89333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029799291263323484,
      "loss": 0.3884,
      "step": 78670
    },
    {
      "epoch": 104.90666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029799240022389365,
      "loss": 0.3964,
      "step": 78680
    },
    {
      "epoch": 104.92,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002979918877495924,
      "loss": 0.3987,
      "step": 78690
    },
    {
      "epoch": 104.93333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002979913752103314,
      "loss": 0.3912,
      "step": 78700
    },
    {
      "epoch": 104.94666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002979908626061107,
      "loss": 0.3926,
      "step": 78710
    },
    {
      "epoch": 104.96,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029799034993693076,
      "loss": 0.3901,
      "step": 78720
    },
    {
      "epoch": 104.97333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002979898372027917,
      "loss": 0.4165,
      "step": 78730
    },
    {
      "epoch": 104.98666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029798932440369366,
      "loss": 0.3889,
      "step": 78740
    },
    {
      "epoch": 105.0,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000297988811539637,
      "loss": 0.3848,
      "step": 78750
    },
    {
      "epoch": 105.0,
      "eval_loss": 0.42891037464141846,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.027,
      "eval_samples_per_second": 1.596,
      "eval_steps_per_second": 0.1,
      "step": 78750
    },
    {
      "epoch": 105.01333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029798829861062186,
      "loss": 0.4026,
      "step": 78760
    },
    {
      "epoch": 105.02666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029798778561664844,
      "loss": 0.4145,
      "step": 78770
    },
    {
      "epoch": 105.04,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002979872725577171,
      "loss": 0.4277,
      "step": 78780
    },
    {
      "epoch": 105.05333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002979867594338279,
      "loss": 0.4132,
      "step": 78790
    },
    {
      "epoch": 105.06666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029798624624498125,
      "loss": 0.4,
      "step": 78800
    },
    {
      "epoch": 105.08,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002979857329911772,
      "loss": 0.4043,
      "step": 78810
    },
    {
      "epoch": 105.09333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000297985219672416,
      "loss": 0.4057,
      "step": 78820
    },
    {
      "epoch": 105.10666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000297984706288698,
      "loss": 0.3927,
      "step": 78830
    },
    {
      "epoch": 105.12,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029798419284002335,
      "loss": 0.3983,
      "step": 78840
    },
    {
      "epoch": 105.13333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002979836793263922,
      "loss": 0.3905,
      "step": 78850
    },
    {
      "epoch": 105.14666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029798316574780495,
      "loss": 0.4084,
      "step": 78860
    },
    {
      "epoch": 105.16,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029798265210426167,
      "loss": 0.4022,
      "step": 78870
    },
    {
      "epoch": 105.17333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002979821383957626,
      "loss": 0.3962,
      "step": 78880
    },
    {
      "epoch": 105.18666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029798162462230804,
      "loss": 0.3955,
      "step": 78890
    },
    {
      "epoch": 105.2,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002979811107838982,
      "loss": 0.3886,
      "step": 78900
    },
    {
      "epoch": 105.21333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029798059688053327,
      "loss": 0.3886,
      "step": 78910
    },
    {
      "epoch": 105.22666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029798008291221343,
      "loss": 0.3997,
      "step": 78920
    },
    {
      "epoch": 105.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002979795688789391,
      "loss": 0.3853,
      "step": 78930
    },
    {
      "epoch": 105.25333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002979790547807102,
      "loss": 0.3877,
      "step": 78940
    },
    {
      "epoch": 105.26666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029797854061752727,
      "loss": 0.3904,
      "step": 78950
    },
    {
      "epoch": 105.28,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002979780263893903,
      "loss": 0.4203,
      "step": 78960
    },
    {
      "epoch": 105.29333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029797751209629966,
      "loss": 0.3753,
      "step": 78970
    },
    {
      "epoch": 105.30666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029797699773825555,
      "loss": 0.3992,
      "step": 78980
    },
    {
      "epoch": 105.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029797648331525813,
      "loss": 0.4017,
      "step": 78990
    },
    {
      "epoch": 105.33333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002979759688273077,
      "loss": 0.4046,
      "step": 79000
    },
    {
      "epoch": 105.34666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002979754542744044,
      "loss": 0.3954,
      "step": 79010
    },
    {
      "epoch": 105.36,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029797493965654854,
      "loss": 0.3959,
      "step": 79020
    },
    {
      "epoch": 105.37333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002979744249737403,
      "loss": 0.3968,
      "step": 79030
    },
    {
      "epoch": 105.38666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002979739102259799,
      "loss": 0.3896,
      "step": 79040
    },
    {
      "epoch": 105.4,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029797339541326765,
      "loss": 0.3963,
      "step": 79050
    },
    {
      "epoch": 105.41333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029797288053560366,
      "loss": 0.4018,
      "step": 79060
    },
    {
      "epoch": 105.42666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002979723655929882,
      "loss": 0.4026,
      "step": 79070
    },
    {
      "epoch": 105.44,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029797185058542155,
      "loss": 0.4125,
      "step": 79080
    },
    {
      "epoch": 105.45333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002979713355129039,
      "loss": 0.4029,
      "step": 79090
    },
    {
      "epoch": 105.46666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029797082037543544,
      "loss": 0.4124,
      "step": 79100
    },
    {
      "epoch": 105.48,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002979703051730164,
      "loss": 0.3932,
      "step": 79110
    },
    {
      "epoch": 105.49333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000297969789905647,
      "loss": 0.4051,
      "step": 79120
    },
    {
      "epoch": 105.50666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029796927457332754,
      "loss": 0.4028,
      "step": 79130
    },
    {
      "epoch": 105.52,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002979687591760582,
      "loss": 0.3925,
      "step": 79140
    },
    {
      "epoch": 105.53333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002979682437138392,
      "loss": 0.3964,
      "step": 79150
    },
    {
      "epoch": 105.54666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002979677281866708,
      "loss": 0.3983,
      "step": 79160
    },
    {
      "epoch": 105.56,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002979672125945532,
      "loss": 0.3922,
      "step": 79170
    },
    {
      "epoch": 105.57333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029796669693748655,
      "loss": 0.3963,
      "step": 79180
    },
    {
      "epoch": 105.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002979661812154712,
      "loss": 0.3849,
      "step": 79190
    },
    {
      "epoch": 105.6,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029796566542850735,
      "loss": 0.3866,
      "step": 79200
    },
    {
      "epoch": 105.61333333333333,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002979651495765952,
      "loss": 0.3759,
      "step": 79210
    },
    {
      "epoch": 105.62666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000297964633659735,
      "loss": 0.3817,
      "step": 79220
    },
    {
      "epoch": 105.64,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002979641176779269,
      "loss": 0.3951,
      "step": 79230
    },
    {
      "epoch": 105.65333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002979636016311712,
      "loss": 0.4028,
      "step": 79240
    },
    {
      "epoch": 105.66666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029796308551946813,
      "loss": 0.3903,
      "step": 79250
    },
    {
      "epoch": 105.68,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002979625693428179,
      "loss": 0.3827,
      "step": 79260
    },
    {
      "epoch": 105.69333333333333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002979620531012207,
      "loss": 0.3916,
      "step": 79270
    },
    {
      "epoch": 105.70666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029796153679467676,
      "loss": 0.3843,
      "step": 79280
    },
    {
      "epoch": 105.72,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029796102042318643,
      "loss": 0.4075,
      "step": 79290
    },
    {
      "epoch": 105.73333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002979605039867498,
      "loss": 0.4015,
      "step": 79300
    },
    {
      "epoch": 105.74666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002979599874853671,
      "loss": 0.4038,
      "step": 79310
    },
    {
      "epoch": 105.76,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029795947091903867,
      "loss": 0.4151,
      "step": 79320
    },
    {
      "epoch": 105.77333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029795895428776466,
      "loss": 0.4035,
      "step": 79330
    },
    {
      "epoch": 105.78666666666666,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029795843759154527,
      "loss": 0.4045,
      "step": 79340
    },
    {
      "epoch": 105.8,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002979579208303807,
      "loss": 0.403,
      "step": 79350
    },
    {
      "epoch": 105.81333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029795740400427134,
      "loss": 0.3761,
      "step": 79360
    },
    {
      "epoch": 105.82666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029795688711321724,
      "loss": 0.3866,
      "step": 79370
    },
    {
      "epoch": 105.84,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002979563701572187,
      "loss": 0.3981,
      "step": 79380
    },
    {
      "epoch": 105.85333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000297955853136276,
      "loss": 0.3926,
      "step": 79390
    },
    {
      "epoch": 105.86666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029795533605038926,
      "loss": 0.3972,
      "step": 79400
    },
    {
      "epoch": 105.88,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002979548188995588,
      "loss": 0.3775,
      "step": 79410
    },
    {
      "epoch": 105.89333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002979543016837848,
      "loss": 0.3883,
      "step": 79420
    },
    {
      "epoch": 105.90666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029795378440306745,
      "loss": 0.3965,
      "step": 79430
    },
    {
      "epoch": 105.92,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029795326705740706,
      "loss": 0.3982,
      "step": 79440
    },
    {
      "epoch": 105.93333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029795274964680376,
      "loss": 0.3914,
      "step": 79450
    },
    {
      "epoch": 105.94666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002979522321712579,
      "loss": 0.3918,
      "step": 79460
    },
    {
      "epoch": 105.96,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002979517146307696,
      "loss": 0.3896,
      "step": 79470
    },
    {
      "epoch": 105.97333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002979511970253392,
      "loss": 0.4149,
      "step": 79480
    },
    {
      "epoch": 105.98666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029795067935496676,
      "loss": 0.3898,
      "step": 79490
    },
    {
      "epoch": 106.0,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029795016161965267,
      "loss": 0.3848,
      "step": 79500
    },
    {
      "epoch": 106.0,
      "eval_loss": 0.42803066968917847,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1367,
      "eval_samples_per_second": 1.578,
      "eval_steps_per_second": 0.099,
      "step": 79500
    },
    {
      "epoch": 106.01333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029794964381939704,
      "loss": 0.4024,
      "step": 79510
    },
    {
      "epoch": 106.02666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002979491259542002,
      "loss": 0.4148,
      "step": 79520
    },
    {
      "epoch": 106.04,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002979486080240623,
      "loss": 0.4275,
      "step": 79530
    },
    {
      "epoch": 106.05333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002979480900289836,
      "loss": 0.4135,
      "step": 79540
    },
    {
      "epoch": 106.06666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002979475719689643,
      "loss": 0.4007,
      "step": 79550
    },
    {
      "epoch": 106.08,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002979470538440046,
      "loss": 0.4038,
      "step": 79560
    },
    {
      "epoch": 106.09333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029794653565410484,
      "loss": 0.4048,
      "step": 79570
    },
    {
      "epoch": 106.10666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002979460173992652,
      "loss": 0.3926,
      "step": 79580
    },
    {
      "epoch": 106.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029794549907948584,
      "loss": 0.3972,
      "step": 79590
    },
    {
      "epoch": 106.13333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029794498069476706,
      "loss": 0.3892,
      "step": 79600
    },
    {
      "epoch": 106.14666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029794446224510907,
      "loss": 0.4087,
      "step": 79610
    },
    {
      "epoch": 106.16,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002979439437305121,
      "loss": 0.4031,
      "step": 79620
    },
    {
      "epoch": 106.17333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029794342515097633,
      "loss": 0.3964,
      "step": 79630
    },
    {
      "epoch": 106.18666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029794290650650207,
      "loss": 0.3957,
      "step": 79640
    },
    {
      "epoch": 106.2,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029794238779708946,
      "loss": 0.3878,
      "step": 79650
    },
    {
      "epoch": 106.21333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002979418690227388,
      "loss": 0.3888,
      "step": 79660
    },
    {
      "epoch": 106.22666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029794135018345024,
      "loss": 0.3995,
      "step": 79670
    },
    {
      "epoch": 106.24,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002979408312792241,
      "loss": 0.3852,
      "step": 79680
    },
    {
      "epoch": 106.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029794031231006064,
      "loss": 0.3883,
      "step": 79690
    },
    {
      "epoch": 106.26666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002979397932759599,
      "loss": 0.3904,
      "step": 79700
    },
    {
      "epoch": 106.28,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002979392741769222,
      "loss": 0.4197,
      "step": 79710
    },
    {
      "epoch": 106.29333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029793875501294787,
      "loss": 0.3761,
      "step": 79720
    },
    {
      "epoch": 106.30666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002979382357840371,
      "loss": 0.3986,
      "step": 79730
    },
    {
      "epoch": 106.32,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029793771649018995,
      "loss": 0.4006,
      "step": 79740
    },
    {
      "epoch": 106.33333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029793719713140686,
      "loss": 0.405,
      "step": 79750
    },
    {
      "epoch": 106.34666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029793667770768793,
      "loss": 0.3953,
      "step": 79760
    },
    {
      "epoch": 106.36,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029793615821903347,
      "loss": 0.3951,
      "step": 79770
    },
    {
      "epoch": 106.37333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029793563866544365,
      "loss": 0.3968,
      "step": 79780
    },
    {
      "epoch": 106.38666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002979351190469187,
      "loss": 0.389,
      "step": 79790
    },
    {
      "epoch": 106.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029793459936345885,
      "loss": 0.3964,
      "step": 79800
    },
    {
      "epoch": 106.41333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029793407961506435,
      "loss": 0.401,
      "step": 79810
    },
    {
      "epoch": 106.42666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002979335598017354,
      "loss": 0.4026,
      "step": 79820
    },
    {
      "epoch": 106.44,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002979330399234723,
      "loss": 0.4134,
      "step": 79830
    },
    {
      "epoch": 106.45333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002979325199802752,
      "loss": 0.4026,
      "step": 79840
    },
    {
      "epoch": 106.46666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029793199997214435,
      "loss": 0.412,
      "step": 79850
    },
    {
      "epoch": 106.48,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029793147989908,
      "loss": 0.3929,
      "step": 79860
    },
    {
      "epoch": 106.49333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029793095976108236,
      "loss": 0.4056,
      "step": 79870
    },
    {
      "epoch": 106.50666666666666,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002979304395581516,
      "loss": 0.4023,
      "step": 79880
    },
    {
      "epoch": 106.52,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002979299192902881,
      "loss": 0.3939,
      "step": 79890
    },
    {
      "epoch": 106.53333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002979293989574919,
      "loss": 0.396,
      "step": 79900
    },
    {
      "epoch": 106.54666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002979288785597634,
      "loss": 0.3982,
      "step": 79910
    },
    {
      "epoch": 106.56,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002979283580971027,
      "loss": 0.3922,
      "step": 79920
    },
    {
      "epoch": 106.57333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002979278375695101,
      "loss": 0.3955,
      "step": 79930
    },
    {
      "epoch": 106.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002979273169769858,
      "loss": 0.3854,
      "step": 79940
    },
    {
      "epoch": 106.6,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029792679631953007,
      "loss": 0.3875,
      "step": 79950
    },
    {
      "epoch": 106.61333333333333,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002979262755971431,
      "loss": 0.3753,
      "step": 79960
    },
    {
      "epoch": 106.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002979257548098251,
      "loss": 0.3815,
      "step": 79970
    },
    {
      "epoch": 106.64,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029792523395757634,
      "loss": 0.3942,
      "step": 79980
    },
    {
      "epoch": 106.65333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000297924713040397,
      "loss": 0.403,
      "step": 79990
    },
    {
      "epoch": 106.66666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002979241920582874,
      "loss": 0.3904,
      "step": 80000
    },
    {
      "epoch": 106.68,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002979236710112476,
      "loss": 0.3826,
      "step": 80010
    },
    {
      "epoch": 106.69333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.000297923149899278,
      "loss": 0.3925,
      "step": 80020
    },
    {
      "epoch": 106.70666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002979226287223788,
      "loss": 0.3844,
      "step": 80030
    },
    {
      "epoch": 106.72,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002979221074805502,
      "loss": 0.4064,
      "step": 80040
    },
    {
      "epoch": 106.73333333333333,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002979215861737924,
      "loss": 0.4006,
      "step": 80050
    },
    {
      "epoch": 106.74666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002979210648021056,
      "loss": 0.4029,
      "step": 80060
    },
    {
      "epoch": 106.76,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029792054336549016,
      "loss": 0.4159,
      "step": 80070
    },
    {
      "epoch": 106.77333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029792002186394617,
      "loss": 0.403,
      "step": 80080
    },
    {
      "epoch": 106.78666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029791950029747397,
      "loss": 0.4041,
      "step": 80090
    },
    {
      "epoch": 106.8,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002979189786660737,
      "loss": 0.4026,
      "step": 80100
    },
    {
      "epoch": 106.81333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029791845696974567,
      "loss": 0.3757,
      "step": 80110
    },
    {
      "epoch": 106.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029791793520849005,
      "loss": 0.3858,
      "step": 80120
    },
    {
      "epoch": 106.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002979174133823071,
      "loss": 0.3969,
      "step": 80130
    },
    {
      "epoch": 106.85333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029791689149119696,
      "loss": 0.3928,
      "step": 80140
    },
    {
      "epoch": 106.86666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029791636953516,
      "loss": 0.3968,
      "step": 80150
    },
    {
      "epoch": 106.88,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002979158475141964,
      "loss": 0.378,
      "step": 80160
    },
    {
      "epoch": 106.89333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002979153254283063,
      "loss": 0.3896,
      "step": 80170
    },
    {
      "epoch": 106.90666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002979148032774901,
      "loss": 0.3951,
      "step": 80180
    },
    {
      "epoch": 106.92,
      "grad_norm": 0.375,
      "learning_rate": 0.00029791428106174786,
      "loss": 0.3981,
      "step": 80190
    },
    {
      "epoch": 106.93333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029791375878107987,
      "loss": 0.3915,
      "step": 80200
    },
    {
      "epoch": 106.94666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002979132364354864,
      "loss": 0.392,
      "step": 80210
    },
    {
      "epoch": 106.96,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029791271402496763,
      "loss": 0.3907,
      "step": 80220
    },
    {
      "epoch": 106.97333333333333,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0002979121915495238,
      "loss": 0.4156,
      "step": 80230
    },
    {
      "epoch": 106.98666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029791166900915514,
      "loss": 0.3891,
      "step": 80240
    },
    {
      "epoch": 107.0,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029791114640386195,
      "loss": 0.3847,
      "step": 80250
    },
    {
      "epoch": 107.0,
      "eval_loss": 0.4279867112636566,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8638,
      "eval_samples_per_second": 1.622,
      "eval_steps_per_second": 0.101,
      "step": 80250
    },
    {
      "epoch": 107.01333333333334,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029791062373364435,
      "loss": 0.402,
      "step": 80260
    },
    {
      "epoch": 107.02666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002979101009985026,
      "loss": 0.4151,
      "step": 80270
    },
    {
      "epoch": 107.04,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000297909578198437,
      "loss": 0.4269,
      "step": 80280
    },
    {
      "epoch": 107.05333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029790905533344763,
      "loss": 0.4125,
      "step": 80290
    },
    {
      "epoch": 107.06666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029790853240353494,
      "loss": 0.4001,
      "step": 80300
    },
    {
      "epoch": 107.08,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029790800940869897,
      "loss": 0.4039,
      "step": 80310
    },
    {
      "epoch": 107.09333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029790748634894,
      "loss": 0.4051,
      "step": 80320
    },
    {
      "epoch": 107.10666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029790696322425824,
      "loss": 0.3929,
      "step": 80330
    },
    {
      "epoch": 107.12,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029790644003465397,
      "loss": 0.3974,
      "step": 80340
    },
    {
      "epoch": 107.13333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029790591678012746,
      "loss": 0.3884,
      "step": 80350
    },
    {
      "epoch": 107.14666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002979053934606788,
      "loss": 0.4081,
      "step": 80360
    },
    {
      "epoch": 107.16,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029790487007630835,
      "loss": 0.4015,
      "step": 80370
    },
    {
      "epoch": 107.17333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002979043466270163,
      "loss": 0.3967,
      "step": 80380
    },
    {
      "epoch": 107.18666666666667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002979038231128028,
      "loss": 0.3948,
      "step": 80390
    },
    {
      "epoch": 107.2,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029790329953366824,
      "loss": 0.3879,
      "step": 80400
    },
    {
      "epoch": 107.21333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002979027758896127,
      "loss": 0.3882,
      "step": 80410
    },
    {
      "epoch": 107.22666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002979022521806365,
      "loss": 0.3997,
      "step": 80420
    },
    {
      "epoch": 107.24,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002979017284067398,
      "loss": 0.3846,
      "step": 80430
    },
    {
      "epoch": 107.25333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002979012045679229,
      "loss": 0.3877,
      "step": 80440
    },
    {
      "epoch": 107.26666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000297900680664186,
      "loss": 0.39,
      "step": 80450
    },
    {
      "epoch": 107.28,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029790015669552936,
      "loss": 0.4195,
      "step": 80460
    },
    {
      "epoch": 107.29333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029789963266195317,
      "loss": 0.375,
      "step": 80470
    },
    {
      "epoch": 107.30666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002978991085634576,
      "loss": 0.3986,
      "step": 80480
    },
    {
      "epoch": 107.32,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000297898584400043,
      "loss": 0.4011,
      "step": 80490
    },
    {
      "epoch": 107.33333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002978980601717095,
      "loss": 0.4046,
      "step": 80500
    },
    {
      "epoch": 107.34666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002978975358784575,
      "loss": 0.3957,
      "step": 80510
    },
    {
      "epoch": 107.36,
      "grad_norm": 0.416015625,
      "learning_rate": 0.000297897011520287,
      "loss": 0.3955,
      "step": 80520
    },
    {
      "epoch": 107.37333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002978964870971984,
      "loss": 0.3973,
      "step": 80530
    },
    {
      "epoch": 107.38666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029789596260919185,
      "loss": 0.388,
      "step": 80540
    },
    {
      "epoch": 107.4,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002978954380562676,
      "loss": 0.3967,
      "step": 80550
    },
    {
      "epoch": 107.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029789491343842585,
      "loss": 0.4015,
      "step": 80560
    },
    {
      "epoch": 107.42666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002978943887556669,
      "loss": 0.402,
      "step": 80570
    },
    {
      "epoch": 107.44,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002978938640079909,
      "loss": 0.4126,
      "step": 80580
    },
    {
      "epoch": 107.45333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029789333919539814,
      "loss": 0.4033,
      "step": 80590
    },
    {
      "epoch": 107.46666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029789281431788885,
      "loss": 0.4108,
      "step": 80600
    },
    {
      "epoch": 107.48,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002978922893754632,
      "loss": 0.3928,
      "step": 80610
    },
    {
      "epoch": 107.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029789176436812153,
      "loss": 0.4048,
      "step": 80620
    },
    {
      "epoch": 107.50666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029789123929586394,
      "loss": 0.4018,
      "step": 80630
    },
    {
      "epoch": 107.52,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029789071415869077,
      "loss": 0.3932,
      "step": 80640
    },
    {
      "epoch": 107.53333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002978901889566022,
      "loss": 0.3952,
      "step": 80650
    },
    {
      "epoch": 107.54666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002978896636895984,
      "loss": 0.3984,
      "step": 80660
    },
    {
      "epoch": 107.56,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002978891383576797,
      "loss": 0.3928,
      "step": 80670
    },
    {
      "epoch": 107.57333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029788861296084636,
      "loss": 0.3957,
      "step": 80680
    },
    {
      "epoch": 107.58666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029788808749909847,
      "loss": 0.3842,
      "step": 80690
    },
    {
      "epoch": 107.6,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029788756197243635,
      "loss": 0.3862,
      "step": 80700
    },
    {
      "epoch": 107.61333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029788703638086023,
      "loss": 0.3763,
      "step": 80710
    },
    {
      "epoch": 107.62666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002978865107243703,
      "loss": 0.3808,
      "step": 80720
    },
    {
      "epoch": 107.64,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002978859850029669,
      "loss": 0.3944,
      "step": 80730
    },
    {
      "epoch": 107.65333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029788545921665007,
      "loss": 0.4029,
      "step": 80740
    },
    {
      "epoch": 107.66666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029788493336542027,
      "loss": 0.3912,
      "step": 80750
    },
    {
      "epoch": 107.68,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002978844074492775,
      "loss": 0.3826,
      "step": 80760
    },
    {
      "epoch": 107.69333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002978838814682222,
      "loss": 0.3915,
      "step": 80770
    },
    {
      "epoch": 107.70666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029788335542225443,
      "loss": 0.3838,
      "step": 80780
    },
    {
      "epoch": 107.72,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029788282931137453,
      "loss": 0.4069,
      "step": 80790
    },
    {
      "epoch": 107.73333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002978823031355827,
      "loss": 0.4,
      "step": 80800
    },
    {
      "epoch": 107.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002978817768948791,
      "loss": 0.4032,
      "step": 80810
    },
    {
      "epoch": 107.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002978812505892641,
      "loss": 0.4159,
      "step": 80820
    },
    {
      "epoch": 107.77333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002978807242187378,
      "loss": 0.4033,
      "step": 80830
    },
    {
      "epoch": 107.78666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002978801977833005,
      "loss": 0.4037,
      "step": 80840
    },
    {
      "epoch": 107.8,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002978796712829525,
      "loss": 0.4016,
      "step": 80850
    },
    {
      "epoch": 107.81333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029787914471769385,
      "loss": 0.3755,
      "step": 80860
    },
    {
      "epoch": 107.82666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029787861808752497,
      "loss": 0.3856,
      "step": 80870
    },
    {
      "epoch": 107.84,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002978780913924459,
      "loss": 0.3975,
      "step": 80880
    },
    {
      "epoch": 107.85333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029787756463245705,
      "loss": 0.3922,
      "step": 80890
    },
    {
      "epoch": 107.86666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029787703780755856,
      "loss": 0.3963,
      "step": 80900
    },
    {
      "epoch": 107.88,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002978765109177507,
      "loss": 0.3776,
      "step": 80910
    },
    {
      "epoch": 107.89333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029787598396303363,
      "loss": 0.3893,
      "step": 80920
    },
    {
      "epoch": 107.90666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029787545694340766,
      "loss": 0.3957,
      "step": 80930
    },
    {
      "epoch": 107.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029787492985887295,
      "loss": 0.3983,
      "step": 80940
    },
    {
      "epoch": 107.93333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002978744027094298,
      "loss": 0.3917,
      "step": 80950
    },
    {
      "epoch": 107.94666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029787387549507844,
      "loss": 0.3914,
      "step": 80960
    },
    {
      "epoch": 107.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029787334821581907,
      "loss": 0.3905,
      "step": 80970
    },
    {
      "epoch": 107.97333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002978728208716519,
      "loss": 0.4158,
      "step": 80980
    },
    {
      "epoch": 107.98666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002978722934625772,
      "loss": 0.3891,
      "step": 80990
    },
    {
      "epoch": 108.0,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002978717659885952,
      "loss": 0.3842,
      "step": 81000
    },
    {
      "epoch": 108.0,
      "eval_loss": 0.42724087834358215,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7432,
      "eval_samples_per_second": 1.642,
      "eval_steps_per_second": 0.103,
      "step": 81000
    },
    {
      "epoch": 108.01333333333334,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002978712384497061,
      "loss": 0.4022,
      "step": 81010
    },
    {
      "epoch": 108.02666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002978707108459101,
      "loss": 0.4144,
      "step": 81020
    },
    {
      "epoch": 108.04,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002978701831772076,
      "loss": 0.4265,
      "step": 81030
    },
    {
      "epoch": 108.05333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002978696554435987,
      "loss": 0.4131,
      "step": 81040
    },
    {
      "epoch": 108.06666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029786912764508355,
      "loss": 0.3994,
      "step": 81050
    },
    {
      "epoch": 108.08,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029786859978166256,
      "loss": 0.4033,
      "step": 81060
    },
    {
      "epoch": 108.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029786807185333585,
      "loss": 0.4048,
      "step": 81070
    },
    {
      "epoch": 108.10666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002978675438601037,
      "loss": 0.3932,
      "step": 81080
    },
    {
      "epoch": 108.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029786701580196634,
      "loss": 0.3975,
      "step": 81090
    },
    {
      "epoch": 108.13333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.000297866487678924,
      "loss": 0.3891,
      "step": 81100
    },
    {
      "epoch": 108.14666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002978659594909768,
      "loss": 0.4081,
      "step": 81110
    },
    {
      "epoch": 108.16,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029786543123812515,
      "loss": 0.4014,
      "step": 81120
    },
    {
      "epoch": 108.17333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002978649029203692,
      "loss": 0.3958,
      "step": 81130
    },
    {
      "epoch": 108.18666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002978643745377092,
      "loss": 0.3952,
      "step": 81140
    },
    {
      "epoch": 108.2,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029786384609014526,
      "loss": 0.3873,
      "step": 81150
    },
    {
      "epoch": 108.21333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002978633175776778,
      "loss": 0.3875,
      "step": 81160
    },
    {
      "epoch": 108.22666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029786278900030696,
      "loss": 0.4002,
      "step": 81170
    },
    {
      "epoch": 108.24,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029786226035803296,
      "loss": 0.3854,
      "step": 81180
    },
    {
      "epoch": 108.25333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002978617316508561,
      "loss": 0.3868,
      "step": 81190
    },
    {
      "epoch": 108.26666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002978612028787765,
      "loss": 0.3885,
      "step": 81200
    },
    {
      "epoch": 108.28,
      "grad_norm": 0.375,
      "learning_rate": 0.00029786067404179455,
      "loss": 0.4194,
      "step": 81210
    },
    {
      "epoch": 108.29333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002978601451399103,
      "loss": 0.3758,
      "step": 81220
    },
    {
      "epoch": 108.30666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002978596161731241,
      "loss": 0.3993,
      "step": 81230
    },
    {
      "epoch": 108.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002978590871414362,
      "loss": 0.401,
      "step": 81240
    },
    {
      "epoch": 108.33333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029785855804484674,
      "loss": 0.4039,
      "step": 81250
    },
    {
      "epoch": 108.34666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000297858028883356,
      "loss": 0.3942,
      "step": 81260
    },
    {
      "epoch": 108.36,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002978574996569642,
      "loss": 0.3953,
      "step": 81270
    },
    {
      "epoch": 108.37333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002978569703656716,
      "loss": 0.3966,
      "step": 81280
    },
    {
      "epoch": 108.38666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029785644100947844,
      "loss": 0.3887,
      "step": 81290
    },
    {
      "epoch": 108.4,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002978559115883849,
      "loss": 0.3961,
      "step": 81300
    },
    {
      "epoch": 108.41333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029785538210239126,
      "loss": 0.4009,
      "step": 81310
    },
    {
      "epoch": 108.42666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002978548525514977,
      "loss": 0.4018,
      "step": 81320
    },
    {
      "epoch": 108.44,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002978543229357045,
      "loss": 0.4141,
      "step": 81330
    },
    {
      "epoch": 108.45333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029785379325501186,
      "loss": 0.4028,
      "step": 81340
    },
    {
      "epoch": 108.46666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029785326350942006,
      "loss": 0.4115,
      "step": 81350
    },
    {
      "epoch": 108.48,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002978527336989293,
      "loss": 0.3929,
      "step": 81360
    },
    {
      "epoch": 108.49333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002978522038235398,
      "loss": 0.4048,
      "step": 81370
    },
    {
      "epoch": 108.50666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029785167388325184,
      "loss": 0.4028,
      "step": 81380
    },
    {
      "epoch": 108.52,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029785114387806557,
      "loss": 0.3928,
      "step": 81390
    },
    {
      "epoch": 108.53333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029785061380798133,
      "loss": 0.396,
      "step": 81400
    },
    {
      "epoch": 108.54666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029785008367299925,
      "loss": 0.3982,
      "step": 81410
    },
    {
      "epoch": 108.56,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0002978495534731196,
      "loss": 0.3912,
      "step": 81420
    },
    {
      "epoch": 108.57333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002978490232083427,
      "loss": 0.3961,
      "step": 81430
    },
    {
      "epoch": 108.58666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002978484928786686,
      "loss": 0.3844,
      "step": 81440
    },
    {
      "epoch": 108.6,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002978479624840977,
      "loss": 0.3855,
      "step": 81450
    },
    {
      "epoch": 108.61333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002978474320246301,
      "loss": 0.3769,
      "step": 81460
    },
    {
      "epoch": 108.62666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002978469015002662,
      "loss": 0.3813,
      "step": 81470
    },
    {
      "epoch": 108.64,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002978463709110061,
      "loss": 0.393,
      "step": 81480
    },
    {
      "epoch": 108.65333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029784584025685,
      "loss": 0.4034,
      "step": 81490
    },
    {
      "epoch": 108.66666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002978453095377983,
      "loss": 0.3899,
      "step": 81500
    },
    {
      "epoch": 108.68,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029784477875385114,
      "loss": 0.3816,
      "step": 81510
    },
    {
      "epoch": 108.69333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029784424790500866,
      "loss": 0.3903,
      "step": 81520
    },
    {
      "epoch": 108.70666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002978437169912712,
      "loss": 0.3844,
      "step": 81530
    },
    {
      "epoch": 108.72,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000297843186012639,
      "loss": 0.4067,
      "step": 81540
    },
    {
      "epoch": 108.73333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002978426549691123,
      "loss": 0.4006,
      "step": 81550
    },
    {
      "epoch": 108.74666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002978421238606912,
      "loss": 0.4034,
      "step": 81560
    },
    {
      "epoch": 108.76,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029784159268737614,
      "loss": 0.4168,
      "step": 81570
    },
    {
      "epoch": 108.77333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002978410614491672,
      "loss": 0.4034,
      "step": 81580
    },
    {
      "epoch": 108.78666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029784053014606464,
      "loss": 0.4035,
      "step": 81590
    },
    {
      "epoch": 108.8,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002978399987780687,
      "loss": 0.4024,
      "step": 81600
    },
    {
      "epoch": 108.81333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029783946734517964,
      "loss": 0.3757,
      "step": 81610
    },
    {
      "epoch": 108.82666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002978389358473977,
      "loss": 0.3857,
      "step": 81620
    },
    {
      "epoch": 108.84,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002978384042847231,
      "loss": 0.3971,
      "step": 81630
    },
    {
      "epoch": 108.85333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002978378726571561,
      "loss": 0.3926,
      "step": 81640
    },
    {
      "epoch": 108.86666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002978373409646968,
      "loss": 0.3975,
      "step": 81650
    },
    {
      "epoch": 108.88,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002978368092073456,
      "loss": 0.3774,
      "step": 81660
    },
    {
      "epoch": 108.89333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002978362773851026,
      "loss": 0.389,
      "step": 81670
    },
    {
      "epoch": 108.90666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029783574549796814,
      "loss": 0.3967,
      "step": 81680
    },
    {
      "epoch": 108.92,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002978352135459424,
      "loss": 0.3984,
      "step": 81690
    },
    {
      "epoch": 108.93333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002978346815290257,
      "loss": 0.3913,
      "step": 81700
    },
    {
      "epoch": 108.94666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029783414944721813,
      "loss": 0.393,
      "step": 81710
    },
    {
      "epoch": 108.96,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029783361730051995,
      "loss": 0.3901,
      "step": 81720
    },
    {
      "epoch": 108.97333333333333,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029783308508893146,
      "loss": 0.4157,
      "step": 81730
    },
    {
      "epoch": 108.98666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002978325528124529,
      "loss": 0.3889,
      "step": 81740
    },
    {
      "epoch": 109.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002978320204710845,
      "loss": 0.3835,
      "step": 81750
    },
    {
      "epoch": 109.0,
      "eval_loss": 0.4269210398197174,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9391,
      "eval_samples_per_second": 1.61,
      "eval_steps_per_second": 0.101,
      "step": 81750
    },
    {
      "epoch": 109.01333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029783148806482643,
      "loss": 0.401,
      "step": 81760
    },
    {
      "epoch": 109.02666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002978309555936789,
      "loss": 0.4143,
      "step": 81770
    },
    {
      "epoch": 109.04,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002978304230576423,
      "loss": 0.4274,
      "step": 81780
    },
    {
      "epoch": 109.05333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029782989045671677,
      "loss": 0.4135,
      "step": 81790
    },
    {
      "epoch": 109.06666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029782935779090253,
      "loss": 0.4008,
      "step": 81800
    },
    {
      "epoch": 109.08,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002978288250601998,
      "loss": 0.4031,
      "step": 81810
    },
    {
      "epoch": 109.09333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002978282922646088,
      "loss": 0.404,
      "step": 81820
    },
    {
      "epoch": 109.10666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002978277594041299,
      "loss": 0.3923,
      "step": 81830
    },
    {
      "epoch": 109.12,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002978272264787631,
      "loss": 0.3979,
      "step": 81840
    },
    {
      "epoch": 109.13333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002978266934885089,
      "loss": 0.3889,
      "step": 81850
    },
    {
      "epoch": 109.14666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002978261604333674,
      "loss": 0.4074,
      "step": 81860
    },
    {
      "epoch": 109.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002978256273133388,
      "loss": 0.4008,
      "step": 81870
    },
    {
      "epoch": 109.17333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029782509412842336,
      "loss": 0.3954,
      "step": 81880
    },
    {
      "epoch": 109.18666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002978245608786213,
      "loss": 0.3958,
      "step": 81890
    },
    {
      "epoch": 109.2,
      "grad_norm": 0.345703125,
      "learning_rate": 0.000297824027563933,
      "loss": 0.3871,
      "step": 81900
    },
    {
      "epoch": 109.21333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002978234941843585,
      "loss": 0.3879,
      "step": 81910
    },
    {
      "epoch": 109.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029782296073989806,
      "loss": 0.3995,
      "step": 81920
    },
    {
      "epoch": 109.24,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029782242723055204,
      "loss": 0.3848,
      "step": 81930
    },
    {
      "epoch": 109.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002978218936563206,
      "loss": 0.3876,
      "step": 81940
    },
    {
      "epoch": 109.26666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029782136001720385,
      "loss": 0.3896,
      "step": 81950
    },
    {
      "epoch": 109.28,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002978208263132023,
      "loss": 0.4189,
      "step": 81960
    },
    {
      "epoch": 109.29333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029782029254431594,
      "loss": 0.3763,
      "step": 81970
    },
    {
      "epoch": 109.30666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029781975871054513,
      "loss": 0.3993,
      "step": 81980
    },
    {
      "epoch": 109.32,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029781922481189,
      "loss": 0.4017,
      "step": 81990
    },
    {
      "epoch": 109.33333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.000297818690848351,
      "loss": 0.4046,
      "step": 82000
    },
    {
      "epoch": 109.34666666666666,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002978181568199281,
      "loss": 0.3949,
      "step": 82010
    },
    {
      "epoch": 109.36,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002978176227266217,
      "loss": 0.3951,
      "step": 82020
    },
    {
      "epoch": 109.37333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029781708856843196,
      "loss": 0.3958,
      "step": 82030
    },
    {
      "epoch": 109.38666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002978165543453592,
      "loss": 0.3884,
      "step": 82040
    },
    {
      "epoch": 109.4,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002978160200574035,
      "loss": 0.3972,
      "step": 82050
    },
    {
      "epoch": 109.41333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029781548570456527,
      "loss": 0.4008,
      "step": 82060
    },
    {
      "epoch": 109.42666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029781495128684463,
      "loss": 0.4023,
      "step": 82070
    },
    {
      "epoch": 109.44,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002978144168042418,
      "loss": 0.4137,
      "step": 82080
    },
    {
      "epoch": 109.45333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029781388225675714,
      "loss": 0.4021,
      "step": 82090
    },
    {
      "epoch": 109.46666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029781334764439083,
      "loss": 0.4117,
      "step": 82100
    },
    {
      "epoch": 109.48,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029781281296714304,
      "loss": 0.3917,
      "step": 82110
    },
    {
      "epoch": 109.49333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029781227822501405,
      "loss": 0.4049,
      "step": 82120
    },
    {
      "epoch": 109.50666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029781174341800406,
      "loss": 0.4016,
      "step": 82130
    },
    {
      "epoch": 109.52,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002978112085461134,
      "loss": 0.392,
      "step": 82140
    },
    {
      "epoch": 109.53333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002978106736093422,
      "loss": 0.3953,
      "step": 82150
    },
    {
      "epoch": 109.54666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002978101386076907,
      "loss": 0.398,
      "step": 82160
    },
    {
      "epoch": 109.56,
      "grad_norm": 0.3125,
      "learning_rate": 0.0002978096035411593,
      "loss": 0.3924,
      "step": 82170
    },
    {
      "epoch": 109.57333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029780906840974803,
      "loss": 0.3945,
      "step": 82180
    },
    {
      "epoch": 109.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002978085332134572,
      "loss": 0.3849,
      "step": 82190
    },
    {
      "epoch": 109.6,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000297807997952287,
      "loss": 0.3859,
      "step": 82200
    },
    {
      "epoch": 109.61333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002978074626262378,
      "loss": 0.3758,
      "step": 82210
    },
    {
      "epoch": 109.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029780692723530965,
      "loss": 0.3798,
      "step": 82220
    },
    {
      "epoch": 109.64,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029780639177950295,
      "loss": 0.3938,
      "step": 82230
    },
    {
      "epoch": 109.65333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029780585625881786,
      "loss": 0.402,
      "step": 82240
    },
    {
      "epoch": 109.66666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002978053206732546,
      "loss": 0.3899,
      "step": 82250
    },
    {
      "epoch": 109.68,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029780478502281345,
      "loss": 0.3819,
      "step": 82260
    },
    {
      "epoch": 109.69333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002978042493074946,
      "loss": 0.3911,
      "step": 82270
    },
    {
      "epoch": 109.70666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029780371352729836,
      "loss": 0.3848,
      "step": 82280
    },
    {
      "epoch": 109.72,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029780317768222486,
      "loss": 0.4061,
      "step": 82290
    },
    {
      "epoch": 109.73333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002978026417722744,
      "loss": 0.4006,
      "step": 82300
    },
    {
      "epoch": 109.74666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029780210579744714,
      "loss": 0.4035,
      "step": 82310
    },
    {
      "epoch": 109.76,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029780156975774347,
      "loss": 0.4158,
      "step": 82320
    },
    {
      "epoch": 109.77333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002978010336531635,
      "loss": 0.4029,
      "step": 82330
    },
    {
      "epoch": 109.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002978004974837075,
      "loss": 0.403,
      "step": 82340
    },
    {
      "epoch": 109.8,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002977999612493757,
      "loss": 0.4016,
      "step": 82350
    },
    {
      "epoch": 109.81333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002977994249501684,
      "loss": 0.3762,
      "step": 82360
    },
    {
      "epoch": 109.82666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002977988885860857,
      "loss": 0.3854,
      "step": 82370
    },
    {
      "epoch": 109.84,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029779835215712795,
      "loss": 0.3963,
      "step": 82380
    },
    {
      "epoch": 109.85333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029779781566329524,
      "loss": 0.3918,
      "step": 82390
    },
    {
      "epoch": 109.86666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029779727910458806,
      "loss": 0.397,
      "step": 82400
    },
    {
      "epoch": 109.88,
      "grad_norm": 0.375,
      "learning_rate": 0.0002977967424810064,
      "loss": 0.3774,
      "step": 82410
    },
    {
      "epoch": 109.89333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002977962057925506,
      "loss": 0.3883,
      "step": 82420
    },
    {
      "epoch": 109.90666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029779566903922095,
      "loss": 0.3958,
      "step": 82430
    },
    {
      "epoch": 109.92,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029779513222101756,
      "loss": 0.3979,
      "step": 82440
    },
    {
      "epoch": 109.93333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029779459533794077,
      "loss": 0.3917,
      "step": 82450
    },
    {
      "epoch": 109.94666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029779405838999075,
      "loss": 0.3922,
      "step": 82460
    },
    {
      "epoch": 109.96,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029779352137716776,
      "loss": 0.39,
      "step": 82470
    },
    {
      "epoch": 109.97333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000297792984299472,
      "loss": 0.4152,
      "step": 82480
    },
    {
      "epoch": 109.98666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002977924471569038,
      "loss": 0.3883,
      "step": 82490
    },
    {
      "epoch": 110.0,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002977919099494633,
      "loss": 0.3842,
      "step": 82500
    },
    {
      "epoch": 110.0,
      "eval_loss": 0.42733293771743774,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8538,
      "eval_samples_per_second": 1.624,
      "eval_steps_per_second": 0.101,
      "step": 82500
    },
    {
      "epoch": 110.01333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029779137267715085,
      "loss": 0.4014,
      "step": 82510
    },
    {
      "epoch": 110.02666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029779083533996656,
      "loss": 0.4143,
      "step": 82520
    },
    {
      "epoch": 110.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002977902979379107,
      "loss": 0.4263,
      "step": 82530
    },
    {
      "epoch": 110.05333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002977897604709835,
      "loss": 0.4131,
      "step": 82540
    },
    {
      "epoch": 110.06666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029778922293918525,
      "loss": 0.3997,
      "step": 82550
    },
    {
      "epoch": 110.08,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029778868534251614,
      "loss": 0.4034,
      "step": 82560
    },
    {
      "epoch": 110.09333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029778814768097645,
      "loss": 0.4039,
      "step": 82570
    },
    {
      "epoch": 110.10666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002977876099545664,
      "loss": 0.3924,
      "step": 82580
    },
    {
      "epoch": 110.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029778707216328613,
      "loss": 0.3968,
      "step": 82590
    },
    {
      "epoch": 110.13333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000297786534307136,
      "loss": 0.3891,
      "step": 82600
    },
    {
      "epoch": 110.14666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002977859963861162,
      "loss": 0.408,
      "step": 82610
    },
    {
      "epoch": 110.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029778545840022697,
      "loss": 0.4018,
      "step": 82620
    },
    {
      "epoch": 110.17333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029778492034946856,
      "loss": 0.3962,
      "step": 82630
    },
    {
      "epoch": 110.18666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029778438223384114,
      "loss": 0.3947,
      "step": 82640
    },
    {
      "epoch": 110.2,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029778384405334504,
      "loss": 0.3867,
      "step": 82650
    },
    {
      "epoch": 110.21333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002977833058079805,
      "loss": 0.3887,
      "step": 82660
    },
    {
      "epoch": 110.22666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029778276749774766,
      "loss": 0.3995,
      "step": 82670
    },
    {
      "epoch": 110.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029778222912264676,
      "loss": 0.3841,
      "step": 82680
    },
    {
      "epoch": 110.25333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029778169068267815,
      "loss": 0.3863,
      "step": 82690
    },
    {
      "epoch": 110.26666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029778115217784194,
      "loss": 0.3883,
      "step": 82700
    },
    {
      "epoch": 110.28,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029778061360813846,
      "loss": 0.4188,
      "step": 82710
    },
    {
      "epoch": 110.29333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002977800749735679,
      "loss": 0.3757,
      "step": 82720
    },
    {
      "epoch": 110.30666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002977795362741306,
      "loss": 0.3997,
      "step": 82730
    },
    {
      "epoch": 110.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002977789975098266,
      "loss": 0.4006,
      "step": 82740
    },
    {
      "epoch": 110.33333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029777845868065624,
      "loss": 0.4046,
      "step": 82750
    },
    {
      "epoch": 110.34666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002977779197866198,
      "loss": 0.3948,
      "step": 82760
    },
    {
      "epoch": 110.36,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029777738082771744,
      "loss": 0.395,
      "step": 82770
    },
    {
      "epoch": 110.37333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002977768418039495,
      "loss": 0.3957,
      "step": 82780
    },
    {
      "epoch": 110.38666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029777630271531606,
      "loss": 0.3897,
      "step": 82790
    },
    {
      "epoch": 110.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029777576356181747,
      "loss": 0.3962,
      "step": 82800
    },
    {
      "epoch": 110.41333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029777522434345393,
      "loss": 0.4009,
      "step": 82810
    },
    {
      "epoch": 110.42666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002977746850602257,
      "loss": 0.402,
      "step": 82820
    },
    {
      "epoch": 110.44,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029777414571213306,
      "loss": 0.4133,
      "step": 82830
    },
    {
      "epoch": 110.45333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002977736062991761,
      "loss": 0.4019,
      "step": 82840
    },
    {
      "epoch": 110.46666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029777306682135524,
      "loss": 0.4114,
      "step": 82850
    },
    {
      "epoch": 110.48,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029777252727867056,
      "loss": 0.3935,
      "step": 82860
    },
    {
      "epoch": 110.49333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029777198767112236,
      "loss": 0.4044,
      "step": 82870
    },
    {
      "epoch": 110.50666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002977714479987109,
      "loss": 0.4031,
      "step": 82880
    },
    {
      "epoch": 110.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002977709082614364,
      "loss": 0.3926,
      "step": 82890
    },
    {
      "epoch": 110.53333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029777036845929903,
      "loss": 0.3962,
      "step": 82900
    },
    {
      "epoch": 110.54666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002977698285922992,
      "loss": 0.398,
      "step": 82910
    },
    {
      "epoch": 110.56,
      "grad_norm": 0.375,
      "learning_rate": 0.00029776928866043694,
      "loss": 0.3917,
      "step": 82920
    },
    {
      "epoch": 110.57333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029776874866371263,
      "loss": 0.3959,
      "step": 82930
    },
    {
      "epoch": 110.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029776820860212647,
      "loss": 0.384,
      "step": 82940
    },
    {
      "epoch": 110.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002977676684756786,
      "loss": 0.3858,
      "step": 82950
    },
    {
      "epoch": 110.61333333333333,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00029776712828436945,
      "loss": 0.3748,
      "step": 82960
    },
    {
      "epoch": 110.62666666666667,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0002977665880281991,
      "loss": 0.38,
      "step": 82970
    },
    {
      "epoch": 110.64,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002977660477071678,
      "loss": 0.3939,
      "step": 82980
    },
    {
      "epoch": 110.65333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002977655073212759,
      "loss": 0.4032,
      "step": 82990
    },
    {
      "epoch": 110.66666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029776496687052354,
      "loss": 0.3905,
      "step": 83000
    },
    {
      "epoch": 110.68,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029776442635491096,
      "loss": 0.381,
      "step": 83010
    },
    {
      "epoch": 110.69333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029776388577443843,
      "loss": 0.3919,
      "step": 83020
    },
    {
      "epoch": 110.70666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029776334512910616,
      "loss": 0.385,
      "step": 83030
    },
    {
      "epoch": 110.72,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029776280441891443,
      "loss": 0.4074,
      "step": 83040
    },
    {
      "epoch": 110.73333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029776226364386344,
      "loss": 0.4017,
      "step": 83050
    },
    {
      "epoch": 110.74666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002977617228039534,
      "loss": 0.4025,
      "step": 83060
    },
    {
      "epoch": 110.76,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029776118189918464,
      "loss": 0.4156,
      "step": 83070
    },
    {
      "epoch": 110.77333333333333,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002977606409295573,
      "loss": 0.4023,
      "step": 83080
    },
    {
      "epoch": 110.78666666666666,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0002977600998950717,
      "loss": 0.4042,
      "step": 83090
    },
    {
      "epoch": 110.8,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000297759558795728,
      "loss": 0.4011,
      "step": 83100
    },
    {
      "epoch": 110.81333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002977590176315264,
      "loss": 0.3743,
      "step": 83110
    },
    {
      "epoch": 110.82666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029775847640246735,
      "loss": 0.3839,
      "step": 83120
    },
    {
      "epoch": 110.84,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002977579351085509,
      "loss": 0.3965,
      "step": 83130
    },
    {
      "epoch": 110.85333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002977573937497773,
      "loss": 0.3926,
      "step": 83140
    },
    {
      "epoch": 110.86666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002977568523261469,
      "loss": 0.3968,
      "step": 83150
    },
    {
      "epoch": 110.88,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002977563108376598,
      "loss": 0.3781,
      "step": 83160
    },
    {
      "epoch": 110.89333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002977557692843163,
      "loss": 0.3884,
      "step": 83170
    },
    {
      "epoch": 110.90666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029775522766611667,
      "loss": 0.3958,
      "step": 83180
    },
    {
      "epoch": 110.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029775468598306105,
      "loss": 0.3979,
      "step": 83190
    },
    {
      "epoch": 110.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002977541442351498,
      "loss": 0.3907,
      "step": 83200
    },
    {
      "epoch": 110.94666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002977536024223831,
      "loss": 0.3926,
      "step": 83210
    },
    {
      "epoch": 110.96,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002977530605447612,
      "loss": 0.3898,
      "step": 83220
    },
    {
      "epoch": 110.97333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002977525186022843,
      "loss": 0.4146,
      "step": 83230
    },
    {
      "epoch": 110.98666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029775197659495265,
      "loss": 0.3886,
      "step": 83240
    },
    {
      "epoch": 111.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002977514345227665,
      "loss": 0.3848,
      "step": 83250
    },
    {
      "epoch": 111.0,
      "eval_loss": 0.4272749125957489,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1705,
      "eval_samples_per_second": 1.573,
      "eval_steps_per_second": 0.098,
      "step": 83250
    },
    {
      "epoch": 111.01333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029775089238572613,
      "loss": 0.4018,
      "step": 83260
    },
    {
      "epoch": 111.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002977503501838317,
      "loss": 0.4133,
      "step": 83270
    },
    {
      "epoch": 111.04,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029774980791708353,
      "loss": 0.4263,
      "step": 83280
    },
    {
      "epoch": 111.05333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029774926558548176,
      "loss": 0.4134,
      "step": 83290
    },
    {
      "epoch": 111.06666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002977487231890267,
      "loss": 0.3999,
      "step": 83300
    },
    {
      "epoch": 111.08,
      "grad_norm": 0.375,
      "learning_rate": 0.00029774818072771857,
      "loss": 0.4037,
      "step": 83310
    },
    {
      "epoch": 111.09333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002977476382015576,
      "loss": 0.4048,
      "step": 83320
    },
    {
      "epoch": 111.10666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029774709561054407,
      "loss": 0.3924,
      "step": 83330
    },
    {
      "epoch": 111.12,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029774655295467813,
      "loss": 0.3972,
      "step": 83340
    },
    {
      "epoch": 111.13333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002977460102339601,
      "loss": 0.3889,
      "step": 83350
    },
    {
      "epoch": 111.14666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002977454674483902,
      "loss": 0.4071,
      "step": 83360
    },
    {
      "epoch": 111.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002977449245979686,
      "loss": 0.401,
      "step": 83370
    },
    {
      "epoch": 111.17333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002977443816826957,
      "loss": 0.3955,
      "step": 83380
    },
    {
      "epoch": 111.18666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002977438387025716,
      "loss": 0.394,
      "step": 83390
    },
    {
      "epoch": 111.2,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029774329565759655,
      "loss": 0.3876,
      "step": 83400
    },
    {
      "epoch": 111.21333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002977427525477708,
      "loss": 0.3889,
      "step": 83410
    },
    {
      "epoch": 111.22666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029774220937309464,
      "loss": 0.399,
      "step": 83420
    },
    {
      "epoch": 111.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029774166613356825,
      "loss": 0.3849,
      "step": 83430
    },
    {
      "epoch": 111.25333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002977411228291919,
      "loss": 0.3868,
      "step": 83440
    },
    {
      "epoch": 111.26666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029774057945996575,
      "loss": 0.3885,
      "step": 83450
    },
    {
      "epoch": 111.28,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002977400360258902,
      "loss": 0.4191,
      "step": 83460
    },
    {
      "epoch": 111.29333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002977394925269654,
      "loss": 0.375,
      "step": 83470
    },
    {
      "epoch": 111.30666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002977389489631915,
      "loss": 0.3979,
      "step": 83480
    },
    {
      "epoch": 111.32,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029773840533456883,
      "loss": 0.4003,
      "step": 83490
    },
    {
      "epoch": 111.33333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002977378616410976,
      "loss": 0.4042,
      "step": 83500
    },
    {
      "epoch": 111.34666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029773731788277816,
      "loss": 0.3941,
      "step": 83510
    },
    {
      "epoch": 111.36,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002977367740596106,
      "loss": 0.3949,
      "step": 83520
    },
    {
      "epoch": 111.37333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029773623017159516,
      "loss": 0.3963,
      "step": 83530
    },
    {
      "epoch": 111.38666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002977356862187322,
      "loss": 0.3887,
      "step": 83540
    },
    {
      "epoch": 111.4,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029773514220102193,
      "loss": 0.395,
      "step": 83550
    },
    {
      "epoch": 111.41333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002977345981184645,
      "loss": 0.4003,
      "step": 83560
    },
    {
      "epoch": 111.42666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002977340539710602,
      "loss": 0.402,
      "step": 83570
    },
    {
      "epoch": 111.44,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002977335097588093,
      "loss": 0.4129,
      "step": 83580
    },
    {
      "epoch": 111.45333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029773296548171193,
      "loss": 0.4028,
      "step": 83590
    },
    {
      "epoch": 111.46666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029773242113976845,
      "loss": 0.4105,
      "step": 83600
    },
    {
      "epoch": 111.48,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002977318767329791,
      "loss": 0.3926,
      "step": 83610
    },
    {
      "epoch": 111.49333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000297731332261344,
      "loss": 0.404,
      "step": 83620
    },
    {
      "epoch": 111.50666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002977307877248635,
      "loss": 0.4023,
      "step": 83630
    },
    {
      "epoch": 111.52,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002977302431235378,
      "loss": 0.3931,
      "step": 83640
    },
    {
      "epoch": 111.53333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002977296984573672,
      "loss": 0.3957,
      "step": 83650
    },
    {
      "epoch": 111.54666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002977291537263518,
      "loss": 0.3975,
      "step": 83660
    },
    {
      "epoch": 111.56,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002977286089304919,
      "loss": 0.3912,
      "step": 83670
    },
    {
      "epoch": 111.57333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002977280640697878,
      "loss": 0.3955,
      "step": 83680
    },
    {
      "epoch": 111.58666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002977275191442397,
      "loss": 0.3836,
      "step": 83690
    },
    {
      "epoch": 111.6,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029772697415384787,
      "loss": 0.386,
      "step": 83700
    },
    {
      "epoch": 111.61333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002977264290986125,
      "loss": 0.3753,
      "step": 83710
    },
    {
      "epoch": 111.62666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0002977258839785338,
      "loss": 0.3798,
      "step": 83720
    },
    {
      "epoch": 111.64,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002977253387936121,
      "loss": 0.3932,
      "step": 83730
    },
    {
      "epoch": 111.65333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002977247935438476,
      "loss": 0.4023,
      "step": 83740
    },
    {
      "epoch": 111.66666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029772424822924046,
      "loss": 0.3897,
      "step": 83750
    },
    {
      "epoch": 111.68,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029772370284979107,
      "loss": 0.382,
      "step": 83760
    },
    {
      "epoch": 111.69333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029772315740549956,
      "loss": 0.392,
      "step": 83770
    },
    {
      "epoch": 111.70666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002977226118963662,
      "loss": 0.3842,
      "step": 83780
    },
    {
      "epoch": 111.72,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002977220663223912,
      "loss": 0.4072,
      "step": 83790
    },
    {
      "epoch": 111.73333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002977215206835749,
      "loss": 0.4005,
      "step": 83800
    },
    {
      "epoch": 111.74666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002977209749799174,
      "loss": 0.403,
      "step": 83810
    },
    {
      "epoch": 111.76,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002977204292114191,
      "loss": 0.4159,
      "step": 83820
    },
    {
      "epoch": 111.77333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029771988337808005,
      "loss": 0.403,
      "step": 83830
    },
    {
      "epoch": 111.78666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029771933747990063,
      "loss": 0.4044,
      "step": 83840
    },
    {
      "epoch": 111.8,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029771879151688105,
      "loss": 0.4011,
      "step": 83850
    },
    {
      "epoch": 111.81333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029771824548902156,
      "loss": 0.3744,
      "step": 83860
    },
    {
      "epoch": 111.82666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029771769939632235,
      "loss": 0.3847,
      "step": 83870
    },
    {
      "epoch": 111.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029771715323878366,
      "loss": 0.3962,
      "step": 83880
    },
    {
      "epoch": 111.85333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002977166070164058,
      "loss": 0.3914,
      "step": 83890
    },
    {
      "epoch": 111.86666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029771606072918894,
      "loss": 0.3968,
      "step": 83900
    },
    {
      "epoch": 111.88,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002977155143771333,
      "loss": 0.3773,
      "step": 83910
    },
    {
      "epoch": 111.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002977149679602393,
      "loss": 0.3889,
      "step": 83920
    },
    {
      "epoch": 111.90666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029771442147850696,
      "loss": 0.3953,
      "step": 83930
    },
    {
      "epoch": 111.92,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002977138749319366,
      "loss": 0.3974,
      "step": 83940
    },
    {
      "epoch": 111.93333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002977133283205285,
      "loss": 0.3904,
      "step": 83950
    },
    {
      "epoch": 111.94666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002977127816442828,
      "loss": 0.392,
      "step": 83960
    },
    {
      "epoch": 111.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002977122349031999,
      "loss": 0.3889,
      "step": 83970
    },
    {
      "epoch": 111.97333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002977116880972799,
      "loss": 0.415,
      "step": 83980
    },
    {
      "epoch": 111.98666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002977111412265231,
      "loss": 0.3883,
      "step": 83990
    },
    {
      "epoch": 112.0,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002977105942909297,
      "loss": 0.3842,
      "step": 84000
    },
    {
      "epoch": 112.0,
      "eval_loss": 0.42895448207855225,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7574,
      "eval_samples_per_second": 1.64,
      "eval_steps_per_second": 0.102,
      "step": 84000
    },
    {
      "epoch": 112.01333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029771004729049993,
      "loss": 0.4014,
      "step": 84010
    },
    {
      "epoch": 112.02666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002977095002252341,
      "loss": 0.4136,
      "step": 84020
    },
    {
      "epoch": 112.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002977089530951325,
      "loss": 0.4255,
      "step": 84030
    },
    {
      "epoch": 112.05333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002977084059001952,
      "loss": 0.4129,
      "step": 84040
    },
    {
      "epoch": 112.06666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002977078586404225,
      "loss": 0.4001,
      "step": 84050
    },
    {
      "epoch": 112.08,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029770731131581474,
      "loss": 0.4032,
      "step": 84060
    },
    {
      "epoch": 112.09333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029770676392637204,
      "loss": 0.4047,
      "step": 84070
    },
    {
      "epoch": 112.10666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002977062164720947,
      "loss": 0.3919,
      "step": 84080
    },
    {
      "epoch": 112.12,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029770566895298296,
      "loss": 0.398,
      "step": 84090
    },
    {
      "epoch": 112.13333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029770512136903705,
      "loss": 0.3893,
      "step": 84100
    },
    {
      "epoch": 112.14666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002977045737202572,
      "loss": 0.4078,
      "step": 84110
    },
    {
      "epoch": 112.16,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029770402600664365,
      "loss": 0.4011,
      "step": 84120
    },
    {
      "epoch": 112.17333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029770347822819665,
      "loss": 0.395,
      "step": 84130
    },
    {
      "epoch": 112.18666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029770293038491646,
      "loss": 0.3946,
      "step": 84140
    },
    {
      "epoch": 112.2,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029770238247680327,
      "loss": 0.3879,
      "step": 84150
    },
    {
      "epoch": 112.21333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002977018345038574,
      "loss": 0.3881,
      "step": 84160
    },
    {
      "epoch": 112.22666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000297701286466079,
      "loss": 0.3993,
      "step": 84170
    },
    {
      "epoch": 112.24,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002977007383634683,
      "loss": 0.3854,
      "step": 84180
    },
    {
      "epoch": 112.25333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002977001901960257,
      "loss": 0.3867,
      "step": 84190
    },
    {
      "epoch": 112.26666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029769964196375127,
      "loss": 0.3885,
      "step": 84200
    },
    {
      "epoch": 112.28,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002976990936666453,
      "loss": 0.4196,
      "step": 84210
    },
    {
      "epoch": 112.29333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002976985453047081,
      "loss": 0.3746,
      "step": 84220
    },
    {
      "epoch": 112.30666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002976979968779398,
      "loss": 0.3982,
      "step": 84230
    },
    {
      "epoch": 112.32,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029769744838634073,
      "loss": 0.3998,
      "step": 84240
    },
    {
      "epoch": 112.33333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002976968998299111,
      "loss": 0.4043,
      "step": 84250
    },
    {
      "epoch": 112.34666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029769635120865115,
      "loss": 0.3942,
      "step": 84260
    },
    {
      "epoch": 112.36,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029769580252256105,
      "loss": 0.3955,
      "step": 84270
    },
    {
      "epoch": 112.37333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002976952537716412,
      "loss": 0.3957,
      "step": 84280
    },
    {
      "epoch": 112.38666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002976947049558917,
      "loss": 0.388,
      "step": 84290
    },
    {
      "epoch": 112.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029769415607531287,
      "loss": 0.3949,
      "step": 84300
    },
    {
      "epoch": 112.41333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029769360712990486,
      "loss": 0.4,
      "step": 84310
    },
    {
      "epoch": 112.42666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029769305811966807,
      "loss": 0.401,
      "step": 84320
    },
    {
      "epoch": 112.44,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002976925090446026,
      "loss": 0.413,
      "step": 84330
    },
    {
      "epoch": 112.45333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029769195990470866,
      "loss": 0.4022,
      "step": 84340
    },
    {
      "epoch": 112.46666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029769141069998665,
      "loss": 0.4109,
      "step": 84350
    },
    {
      "epoch": 112.48,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002976908614304367,
      "loss": 0.392,
      "step": 84360
    },
    {
      "epoch": 112.49333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002976903120960591,
      "loss": 0.4045,
      "step": 84370
    },
    {
      "epoch": 112.50666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029768976269685404,
      "loss": 0.402,
      "step": 84380
    },
    {
      "epoch": 112.52,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002976892132328218,
      "loss": 0.3929,
      "step": 84390
    },
    {
      "epoch": 112.53333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002976886637039626,
      "loss": 0.3948,
      "step": 84400
    },
    {
      "epoch": 112.54666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029768811411027673,
      "loss": 0.397,
      "step": 84410
    },
    {
      "epoch": 112.56,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029768756445176434,
      "loss": 0.3924,
      "step": 84420
    },
    {
      "epoch": 112.57333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029768701472842577,
      "loss": 0.3957,
      "step": 84430
    },
    {
      "epoch": 112.58666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029768646494026117,
      "loss": 0.3843,
      "step": 84440
    },
    {
      "epoch": 112.6,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002976859150872709,
      "loss": 0.3855,
      "step": 84450
    },
    {
      "epoch": 112.61333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029768536516945507,
      "loss": 0.3756,
      "step": 84460
    },
    {
      "epoch": 112.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.000297684815186814,
      "loss": 0.3809,
      "step": 84470
    },
    {
      "epoch": 112.64,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002976842651393479,
      "loss": 0.3932,
      "step": 84480
    },
    {
      "epoch": 112.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.000297683715027057,
      "loss": 0.4024,
      "step": 84490
    },
    {
      "epoch": 112.66666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002976831648499416,
      "loss": 0.3895,
      "step": 84500
    },
    {
      "epoch": 112.68,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029768261460800193,
      "loss": 0.3816,
      "step": 84510
    },
    {
      "epoch": 112.69333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002976820643012382,
      "loss": 0.3914,
      "step": 84520
    },
    {
      "epoch": 112.70666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002976815139296506,
      "loss": 0.3837,
      "step": 84530
    },
    {
      "epoch": 112.72,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002976809634932395,
      "loss": 0.407,
      "step": 84540
    },
    {
      "epoch": 112.73333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000297680412992005,
      "loss": 0.4004,
      "step": 84550
    },
    {
      "epoch": 112.74666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029767986242594746,
      "loss": 0.4024,
      "step": 84560
    },
    {
      "epoch": 112.76,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029767931179506705,
      "loss": 0.4149,
      "step": 84570
    },
    {
      "epoch": 112.77333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002976787610993641,
      "loss": 0.4024,
      "step": 84580
    },
    {
      "epoch": 112.78666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029767821033883875,
      "loss": 0.4024,
      "step": 84590
    },
    {
      "epoch": 112.8,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002976776595134912,
      "loss": 0.4003,
      "step": 84600
    },
    {
      "epoch": 112.81333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029767710862332186,
      "loss": 0.376,
      "step": 84610
    },
    {
      "epoch": 112.82666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002976765576683309,
      "loss": 0.3842,
      "step": 84620
    },
    {
      "epoch": 112.84,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002976760066485185,
      "loss": 0.3957,
      "step": 84630
    },
    {
      "epoch": 112.85333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000297675455563885,
      "loss": 0.3916,
      "step": 84640
    },
    {
      "epoch": 112.86666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029767490441443055,
      "loss": 0.3972,
      "step": 84650
    },
    {
      "epoch": 112.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002976743532001554,
      "loss": 0.377,
      "step": 84660
    },
    {
      "epoch": 112.89333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002976738019210599,
      "loss": 0.3886,
      "step": 84670
    },
    {
      "epoch": 112.90666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002976732505771442,
      "loss": 0.3946,
      "step": 84680
    },
    {
      "epoch": 112.92,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002976726991684085,
      "loss": 0.3974,
      "step": 84690
    },
    {
      "epoch": 112.93333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002976721476948531,
      "loss": 0.391,
      "step": 84700
    },
    {
      "epoch": 112.94666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002976715961564783,
      "loss": 0.3913,
      "step": 84710
    },
    {
      "epoch": 112.96,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002976710445532843,
      "loss": 0.3899,
      "step": 84720
    },
    {
      "epoch": 112.97333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029767049288527127,
      "loss": 0.4148,
      "step": 84730
    },
    {
      "epoch": 112.98666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029766994115243954,
      "loss": 0.3882,
      "step": 84740
    },
    {
      "epoch": 113.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002976693893547893,
      "loss": 0.3832,
      "step": 84750
    },
    {
      "epoch": 113.0,
      "eval_loss": 0.4275282025337219,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9629,
      "eval_samples_per_second": 1.606,
      "eval_steps_per_second": 0.1,
      "step": 84750
    },
    {
      "epoch": 113.01333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029766883749232084,
      "loss": 0.4002,
      "step": 84760
    },
    {
      "epoch": 113.02666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002976682855650343,
      "loss": 0.4138,
      "step": 84770
    },
    {
      "epoch": 113.04,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002976677335729301,
      "loss": 0.4261,
      "step": 84780
    },
    {
      "epoch": 113.05333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029766718151600833,
      "loss": 0.4122,
      "step": 84790
    },
    {
      "epoch": 113.06666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029766662939426927,
      "loss": 0.3987,
      "step": 84800
    },
    {
      "epoch": 113.08,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002976660772077132,
      "loss": 0.4041,
      "step": 84810
    },
    {
      "epoch": 113.09333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002976655249563403,
      "loss": 0.4038,
      "step": 84820
    },
    {
      "epoch": 113.10666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002976649726401509,
      "loss": 0.3917,
      "step": 84830
    },
    {
      "epoch": 113.12,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029766442025914514,
      "loss": 0.3973,
      "step": 84840
    },
    {
      "epoch": 113.13333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002976638678133233,
      "loss": 0.3886,
      "step": 84850
    },
    {
      "epoch": 113.14666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002976633153026857,
      "loss": 0.4075,
      "step": 84860
    },
    {
      "epoch": 113.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029766276272723247,
      "loss": 0.4015,
      "step": 84870
    },
    {
      "epoch": 113.17333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029766221008696396,
      "loss": 0.3949,
      "step": 84880
    },
    {
      "epoch": 113.18666666666667,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002976616573818803,
      "loss": 0.3939,
      "step": 84890
    },
    {
      "epoch": 113.2,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002976611046119818,
      "loss": 0.3868,
      "step": 84900
    },
    {
      "epoch": 113.21333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029766055177726867,
      "loss": 0.3876,
      "step": 84910
    },
    {
      "epoch": 113.22666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002976599988777412,
      "loss": 0.3996,
      "step": 84920
    },
    {
      "epoch": 113.24,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002976594459133996,
      "loss": 0.3837,
      "step": 84930
    },
    {
      "epoch": 113.25333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002976588928842441,
      "loss": 0.3871,
      "step": 84940
    },
    {
      "epoch": 113.26666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.000297658339790275,
      "loss": 0.3885,
      "step": 84950
    },
    {
      "epoch": 113.28,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002976577866314925,
      "loss": 0.4196,
      "step": 84960
    },
    {
      "epoch": 113.29333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002976572334078968,
      "loss": 0.3749,
      "step": 84970
    },
    {
      "epoch": 113.30666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002976566801194882,
      "loss": 0.3982,
      "step": 84980
    },
    {
      "epoch": 113.32,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029765612676626696,
      "loss": 0.4003,
      "step": 84990
    },
    {
      "epoch": 113.33333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002976555733482333,
      "loss": 0.4039,
      "step": 85000
    },
    {
      "epoch": 113.34666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002976550198653874,
      "loss": 0.3944,
      "step": 85010
    },
    {
      "epoch": 113.36,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002976544663177296,
      "loss": 0.3952,
      "step": 85020
    },
    {
      "epoch": 113.37333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002976539127052601,
      "loss": 0.3964,
      "step": 85030
    },
    {
      "epoch": 113.38666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029765335902797916,
      "loss": 0.388,
      "step": 85040
    },
    {
      "epoch": 113.4,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029765280528588694,
      "loss": 0.3954,
      "step": 85050
    },
    {
      "epoch": 113.41333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002976522514789838,
      "loss": 0.3998,
      "step": 85060
    },
    {
      "epoch": 113.42666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029765169760727,
      "loss": 0.4014,
      "step": 85070
    },
    {
      "epoch": 113.44,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002976511436707456,
      "loss": 0.4129,
      "step": 85080
    },
    {
      "epoch": 113.45333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000297650589669411,
      "loss": 0.4022,
      "step": 85090
    },
    {
      "epoch": 113.46666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002976500356032664,
      "loss": 0.4101,
      "step": 85100
    },
    {
      "epoch": 113.48,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002976494814723121,
      "loss": 0.3918,
      "step": 85110
    },
    {
      "epoch": 113.49333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002976489272765483,
      "loss": 0.4034,
      "step": 85120
    },
    {
      "epoch": 113.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029764837301597517,
      "loss": 0.4026,
      "step": 85130
    },
    {
      "epoch": 113.52,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002976478186905931,
      "loss": 0.3921,
      "step": 85140
    },
    {
      "epoch": 113.53333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029764726430040215,
      "loss": 0.3957,
      "step": 85150
    },
    {
      "epoch": 113.54666666666667,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002976467098454027,
      "loss": 0.3971,
      "step": 85160
    },
    {
      "epoch": 113.56,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000297646155325595,
      "loss": 0.3917,
      "step": 85170
    },
    {
      "epoch": 113.57333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002976456007409792,
      "loss": 0.3947,
      "step": 85180
    },
    {
      "epoch": 113.58666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029764504609155557,
      "loss": 0.3835,
      "step": 85190
    },
    {
      "epoch": 113.6,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002976444913773244,
      "loss": 0.3849,
      "step": 85200
    },
    {
      "epoch": 113.61333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029764393659828596,
      "loss": 0.3747,
      "step": 85210
    },
    {
      "epoch": 113.62666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029764338175444045,
      "loss": 0.3799,
      "step": 85220
    },
    {
      "epoch": 113.64,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029764282684578805,
      "loss": 0.3927,
      "step": 85230
    },
    {
      "epoch": 113.65333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002976422718723291,
      "loss": 0.402,
      "step": 85240
    },
    {
      "epoch": 113.66666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002976417168340638,
      "loss": 0.3894,
      "step": 85250
    },
    {
      "epoch": 113.68,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002976411617309924,
      "loss": 0.3815,
      "step": 85260
    },
    {
      "epoch": 113.69333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002976406065631151,
      "loss": 0.3911,
      "step": 85270
    },
    {
      "epoch": 113.70666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002976400513304322,
      "loss": 0.3833,
      "step": 85280
    },
    {
      "epoch": 113.72,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029763949603294393,
      "loss": 0.4065,
      "step": 85290
    },
    {
      "epoch": 113.73333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002976389406706506,
      "loss": 0.4005,
      "step": 85300
    },
    {
      "epoch": 113.74666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029763838524355236,
      "loss": 0.4015,
      "step": 85310
    },
    {
      "epoch": 113.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029763782975164945,
      "loss": 0.4157,
      "step": 85320
    },
    {
      "epoch": 113.77333333333333,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029763727419494215,
      "loss": 0.4022,
      "step": 85330
    },
    {
      "epoch": 113.78666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002976367185734307,
      "loss": 0.4027,
      "step": 85340
    },
    {
      "epoch": 113.8,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029763616288711536,
      "loss": 0.4017,
      "step": 85350
    },
    {
      "epoch": 113.81333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029763560713599635,
      "loss": 0.375,
      "step": 85360
    },
    {
      "epoch": 113.82666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029763505132007393,
      "loss": 0.3849,
      "step": 85370
    },
    {
      "epoch": 113.84,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002976344954393483,
      "loss": 0.3959,
      "step": 85380
    },
    {
      "epoch": 113.85333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002976339394938198,
      "loss": 0.3915,
      "step": 85390
    },
    {
      "epoch": 113.86666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029763338348348856,
      "loss": 0.3961,
      "step": 85400
    },
    {
      "epoch": 113.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029763282740835487,
      "loss": 0.3776,
      "step": 85410
    },
    {
      "epoch": 113.89333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000297632271268419,
      "loss": 0.3879,
      "step": 85420
    },
    {
      "epoch": 113.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002976317150636812,
      "loss": 0.3954,
      "step": 85430
    },
    {
      "epoch": 113.92,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029763115879414165,
      "loss": 0.3977,
      "step": 85440
    },
    {
      "epoch": 113.93333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002976306024598007,
      "loss": 0.3908,
      "step": 85450
    },
    {
      "epoch": 113.94666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029763004606065844,
      "loss": 0.3911,
      "step": 85460
    },
    {
      "epoch": 113.96,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029762948959671527,
      "loss": 0.3887,
      "step": 85470
    },
    {
      "epoch": 113.97333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029762893306797133,
      "loss": 0.4141,
      "step": 85480
    },
    {
      "epoch": 113.98666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002976283764744269,
      "loss": 0.3885,
      "step": 85490
    },
    {
      "epoch": 114.0,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002976278198160822,
      "loss": 0.3837,
      "step": 85500
    },
    {
      "epoch": 114.0,
      "eval_loss": 0.4271842837333679,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8284,
      "eval_samples_per_second": 1.628,
      "eval_steps_per_second": 0.102,
      "step": 85500
    },
    {
      "epoch": 114.01333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002976272630929376,
      "loss": 0.4006,
      "step": 85510
    },
    {
      "epoch": 114.02666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029762670630499317,
      "loss": 0.4136,
      "step": 85520
    },
    {
      "epoch": 114.04,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002976261494522492,
      "loss": 0.4267,
      "step": 85530
    },
    {
      "epoch": 114.05333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000297625592534706,
      "loss": 0.4125,
      "step": 85540
    },
    {
      "epoch": 114.06666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029762503555236377,
      "loss": 0.3991,
      "step": 85550
    },
    {
      "epoch": 114.08,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029762447850522277,
      "loss": 0.4031,
      "step": 85560
    },
    {
      "epoch": 114.09333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029762392139328324,
      "loss": 0.4042,
      "step": 85570
    },
    {
      "epoch": 114.10666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029762336421654544,
      "loss": 0.3913,
      "step": 85580
    },
    {
      "epoch": 114.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029762280697500954,
      "loss": 0.3966,
      "step": 85590
    },
    {
      "epoch": 114.13333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029762224966867586,
      "loss": 0.3887,
      "step": 85600
    },
    {
      "epoch": 114.14666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002976216922975446,
      "loss": 0.4076,
      "step": 85610
    },
    {
      "epoch": 114.16,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002976211348616161,
      "loss": 0.4005,
      "step": 85620
    },
    {
      "epoch": 114.17333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029762057736089045,
      "loss": 0.3951,
      "step": 85630
    },
    {
      "epoch": 114.18666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029762001979536805,
      "loss": 0.3941,
      "step": 85640
    },
    {
      "epoch": 114.2,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029761946216504907,
      "loss": 0.3865,
      "step": 85650
    },
    {
      "epoch": 114.21333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002976189044699337,
      "loss": 0.3882,
      "step": 85660
    },
    {
      "epoch": 114.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002976183467100223,
      "loss": 0.3999,
      "step": 85670
    },
    {
      "epoch": 114.24,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000297617788885315,
      "loss": 0.3846,
      "step": 85680
    },
    {
      "epoch": 114.25333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002976172309958122,
      "loss": 0.3867,
      "step": 85690
    },
    {
      "epoch": 114.26666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002976166730415139,
      "loss": 0.389,
      "step": 85700
    },
    {
      "epoch": 114.28,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002976161150224206,
      "loss": 0.4189,
      "step": 85710
    },
    {
      "epoch": 114.29333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029761555693853244,
      "loss": 0.3751,
      "step": 85720
    },
    {
      "epoch": 114.30666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029761499878984963,
      "loss": 0.3987,
      "step": 85730
    },
    {
      "epoch": 114.32,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002976144405763724,
      "loss": 0.4009,
      "step": 85740
    },
    {
      "epoch": 114.33333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029761388229810113,
      "loss": 0.4044,
      "step": 85750
    },
    {
      "epoch": 114.34666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029761332395503593,
      "loss": 0.3939,
      "step": 85760
    },
    {
      "epoch": 114.36,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002976127655471771,
      "loss": 0.3949,
      "step": 85770
    },
    {
      "epoch": 114.37333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029761220707452484,
      "loss": 0.3959,
      "step": 85780
    },
    {
      "epoch": 114.38666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002976116485370795,
      "loss": 0.3879,
      "step": 85790
    },
    {
      "epoch": 114.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029761108993484124,
      "loss": 0.3946,
      "step": 85800
    },
    {
      "epoch": 114.41333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002976105312678103,
      "loss": 0.3991,
      "step": 85810
    },
    {
      "epoch": 114.42666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029760997253598697,
      "loss": 0.4011,
      "step": 85820
    },
    {
      "epoch": 114.44,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029760941373937143,
      "loss": 0.413,
      "step": 85830
    },
    {
      "epoch": 114.45333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.000297608854877964,
      "loss": 0.4011,
      "step": 85840
    },
    {
      "epoch": 114.46666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029760829595176487,
      "loss": 0.4107,
      "step": 85850
    },
    {
      "epoch": 114.48,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029760773696077433,
      "loss": 0.3912,
      "step": 85860
    },
    {
      "epoch": 114.49333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029760717790499263,
      "loss": 0.4034,
      "step": 85870
    },
    {
      "epoch": 114.50666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029760661878442,
      "loss": 0.4018,
      "step": 85880
    },
    {
      "epoch": 114.52,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002976060595990566,
      "loss": 0.3916,
      "step": 85890
    },
    {
      "epoch": 114.53333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029760550034890277,
      "loss": 0.3953,
      "step": 85900
    },
    {
      "epoch": 114.54666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029760494103395874,
      "loss": 0.3969,
      "step": 85910
    },
    {
      "epoch": 114.56,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002976043816542248,
      "loss": 0.3915,
      "step": 85920
    },
    {
      "epoch": 114.57333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002976038222097011,
      "loss": 0.3952,
      "step": 85930
    },
    {
      "epoch": 114.58666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.000297603262700388,
      "loss": 0.3836,
      "step": 85940
    },
    {
      "epoch": 114.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002976027031262856,
      "loss": 0.3855,
      "step": 85950
    },
    {
      "epoch": 114.61333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002976021434873943,
      "loss": 0.3751,
      "step": 85960
    },
    {
      "epoch": 114.62666666666667,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029760158378371417,
      "loss": 0.381,
      "step": 85970
    },
    {
      "epoch": 114.64,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002976010240152456,
      "loss": 0.393,
      "step": 85980
    },
    {
      "epoch": 114.65333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002976004641819888,
      "loss": 0.4016,
      "step": 85990
    },
    {
      "epoch": 114.66666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000297599904283944,
      "loss": 0.3894,
      "step": 86000
    },
    {
      "epoch": 114.68,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029759934432111145,
      "loss": 0.3823,
      "step": 86010
    },
    {
      "epoch": 114.69333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002975987842934914,
      "loss": 0.3907,
      "step": 86020
    },
    {
      "epoch": 114.70666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002975982242010841,
      "loss": 0.3833,
      "step": 86030
    },
    {
      "epoch": 114.72,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002975976640438898,
      "loss": 0.4065,
      "step": 86040
    },
    {
      "epoch": 114.73333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029759710382190873,
      "loss": 0.3998,
      "step": 86050
    },
    {
      "epoch": 114.74666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002975965435351411,
      "loss": 0.4013,
      "step": 86060
    },
    {
      "epoch": 114.76,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002975959831835873,
      "loss": 0.4156,
      "step": 86070
    },
    {
      "epoch": 114.77333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029759542276724737,
      "loss": 0.4026,
      "step": 86080
    },
    {
      "epoch": 114.78666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002975948622861217,
      "loss": 0.4035,
      "step": 86090
    },
    {
      "epoch": 114.8,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002975943017402105,
      "loss": 0.4006,
      "step": 86100
    },
    {
      "epoch": 114.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.000297593741129514,
      "loss": 0.3746,
      "step": 86110
    },
    {
      "epoch": 114.82666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029759318045403244,
      "loss": 0.3839,
      "step": 86120
    },
    {
      "epoch": 114.84,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029759261971376615,
      "loss": 0.3957,
      "step": 86130
    },
    {
      "epoch": 114.85333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002975920589087152,
      "loss": 0.3918,
      "step": 86140
    },
    {
      "epoch": 114.86666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029759149803888004,
      "loss": 0.3959,
      "step": 86150
    },
    {
      "epoch": 114.88,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002975909371042608,
      "loss": 0.3776,
      "step": 86160
    },
    {
      "epoch": 114.89333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029759037610485774,
      "loss": 0.3884,
      "step": 86170
    },
    {
      "epoch": 114.90666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029758981504067114,
      "loss": 0.3958,
      "step": 86180
    },
    {
      "epoch": 114.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029758925391170114,
      "loss": 0.3977,
      "step": 86190
    },
    {
      "epoch": 114.93333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029758869271794816,
      "loss": 0.3905,
      "step": 86200
    },
    {
      "epoch": 114.94666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002975881314594123,
      "loss": 0.3919,
      "step": 86210
    },
    {
      "epoch": 114.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029758757013609386,
      "loss": 0.3899,
      "step": 86220
    },
    {
      "epoch": 114.97333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029758700874799314,
      "loss": 0.4146,
      "step": 86230
    },
    {
      "epoch": 114.98666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002975864472951103,
      "loss": 0.3873,
      "step": 86240
    },
    {
      "epoch": 115.0,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002975858857774456,
      "loss": 0.3834,
      "step": 86250
    },
    {
      "epoch": 115.0,
      "eval_loss": 0.4269208312034607,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.3669,
      "eval_samples_per_second": 1.543,
      "eval_steps_per_second": 0.096,
      "step": 86250
    },
    {
      "epoch": 115.01333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029758532419499936,
      "loss": 0.4007,
      "step": 86260
    },
    {
      "epoch": 115.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002975847625477717,
      "loss": 0.4134,
      "step": 86270
    },
    {
      "epoch": 115.04,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000297584200835763,
      "loss": 0.4262,
      "step": 86280
    },
    {
      "epoch": 115.05333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002975836390589734,
      "loss": 0.4118,
      "step": 86290
    },
    {
      "epoch": 115.06666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029758307721740323,
      "loss": 0.3991,
      "step": 86300
    },
    {
      "epoch": 115.08,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002975825153110527,
      "loss": 0.404,
      "step": 86310
    },
    {
      "epoch": 115.09333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029758195333992203,
      "loss": 0.4041,
      "step": 86320
    },
    {
      "epoch": 115.10666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002975813913040115,
      "loss": 0.3921,
      "step": 86330
    },
    {
      "epoch": 115.12,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029758082920332133,
      "loss": 0.3968,
      "step": 86340
    },
    {
      "epoch": 115.13333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002975802670378518,
      "loss": 0.3881,
      "step": 86350
    },
    {
      "epoch": 115.14666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029757970480760314,
      "loss": 0.4069,
      "step": 86360
    },
    {
      "epoch": 115.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002975791425125756,
      "loss": 0.4012,
      "step": 86370
    },
    {
      "epoch": 115.17333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029757858015276947,
      "loss": 0.3955,
      "step": 86380
    },
    {
      "epoch": 115.18666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029757801772818486,
      "loss": 0.3935,
      "step": 86390
    },
    {
      "epoch": 115.2,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002975774552388222,
      "loss": 0.3879,
      "step": 86400
    },
    {
      "epoch": 115.21333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029757689268468157,
      "loss": 0.3885,
      "step": 86410
    },
    {
      "epoch": 115.22666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002975763300657633,
      "loss": 0.3993,
      "step": 86420
    },
    {
      "epoch": 115.24,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002975757673820677,
      "loss": 0.3855,
      "step": 86430
    },
    {
      "epoch": 115.25333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002975752046335949,
      "loss": 0.3868,
      "step": 86440
    },
    {
      "epoch": 115.26666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002975746418203452,
      "loss": 0.3897,
      "step": 86450
    },
    {
      "epoch": 115.28,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002975740789423189,
      "loss": 0.4191,
      "step": 86460
    },
    {
      "epoch": 115.29333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002975735159995161,
      "loss": 0.3749,
      "step": 86470
    },
    {
      "epoch": 115.30666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029757295299193717,
      "loss": 0.3983,
      "step": 86480
    },
    {
      "epoch": 115.32,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002975723899195823,
      "loss": 0.3997,
      "step": 86490
    },
    {
      "epoch": 115.33333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002975718267824518,
      "loss": 0.4041,
      "step": 86500
    },
    {
      "epoch": 115.34666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029757126358054585,
      "loss": 0.3942,
      "step": 86510
    },
    {
      "epoch": 115.36,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002975707003138647,
      "loss": 0.3953,
      "step": 86520
    },
    {
      "epoch": 115.37333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029757013698240864,
      "loss": 0.3952,
      "step": 86530
    },
    {
      "epoch": 115.38666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002975695735861779,
      "loss": 0.3883,
      "step": 86540
    },
    {
      "epoch": 115.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029756901012517275,
      "loss": 0.3948,
      "step": 86550
    },
    {
      "epoch": 115.41333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029756844659939343,
      "loss": 0.4005,
      "step": 86560
    },
    {
      "epoch": 115.42666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029756788300884014,
      "loss": 0.401,
      "step": 86570
    },
    {
      "epoch": 115.44,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029756731935351314,
      "loss": 0.4133,
      "step": 86580
    },
    {
      "epoch": 115.45333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002975667556334127,
      "loss": 0.4026,
      "step": 86590
    },
    {
      "epoch": 115.46666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002975661918485391,
      "loss": 0.4108,
      "step": 86600
    },
    {
      "epoch": 115.48,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029756562799889254,
      "loss": 0.392,
      "step": 86610
    },
    {
      "epoch": 115.49333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029756506408447326,
      "loss": 0.4028,
      "step": 86620
    },
    {
      "epoch": 115.50666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002975645001052815,
      "loss": 0.4017,
      "step": 86630
    },
    {
      "epoch": 115.52,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002975639360613176,
      "loss": 0.3919,
      "step": 86640
    },
    {
      "epoch": 115.53333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002975633719525817,
      "loss": 0.3956,
      "step": 86650
    },
    {
      "epoch": 115.54666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029756280777907407,
      "loss": 0.3972,
      "step": 86660
    },
    {
      "epoch": 115.56,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000297562243540795,
      "loss": 0.3906,
      "step": 86670
    },
    {
      "epoch": 115.57333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002975616792377447,
      "loss": 0.3945,
      "step": 86680
    },
    {
      "epoch": 115.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002975611148699235,
      "loss": 0.3846,
      "step": 86690
    },
    {
      "epoch": 115.6,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002975605504373315,
      "loss": 0.3855,
      "step": 86700
    },
    {
      "epoch": 115.61333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000297559985939969,
      "loss": 0.375,
      "step": 86710
    },
    {
      "epoch": 115.62666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029755942137783635,
      "loss": 0.3803,
      "step": 86720
    },
    {
      "epoch": 115.64,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002975588567509337,
      "loss": 0.3936,
      "step": 86730
    },
    {
      "epoch": 115.65333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002975582920592613,
      "loss": 0.4025,
      "step": 86740
    },
    {
      "epoch": 115.66666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029755772730281937,
      "loss": 0.389,
      "step": 86750
    },
    {
      "epoch": 115.68,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002975571624816083,
      "loss": 0.3816,
      "step": 86760
    },
    {
      "epoch": 115.69333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002975565975956282,
      "loss": 0.3906,
      "step": 86770
    },
    {
      "epoch": 115.70666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002975560326448794,
      "loss": 0.382,
      "step": 86780
    },
    {
      "epoch": 115.72,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029755546762936207,
      "loss": 0.4052,
      "step": 86790
    },
    {
      "epoch": 115.73333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002975549025490765,
      "loss": 0.4001,
      "step": 86800
    },
    {
      "epoch": 115.74666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029755433740402297,
      "loss": 0.4025,
      "step": 86810
    },
    {
      "epoch": 115.76,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029755377219420164,
      "loss": 0.415,
      "step": 86820
    },
    {
      "epoch": 115.77333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029755320691961283,
      "loss": 0.4024,
      "step": 86830
    },
    {
      "epoch": 115.78666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002975526415802568,
      "loss": 0.4027,
      "step": 86840
    },
    {
      "epoch": 115.8,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029755207617613373,
      "loss": 0.4005,
      "step": 86850
    },
    {
      "epoch": 115.81333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002975515107072439,
      "loss": 0.3747,
      "step": 86860
    },
    {
      "epoch": 115.82666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029755094517358767,
      "loss": 0.3842,
      "step": 86870
    },
    {
      "epoch": 115.84,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002975503795751651,
      "loss": 0.3965,
      "step": 86880
    },
    {
      "epoch": 115.85333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002975498139119765,
      "loss": 0.3912,
      "step": 86890
    },
    {
      "epoch": 115.86666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029754924818402214,
      "loss": 0.3955,
      "step": 86900
    },
    {
      "epoch": 115.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002975486823913023,
      "loss": 0.3766,
      "step": 86910
    },
    {
      "epoch": 115.89333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002975481165338172,
      "loss": 0.3882,
      "step": 86920
    },
    {
      "epoch": 115.90666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029754755061156703,
      "loss": 0.3953,
      "step": 86930
    },
    {
      "epoch": 115.92,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002975469846245521,
      "loss": 0.3965,
      "step": 86940
    },
    {
      "epoch": 115.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029754641857277273,
      "loss": 0.391,
      "step": 86950
    },
    {
      "epoch": 115.94666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000297545852456229,
      "loss": 0.3923,
      "step": 86960
    },
    {
      "epoch": 115.96,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029754528627492133,
      "loss": 0.3887,
      "step": 86970
    },
    {
      "epoch": 115.97333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002975447200288498,
      "loss": 0.4141,
      "step": 86980
    },
    {
      "epoch": 115.98666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029754415371801483,
      "loss": 0.3873,
      "step": 86990
    },
    {
      "epoch": 116.0,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029754358734241656,
      "loss": 0.3827,
      "step": 87000
    },
    {
      "epoch": 116.0,
      "eval_loss": 0.42860856652259827,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7875,
      "eval_samples_per_second": 1.635,
      "eval_steps_per_second": 0.102,
      "step": 87000
    },
    {
      "epoch": 116.01333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002975430209020552,
      "loss": 0.4011,
      "step": 87010
    },
    {
      "epoch": 116.02666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029754245439693114,
      "loss": 0.4136,
      "step": 87020
    },
    {
      "epoch": 116.04,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029754188782704454,
      "loss": 0.4259,
      "step": 87030
    },
    {
      "epoch": 116.05333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002975413211923956,
      "loss": 0.4115,
      "step": 87040
    },
    {
      "epoch": 116.06666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002975407544929847,
      "loss": 0.3992,
      "step": 87050
    },
    {
      "epoch": 116.08,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029754018772881193,
      "loss": 0.4035,
      "step": 87060
    },
    {
      "epoch": 116.09333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029753962089987767,
      "loss": 0.4047,
      "step": 87070
    },
    {
      "epoch": 116.10666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029753905400618216,
      "loss": 0.3915,
      "step": 87080
    },
    {
      "epoch": 116.12,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002975384870477256,
      "loss": 0.3967,
      "step": 87090
    },
    {
      "epoch": 116.13333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002975379200245082,
      "loss": 0.388,
      "step": 87100
    },
    {
      "epoch": 116.14666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029753735293653027,
      "loss": 0.4066,
      "step": 87110
    },
    {
      "epoch": 116.16,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029753678578379214,
      "loss": 0.4001,
      "step": 87120
    },
    {
      "epoch": 116.17333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029753621856629385,
      "loss": 0.3956,
      "step": 87130
    },
    {
      "epoch": 116.18666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002975356512840358,
      "loss": 0.3928,
      "step": 87140
    },
    {
      "epoch": 116.2,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029753508393701823,
      "loss": 0.387,
      "step": 87150
    },
    {
      "epoch": 116.21333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002975345165252414,
      "loss": 0.3868,
      "step": 87160
    },
    {
      "epoch": 116.22666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002975339490487054,
      "loss": 0.3988,
      "step": 87170
    },
    {
      "epoch": 116.24,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029753338150741073,
      "loss": 0.3834,
      "step": 87180
    },
    {
      "epoch": 116.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002975328139013574,
      "loss": 0.3867,
      "step": 87190
    },
    {
      "epoch": 116.26666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029753224623054586,
      "loss": 0.3888,
      "step": 87200
    },
    {
      "epoch": 116.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029753167849497626,
      "loss": 0.4185,
      "step": 87210
    },
    {
      "epoch": 116.29333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002975311106946489,
      "loss": 0.3748,
      "step": 87220
    },
    {
      "epoch": 116.30666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029753054282956386,
      "loss": 0.3979,
      "step": 87230
    },
    {
      "epoch": 116.32,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029752997489972165,
      "loss": 0.4,
      "step": 87240
    },
    {
      "epoch": 116.33333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002975294069051223,
      "loss": 0.4038,
      "step": 87250
    },
    {
      "epoch": 116.34666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002975288388457662,
      "loss": 0.3942,
      "step": 87260
    },
    {
      "epoch": 116.36,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002975282707216535,
      "loss": 0.394,
      "step": 87270
    },
    {
      "epoch": 116.37333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002975277025327845,
      "loss": 0.3955,
      "step": 87280
    },
    {
      "epoch": 116.38666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002975271342791595,
      "loss": 0.3879,
      "step": 87290
    },
    {
      "epoch": 116.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002975265659607787,
      "loss": 0.3958,
      "step": 87300
    },
    {
      "epoch": 116.41333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002975259975776422,
      "loss": 0.3994,
      "step": 87310
    },
    {
      "epoch": 116.42666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029752542912975054,
      "loss": 0.4013,
      "step": 87320
    },
    {
      "epoch": 116.44,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002975248606171038,
      "loss": 0.4131,
      "step": 87330
    },
    {
      "epoch": 116.45333333333333,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0002975242920397022,
      "loss": 0.4017,
      "step": 87340
    },
    {
      "epoch": 116.46666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002975237233975461,
      "loss": 0.4093,
      "step": 87350
    },
    {
      "epoch": 116.48,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029752315469063563,
      "loss": 0.3923,
      "step": 87360
    },
    {
      "epoch": 116.49333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029752258591897115,
      "loss": 0.404,
      "step": 87370
    },
    {
      "epoch": 116.50666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002975220170825528,
      "loss": 0.4018,
      "step": 87380
    },
    {
      "epoch": 116.52,
      "grad_norm": 0.359375,
      "learning_rate": 0.000297521448181381,
      "loss": 0.3931,
      "step": 87390
    },
    {
      "epoch": 116.53333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029752087921545577,
      "loss": 0.3952,
      "step": 87400
    },
    {
      "epoch": 116.54666666666667,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029752031018477756,
      "loss": 0.397,
      "step": 87410
    },
    {
      "epoch": 116.56,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002975197410893465,
      "loss": 0.3919,
      "step": 87420
    },
    {
      "epoch": 116.57333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002975191719291629,
      "loss": 0.3943,
      "step": 87430
    },
    {
      "epoch": 116.58666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029751860270422695,
      "loss": 0.3843,
      "step": 87440
    },
    {
      "epoch": 116.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000297518033414539,
      "loss": 0.3858,
      "step": 87450
    },
    {
      "epoch": 116.61333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029751746406009923,
      "loss": 0.3752,
      "step": 87460
    },
    {
      "epoch": 116.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029751689464090785,
      "loss": 0.3805,
      "step": 87470
    },
    {
      "epoch": 116.64,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002975163251569652,
      "loss": 0.3926,
      "step": 87480
    },
    {
      "epoch": 116.65333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002975157556082715,
      "loss": 0.4018,
      "step": 87490
    },
    {
      "epoch": 116.66666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029751518599482695,
      "loss": 0.3891,
      "step": 87500
    },
    {
      "epoch": 116.68,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029751461631663187,
      "loss": 0.381,
      "step": 87510
    },
    {
      "epoch": 116.69333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029751404657368645,
      "loss": 0.3907,
      "step": 87520
    },
    {
      "epoch": 116.70666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029751347676599095,
      "loss": 0.3841,
      "step": 87530
    },
    {
      "epoch": 116.72,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002975129068935457,
      "loss": 0.4057,
      "step": 87540
    },
    {
      "epoch": 116.73333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002975123369563509,
      "loss": 0.4002,
      "step": 87550
    },
    {
      "epoch": 116.74666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002975117669544067,
      "loss": 0.4016,
      "step": 87560
    },
    {
      "epoch": 116.76,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002975111968877135,
      "loss": 0.4153,
      "step": 87570
    },
    {
      "epoch": 116.77333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029751062675627146,
      "loss": 0.4015,
      "step": 87580
    },
    {
      "epoch": 116.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002975100565600809,
      "loss": 0.4026,
      "step": 87590
    },
    {
      "epoch": 116.8,
      "grad_norm": 0.390625,
      "learning_rate": 0.000297509486299142,
      "loss": 0.4009,
      "step": 87600
    },
    {
      "epoch": 116.81333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029750891597345506,
      "loss": 0.375,
      "step": 87610
    },
    {
      "epoch": 116.82666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002975083455830203,
      "loss": 0.3852,
      "step": 87620
    },
    {
      "epoch": 116.84,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000297507775127838,
      "loss": 0.3957,
      "step": 87630
    },
    {
      "epoch": 116.85333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002975072046079084,
      "loss": 0.3912,
      "step": 87640
    },
    {
      "epoch": 116.86666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029750663402323166,
      "loss": 0.3954,
      "step": 87650
    },
    {
      "epoch": 116.88,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002975060633738082,
      "loss": 0.3755,
      "step": 87660
    },
    {
      "epoch": 116.89333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002975054926596382,
      "loss": 0.3879,
      "step": 87670
    },
    {
      "epoch": 116.90666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029750492188072175,
      "loss": 0.3951,
      "step": 87680
    },
    {
      "epoch": 116.92,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029750435103705937,
      "loss": 0.3962,
      "step": 87690
    },
    {
      "epoch": 116.93333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002975037801286512,
      "loss": 0.3901,
      "step": 87700
    },
    {
      "epoch": 116.94666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002975032091554974,
      "loss": 0.3922,
      "step": 87710
    },
    {
      "epoch": 116.96,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002975026381175983,
      "loss": 0.3896,
      "step": 87720
    },
    {
      "epoch": 116.97333333333333,
      "grad_norm": 0.5,
      "learning_rate": 0.0002975020670149542,
      "loss": 0.4145,
      "step": 87730
    },
    {
      "epoch": 116.98666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029750149584756525,
      "loss": 0.3876,
      "step": 87740
    },
    {
      "epoch": 117.0,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002975009246154318,
      "loss": 0.3834,
      "step": 87750
    },
    {
      "epoch": 117.0,
      "eval_loss": 0.426981657743454,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7324,
      "eval_samples_per_second": 1.644,
      "eval_steps_per_second": 0.103,
      "step": 87750
    },
    {
      "epoch": 117.01333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000297500353318554,
      "loss": 0.4009,
      "step": 87760
    },
    {
      "epoch": 117.02666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002974997819569322,
      "loss": 0.4135,
      "step": 87770
    },
    {
      "epoch": 117.04,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029749921053056656,
      "loss": 0.4269,
      "step": 87780
    },
    {
      "epoch": 117.05333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002974986390394574,
      "loss": 0.4114,
      "step": 87790
    },
    {
      "epoch": 117.06666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029749806748360485,
      "loss": 0.3992,
      "step": 87800
    },
    {
      "epoch": 117.08,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002974974958630094,
      "loss": 0.4032,
      "step": 87810
    },
    {
      "epoch": 117.09333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029749692417767104,
      "loss": 0.4037,
      "step": 87820
    },
    {
      "epoch": 117.10666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002974963524275902,
      "loss": 0.3919,
      "step": 87830
    },
    {
      "epoch": 117.12,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000297495780612767,
      "loss": 0.3964,
      "step": 87840
    },
    {
      "epoch": 117.13333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002974952087332018,
      "loss": 0.3879,
      "step": 87850
    },
    {
      "epoch": 117.14666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002974946367888948,
      "loss": 0.4065,
      "step": 87860
    },
    {
      "epoch": 117.16,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002974940647798463,
      "loss": 0.4005,
      "step": 87870
    },
    {
      "epoch": 117.17333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002974934927060565,
      "loss": 0.3951,
      "step": 87880
    },
    {
      "epoch": 117.18666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002974929205675256,
      "loss": 0.3938,
      "step": 87890
    },
    {
      "epoch": 117.2,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002974923483642539,
      "loss": 0.3865,
      "step": 87900
    },
    {
      "epoch": 117.21333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029749177609624173,
      "loss": 0.3873,
      "step": 87910
    },
    {
      "epoch": 117.22666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029749120376348925,
      "loss": 0.3983,
      "step": 87920
    },
    {
      "epoch": 117.24,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029749063136599673,
      "loss": 0.3848,
      "step": 87930
    },
    {
      "epoch": 117.25333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029749005890376443,
      "loss": 0.3862,
      "step": 87940
    },
    {
      "epoch": 117.26666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029748948637679264,
      "loss": 0.3878,
      "step": 87950
    },
    {
      "epoch": 117.28,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002974889137850815,
      "loss": 0.4181,
      "step": 87960
    },
    {
      "epoch": 117.29333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029748834112863136,
      "loss": 0.3742,
      "step": 87970
    },
    {
      "epoch": 117.30666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029748776840744247,
      "loss": 0.3982,
      "step": 87980
    },
    {
      "epoch": 117.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.000297487195621515,
      "loss": 0.4013,
      "step": 87990
    },
    {
      "epoch": 117.33333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029748662277084934,
      "loss": 0.4036,
      "step": 88000
    },
    {
      "epoch": 117.34666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002974860498554456,
      "loss": 0.3939,
      "step": 88010
    },
    {
      "epoch": 117.36,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00029748547687530406,
      "loss": 0.3949,
      "step": 88020
    },
    {
      "epoch": 117.37333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029748490383042504,
      "loss": 0.3954,
      "step": 88030
    },
    {
      "epoch": 117.38666666666667,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029748433072080874,
      "loss": 0.3881,
      "step": 88040
    },
    {
      "epoch": 117.4,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029748375754645544,
      "loss": 0.3966,
      "step": 88050
    },
    {
      "epoch": 117.41333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029748318430736535,
      "loss": 0.3988,
      "step": 88060
    },
    {
      "epoch": 117.42666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029748261100353873,
      "loss": 0.4011,
      "step": 88070
    },
    {
      "epoch": 117.44,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002974820376349759,
      "loss": 0.4122,
      "step": 88080
    },
    {
      "epoch": 117.45333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029748146420167704,
      "loss": 0.4007,
      "step": 88090
    },
    {
      "epoch": 117.46666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002974808907036424,
      "loss": 0.4102,
      "step": 88100
    },
    {
      "epoch": 117.48,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002974803171408722,
      "loss": 0.3918,
      "step": 88110
    },
    {
      "epoch": 117.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029747974351336683,
      "loss": 0.4035,
      "step": 88120
    },
    {
      "epoch": 117.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002974791698211264,
      "loss": 0.4023,
      "step": 88130
    },
    {
      "epoch": 117.52,
      "grad_norm": 0.375,
      "learning_rate": 0.00029747859606415127,
      "loss": 0.3923,
      "step": 88140
    },
    {
      "epoch": 117.53333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029747802224244167,
      "loss": 0.3953,
      "step": 88150
    },
    {
      "epoch": 117.54666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029747744835599777,
      "loss": 0.3975,
      "step": 88160
    },
    {
      "epoch": 117.56,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029747687440481984,
      "loss": 0.3915,
      "step": 88170
    },
    {
      "epoch": 117.57333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002974763003889082,
      "loss": 0.3951,
      "step": 88180
    },
    {
      "epoch": 117.58666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002974757263082631,
      "loss": 0.3832,
      "step": 88190
    },
    {
      "epoch": 117.6,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029747515216288473,
      "loss": 0.3851,
      "step": 88200
    },
    {
      "epoch": 117.61333333333333,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0002974745779527733,
      "loss": 0.3751,
      "step": 88210
    },
    {
      "epoch": 117.62666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029747400367792926,
      "loss": 0.3808,
      "step": 88220
    },
    {
      "epoch": 117.64,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029747342933835266,
      "loss": 0.3924,
      "step": 88230
    },
    {
      "epoch": 117.65333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002974728549340438,
      "loss": 0.4028,
      "step": 88240
    },
    {
      "epoch": 117.66666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029747228046500307,
      "loss": 0.3894,
      "step": 88250
    },
    {
      "epoch": 117.68,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002974717059312305,
      "loss": 0.3807,
      "step": 88260
    },
    {
      "epoch": 117.69333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029747113133272654,
      "loss": 0.3898,
      "step": 88270
    },
    {
      "epoch": 117.70666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002974705566694913,
      "loss": 0.3833,
      "step": 88280
    },
    {
      "epoch": 117.72,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029746998194152513,
      "loss": 0.406,
      "step": 88290
    },
    {
      "epoch": 117.73333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002974694071488282,
      "loss": 0.4002,
      "step": 88300
    },
    {
      "epoch": 117.74666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002974688322914008,
      "loss": 0.4023,
      "step": 88310
    },
    {
      "epoch": 117.76,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002974682573692432,
      "loss": 0.4144,
      "step": 88320
    },
    {
      "epoch": 117.77333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029746768238235563,
      "loss": 0.4017,
      "step": 88330
    },
    {
      "epoch": 117.78666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002974671073307384,
      "loss": 0.4021,
      "step": 88340
    },
    {
      "epoch": 117.8,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029746653221439167,
      "loss": 0.4009,
      "step": 88350
    },
    {
      "epoch": 117.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002974659570333157,
      "loss": 0.3755,
      "step": 88360
    },
    {
      "epoch": 117.82666666666667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029746538178751085,
      "loss": 0.3845,
      "step": 88370
    },
    {
      "epoch": 117.84,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029746480647697726,
      "loss": 0.3961,
      "step": 88380
    },
    {
      "epoch": 117.85333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029746423110171524,
      "loss": 0.3908,
      "step": 88390
    },
    {
      "epoch": 117.86666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029746365566172504,
      "loss": 0.3947,
      "step": 88400
    },
    {
      "epoch": 117.88,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002974630801570068,
      "loss": 0.3765,
      "step": 88410
    },
    {
      "epoch": 117.89333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.000297462504587561,
      "loss": 0.3885,
      "step": 88420
    },
    {
      "epoch": 117.90666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002974619289533877,
      "loss": 0.3949,
      "step": 88430
    },
    {
      "epoch": 117.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029746135325448724,
      "loss": 0.3979,
      "step": 88440
    },
    {
      "epoch": 117.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002974607774908598,
      "loss": 0.3901,
      "step": 88450
    },
    {
      "epoch": 117.94666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002974602016625057,
      "loss": 0.3914,
      "step": 88460
    },
    {
      "epoch": 117.96,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002974596257694252,
      "loss": 0.3891,
      "step": 88470
    },
    {
      "epoch": 117.97333333333333,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029745904981161856,
      "loss": 0.4134,
      "step": 88480
    },
    {
      "epoch": 117.98666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002974584737890859,
      "loss": 0.3878,
      "step": 88490
    },
    {
      "epoch": 118.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029745789770182764,
      "loss": 0.3823,
      "step": 88500
    },
    {
      "epoch": 118.0,
      "eval_loss": 0.4277586042881012,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8032,
      "eval_samples_per_second": 1.632,
      "eval_steps_per_second": 0.102,
      "step": 88500
    },
    {
      "epoch": 118.01333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029745732154984393,
      "loss": 0.4001,
      "step": 88510
    },
    {
      "epoch": 118.02666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002974567453331351,
      "loss": 0.4133,
      "step": 88520
    },
    {
      "epoch": 118.04,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029745616905170133,
      "loss": 0.4261,
      "step": 88530
    },
    {
      "epoch": 118.05333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002974555927055429,
      "loss": 0.4114,
      "step": 88540
    },
    {
      "epoch": 118.06666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002974550162946601,
      "loss": 0.3992,
      "step": 88550
    },
    {
      "epoch": 118.08,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029745443981905314,
      "loss": 0.4025,
      "step": 88560
    },
    {
      "epoch": 118.09333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029745386327872226,
      "loss": 0.404,
      "step": 88570
    },
    {
      "epoch": 118.10666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029745328667366775,
      "loss": 0.3914,
      "step": 88580
    },
    {
      "epoch": 118.12,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002974527100038898,
      "loss": 0.3961,
      "step": 88590
    },
    {
      "epoch": 118.13333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029745213326938877,
      "loss": 0.3886,
      "step": 88600
    },
    {
      "epoch": 118.14666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002974515564701649,
      "loss": 0.408,
      "step": 88610
    },
    {
      "epoch": 118.16,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002974509796062183,
      "loss": 0.4008,
      "step": 88620
    },
    {
      "epoch": 118.17333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029745040267754934,
      "loss": 0.3949,
      "step": 88630
    },
    {
      "epoch": 118.18666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002974498256841583,
      "loss": 0.3938,
      "step": 88640
    },
    {
      "epoch": 118.2,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029744924862604535,
      "loss": 0.3865,
      "step": 88650
    },
    {
      "epoch": 118.21333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002974486715032108,
      "loss": 0.3877,
      "step": 88660
    },
    {
      "epoch": 118.22666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002974480943156549,
      "loss": 0.3988,
      "step": 88670
    },
    {
      "epoch": 118.24,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002974475170633779,
      "loss": 0.3836,
      "step": 88680
    },
    {
      "epoch": 118.25333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029744693974638,
      "loss": 0.3866,
      "step": 88690
    },
    {
      "epoch": 118.26666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002974463623646615,
      "loss": 0.3879,
      "step": 88700
    },
    {
      "epoch": 118.28,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002974457849182226,
      "loss": 0.4182,
      "step": 88710
    },
    {
      "epoch": 118.29333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029744520740706366,
      "loss": 0.3744,
      "step": 88720
    },
    {
      "epoch": 118.30666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029744462983118493,
      "loss": 0.3974,
      "step": 88730
    },
    {
      "epoch": 118.32,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029744405219058655,
      "loss": 0.4002,
      "step": 88740
    },
    {
      "epoch": 118.33333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029744347448526883,
      "loss": 0.404,
      "step": 88750
    },
    {
      "epoch": 118.34666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.000297442896715232,
      "loss": 0.3939,
      "step": 88760
    },
    {
      "epoch": 118.36,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002974423188804764,
      "loss": 0.3941,
      "step": 88770
    },
    {
      "epoch": 118.37333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002974417409810022,
      "loss": 0.3951,
      "step": 88780
    },
    {
      "epoch": 118.38666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029744116301680965,
      "loss": 0.3867,
      "step": 88790
    },
    {
      "epoch": 118.4,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029744058498789905,
      "loss": 0.3947,
      "step": 88800
    },
    {
      "epoch": 118.41333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029744000689427063,
      "loss": 0.3998,
      "step": 88810
    },
    {
      "epoch": 118.42666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002974394287359247,
      "loss": 0.401,
      "step": 88820
    },
    {
      "epoch": 118.44,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002974388505128614,
      "loss": 0.4113,
      "step": 88830
    },
    {
      "epoch": 118.45333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029743827222508104,
      "loss": 0.401,
      "step": 88840
    },
    {
      "epoch": 118.46666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002974376938725839,
      "loss": 0.4095,
      "step": 88850
    },
    {
      "epoch": 118.48,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029743711545537026,
      "loss": 0.391,
      "step": 88860
    },
    {
      "epoch": 118.49333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029743653697344026,
      "loss": 0.4038,
      "step": 88870
    },
    {
      "epoch": 118.50666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029743595842679423,
      "loss": 0.4011,
      "step": 88880
    },
    {
      "epoch": 118.52,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029743537981543244,
      "loss": 0.3918,
      "step": 88890
    },
    {
      "epoch": 118.53333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029743480113935506,
      "loss": 0.395,
      "step": 88900
    },
    {
      "epoch": 118.54666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029743422239856247,
      "loss": 0.3952,
      "step": 88910
    },
    {
      "epoch": 118.56,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0002974336435930549,
      "loss": 0.391,
      "step": 88920
    },
    {
      "epoch": 118.57333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029743306472283245,
      "loss": 0.3957,
      "step": 88930
    },
    {
      "epoch": 118.58666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002974324857878955,
      "loss": 0.3837,
      "step": 88940
    },
    {
      "epoch": 118.6,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029743190678824434,
      "loss": 0.3859,
      "step": 88950
    },
    {
      "epoch": 118.61333333333333,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029743132772387914,
      "loss": 0.3751,
      "step": 88960
    },
    {
      "epoch": 118.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029743074859480025,
      "loss": 0.3804,
      "step": 88970
    },
    {
      "epoch": 118.64,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002974301694010078,
      "loss": 0.3925,
      "step": 88980
    },
    {
      "epoch": 118.65333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029742959014250213,
      "loss": 0.4017,
      "step": 88990
    },
    {
      "epoch": 118.66666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029742901081928345,
      "loss": 0.3892,
      "step": 89000
    },
    {
      "epoch": 118.68,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029742843143135204,
      "loss": 0.3806,
      "step": 89010
    },
    {
      "epoch": 118.69333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002974278519787082,
      "loss": 0.3906,
      "step": 89020
    },
    {
      "epoch": 118.70666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029742727246135205,
      "loss": 0.3834,
      "step": 89030
    },
    {
      "epoch": 118.72,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000297426692879284,
      "loss": 0.4054,
      "step": 89040
    },
    {
      "epoch": 118.73333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002974261132325042,
      "loss": 0.3992,
      "step": 89050
    },
    {
      "epoch": 118.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029742553352101294,
      "loss": 0.4018,
      "step": 89060
    },
    {
      "epoch": 118.76,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029742495374481047,
      "loss": 0.4144,
      "step": 89070
    },
    {
      "epoch": 118.77333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000297424373903897,
      "loss": 0.4018,
      "step": 89080
    },
    {
      "epoch": 118.78666666666666,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002974237939982729,
      "loss": 0.4016,
      "step": 89090
    },
    {
      "epoch": 118.8,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029742321402793833,
      "loss": 0.401,
      "step": 89100
    },
    {
      "epoch": 118.81333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002974226339928936,
      "loss": 0.3742,
      "step": 89110
    },
    {
      "epoch": 118.82666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002974220538931389,
      "loss": 0.3842,
      "step": 89120
    },
    {
      "epoch": 118.84,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002974214737286745,
      "loss": 0.3956,
      "step": 89130
    },
    {
      "epoch": 118.85333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002974208934995007,
      "loss": 0.3912,
      "step": 89140
    },
    {
      "epoch": 118.86666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002974203132056177,
      "loss": 0.396,
      "step": 89150
    },
    {
      "epoch": 118.88,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029741973284702584,
      "loss": 0.3762,
      "step": 89160
    },
    {
      "epoch": 118.89333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002974191524237252,
      "loss": 0.3872,
      "step": 89170
    },
    {
      "epoch": 118.90666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002974185719357163,
      "loss": 0.395,
      "step": 89180
    },
    {
      "epoch": 118.92,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029741799138299915,
      "loss": 0.396,
      "step": 89190
    },
    {
      "epoch": 118.93333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029741741076557413,
      "loss": 0.3902,
      "step": 89200
    },
    {
      "epoch": 118.94666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002974168300834415,
      "loss": 0.3904,
      "step": 89210
    },
    {
      "epoch": 118.96,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029741624933660144,
      "loss": 0.39,
      "step": 89220
    },
    {
      "epoch": 118.97333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029741566852505426,
      "loss": 0.4139,
      "step": 89230
    },
    {
      "epoch": 118.98666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002974150876488002,
      "loss": 0.3882,
      "step": 89240
    },
    {
      "epoch": 119.0,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002974145067078395,
      "loss": 0.383,
      "step": 89250
    },
    {
      "epoch": 119.0,
      "eval_loss": 0.42724609375,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2414,
      "eval_samples_per_second": 1.562,
      "eval_steps_per_second": 0.098,
      "step": 89250
    },
    {
      "epoch": 119.01333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002974139257021725,
      "loss": 0.3997,
      "step": 89260
    },
    {
      "epoch": 119.02666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029741334463179923,
      "loss": 0.414,
      "step": 89270
    },
    {
      "epoch": 119.04,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029741276349672026,
      "loss": 0.4261,
      "step": 89280
    },
    {
      "epoch": 119.05333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002974121822969356,
      "loss": 0.4114,
      "step": 89290
    },
    {
      "epoch": 119.06666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029741160103244563,
      "loss": 0.3982,
      "step": 89300
    },
    {
      "epoch": 119.08,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029741101970325056,
      "loss": 0.4022,
      "step": 89310
    },
    {
      "epoch": 119.09333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029741043830935063,
      "loss": 0.4028,
      "step": 89320
    },
    {
      "epoch": 119.10666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002974098568507461,
      "loss": 0.3921,
      "step": 89330
    },
    {
      "epoch": 119.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002974092753274373,
      "loss": 0.3967,
      "step": 89340
    },
    {
      "epoch": 119.13333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002974086937394244,
      "loss": 0.3884,
      "step": 89350
    },
    {
      "epoch": 119.14666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002974081120867077,
      "loss": 0.4066,
      "step": 89360
    },
    {
      "epoch": 119.16,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029740753036928746,
      "loss": 0.4001,
      "step": 89370
    },
    {
      "epoch": 119.17333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029740694858716385,
      "loss": 0.3961,
      "step": 89380
    },
    {
      "epoch": 119.18666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002974063667403372,
      "loss": 0.3938,
      "step": 89390
    },
    {
      "epoch": 119.2,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002974057848288078,
      "loss": 0.3868,
      "step": 89400
    },
    {
      "epoch": 119.21333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002974052028525758,
      "loss": 0.3866,
      "step": 89410
    },
    {
      "epoch": 119.22666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002974046208116416,
      "loss": 0.3983,
      "step": 89420
    },
    {
      "epoch": 119.24,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002974040387060053,
      "loss": 0.3837,
      "step": 89430
    },
    {
      "epoch": 119.25333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002974034565356672,
      "loss": 0.3856,
      "step": 89440
    },
    {
      "epoch": 119.26666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029740287430062766,
      "loss": 0.3884,
      "step": 89450
    },
    {
      "epoch": 119.28,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002974022920008868,
      "loss": 0.4181,
      "step": 89460
    },
    {
      "epoch": 119.29333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029740170963644496,
      "loss": 0.3743,
      "step": 89470
    },
    {
      "epoch": 119.30666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029740112720730234,
      "loss": 0.3988,
      "step": 89480
    },
    {
      "epoch": 119.32,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029740054471345925,
      "loss": 0.4014,
      "step": 89490
    },
    {
      "epoch": 119.33333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002973999621549159,
      "loss": 0.4038,
      "step": 89500
    },
    {
      "epoch": 119.34666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002973993795316726,
      "loss": 0.393,
      "step": 89510
    },
    {
      "epoch": 119.36,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002973987968437296,
      "loss": 0.3945,
      "step": 89520
    },
    {
      "epoch": 119.37333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000297398214091087,
      "loss": 0.3957,
      "step": 89530
    },
    {
      "epoch": 119.38666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002973976312737453,
      "loss": 0.388,
      "step": 89540
    },
    {
      "epoch": 119.4,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002973970483917046,
      "loss": 0.3949,
      "step": 89550
    },
    {
      "epoch": 119.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002973964654449652,
      "loss": 0.3997,
      "step": 89560
    },
    {
      "epoch": 119.42666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029739588243352734,
      "loss": 0.4008,
      "step": 89570
    },
    {
      "epoch": 119.44,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002973952993573913,
      "loss": 0.4122,
      "step": 89580
    },
    {
      "epoch": 119.45333333333333,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00029739471621655734,
      "loss": 0.4009,
      "step": 89590
    },
    {
      "epoch": 119.46666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002973941330110257,
      "loss": 0.4102,
      "step": 89600
    },
    {
      "epoch": 119.48,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002973935497407966,
      "loss": 0.3916,
      "step": 89610
    },
    {
      "epoch": 119.49333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002973929664058703,
      "loss": 0.4029,
      "step": 89620
    },
    {
      "epoch": 119.50666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002973923830062471,
      "loss": 0.4012,
      "step": 89630
    },
    {
      "epoch": 119.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002973917995419273,
      "loss": 0.3916,
      "step": 89640
    },
    {
      "epoch": 119.53333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029739121601291105,
      "loss": 0.3942,
      "step": 89650
    },
    {
      "epoch": 119.54666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002973906324191987,
      "loss": 0.396,
      "step": 89660
    },
    {
      "epoch": 119.56,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002973900487607904,
      "loss": 0.3905,
      "step": 89670
    },
    {
      "epoch": 119.57333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002973894650376865,
      "loss": 0.3942,
      "step": 89680
    },
    {
      "epoch": 119.58666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029738888124988724,
      "loss": 0.3838,
      "step": 89690
    },
    {
      "epoch": 119.6,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029738829739739284,
      "loss": 0.3847,
      "step": 89700
    },
    {
      "epoch": 119.61333333333333,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00029738771348020355,
      "loss": 0.3747,
      "step": 89710
    },
    {
      "epoch": 119.62666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029738712949831965,
      "loss": 0.38,
      "step": 89720
    },
    {
      "epoch": 119.64,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029738654545174146,
      "loss": 0.392,
      "step": 89730
    },
    {
      "epoch": 119.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029738596134046914,
      "loss": 0.4015,
      "step": 89740
    },
    {
      "epoch": 119.66666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029738537716450297,
      "loss": 0.3887,
      "step": 89750
    },
    {
      "epoch": 119.68,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002973847929238432,
      "loss": 0.3816,
      "step": 89760
    },
    {
      "epoch": 119.69333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029738420861849014,
      "loss": 0.3905,
      "step": 89770
    },
    {
      "epoch": 119.70666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029738362424844403,
      "loss": 0.3823,
      "step": 89780
    },
    {
      "epoch": 119.72,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029738303981370504,
      "loss": 0.4055,
      "step": 89790
    },
    {
      "epoch": 119.73333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029738245531427354,
      "loss": 0.3992,
      "step": 89800
    },
    {
      "epoch": 119.74666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002973818707501497,
      "loss": 0.4019,
      "step": 89810
    },
    {
      "epoch": 119.76,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002973812861213339,
      "loss": 0.4147,
      "step": 89820
    },
    {
      "epoch": 119.77333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002973807014278262,
      "loss": 0.4022,
      "step": 89830
    },
    {
      "epoch": 119.78666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002973801166696271,
      "loss": 0.4015,
      "step": 89840
    },
    {
      "epoch": 119.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029737953184673664,
      "loss": 0.4007,
      "step": 89850
    },
    {
      "epoch": 119.81333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029737894695915513,
      "loss": 0.3738,
      "step": 89860
    },
    {
      "epoch": 119.82666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002973783620068829,
      "loss": 0.3848,
      "step": 89870
    },
    {
      "epoch": 119.84,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002973777769899202,
      "loss": 0.3952,
      "step": 89880
    },
    {
      "epoch": 119.85333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029737719190826725,
      "loss": 0.3906,
      "step": 89890
    },
    {
      "epoch": 119.86666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029737660676192425,
      "loss": 0.3943,
      "step": 89900
    },
    {
      "epoch": 119.88,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029737602155089157,
      "loss": 0.3763,
      "step": 89910
    },
    {
      "epoch": 119.89333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002973754362751694,
      "loss": 0.3876,
      "step": 89920
    },
    {
      "epoch": 119.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029737485093475803,
      "loss": 0.3951,
      "step": 89930
    },
    {
      "epoch": 119.92,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029737426552965766,
      "loss": 0.3969,
      "step": 89940
    },
    {
      "epoch": 119.93333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029737368005986863,
      "loss": 0.39,
      "step": 89950
    },
    {
      "epoch": 119.94666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002973730945253911,
      "loss": 0.3916,
      "step": 89960
    },
    {
      "epoch": 119.96,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029737250892622545,
      "loss": 0.3893,
      "step": 89970
    },
    {
      "epoch": 119.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029737192326237177,
      "loss": 0.4137,
      "step": 89980
    },
    {
      "epoch": 119.98666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029737133753383047,
      "loss": 0.3877,
      "step": 89990
    },
    {
      "epoch": 120.0,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029737075174060177,
      "loss": 0.3829,
      "step": 90000
    },
    {
      "epoch": 120.0,
      "eval_loss": 0.42644834518432617,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1178,
      "eval_samples_per_second": 1.581,
      "eval_steps_per_second": 0.099,
      "step": 90000
    },
    {
      "epoch": 120.01333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002973701658826859,
      "loss": 0.401,
      "step": 90010
    },
    {
      "epoch": 120.02666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029736957996008307,
      "loss": 0.4141,
      "step": 90020
    },
    {
      "epoch": 120.04,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002973689939727936,
      "loss": 0.4258,
      "step": 90030
    },
    {
      "epoch": 120.05333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002973684079208178,
      "loss": 0.4113,
      "step": 90040
    },
    {
      "epoch": 120.06666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029736782180415585,
      "loss": 0.399,
      "step": 90050
    },
    {
      "epoch": 120.08,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000297367235622808,
      "loss": 0.4021,
      "step": 90060
    },
    {
      "epoch": 120.09333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029736664937677455,
      "loss": 0.403,
      "step": 90070
    },
    {
      "epoch": 120.10666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029736606306605566,
      "loss": 0.3915,
      "step": 90080
    },
    {
      "epoch": 120.12,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002973654766906517,
      "loss": 0.3967,
      "step": 90090
    },
    {
      "epoch": 120.13333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029736489025056293,
      "loss": 0.3878,
      "step": 90100
    },
    {
      "epoch": 120.14666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002973643037457896,
      "loss": 0.4067,
      "step": 90110
    },
    {
      "epoch": 120.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029736371717633186,
      "loss": 0.4,
      "step": 90120
    },
    {
      "epoch": 120.17333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002973631305421901,
      "loss": 0.395,
      "step": 90130
    },
    {
      "epoch": 120.18666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002973625438433645,
      "loss": 0.3937,
      "step": 90140
    },
    {
      "epoch": 120.2,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029736195707985537,
      "loss": 0.3867,
      "step": 90150
    },
    {
      "epoch": 120.21333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002973613702516629,
      "loss": 0.386,
      "step": 90160
    },
    {
      "epoch": 120.22666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002973607833587874,
      "loss": 0.3988,
      "step": 90170
    },
    {
      "epoch": 120.24,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002973601964012291,
      "loss": 0.3844,
      "step": 90180
    },
    {
      "epoch": 120.25333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029735960937898827,
      "loss": 0.3859,
      "step": 90190
    },
    {
      "epoch": 120.26666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002973590222920652,
      "loss": 0.3882,
      "step": 90200
    },
    {
      "epoch": 120.28,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002973584351404601,
      "loss": 0.419,
      "step": 90210
    },
    {
      "epoch": 120.29333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002973578479241732,
      "loss": 0.3741,
      "step": 90220
    },
    {
      "epoch": 120.30666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002973572606432049,
      "loss": 0.3986,
      "step": 90230
    },
    {
      "epoch": 120.32,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0002973566732975552,
      "loss": 0.4007,
      "step": 90240
    },
    {
      "epoch": 120.33333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029735608588722466,
      "loss": 0.403,
      "step": 90250
    },
    {
      "epoch": 120.34666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002973554984122133,
      "loss": 0.3934,
      "step": 90260
    },
    {
      "epoch": 120.36,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029735491087252156,
      "loss": 0.3945,
      "step": 90270
    },
    {
      "epoch": 120.37333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029735432326814955,
      "loss": 0.3951,
      "step": 90280
    },
    {
      "epoch": 120.38666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002973537355990976,
      "loss": 0.3879,
      "step": 90290
    },
    {
      "epoch": 120.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000297353147865366,
      "loss": 0.3947,
      "step": 90300
    },
    {
      "epoch": 120.41333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002973525600669549,
      "loss": 0.3999,
      "step": 90310
    },
    {
      "epoch": 120.42666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002973519722038647,
      "loss": 0.4015,
      "step": 90320
    },
    {
      "epoch": 120.44,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002973513842760955,
      "loss": 0.4123,
      "step": 90330
    },
    {
      "epoch": 120.45333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002973507962836476,
      "loss": 0.4009,
      "step": 90340
    },
    {
      "epoch": 120.46666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002973502082265214,
      "loss": 0.4097,
      "step": 90350
    },
    {
      "epoch": 120.48,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029734962010471706,
      "loss": 0.391,
      "step": 90360
    },
    {
      "epoch": 120.49333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002973490319182348,
      "loss": 0.4024,
      "step": 90370
    },
    {
      "epoch": 120.50666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002973484436670749,
      "loss": 0.4015,
      "step": 90380
    },
    {
      "epoch": 120.52,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029734785535123764,
      "loss": 0.3908,
      "step": 90390
    },
    {
      "epoch": 120.53333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029734726697072325,
      "loss": 0.3948,
      "step": 90400
    },
    {
      "epoch": 120.54666666666667,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000297346678525532,
      "loss": 0.3963,
      "step": 90410
    },
    {
      "epoch": 120.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002973460900156642,
      "loss": 0.3911,
      "step": 90420
    },
    {
      "epoch": 120.57333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029734550144112,
      "loss": 0.3941,
      "step": 90430
    },
    {
      "epoch": 120.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029734491280189977,
      "loss": 0.3838,
      "step": 90440
    },
    {
      "epoch": 120.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029734432409800365,
      "loss": 0.3852,
      "step": 90450
    },
    {
      "epoch": 120.61333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029734373532943204,
      "loss": 0.3744,
      "step": 90460
    },
    {
      "epoch": 120.62666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002973431464961851,
      "loss": 0.3802,
      "step": 90470
    },
    {
      "epoch": 120.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002973425575982631,
      "loss": 0.3914,
      "step": 90480
    },
    {
      "epoch": 120.65333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029734196863566637,
      "loss": 0.4014,
      "step": 90490
    },
    {
      "epoch": 120.66666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002973413796083951,
      "loss": 0.3889,
      "step": 90500
    },
    {
      "epoch": 120.68,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002973407905164495,
      "loss": 0.3811,
      "step": 90510
    },
    {
      "epoch": 120.69333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002973402013598299,
      "loss": 0.3902,
      "step": 90520
    },
    {
      "epoch": 120.70666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029733961213853656,
      "loss": 0.3833,
      "step": 90530
    },
    {
      "epoch": 120.72,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029733902285256975,
      "loss": 0.4058,
      "step": 90540
    },
    {
      "epoch": 120.73333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002973384335019297,
      "loss": 0.3983,
      "step": 90550
    },
    {
      "epoch": 120.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029733784408661663,
      "loss": 0.4024,
      "step": 90560
    },
    {
      "epoch": 120.76,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029733725460663087,
      "loss": 0.414,
      "step": 90570
    },
    {
      "epoch": 120.77333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029733666506197266,
      "loss": 0.4015,
      "step": 90580
    },
    {
      "epoch": 120.78666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002973360754526422,
      "loss": 0.4015,
      "step": 90590
    },
    {
      "epoch": 120.8,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002973354857786399,
      "loss": 0.4014,
      "step": 90600
    },
    {
      "epoch": 120.81333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002973348960399658,
      "loss": 0.3741,
      "step": 90610
    },
    {
      "epoch": 120.82666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002973343062366204,
      "loss": 0.3836,
      "step": 90620
    },
    {
      "epoch": 120.84,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002973337163686037,
      "loss": 0.3958,
      "step": 90630
    },
    {
      "epoch": 120.85333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029733312643591615,
      "loss": 0.3901,
      "step": 90640
    },
    {
      "epoch": 120.86666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000297332536438558,
      "loss": 0.395,
      "step": 90650
    },
    {
      "epoch": 120.88,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002973319463765294,
      "loss": 0.3766,
      "step": 90660
    },
    {
      "epoch": 120.89333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002973313562498307,
      "loss": 0.3885,
      "step": 90670
    },
    {
      "epoch": 120.90666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002973307660584621,
      "loss": 0.3937,
      "step": 90680
    },
    {
      "epoch": 120.92,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029733017580242394,
      "loss": 0.3961,
      "step": 90690
    },
    {
      "epoch": 120.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029732958548171637,
      "loss": 0.3894,
      "step": 90700
    },
    {
      "epoch": 120.94666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029732899509633977,
      "loss": 0.3909,
      "step": 90710
    },
    {
      "epoch": 120.96,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029732840464629425,
      "loss": 0.3888,
      "step": 90720
    },
    {
      "epoch": 120.97333333333333,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029732781413158025,
      "loss": 0.4133,
      "step": 90730
    },
    {
      "epoch": 120.98666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029732722355219787,
      "loss": 0.3871,
      "step": 90740
    },
    {
      "epoch": 121.0,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002973266329081475,
      "loss": 0.3827,
      "step": 90750
    },
    {
      "epoch": 121.0,
      "eval_loss": 0.4287010729312897,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9912,
      "eval_samples_per_second": 1.601,
      "eval_steps_per_second": 0.1,
      "step": 90750
    },
    {
      "epoch": 121.01333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002973260421994293,
      "loss": 0.4011,
      "step": 90760
    },
    {
      "epoch": 121.02666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002973254514260435,
      "loss": 0.4126,
      "step": 90770
    },
    {
      "epoch": 121.04,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002973248605879905,
      "loss": 0.4262,
      "step": 90780
    },
    {
      "epoch": 121.05333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002973242696852704,
      "loss": 0.4116,
      "step": 90790
    },
    {
      "epoch": 121.06666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002973236787178836,
      "loss": 0.3981,
      "step": 90800
    },
    {
      "epoch": 121.08,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002973230876858303,
      "loss": 0.4035,
      "step": 90810
    },
    {
      "epoch": 121.09333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002973224965891107,
      "loss": 0.403,
      "step": 90820
    },
    {
      "epoch": 121.10666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002973219054277252,
      "loss": 0.3918,
      "step": 90830
    },
    {
      "epoch": 121.12,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000297321314201674,
      "loss": 0.3965,
      "step": 90840
    },
    {
      "epoch": 121.13333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029732072291095723,
      "loss": 0.3882,
      "step": 90850
    },
    {
      "epoch": 121.14666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002973201315555753,
      "loss": 0.4065,
      "step": 90860
    },
    {
      "epoch": 121.16,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002973195401355284,
      "loss": 0.3994,
      "step": 90870
    },
    {
      "epoch": 121.17333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002973189486508169,
      "loss": 0.3938,
      "step": 90880
    },
    {
      "epoch": 121.18666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002973183571014409,
      "loss": 0.3936,
      "step": 90890
    },
    {
      "epoch": 121.2,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002973177654874008,
      "loss": 0.3857,
      "step": 90900
    },
    {
      "epoch": 121.21333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002973171738086967,
      "loss": 0.3868,
      "step": 90910
    },
    {
      "epoch": 121.22666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029731658206532904,
      "loss": 0.3995,
      "step": 90920
    },
    {
      "epoch": 121.24,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029731599025729796,
      "loss": 0.3836,
      "step": 90930
    },
    {
      "epoch": 121.25333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002973153983846037,
      "loss": 0.3857,
      "step": 90940
    },
    {
      "epoch": 121.26666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002973148064472467,
      "loss": 0.3883,
      "step": 90950
    },
    {
      "epoch": 121.28,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000297314214445227,
      "loss": 0.4184,
      "step": 90960
    },
    {
      "epoch": 121.29333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029731362237854497,
      "loss": 0.3744,
      "step": 90970
    },
    {
      "epoch": 121.30666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002973130302472009,
      "loss": 0.3978,
      "step": 90980
    },
    {
      "epoch": 121.32,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029731243805119497,
      "loss": 0.3996,
      "step": 90990
    },
    {
      "epoch": 121.33333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029731184579052743,
      "loss": 0.404,
      "step": 91000
    },
    {
      "epoch": 121.34666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002973112534651986,
      "loss": 0.3944,
      "step": 91010
    },
    {
      "epoch": 121.36,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002973106610752088,
      "loss": 0.3939,
      "step": 91020
    },
    {
      "epoch": 121.37333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002973100686205582,
      "loss": 0.3959,
      "step": 91030
    },
    {
      "epoch": 121.38666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029730947610124696,
      "loss": 0.387,
      "step": 91040
    },
    {
      "epoch": 121.4,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029730888351727554,
      "loss": 0.3949,
      "step": 91050
    },
    {
      "epoch": 121.41333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029730829086864415,
      "loss": 0.3991,
      "step": 91060
    },
    {
      "epoch": 121.42666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029730769815535294,
      "loss": 0.4009,
      "step": 91070
    },
    {
      "epoch": 121.44,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029730710537740224,
      "loss": 0.4121,
      "step": 91080
    },
    {
      "epoch": 121.45333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002973065125347924,
      "loss": 0.4004,
      "step": 91090
    },
    {
      "epoch": 121.46666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002973059196275235,
      "loss": 0.41,
      "step": 91100
    },
    {
      "epoch": 121.48,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029730532665559595,
      "loss": 0.3904,
      "step": 91110
    },
    {
      "epoch": 121.49333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002973047336190099,
      "loss": 0.4027,
      "step": 91120
    },
    {
      "epoch": 121.50666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029730414051776574,
      "loss": 0.4013,
      "step": 91130
    },
    {
      "epoch": 121.52,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002973035473518636,
      "loss": 0.3923,
      "step": 91140
    },
    {
      "epoch": 121.53333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002973029541213038,
      "loss": 0.3946,
      "step": 91150
    },
    {
      "epoch": 121.54666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002973023608260866,
      "loss": 0.3971,
      "step": 91160
    },
    {
      "epoch": 121.56,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002973017674662123,
      "loss": 0.3897,
      "step": 91170
    },
    {
      "epoch": 121.57333333333334,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029730117404168106,
      "loss": 0.3946,
      "step": 91180
    },
    {
      "epoch": 121.58666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029730058055249325,
      "loss": 0.3836,
      "step": 91190
    },
    {
      "epoch": 121.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029729998699864904,
      "loss": 0.384,
      "step": 91200
    },
    {
      "epoch": 121.61333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002972993933801487,
      "loss": 0.3744,
      "step": 91210
    },
    {
      "epoch": 121.62666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029729879969699264,
      "loss": 0.3802,
      "step": 91220
    },
    {
      "epoch": 121.64,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002972982059491809,
      "loss": 0.3918,
      "step": 91230
    },
    {
      "epoch": 121.65333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029729761213671385,
      "loss": 0.4014,
      "step": 91240
    },
    {
      "epoch": 121.66666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002972970182595918,
      "loss": 0.3888,
      "step": 91250
    },
    {
      "epoch": 121.68,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029729642431781483,
      "loss": 0.3801,
      "step": 91260
    },
    {
      "epoch": 121.69333333333333,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029729583031138344,
      "loss": 0.3893,
      "step": 91270
    },
    {
      "epoch": 121.70666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002972952362402977,
      "loss": 0.3825,
      "step": 91280
    },
    {
      "epoch": 121.72,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000297294642104558,
      "loss": 0.4051,
      "step": 91290
    },
    {
      "epoch": 121.73333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029729404790416444,
      "loss": 0.3984,
      "step": 91300
    },
    {
      "epoch": 121.74666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002972934536391175,
      "loss": 0.4014,
      "step": 91310
    },
    {
      "epoch": 121.76,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002972928593094173,
      "loss": 0.4145,
      "step": 91320
    },
    {
      "epoch": 121.77333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002972922649150641,
      "loss": 0.4018,
      "step": 91330
    },
    {
      "epoch": 121.78666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002972916704560582,
      "loss": 0.4015,
      "step": 91340
    },
    {
      "epoch": 121.8,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029729107593239984,
      "loss": 0.4003,
      "step": 91350
    },
    {
      "epoch": 121.81333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029729048134408934,
      "loss": 0.3741,
      "step": 91360
    },
    {
      "epoch": 121.82666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029728988669112683,
      "loss": 0.3837,
      "step": 91370
    },
    {
      "epoch": 121.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002972892919735127,
      "loss": 0.395,
      "step": 91380
    },
    {
      "epoch": 121.85333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029728869719124716,
      "loss": 0.3906,
      "step": 91390
    },
    {
      "epoch": 121.86666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002972881023443305,
      "loss": 0.3948,
      "step": 91400
    },
    {
      "epoch": 121.88,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029728750743276294,
      "loss": 0.3762,
      "step": 91410
    },
    {
      "epoch": 121.89333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002972869124565447,
      "loss": 0.3875,
      "step": 91420
    },
    {
      "epoch": 121.90666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029728631741567617,
      "loss": 0.3938,
      "step": 91430
    },
    {
      "epoch": 121.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002972857223101575,
      "loss": 0.3963,
      "step": 91440
    },
    {
      "epoch": 121.93333333333334,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029728512713998896,
      "loss": 0.3898,
      "step": 91450
    },
    {
      "epoch": 121.94666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029728453190517093,
      "loss": 0.3919,
      "step": 91460
    },
    {
      "epoch": 121.96,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002972839366057035,
      "loss": 0.3882,
      "step": 91470
    },
    {
      "epoch": 121.97333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002972833412415871,
      "loss": 0.4133,
      "step": 91480
    },
    {
      "epoch": 121.98666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002972827458128218,
      "loss": 0.3862,
      "step": 91490
    },
    {
      "epoch": 122.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000297282150319408,
      "loss": 0.3824,
      "step": 91500
    },
    {
      "epoch": 122.0,
      "eval_loss": 0.4277336895465851,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5271,
      "eval_samples_per_second": 1.679,
      "eval_steps_per_second": 0.105,
      "step": 91500
    },
    {
      "epoch": 122.01333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.000297281554761346,
      "loss": 0.3996,
      "step": 91510
    },
    {
      "epoch": 122.02666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029728095913863595,
      "loss": 0.4131,
      "step": 91520
    },
    {
      "epoch": 122.04,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002972803634512781,
      "loss": 0.4256,
      "step": 91530
    },
    {
      "epoch": 122.05333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002972797676992728,
      "loss": 0.4119,
      "step": 91540
    },
    {
      "epoch": 122.06666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002972791718826203,
      "loss": 0.3992,
      "step": 91550
    },
    {
      "epoch": 122.08,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002972785760013208,
      "loss": 0.4026,
      "step": 91560
    },
    {
      "epoch": 122.09333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002972779800553746,
      "loss": 0.4033,
      "step": 91570
    },
    {
      "epoch": 122.10666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029727738404478196,
      "loss": 0.3904,
      "step": 91580
    },
    {
      "epoch": 122.12,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029727678796954315,
      "loss": 0.3954,
      "step": 91590
    },
    {
      "epoch": 122.13333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002972761918296584,
      "loss": 0.3885,
      "step": 91600
    },
    {
      "epoch": 122.14666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029727559562512805,
      "loss": 0.407,
      "step": 91610
    },
    {
      "epoch": 122.16,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029727499935595225,
      "loss": 0.4003,
      "step": 91620
    },
    {
      "epoch": 122.17333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029727440302213133,
      "loss": 0.3952,
      "step": 91630
    },
    {
      "epoch": 122.18666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029727380662366556,
      "loss": 0.3937,
      "step": 91640
    },
    {
      "epoch": 122.2,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029727321016055516,
      "loss": 0.3863,
      "step": 91650
    },
    {
      "epoch": 122.21333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002972726136328004,
      "loss": 0.3872,
      "step": 91660
    },
    {
      "epoch": 122.22666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002972720170404016,
      "loss": 0.3983,
      "step": 91670
    },
    {
      "epoch": 122.24,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002972714203833589,
      "loss": 0.3834,
      "step": 91680
    },
    {
      "epoch": 122.25333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002972708236616727,
      "loss": 0.386,
      "step": 91690
    },
    {
      "epoch": 122.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002972702268753432,
      "loss": 0.3887,
      "step": 91700
    },
    {
      "epoch": 122.28,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029726963002437063,
      "loss": 0.4177,
      "step": 91710
    },
    {
      "epoch": 122.29333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002972690331087553,
      "loss": 0.3739,
      "step": 91720
    },
    {
      "epoch": 122.30666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029726843612849747,
      "loss": 0.3972,
      "step": 91730
    },
    {
      "epoch": 122.32,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029726783908359735,
      "loss": 0.4008,
      "step": 91740
    },
    {
      "epoch": 122.33333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029726724197405525,
      "loss": 0.402,
      "step": 91750
    },
    {
      "epoch": 122.34666666666666,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002972666447998714,
      "loss": 0.3928,
      "step": 91760
    },
    {
      "epoch": 122.36,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00029726604756104616,
      "loss": 0.3939,
      "step": 91770
    },
    {
      "epoch": 122.37333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029726545025757965,
      "loss": 0.3947,
      "step": 91780
    },
    {
      "epoch": 122.38666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002972648528894722,
      "loss": 0.3873,
      "step": 91790
    },
    {
      "epoch": 122.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002972642554567241,
      "loss": 0.3947,
      "step": 91800
    },
    {
      "epoch": 122.41333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002972636579593356,
      "loss": 0.3996,
      "step": 91810
    },
    {
      "epoch": 122.42666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029726306039730687,
      "loss": 0.4005,
      "step": 91820
    },
    {
      "epoch": 122.44,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002972624627706383,
      "loss": 0.4111,
      "step": 91830
    },
    {
      "epoch": 122.45333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002972618650793301,
      "loss": 0.4009,
      "step": 91840
    },
    {
      "epoch": 122.46666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002972612673233825,
      "loss": 0.4103,
      "step": 91850
    },
    {
      "epoch": 122.48,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002972606695027959,
      "loss": 0.3921,
      "step": 91860
    },
    {
      "epoch": 122.49333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029726007161757036,
      "loss": 0.4028,
      "step": 91870
    },
    {
      "epoch": 122.50666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002972594736677062,
      "loss": 0.4003,
      "step": 91880
    },
    {
      "epoch": 122.52,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002972588756532038,
      "loss": 0.3906,
      "step": 91890
    },
    {
      "epoch": 122.53333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029725827757406335,
      "loss": 0.3943,
      "step": 91900
    },
    {
      "epoch": 122.54666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002972576794302851,
      "loss": 0.3971,
      "step": 91910
    },
    {
      "epoch": 122.56,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002972570812218692,
      "loss": 0.3915,
      "step": 91920
    },
    {
      "epoch": 122.57333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029725648294881617,
      "loss": 0.3931,
      "step": 91930
    },
    {
      "epoch": 122.58666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002972558846111261,
      "loss": 0.3829,
      "step": 91940
    },
    {
      "epoch": 122.6,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002972552862087993,
      "loss": 0.3842,
      "step": 91950
    },
    {
      "epoch": 122.61333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029725468774183597,
      "loss": 0.3753,
      "step": 91960
    },
    {
      "epoch": 122.62666666666667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029725408921023647,
      "loss": 0.3784,
      "step": 91970
    },
    {
      "epoch": 122.64,
      "grad_norm": 0.390625,
      "learning_rate": 0.000297253490614001,
      "loss": 0.3926,
      "step": 91980
    },
    {
      "epoch": 122.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029725289195312986,
      "loss": 0.4014,
      "step": 91990
    },
    {
      "epoch": 122.66666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029725229322762325,
      "loss": 0.3894,
      "step": 92000
    },
    {
      "epoch": 122.68,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002972516944374815,
      "loss": 0.3804,
      "step": 92010
    },
    {
      "epoch": 122.69333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029725109558270484,
      "loss": 0.3891,
      "step": 92020
    },
    {
      "epoch": 122.70666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002972504966632935,
      "loss": 0.3826,
      "step": 92030
    },
    {
      "epoch": 122.72,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029724989767924786,
      "loss": 0.4051,
      "step": 92040
    },
    {
      "epoch": 122.73333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029724929863056805,
      "loss": 0.3991,
      "step": 92050
    },
    {
      "epoch": 122.74666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002972486995172544,
      "loss": 0.4014,
      "step": 92060
    },
    {
      "epoch": 122.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002972481003393072,
      "loss": 0.4135,
      "step": 92070
    },
    {
      "epoch": 122.77333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029724750109672655,
      "loss": 0.4021,
      "step": 92080
    },
    {
      "epoch": 122.78666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000297246901789513,
      "loss": 0.402,
      "step": 92090
    },
    {
      "epoch": 122.8,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029724630241766657,
      "loss": 0.4008,
      "step": 92100
    },
    {
      "epoch": 122.81333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029724570298118755,
      "loss": 0.3739,
      "step": 92110
    },
    {
      "epoch": 122.82666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029724510348007636,
      "loss": 0.3833,
      "step": 92120
    },
    {
      "epoch": 122.84,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002972445039143331,
      "loss": 0.3954,
      "step": 92130
    },
    {
      "epoch": 122.85333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002972439042839581,
      "loss": 0.3904,
      "step": 92140
    },
    {
      "epoch": 122.86666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029724330458895165,
      "loss": 0.3951,
      "step": 92150
    },
    {
      "epoch": 122.88,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002972427048293139,
      "loss": 0.3758,
      "step": 92160
    },
    {
      "epoch": 122.89333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029724210500504527,
      "loss": 0.3878,
      "step": 92170
    },
    {
      "epoch": 122.90666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002972415051161459,
      "loss": 0.3943,
      "step": 92180
    },
    {
      "epoch": 122.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029724090516261613,
      "loss": 0.3964,
      "step": 92190
    },
    {
      "epoch": 122.93333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029724030514445614,
      "loss": 0.3905,
      "step": 92200
    },
    {
      "epoch": 122.94666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002972397050616663,
      "loss": 0.3908,
      "step": 92210
    },
    {
      "epoch": 122.96,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002972391049142468,
      "loss": 0.3885,
      "step": 92220
    },
    {
      "epoch": 122.97333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002972385047021979,
      "loss": 0.414,
      "step": 92230
    },
    {
      "epoch": 122.98666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029723790442551994,
      "loss": 0.3876,
      "step": 92240
    },
    {
      "epoch": 123.0,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029723730408421305,
      "loss": 0.3818,
      "step": 92250
    },
    {
      "epoch": 123.0,
      "eval_loss": 0.4266425371170044,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.4314,
      "eval_samples_per_second": 1.534,
      "eval_steps_per_second": 0.096,
      "step": 92250
    },
    {
      "epoch": 123.01333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002972367036782777,
      "loss": 0.399,
      "step": 92260
    },
    {
      "epoch": 123.02666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002972361032077139,
      "loss": 0.4138,
      "step": 92270
    },
    {
      "epoch": 123.04,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002972355026725221,
      "loss": 0.4255,
      "step": 92280
    },
    {
      "epoch": 123.05333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002972349020727025,
      "loss": 0.4112,
      "step": 92290
    },
    {
      "epoch": 123.06666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029723430140825535,
      "loss": 0.3979,
      "step": 92300
    },
    {
      "epoch": 123.08,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029723370067918095,
      "loss": 0.4021,
      "step": 92310
    },
    {
      "epoch": 123.09333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029723309988547954,
      "loss": 0.403,
      "step": 92320
    },
    {
      "epoch": 123.10666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029723249902715134,
      "loss": 0.3905,
      "step": 92330
    },
    {
      "epoch": 123.12,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002972318981041967,
      "loss": 0.3961,
      "step": 92340
    },
    {
      "epoch": 123.13333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002972312971166159,
      "loss": 0.3878,
      "step": 92350
    },
    {
      "epoch": 123.14666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029723069606440907,
      "loss": 0.4068,
      "step": 92360
    },
    {
      "epoch": 123.16,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002972300949475766,
      "loss": 0.3999,
      "step": 92370
    },
    {
      "epoch": 123.17333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002972294937661187,
      "loss": 0.3947,
      "step": 92380
    },
    {
      "epoch": 123.18666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002972288925200356,
      "loss": 0.3937,
      "step": 92390
    },
    {
      "epoch": 123.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029722829120932767,
      "loss": 0.3859,
      "step": 92400
    },
    {
      "epoch": 123.21333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029722768983399505,
      "loss": 0.386,
      "step": 92410
    },
    {
      "epoch": 123.22666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002972270883940381,
      "loss": 0.399,
      "step": 92420
    },
    {
      "epoch": 123.24,
      "grad_norm": 0.47265625,
      "learning_rate": 0.000297226486889457,
      "loss": 0.3831,
      "step": 92430
    },
    {
      "epoch": 123.25333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029722588532025214,
      "loss": 0.3856,
      "step": 92440
    },
    {
      "epoch": 123.26666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029722528368642366,
      "loss": 0.3876,
      "step": 92450
    },
    {
      "epoch": 123.28,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029722468198797186,
      "loss": 0.4177,
      "step": 92460
    },
    {
      "epoch": 123.29333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029722408022489705,
      "loss": 0.3736,
      "step": 92470
    },
    {
      "epoch": 123.30666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002972234783971994,
      "loss": 0.397,
      "step": 92480
    },
    {
      "epoch": 123.32,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029722287650487924,
      "loss": 0.3996,
      "step": 92490
    },
    {
      "epoch": 123.33333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002972222745479369,
      "loss": 0.4026,
      "step": 92500
    },
    {
      "epoch": 123.34666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002972216725263725,
      "loss": 0.3936,
      "step": 92510
    },
    {
      "epoch": 123.36,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029722107044018636,
      "loss": 0.3932,
      "step": 92520
    },
    {
      "epoch": 123.37333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002972204682893788,
      "loss": 0.3951,
      "step": 92530
    },
    {
      "epoch": 123.38666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029721986607395,
      "loss": 0.3866,
      "step": 92540
    },
    {
      "epoch": 123.4,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029721926379390034,
      "loss": 0.3943,
      "step": 92550
    },
    {
      "epoch": 123.41333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029721866144923,
      "loss": 0.3989,
      "step": 92560
    },
    {
      "epoch": 123.42666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002972180590399392,
      "loss": 0.3996,
      "step": 92570
    },
    {
      "epoch": 123.44,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002972174565660283,
      "loss": 0.4118,
      "step": 92580
    },
    {
      "epoch": 123.45333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029721685402749753,
      "loss": 0.401,
      "step": 92590
    },
    {
      "epoch": 123.46666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002972162514243471,
      "loss": 0.4097,
      "step": 92600
    },
    {
      "epoch": 123.48,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029721564875657736,
      "loss": 0.3909,
      "step": 92610
    },
    {
      "epoch": 123.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002972150460241885,
      "loss": 0.4031,
      "step": 92620
    },
    {
      "epoch": 123.50666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002972144432271809,
      "loss": 0.4003,
      "step": 92630
    },
    {
      "epoch": 123.52,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002972138403655547,
      "loss": 0.3915,
      "step": 92640
    },
    {
      "epoch": 123.53333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002972132374393102,
      "loss": 0.3946,
      "step": 92650
    },
    {
      "epoch": 123.54666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002972126344484477,
      "loss": 0.3966,
      "step": 92660
    },
    {
      "epoch": 123.56,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002972120313929675,
      "loss": 0.3911,
      "step": 92670
    },
    {
      "epoch": 123.57333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029721142827286967,
      "loss": 0.3943,
      "step": 92680
    },
    {
      "epoch": 123.58666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029721082508815465,
      "loss": 0.3831,
      "step": 92690
    },
    {
      "epoch": 123.6,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002972102218388227,
      "loss": 0.3848,
      "step": 92700
    },
    {
      "epoch": 123.61333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029720961852487405,
      "loss": 0.375,
      "step": 92710
    },
    {
      "epoch": 123.62666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000297209015146309,
      "loss": 0.3803,
      "step": 92720
    },
    {
      "epoch": 123.64,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029720841170312773,
      "loss": 0.3919,
      "step": 92730
    },
    {
      "epoch": 123.65333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002972078081953306,
      "loss": 0.4017,
      "step": 92740
    },
    {
      "epoch": 123.66666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029720720462291775,
      "loss": 0.3889,
      "step": 92750
    },
    {
      "epoch": 123.68,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002972066009858896,
      "loss": 0.3804,
      "step": 92760
    },
    {
      "epoch": 123.69333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002972059972842463,
      "loss": 0.3902,
      "step": 92770
    },
    {
      "epoch": 123.70666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002972053935179882,
      "loss": 0.3838,
      "step": 92780
    },
    {
      "epoch": 123.72,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002972047896871154,
      "loss": 0.4056,
      "step": 92790
    },
    {
      "epoch": 123.73333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002972041857916284,
      "loss": 0.3989,
      "step": 92800
    },
    {
      "epoch": 123.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002972035818315273,
      "loss": 0.4014,
      "step": 92810
    },
    {
      "epoch": 123.76,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002972029778068125,
      "loss": 0.4148,
      "step": 92820
    },
    {
      "epoch": 123.77333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002972023737174841,
      "loss": 0.4012,
      "step": 92830
    },
    {
      "epoch": 123.78666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002972017695635424,
      "loss": 0.4016,
      "step": 92840
    },
    {
      "epoch": 123.8,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002972011653449878,
      "loss": 0.4003,
      "step": 92850
    },
    {
      "epoch": 123.81333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029720056106182044,
      "loss": 0.3744,
      "step": 92860
    },
    {
      "epoch": 123.82666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029719995671404067,
      "loss": 0.3836,
      "step": 92870
    },
    {
      "epoch": 123.84,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002971993523016486,
      "loss": 0.3946,
      "step": 92880
    },
    {
      "epoch": 123.85333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002971987478246447,
      "loss": 0.3907,
      "step": 92890
    },
    {
      "epoch": 123.86666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002971981432830291,
      "loss": 0.3956,
      "step": 92900
    },
    {
      "epoch": 123.88,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002971975386768021,
      "loss": 0.3766,
      "step": 92910
    },
    {
      "epoch": 123.89333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029719693400596394,
      "loss": 0.3873,
      "step": 92920
    },
    {
      "epoch": 123.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000297196329270515,
      "loss": 0.3949,
      "step": 92930
    },
    {
      "epoch": 123.92,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029719572447045535,
      "loss": 0.3961,
      "step": 92940
    },
    {
      "epoch": 123.93333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029719511960578544,
      "loss": 0.3899,
      "step": 92950
    },
    {
      "epoch": 123.94666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029719451467650544,
      "loss": 0.3918,
      "step": 92960
    },
    {
      "epoch": 123.96,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029719390968261565,
      "loss": 0.3886,
      "step": 92970
    },
    {
      "epoch": 123.97333333333333,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0002971933046241163,
      "loss": 0.4144,
      "step": 92980
    },
    {
      "epoch": 123.98666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002971926995010077,
      "loss": 0.3871,
      "step": 92990
    },
    {
      "epoch": 124.0,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029719209431329003,
      "loss": 0.3824,
      "step": 93000
    },
    {
      "epoch": 124.0,
      "eval_loss": 0.4261782467365265,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1064,
      "eval_samples_per_second": 1.583,
      "eval_steps_per_second": 0.099,
      "step": 93000
    },
    {
      "epoch": 124.01333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029719148906096364,
      "loss": 0.3993,
      "step": 93010
    },
    {
      "epoch": 124.02666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002971908837440288,
      "loss": 0.4129,
      "step": 93020
    },
    {
      "epoch": 124.04,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029719027836248575,
      "loss": 0.4259,
      "step": 93030
    },
    {
      "epoch": 124.05333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029718967291633475,
      "loss": 0.4115,
      "step": 93040
    },
    {
      "epoch": 124.06666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002971890674055761,
      "loss": 0.3983,
      "step": 93050
    },
    {
      "epoch": 124.08,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029718846183020997,
      "loss": 0.401,
      "step": 93060
    },
    {
      "epoch": 124.09333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002971878561902367,
      "loss": 0.4032,
      "step": 93070
    },
    {
      "epoch": 124.10666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029718725048565655,
      "loss": 0.391,
      "step": 93080
    },
    {
      "epoch": 124.12,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002971866447164698,
      "loss": 0.396,
      "step": 93090
    },
    {
      "epoch": 124.13333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002971860388826767,
      "loss": 0.3871,
      "step": 93100
    },
    {
      "epoch": 124.14666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002971854329842775,
      "loss": 0.4062,
      "step": 93110
    },
    {
      "epoch": 124.16,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002971848270212725,
      "loss": 0.3995,
      "step": 93120
    },
    {
      "epoch": 124.17333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029718422099366193,
      "loss": 0.3938,
      "step": 93130
    },
    {
      "epoch": 124.18666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029718361490144613,
      "loss": 0.3932,
      "step": 93140
    },
    {
      "epoch": 124.2,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029718300874462527,
      "loss": 0.3861,
      "step": 93150
    },
    {
      "epoch": 124.21333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002971824025231996,
      "loss": 0.3869,
      "step": 93160
    },
    {
      "epoch": 124.22666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002971817962371695,
      "loss": 0.3994,
      "step": 93170
    },
    {
      "epoch": 124.24,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002971811898865352,
      "loss": 0.3833,
      "step": 93180
    },
    {
      "epoch": 124.25333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002971805834712969,
      "loss": 0.385,
      "step": 93190
    },
    {
      "epoch": 124.26666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002971799769914549,
      "loss": 0.388,
      "step": 93200
    },
    {
      "epoch": 124.28,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029717937044700956,
      "loss": 0.4176,
      "step": 93210
    },
    {
      "epoch": 124.29333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.000297178763837961,
      "loss": 0.374,
      "step": 93220
    },
    {
      "epoch": 124.30666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002971781571643095,
      "loss": 0.397,
      "step": 93230
    },
    {
      "epoch": 124.32,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029717755042605546,
      "loss": 0.3997,
      "step": 93240
    },
    {
      "epoch": 124.33333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000297176943623199,
      "loss": 0.403,
      "step": 93250
    },
    {
      "epoch": 124.34666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002971763367557405,
      "loss": 0.3937,
      "step": 93260
    },
    {
      "epoch": 124.36,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029717572982368017,
      "loss": 0.3939,
      "step": 93270
    },
    {
      "epoch": 124.37333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002971751228270182,
      "loss": 0.3948,
      "step": 93280
    },
    {
      "epoch": 124.38666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000297174515765755,
      "loss": 0.3872,
      "step": 93290
    },
    {
      "epoch": 124.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002971739086398908,
      "loss": 0.3941,
      "step": 93300
    },
    {
      "epoch": 124.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002971733014494258,
      "loss": 0.4,
      "step": 93310
    },
    {
      "epoch": 124.42666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002971726941943603,
      "loss": 0.4013,
      "step": 93320
    },
    {
      "epoch": 124.44,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002971720868746946,
      "loss": 0.4116,
      "step": 93330
    },
    {
      "epoch": 124.45333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002971714794904289,
      "loss": 0.4008,
      "step": 93340
    },
    {
      "epoch": 124.46666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029717087204156356,
      "loss": 0.4095,
      "step": 93350
    },
    {
      "epoch": 124.48,
      "grad_norm": 0.375,
      "learning_rate": 0.0002971702645280988,
      "loss": 0.3911,
      "step": 93360
    },
    {
      "epoch": 124.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002971696569500348,
      "loss": 0.4024,
      "step": 93370
    },
    {
      "epoch": 124.50666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029716904930737195,
      "loss": 0.401,
      "step": 93380
    },
    {
      "epoch": 124.52,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002971684416001105,
      "loss": 0.3915,
      "step": 93390
    },
    {
      "epoch": 124.53333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002971678338282506,
      "loss": 0.3945,
      "step": 93400
    },
    {
      "epoch": 124.54666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002971672259917927,
      "loss": 0.3956,
      "step": 93410
    },
    {
      "epoch": 124.56,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000297166618090737,
      "loss": 0.3907,
      "step": 93420
    },
    {
      "epoch": 124.57333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002971660101250836,
      "loss": 0.3935,
      "step": 93430
    },
    {
      "epoch": 124.58666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000297165402094833,
      "loss": 0.3822,
      "step": 93440
    },
    {
      "epoch": 124.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002971647939999854,
      "loss": 0.3841,
      "step": 93450
    },
    {
      "epoch": 124.61333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029716418584054097,
      "loss": 0.3745,
      "step": 93460
    },
    {
      "epoch": 124.62666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029716357761650007,
      "loss": 0.3805,
      "step": 93470
    },
    {
      "epoch": 124.64,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000297162969327863,
      "loss": 0.3916,
      "step": 93480
    },
    {
      "epoch": 124.65333333333334,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029716236097462987,
      "loss": 0.4015,
      "step": 93490
    },
    {
      "epoch": 124.66666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029716175255680116,
      "loss": 0.3888,
      "step": 93500
    },
    {
      "epoch": 124.68,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029716114407437694,
      "loss": 0.3804,
      "step": 93510
    },
    {
      "epoch": 124.69333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029716053552735763,
      "loss": 0.3891,
      "step": 93520
    },
    {
      "epoch": 124.70666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002971599269157434,
      "loss": 0.3828,
      "step": 93530
    },
    {
      "epoch": 124.72,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029715931823953446,
      "loss": 0.4038,
      "step": 93540
    },
    {
      "epoch": 124.73333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029715870949873125,
      "loss": 0.3986,
      "step": 93550
    },
    {
      "epoch": 124.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029715810069333394,
      "loss": 0.4014,
      "step": 93560
    },
    {
      "epoch": 124.76,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029715749182334284,
      "loss": 0.414,
      "step": 93570
    },
    {
      "epoch": 124.77333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029715688288875817,
      "loss": 0.4006,
      "step": 93580
    },
    {
      "epoch": 124.78666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002971562738895802,
      "loss": 0.402,
      "step": 93590
    },
    {
      "epoch": 124.8,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002971556648258092,
      "loss": 0.3999,
      "step": 93600
    },
    {
      "epoch": 124.81333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002971550556974454,
      "loss": 0.3736,
      "step": 93610
    },
    {
      "epoch": 124.82666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029715444650448925,
      "loss": 0.3839,
      "step": 93620
    },
    {
      "epoch": 124.84,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002971538372469408,
      "loss": 0.3954,
      "step": 93630
    },
    {
      "epoch": 124.85333333333334,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029715322792480043,
      "loss": 0.3899,
      "step": 93640
    },
    {
      "epoch": 124.86666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029715261853806833,
      "loss": 0.3951,
      "step": 93650
    },
    {
      "epoch": 124.88,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029715200908674483,
      "loss": 0.3756,
      "step": 93660
    },
    {
      "epoch": 124.89333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002971513995708302,
      "loss": 0.3875,
      "step": 93670
    },
    {
      "epoch": 124.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029715078999032466,
      "loss": 0.3949,
      "step": 93680
    },
    {
      "epoch": 124.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029715018034522854,
      "loss": 0.3965,
      "step": 93690
    },
    {
      "epoch": 124.93333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029714957063554204,
      "loss": 0.3894,
      "step": 93700
    },
    {
      "epoch": 124.94666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002971489608612655,
      "loss": 0.3901,
      "step": 93710
    },
    {
      "epoch": 124.96,
      "grad_norm": 0.375,
      "learning_rate": 0.00029714835102239914,
      "loss": 0.388,
      "step": 93720
    },
    {
      "epoch": 124.97333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002971477411189432,
      "loss": 0.4136,
      "step": 93730
    },
    {
      "epoch": 124.98666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002971471311508981,
      "loss": 0.3877,
      "step": 93740
    },
    {
      "epoch": 125.0,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029714652111826386,
      "loss": 0.3819,
      "step": 93750
    },
    {
      "epoch": 125.0,
      "eval_loss": 0.4256143271923065,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.025,
      "eval_samples_per_second": 1.596,
      "eval_steps_per_second": 0.1,
      "step": 93750
    },
    {
      "epoch": 125.01333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002971459110210409,
      "loss": 0.4007,
      "step": 93760
    },
    {
      "epoch": 125.02666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002971453008592295,
      "loss": 0.4125,
      "step": 93770
    },
    {
      "epoch": 125.04,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029714469063282995,
      "loss": 0.426,
      "step": 93780
    },
    {
      "epoch": 125.05333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029714408034184245,
      "loss": 0.411,
      "step": 93790
    },
    {
      "epoch": 125.06666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029714346998626723,
      "loss": 0.3986,
      "step": 93800
    },
    {
      "epoch": 125.08,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002971428595661046,
      "loss": 0.4021,
      "step": 93810
    },
    {
      "epoch": 125.09333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002971422490813549,
      "loss": 0.4035,
      "step": 93820
    },
    {
      "epoch": 125.10666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002971416385320183,
      "loss": 0.3914,
      "step": 93830
    },
    {
      "epoch": 125.12,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002971410279180951,
      "loss": 0.3963,
      "step": 93840
    },
    {
      "epoch": 125.13333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002971404172395856,
      "loss": 0.387,
      "step": 93850
    },
    {
      "epoch": 125.14666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029713980649649,
      "loss": 0.4064,
      "step": 93860
    },
    {
      "epoch": 125.16,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029713919568880867,
      "loss": 0.3996,
      "step": 93870
    },
    {
      "epoch": 125.17333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002971385848165417,
      "loss": 0.3947,
      "step": 93880
    },
    {
      "epoch": 125.18666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002971379738796896,
      "loss": 0.3927,
      "step": 93890
    },
    {
      "epoch": 125.2,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029713736287825246,
      "loss": 0.3869,
      "step": 93900
    },
    {
      "epoch": 125.21333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002971367518122306,
      "loss": 0.3871,
      "step": 93910
    },
    {
      "epoch": 125.22666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029713614068162426,
      "loss": 0.3979,
      "step": 93920
    },
    {
      "epoch": 125.24,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029713552948643383,
      "loss": 0.3829,
      "step": 93930
    },
    {
      "epoch": 125.25333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002971349182266594,
      "loss": 0.3853,
      "step": 93940
    },
    {
      "epoch": 125.26666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002971343069023014,
      "loss": 0.3877,
      "step": 93950
    },
    {
      "epoch": 125.28,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029713369551335995,
      "loss": 0.4183,
      "step": 93960
    },
    {
      "epoch": 125.29333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002971330840598354,
      "loss": 0.3737,
      "step": 93970
    },
    {
      "epoch": 125.30666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000297132472541728,
      "loss": 0.3968,
      "step": 93980
    },
    {
      "epoch": 125.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029713186095903807,
      "loss": 0.3997,
      "step": 93990
    },
    {
      "epoch": 125.33333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029713124931176585,
      "loss": 0.4026,
      "step": 94000
    },
    {
      "epoch": 125.34666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029713063759991156,
      "loss": 0.3931,
      "step": 94010
    },
    {
      "epoch": 125.36,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00029713002582347546,
      "loss": 0.3934,
      "step": 94020
    },
    {
      "epoch": 125.37333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029712941398245794,
      "loss": 0.3946,
      "step": 94030
    },
    {
      "epoch": 125.38666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029712880207685916,
      "loss": 0.3876,
      "step": 94040
    },
    {
      "epoch": 125.4,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002971281901066794,
      "loss": 0.395,
      "step": 94050
    },
    {
      "epoch": 125.41333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029712757807191895,
      "loss": 0.3985,
      "step": 94060
    },
    {
      "epoch": 125.42666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002971269659725781,
      "loss": 0.4003,
      "step": 94070
    },
    {
      "epoch": 125.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002971263538086571,
      "loss": 0.4118,
      "step": 94080
    },
    {
      "epoch": 125.45333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002971257415801562,
      "loss": 0.4001,
      "step": 94090
    },
    {
      "epoch": 125.46666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002971251292870757,
      "loss": 0.4095,
      "step": 94100
    },
    {
      "epoch": 125.48,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029712451692941584,
      "loss": 0.3909,
      "step": 94110
    },
    {
      "epoch": 125.49333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002971239045071769,
      "loss": 0.4024,
      "step": 94120
    },
    {
      "epoch": 125.50666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002971232920203591,
      "loss": 0.4015,
      "step": 94130
    },
    {
      "epoch": 125.52,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002971226794689628,
      "loss": 0.3901,
      "step": 94140
    },
    {
      "epoch": 125.53333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029712206685298824,
      "loss": 0.3945,
      "step": 94150
    },
    {
      "epoch": 125.54666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002971214541724357,
      "loss": 0.3967,
      "step": 94160
    },
    {
      "epoch": 125.56,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029712084142730533,
      "loss": 0.3892,
      "step": 94170
    },
    {
      "epoch": 125.57333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029712022861759756,
      "loss": 0.3942,
      "step": 94180
    },
    {
      "epoch": 125.58666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002971196157433126,
      "loss": 0.3823,
      "step": 94190
    },
    {
      "epoch": 125.6,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029711900280445067,
      "loss": 0.3844,
      "step": 94200
    },
    {
      "epoch": 125.61333333333333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002971183898010121,
      "loss": 0.3745,
      "step": 94210
    },
    {
      "epoch": 125.62666666666667,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0002971177767329971,
      "loss": 0.3795,
      "step": 94220
    },
    {
      "epoch": 125.64,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029711716360040607,
      "loss": 0.3922,
      "step": 94230
    },
    {
      "epoch": 125.65333333333334,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002971165504032391,
      "loss": 0.4005,
      "step": 94240
    },
    {
      "epoch": 125.66666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002971159371414966,
      "loss": 0.3881,
      "step": 94250
    },
    {
      "epoch": 125.68,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002971153238151788,
      "loss": 0.3811,
      "step": 94260
    },
    {
      "epoch": 125.69333333333333,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00029711471042428593,
      "loss": 0.3901,
      "step": 94270
    },
    {
      "epoch": 125.70666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029711409696881824,
      "loss": 0.3822,
      "step": 94280
    },
    {
      "epoch": 125.72,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002971134834487761,
      "loss": 0.4045,
      "step": 94290
    },
    {
      "epoch": 125.73333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002971128698641597,
      "loss": 0.3985,
      "step": 94300
    },
    {
      "epoch": 125.74666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029711225621496936,
      "loss": 0.401,
      "step": 94310
    },
    {
      "epoch": 125.76,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029711164250120526,
      "loss": 0.4139,
      "step": 94320
    },
    {
      "epoch": 125.77333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002971110287228678,
      "loss": 0.4011,
      "step": 94330
    },
    {
      "epoch": 125.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029711041487995716,
      "loss": 0.4026,
      "step": 94340
    },
    {
      "epoch": 125.8,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002971098009724736,
      "loss": 0.3994,
      "step": 94350
    },
    {
      "epoch": 125.81333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002971091870004174,
      "loss": 0.3738,
      "step": 94360
    },
    {
      "epoch": 125.82666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002971085729637889,
      "loss": 0.3827,
      "step": 94370
    },
    {
      "epoch": 125.84,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029710795886258836,
      "loss": 0.3948,
      "step": 94380
    },
    {
      "epoch": 125.85333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002971073446968159,
      "loss": 0.3908,
      "step": 94390
    },
    {
      "epoch": 125.86666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.000297106730466472,
      "loss": 0.3944,
      "step": 94400
    },
    {
      "epoch": 125.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029710611617155675,
      "loss": 0.3757,
      "step": 94410
    },
    {
      "epoch": 125.89333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002971055018120705,
      "loss": 0.3882,
      "step": 94420
    },
    {
      "epoch": 125.90666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029710488738801357,
      "loss": 0.3938,
      "step": 94430
    },
    {
      "epoch": 125.92,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029710427289938616,
      "loss": 0.3959,
      "step": 94440
    },
    {
      "epoch": 125.93333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029710365834618855,
      "loss": 0.3899,
      "step": 94450
    },
    {
      "epoch": 125.94666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000297103043728421,
      "loss": 0.3905,
      "step": 94460
    },
    {
      "epoch": 125.96,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029710242904608375,
      "loss": 0.389,
      "step": 94470
    },
    {
      "epoch": 125.97333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002971018142991772,
      "loss": 0.4129,
      "step": 94480
    },
    {
      "epoch": 125.98666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002971011994877015,
      "loss": 0.3863,
      "step": 94490
    },
    {
      "epoch": 126.0,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000297100584611657,
      "loss": 0.3829,
      "step": 94500
    },
    {
      "epoch": 126.0,
      "eval_loss": 0.4274330735206604,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.773,
      "eval_samples_per_second": 1.637,
      "eval_steps_per_second": 0.102,
      "step": 94500
    },
    {
      "epoch": 126.01333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029709996967104387,
      "loss": 0.3986,
      "step": 94510
    },
    {
      "epoch": 126.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029709935466586243,
      "loss": 0.413,
      "step": 94520
    },
    {
      "epoch": 126.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029709873959611296,
      "loss": 0.4259,
      "step": 94530
    },
    {
      "epoch": 126.05333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002970981244617958,
      "loss": 0.411,
      "step": 94540
    },
    {
      "epoch": 126.06666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029709750926291105,
      "loss": 0.399,
      "step": 94550
    },
    {
      "epoch": 126.08,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029709689399945905,
      "loss": 0.4025,
      "step": 94560
    },
    {
      "epoch": 126.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002970962786714402,
      "loss": 0.4026,
      "step": 94570
    },
    {
      "epoch": 126.10666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002970956632788546,
      "loss": 0.3907,
      "step": 94580
    },
    {
      "epoch": 126.12,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002970950478217026,
      "loss": 0.3955,
      "step": 94590
    },
    {
      "epoch": 126.13333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029709443229998446,
      "loss": 0.3879,
      "step": 94600
    },
    {
      "epoch": 126.14666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002970938167137005,
      "loss": 0.4065,
      "step": 94610
    },
    {
      "epoch": 126.16,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029709320106285084,
      "loss": 0.4001,
      "step": 94620
    },
    {
      "epoch": 126.17333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002970925853474358,
      "loss": 0.3941,
      "step": 94630
    },
    {
      "epoch": 126.18666666666667,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002970919695674558,
      "loss": 0.3929,
      "step": 94640
    },
    {
      "epoch": 126.2,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000297091353722911,
      "loss": 0.3858,
      "step": 94650
    },
    {
      "epoch": 126.21333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029709073781380166,
      "loss": 0.3864,
      "step": 94660
    },
    {
      "epoch": 126.22666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029709012184012806,
      "loss": 0.3974,
      "step": 94670
    },
    {
      "epoch": 126.24,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029708950580189055,
      "loss": 0.3831,
      "step": 94680
    },
    {
      "epoch": 126.25333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029708888969908923,
      "loss": 0.3857,
      "step": 94690
    },
    {
      "epoch": 126.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002970882735317245,
      "loss": 0.3867,
      "step": 94700
    },
    {
      "epoch": 126.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002970876572997966,
      "loss": 0.4166,
      "step": 94710
    },
    {
      "epoch": 126.29333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029708704100330576,
      "loss": 0.3742,
      "step": 94720
    },
    {
      "epoch": 126.30666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029708642464225236,
      "loss": 0.3975,
      "step": 94730
    },
    {
      "epoch": 126.32,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029708580821663657,
      "loss": 0.3997,
      "step": 94740
    },
    {
      "epoch": 126.33333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029708519172645865,
      "loss": 0.4027,
      "step": 94750
    },
    {
      "epoch": 126.34666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000297084575171719,
      "loss": 0.3931,
      "step": 94760
    },
    {
      "epoch": 126.36,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029708395855241774,
      "loss": 0.3941,
      "step": 94770
    },
    {
      "epoch": 126.37333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002970833418685552,
      "loss": 0.3942,
      "step": 94780
    },
    {
      "epoch": 126.38666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029708272512013164,
      "loss": 0.3871,
      "step": 94790
    },
    {
      "epoch": 126.4,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002970821083071474,
      "loss": 0.3938,
      "step": 94800
    },
    {
      "epoch": 126.41333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029708149142960267,
      "loss": 0.3984,
      "step": 94810
    },
    {
      "epoch": 126.42666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029708087448749774,
      "loss": 0.3999,
      "step": 94820
    },
    {
      "epoch": 126.44,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002970802574808329,
      "loss": 0.4119,
      "step": 94830
    },
    {
      "epoch": 126.45333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002970796404096084,
      "loss": 0.3999,
      "step": 94840
    },
    {
      "epoch": 126.46666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002970790232738245,
      "loss": 0.4093,
      "step": 94850
    },
    {
      "epoch": 126.48,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029707840607348147,
      "loss": 0.391,
      "step": 94860
    },
    {
      "epoch": 126.49333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002970777888085797,
      "loss": 0.4023,
      "step": 94870
    },
    {
      "epoch": 126.50666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029707717147911924,
      "loss": 0.4005,
      "step": 94880
    },
    {
      "epoch": 126.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002970765540851005,
      "loss": 0.391,
      "step": 94890
    },
    {
      "epoch": 126.53333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002970759366265238,
      "loss": 0.395,
      "step": 94900
    },
    {
      "epoch": 126.54666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002970753191033893,
      "loss": 0.396,
      "step": 94910
    },
    {
      "epoch": 126.56,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029707470151569735,
      "loss": 0.3908,
      "step": 94920
    },
    {
      "epoch": 126.57333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002970740838634481,
      "loss": 0.3947,
      "step": 94930
    },
    {
      "epoch": 126.58666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000297073466146642,
      "loss": 0.3832,
      "step": 94940
    },
    {
      "epoch": 126.6,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002970728483652792,
      "loss": 0.3838,
      "step": 94950
    },
    {
      "epoch": 126.61333333333333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029707223051935995,
      "loss": 0.3752,
      "step": 94960
    },
    {
      "epoch": 126.62666666666667,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029707161260888467,
      "loss": 0.3796,
      "step": 94970
    },
    {
      "epoch": 126.64,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002970709946338535,
      "loss": 0.3923,
      "step": 94980
    },
    {
      "epoch": 126.65333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029707037659426665,
      "loss": 0.4018,
      "step": 94990
    },
    {
      "epoch": 126.66666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002970697584901246,
      "loss": 0.3886,
      "step": 95000
    },
    {
      "epoch": 126.68,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029706914032142745,
      "loss": 0.3803,
      "step": 95010
    },
    {
      "epoch": 126.69333333333333,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00029706852208817553,
      "loss": 0.3891,
      "step": 95020
    },
    {
      "epoch": 126.70666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029706790379036913,
      "loss": 0.3829,
      "step": 95030
    },
    {
      "epoch": 126.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002970672854280085,
      "loss": 0.4061,
      "step": 95040
    },
    {
      "epoch": 126.73333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002970666670010939,
      "loss": 0.3988,
      "step": 95050
    },
    {
      "epoch": 126.74666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002970660485096256,
      "loss": 0.4018,
      "step": 95060
    },
    {
      "epoch": 126.76,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029706542995360386,
      "loss": 0.4134,
      "step": 95070
    },
    {
      "epoch": 126.77333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000297064811333029,
      "loss": 0.4015,
      "step": 95080
    },
    {
      "epoch": 126.78666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002970641926479013,
      "loss": 0.4014,
      "step": 95090
    },
    {
      "epoch": 126.8,
      "grad_norm": 0.390625,
      "learning_rate": 0.000297063573898221,
      "loss": 0.3996,
      "step": 95100
    },
    {
      "epoch": 126.81333333333333,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029706295508398836,
      "loss": 0.3725,
      "step": 95110
    },
    {
      "epoch": 126.82666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002970623362052036,
      "loss": 0.3822,
      "step": 95120
    },
    {
      "epoch": 126.84,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002970617172618671,
      "loss": 0.3943,
      "step": 95130
    },
    {
      "epoch": 126.85333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002970610982539791,
      "loss": 0.3898,
      "step": 95140
    },
    {
      "epoch": 126.86666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002970604791815398,
      "loss": 0.3947,
      "step": 95150
    },
    {
      "epoch": 126.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002970598600445496,
      "loss": 0.3751,
      "step": 95160
    },
    {
      "epoch": 126.89333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029705924084300864,
      "loss": 0.3873,
      "step": 95170
    },
    {
      "epoch": 126.90666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029705862157691727,
      "loss": 0.3929,
      "step": 95180
    },
    {
      "epoch": 126.92,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029705800224627576,
      "loss": 0.3956,
      "step": 95190
    },
    {
      "epoch": 126.93333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029705738285108437,
      "loss": 0.3881,
      "step": 95200
    },
    {
      "epoch": 126.94666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029705676339134344,
      "loss": 0.3902,
      "step": 95210
    },
    {
      "epoch": 126.96,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029705614386705306,
      "loss": 0.3876,
      "step": 95220
    },
    {
      "epoch": 126.97333333333333,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002970555242782136,
      "loss": 0.4128,
      "step": 95230
    },
    {
      "epoch": 126.98666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002970549046248254,
      "loss": 0.3863,
      "step": 95240
    },
    {
      "epoch": 127.0,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029705428490688865,
      "loss": 0.3819,
      "step": 95250
    },
    {
      "epoch": 127.0,
      "eval_loss": 0.42642635107040405,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0499,
      "eval_samples_per_second": 1.592,
      "eval_steps_per_second": 0.1,
      "step": 95250
    },
    {
      "epoch": 127.01333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029705366512440366,
      "loss": 0.3991,
      "step": 95260
    },
    {
      "epoch": 127.02666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002970530452773707,
      "loss": 0.412,
      "step": 95270
    },
    {
      "epoch": 127.04,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029705242536579,
      "loss": 0.426,
      "step": 95280
    },
    {
      "epoch": 127.05333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002970518053896619,
      "loss": 0.4112,
      "step": 95290
    },
    {
      "epoch": 127.06666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002970511853489866,
      "loss": 0.3983,
      "step": 95300
    },
    {
      "epoch": 127.08,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029705056524376443,
      "loss": 0.4023,
      "step": 95310
    },
    {
      "epoch": 127.09333333333333,
      "grad_norm": 1.015625,
      "learning_rate": 0.00029704994507399565,
      "loss": 0.4041,
      "step": 95320
    },
    {
      "epoch": 127.10666666666667,
      "grad_norm": 1.0703125,
      "learning_rate": 0.0002970493248396805,
      "loss": 0.391,
      "step": 95330
    },
    {
      "epoch": 127.12,
      "grad_norm": 0.78515625,
      "learning_rate": 0.0002970487045408193,
      "loss": 0.3961,
      "step": 95340
    },
    {
      "epoch": 127.13333333333334,
      "grad_norm": 1.1015625,
      "learning_rate": 0.0002970480841774123,
      "loss": 0.388,
      "step": 95350
    },
    {
      "epoch": 127.14666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002970474637494597,
      "loss": 0.4062,
      "step": 95360
    },
    {
      "epoch": 127.16,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029704684325696195,
      "loss": 0.3997,
      "step": 95370
    },
    {
      "epoch": 127.17333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029704622269991914,
      "loss": 0.3947,
      "step": 95380
    },
    {
      "epoch": 127.18666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029704560207833165,
      "loss": 0.3922,
      "step": 95390
    },
    {
      "epoch": 127.2,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029704498139219965,
      "loss": 0.3848,
      "step": 95400
    },
    {
      "epoch": 127.21333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002970443606415236,
      "loss": 0.3863,
      "step": 95410
    },
    {
      "epoch": 127.22666666666667,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029704373982630355,
      "loss": 0.3975,
      "step": 95420
    },
    {
      "epoch": 127.24,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002970431189465399,
      "loss": 0.3839,
      "step": 95430
    },
    {
      "epoch": 127.25333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002970424980022329,
      "loss": 0.3866,
      "step": 95440
    },
    {
      "epoch": 127.26666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029704187699338287,
      "loss": 0.3873,
      "step": 95450
    },
    {
      "epoch": 127.28,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029704125591998996,
      "loss": 0.4176,
      "step": 95460
    },
    {
      "epoch": 127.29333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029704063478205455,
      "loss": 0.3731,
      "step": 95470
    },
    {
      "epoch": 127.30666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002970400135795769,
      "loss": 0.3977,
      "step": 95480
    },
    {
      "epoch": 127.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029703939231255725,
      "loss": 0.3989,
      "step": 95490
    },
    {
      "epoch": 127.33333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029703877098099585,
      "loss": 0.4023,
      "step": 95500
    },
    {
      "epoch": 127.34666666666666,
      "grad_norm": 0.484375,
      "learning_rate": 0.00029703814958489304,
      "loss": 0.3935,
      "step": 95510
    },
    {
      "epoch": 127.36,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002970375281242491,
      "loss": 0.3936,
      "step": 95520
    },
    {
      "epoch": 127.37333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002970369065990642,
      "loss": 0.3953,
      "step": 95530
    },
    {
      "epoch": 127.38666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029703628500933865,
      "loss": 0.3864,
      "step": 95540
    },
    {
      "epoch": 127.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002970356633550728,
      "loss": 0.3947,
      "step": 95550
    },
    {
      "epoch": 127.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002970350416362669,
      "loss": 0.3984,
      "step": 95560
    },
    {
      "epoch": 127.42666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029703441985292115,
      "loss": 0.3995,
      "step": 95570
    },
    {
      "epoch": 127.44,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002970337980050359,
      "loss": 0.4115,
      "step": 95580
    },
    {
      "epoch": 127.45333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029703317609261135,
      "loss": 0.4008,
      "step": 95590
    },
    {
      "epoch": 127.46666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002970325541156478,
      "loss": 0.4086,
      "step": 95600
    },
    {
      "epoch": 127.48,
      "grad_norm": 0.375,
      "learning_rate": 0.0002970319320741456,
      "loss": 0.3898,
      "step": 95610
    },
    {
      "epoch": 127.49333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002970313099681049,
      "loss": 0.4033,
      "step": 95620
    },
    {
      "epoch": 127.50666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002970306877975261,
      "loss": 0.4004,
      "step": 95630
    },
    {
      "epoch": 127.52,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029703006556240934,
      "loss": 0.3915,
      "step": 95640
    },
    {
      "epoch": 127.53333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000297029443262755,
      "loss": 0.3932,
      "step": 95650
    },
    {
      "epoch": 127.54666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002970288208985633,
      "loss": 0.3956,
      "step": 95660
    },
    {
      "epoch": 127.56,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002970281984698345,
      "loss": 0.3899,
      "step": 95670
    },
    {
      "epoch": 127.57333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002970275759765689,
      "loss": 0.3941,
      "step": 95680
    },
    {
      "epoch": 127.58666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002970269534187668,
      "loss": 0.3822,
      "step": 95690
    },
    {
      "epoch": 127.6,
      "grad_norm": 0.375,
      "learning_rate": 0.00029702633079642843,
      "loss": 0.3838,
      "step": 95700
    },
    {
      "epoch": 127.61333333333333,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00029702570810955403,
      "loss": 0.3743,
      "step": 95710
    },
    {
      "epoch": 127.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.000297025085358144,
      "loss": 0.3787,
      "step": 95720
    },
    {
      "epoch": 127.64,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002970244625421985,
      "loss": 0.3916,
      "step": 95730
    },
    {
      "epoch": 127.65333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029702383966171786,
      "loss": 0.4008,
      "step": 95740
    },
    {
      "epoch": 127.66666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002970232167167023,
      "loss": 0.3878,
      "step": 95750
    },
    {
      "epoch": 127.68,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029702259370715216,
      "loss": 0.3801,
      "step": 95760
    },
    {
      "epoch": 127.69333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029702197063306764,
      "loss": 0.3898,
      "step": 95770
    },
    {
      "epoch": 127.70666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002970213474944491,
      "loss": 0.382,
      "step": 95780
    },
    {
      "epoch": 127.72,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002970207242912967,
      "loss": 0.4043,
      "step": 95790
    },
    {
      "epoch": 127.73333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002970201010236108,
      "loss": 0.3991,
      "step": 95800
    },
    {
      "epoch": 127.74666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002970194776913917,
      "loss": 0.4004,
      "step": 95810
    },
    {
      "epoch": 127.76,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002970188542946396,
      "loss": 0.4135,
      "step": 95820
    },
    {
      "epoch": 127.77333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029701823083335473,
      "loss": 0.4009,
      "step": 95830
    },
    {
      "epoch": 127.78666666666666,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002970176073075375,
      "loss": 0.401,
      "step": 95840
    },
    {
      "epoch": 127.8,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002970169837171881,
      "loss": 0.399,
      "step": 95850
    },
    {
      "epoch": 127.81333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029701636006230684,
      "loss": 0.3727,
      "step": 95860
    },
    {
      "epoch": 127.82666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029701573634289397,
      "loss": 0.3825,
      "step": 95870
    },
    {
      "epoch": 127.84,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029701511255894977,
      "loss": 0.3941,
      "step": 95880
    },
    {
      "epoch": 127.85333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002970144887104745,
      "loss": 0.3905,
      "step": 95890
    },
    {
      "epoch": 127.86666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029701386479746844,
      "loss": 0.3944,
      "step": 95900
    },
    {
      "epoch": 127.88,
      "grad_norm": 0.375,
      "learning_rate": 0.00029701324081993186,
      "loss": 0.3762,
      "step": 95910
    },
    {
      "epoch": 127.89333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002970126167778651,
      "loss": 0.3868,
      "step": 95920
    },
    {
      "epoch": 127.90666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029701199267126834,
      "loss": 0.3936,
      "step": 95930
    },
    {
      "epoch": 127.92,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029701136850014193,
      "loss": 0.3959,
      "step": 95940
    },
    {
      "epoch": 127.93333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029701074426448604,
      "loss": 0.3891,
      "step": 95950
    },
    {
      "epoch": 127.94666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000297010119964301,
      "loss": 0.3904,
      "step": 95960
    },
    {
      "epoch": 127.96,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029700949559958713,
      "loss": 0.3879,
      "step": 95970
    },
    {
      "epoch": 127.97333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002970088711703447,
      "loss": 0.413,
      "step": 95980
    },
    {
      "epoch": 127.98666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029700824667657394,
      "loss": 0.3868,
      "step": 95990
    },
    {
      "epoch": 128.0,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002970076221182751,
      "loss": 0.3823,
      "step": 96000
    },
    {
      "epoch": 128.0,
      "eval_loss": 0.42754167318344116,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5003,
      "eval_samples_per_second": 1.684,
      "eval_steps_per_second": 0.105,
      "step": 96000
    },
    {
      "epoch": 128.01333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002970069974954485,
      "loss": 0.4002,
      "step": 96010
    },
    {
      "epoch": 128.02666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002970063728080944,
      "loss": 0.4126,
      "step": 96020
    },
    {
      "epoch": 128.04,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002970057480562131,
      "loss": 0.4245,
      "step": 96030
    },
    {
      "epoch": 128.05333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029700512323980484,
      "loss": 0.4108,
      "step": 96040
    },
    {
      "epoch": 128.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002970044983588699,
      "loss": 0.3986,
      "step": 96050
    },
    {
      "epoch": 128.08,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029700387341340855,
      "loss": 0.402,
      "step": 96060
    },
    {
      "epoch": 128.09333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002970032484034211,
      "loss": 0.4032,
      "step": 96070
    },
    {
      "epoch": 128.10666666666665,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002970026233289078,
      "loss": 0.3916,
      "step": 96080
    },
    {
      "epoch": 128.12,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002970019981898689,
      "loss": 0.3959,
      "step": 96090
    },
    {
      "epoch": 128.13333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029700137298630474,
      "loss": 0.3874,
      "step": 96100
    },
    {
      "epoch": 128.14666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029700074771821553,
      "loss": 0.4067,
      "step": 96110
    },
    {
      "epoch": 128.16,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029700012238560155,
      "loss": 0.3997,
      "step": 96120
    },
    {
      "epoch": 128.17333333333335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029699949698846307,
      "loss": 0.3932,
      "step": 96130
    },
    {
      "epoch": 128.18666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002969988715268004,
      "loss": 0.3927,
      "step": 96140
    },
    {
      "epoch": 128.2,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029699824600061385,
      "loss": 0.3855,
      "step": 96150
    },
    {
      "epoch": 128.21333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029699762040990364,
      "loss": 0.3856,
      "step": 96160
    },
    {
      "epoch": 128.22666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029699699475467,
      "loss": 0.3977,
      "step": 96170
    },
    {
      "epoch": 128.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002969963690349133,
      "loss": 0.3836,
      "step": 96180
    },
    {
      "epoch": 128.25333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029699574325063377,
      "loss": 0.3859,
      "step": 96190
    },
    {
      "epoch": 128.26666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002969951174018317,
      "loss": 0.388,
      "step": 96200
    },
    {
      "epoch": 128.28,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029699449148850725,
      "loss": 0.4169,
      "step": 96210
    },
    {
      "epoch": 128.29333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029699386551066087,
      "loss": 0.3738,
      "step": 96220
    },
    {
      "epoch": 128.30666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029699323946829275,
      "loss": 0.3955,
      "step": 96230
    },
    {
      "epoch": 128.32,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029699261336140316,
      "loss": 0.3992,
      "step": 96240
    },
    {
      "epoch": 128.33333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002969919871899924,
      "loss": 0.4029,
      "step": 96250
    },
    {
      "epoch": 128.34666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002969913609540608,
      "loss": 0.3933,
      "step": 96260
    },
    {
      "epoch": 128.36,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029699073465360847,
      "loss": 0.3928,
      "step": 96270
    },
    {
      "epoch": 128.37333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002969901082886358,
      "loss": 0.3943,
      "step": 96280
    },
    {
      "epoch": 128.38666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.000296989481859143,
      "loss": 0.3864,
      "step": 96290
    },
    {
      "epoch": 128.4,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002969888553651305,
      "loss": 0.3933,
      "step": 96300
    },
    {
      "epoch": 128.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002969882288065984,
      "loss": 0.3992,
      "step": 96310
    },
    {
      "epoch": 128.42666666666668,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000296987602183547,
      "loss": 0.3999,
      "step": 96320
    },
    {
      "epoch": 128.44,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029698697549597675,
      "loss": 0.4118,
      "step": 96330
    },
    {
      "epoch": 128.45333333333335,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002969863487438877,
      "loss": 0.4005,
      "step": 96340
    },
    {
      "epoch": 128.46666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002969857219272802,
      "loss": 0.4093,
      "step": 96350
    },
    {
      "epoch": 128.48,
      "grad_norm": 0.375,
      "learning_rate": 0.00029698509504615464,
      "loss": 0.3907,
      "step": 96360
    },
    {
      "epoch": 128.49333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029698446810051107,
      "loss": 0.4024,
      "step": 96370
    },
    {
      "epoch": 128.50666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029698384109035,
      "loss": 0.4006,
      "step": 96380
    },
    {
      "epoch": 128.52,
      "grad_norm": 0.375,
      "learning_rate": 0.00029698321401567157,
      "loss": 0.391,
      "step": 96390
    },
    {
      "epoch": 128.53333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029698258687647607,
      "loss": 0.3934,
      "step": 96400
    },
    {
      "epoch": 128.54666666666665,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029698195967276376,
      "loss": 0.3957,
      "step": 96410
    },
    {
      "epoch": 128.56,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029698133240453503,
      "loss": 0.3895,
      "step": 96420
    },
    {
      "epoch": 128.57333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029698070507179,
      "loss": 0.3938,
      "step": 96430
    },
    {
      "epoch": 128.58666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000296980077674529,
      "loss": 0.3823,
      "step": 96440
    },
    {
      "epoch": 128.6,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029697945021275234,
      "loss": 0.3836,
      "step": 96450
    },
    {
      "epoch": 128.61333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029697882268646034,
      "loss": 0.374,
      "step": 96460
    },
    {
      "epoch": 128.62666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002969781950956531,
      "loss": 0.3796,
      "step": 96470
    },
    {
      "epoch": 128.64,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002969775674403311,
      "loss": 0.3918,
      "step": 96480
    },
    {
      "epoch": 128.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029697693972049446,
      "loss": 0.4005,
      "step": 96490
    },
    {
      "epoch": 128.66666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029697631193614354,
      "loss": 0.3884,
      "step": 96500
    },
    {
      "epoch": 128.68,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029697568408727857,
      "loss": 0.3797,
      "step": 96510
    },
    {
      "epoch": 128.69333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002969750561738999,
      "loss": 0.3891,
      "step": 96520
    },
    {
      "epoch": 128.70666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002969744281960077,
      "loss": 0.3819,
      "step": 96530
    },
    {
      "epoch": 128.72,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029697380015360236,
      "loss": 0.4043,
      "step": 96540
    },
    {
      "epoch": 128.73333333333332,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029697317204668405,
      "loss": 0.3983,
      "step": 96550
    },
    {
      "epoch": 128.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002969725438752531,
      "loss": 0.4008,
      "step": 96560
    },
    {
      "epoch": 128.76,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002969719156393098,
      "loss": 0.4141,
      "step": 96570
    },
    {
      "epoch": 128.77333333333334,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029697128733885436,
      "loss": 0.4002,
      "step": 96580
    },
    {
      "epoch": 128.78666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029697065897388715,
      "loss": 0.4008,
      "step": 96590
    },
    {
      "epoch": 128.8,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002969700305444084,
      "loss": 0.4002,
      "step": 96600
    },
    {
      "epoch": 128.81333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002969694020504183,
      "loss": 0.3736,
      "step": 96610
    },
    {
      "epoch": 128.82666666666665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029696877349191727,
      "loss": 0.3836,
      "step": 96620
    },
    {
      "epoch": 128.84,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002969681448689055,
      "loss": 0.3947,
      "step": 96630
    },
    {
      "epoch": 128.85333333333332,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002969675161813833,
      "loss": 0.3904,
      "step": 96640
    },
    {
      "epoch": 128.86666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029696688742935094,
      "loss": 0.3942,
      "step": 96650
    },
    {
      "epoch": 128.88,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029696625861280865,
      "loss": 0.3755,
      "step": 96660
    },
    {
      "epoch": 128.89333333333335,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029696562973175676,
      "loss": 0.3865,
      "step": 96670
    },
    {
      "epoch": 128.90666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002969650007861956,
      "loss": 0.3937,
      "step": 96680
    },
    {
      "epoch": 128.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002969643717761253,
      "loss": 0.3958,
      "step": 96690
    },
    {
      "epoch": 128.93333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002969637427015463,
      "loss": 0.3895,
      "step": 96700
    },
    {
      "epoch": 128.94666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029696311356245867,
      "loss": 0.3907,
      "step": 96710
    },
    {
      "epoch": 128.96,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029696248435886287,
      "loss": 0.3881,
      "step": 96720
    },
    {
      "epoch": 128.97333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002969618550907591,
      "loss": 0.4129,
      "step": 96730
    },
    {
      "epoch": 128.98666666666668,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002969612257581477,
      "loss": 0.3869,
      "step": 96740
    },
    {
      "epoch": 129.0,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002969605963610288,
      "loss": 0.3833,
      "step": 96750
    },
    {
      "epoch": 129.0,
      "eval_loss": 0.427841454744339,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0051,
      "eval_samples_per_second": 1.599,
      "eval_steps_per_second": 0.1,
      "step": 96750
    },
    {
      "epoch": 129.01333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029695996689940284,
      "loss": 0.3991,
      "step": 96760
    },
    {
      "epoch": 129.02666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029695933737327,
      "loss": 0.4123,
      "step": 96770
    },
    {
      "epoch": 129.04,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002969587077826306,
      "loss": 0.4255,
      "step": 96780
    },
    {
      "epoch": 129.05333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002969580781274849,
      "loss": 0.411,
      "step": 96790
    },
    {
      "epoch": 129.06666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029695744840783315,
      "loss": 0.3979,
      "step": 96800
    },
    {
      "epoch": 129.08,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002969568186236757,
      "loss": 0.4013,
      "step": 96810
    },
    {
      "epoch": 129.09333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002969561887750128,
      "loss": 0.402,
      "step": 96820
    },
    {
      "epoch": 129.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002969555588618446,
      "loss": 0.3906,
      "step": 96830
    },
    {
      "epoch": 129.12,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029695492888417156,
      "loss": 0.3961,
      "step": 96840
    },
    {
      "epoch": 129.13333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029695429884199384,
      "loss": 0.3873,
      "step": 96850
    },
    {
      "epoch": 129.14666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002969536687353118,
      "loss": 0.4055,
      "step": 96860
    },
    {
      "epoch": 129.16,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002969530385641256,
      "loss": 0.3986,
      "step": 96870
    },
    {
      "epoch": 129.17333333333335,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002969524083284357,
      "loss": 0.3932,
      "step": 96880
    },
    {
      "epoch": 129.18666666666667,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002969517780282422,
      "loss": 0.3917,
      "step": 96890
    },
    {
      "epoch": 129.2,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029695114766354545,
      "loss": 0.3855,
      "step": 96900
    },
    {
      "epoch": 129.21333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002969505172343457,
      "loss": 0.3863,
      "step": 96910
    },
    {
      "epoch": 129.22666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002969498867406433,
      "loss": 0.398,
      "step": 96920
    },
    {
      "epoch": 129.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002969492561824384,
      "loss": 0.3829,
      "step": 96930
    },
    {
      "epoch": 129.25333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002969486255597314,
      "loss": 0.3847,
      "step": 96940
    },
    {
      "epoch": 129.26666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002969479948725225,
      "loss": 0.3873,
      "step": 96950
    },
    {
      "epoch": 129.28,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000296947364120812,
      "loss": 0.417,
      "step": 96960
    },
    {
      "epoch": 129.29333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002969467333046002,
      "loss": 0.374,
      "step": 96970
    },
    {
      "epoch": 129.30666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002969461024238873,
      "loss": 0.3967,
      "step": 96980
    },
    {
      "epoch": 129.32,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002969454714786737,
      "loss": 0.3997,
      "step": 96990
    },
    {
      "epoch": 129.33333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002969448404689596,
      "loss": 0.4032,
      "step": 97000
    },
    {
      "epoch": 129.34666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002969442093947453,
      "loss": 0.3929,
      "step": 97010
    },
    {
      "epoch": 129.36,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029694357825603104,
      "loss": 0.3925,
      "step": 97020
    },
    {
      "epoch": 129.37333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002969429470528171,
      "loss": 0.3946,
      "step": 97030
    },
    {
      "epoch": 129.38666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002969423157851038,
      "loss": 0.3861,
      "step": 97040
    },
    {
      "epoch": 129.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002969416844528914,
      "loss": 0.3935,
      "step": 97050
    },
    {
      "epoch": 129.41333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029694105305618017,
      "loss": 0.3983,
      "step": 97060
    },
    {
      "epoch": 129.42666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002969404215949704,
      "loss": 0.3997,
      "step": 97070
    },
    {
      "epoch": 129.44,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029693979006926237,
      "loss": 0.411,
      "step": 97080
    },
    {
      "epoch": 129.45333333333335,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002969391584790563,
      "loss": 0.4005,
      "step": 97090
    },
    {
      "epoch": 129.46666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002969385268243525,
      "loss": 0.4096,
      "step": 97100
    },
    {
      "epoch": 129.48,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029693789510515134,
      "loss": 0.39,
      "step": 97110
    },
    {
      "epoch": 129.49333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029693726332145296,
      "loss": 0.4031,
      "step": 97120
    },
    {
      "epoch": 129.50666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002969366314732577,
      "loss": 0.4003,
      "step": 97130
    },
    {
      "epoch": 129.52,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002969359995605658,
      "loss": 0.3904,
      "step": 97140
    },
    {
      "epoch": 129.53333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002969353675833776,
      "loss": 0.3932,
      "step": 97150
    },
    {
      "epoch": 129.54666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029693473554169336,
      "loss": 0.3962,
      "step": 97160
    },
    {
      "epoch": 129.56,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002969341034355133,
      "loss": 0.3899,
      "step": 97170
    },
    {
      "epoch": 129.57333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002969334712648378,
      "loss": 0.3944,
      "step": 97180
    },
    {
      "epoch": 129.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029693283902966706,
      "loss": 0.3831,
      "step": 97190
    },
    {
      "epoch": 129.6,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029693220673000136,
      "loss": 0.3847,
      "step": 97200
    },
    {
      "epoch": 129.61333333333334,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000296931574365841,
      "loss": 0.3742,
      "step": 97210
    },
    {
      "epoch": 129.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002969309419371862,
      "loss": 0.3796,
      "step": 97220
    },
    {
      "epoch": 129.64,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029693030944403733,
      "loss": 0.3917,
      "step": 97230
    },
    {
      "epoch": 129.65333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002969296768863946,
      "loss": 0.4005,
      "step": 97240
    },
    {
      "epoch": 129.66666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029692904426425836,
      "loss": 0.3877,
      "step": 97250
    },
    {
      "epoch": 129.68,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002969284115776288,
      "loss": 0.3798,
      "step": 97260
    },
    {
      "epoch": 129.69333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002969277788265063,
      "loss": 0.3895,
      "step": 97270
    },
    {
      "epoch": 129.70666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029692714601089104,
      "loss": 0.3819,
      "step": 97280
    },
    {
      "epoch": 129.72,
      "grad_norm": 0.375,
      "learning_rate": 0.00029692651313078334,
      "loss": 0.405,
      "step": 97290
    },
    {
      "epoch": 129.73333333333332,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002969258801861834,
      "loss": 0.3991,
      "step": 97300
    },
    {
      "epoch": 129.74666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002969252471770917,
      "loss": 0.4005,
      "step": 97310
    },
    {
      "epoch": 129.76,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002969246141035083,
      "loss": 0.4136,
      "step": 97320
    },
    {
      "epoch": 129.77333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002969239809654336,
      "loss": 0.4008,
      "step": 97330
    },
    {
      "epoch": 129.78666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002969233477628678,
      "loss": 0.4008,
      "step": 97340
    },
    {
      "epoch": 129.8,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029692271449581123,
      "loss": 0.3988,
      "step": 97350
    },
    {
      "epoch": 129.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002969220811642642,
      "loss": 0.3733,
      "step": 97360
    },
    {
      "epoch": 129.82666666666665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002969214477682269,
      "loss": 0.3823,
      "step": 97370
    },
    {
      "epoch": 129.84,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002969208143076997,
      "loss": 0.394,
      "step": 97380
    },
    {
      "epoch": 129.85333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002969201807826828,
      "loss": 0.39,
      "step": 97390
    },
    {
      "epoch": 129.86666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029691954719317655,
      "loss": 0.3932,
      "step": 97400
    },
    {
      "epoch": 129.88,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002969189135391811,
      "loss": 0.3747,
      "step": 97410
    },
    {
      "epoch": 129.89333333333335,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029691827982069696,
      "loss": 0.3864,
      "step": 97420
    },
    {
      "epoch": 129.90666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002969176460377242,
      "loss": 0.3935,
      "step": 97430
    },
    {
      "epoch": 129.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002969170121902631,
      "loss": 0.395,
      "step": 97440
    },
    {
      "epoch": 129.93333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002969163782783141,
      "loss": 0.3887,
      "step": 97450
    },
    {
      "epoch": 129.94666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002969157443018773,
      "loss": 0.3894,
      "step": 97460
    },
    {
      "epoch": 129.96,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002969151102609531,
      "loss": 0.3876,
      "step": 97470
    },
    {
      "epoch": 129.97333333333333,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002969144761555417,
      "loss": 0.4131,
      "step": 97480
    },
    {
      "epoch": 129.98666666666668,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002969138419856435,
      "loss": 0.386,
      "step": 97490
    },
    {
      "epoch": 130.0,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029691320775125863,
      "loss": 0.382,
      "step": 97500
    },
    {
      "epoch": 130.0,
      "eval_loss": 0.42709052562713623,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.212,
      "eval_samples_per_second": 1.567,
      "eval_steps_per_second": 0.098,
      "step": 97500
    },
    {
      "epoch": 130.01333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029691257345238744,
      "loss": 0.3998,
      "step": 97510
    },
    {
      "epoch": 130.02666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002969119390890302,
      "loss": 0.4118,
      "step": 97520
    },
    {
      "epoch": 130.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002969113046611872,
      "loss": 0.4253,
      "step": 97530
    },
    {
      "epoch": 130.05333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029691067016885867,
      "loss": 0.4107,
      "step": 97540
    },
    {
      "epoch": 130.06666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029691003561204494,
      "loss": 0.397,
      "step": 97550
    },
    {
      "epoch": 130.08,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002969094009907463,
      "loss": 0.4011,
      "step": 97560
    },
    {
      "epoch": 130.09333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029690876630496303,
      "loss": 0.4021,
      "step": 97570
    },
    {
      "epoch": 130.10666666666665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029690813155469533,
      "loss": 0.3904,
      "step": 97580
    },
    {
      "epoch": 130.12,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029690749673994357,
      "loss": 0.3955,
      "step": 97590
    },
    {
      "epoch": 130.13333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029690686186070796,
      "loss": 0.3865,
      "step": 97600
    },
    {
      "epoch": 130.14666666666668,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002969062269169888,
      "loss": 0.4059,
      "step": 97610
    },
    {
      "epoch": 130.16,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002969055919087864,
      "loss": 0.3996,
      "step": 97620
    },
    {
      "epoch": 130.17333333333335,
      "grad_norm": 0.439453125,
      "learning_rate": 0.000296904956836101,
      "loss": 0.3935,
      "step": 97630
    },
    {
      "epoch": 130.18666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002969043216989329,
      "loss": 0.3925,
      "step": 97640
    },
    {
      "epoch": 130.2,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029690368649728236,
      "loss": 0.3853,
      "step": 97650
    },
    {
      "epoch": 130.21333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002969030512311497,
      "loss": 0.3855,
      "step": 97660
    },
    {
      "epoch": 130.22666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029690241590053513,
      "loss": 0.3981,
      "step": 97670
    },
    {
      "epoch": 130.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000296901780505439,
      "loss": 0.3824,
      "step": 97680
    },
    {
      "epoch": 130.25333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002969011450458616,
      "loss": 0.3851,
      "step": 97690
    },
    {
      "epoch": 130.26666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029690050952180307,
      "loss": 0.3869,
      "step": 97700
    },
    {
      "epoch": 130.28,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029689987393326385,
      "loss": 0.4179,
      "step": 97710
    },
    {
      "epoch": 130.29333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002968992382802441,
      "loss": 0.373,
      "step": 97720
    },
    {
      "epoch": 130.30666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002968986025627442,
      "loss": 0.3974,
      "step": 97730
    },
    {
      "epoch": 130.32,
      "grad_norm": 0.375,
      "learning_rate": 0.0002968979667807644,
      "loss": 0.399,
      "step": 97740
    },
    {
      "epoch": 130.33333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029689733093430493,
      "loss": 0.4024,
      "step": 97750
    },
    {
      "epoch": 130.34666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029689669502336606,
      "loss": 0.3931,
      "step": 97760
    },
    {
      "epoch": 130.36,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002968960590479482,
      "loss": 0.3943,
      "step": 97770
    },
    {
      "epoch": 130.37333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029689542300805153,
      "loss": 0.3946,
      "step": 97780
    },
    {
      "epoch": 130.38666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002968947869036763,
      "loss": 0.3868,
      "step": 97790
    },
    {
      "epoch": 130.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002968941507348228,
      "loss": 0.3939,
      "step": 97800
    },
    {
      "epoch": 130.41333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002968935145014914,
      "loss": 0.3993,
      "step": 97810
    },
    {
      "epoch": 130.42666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002968928782036823,
      "loss": 0.4001,
      "step": 97820
    },
    {
      "epoch": 130.44,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029689224184139575,
      "loss": 0.4104,
      "step": 97830
    },
    {
      "epoch": 130.45333333333335,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029689160541463214,
      "loss": 0.4005,
      "step": 97840
    },
    {
      "epoch": 130.46666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002968909689233916,
      "loss": 0.4086,
      "step": 97850
    },
    {
      "epoch": 130.48,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002968903323676746,
      "loss": 0.3909,
      "step": 97860
    },
    {
      "epoch": 130.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002968896957474812,
      "loss": 0.403,
      "step": 97870
    },
    {
      "epoch": 130.50666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002968890590628119,
      "loss": 0.3997,
      "step": 97880
    },
    {
      "epoch": 130.52,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002968884223136668,
      "loss": 0.3911,
      "step": 97890
    },
    {
      "epoch": 130.53333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002968877855000463,
      "loss": 0.3941,
      "step": 97900
    },
    {
      "epoch": 130.54666666666665,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002968871486219506,
      "loss": 0.3955,
      "step": 97910
    },
    {
      "epoch": 130.56,
      "grad_norm": 0.375,
      "learning_rate": 0.00029688651167938,
      "loss": 0.39,
      "step": 97920
    },
    {
      "epoch": 130.57333333333332,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002968858746723348,
      "loss": 0.3931,
      "step": 97930
    },
    {
      "epoch": 130.58666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002968852376008153,
      "loss": 0.3824,
      "step": 97940
    },
    {
      "epoch": 130.6,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002968846004648217,
      "loss": 0.3837,
      "step": 97950
    },
    {
      "epoch": 130.61333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029688396326435436,
      "loss": 0.3735,
      "step": 97960
    },
    {
      "epoch": 130.62666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002968833259994135,
      "loss": 0.3794,
      "step": 97970
    },
    {
      "epoch": 130.64,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002968826886699995,
      "loss": 0.3914,
      "step": 97980
    },
    {
      "epoch": 130.65333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029688205127611253,
      "loss": 0.4004,
      "step": 97990
    },
    {
      "epoch": 130.66666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002968814138177529,
      "loss": 0.3882,
      "step": 98000
    },
    {
      "epoch": 130.68,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002968807762949209,
      "loss": 0.3804,
      "step": 98010
    },
    {
      "epoch": 130.69333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029688013870761675,
      "loss": 0.3888,
      "step": 98020
    },
    {
      "epoch": 130.70666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029687950105584086,
      "loss": 0.3819,
      "step": 98030
    },
    {
      "epoch": 130.72,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029687886333959343,
      "loss": 0.4045,
      "step": 98040
    },
    {
      "epoch": 130.73333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029687822555887473,
      "loss": 0.3987,
      "step": 98050
    },
    {
      "epoch": 130.74666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002968775877136851,
      "loss": 0.4004,
      "step": 98060
    },
    {
      "epoch": 130.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002968769498040247,
      "loss": 0.413,
      "step": 98070
    },
    {
      "epoch": 130.77333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029687631182989395,
      "loss": 0.401,
      "step": 98080
    },
    {
      "epoch": 130.78666666666666,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029687567379129304,
      "loss": 0.4007,
      "step": 98090
    },
    {
      "epoch": 130.8,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029687503568822234,
      "loss": 0.4003,
      "step": 98100
    },
    {
      "epoch": 130.81333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.000296874397520682,
      "loss": 0.3736,
      "step": 98110
    },
    {
      "epoch": 130.82666666666665,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002968737592886723,
      "loss": 0.3826,
      "step": 98120
    },
    {
      "epoch": 130.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002968731209921937,
      "loss": 0.3947,
      "step": 98130
    },
    {
      "epoch": 130.85333333333332,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002968724826312464,
      "loss": 0.3897,
      "step": 98140
    },
    {
      "epoch": 130.86666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029687184420583055,
      "loss": 0.3946,
      "step": 98150
    },
    {
      "epoch": 130.88,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029687120571594654,
      "loss": 0.3756,
      "step": 98160
    },
    {
      "epoch": 130.89333333333335,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002968705671615947,
      "loss": 0.3867,
      "step": 98170
    },
    {
      "epoch": 130.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002968699285427752,
      "loss": 0.3932,
      "step": 98180
    },
    {
      "epoch": 130.92,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002968692898594884,
      "loss": 0.3956,
      "step": 98190
    },
    {
      "epoch": 130.93333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002968686511117345,
      "loss": 0.3878,
      "step": 98200
    },
    {
      "epoch": 130.94666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029686801229951383,
      "loss": 0.3903,
      "step": 98210
    },
    {
      "epoch": 130.96,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002968673734228267,
      "loss": 0.3879,
      "step": 98220
    },
    {
      "epoch": 130.97333333333333,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029686673448167336,
      "loss": 0.4133,
      "step": 98230
    },
    {
      "epoch": 130.98666666666668,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002968660954760541,
      "loss": 0.3857,
      "step": 98240
    },
    {
      "epoch": 131.0,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002968654564059692,
      "loss": 0.3809,
      "step": 98250
    },
    {
      "epoch": 131.0,
      "eval_loss": 0.4273887872695923,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7595,
      "eval_samples_per_second": 1.639,
      "eval_steps_per_second": 0.102,
      "step": 98250
    },
    {
      "epoch": 131.01333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002968648172714189,
      "loss": 0.3978,
      "step": 98260
    },
    {
      "epoch": 131.02666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002968641780724036,
      "loss": 0.4129,
      "step": 98270
    },
    {
      "epoch": 131.04,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029686353880892333,
      "loss": 0.4256,
      "step": 98280
    },
    {
      "epoch": 131.05333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002968628994809787,
      "loss": 0.4109,
      "step": 98290
    },
    {
      "epoch": 131.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002968622600885697,
      "loss": 0.3981,
      "step": 98300
    },
    {
      "epoch": 131.08,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002968616206316968,
      "loss": 0.4017,
      "step": 98310
    },
    {
      "epoch": 131.09333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002968609811103602,
      "loss": 0.4026,
      "step": 98320
    },
    {
      "epoch": 131.10666666666665,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029686034152456023,
      "loss": 0.3902,
      "step": 98330
    },
    {
      "epoch": 131.12,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002968597018742971,
      "loss": 0.3952,
      "step": 98340
    },
    {
      "epoch": 131.13333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002968590621595711,
      "loss": 0.3872,
      "step": 98350
    },
    {
      "epoch": 131.14666666666668,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029685842238038256,
      "loss": 0.4053,
      "step": 98360
    },
    {
      "epoch": 131.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002968577825367318,
      "loss": 0.3992,
      "step": 98370
    },
    {
      "epoch": 131.17333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029685714262861897,
      "loss": 0.3934,
      "step": 98380
    },
    {
      "epoch": 131.18666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002968565026560444,
      "loss": 0.3927,
      "step": 98390
    },
    {
      "epoch": 131.2,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029685586261900845,
      "loss": 0.3855,
      "step": 98400
    },
    {
      "epoch": 131.21333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029685522251751136,
      "loss": 0.3862,
      "step": 98410
    },
    {
      "epoch": 131.22666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029685458235155336,
      "loss": 0.3981,
      "step": 98420
    },
    {
      "epoch": 131.24,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029685394212113477,
      "loss": 0.3829,
      "step": 98430
    },
    {
      "epoch": 131.25333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029685330182625585,
      "loss": 0.3854,
      "step": 98440
    },
    {
      "epoch": 131.26666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002968526614669169,
      "loss": 0.3877,
      "step": 98450
    },
    {
      "epoch": 131.28,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029685202104311827,
      "loss": 0.4164,
      "step": 98460
    },
    {
      "epoch": 131.29333333333332,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002968513805548601,
      "loss": 0.3728,
      "step": 98470
    },
    {
      "epoch": 131.30666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029685074000214277,
      "loss": 0.3964,
      "step": 98480
    },
    {
      "epoch": 131.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002968500993849665,
      "loss": 0.3994,
      "step": 98490
    },
    {
      "epoch": 131.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002968494587033316,
      "loss": 0.4021,
      "step": 98500
    },
    {
      "epoch": 131.34666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002968488179572384,
      "loss": 0.3931,
      "step": 98510
    },
    {
      "epoch": 131.36,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002968481771466871,
      "loss": 0.3935,
      "step": 98520
    },
    {
      "epoch": 131.37333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000296847536271678,
      "loss": 0.3942,
      "step": 98530
    },
    {
      "epoch": 131.38666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002968468953322114,
      "loss": 0.3863,
      "step": 98540
    },
    {
      "epoch": 131.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002968462543282876,
      "loss": 0.394,
      "step": 98550
    },
    {
      "epoch": 131.41333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002968456132599069,
      "loss": 0.3984,
      "step": 98560
    },
    {
      "epoch": 131.42666666666668,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002968449721270695,
      "loss": 0.4002,
      "step": 98570
    },
    {
      "epoch": 131.44,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002968443309297757,
      "loss": 0.4116,
      "step": 98580
    },
    {
      "epoch": 131.45333333333335,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029684368966802584,
      "loss": 0.3996,
      "step": 98590
    },
    {
      "epoch": 131.46666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029684304834182016,
      "loss": 0.4084,
      "step": 98600
    },
    {
      "epoch": 131.48,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000296842406951159,
      "loss": 0.3901,
      "step": 98610
    },
    {
      "epoch": 131.49333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002968417654960425,
      "loss": 0.4023,
      "step": 98620
    },
    {
      "epoch": 131.50666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029684112397647107,
      "loss": 0.4005,
      "step": 98630
    },
    {
      "epoch": 131.52,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029684048239244493,
      "loss": 0.3901,
      "step": 98640
    },
    {
      "epoch": 131.53333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029683984074396443,
      "loss": 0.3946,
      "step": 98650
    },
    {
      "epoch": 131.54666666666665,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002968391990310298,
      "loss": 0.3962,
      "step": 98660
    },
    {
      "epoch": 131.56,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002968385572536413,
      "loss": 0.3906,
      "step": 98670
    },
    {
      "epoch": 131.57333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029683791541179925,
      "loss": 0.3935,
      "step": 98680
    },
    {
      "epoch": 131.58666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029683727350550393,
      "loss": 0.3824,
      "step": 98690
    },
    {
      "epoch": 131.6,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029683663153475556,
      "loss": 0.3836,
      "step": 98700
    },
    {
      "epoch": 131.61333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002968359894995545,
      "loss": 0.3735,
      "step": 98710
    },
    {
      "epoch": 131.62666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029683534739990107,
      "loss": 0.3787,
      "step": 98720
    },
    {
      "epoch": 131.64,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029683470523579543,
      "loss": 0.3908,
      "step": 98730
    },
    {
      "epoch": 131.65333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029683406300723793,
      "loss": 0.4005,
      "step": 98740
    },
    {
      "epoch": 131.66666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029683342071422884,
      "loss": 0.3887,
      "step": 98750
    },
    {
      "epoch": 131.68,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029683277835676844,
      "loss": 0.3801,
      "step": 98760
    },
    {
      "epoch": 131.69333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029683213593485703,
      "loss": 0.3893,
      "step": 98770
    },
    {
      "epoch": 131.70666666666668,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002968314934484949,
      "loss": 0.3823,
      "step": 98780
    },
    {
      "epoch": 131.72,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029683085089768227,
      "loss": 0.4042,
      "step": 98790
    },
    {
      "epoch": 131.73333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002968302082824195,
      "loss": 0.3979,
      "step": 98800
    },
    {
      "epoch": 131.74666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002968295656027068,
      "loss": 0.4005,
      "step": 98810
    },
    {
      "epoch": 131.76,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002968289228585445,
      "loss": 0.4128,
      "step": 98820
    },
    {
      "epoch": 131.77333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029682828004993285,
      "loss": 0.4005,
      "step": 98830
    },
    {
      "epoch": 131.78666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002968276371768722,
      "loss": 0.4008,
      "step": 98840
    },
    {
      "epoch": 131.8,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029682699423936275,
      "loss": 0.4,
      "step": 98850
    },
    {
      "epoch": 131.81333333333333,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002968263512374048,
      "loss": 0.373,
      "step": 98860
    },
    {
      "epoch": 131.82666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029682570817099864,
      "loss": 0.3829,
      "step": 98870
    },
    {
      "epoch": 131.84,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029682506504014457,
      "loss": 0.3942,
      "step": 98880
    },
    {
      "epoch": 131.85333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029682442184484286,
      "loss": 0.3895,
      "step": 98890
    },
    {
      "epoch": 131.86666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002968237785850938,
      "loss": 0.3946,
      "step": 98900
    },
    {
      "epoch": 131.88,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002968231352608977,
      "loss": 0.3751,
      "step": 98910
    },
    {
      "epoch": 131.89333333333335,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029682249187225476,
      "loss": 0.3868,
      "step": 98920
    },
    {
      "epoch": 131.90666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029682184841916534,
      "loss": 0.3933,
      "step": 98930
    },
    {
      "epoch": 131.92,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029682120490162964,
      "loss": 0.3959,
      "step": 98940
    },
    {
      "epoch": 131.93333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002968205613196481,
      "loss": 0.3885,
      "step": 98950
    },
    {
      "epoch": 131.94666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002968199176732208,
      "loss": 0.3898,
      "step": 98960
    },
    {
      "epoch": 131.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002968192739623482,
      "loss": 0.3883,
      "step": 98970
    },
    {
      "epoch": 131.97333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029681863018703045,
      "loss": 0.4133,
      "step": 98980
    },
    {
      "epoch": 131.98666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002968179863472679,
      "loss": 0.3861,
      "step": 98990
    },
    {
      "epoch": 132.0,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029681734244306083,
      "loss": 0.3818,
      "step": 99000
    },
    {
      "epoch": 132.0,
      "eval_loss": 0.4268704950809479,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0525,
      "eval_samples_per_second": 1.592,
      "eval_steps_per_second": 0.099,
      "step": 99000
    },
    {
      "epoch": 132.01333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002968166984744095,
      "loss": 0.3984,
      "step": 99010
    },
    {
      "epoch": 132.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002968160544413142,
      "loss": 0.4117,
      "step": 99020
    },
    {
      "epoch": 132.04,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002968154103437752,
      "loss": 0.4249,
      "step": 99030
    },
    {
      "epoch": 132.05333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002968147661817928,
      "loss": 0.4113,
      "step": 99040
    },
    {
      "epoch": 132.06666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029681412195536736,
      "loss": 0.3968,
      "step": 99050
    },
    {
      "epoch": 132.08,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029681347766449904,
      "loss": 0.4019,
      "step": 99060
    },
    {
      "epoch": 132.09333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002968128333091881,
      "loss": 0.4037,
      "step": 99070
    },
    {
      "epoch": 132.10666666666665,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029681218888943494,
      "loss": 0.3918,
      "step": 99080
    },
    {
      "epoch": 132.12,
      "grad_norm": 0.375,
      "learning_rate": 0.0002968115444052398,
      "loss": 0.3949,
      "step": 99090
    },
    {
      "epoch": 132.13333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029681089985660297,
      "loss": 0.3864,
      "step": 99100
    },
    {
      "epoch": 132.14666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002968102552435247,
      "loss": 0.4056,
      "step": 99110
    },
    {
      "epoch": 132.16,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029680961056600534,
      "loss": 0.3997,
      "step": 99120
    },
    {
      "epoch": 132.17333333333335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029680896582404506,
      "loss": 0.3937,
      "step": 99130
    },
    {
      "epoch": 132.18666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029680832101764424,
      "loss": 0.3919,
      "step": 99140
    },
    {
      "epoch": 132.2,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002968076761468031,
      "loss": 0.3858,
      "step": 99150
    },
    {
      "epoch": 132.21333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000296807031211522,
      "loss": 0.3863,
      "step": 99160
    },
    {
      "epoch": 132.22666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002968063862118012,
      "loss": 0.3977,
      "step": 99170
    },
    {
      "epoch": 132.24,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002968057411476409,
      "loss": 0.3811,
      "step": 99180
    },
    {
      "epoch": 132.25333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029680509601904143,
      "loss": 0.3843,
      "step": 99190
    },
    {
      "epoch": 132.26666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029680445082600317,
      "loss": 0.387,
      "step": 99200
    },
    {
      "epoch": 132.28,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002968038055685262,
      "loss": 0.4177,
      "step": 99210
    },
    {
      "epoch": 132.29333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.000296803160246611,
      "loss": 0.3732,
      "step": 99220
    },
    {
      "epoch": 132.30666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029680251486025776,
      "loss": 0.3965,
      "step": 99230
    },
    {
      "epoch": 132.32,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002968018694094668,
      "loss": 0.3981,
      "step": 99240
    },
    {
      "epoch": 132.33333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002968012238942384,
      "loss": 0.4012,
      "step": 99250
    },
    {
      "epoch": 132.34666666666666,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002968005783145728,
      "loss": 0.3928,
      "step": 99260
    },
    {
      "epoch": 132.36,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029679993267047025,
      "loss": 0.3925,
      "step": 99270
    },
    {
      "epoch": 132.37333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002967992869619312,
      "loss": 0.3949,
      "step": 99280
    },
    {
      "epoch": 132.38666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002967986411889558,
      "loss": 0.3858,
      "step": 99290
    },
    {
      "epoch": 132.4,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002967979953515443,
      "loss": 0.3936,
      "step": 99300
    },
    {
      "epoch": 132.41333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002967973494496971,
      "loss": 0.3978,
      "step": 99310
    },
    {
      "epoch": 132.42666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029679670348341437,
      "loss": 0.3994,
      "step": 99320
    },
    {
      "epoch": 132.44,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002967960574526965,
      "loss": 0.411,
      "step": 99330
    },
    {
      "epoch": 132.45333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002967954113575437,
      "loss": 0.3997,
      "step": 99340
    },
    {
      "epoch": 132.46666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002967947651979563,
      "loss": 0.4092,
      "step": 99350
    },
    {
      "epoch": 132.48,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029679411897393456,
      "loss": 0.3901,
      "step": 99360
    },
    {
      "epoch": 132.49333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029679347268547876,
      "loss": 0.4019,
      "step": 99370
    },
    {
      "epoch": 132.50666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002967928263325892,
      "loss": 0.4005,
      "step": 99380
    },
    {
      "epoch": 132.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002967921799152661,
      "loss": 0.3902,
      "step": 99390
    },
    {
      "epoch": 132.53333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029679153343350985,
      "loss": 0.394,
      "step": 99400
    },
    {
      "epoch": 132.54666666666665,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002967908868873207,
      "loss": 0.3961,
      "step": 99410
    },
    {
      "epoch": 132.56,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002967902402766989,
      "loss": 0.3896,
      "step": 99420
    },
    {
      "epoch": 132.57333333333332,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029678959360164467,
      "loss": 0.3935,
      "step": 99430
    },
    {
      "epoch": 132.58666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002967889468621585,
      "loss": 0.382,
      "step": 99440
    },
    {
      "epoch": 132.6,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029678830005824044,
      "loss": 0.3834,
      "step": 99450
    },
    {
      "epoch": 132.61333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029678765318989086,
      "loss": 0.3738,
      "step": 99460
    },
    {
      "epoch": 132.62666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029678700625711014,
      "loss": 0.3799,
      "step": 99470
    },
    {
      "epoch": 132.64,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029678635925989847,
      "loss": 0.391,
      "step": 99480
    },
    {
      "epoch": 132.65333333333334,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029678571219825614,
      "loss": 0.4002,
      "step": 99490
    },
    {
      "epoch": 132.66666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029678506507218347,
      "loss": 0.3879,
      "step": 99500
    },
    {
      "epoch": 132.68,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029678441788168067,
      "loss": 0.3793,
      "step": 99510
    },
    {
      "epoch": 132.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029678377062674813,
      "loss": 0.3888,
      "step": 99520
    },
    {
      "epoch": 132.70666666666668,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029678312330738607,
      "loss": 0.3822,
      "step": 99530
    },
    {
      "epoch": 132.72,
      "grad_norm": 0.375,
      "learning_rate": 0.00029678247592359474,
      "loss": 0.4044,
      "step": 99540
    },
    {
      "epoch": 132.73333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002967818284753745,
      "loss": 0.3977,
      "step": 99550
    },
    {
      "epoch": 132.74666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029678118096272563,
      "loss": 0.3997,
      "step": 99560
    },
    {
      "epoch": 132.76,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002967805333856483,
      "loss": 0.4134,
      "step": 99570
    },
    {
      "epoch": 132.77333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002967798857441429,
      "loss": 0.4006,
      "step": 99580
    },
    {
      "epoch": 132.78666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029677923803820975,
      "loss": 0.4008,
      "step": 99590
    },
    {
      "epoch": 132.8,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029677859026784907,
      "loss": 0.3994,
      "step": 99600
    },
    {
      "epoch": 132.81333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002967779424330611,
      "loss": 0.3729,
      "step": 99610
    },
    {
      "epoch": 132.82666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002967772945338462,
      "loss": 0.3821,
      "step": 99620
    },
    {
      "epoch": 132.84,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002967766465702046,
      "loss": 0.3941,
      "step": 99630
    },
    {
      "epoch": 132.85333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029677599854213666,
      "loss": 0.3894,
      "step": 99640
    },
    {
      "epoch": 132.86666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002967753504496426,
      "loss": 0.3947,
      "step": 99650
    },
    {
      "epoch": 132.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029677470229272276,
      "loss": 0.3752,
      "step": 99660
    },
    {
      "epoch": 132.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029677405407137734,
      "loss": 0.3871,
      "step": 99670
    },
    {
      "epoch": 132.90666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002967734057856067,
      "loss": 0.3931,
      "step": 99680
    },
    {
      "epoch": 132.92,
      "grad_norm": 0.375,
      "learning_rate": 0.00029677275743541105,
      "loss": 0.3952,
      "step": 99690
    },
    {
      "epoch": 132.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029677210902079076,
      "loss": 0.3885,
      "step": 99700
    },
    {
      "epoch": 132.94666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029677146054174605,
      "loss": 0.3896,
      "step": 99710
    },
    {
      "epoch": 132.96,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002967708119982773,
      "loss": 0.387,
      "step": 99720
    },
    {
      "epoch": 132.97333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029677016339038463,
      "loss": 0.412,
      "step": 99730
    },
    {
      "epoch": 132.98666666666668,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029676951471806846,
      "loss": 0.3857,
      "step": 99740
    },
    {
      "epoch": 133.0,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002967688659813291,
      "loss": 0.3815,
      "step": 99750
    },
    {
      "epoch": 133.0,
      "eval_loss": 0.42603302001953125,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9526,
      "eval_samples_per_second": 1.608,
      "eval_steps_per_second": 0.1,
      "step": 99750
    },
    {
      "epoch": 133.01333333333332,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002967682171801667,
      "loss": 0.3987,
      "step": 99760
    },
    {
      "epoch": 133.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002967675683145816,
      "loss": 0.4127,
      "step": 99770
    },
    {
      "epoch": 133.04,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002967669193845742,
      "loss": 0.425,
      "step": 99780
    },
    {
      "epoch": 133.05333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002967662703901446,
      "loss": 0.4105,
      "step": 99790
    },
    {
      "epoch": 133.06666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029676562133129316,
      "loss": 0.3982,
      "step": 99800
    },
    {
      "epoch": 133.08,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002967649722080202,
      "loss": 0.4008,
      "step": 99810
    },
    {
      "epoch": 133.09333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029676432302032596,
      "loss": 0.4032,
      "step": 99820
    },
    {
      "epoch": 133.10666666666665,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002967636737682108,
      "loss": 0.391,
      "step": 99830
    },
    {
      "epoch": 133.12,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029676302445167486,
      "loss": 0.3949,
      "step": 99840
    },
    {
      "epoch": 133.13333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029676237507071857,
      "loss": 0.3872,
      "step": 99850
    },
    {
      "epoch": 133.14666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029676172562534213,
      "loss": 0.4056,
      "step": 99860
    },
    {
      "epoch": 133.16,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002967610761155459,
      "loss": 0.3986,
      "step": 99870
    },
    {
      "epoch": 133.17333333333335,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002967604265413301,
      "loss": 0.3929,
      "step": 99880
    },
    {
      "epoch": 133.18666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.000296759776902695,
      "loss": 0.3921,
      "step": 99890
    },
    {
      "epoch": 133.2,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029675912719964097,
      "loss": 0.385,
      "step": 99900
    },
    {
      "epoch": 133.21333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029675847743216823,
      "loss": 0.386,
      "step": 99910
    },
    {
      "epoch": 133.22666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002967578276002771,
      "loss": 0.3978,
      "step": 99920
    },
    {
      "epoch": 133.24,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002967571777039678,
      "loss": 0.3821,
      "step": 99930
    },
    {
      "epoch": 133.25333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029675652774324067,
      "loss": 0.3847,
      "step": 99940
    },
    {
      "epoch": 133.26666666666668,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029675587771809596,
      "loss": 0.3864,
      "step": 99950
    },
    {
      "epoch": 133.28,
      "grad_norm": 0.421875,
      "learning_rate": 0.000296755227628534,
      "loss": 0.4169,
      "step": 99960
    },
    {
      "epoch": 133.29333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002967545774745551,
      "loss": 0.373,
      "step": 99970
    },
    {
      "epoch": 133.30666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029675392725615947,
      "loss": 0.3962,
      "step": 99980
    },
    {
      "epoch": 133.32,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002967532769733474,
      "loss": 0.3988,
      "step": 99990
    },
    {
      "epoch": 133.33333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002967526266261193,
      "loss": 0.4021,
      "step": 100000
    },
    {
      "epoch": 133.34666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029675197621447524,
      "loss": 0.3928,
      "step": 100010
    },
    {
      "epoch": 133.36,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00029675132573841567,
      "loss": 0.3922,
      "step": 100020
    },
    {
      "epoch": 133.37333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029675067519794083,
      "loss": 0.394,
      "step": 100030
    },
    {
      "epoch": 133.38666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000296750024593051,
      "loss": 0.3859,
      "step": 100040
    },
    {
      "epoch": 133.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029674937392374647,
      "loss": 0.3941,
      "step": 100050
    },
    {
      "epoch": 133.41333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029674872319002756,
      "loss": 0.3983,
      "step": 100060
    },
    {
      "epoch": 133.42666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029674807239189445,
      "loss": 0.3994,
      "step": 100070
    },
    {
      "epoch": 133.44,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002967474215293476,
      "loss": 0.411,
      "step": 100080
    },
    {
      "epoch": 133.45333333333335,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002967467706023871,
      "loss": 0.4,
      "step": 100090
    },
    {
      "epoch": 133.46666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002967461196110134,
      "loss": 0.4087,
      "step": 100100
    },
    {
      "epoch": 133.48,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029674546855522663,
      "loss": 0.3905,
      "step": 100110
    },
    {
      "epoch": 133.49333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002967448174350272,
      "loss": 0.4013,
      "step": 100120
    },
    {
      "epoch": 133.50666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002967441662504154,
      "loss": 0.4006,
      "step": 100130
    },
    {
      "epoch": 133.52,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029674351500139144,
      "loss": 0.3908,
      "step": 100140
    },
    {
      "epoch": 133.53333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002967428636879556,
      "loss": 0.3944,
      "step": 100150
    },
    {
      "epoch": 133.54666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029674221231010825,
      "loss": 0.396,
      "step": 100160
    },
    {
      "epoch": 133.56,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029674156086784956,
      "loss": 0.3899,
      "step": 100170
    },
    {
      "epoch": 133.57333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029674090936118,
      "loss": 0.3936,
      "step": 100180
    },
    {
      "epoch": 133.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002967402577900997,
      "loss": 0.3818,
      "step": 100190
    },
    {
      "epoch": 133.6,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002967396061546089,
      "loss": 0.3828,
      "step": 100200
    },
    {
      "epoch": 133.61333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029673895445470804,
      "loss": 0.3735,
      "step": 100210
    },
    {
      "epoch": 133.62666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029673830269039733,
      "loss": 0.3787,
      "step": 100220
    },
    {
      "epoch": 133.64,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029673765086167704,
      "loss": 0.3914,
      "step": 100230
    },
    {
      "epoch": 133.65333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002967369989685476,
      "loss": 0.3999,
      "step": 100240
    },
    {
      "epoch": 133.66666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002967363470110091,
      "loss": 0.3879,
      "step": 100250
    },
    {
      "epoch": 133.68,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029673569498906186,
      "loss": 0.3799,
      "step": 100260
    },
    {
      "epoch": 133.69333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029673504290270625,
      "loss": 0.3886,
      "step": 100270
    },
    {
      "epoch": 133.70666666666668,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002967343907519425,
      "loss": 0.3815,
      "step": 100280
    },
    {
      "epoch": 133.72,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029673373853677094,
      "loss": 0.4035,
      "step": 100290
    },
    {
      "epoch": 133.73333333333332,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002967330862571918,
      "loss": 0.3988,
      "step": 100300
    },
    {
      "epoch": 133.74666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002967324339132054,
      "loss": 0.4005,
      "step": 100310
    },
    {
      "epoch": 133.76,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029673178150481204,
      "loss": 0.4139,
      "step": 100320
    },
    {
      "epoch": 133.77333333333334,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029673112903201197,
      "loss": 0.3998,
      "step": 100330
    },
    {
      "epoch": 133.78666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002967304764948055,
      "loss": 0.4007,
      "step": 100340
    },
    {
      "epoch": 133.8,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029672982389319295,
      "loss": 0.3984,
      "step": 100350
    },
    {
      "epoch": 133.81333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002967291712271745,
      "loss": 0.373,
      "step": 100360
    },
    {
      "epoch": 133.82666666666665,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029672851849675053,
      "loss": 0.3826,
      "step": 100370
    },
    {
      "epoch": 133.84,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029672786570192133,
      "loss": 0.3947,
      "step": 100380
    },
    {
      "epoch": 133.85333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002967272128426871,
      "loss": 0.3895,
      "step": 100390
    },
    {
      "epoch": 133.86666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002967265599190482,
      "loss": 0.3937,
      "step": 100400
    },
    {
      "epoch": 133.88,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002967259069310049,
      "loss": 0.3759,
      "step": 100410
    },
    {
      "epoch": 133.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029672525387855757,
      "loss": 0.3867,
      "step": 100420
    },
    {
      "epoch": 133.90666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002967246007617063,
      "loss": 0.3939,
      "step": 100430
    },
    {
      "epoch": 133.92,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029672394758045153,
      "loss": 0.3954,
      "step": 100440
    },
    {
      "epoch": 133.93333333333334,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002967232943347935,
      "loss": 0.3887,
      "step": 100450
    },
    {
      "epoch": 133.94666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002967226410247325,
      "loss": 0.391,
      "step": 100460
    },
    {
      "epoch": 133.96,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029672198765026887,
      "loss": 0.3879,
      "step": 100470
    },
    {
      "epoch": 133.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002967213342114028,
      "loss": 0.4134,
      "step": 100480
    },
    {
      "epoch": 133.98666666666668,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002967206807081346,
      "loss": 0.3864,
      "step": 100490
    },
    {
      "epoch": 134.0,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002967200271404646,
      "loss": 0.3811,
      "step": 100500
    },
    {
      "epoch": 134.0,
      "eval_loss": 0.42712700366973877,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1855,
      "eval_samples_per_second": 1.571,
      "eval_steps_per_second": 0.098,
      "step": 100500
    },
    {
      "epoch": 134.01333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029671937350839314,
      "loss": 0.3988,
      "step": 100510
    },
    {
      "epoch": 134.02666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002967187198119203,
      "loss": 0.4126,
      "step": 100520
    },
    {
      "epoch": 134.04,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029671806605104665,
      "loss": 0.4247,
      "step": 100530
    },
    {
      "epoch": 134.05333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029671741222577223,
      "loss": 0.4101,
      "step": 100540
    },
    {
      "epoch": 134.06666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002967167583360974,
      "loss": 0.3969,
      "step": 100550
    },
    {
      "epoch": 134.08,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029671610438202254,
      "loss": 0.4006,
      "step": 100560
    },
    {
      "epoch": 134.09333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029671545036354785,
      "loss": 0.4018,
      "step": 100570
    },
    {
      "epoch": 134.10666666666665,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002967147962806736,
      "loss": 0.3899,
      "step": 100580
    },
    {
      "epoch": 134.12,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002967141421334002,
      "loss": 0.3956,
      "step": 100590
    },
    {
      "epoch": 134.13333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029671348792172775,
      "loss": 0.3868,
      "step": 100600
    },
    {
      "epoch": 134.14666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002967128336456567,
      "loss": 0.4057,
      "step": 100610
    },
    {
      "epoch": 134.16,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029671217930518726,
      "loss": 0.3992,
      "step": 100620
    },
    {
      "epoch": 134.17333333333335,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029671152490031973,
      "loss": 0.3939,
      "step": 100630
    },
    {
      "epoch": 134.18666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029671087043105443,
      "loss": 0.3922,
      "step": 100640
    },
    {
      "epoch": 134.2,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029671021589739154,
      "loss": 0.3845,
      "step": 100650
    },
    {
      "epoch": 134.21333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002967095612993315,
      "loss": 0.3866,
      "step": 100660
    },
    {
      "epoch": 134.22666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002967089066368745,
      "loss": 0.398,
      "step": 100670
    },
    {
      "epoch": 134.24,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029670825191002086,
      "loss": 0.3819,
      "step": 100680
    },
    {
      "epoch": 134.25333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029670759711877083,
      "loss": 0.3845,
      "step": 100690
    },
    {
      "epoch": 134.26666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002967069422631247,
      "loss": 0.387,
      "step": 100700
    },
    {
      "epoch": 134.28,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029670628734308286,
      "loss": 0.4179,
      "step": 100710
    },
    {
      "epoch": 134.29333333333332,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002967056323586454,
      "loss": 0.3735,
      "step": 100720
    },
    {
      "epoch": 134.30666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029670497730981284,
      "loss": 0.397,
      "step": 100730
    },
    {
      "epoch": 134.32,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002967043221965853,
      "loss": 0.3986,
      "step": 100740
    },
    {
      "epoch": 134.33333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029670366701896317,
      "loss": 0.4019,
      "step": 100750
    },
    {
      "epoch": 134.34666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002967030117769466,
      "loss": 0.3926,
      "step": 100760
    },
    {
      "epoch": 134.36,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029670235647053607,
      "loss": 0.3928,
      "step": 100770
    },
    {
      "epoch": 134.37333333333333,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002967017010997317,
      "loss": 0.394,
      "step": 100780
    },
    {
      "epoch": 134.38666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002967010456645338,
      "loss": 0.3854,
      "step": 100790
    },
    {
      "epoch": 134.4,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002967003901649428,
      "loss": 0.3931,
      "step": 100800
    },
    {
      "epoch": 134.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029669973460095877,
      "loss": 0.3983,
      "step": 100810
    },
    {
      "epoch": 134.42666666666668,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002966990789725822,
      "loss": 0.3999,
      "step": 100820
    },
    {
      "epoch": 134.44,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029669842327981324,
      "loss": 0.411,
      "step": 100830
    },
    {
      "epoch": 134.45333333333335,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029669776752265227,
      "loss": 0.3998,
      "step": 100840
    },
    {
      "epoch": 134.46666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029669711170109955,
      "loss": 0.4081,
      "step": 100850
    },
    {
      "epoch": 134.48,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002966964558151553,
      "loss": 0.3902,
      "step": 100860
    },
    {
      "epoch": 134.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002966957998648199,
      "loss": 0.4024,
      "step": 100870
    },
    {
      "epoch": 134.50666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002966951438500936,
      "loss": 0.3999,
      "step": 100880
    },
    {
      "epoch": 134.52,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029669448777097673,
      "loss": 0.3909,
      "step": 100890
    },
    {
      "epoch": 134.53333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029669383162746947,
      "loss": 0.3932,
      "step": 100900
    },
    {
      "epoch": 134.54666666666665,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002966931754195722,
      "loss": 0.3957,
      "step": 100910
    },
    {
      "epoch": 134.56,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002966925191472852,
      "loss": 0.3891,
      "step": 100920
    },
    {
      "epoch": 134.57333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002966918628106087,
      "loss": 0.3931,
      "step": 100930
    },
    {
      "epoch": 134.58666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029669120640954307,
      "loss": 0.383,
      "step": 100940
    },
    {
      "epoch": 134.6,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029669054994408854,
      "loss": 0.3831,
      "step": 100950
    },
    {
      "epoch": 134.61333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029668989341424546,
      "loss": 0.3729,
      "step": 100960
    },
    {
      "epoch": 134.62666666666667,
      "grad_norm": 0.296875,
      "learning_rate": 0.000296689236820014,
      "loss": 0.3792,
      "step": 100970
    },
    {
      "epoch": 134.64,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002966885801613946,
      "loss": 0.3917,
      "step": 100980
    },
    {
      "epoch": 134.65333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002966879234383874,
      "loss": 0.4004,
      "step": 100990
    },
    {
      "epoch": 134.66666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029668726665099275,
      "loss": 0.3882,
      "step": 101000
    },
    {
      "epoch": 134.68,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000296686609799211,
      "loss": 0.38,
      "step": 101010
    },
    {
      "epoch": 134.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029668595288304236,
      "loss": 0.3886,
      "step": 101020
    },
    {
      "epoch": 134.70666666666668,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002966852959024872,
      "loss": 0.3817,
      "step": 101030
    },
    {
      "epoch": 134.72,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002966846388575457,
      "loss": 0.4039,
      "step": 101040
    },
    {
      "epoch": 134.73333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029668398174821815,
      "loss": 0.3978,
      "step": 101050
    },
    {
      "epoch": 134.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000296683324574505,
      "loss": 0.4008,
      "step": 101060
    },
    {
      "epoch": 134.76,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029668266733640634,
      "loss": 0.4133,
      "step": 101070
    },
    {
      "epoch": 134.77333333333334,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002966820100339226,
      "loss": 0.4011,
      "step": 101080
    },
    {
      "epoch": 134.78666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029668135266705395,
      "loss": 0.4006,
      "step": 101090
    },
    {
      "epoch": 134.8,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002966806952358008,
      "loss": 0.3992,
      "step": 101100
    },
    {
      "epoch": 134.81333333333333,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002966800377401634,
      "loss": 0.3728,
      "step": 101110
    },
    {
      "epoch": 134.82666666666665,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000296679380180142,
      "loss": 0.3822,
      "step": 101120
    },
    {
      "epoch": 134.84,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029667872255573685,
      "loss": 0.3941,
      "step": 101130
    },
    {
      "epoch": 134.85333333333332,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029667806486694833,
      "loss": 0.389,
      "step": 101140
    },
    {
      "epoch": 134.86666666666667,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029667740711377674,
      "loss": 0.3938,
      "step": 101150
    },
    {
      "epoch": 134.88,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002966767492962223,
      "loss": 0.3741,
      "step": 101160
    },
    {
      "epoch": 134.89333333333335,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002966760914142853,
      "loss": 0.3865,
      "step": 101170
    },
    {
      "epoch": 134.90666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002966754334679661,
      "loss": 0.3934,
      "step": 101180
    },
    {
      "epoch": 134.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002966747754572649,
      "loss": 0.3944,
      "step": 101190
    },
    {
      "epoch": 134.93333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000296674117382182,
      "loss": 0.3891,
      "step": 101200
    },
    {
      "epoch": 134.94666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002966734592427178,
      "loss": 0.3896,
      "step": 101210
    },
    {
      "epoch": 134.96,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029667280103887244,
      "loss": 0.3881,
      "step": 101220
    },
    {
      "epoch": 134.97333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002966721427706463,
      "loss": 0.4119,
      "step": 101230
    },
    {
      "epoch": 134.98666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002966714844380397,
      "loss": 0.3852,
      "step": 101240
    },
    {
      "epoch": 135.0,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029667082604105285,
      "loss": 0.3817,
      "step": 101250
    },
    {
      "epoch": 135.0,
      "eval_loss": 0.42783838510513306,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9529,
      "eval_samples_per_second": 1.608,
      "eval_steps_per_second": 0.1,
      "step": 101250
    },
    {
      "epoch": 135.01333333333332,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000296670167579686,
      "loss": 0.399,
      "step": 101260
    },
    {
      "epoch": 135.02666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002966695090539395,
      "loss": 0.4111,
      "step": 101270
    },
    {
      "epoch": 135.04,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002966688504638137,
      "loss": 0.4242,
      "step": 101280
    },
    {
      "epoch": 135.05333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002966681918093088,
      "loss": 0.4099,
      "step": 101290
    },
    {
      "epoch": 135.06666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002966675330904252,
      "loss": 0.398,
      "step": 101300
    },
    {
      "epoch": 135.08,
      "grad_norm": 0.427734375,
      "learning_rate": 0.000296666874307163,
      "loss": 0.4019,
      "step": 101310
    },
    {
      "epoch": 135.09333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002966662154595227,
      "loss": 0.4021,
      "step": 101320
    },
    {
      "epoch": 135.10666666666665,
      "grad_norm": 0.375,
      "learning_rate": 0.00029666555654750436,
      "loss": 0.3903,
      "step": 101330
    },
    {
      "epoch": 135.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002966648975711085,
      "loss": 0.3949,
      "step": 101340
    },
    {
      "epoch": 135.13333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029666423853033527,
      "loss": 0.3862,
      "step": 101350
    },
    {
      "epoch": 135.14666666666668,
      "grad_norm": 0.42578125,
      "learning_rate": 0.000296663579425185,
      "loss": 0.4044,
      "step": 101360
    },
    {
      "epoch": 135.16,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029666292025565797,
      "loss": 0.3994,
      "step": 101370
    },
    {
      "epoch": 135.17333333333335,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002966622610217545,
      "loss": 0.3933,
      "step": 101380
    },
    {
      "epoch": 135.18666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002966616017234748,
      "loss": 0.3933,
      "step": 101390
    },
    {
      "epoch": 135.2,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029666094236081923,
      "loss": 0.3849,
      "step": 101400
    },
    {
      "epoch": 135.21333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002966602829337881,
      "loss": 0.3853,
      "step": 101410
    },
    {
      "epoch": 135.22666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002966596234423816,
      "loss": 0.3971,
      "step": 101420
    },
    {
      "epoch": 135.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029665896388660014,
      "loss": 0.3821,
      "step": 101430
    },
    {
      "epoch": 135.25333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029665830426644395,
      "loss": 0.3842,
      "step": 101440
    },
    {
      "epoch": 135.26666666666668,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002966576445819133,
      "loss": 0.3882,
      "step": 101450
    },
    {
      "epoch": 135.28,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029665698483300845,
      "loss": 0.4162,
      "step": 101460
    },
    {
      "epoch": 135.29333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029665632501972984,
      "loss": 0.3733,
      "step": 101470
    },
    {
      "epoch": 135.30666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002966556651420776,
      "loss": 0.3952,
      "step": 101480
    },
    {
      "epoch": 135.32,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029665500520005203,
      "loss": 0.3986,
      "step": 101490
    },
    {
      "epoch": 135.33333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029665434519365354,
      "loss": 0.4018,
      "step": 101500
    },
    {
      "epoch": 135.34666666666666,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00029665368512288233,
      "loss": 0.393,
      "step": 101510
    },
    {
      "epoch": 135.36,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00029665302498773873,
      "loss": 0.3938,
      "step": 101520
    },
    {
      "epoch": 135.37333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029665236478822296,
      "loss": 0.3939,
      "step": 101530
    },
    {
      "epoch": 135.38666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002966517045243354,
      "loss": 0.3851,
      "step": 101540
    },
    {
      "epoch": 135.4,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029665104419607626,
      "loss": 0.3936,
      "step": 101550
    },
    {
      "epoch": 135.41333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002966503838034459,
      "loss": 0.3983,
      "step": 101560
    },
    {
      "epoch": 135.42666666666668,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029664972334644455,
      "loss": 0.3987,
      "step": 101570
    },
    {
      "epoch": 135.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002966490628250725,
      "loss": 0.4101,
      "step": 101580
    },
    {
      "epoch": 135.45333333333335,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002966484022393301,
      "loss": 0.3997,
      "step": 101590
    },
    {
      "epoch": 135.46666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029664774158921764,
      "loss": 0.4084,
      "step": 101600
    },
    {
      "epoch": 135.48,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002966470808747354,
      "loss": 0.3895,
      "step": 101610
    },
    {
      "epoch": 135.49333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029664642009588355,
      "loss": 0.4023,
      "step": 101620
    },
    {
      "epoch": 135.50666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029664575925266253,
      "loss": 0.3992,
      "step": 101630
    },
    {
      "epoch": 135.52,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029664509834507254,
      "loss": 0.3903,
      "step": 101640
    },
    {
      "epoch": 135.53333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029664443737311395,
      "loss": 0.394,
      "step": 101650
    },
    {
      "epoch": 135.54666666666665,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029664377633678693,
      "loss": 0.3955,
      "step": 101660
    },
    {
      "epoch": 135.56,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0002966431152360919,
      "loss": 0.3893,
      "step": 101670
    },
    {
      "epoch": 135.57333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029664245407102916,
      "loss": 0.3922,
      "step": 101680
    },
    {
      "epoch": 135.58666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029664179284159885,
      "loss": 0.3825,
      "step": 101690
    },
    {
      "epoch": 135.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002966411315478014,
      "loss": 0.383,
      "step": 101700
    },
    {
      "epoch": 135.61333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029664047018963704,
      "loss": 0.373,
      "step": 101710
    },
    {
      "epoch": 135.62666666666667,
      "grad_norm": 0.3125,
      "learning_rate": 0.00029663980876710604,
      "loss": 0.3794,
      "step": 101720
    },
    {
      "epoch": 135.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002966391472802087,
      "loss": 0.3918,
      "step": 101730
    },
    {
      "epoch": 135.65333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002966384857289454,
      "loss": 0.4004,
      "step": 101740
    },
    {
      "epoch": 135.66666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002966378241133163,
      "loss": 0.3883,
      "step": 101750
    },
    {
      "epoch": 135.68,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029663716243332177,
      "loss": 0.3801,
      "step": 101760
    },
    {
      "epoch": 135.69333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029663650068896205,
      "loss": 0.3893,
      "step": 101770
    },
    {
      "epoch": 135.70666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029663583888023753,
      "loss": 0.3823,
      "step": 101780
    },
    {
      "epoch": 135.72,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029663517700714837,
      "loss": 0.4035,
      "step": 101790
    },
    {
      "epoch": 135.73333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029663451506969495,
      "loss": 0.3979,
      "step": 101800
    },
    {
      "epoch": 135.74666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002966338530678775,
      "loss": 0.4005,
      "step": 101810
    },
    {
      "epoch": 135.76,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029663319100169637,
      "loss": 0.4132,
      "step": 101820
    },
    {
      "epoch": 135.77333333333334,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029663252887115186,
      "loss": 0.4,
      "step": 101830
    },
    {
      "epoch": 135.78666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029663186667624417,
      "loss": 0.4006,
      "step": 101840
    },
    {
      "epoch": 135.8,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029663120441697364,
      "loss": 0.3992,
      "step": 101850
    },
    {
      "epoch": 135.81333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002966305420933406,
      "loss": 0.3713,
      "step": 101860
    },
    {
      "epoch": 135.82666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029662987970534527,
      "loss": 0.3823,
      "step": 101870
    },
    {
      "epoch": 135.84,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029662921725298803,
      "loss": 0.394,
      "step": 101880
    },
    {
      "epoch": 135.85333333333332,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000296628554736269,
      "loss": 0.3893,
      "step": 101890
    },
    {
      "epoch": 135.86666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002966278921551887,
      "loss": 0.3942,
      "step": 101900
    },
    {
      "epoch": 135.88,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002966272295097473,
      "loss": 0.3749,
      "step": 101910
    },
    {
      "epoch": 135.89333333333335,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002966265667999451,
      "loss": 0.387,
      "step": 101920
    },
    {
      "epoch": 135.90666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029662590402578236,
      "loss": 0.3925,
      "step": 101930
    },
    {
      "epoch": 135.92,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002966252411872594,
      "loss": 0.3951,
      "step": 101940
    },
    {
      "epoch": 135.93333333333334,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00029662457828437655,
      "loss": 0.3892,
      "step": 101950
    },
    {
      "epoch": 135.94666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000296623915317134,
      "loss": 0.3897,
      "step": 101960
    },
    {
      "epoch": 135.96,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002966232522855322,
      "loss": 0.3879,
      "step": 101970
    },
    {
      "epoch": 135.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002966225891895713,
      "loss": 0.413,
      "step": 101980
    },
    {
      "epoch": 135.98666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029662192602925155,
      "loss": 0.3856,
      "step": 101990
    },
    {
      "epoch": 136.0,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029662126280457346,
      "loss": 0.3824,
      "step": 102000
    },
    {
      "epoch": 136.0,
      "eval_loss": 0.4271514117717743,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7734,
      "eval_samples_per_second": 1.637,
      "eval_steps_per_second": 0.102,
      "step": 102000
    },
    {
      "epoch": 136.01333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002966205995155371,
      "loss": 0.3992,
      "step": 102010
    },
    {
      "epoch": 136.02666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002966199361621429,
      "loss": 0.4101,
      "step": 102020
    },
    {
      "epoch": 136.04,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029661927274439106,
      "loss": 0.4251,
      "step": 102030
    },
    {
      "epoch": 136.05333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029661860926228197,
      "loss": 0.4108,
      "step": 102040
    },
    {
      "epoch": 136.06666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002966179457158158,
      "loss": 0.3976,
      "step": 102050
    },
    {
      "epoch": 136.08,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029661728210499295,
      "loss": 0.4009,
      "step": 102060
    },
    {
      "epoch": 136.09333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002966166184298137,
      "loss": 0.4032,
      "step": 102070
    },
    {
      "epoch": 136.10666666666665,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002966159546902782,
      "loss": 0.39,
      "step": 102080
    },
    {
      "epoch": 136.12,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029661529088638694,
      "loss": 0.3947,
      "step": 102090
    },
    {
      "epoch": 136.13333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029661462701814005,
      "loss": 0.3861,
      "step": 102100
    },
    {
      "epoch": 136.14666666666668,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029661396308553796,
      "loss": 0.4046,
      "step": 102110
    },
    {
      "epoch": 136.16,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002966132990885809,
      "loss": 0.3996,
      "step": 102120
    },
    {
      "epoch": 136.17333333333335,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002966126350272691,
      "loss": 0.394,
      "step": 102130
    },
    {
      "epoch": 136.18666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002966119709016029,
      "loss": 0.3911,
      "step": 102140
    },
    {
      "epoch": 136.2,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029661130671158263,
      "loss": 0.3842,
      "step": 102150
    },
    {
      "epoch": 136.21333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002966106424572085,
      "loss": 0.3853,
      "step": 102160
    },
    {
      "epoch": 136.22666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029660997813848094,
      "loss": 0.3966,
      "step": 102170
    },
    {
      "epoch": 136.24,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029660931375540006,
      "loss": 0.3815,
      "step": 102180
    },
    {
      "epoch": 136.25333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029660864930796635,
      "loss": 0.3843,
      "step": 102190
    },
    {
      "epoch": 136.26666666666668,
      "grad_norm": 0.375,
      "learning_rate": 0.0002966079847961799,
      "loss": 0.3869,
      "step": 102200
    },
    {
      "epoch": 136.28,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029660732022004113,
      "loss": 0.4161,
      "step": 102210
    },
    {
      "epoch": 136.29333333333332,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002966066555795503,
      "loss": 0.3732,
      "step": 102220
    },
    {
      "epoch": 136.30666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002966059908747077,
      "loss": 0.3962,
      "step": 102230
    },
    {
      "epoch": 136.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029660532610551366,
      "loss": 0.3988,
      "step": 102240
    },
    {
      "epoch": 136.33333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029660466127196834,
      "loss": 0.4014,
      "step": 102250
    },
    {
      "epoch": 136.34666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002966039963740722,
      "loss": 0.3919,
      "step": 102260
    },
    {
      "epoch": 136.36,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029660333141182544,
      "loss": 0.392,
      "step": 102270
    },
    {
      "epoch": 136.37333333333333,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002966026663852284,
      "loss": 0.3935,
      "step": 102280
    },
    {
      "epoch": 136.38666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029660200129428134,
      "loss": 0.3855,
      "step": 102290
    },
    {
      "epoch": 136.4,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029660133613898445,
      "loss": 0.3928,
      "step": 102300
    },
    {
      "epoch": 136.41333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029660067091933826,
      "loss": 0.3973,
      "step": 102310
    },
    {
      "epoch": 136.42666666666668,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002966000056353429,
      "loss": 0.3991,
      "step": 102320
    },
    {
      "epoch": 136.44,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002965993402869986,
      "loss": 0.4113,
      "step": 102330
    },
    {
      "epoch": 136.45333333333335,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002965986748743058,
      "loss": 0.3997,
      "step": 102340
    },
    {
      "epoch": 136.46666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002965980093972648,
      "loss": 0.4089,
      "step": 102350
    },
    {
      "epoch": 136.48,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002965973438558757,
      "loss": 0.3901,
      "step": 102360
    },
    {
      "epoch": 136.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000296596678250139,
      "loss": 0.4029,
      "step": 102370
    },
    {
      "epoch": 136.50666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002965960125800549,
      "loss": 0.4004,
      "step": 102380
    },
    {
      "epoch": 136.52,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029659534684562365,
      "loss": 0.3895,
      "step": 102390
    },
    {
      "epoch": 136.53333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029659468104684567,
      "loss": 0.3931,
      "step": 102400
    },
    {
      "epoch": 136.54666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002965940151837211,
      "loss": 0.3956,
      "step": 102410
    },
    {
      "epoch": 136.56,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002965933492562504,
      "loss": 0.3901,
      "step": 102420
    },
    {
      "epoch": 136.57333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029659268326443373,
      "loss": 0.3939,
      "step": 102430
    },
    {
      "epoch": 136.58666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002965920172082714,
      "loss": 0.3818,
      "step": 102440
    },
    {
      "epoch": 136.6,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029659135108776375,
      "loss": 0.3843,
      "step": 102450
    },
    {
      "epoch": 136.61333333333334,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00029659068490291103,
      "loss": 0.3735,
      "step": 102460
    },
    {
      "epoch": 136.62666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002965900186537136,
      "loss": 0.379,
      "step": 102470
    },
    {
      "epoch": 136.64,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002965893523401716,
      "loss": 0.3913,
      "step": 102480
    },
    {
      "epoch": 136.65333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029658868596228554,
      "loss": 0.4001,
      "step": 102490
    },
    {
      "epoch": 136.66666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002965880195200555,
      "loss": 0.3875,
      "step": 102500
    },
    {
      "epoch": 136.68,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029658735301348196,
      "loss": 0.3796,
      "step": 102510
    },
    {
      "epoch": 136.69333333333333,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0002965866864425651,
      "loss": 0.3891,
      "step": 102520
    },
    {
      "epoch": 136.70666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002965860198073052,
      "loss": 0.3816,
      "step": 102530
    },
    {
      "epoch": 136.72,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002965853531077026,
      "loss": 0.4042,
      "step": 102540
    },
    {
      "epoch": 136.73333333333332,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002965846863437576,
      "loss": 0.3984,
      "step": 102550
    },
    {
      "epoch": 136.74666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002965840195154705,
      "loss": 0.401,
      "step": 102560
    },
    {
      "epoch": 136.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002965833526228415,
      "loss": 0.4135,
      "step": 102570
    },
    {
      "epoch": 136.77333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029658268566587096,
      "loss": 0.3993,
      "step": 102580
    },
    {
      "epoch": 136.78666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029658201864455925,
      "loss": 0.4006,
      "step": 102590
    },
    {
      "epoch": 136.8,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002965813515589065,
      "loss": 0.399,
      "step": 102600
    },
    {
      "epoch": 136.81333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002965806844089132,
      "loss": 0.3732,
      "step": 102610
    },
    {
      "epoch": 136.82666666666665,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029658001719457943,
      "loss": 0.3824,
      "step": 102620
    },
    {
      "epoch": 136.84,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002965793499159056,
      "loss": 0.3941,
      "step": 102630
    },
    {
      "epoch": 136.85333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000296578682572892,
      "loss": 0.3906,
      "step": 102640
    },
    {
      "epoch": 136.86666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002965780151655389,
      "loss": 0.3952,
      "step": 102650
    },
    {
      "epoch": 136.88,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002965773476938466,
      "loss": 0.3749,
      "step": 102660
    },
    {
      "epoch": 136.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002965766801578154,
      "loss": 0.385,
      "step": 102670
    },
    {
      "epoch": 136.90666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002965760125574456,
      "loss": 0.393,
      "step": 102680
    },
    {
      "epoch": 136.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002965753448927375,
      "loss": 0.3953,
      "step": 102690
    },
    {
      "epoch": 136.93333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002965746771636913,
      "loss": 0.3882,
      "step": 102700
    },
    {
      "epoch": 136.94666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029657400937030745,
      "loss": 0.3909,
      "step": 102710
    },
    {
      "epoch": 136.96,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002965733415125861,
      "loss": 0.3877,
      "step": 102720
    },
    {
      "epoch": 136.97333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029657267359052764,
      "loss": 0.4128,
      "step": 102730
    },
    {
      "epoch": 136.98666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029657200560413233,
      "loss": 0.3856,
      "step": 102740
    },
    {
      "epoch": 137.0,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002965713375534004,
      "loss": 0.3814,
      "step": 102750
    },
    {
      "epoch": 137.0,
      "eval_loss": 0.42927682399749756,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0256,
      "eval_samples_per_second": 1.596,
      "eval_steps_per_second": 0.1,
      "step": 102750
    },
    {
      "epoch": 137.01333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029657066943833226,
      "loss": 0.3987,
      "step": 102760
    },
    {
      "epoch": 137.02666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029657000125892814,
      "loss": 0.4125,
      "step": 102770
    },
    {
      "epoch": 137.04,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029656933301518834,
      "loss": 0.4242,
      "step": 102780
    },
    {
      "epoch": 137.05333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002965686647071132,
      "loss": 0.4105,
      "step": 102790
    },
    {
      "epoch": 137.06666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029656799633470286,
      "loss": 0.3981,
      "step": 102800
    },
    {
      "epoch": 137.08,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002965673278979578,
      "loss": 0.4013,
      "step": 102810
    },
    {
      "epoch": 137.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029656665939687814,
      "loss": 0.4018,
      "step": 102820
    },
    {
      "epoch": 137.10666666666665,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002965659908314644,
      "loss": 0.3901,
      "step": 102830
    },
    {
      "epoch": 137.12,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029656532220171663,
      "loss": 0.3957,
      "step": 102840
    },
    {
      "epoch": 137.13333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002965646535076353,
      "loss": 0.3868,
      "step": 102850
    },
    {
      "epoch": 137.14666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002965639847492206,
      "loss": 0.4051,
      "step": 102860
    },
    {
      "epoch": 137.16,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002965633159264729,
      "loss": 0.3989,
      "step": 102870
    },
    {
      "epoch": 137.17333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029656264703939244,
      "loss": 0.3934,
      "step": 102880
    },
    {
      "epoch": 137.18666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002965619780879795,
      "loss": 0.3925,
      "step": 102890
    },
    {
      "epoch": 137.2,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002965613090722344,
      "loss": 0.3843,
      "step": 102900
    },
    {
      "epoch": 137.21333333333334,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002965606399921575,
      "loss": 0.3863,
      "step": 102910
    },
    {
      "epoch": 137.22666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029655997084774893,
      "loss": 0.3967,
      "step": 102920
    },
    {
      "epoch": 137.24,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002965593016390092,
      "loss": 0.382,
      "step": 102930
    },
    {
      "epoch": 137.25333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002965586323659384,
      "loss": 0.3837,
      "step": 102940
    },
    {
      "epoch": 137.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029655796302853693,
      "loss": 0.3869,
      "step": 102950
    },
    {
      "epoch": 137.28,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002965572936268051,
      "loss": 0.4159,
      "step": 102960
    },
    {
      "epoch": 137.29333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029655662416074307,
      "loss": 0.3735,
      "step": 102970
    },
    {
      "epoch": 137.30666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029655595463035127,
      "loss": 0.3964,
      "step": 102980
    },
    {
      "epoch": 137.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029655528503563,
      "loss": 0.3985,
      "step": 102990
    },
    {
      "epoch": 137.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002965546153765795,
      "loss": 0.4012,
      "step": 103000
    },
    {
      "epoch": 137.34666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002965539456532001,
      "loss": 0.3921,
      "step": 103010
    },
    {
      "epoch": 137.36,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029655327586549204,
      "loss": 0.3932,
      "step": 103020
    },
    {
      "epoch": 137.37333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029655260601345557,
      "loss": 0.3935,
      "step": 103030
    },
    {
      "epoch": 137.38666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029655193609709116,
      "loss": 0.3848,
      "step": 103040
    },
    {
      "epoch": 137.4,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002965512661163989,
      "loss": 0.3932,
      "step": 103050
    },
    {
      "epoch": 137.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002965505960713793,
      "loss": 0.3988,
      "step": 103060
    },
    {
      "epoch": 137.42666666666668,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002965499259620325,
      "loss": 0.3985,
      "step": 103070
    },
    {
      "epoch": 137.44,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029654925578835877,
      "loss": 0.411,
      "step": 103080
    },
    {
      "epoch": 137.45333333333335,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002965485855503585,
      "loss": 0.3997,
      "step": 103090
    },
    {
      "epoch": 137.46666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029654791524803196,
      "loss": 0.4089,
      "step": 103100
    },
    {
      "epoch": 137.48,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002965472448813794,
      "loss": 0.3901,
      "step": 103110
    },
    {
      "epoch": 137.49333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002965465744504012,
      "loss": 0.4024,
      "step": 103120
    },
    {
      "epoch": 137.50666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029654590395509757,
      "loss": 0.3991,
      "step": 103130
    },
    {
      "epoch": 137.52,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029654523339546886,
      "loss": 0.3901,
      "step": 103140
    },
    {
      "epoch": 137.53333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029654456277151535,
      "loss": 0.3936,
      "step": 103150
    },
    {
      "epoch": 137.54666666666665,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029654389208323733,
      "loss": 0.3957,
      "step": 103160
    },
    {
      "epoch": 137.56,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029654322133063505,
      "loss": 0.3888,
      "step": 103170
    },
    {
      "epoch": 137.57333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029654255051370885,
      "loss": 0.3937,
      "step": 103180
    },
    {
      "epoch": 137.58666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029654187963245904,
      "loss": 0.382,
      "step": 103190
    },
    {
      "epoch": 137.6,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029654120868688585,
      "loss": 0.3842,
      "step": 103200
    },
    {
      "epoch": 137.61333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002965405376769897,
      "loss": 0.3734,
      "step": 103210
    },
    {
      "epoch": 137.62666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029653986660277073,
      "loss": 0.3795,
      "step": 103220
    },
    {
      "epoch": 137.64,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029653919546422934,
      "loss": 0.3911,
      "step": 103230
    },
    {
      "epoch": 137.65333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002965385242613658,
      "loss": 0.4001,
      "step": 103240
    },
    {
      "epoch": 137.66666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029653785299418037,
      "loss": 0.3876,
      "step": 103250
    },
    {
      "epoch": 137.68,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002965371816626734,
      "loss": 0.3794,
      "step": 103260
    },
    {
      "epoch": 137.69333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029653651026684513,
      "loss": 0.3886,
      "step": 103270
    },
    {
      "epoch": 137.70666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002965358388066959,
      "loss": 0.3815,
      "step": 103280
    },
    {
      "epoch": 137.72,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029653516728222595,
      "loss": 0.4039,
      "step": 103290
    },
    {
      "epoch": 137.73333333333332,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002965344956934356,
      "loss": 0.3982,
      "step": 103300
    },
    {
      "epoch": 137.74666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002965338240403252,
      "loss": 0.3999,
      "step": 103310
    },
    {
      "epoch": 137.76,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000296533152322895,
      "loss": 0.4129,
      "step": 103320
    },
    {
      "epoch": 137.77333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002965324805411453,
      "loss": 0.3987,
      "step": 103330
    },
    {
      "epoch": 137.78666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029653180869507634,
      "loss": 0.4003,
      "step": 103340
    },
    {
      "epoch": 137.8,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002965311367846885,
      "loss": 0.3986,
      "step": 103350
    },
    {
      "epoch": 137.81333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029653046480998204,
      "loss": 0.3722,
      "step": 103360
    },
    {
      "epoch": 137.82666666666665,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029652979277095725,
      "loss": 0.3826,
      "step": 103370
    },
    {
      "epoch": 137.84,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029652912066761443,
      "loss": 0.3943,
      "step": 103380
    },
    {
      "epoch": 137.85333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029652844849995387,
      "loss": 0.3887,
      "step": 103390
    },
    {
      "epoch": 137.86666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029652777626797583,
      "loss": 0.3935,
      "step": 103400
    },
    {
      "epoch": 137.88,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029652710397168075,
      "loss": 0.375,
      "step": 103410
    },
    {
      "epoch": 137.89333333333335,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002965264316110687,
      "loss": 0.3862,
      "step": 103420
    },
    {
      "epoch": 137.90666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002965257591861401,
      "loss": 0.3926,
      "step": 103430
    },
    {
      "epoch": 137.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029652508669689533,
      "loss": 0.3942,
      "step": 103440
    },
    {
      "epoch": 137.93333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029652441414333453,
      "loss": 0.3878,
      "step": 103450
    },
    {
      "epoch": 137.94666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002965237415254581,
      "loss": 0.3882,
      "step": 103460
    },
    {
      "epoch": 137.96,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002965230688432663,
      "loss": 0.387,
      "step": 103470
    },
    {
      "epoch": 137.97333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002965223960967594,
      "loss": 0.4118,
      "step": 103480
    },
    {
      "epoch": 137.98666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002965217232859377,
      "loss": 0.3851,
      "step": 103490
    },
    {
      "epoch": 138.0,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002965210504108015,
      "loss": 0.3807,
      "step": 103500
    },
    {
      "epoch": 138.0,
      "eval_loss": 0.4272652268409729,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9025,
      "eval_samples_per_second": 1.616,
      "eval_steps_per_second": 0.101,
      "step": 103500
    },
    {
      "epoch": 138.01333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029652037747135115,
      "loss": 0.399,
      "step": 103510
    },
    {
      "epoch": 138.02666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002965197044675869,
      "loss": 0.4126,
      "step": 103520
    },
    {
      "epoch": 138.04,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000296519031399509,
      "loss": 0.4245,
      "step": 103530
    },
    {
      "epoch": 138.05333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029651835826711786,
      "loss": 0.4102,
      "step": 103540
    },
    {
      "epoch": 138.06666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002965176850704137,
      "loss": 0.3974,
      "step": 103550
    },
    {
      "epoch": 138.08,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002965170118093967,
      "loss": 0.4008,
      "step": 103560
    },
    {
      "epoch": 138.09333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002965163384840674,
      "loss": 0.4018,
      "step": 103570
    },
    {
      "epoch": 138.10666666666665,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029651566509442595,
      "loss": 0.3907,
      "step": 103580
    },
    {
      "epoch": 138.12,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002965149916404727,
      "loss": 0.3947,
      "step": 103590
    },
    {
      "epoch": 138.13333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002965143181222079,
      "loss": 0.3863,
      "step": 103600
    },
    {
      "epoch": 138.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029651364453963183,
      "loss": 0.4047,
      "step": 103610
    },
    {
      "epoch": 138.16,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002965129708927448,
      "loss": 0.3983,
      "step": 103620
    },
    {
      "epoch": 138.17333333333335,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029651229718154714,
      "loss": 0.3937,
      "step": 103630
    },
    {
      "epoch": 138.18666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029651162340603915,
      "loss": 0.3916,
      "step": 103640
    },
    {
      "epoch": 138.2,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002965109495662211,
      "loss": 0.3852,
      "step": 103650
    },
    {
      "epoch": 138.21333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002965102756620933,
      "loss": 0.3856,
      "step": 103660
    },
    {
      "epoch": 138.22666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029650960169365603,
      "loss": 0.3974,
      "step": 103670
    },
    {
      "epoch": 138.24,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002965089276609096,
      "loss": 0.3824,
      "step": 103680
    },
    {
      "epoch": 138.25333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002965082535638543,
      "loss": 0.3844,
      "step": 103690
    },
    {
      "epoch": 138.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002965075794024904,
      "loss": 0.3868,
      "step": 103700
    },
    {
      "epoch": 138.28,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002965069051768182,
      "loss": 0.4167,
      "step": 103710
    },
    {
      "epoch": 138.29333333333332,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029650623088683806,
      "loss": 0.3723,
      "step": 103720
    },
    {
      "epoch": 138.30666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029650555653255015,
      "loss": 0.3958,
      "step": 103730
    },
    {
      "epoch": 138.32,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002965048821139549,
      "loss": 0.3989,
      "step": 103740
    },
    {
      "epoch": 138.33333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002965042076310526,
      "loss": 0.4023,
      "step": 103750
    },
    {
      "epoch": 138.34666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002965035330838435,
      "loss": 0.3925,
      "step": 103760
    },
    {
      "epoch": 138.36,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002965028584723278,
      "loss": 0.3927,
      "step": 103770
    },
    {
      "epoch": 138.37333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000296502183796506,
      "loss": 0.3941,
      "step": 103780
    },
    {
      "epoch": 138.38666666666666,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002965015090563782,
      "loss": 0.3856,
      "step": 103790
    },
    {
      "epoch": 138.4,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002965008342519448,
      "loss": 0.3937,
      "step": 103800
    },
    {
      "epoch": 138.41333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002965001593832061,
      "loss": 0.3986,
      "step": 103810
    },
    {
      "epoch": 138.42666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002964994844501624,
      "loss": 0.4001,
      "step": 103820
    },
    {
      "epoch": 138.44,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000296498809452814,
      "loss": 0.4098,
      "step": 103830
    },
    {
      "epoch": 138.45333333333335,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002964981343911611,
      "loss": 0.3998,
      "step": 103840
    },
    {
      "epoch": 138.46666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029649745926520405,
      "loss": 0.4092,
      "step": 103850
    },
    {
      "epoch": 138.48,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029649678407494325,
      "loss": 0.3895,
      "step": 103860
    },
    {
      "epoch": 138.49333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029649610882037886,
      "loss": 0.4012,
      "step": 103870
    },
    {
      "epoch": 138.50666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002964954335015112,
      "loss": 0.4,
      "step": 103880
    },
    {
      "epoch": 138.52,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002964947581183406,
      "loss": 0.3906,
      "step": 103890
    },
    {
      "epoch": 138.53333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029649408267086734,
      "loss": 0.393,
      "step": 103900
    },
    {
      "epoch": 138.54666666666665,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029649340715909176,
      "loss": 0.3958,
      "step": 103910
    },
    {
      "epoch": 138.56,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002964927315830141,
      "loss": 0.389,
      "step": 103920
    },
    {
      "epoch": 138.57333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002964920559426346,
      "loss": 0.3931,
      "step": 103930
    },
    {
      "epoch": 138.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029649138023795377,
      "loss": 0.3817,
      "step": 103940
    },
    {
      "epoch": 138.6,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002964907044689717,
      "loss": 0.3826,
      "step": 103950
    },
    {
      "epoch": 138.61333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029649002863568877,
      "loss": 0.373,
      "step": 103960
    },
    {
      "epoch": 138.62666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029648935273810526,
      "loss": 0.3792,
      "step": 103970
    },
    {
      "epoch": 138.64,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029648867677622146,
      "loss": 0.3901,
      "step": 103980
    },
    {
      "epoch": 138.65333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002964880007500377,
      "loss": 0.3994,
      "step": 103990
    },
    {
      "epoch": 138.66666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029648732465955424,
      "loss": 0.3867,
      "step": 104000
    },
    {
      "epoch": 138.68,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029648664850477136,
      "loss": 0.379,
      "step": 104010
    },
    {
      "epoch": 138.69333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029648597228568944,
      "loss": 0.3881,
      "step": 104020
    },
    {
      "epoch": 138.70666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002964852960023087,
      "loss": 0.3809,
      "step": 104030
    },
    {
      "epoch": 138.72,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029648461965462944,
      "loss": 0.4041,
      "step": 104040
    },
    {
      "epoch": 138.73333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000296483943242652,
      "loss": 0.3978,
      "step": 104050
    },
    {
      "epoch": 138.74666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002964832667663767,
      "loss": 0.4001,
      "step": 104060
    },
    {
      "epoch": 138.76,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002964825902258037,
      "loss": 0.4125,
      "step": 104070
    },
    {
      "epoch": 138.77333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029648191362093343,
      "loss": 0.3992,
      "step": 104080
    },
    {
      "epoch": 138.78666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002964812369517662,
      "loss": 0.401,
      "step": 104090
    },
    {
      "epoch": 138.8,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002964805602183022,
      "loss": 0.3999,
      "step": 104100
    },
    {
      "epoch": 138.81333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029647988342054174,
      "loss": 0.3727,
      "step": 104110
    },
    {
      "epoch": 138.82666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002964792065584852,
      "loss": 0.3823,
      "step": 104120
    },
    {
      "epoch": 138.84,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029647852963213283,
      "loss": 0.3946,
      "step": 104130
    },
    {
      "epoch": 138.85333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002964778526414849,
      "loss": 0.3889,
      "step": 104140
    },
    {
      "epoch": 138.86666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002964771755865418,
      "loss": 0.3949,
      "step": 104150
    },
    {
      "epoch": 138.88,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029647649846730373,
      "loss": 0.3747,
      "step": 104160
    },
    {
      "epoch": 138.89333333333335,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000296475821283771,
      "loss": 0.3858,
      "step": 104170
    },
    {
      "epoch": 138.90666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029647514403594396,
      "loss": 0.3922,
      "step": 104180
    },
    {
      "epoch": 138.92,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029647446672382286,
      "loss": 0.3956,
      "step": 104190
    },
    {
      "epoch": 138.93333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000296473789347408,
      "loss": 0.3887,
      "step": 104200
    },
    {
      "epoch": 138.94666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029647311190669973,
      "loss": 0.3894,
      "step": 104210
    },
    {
      "epoch": 138.96,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002964724344016983,
      "loss": 0.3871,
      "step": 104220
    },
    {
      "epoch": 138.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029647175683240396,
      "loss": 0.4122,
      "step": 104230
    },
    {
      "epoch": 138.98666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029647107919881713,
      "loss": 0.3854,
      "step": 104240
    },
    {
      "epoch": 139.0,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002964704015009381,
      "loss": 0.3813,
      "step": 104250
    },
    {
      "epoch": 139.0,
      "eval_loss": 0.425665020942688,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6337,
      "eval_samples_per_second": 1.661,
      "eval_steps_per_second": 0.104,
      "step": 104250
    },
    {
      "epoch": 139.01333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000296469723738767,
      "loss": 0.3987,
      "step": 104260
    },
    {
      "epoch": 139.02666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029646904591230423,
      "loss": 0.4122,
      "step": 104270
    },
    {
      "epoch": 139.04,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002964683680215501,
      "loss": 0.424,
      "step": 104280
    },
    {
      "epoch": 139.05333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029646769006650493,
      "loss": 0.4102,
      "step": 104290
    },
    {
      "epoch": 139.06666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029646701204716905,
      "loss": 0.3967,
      "step": 104300
    },
    {
      "epoch": 139.08,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029646633396354264,
      "loss": 0.4009,
      "step": 104310
    },
    {
      "epoch": 139.09333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000296465655815626,
      "loss": 0.4025,
      "step": 104320
    },
    {
      "epoch": 139.10666666666665,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002964649776034195,
      "loss": 0.3898,
      "step": 104330
    },
    {
      "epoch": 139.12,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002964642993269235,
      "loss": 0.3945,
      "step": 104340
    },
    {
      "epoch": 139.13333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002964636209861382,
      "loss": 0.3858,
      "step": 104350
    },
    {
      "epoch": 139.14666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029646294258106387,
      "loss": 0.4046,
      "step": 104360
    },
    {
      "epoch": 139.16,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002964622641117009,
      "loss": 0.3991,
      "step": 104370
    },
    {
      "epoch": 139.17333333333335,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029646158557804946,
      "loss": 0.393,
      "step": 104380
    },
    {
      "epoch": 139.18666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029646090698010996,
      "loss": 0.3923,
      "step": 104390
    },
    {
      "epoch": 139.2,
      "grad_norm": 0.375,
      "learning_rate": 0.0002964602283178827,
      "loss": 0.3848,
      "step": 104400
    },
    {
      "epoch": 139.21333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002964595495913679,
      "loss": 0.3856,
      "step": 104410
    },
    {
      "epoch": 139.22666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002964588708005659,
      "loss": 0.3968,
      "step": 104420
    },
    {
      "epoch": 139.24,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002964581919454771,
      "loss": 0.3819,
      "step": 104430
    },
    {
      "epoch": 139.25333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029645751302610155,
      "loss": 0.3845,
      "step": 104440
    },
    {
      "epoch": 139.26666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002964568340424398,
      "loss": 0.3869,
      "step": 104450
    },
    {
      "epoch": 139.28,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029645615499449197,
      "loss": 0.4168,
      "step": 104460
    },
    {
      "epoch": 139.29333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029645547588225845,
      "loss": 0.3727,
      "step": 104470
    },
    {
      "epoch": 139.30666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029645479670573955,
      "loss": 0.3958,
      "step": 104480
    },
    {
      "epoch": 139.32,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002964541174649356,
      "loss": 0.399,
      "step": 104490
    },
    {
      "epoch": 139.33333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029645343815984675,
      "loss": 0.4007,
      "step": 104500
    },
    {
      "epoch": 139.34666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002964527587904734,
      "loss": 0.3925,
      "step": 104510
    },
    {
      "epoch": 139.36,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002964520793568158,
      "loss": 0.3921,
      "step": 104520
    },
    {
      "epoch": 139.37333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002964513998588743,
      "loss": 0.3937,
      "step": 104530
    },
    {
      "epoch": 139.38666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002964507202966492,
      "loss": 0.3853,
      "step": 104540
    },
    {
      "epoch": 139.4,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002964500406701408,
      "loss": 0.3929,
      "step": 104550
    },
    {
      "epoch": 139.41333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002964493609793493,
      "loss": 0.3974,
      "step": 104560
    },
    {
      "epoch": 139.42666666666668,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002964486812242751,
      "loss": 0.3999,
      "step": 104570
    },
    {
      "epoch": 139.44,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029644800140491854,
      "loss": 0.4104,
      "step": 104580
    },
    {
      "epoch": 139.45333333333335,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002964473215212798,
      "loss": 0.4,
      "step": 104590
    },
    {
      "epoch": 139.46666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029644664157335923,
      "loss": 0.4086,
      "step": 104600
    },
    {
      "epoch": 139.48,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002964459615611571,
      "loss": 0.3888,
      "step": 104610
    },
    {
      "epoch": 139.49333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002964452814846738,
      "loss": 0.4012,
      "step": 104620
    },
    {
      "epoch": 139.50666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002964446013439095,
      "loss": 0.4,
      "step": 104630
    },
    {
      "epoch": 139.52,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002964439211388646,
      "loss": 0.3903,
      "step": 104640
    },
    {
      "epoch": 139.53333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029644324086953934,
      "loss": 0.3941,
      "step": 104650
    },
    {
      "epoch": 139.54666666666665,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000296442560535934,
      "loss": 0.3947,
      "step": 104660
    },
    {
      "epoch": 139.56,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000296441880138049,
      "loss": 0.3891,
      "step": 104670
    },
    {
      "epoch": 139.57333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029644119967588454,
      "loss": 0.3929,
      "step": 104680
    },
    {
      "epoch": 139.58666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002964405191494409,
      "loss": 0.3817,
      "step": 104690
    },
    {
      "epoch": 139.6,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002964398385587185,
      "loss": 0.3841,
      "step": 104700
    },
    {
      "epoch": 139.61333333333334,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029643915790371746,
      "loss": 0.3739,
      "step": 104710
    },
    {
      "epoch": 139.62666666666667,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00029643847718443823,
      "loss": 0.3786,
      "step": 104720
    },
    {
      "epoch": 139.64,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029643779640088104,
      "loss": 0.3902,
      "step": 104730
    },
    {
      "epoch": 139.65333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029643711555304617,
      "loss": 0.399,
      "step": 104740
    },
    {
      "epoch": 139.66666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029643643464093394,
      "loss": 0.3881,
      "step": 104750
    },
    {
      "epoch": 139.68,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029643575366454473,
      "loss": 0.3793,
      "step": 104760
    },
    {
      "epoch": 139.69333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002964350726238787,
      "loss": 0.3893,
      "step": 104770
    },
    {
      "epoch": 139.70666666666668,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029643439151893624,
      "loss": 0.3811,
      "step": 104780
    },
    {
      "epoch": 139.72,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002964337103497176,
      "loss": 0.4034,
      "step": 104790
    },
    {
      "epoch": 139.73333333333332,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029643302911622313,
      "loss": 0.3982,
      "step": 104800
    },
    {
      "epoch": 139.74666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002964323478184531,
      "loss": 0.4,
      "step": 104810
    },
    {
      "epoch": 139.76,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002964316664564078,
      "loss": 0.4129,
      "step": 104820
    },
    {
      "epoch": 139.77333333333334,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002964309850300876,
      "loss": 0.3995,
      "step": 104830
    },
    {
      "epoch": 139.78666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002964303035394926,
      "loss": 0.4007,
      "step": 104840
    },
    {
      "epoch": 139.8,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002964296219846234,
      "loss": 0.3991,
      "step": 104850
    },
    {
      "epoch": 139.81333333333333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029642894036548004,
      "loss": 0.3727,
      "step": 104860
    },
    {
      "epoch": 139.82666666666665,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002964282586820629,
      "loss": 0.3822,
      "step": 104870
    },
    {
      "epoch": 139.84,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002964275769343724,
      "loss": 0.3936,
      "step": 104880
    },
    {
      "epoch": 139.85333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002964268951224087,
      "loss": 0.3884,
      "step": 104890
    },
    {
      "epoch": 139.86666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029642621324617205,
      "loss": 0.3931,
      "step": 104900
    },
    {
      "epoch": 139.88,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029642553130566294,
      "loss": 0.3743,
      "step": 104910
    },
    {
      "epoch": 139.89333333333335,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029642484930088146,
      "loss": 0.3864,
      "step": 104920
    },
    {
      "epoch": 139.90666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002964241672318281,
      "loss": 0.3931,
      "step": 104930
    },
    {
      "epoch": 139.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029642348509850307,
      "loss": 0.3949,
      "step": 104940
    },
    {
      "epoch": 139.93333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029642280290090664,
      "loss": 0.3887,
      "step": 104950
    },
    {
      "epoch": 139.94666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029642212063903914,
      "loss": 0.3899,
      "step": 104960
    },
    {
      "epoch": 139.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002964214383129009,
      "loss": 0.3873,
      "step": 104970
    },
    {
      "epoch": 139.97333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002964207559224922,
      "loss": 0.4123,
      "step": 104980
    },
    {
      "epoch": 139.98666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029642007346781325,
      "loss": 0.385,
      "step": 104990
    },
    {
      "epoch": 140.0,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029641939094886445,
      "loss": 0.3803,
      "step": 105000
    },
    {
      "epoch": 140.0,
      "eval_loss": 0.42750272154808044,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1238,
      "eval_samples_per_second": 1.58,
      "eval_steps_per_second": 0.099,
      "step": 105000
    },
    {
      "epoch": 140.01333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029641870836564615,
      "loss": 0.3979,
      "step": 105010
    },
    {
      "epoch": 140.02666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002964180257181585,
      "loss": 0.4121,
      "step": 105020
    },
    {
      "epoch": 140.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002964173430064019,
      "loss": 0.4235,
      "step": 105030
    },
    {
      "epoch": 140.05333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002964166602303767,
      "loss": 0.4095,
      "step": 105040
    },
    {
      "epoch": 140.06666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029641597739008305,
      "loss": 0.3968,
      "step": 105050
    },
    {
      "epoch": 140.08,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002964152944855213,
      "loss": 0.4007,
      "step": 105060
    },
    {
      "epoch": 140.09333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002964146115166919,
      "loss": 0.4025,
      "step": 105070
    },
    {
      "epoch": 140.10666666666665,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029641392848359495,
      "loss": 0.3897,
      "step": 105080
    },
    {
      "epoch": 140.12,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002964132453862308,
      "loss": 0.3949,
      "step": 105090
    },
    {
      "epoch": 140.13333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002964125622245998,
      "loss": 0.3855,
      "step": 105100
    },
    {
      "epoch": 140.14666666666668,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002964118789987022,
      "loss": 0.405,
      "step": 105110
    },
    {
      "epoch": 140.16,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002964111957085384,
      "loss": 0.3987,
      "step": 105120
    },
    {
      "epoch": 140.17333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029641051235410856,
      "loss": 0.3932,
      "step": 105130
    },
    {
      "epoch": 140.18666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029640982893541307,
      "loss": 0.3919,
      "step": 105140
    },
    {
      "epoch": 140.2,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002964091454524522,
      "loss": 0.3842,
      "step": 105150
    },
    {
      "epoch": 140.21333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029640846190522627,
      "loss": 0.385,
      "step": 105160
    },
    {
      "epoch": 140.22666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029640777829373555,
      "loss": 0.3969,
      "step": 105170
    },
    {
      "epoch": 140.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002964070946179804,
      "loss": 0.3816,
      "step": 105180
    },
    {
      "epoch": 140.25333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.000296406410877961,
      "loss": 0.3843,
      "step": 105190
    },
    {
      "epoch": 140.26666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002964057270736778,
      "loss": 0.3861,
      "step": 105200
    },
    {
      "epoch": 140.28,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029640504320513095,
      "loss": 0.4163,
      "step": 105210
    },
    {
      "epoch": 140.29333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002964043592723209,
      "loss": 0.3718,
      "step": 105220
    },
    {
      "epoch": 140.30666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002964036752752478,
      "loss": 0.3964,
      "step": 105230
    },
    {
      "epoch": 140.32,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029640299121391214,
      "loss": 0.3986,
      "step": 105240
    },
    {
      "epoch": 140.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000296402307088314,
      "loss": 0.4015,
      "step": 105250
    },
    {
      "epoch": 140.34666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029640162289845386,
      "loss": 0.3915,
      "step": 105260
    },
    {
      "epoch": 140.36,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002964009386443319,
      "loss": 0.3918,
      "step": 105270
    },
    {
      "epoch": 140.37333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002964002543259485,
      "loss": 0.3936,
      "step": 105280
    },
    {
      "epoch": 140.38666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002963995699433039,
      "loss": 0.3853,
      "step": 105290
    },
    {
      "epoch": 140.4,
      "grad_norm": 0.375,
      "learning_rate": 0.00029639888549639845,
      "loss": 0.3927,
      "step": 105300
    },
    {
      "epoch": 140.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029639820098523243,
      "loss": 0.3974,
      "step": 105310
    },
    {
      "epoch": 140.42666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029639751640980614,
      "loss": 0.3988,
      "step": 105320
    },
    {
      "epoch": 140.44,
      "grad_norm": 0.375,
      "learning_rate": 0.00029639683177011983,
      "loss": 0.411,
      "step": 105330
    },
    {
      "epoch": 140.45333333333335,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002963961470661739,
      "loss": 0.3995,
      "step": 105340
    },
    {
      "epoch": 140.46666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029639546229796865,
      "loss": 0.4086,
      "step": 105350
    },
    {
      "epoch": 140.48,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029639477746550426,
      "loss": 0.3888,
      "step": 105360
    },
    {
      "epoch": 140.49333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002963940925687811,
      "loss": 0.402,
      "step": 105370
    },
    {
      "epoch": 140.50666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002963934076077995,
      "loss": 0.3994,
      "step": 105380
    },
    {
      "epoch": 140.52,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029639272258255974,
      "loss": 0.3896,
      "step": 105390
    },
    {
      "epoch": 140.53333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002963920374930621,
      "loss": 0.3929,
      "step": 105400
    },
    {
      "epoch": 140.54666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002963913523393069,
      "loss": 0.3946,
      "step": 105410
    },
    {
      "epoch": 140.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029639066712129446,
      "loss": 0.3889,
      "step": 105420
    },
    {
      "epoch": 140.57333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000296389981839025,
      "loss": 0.3919,
      "step": 105430
    },
    {
      "epoch": 140.58666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029638929649249894,
      "loss": 0.3812,
      "step": 105440
    },
    {
      "epoch": 140.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002963886110817165,
      "loss": 0.3832,
      "step": 105450
    },
    {
      "epoch": 140.61333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000296387925606678,
      "loss": 0.3727,
      "step": 105460
    },
    {
      "epoch": 140.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029638724006738373,
      "loss": 0.3797,
      "step": 105470
    },
    {
      "epoch": 140.64,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000296386554463834,
      "loss": 0.3907,
      "step": 105480
    },
    {
      "epoch": 140.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029638586879602907,
      "loss": 0.4001,
      "step": 105490
    },
    {
      "epoch": 140.66666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029638518306396934,
      "loss": 0.3875,
      "step": 105500
    },
    {
      "epoch": 140.68,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029638449726765507,
      "loss": 0.3794,
      "step": 105510
    },
    {
      "epoch": 140.69333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029638381140708654,
      "loss": 0.3894,
      "step": 105520
    },
    {
      "epoch": 140.70666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029638312548226395,
      "loss": 0.3817,
      "step": 105530
    },
    {
      "epoch": 140.72,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002963824394931878,
      "loss": 0.4026,
      "step": 105540
    },
    {
      "epoch": 140.73333333333332,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002963817534398583,
      "loss": 0.3966,
      "step": 105550
    },
    {
      "epoch": 140.74666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029638106732227576,
      "loss": 0.4005,
      "step": 105560
    },
    {
      "epoch": 140.76,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029638038114044045,
      "loss": 0.4131,
      "step": 105570
    },
    {
      "epoch": 140.77333333333334,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002963796948943527,
      "loss": 0.4001,
      "step": 105580
    },
    {
      "epoch": 140.78666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002963790085840128,
      "loss": 0.4006,
      "step": 105590
    },
    {
      "epoch": 140.8,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029637832220942106,
      "loss": 0.3983,
      "step": 105600
    },
    {
      "epoch": 140.81333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029637763577057774,
      "loss": 0.3722,
      "step": 105610
    },
    {
      "epoch": 140.82666666666665,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002963769492674832,
      "loss": 0.3822,
      "step": 105620
    },
    {
      "epoch": 140.84,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029637626270013774,
      "loss": 0.3933,
      "step": 105630
    },
    {
      "epoch": 140.85333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.0002963755760685416,
      "loss": 0.3894,
      "step": 105640
    },
    {
      "epoch": 140.86666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029637488937269514,
      "loss": 0.3936,
      "step": 105650
    },
    {
      "epoch": 140.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029637420261259865,
      "loss": 0.3736,
      "step": 105660
    },
    {
      "epoch": 140.89333333333335,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002963735157882524,
      "loss": 0.3859,
      "step": 105670
    },
    {
      "epoch": 140.90666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029637282889965675,
      "loss": 0.3918,
      "step": 105680
    },
    {
      "epoch": 140.92,
      "grad_norm": 0.380859375,
      "learning_rate": 0.000296372141946812,
      "loss": 0.3942,
      "step": 105690
    },
    {
      "epoch": 140.93333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002963714549297183,
      "loss": 0.3875,
      "step": 105700
    },
    {
      "epoch": 140.94666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029637076784837615,
      "loss": 0.3886,
      "step": 105710
    },
    {
      "epoch": 140.96,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029637008070278577,
      "loss": 0.3871,
      "step": 105720
    },
    {
      "epoch": 140.97333333333333,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002963693934929475,
      "loss": 0.4128,
      "step": 105730
    },
    {
      "epoch": 140.98666666666668,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029636870621886147,
      "loss": 0.3854,
      "step": 105740
    },
    {
      "epoch": 141.0,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029636801888052825,
      "loss": 0.3807,
      "step": 105750
    },
    {
      "epoch": 141.0,
      "eval_loss": 0.4278220534324646,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6231,
      "eval_samples_per_second": 1.663,
      "eval_steps_per_second": 0.104,
      "step": 105750
    },
    {
      "epoch": 141.01333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029636733147794797,
      "loss": 0.3982,
      "step": 105760
    },
    {
      "epoch": 141.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029636664401112096,
      "loss": 0.4125,
      "step": 105770
    },
    {
      "epoch": 141.04,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002963659564800475,
      "loss": 0.4235,
      "step": 105780
    },
    {
      "epoch": 141.05333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029636526888472795,
      "loss": 0.4102,
      "step": 105790
    },
    {
      "epoch": 141.06666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029636458122516264,
      "loss": 0.3967,
      "step": 105800
    },
    {
      "epoch": 141.08,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029636389350135175,
      "loss": 0.402,
      "step": 105810
    },
    {
      "epoch": 141.09333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029636320571329564,
      "loss": 0.4025,
      "step": 105820
    },
    {
      "epoch": 141.10666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002963625178609947,
      "loss": 0.3903,
      "step": 105830
    },
    {
      "epoch": 141.12,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002963618299444491,
      "loss": 0.3948,
      "step": 105840
    },
    {
      "epoch": 141.13333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029636114196365923,
      "loss": 0.3867,
      "step": 105850
    },
    {
      "epoch": 141.14666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002963604539186253,
      "loss": 0.4045,
      "step": 105860
    },
    {
      "epoch": 141.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002963597658093477,
      "loss": 0.3987,
      "step": 105870
    },
    {
      "epoch": 141.17333333333335,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002963590776358267,
      "loss": 0.3936,
      "step": 105880
    },
    {
      "epoch": 141.18666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002963583893980626,
      "loss": 0.3907,
      "step": 105890
    },
    {
      "epoch": 141.2,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002963577010960557,
      "loss": 0.3839,
      "step": 105900
    },
    {
      "epoch": 141.21333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029635701272980627,
      "loss": 0.3854,
      "step": 105910
    },
    {
      "epoch": 141.22666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029635632429931473,
      "loss": 0.396,
      "step": 105920
    },
    {
      "epoch": 141.24,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002963556358045813,
      "loss": 0.3811,
      "step": 105930
    },
    {
      "epoch": 141.25333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002963549472456062,
      "loss": 0.3832,
      "step": 105940
    },
    {
      "epoch": 141.26666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029635425862238986,
      "loss": 0.3865,
      "step": 105950
    },
    {
      "epoch": 141.28,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029635356993493254,
      "loss": 0.4157,
      "step": 105960
    },
    {
      "epoch": 141.29333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029635288118323456,
      "loss": 0.3726,
      "step": 105970
    },
    {
      "epoch": 141.30666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029635219236729614,
      "loss": 0.3969,
      "step": 105980
    },
    {
      "epoch": 141.32,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002963515034871177,
      "loss": 0.3982,
      "step": 105990
    },
    {
      "epoch": 141.33333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002963508145426995,
      "loss": 0.4015,
      "step": 106000
    },
    {
      "epoch": 141.34666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002963501255340418,
      "loss": 0.3911,
      "step": 106010
    },
    {
      "epoch": 141.36,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029634943646114495,
      "loss": 0.392,
      "step": 106020
    },
    {
      "epoch": 141.37333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029634874732400925,
      "loss": 0.3934,
      "step": 106030
    },
    {
      "epoch": 141.38666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029634805812263495,
      "loss": 0.3852,
      "step": 106040
    },
    {
      "epoch": 141.4,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002963473688570224,
      "loss": 0.3929,
      "step": 106050
    },
    {
      "epoch": 141.41333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002963466795271719,
      "loss": 0.398,
      "step": 106060
    },
    {
      "epoch": 141.42666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029634599013308375,
      "loss": 0.399,
      "step": 106070
    },
    {
      "epoch": 141.44,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002963453006747582,
      "loss": 0.4104,
      "step": 106080
    },
    {
      "epoch": 141.45333333333335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029634461115219567,
      "loss": 0.3985,
      "step": 106090
    },
    {
      "epoch": 141.46666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029634392156539633,
      "loss": 0.4087,
      "step": 106100
    },
    {
      "epoch": 141.48,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029634323191436056,
      "loss": 0.3896,
      "step": 106110
    },
    {
      "epoch": 141.49333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002963425421990887,
      "loss": 0.4021,
      "step": 106120
    },
    {
      "epoch": 141.50666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002963418524195809,
      "loss": 0.3995,
      "step": 106130
    },
    {
      "epoch": 141.52,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029634116257583765,
      "loss": 0.3903,
      "step": 106140
    },
    {
      "epoch": 141.53333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029634047266785914,
      "loss": 0.3934,
      "step": 106150
    },
    {
      "epoch": 141.54666666666665,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002963397826956457,
      "loss": 0.3945,
      "step": 106160
    },
    {
      "epoch": 141.56,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002963390926591977,
      "loss": 0.3884,
      "step": 106170
    },
    {
      "epoch": 141.57333333333332,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029633840255851527,
      "loss": 0.3923,
      "step": 106180
    },
    {
      "epoch": 141.58666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029633771239359884,
      "loss": 0.3812,
      "step": 106190
    },
    {
      "epoch": 141.6,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029633702216444875,
      "loss": 0.3838,
      "step": 106200
    },
    {
      "epoch": 141.61333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002963363318710652,
      "loss": 0.3729,
      "step": 106210
    },
    {
      "epoch": 141.62666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029633564151344854,
      "loss": 0.3784,
      "step": 106220
    },
    {
      "epoch": 141.64,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029633495109159907,
      "loss": 0.3908,
      "step": 106230
    },
    {
      "epoch": 141.65333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002963342606055171,
      "loss": 0.3999,
      "step": 106240
    },
    {
      "epoch": 141.66666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002963335700552029,
      "loss": 0.3864,
      "step": 106250
    },
    {
      "epoch": 141.68,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002963328794406568,
      "loss": 0.3792,
      "step": 106260
    },
    {
      "epoch": 141.69333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002963321887618792,
      "loss": 0.388,
      "step": 106270
    },
    {
      "epoch": 141.70666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002963314980188702,
      "loss": 0.382,
      "step": 106280
    },
    {
      "epoch": 141.72,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029633080721163025,
      "loss": 0.4028,
      "step": 106290
    },
    {
      "epoch": 141.73333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002963301163401596,
      "loss": 0.3974,
      "step": 106300
    },
    {
      "epoch": 141.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002963294254044586,
      "loss": 0.3996,
      "step": 106310
    },
    {
      "epoch": 141.76,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002963287344045274,
      "loss": 0.4135,
      "step": 106320
    },
    {
      "epoch": 141.77333333333334,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002963280433403665,
      "loss": 0.399,
      "step": 106330
    },
    {
      "epoch": 141.78666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002963273522119762,
      "loss": 0.4011,
      "step": 106340
    },
    {
      "epoch": 141.8,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002963266610193566,
      "loss": 0.3985,
      "step": 106350
    },
    {
      "epoch": 141.81333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029632596976250826,
      "loss": 0.3723,
      "step": 106360
    },
    {
      "epoch": 141.82666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029632527844143127,
      "loss": 0.3823,
      "step": 106370
    },
    {
      "epoch": 141.84,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029632458705612603,
      "loss": 0.393,
      "step": 106380
    },
    {
      "epoch": 141.85333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002963238956065928,
      "loss": 0.3891,
      "step": 106390
    },
    {
      "epoch": 141.86666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029632320409283196,
      "loss": 0.3938,
      "step": 106400
    },
    {
      "epoch": 141.88,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002963225125148438,
      "loss": 0.3744,
      "step": 106410
    },
    {
      "epoch": 141.89333333333335,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029632182087262855,
      "loss": 0.3858,
      "step": 106420
    },
    {
      "epoch": 141.90666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002963211291661866,
      "loss": 0.3921,
      "step": 106430
    },
    {
      "epoch": 141.92,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002963204373955181,
      "loss": 0.3949,
      "step": 106440
    },
    {
      "epoch": 141.93333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029631974556062357,
      "loss": 0.3886,
      "step": 106450
    },
    {
      "epoch": 141.94666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029631905366150316,
      "loss": 0.3892,
      "step": 106460
    },
    {
      "epoch": 141.96,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00029631836169815727,
      "loss": 0.3868,
      "step": 106470
    },
    {
      "epoch": 141.97333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002963176696705861,
      "loss": 0.4117,
      "step": 106480
    },
    {
      "epoch": 141.98666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029631697757879,
      "loss": 0.3858,
      "step": 106490
    },
    {
      "epoch": 142.0,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002963162854227694,
      "loss": 0.381,
      "step": 106500
    },
    {
      "epoch": 142.0,
      "eval_loss": 0.42625483870506287,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1387,
      "eval_samples_per_second": 1.578,
      "eval_steps_per_second": 0.099,
      "step": 106500
    },
    {
      "epoch": 142.01333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029631559320252433,
      "loss": 0.3988,
      "step": 106510
    },
    {
      "epoch": 142.02666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002963149009180554,
      "loss": 0.4115,
      "step": 106520
    },
    {
      "epoch": 142.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002963142085693626,
      "loss": 0.4245,
      "step": 106530
    },
    {
      "epoch": 142.05333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002963135161564465,
      "loss": 0.4095,
      "step": 106540
    },
    {
      "epoch": 142.06666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002963128236793073,
      "loss": 0.3969,
      "step": 106550
    },
    {
      "epoch": 142.08,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002963121311379453,
      "loss": 0.3998,
      "step": 106560
    },
    {
      "epoch": 142.09333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029631143853236076,
      "loss": 0.402,
      "step": 106570
    },
    {
      "epoch": 142.10666666666665,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002963107458625541,
      "loss": 0.3912,
      "step": 106580
    },
    {
      "epoch": 142.12,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002963100531285255,
      "loss": 0.3944,
      "step": 106590
    },
    {
      "epoch": 142.13333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002963093603302754,
      "loss": 0.3858,
      "step": 106600
    },
    {
      "epoch": 142.14666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002963086674678039,
      "loss": 0.4047,
      "step": 106610
    },
    {
      "epoch": 142.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002963079745411116,
      "loss": 0.3984,
      "step": 106620
    },
    {
      "epoch": 142.17333333333335,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002963072815501985,
      "loss": 0.3936,
      "step": 106630
    },
    {
      "epoch": 142.18666666666667,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002963065884950651,
      "loss": 0.3923,
      "step": 106640
    },
    {
      "epoch": 142.2,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002963058953757116,
      "loss": 0.3841,
      "step": 106650
    },
    {
      "epoch": 142.21333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002963052021921384,
      "loss": 0.3842,
      "step": 106660
    },
    {
      "epoch": 142.22666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029630450894434565,
      "loss": 0.3969,
      "step": 106670
    },
    {
      "epoch": 142.24,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029630381563233385,
      "loss": 0.381,
      "step": 106680
    },
    {
      "epoch": 142.25333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029630312225610323,
      "loss": 0.3848,
      "step": 106690
    },
    {
      "epoch": 142.26666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029630242881565396,
      "loss": 0.3862,
      "step": 106700
    },
    {
      "epoch": 142.28,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029630173531098653,
      "loss": 0.4157,
      "step": 106710
    },
    {
      "epoch": 142.29333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002963010417421012,
      "loss": 0.3721,
      "step": 106720
    },
    {
      "epoch": 142.30666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002963003481089982,
      "loss": 0.3959,
      "step": 106730
    },
    {
      "epoch": 142.32,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000296299654411678,
      "loss": 0.3984,
      "step": 106740
    },
    {
      "epoch": 142.33333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002962989606501406,
      "loss": 0.4014,
      "step": 106750
    },
    {
      "epoch": 142.34666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002962982668243866,
      "loss": 0.3915,
      "step": 106760
    },
    {
      "epoch": 142.36,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029629757293441616,
      "loss": 0.3919,
      "step": 106770
    },
    {
      "epoch": 142.37333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002962968789802297,
      "loss": 0.393,
      "step": 106780
    },
    {
      "epoch": 142.38666666666666,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029629618496182736,
      "loss": 0.3845,
      "step": 106790
    },
    {
      "epoch": 142.4,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002962954908792095,
      "loss": 0.3928,
      "step": 106800
    },
    {
      "epoch": 142.41333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029629479673237653,
      "loss": 0.398,
      "step": 106810
    },
    {
      "epoch": 142.42666666666668,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002962941025213286,
      "loss": 0.3992,
      "step": 106820
    },
    {
      "epoch": 142.44,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002962934082460662,
      "loss": 0.4103,
      "step": 106830
    },
    {
      "epoch": 142.45333333333335,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002962927139065894,
      "loss": 0.3992,
      "step": 106840
    },
    {
      "epoch": 142.46666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002962920195028988,
      "loss": 0.4074,
      "step": 106850
    },
    {
      "epoch": 142.48,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029629132503499443,
      "loss": 0.3898,
      "step": 106860
    },
    {
      "epoch": 142.49333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002962906305028767,
      "loss": 0.402,
      "step": 106870
    },
    {
      "epoch": 142.50666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029628993590654593,
      "loss": 0.3994,
      "step": 106880
    },
    {
      "epoch": 142.52,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029628924124600243,
      "loss": 0.3903,
      "step": 106890
    },
    {
      "epoch": 142.53333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002962885465212464,
      "loss": 0.3927,
      "step": 106900
    },
    {
      "epoch": 142.54666666666665,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029628785173227835,
      "loss": 0.3948,
      "step": 106910
    },
    {
      "epoch": 142.56,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002962871568790984,
      "loss": 0.3884,
      "step": 106920
    },
    {
      "epoch": 142.57333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000296286461961707,
      "loss": 0.3923,
      "step": 106930
    },
    {
      "epoch": 142.58666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002962857669801043,
      "loss": 0.3814,
      "step": 106940
    },
    {
      "epoch": 142.6,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002962850719342907,
      "loss": 0.383,
      "step": 106950
    },
    {
      "epoch": 142.61333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029628437682426646,
      "loss": 0.3735,
      "step": 106960
    },
    {
      "epoch": 142.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029628368165003193,
      "loss": 0.378,
      "step": 106970
    },
    {
      "epoch": 142.64,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029628298641158743,
      "loss": 0.3909,
      "step": 106980
    },
    {
      "epoch": 142.65333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002962822911089332,
      "loss": 0.4003,
      "step": 106990
    },
    {
      "epoch": 142.66666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002962815957420696,
      "loss": 0.3869,
      "step": 107000
    },
    {
      "epoch": 142.68,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029628090031099687,
      "loss": 0.3792,
      "step": 107010
    },
    {
      "epoch": 142.69333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029628020481571544,
      "loss": 0.3883,
      "step": 107020
    },
    {
      "epoch": 142.70666666666668,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029627950925622545,
      "loss": 0.3809,
      "step": 107030
    },
    {
      "epoch": 142.72,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002962788136325273,
      "loss": 0.4038,
      "step": 107040
    },
    {
      "epoch": 142.73333333333332,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002962781179446213,
      "loss": 0.3975,
      "step": 107050
    },
    {
      "epoch": 142.74666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002962774221925078,
      "loss": 0.3995,
      "step": 107060
    },
    {
      "epoch": 142.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029627672637618695,
      "loss": 0.4131,
      "step": 107070
    },
    {
      "epoch": 142.77333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002962760304956592,
      "loss": 0.4,
      "step": 107080
    },
    {
      "epoch": 142.78666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002962753345509248,
      "loss": 0.4004,
      "step": 107090
    },
    {
      "epoch": 142.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029627463854198406,
      "loss": 0.3986,
      "step": 107100
    },
    {
      "epoch": 142.81333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002962739424688373,
      "loss": 0.3718,
      "step": 107110
    },
    {
      "epoch": 142.82666666666665,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029627324633148483,
      "loss": 0.3821,
      "step": 107120
    },
    {
      "epoch": 142.84,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002962725501299269,
      "loss": 0.3934,
      "step": 107130
    },
    {
      "epoch": 142.85333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029627185386416386,
      "loss": 0.3884,
      "step": 107140
    },
    {
      "epoch": 142.86666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.000296271157534196,
      "loss": 0.3946,
      "step": 107150
    },
    {
      "epoch": 142.88,
      "grad_norm": 0.375,
      "learning_rate": 0.00029627046114002364,
      "loss": 0.3744,
      "step": 107160
    },
    {
      "epoch": 142.89333333333335,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029626976468164704,
      "loss": 0.3862,
      "step": 107170
    },
    {
      "epoch": 142.90666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029626906815906665,
      "loss": 0.3928,
      "step": 107180
    },
    {
      "epoch": 142.92,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002962683715722826,
      "loss": 0.3939,
      "step": 107190
    },
    {
      "epoch": 142.93333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029626767492129524,
      "loss": 0.3886,
      "step": 107200
    },
    {
      "epoch": 142.94666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029626697820610493,
      "loss": 0.3896,
      "step": 107210
    },
    {
      "epoch": 142.96,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000296266281426712,
      "loss": 0.3871,
      "step": 107220
    },
    {
      "epoch": 142.97333333333333,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00029626558458311665,
      "loss": 0.4129,
      "step": 107230
    },
    {
      "epoch": 142.98666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002962648876753193,
      "loss": 0.3853,
      "step": 107240
    },
    {
      "epoch": 143.0,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029626419070332013,
      "loss": 0.3804,
      "step": 107250
    },
    {
      "epoch": 143.0,
      "eval_loss": 0.42505913972854614,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.3475,
      "eval_samples_per_second": 1.712,
      "eval_steps_per_second": 0.107,
      "step": 107250
    },
    {
      "epoch": 143.01333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002962634936671195,
      "loss": 0.398,
      "step": 107260
    },
    {
      "epoch": 143.02666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002962627965667178,
      "loss": 0.4111,
      "step": 107270
    },
    {
      "epoch": 143.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002962620994021152,
      "loss": 0.4241,
      "step": 107280
    },
    {
      "epoch": 143.05333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002962614021733121,
      "loss": 0.4099,
      "step": 107290
    },
    {
      "epoch": 143.06666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002962607048803088,
      "loss": 0.3965,
      "step": 107300
    },
    {
      "epoch": 143.08,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002962600075231056,
      "loss": 0.4006,
      "step": 107310
    },
    {
      "epoch": 143.09333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002962593101017027,
      "loss": 0.4011,
      "step": 107320
    },
    {
      "epoch": 143.10666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029625861261610057,
      "loss": 0.3896,
      "step": 107330
    },
    {
      "epoch": 143.12,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029625791506629945,
      "loss": 0.3948,
      "step": 107340
    },
    {
      "epoch": 143.13333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029625721745229957,
      "loss": 0.3858,
      "step": 107350
    },
    {
      "epoch": 143.14666666666668,
      "grad_norm": 0.375,
      "learning_rate": 0.0002962565197741013,
      "loss": 0.4046,
      "step": 107360
    },
    {
      "epoch": 143.16,
      "grad_norm": 0.375,
      "learning_rate": 0.000296255822031705,
      "loss": 0.3982,
      "step": 107370
    },
    {
      "epoch": 143.17333333333335,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002962551242251109,
      "loss": 0.3928,
      "step": 107380
    },
    {
      "epoch": 143.18666666666667,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002962544263543194,
      "loss": 0.392,
      "step": 107390
    },
    {
      "epoch": 143.2,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029625372841933067,
      "loss": 0.3833,
      "step": 107400
    },
    {
      "epoch": 143.21333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002962530304201451,
      "loss": 0.3846,
      "step": 107410
    },
    {
      "epoch": 143.22666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000296252332356763,
      "loss": 0.397,
      "step": 107420
    },
    {
      "epoch": 143.24,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002962516342291846,
      "loss": 0.3812,
      "step": 107430
    },
    {
      "epoch": 143.25333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029625093603741036,
      "loss": 0.3839,
      "step": 107440
    },
    {
      "epoch": 143.26666666666668,
      "grad_norm": 0.375,
      "learning_rate": 0.0002962502377814404,
      "loss": 0.3858,
      "step": 107450
    },
    {
      "epoch": 143.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002962495394612752,
      "loss": 0.4158,
      "step": 107460
    },
    {
      "epoch": 143.29333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002962488410769149,
      "loss": 0.3725,
      "step": 107470
    },
    {
      "epoch": 143.30666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029624814262835996,
      "loss": 0.3956,
      "step": 107480
    },
    {
      "epoch": 143.32,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002962474441156106,
      "loss": 0.3989,
      "step": 107490
    },
    {
      "epoch": 143.33333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002962467455386671,
      "loss": 0.4017,
      "step": 107500
    },
    {
      "epoch": 143.34666666666666,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002962460468975298,
      "loss": 0.3921,
      "step": 107510
    },
    {
      "epoch": 143.36,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002962453481921991,
      "loss": 0.3915,
      "step": 107520
    },
    {
      "epoch": 143.37333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002962446494226752,
      "loss": 0.3941,
      "step": 107530
    },
    {
      "epoch": 143.38666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029624395058895837,
      "loss": 0.3857,
      "step": 107540
    },
    {
      "epoch": 143.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000296243251691049,
      "loss": 0.393,
      "step": 107550
    },
    {
      "epoch": 143.41333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002962425527289474,
      "loss": 0.3976,
      "step": 107560
    },
    {
      "epoch": 143.42666666666668,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029624185370265386,
      "loss": 0.3992,
      "step": 107570
    },
    {
      "epoch": 143.44,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029624115461216865,
      "loss": 0.4106,
      "step": 107580
    },
    {
      "epoch": 143.45333333333335,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002962404554574921,
      "loss": 0.3991,
      "step": 107590
    },
    {
      "epoch": 143.46666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002962397562386245,
      "loss": 0.4077,
      "step": 107600
    },
    {
      "epoch": 143.48,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029623905695556625,
      "loss": 0.3902,
      "step": 107610
    },
    {
      "epoch": 143.49333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002962383576083175,
      "loss": 0.4017,
      "step": 107620
    },
    {
      "epoch": 143.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029623765819687876,
      "loss": 0.4,
      "step": 107630
    },
    {
      "epoch": 143.52,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029623695872125014,
      "loss": 0.3898,
      "step": 107640
    },
    {
      "epoch": 143.53333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029623625918143203,
      "loss": 0.3935,
      "step": 107650
    },
    {
      "epoch": 143.54666666666665,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002962355595774247,
      "loss": 0.3948,
      "step": 107660
    },
    {
      "epoch": 143.56,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029623485990922855,
      "loss": 0.3895,
      "step": 107670
    },
    {
      "epoch": 143.57333333333332,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029623416017684383,
      "loss": 0.3926,
      "step": 107680
    },
    {
      "epoch": 143.58666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029623346038027077,
      "loss": 0.3813,
      "step": 107690
    },
    {
      "epoch": 143.6,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029623276051950984,
      "loss": 0.3839,
      "step": 107700
    },
    {
      "epoch": 143.61333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002962320605945612,
      "loss": 0.3729,
      "step": 107710
    },
    {
      "epoch": 143.62666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029623136060542523,
      "loss": 0.378,
      "step": 107720
    },
    {
      "epoch": 143.64,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029623066055210225,
      "loss": 0.3907,
      "step": 107730
    },
    {
      "epoch": 143.65333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002962299604345925,
      "loss": 0.4004,
      "step": 107740
    },
    {
      "epoch": 143.66666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029622926025289634,
      "loss": 0.3873,
      "step": 107750
    },
    {
      "epoch": 143.68,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029622856000701407,
      "loss": 0.3784,
      "step": 107760
    },
    {
      "epoch": 143.69333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000296227859696946,
      "loss": 0.3876,
      "step": 107770
    },
    {
      "epoch": 143.70666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002962271593226924,
      "loss": 0.3806,
      "step": 107780
    },
    {
      "epoch": 143.72,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029622645888425364,
      "loss": 0.4026,
      "step": 107790
    },
    {
      "epoch": 143.73333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029622575838163,
      "loss": 0.3975,
      "step": 107800
    },
    {
      "epoch": 143.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002962250578148218,
      "loss": 0.3998,
      "step": 107810
    },
    {
      "epoch": 143.76,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029622435718382927,
      "loss": 0.4132,
      "step": 107820
    },
    {
      "epoch": 143.77333333333334,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002962236564886528,
      "loss": 0.3996,
      "step": 107830
    },
    {
      "epoch": 143.78666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002962229557292927,
      "loss": 0.4001,
      "step": 107840
    },
    {
      "epoch": 143.8,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029622225490574924,
      "loss": 0.3984,
      "step": 107850
    },
    {
      "epoch": 143.81333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002962215540180227,
      "loss": 0.3723,
      "step": 107860
    },
    {
      "epoch": 143.82666666666665,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002962208530661135,
      "loss": 0.382,
      "step": 107870
    },
    {
      "epoch": 143.84,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002962201520500218,
      "loss": 0.3935,
      "step": 107880
    },
    {
      "epoch": 143.85333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029621945096974805,
      "loss": 0.3887,
      "step": 107890
    },
    {
      "epoch": 143.86666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029621874982529246,
      "loss": 0.3931,
      "step": 107900
    },
    {
      "epoch": 143.88,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029621804861665535,
      "loss": 0.3744,
      "step": 107910
    },
    {
      "epoch": 143.89333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002962173473438371,
      "loss": 0.3856,
      "step": 107920
    },
    {
      "epoch": 143.90666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029621664600683795,
      "loss": 0.3922,
      "step": 107930
    },
    {
      "epoch": 143.92,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002962159446056582,
      "loss": 0.394,
      "step": 107940
    },
    {
      "epoch": 143.93333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029621524314029816,
      "loss": 0.3885,
      "step": 107950
    },
    {
      "epoch": 143.94666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002962145416107582,
      "loss": 0.3897,
      "step": 107960
    },
    {
      "epoch": 143.96,
      "grad_norm": 0.375,
      "learning_rate": 0.00029621384001703854,
      "loss": 0.3871,
      "step": 107970
    },
    {
      "epoch": 143.97333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002962131383591396,
      "loss": 0.4124,
      "step": 107980
    },
    {
      "epoch": 143.98666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002962124366370616,
      "loss": 0.3838,
      "step": 107990
    },
    {
      "epoch": 144.0,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029621173485080483,
      "loss": 0.3808,
      "step": 108000
    },
    {
      "epoch": 144.0,
      "eval_loss": 0.4282083511352539,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6557,
      "eval_samples_per_second": 1.657,
      "eval_steps_per_second": 0.104,
      "step": 108000
    },
    {
      "epoch": 144.01333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029621103300036964,
      "loss": 0.397,
      "step": 108010
    },
    {
      "epoch": 144.02666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029621033108575634,
      "loss": 0.4116,
      "step": 108020
    },
    {
      "epoch": 144.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002962096291069653,
      "loss": 0.4249,
      "step": 108030
    },
    {
      "epoch": 144.05333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002962089270639967,
      "loss": 0.4097,
      "step": 108040
    },
    {
      "epoch": 144.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029620822495685095,
      "loss": 0.3971,
      "step": 108050
    },
    {
      "epoch": 144.08,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029620752278552824,
      "loss": 0.401,
      "step": 108060
    },
    {
      "epoch": 144.09333333333333,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029620682055002905,
      "loss": 0.4023,
      "step": 108070
    },
    {
      "epoch": 144.10666666666665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029620611825035355,
      "loss": 0.3894,
      "step": 108080
    },
    {
      "epoch": 144.12,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029620541588650206,
      "loss": 0.3951,
      "step": 108090
    },
    {
      "epoch": 144.13333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029620471345847497,
      "loss": 0.3858,
      "step": 108100
    },
    {
      "epoch": 144.14666666666668,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029620401096627254,
      "loss": 0.4046,
      "step": 108110
    },
    {
      "epoch": 144.16,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029620330840989504,
      "loss": 0.399,
      "step": 108120
    },
    {
      "epoch": 144.17333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002962026057893429,
      "loss": 0.3928,
      "step": 108130
    },
    {
      "epoch": 144.18666666666667,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029620190310461627,
      "loss": 0.392,
      "step": 108140
    },
    {
      "epoch": 144.2,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029620120035571553,
      "loss": 0.3844,
      "step": 108150
    },
    {
      "epoch": 144.21333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029620049754264103,
      "loss": 0.3842,
      "step": 108160
    },
    {
      "epoch": 144.22666666666666,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00029619979466539303,
      "loss": 0.3963,
      "step": 108170
    },
    {
      "epoch": 144.24,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002961990917239718,
      "loss": 0.3826,
      "step": 108180
    },
    {
      "epoch": 144.25333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002961983887183778,
      "loss": 0.384,
      "step": 108190
    },
    {
      "epoch": 144.26666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002961976856486112,
      "loss": 0.3867,
      "step": 108200
    },
    {
      "epoch": 144.28,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029619698251467225,
      "loss": 0.4155,
      "step": 108210
    },
    {
      "epoch": 144.29333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029619627931656145,
      "loss": 0.3728,
      "step": 108220
    },
    {
      "epoch": 144.30666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029619557605427895,
      "loss": 0.3959,
      "step": 108230
    },
    {
      "epoch": 144.32,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002961948727278252,
      "loss": 0.3986,
      "step": 108240
    },
    {
      "epoch": 144.33333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002961941693372004,
      "loss": 0.4013,
      "step": 108250
    },
    {
      "epoch": 144.34666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029619346588240485,
      "loss": 0.3916,
      "step": 108260
    },
    {
      "epoch": 144.36,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002961927623634389,
      "loss": 0.3924,
      "step": 108270
    },
    {
      "epoch": 144.37333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002961920587803029,
      "loss": 0.3934,
      "step": 108280
    },
    {
      "epoch": 144.38666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029619135513299713,
      "loss": 0.3851,
      "step": 108290
    },
    {
      "epoch": 144.4,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002961906514215218,
      "loss": 0.3928,
      "step": 108300
    },
    {
      "epoch": 144.41333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029618994764587733,
      "loss": 0.3977,
      "step": 108310
    },
    {
      "epoch": 144.42666666666668,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002961892438060641,
      "loss": 0.3986,
      "step": 108320
    },
    {
      "epoch": 144.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002961885399020822,
      "loss": 0.41,
      "step": 108330
    },
    {
      "epoch": 144.45333333333335,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002961878359339321,
      "loss": 0.4002,
      "step": 108340
    },
    {
      "epoch": 144.46666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002961871319016141,
      "loss": 0.4081,
      "step": 108350
    },
    {
      "epoch": 144.48,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029618642780512844,
      "loss": 0.3899,
      "step": 108360
    },
    {
      "epoch": 144.49333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002961857236444754,
      "loss": 0.4014,
      "step": 108370
    },
    {
      "epoch": 144.50666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029618501941965547,
      "loss": 0.3991,
      "step": 108380
    },
    {
      "epoch": 144.52,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002961843151306688,
      "loss": 0.3898,
      "step": 108390
    },
    {
      "epoch": 144.53333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002961836107775157,
      "loss": 0.3928,
      "step": 108400
    },
    {
      "epoch": 144.54666666666665,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002961829063601966,
      "loss": 0.3949,
      "step": 108410
    },
    {
      "epoch": 144.56,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002961822018787117,
      "loss": 0.3892,
      "step": 108420
    },
    {
      "epoch": 144.57333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029618149733306136,
      "loss": 0.3924,
      "step": 108430
    },
    {
      "epoch": 144.58666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002961807927232458,
      "loss": 0.382,
      "step": 108440
    },
    {
      "epoch": 144.6,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029618008804926547,
      "loss": 0.3827,
      "step": 108450
    },
    {
      "epoch": 144.61333333333334,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00029617938331112057,
      "loss": 0.373,
      "step": 108460
    },
    {
      "epoch": 144.62666666666667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0002961786785088115,
      "loss": 0.3784,
      "step": 108470
    },
    {
      "epoch": 144.64,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029617797364233847,
      "loss": 0.3906,
      "step": 108480
    },
    {
      "epoch": 144.65333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002961772687117019,
      "loss": 0.3995,
      "step": 108490
    },
    {
      "epoch": 144.66666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002961765637169019,
      "loss": 0.3873,
      "step": 108500
    },
    {
      "epoch": 144.68,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029617585865793905,
      "loss": 0.3786,
      "step": 108510
    },
    {
      "epoch": 144.69333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002961751535348135,
      "loss": 0.3882,
      "step": 108520
    },
    {
      "epoch": 144.70666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002961744483475255,
      "loss": 0.381,
      "step": 108530
    },
    {
      "epoch": 144.72,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029617374309607556,
      "loss": 0.4033,
      "step": 108540
    },
    {
      "epoch": 144.73333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002961730377804638,
      "loss": 0.3968,
      "step": 108550
    },
    {
      "epoch": 144.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029617233240069067,
      "loss": 0.3999,
      "step": 108560
    },
    {
      "epoch": 144.76,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029617162695675633,
      "loss": 0.413,
      "step": 108570
    },
    {
      "epoch": 144.77333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029617092144866125,
      "loss": 0.3996,
      "step": 108580
    },
    {
      "epoch": 144.78666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029617021587640557,
      "loss": 0.4004,
      "step": 108590
    },
    {
      "epoch": 144.8,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002961695102399898,
      "loss": 0.3979,
      "step": 108600
    },
    {
      "epoch": 144.81333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029616880453941407,
      "loss": 0.3718,
      "step": 108610
    },
    {
      "epoch": 144.82666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029616809877467873,
      "loss": 0.3812,
      "step": 108620
    },
    {
      "epoch": 144.84,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002961673929457842,
      "loss": 0.3933,
      "step": 108630
    },
    {
      "epoch": 144.85333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002961666870527307,
      "loss": 0.3887,
      "step": 108640
    },
    {
      "epoch": 144.86666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002961659810955185,
      "loss": 0.3935,
      "step": 108650
    },
    {
      "epoch": 144.88,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000296165275074148,
      "loss": 0.375,
      "step": 108660
    },
    {
      "epoch": 144.89333333333335,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029616456898861953,
      "loss": 0.3856,
      "step": 108670
    },
    {
      "epoch": 144.90666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002961638628389332,
      "loss": 0.3923,
      "step": 108680
    },
    {
      "epoch": 144.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002961631566250896,
      "loss": 0.3943,
      "step": 108690
    },
    {
      "epoch": 144.93333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002961624503470888,
      "loss": 0.3875,
      "step": 108700
    },
    {
      "epoch": 144.94666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029616174400493126,
      "loss": 0.3883,
      "step": 108710
    },
    {
      "epoch": 144.96,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002961610375986172,
      "loss": 0.3859,
      "step": 108720
    },
    {
      "epoch": 144.97333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029616033112814705,
      "loss": 0.4121,
      "step": 108730
    },
    {
      "epoch": 144.98666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.000296159624593521,
      "loss": 0.3849,
      "step": 108740
    },
    {
      "epoch": 145.0,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002961589179947394,
      "loss": 0.3809,
      "step": 108750
    },
    {
      "epoch": 145.0,
      "eval_loss": 0.4280852973461151,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1454,
      "eval_samples_per_second": 1.577,
      "eval_steps_per_second": 0.099,
      "step": 108750
    },
    {
      "epoch": 145.01333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029615821133180257,
      "loss": 0.3983,
      "step": 108760
    },
    {
      "epoch": 145.02666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029615750460471074,
      "loss": 0.4111,
      "step": 108770
    },
    {
      "epoch": 145.04,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002961567978134644,
      "loss": 0.4239,
      "step": 108780
    },
    {
      "epoch": 145.05333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002961560909580637,
      "loss": 0.4102,
      "step": 108790
    },
    {
      "epoch": 145.06666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000296155384038509,
      "loss": 0.3971,
      "step": 108800
    },
    {
      "epoch": 145.08,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002961546770548006,
      "loss": 0.3998,
      "step": 108810
    },
    {
      "epoch": 145.09333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002961539700069389,
      "loss": 0.4009,
      "step": 108820
    },
    {
      "epoch": 145.10666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000296153262894924,
      "loss": 0.3901,
      "step": 108830
    },
    {
      "epoch": 145.12,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029615255571875643,
      "loss": 0.3954,
      "step": 108840
    },
    {
      "epoch": 145.13333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029615184847843636,
      "loss": 0.3857,
      "step": 108850
    },
    {
      "epoch": 145.14666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029615114117396426,
      "loss": 0.4047,
      "step": 108860
    },
    {
      "epoch": 145.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029615043380534024,
      "loss": 0.3982,
      "step": 108870
    },
    {
      "epoch": 145.17333333333335,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029614972637256474,
      "loss": 0.3928,
      "step": 108880
    },
    {
      "epoch": 145.18666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029614901887563803,
      "loss": 0.3918,
      "step": 108890
    },
    {
      "epoch": 145.2,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029614831131456043,
      "loss": 0.384,
      "step": 108900
    },
    {
      "epoch": 145.21333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002961476036893322,
      "loss": 0.385,
      "step": 108910
    },
    {
      "epoch": 145.22666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002961468959999538,
      "loss": 0.3962,
      "step": 108920
    },
    {
      "epoch": 145.24,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029614618824642534,
      "loss": 0.3819,
      "step": 108930
    },
    {
      "epoch": 145.25333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002961454804287473,
      "loss": 0.3841,
      "step": 108940
    },
    {
      "epoch": 145.26666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002961447725469199,
      "loss": 0.3864,
      "step": 108950
    },
    {
      "epoch": 145.28,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029614406460094344,
      "loss": 0.4157,
      "step": 108960
    },
    {
      "epoch": 145.29333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002961433565908183,
      "loss": 0.3715,
      "step": 108970
    },
    {
      "epoch": 145.30666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029614264851654477,
      "loss": 0.3953,
      "step": 108980
    },
    {
      "epoch": 145.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029614194037812306,
      "loss": 0.3983,
      "step": 108990
    },
    {
      "epoch": 145.33333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002961412321755536,
      "loss": 0.4024,
      "step": 109000
    },
    {
      "epoch": 145.34666666666666,
      "grad_norm": 0.5,
      "learning_rate": 0.0002961405239088367,
      "loss": 0.3918,
      "step": 109010
    },
    {
      "epoch": 145.36,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002961398155779726,
      "loss": 0.3918,
      "step": 109020
    },
    {
      "epoch": 145.37333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002961391071829617,
      "loss": 0.3925,
      "step": 109030
    },
    {
      "epoch": 145.38666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002961383987238042,
      "loss": 0.3852,
      "step": 109040
    },
    {
      "epoch": 145.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029613769020050046,
      "loss": 0.3923,
      "step": 109050
    },
    {
      "epoch": 145.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029613698161305084,
      "loss": 0.3974,
      "step": 109060
    },
    {
      "epoch": 145.42666666666668,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029613627296145553,
      "loss": 0.399,
      "step": 109070
    },
    {
      "epoch": 145.44,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029613556424571503,
      "loss": 0.4099,
      "step": 109080
    },
    {
      "epoch": 145.45333333333335,
      "grad_norm": 0.484375,
      "learning_rate": 0.00029613485546582945,
      "loss": 0.3996,
      "step": 109090
    },
    {
      "epoch": 145.46666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029613414662179926,
      "loss": 0.4075,
      "step": 109100
    },
    {
      "epoch": 145.48,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002961334377136247,
      "loss": 0.3888,
      "step": 109110
    },
    {
      "epoch": 145.49333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029613272874130607,
      "loss": 0.4011,
      "step": 109120
    },
    {
      "epoch": 145.50666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002961320197048437,
      "loss": 0.3988,
      "step": 109130
    },
    {
      "epoch": 145.52,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029613131060423785,
      "loss": 0.39,
      "step": 109140
    },
    {
      "epoch": 145.53333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029613060143948895,
      "loss": 0.393,
      "step": 109150
    },
    {
      "epoch": 145.54666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002961298922105972,
      "loss": 0.3944,
      "step": 109160
    },
    {
      "epoch": 145.56,
      "grad_norm": 0.353515625,
      "learning_rate": 0.000296129182917563,
      "loss": 0.3891,
      "step": 109170
    },
    {
      "epoch": 145.57333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.00029612847356038654,
      "loss": 0.3925,
      "step": 109180
    },
    {
      "epoch": 145.58666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029612776413906824,
      "loss": 0.3813,
      "step": 109190
    },
    {
      "epoch": 145.6,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029612705465360844,
      "loss": 0.3839,
      "step": 109200
    },
    {
      "epoch": 145.61333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002961263451040073,
      "loss": 0.3731,
      "step": 109210
    },
    {
      "epoch": 145.62666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029612563549026523,
      "loss": 0.3788,
      "step": 109220
    },
    {
      "epoch": 145.64,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002961249258123825,
      "loss": 0.3903,
      "step": 109230
    },
    {
      "epoch": 145.65333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029612421607035956,
      "loss": 0.3986,
      "step": 109240
    },
    {
      "epoch": 145.66666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029612350626419655,
      "loss": 0.3869,
      "step": 109250
    },
    {
      "epoch": 145.68,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002961227963938938,
      "loss": 0.3782,
      "step": 109260
    },
    {
      "epoch": 145.69333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029612208645945175,
      "loss": 0.3871,
      "step": 109270
    },
    {
      "epoch": 145.70666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002961213764608706,
      "loss": 0.3799,
      "step": 109280
    },
    {
      "epoch": 145.72,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029612066639815067,
      "loss": 0.4048,
      "step": 109290
    },
    {
      "epoch": 145.73333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002961199562712923,
      "loss": 0.3967,
      "step": 109300
    },
    {
      "epoch": 145.74666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002961192460802958,
      "loss": 0.3996,
      "step": 109310
    },
    {
      "epoch": 145.76,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002961185358251615,
      "loss": 0.4126,
      "step": 109320
    },
    {
      "epoch": 145.77333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029611782550588965,
      "loss": 0.3998,
      "step": 109330
    },
    {
      "epoch": 145.78666666666666,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002961171151224806,
      "loss": 0.4,
      "step": 109340
    },
    {
      "epoch": 145.8,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002961164046749347,
      "loss": 0.3981,
      "step": 109350
    },
    {
      "epoch": 145.81333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029611569416325217,
      "loss": 0.3726,
      "step": 109360
    },
    {
      "epoch": 145.82666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002961149835874334,
      "loss": 0.3811,
      "step": 109370
    },
    {
      "epoch": 145.84,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029611427294747863,
      "loss": 0.393,
      "step": 109380
    },
    {
      "epoch": 145.85333333333332,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029611356224338827,
      "loss": 0.3889,
      "step": 109390
    },
    {
      "epoch": 145.86666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002961128514751626,
      "loss": 0.393,
      "step": 109400
    },
    {
      "epoch": 145.88,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002961121406428019,
      "loss": 0.3739,
      "step": 109410
    },
    {
      "epoch": 145.89333333333335,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029611142974630646,
      "loss": 0.3852,
      "step": 109420
    },
    {
      "epoch": 145.90666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029611071878567663,
      "loss": 0.3925,
      "step": 109430
    },
    {
      "epoch": 145.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002961100077609127,
      "loss": 0.3943,
      "step": 109440
    },
    {
      "epoch": 145.93333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029610929667201505,
      "loss": 0.3879,
      "step": 109450
    },
    {
      "epoch": 145.94666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029610858551898394,
      "loss": 0.3892,
      "step": 109460
    },
    {
      "epoch": 145.96,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002961078743018197,
      "loss": 0.3868,
      "step": 109470
    },
    {
      "epoch": 145.97333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002961071630205225,
      "loss": 0.4114,
      "step": 109480
    },
    {
      "epoch": 145.98666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002961064516750929,
      "loss": 0.3841,
      "step": 109490
    },
    {
      "epoch": 146.0,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029610574026553107,
      "loss": 0.3811,
      "step": 109500
    },
    {
      "epoch": 146.0,
      "eval_loss": 0.42716825008392334,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8847,
      "eval_samples_per_second": 1.619,
      "eval_steps_per_second": 0.101,
      "step": 109500
    },
    {
      "epoch": 146.01333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029610502879183736,
      "loss": 0.3977,
      "step": 109510
    },
    {
      "epoch": 146.02666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000296104317254012,
      "loss": 0.4108,
      "step": 109520
    },
    {
      "epoch": 146.04,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029610360565205545,
      "loss": 0.424,
      "step": 109530
    },
    {
      "epoch": 146.05333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029610289398596785,
      "loss": 0.4093,
      "step": 109540
    },
    {
      "epoch": 146.06666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002961021822557497,
      "loss": 0.3971,
      "step": 109550
    },
    {
      "epoch": 146.08,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002961014704614011,
      "loss": 0.4002,
      "step": 109560
    },
    {
      "epoch": 146.09333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002961007586029226,
      "loss": 0.4009,
      "step": 109570
    },
    {
      "epoch": 146.10666666666665,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029610004668031433,
      "loss": 0.3898,
      "step": 109580
    },
    {
      "epoch": 146.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029609933469357664,
      "loss": 0.3943,
      "step": 109590
    },
    {
      "epoch": 146.13333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002960986226427099,
      "loss": 0.3859,
      "step": 109600
    },
    {
      "epoch": 146.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002960979105277144,
      "loss": 0.4042,
      "step": 109610
    },
    {
      "epoch": 146.16,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002960971983485904,
      "loss": 0.3983,
      "step": 109620
    },
    {
      "epoch": 146.17333333333335,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002960964861053383,
      "loss": 0.3934,
      "step": 109630
    },
    {
      "epoch": 146.18666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029609577379795834,
      "loss": 0.3912,
      "step": 109640
    },
    {
      "epoch": 146.2,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029609506142645086,
      "loss": 0.3832,
      "step": 109650
    },
    {
      "epoch": 146.21333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002960943489908161,
      "loss": 0.3857,
      "step": 109660
    },
    {
      "epoch": 146.22666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029609363649105456,
      "loss": 0.3961,
      "step": 109670
    },
    {
      "epoch": 146.24,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002960929239271664,
      "loss": 0.3819,
      "step": 109680
    },
    {
      "epoch": 146.25333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002960922112991519,
      "loss": 0.383,
      "step": 109690
    },
    {
      "epoch": 146.26666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029609149860701154,
      "loss": 0.3855,
      "step": 109700
    },
    {
      "epoch": 146.28,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029609078585074547,
      "loss": 0.4167,
      "step": 109710
    },
    {
      "epoch": 146.29333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002960900730303541,
      "loss": 0.372,
      "step": 109720
    },
    {
      "epoch": 146.30666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029608936014583766,
      "loss": 0.3954,
      "step": 109730
    },
    {
      "epoch": 146.32,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002960886471971966,
      "loss": 0.3985,
      "step": 109740
    },
    {
      "epoch": 146.33333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002960879341844311,
      "loss": 0.4005,
      "step": 109750
    },
    {
      "epoch": 146.34666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002960872211075415,
      "loss": 0.3917,
      "step": 109760
    },
    {
      "epoch": 146.36,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029608650796652814,
      "loss": 0.3917,
      "step": 109770
    },
    {
      "epoch": 146.37333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002960857947613913,
      "loss": 0.3931,
      "step": 109780
    },
    {
      "epoch": 146.38666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002960850814921314,
      "loss": 0.3851,
      "step": 109790
    },
    {
      "epoch": 146.4,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029608436815874866,
      "loss": 0.3919,
      "step": 109800
    },
    {
      "epoch": 146.41333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002960836547612433,
      "loss": 0.3973,
      "step": 109810
    },
    {
      "epoch": 146.42666666666668,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029608294129961586,
      "loss": 0.3987,
      "step": 109820
    },
    {
      "epoch": 146.44,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002960822277738665,
      "loss": 0.4103,
      "step": 109830
    },
    {
      "epoch": 146.45333333333335,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002960815141839955,
      "loss": 0.3988,
      "step": 109840
    },
    {
      "epoch": 146.46666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002960808005300033,
      "loss": 0.4077,
      "step": 109850
    },
    {
      "epoch": 146.48,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029608008681189014,
      "loss": 0.3891,
      "step": 109860
    },
    {
      "epoch": 146.49333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002960793730296563,
      "loss": 0.4001,
      "step": 109870
    },
    {
      "epoch": 146.50666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029607865918330215,
      "loss": 0.3991,
      "step": 109880
    },
    {
      "epoch": 146.52,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000296077945272828,
      "loss": 0.3905,
      "step": 109890
    },
    {
      "epoch": 146.53333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002960772312982342,
      "loss": 0.3919,
      "step": 109900
    },
    {
      "epoch": 146.54666666666665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.000296076517259521,
      "loss": 0.3939,
      "step": 109910
    },
    {
      "epoch": 146.56,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029607580315668864,
      "loss": 0.3878,
      "step": 109920
    },
    {
      "epoch": 146.57333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029607508898973764,
      "loss": 0.3929,
      "step": 109930
    },
    {
      "epoch": 146.58666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002960743747586681,
      "loss": 0.3811,
      "step": 109940
    },
    {
      "epoch": 146.6,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029607366046348056,
      "loss": 0.3825,
      "step": 109950
    },
    {
      "epoch": 146.61333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029607294610417507,
      "loss": 0.3725,
      "step": 109960
    },
    {
      "epoch": 146.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029607223168075215,
      "loss": 0.3785,
      "step": 109970
    },
    {
      "epoch": 146.64,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029607151719321205,
      "loss": 0.3896,
      "step": 109980
    },
    {
      "epoch": 146.65333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029607080264155506,
      "loss": 0.3994,
      "step": 109990
    },
    {
      "epoch": 146.66666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002960700880257815,
      "loss": 0.3871,
      "step": 110000
    },
    {
      "epoch": 146.68,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002960693733458917,
      "loss": 0.3798,
      "step": 110010
    },
    {
      "epoch": 146.69333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029606865860188594,
      "loss": 0.3882,
      "step": 110020
    },
    {
      "epoch": 146.70666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002960679437937646,
      "loss": 0.3806,
      "step": 110030
    },
    {
      "epoch": 146.72,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002960672289215279,
      "loss": 0.4025,
      "step": 110040
    },
    {
      "epoch": 146.73333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029606651398517625,
      "loss": 0.397,
      "step": 110050
    },
    {
      "epoch": 146.74666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002960657989847099,
      "loss": 0.4003,
      "step": 110060
    },
    {
      "epoch": 146.76,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029606508392012923,
      "loss": 0.4125,
      "step": 110070
    },
    {
      "epoch": 146.77333333333334,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002960643687914345,
      "loss": 0.3992,
      "step": 110080
    },
    {
      "epoch": 146.78666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029606365359862596,
      "loss": 0.3996,
      "step": 110090
    },
    {
      "epoch": 146.8,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002960629383417041,
      "loss": 0.3982,
      "step": 110100
    },
    {
      "epoch": 146.81333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029606222302066903,
      "loss": 0.3718,
      "step": 110110
    },
    {
      "epoch": 146.82666666666665,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002960615076355212,
      "loss": 0.3815,
      "step": 110120
    },
    {
      "epoch": 146.84,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029606079218626093,
      "loss": 0.3935,
      "step": 110130
    },
    {
      "epoch": 146.85333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002960600766728885,
      "loss": 0.3892,
      "step": 110140
    },
    {
      "epoch": 146.86666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029605936109540417,
      "loss": 0.3931,
      "step": 110150
    },
    {
      "epoch": 146.88,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029605864545380827,
      "loss": 0.3744,
      "step": 110160
    },
    {
      "epoch": 146.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002960579297481012,
      "loss": 0.3861,
      "step": 110170
    },
    {
      "epoch": 146.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029605721397828324,
      "loss": 0.3919,
      "step": 110180
    },
    {
      "epoch": 146.92,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002960564981443546,
      "loss": 0.3939,
      "step": 110190
    },
    {
      "epoch": 146.93333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002960557822463158,
      "loss": 0.3882,
      "step": 110200
    },
    {
      "epoch": 146.94666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029605506628416694,
      "loss": 0.3882,
      "step": 110210
    },
    {
      "epoch": 146.96,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002960543502579084,
      "loss": 0.3875,
      "step": 110220
    },
    {
      "epoch": 146.97333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002960536341675406,
      "loss": 0.4112,
      "step": 110230
    },
    {
      "epoch": 146.98666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002960529180130637,
      "loss": 0.3845,
      "step": 110240
    },
    {
      "epoch": 147.0,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029605220179447814,
      "loss": 0.3813,
      "step": 110250
    },
    {
      "epoch": 147.0,
      "eval_loss": 0.42707309126853943,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.577,
      "eval_samples_per_second": 1.671,
      "eval_steps_per_second": 0.104,
      "step": 110250
    },
    {
      "epoch": 147.01333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002960514855117842,
      "loss": 0.3979,
      "step": 110260
    },
    {
      "epoch": 147.02666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002960507691649822,
      "loss": 0.4117,
      "step": 110270
    },
    {
      "epoch": 147.04,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029605005275407234,
      "loss": 0.4243,
      "step": 110280
    },
    {
      "epoch": 147.05333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029604933627905506,
      "loss": 0.4092,
      "step": 110290
    },
    {
      "epoch": 147.06666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002960486197399307,
      "loss": 0.3965,
      "step": 110300
    },
    {
      "epoch": 147.08,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029604790313669945,
      "loss": 0.4001,
      "step": 110310
    },
    {
      "epoch": 147.09333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029604718646936173,
      "loss": 0.4011,
      "step": 110320
    },
    {
      "epoch": 147.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029604646973791773,
      "loss": 0.3899,
      "step": 110330
    },
    {
      "epoch": 147.12,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029604575294236795,
      "loss": 0.3945,
      "step": 110340
    },
    {
      "epoch": 147.13333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002960450360827126,
      "loss": 0.3848,
      "step": 110350
    },
    {
      "epoch": 147.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029604431915895195,
      "loss": 0.4039,
      "step": 110360
    },
    {
      "epoch": 147.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029604360217108634,
      "loss": 0.3981,
      "step": 110370
    },
    {
      "epoch": 147.17333333333335,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002960428851191162,
      "loss": 0.3929,
      "step": 110380
    },
    {
      "epoch": 147.18666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002960421680030417,
      "loss": 0.3907,
      "step": 110390
    },
    {
      "epoch": 147.2,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002960414508228632,
      "loss": 0.3837,
      "step": 110400
    },
    {
      "epoch": 147.21333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029604073357858104,
      "loss": 0.3847,
      "step": 110410
    },
    {
      "epoch": 147.22666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002960400162701955,
      "loss": 0.3971,
      "step": 110420
    },
    {
      "epoch": 147.24,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029603929889770694,
      "loss": 0.3812,
      "step": 110430
    },
    {
      "epoch": 147.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002960385814611156,
      "loss": 0.3845,
      "step": 110440
    },
    {
      "epoch": 147.26666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002960378639604219,
      "loss": 0.3855,
      "step": 110450
    },
    {
      "epoch": 147.28,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029603714639562606,
      "loss": 0.4152,
      "step": 110460
    },
    {
      "epoch": 147.29333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029603642876672846,
      "loss": 0.3721,
      "step": 110470
    },
    {
      "epoch": 147.30666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029603571107372935,
      "loss": 0.3953,
      "step": 110480
    },
    {
      "epoch": 147.32,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002960349933166291,
      "loss": 0.3976,
      "step": 110490
    },
    {
      "epoch": 147.33333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.000296034275495428,
      "loss": 0.4005,
      "step": 110500
    },
    {
      "epoch": 147.34666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002960335576101264,
      "loss": 0.3915,
      "step": 110510
    },
    {
      "epoch": 147.36,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002960328396607246,
      "loss": 0.3921,
      "step": 110520
    },
    {
      "epoch": 147.37333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029603212164722284,
      "loss": 0.3924,
      "step": 110530
    },
    {
      "epoch": 147.38666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029603140356962155,
      "loss": 0.385,
      "step": 110540
    },
    {
      "epoch": 147.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029603068542792093,
      "loss": 0.3927,
      "step": 110550
    },
    {
      "epoch": 147.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002960299672221214,
      "loss": 0.3969,
      "step": 110560
    },
    {
      "epoch": 147.42666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029602924895222326,
      "loss": 0.3991,
      "step": 110570
    },
    {
      "epoch": 147.44,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029602853061822676,
      "loss": 0.4096,
      "step": 110580
    },
    {
      "epoch": 147.45333333333335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002960278122201322,
      "loss": 0.3992,
      "step": 110590
    },
    {
      "epoch": 147.46666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002960270937579401,
      "loss": 0.4076,
      "step": 110600
    },
    {
      "epoch": 147.48,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002960263752316505,
      "loss": 0.3895,
      "step": 110610
    },
    {
      "epoch": 147.49333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002960256566412639,
      "loss": 0.4007,
      "step": 110620
    },
    {
      "epoch": 147.50666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029602493798678046,
      "loss": 0.4001,
      "step": 110630
    },
    {
      "epoch": 147.52,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002960242192682007,
      "loss": 0.3894,
      "step": 110640
    },
    {
      "epoch": 147.53333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002960235004855248,
      "loss": 0.392,
      "step": 110650
    },
    {
      "epoch": 147.54666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002960227816387531,
      "loss": 0.3942,
      "step": 110660
    },
    {
      "epoch": 147.56,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029602206272788593,
      "loss": 0.3876,
      "step": 110670
    },
    {
      "epoch": 147.57333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002960213437529235,
      "loss": 0.3917,
      "step": 110680
    },
    {
      "epoch": 147.58666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029602062471386633,
      "loss": 0.3817,
      "step": 110690
    },
    {
      "epoch": 147.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002960199056107146,
      "loss": 0.382,
      "step": 110700
    },
    {
      "epoch": 147.61333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002960191864434686,
      "loss": 0.3733,
      "step": 110710
    },
    {
      "epoch": 147.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029601846721212874,
      "loss": 0.3781,
      "step": 110720
    },
    {
      "epoch": 147.64,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002960177479166953,
      "loss": 0.3901,
      "step": 110730
    },
    {
      "epoch": 147.65333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029601702855716855,
      "loss": 0.4,
      "step": 110740
    },
    {
      "epoch": 147.66666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029601630913354886,
      "loss": 0.3869,
      "step": 110750
    },
    {
      "epoch": 147.68,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029601558964583656,
      "loss": 0.3785,
      "step": 110760
    },
    {
      "epoch": 147.69333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002960148700940319,
      "loss": 0.3884,
      "step": 110770
    },
    {
      "epoch": 147.70666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002960141504781352,
      "loss": 0.3811,
      "step": 110780
    },
    {
      "epoch": 147.72,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029601343079814686,
      "loss": 0.4037,
      "step": 110790
    },
    {
      "epoch": 147.73333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.00029601271105406715,
      "loss": 0.3974,
      "step": 110800
    },
    {
      "epoch": 147.74666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029601199124589634,
      "loss": 0.3992,
      "step": 110810
    },
    {
      "epoch": 147.76,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029601127137363477,
      "loss": 0.4126,
      "step": 110820
    },
    {
      "epoch": 147.77333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002960105514372828,
      "loss": 0.399,
      "step": 110830
    },
    {
      "epoch": 147.78666666666666,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002960098314368407,
      "loss": 0.3999,
      "step": 110840
    },
    {
      "epoch": 147.8,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002960091113723088,
      "loss": 0.3986,
      "step": 110850
    },
    {
      "epoch": 147.81333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029600839124368746,
      "loss": 0.3721,
      "step": 110860
    },
    {
      "epoch": 147.82666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002960076710509769,
      "loss": 0.3819,
      "step": 110870
    },
    {
      "epoch": 147.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002960069507941775,
      "loss": 0.3933,
      "step": 110880
    },
    {
      "epoch": 147.85333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.00029600623047328957,
      "loss": 0.388,
      "step": 110890
    },
    {
      "epoch": 147.86666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029600551008831345,
      "loss": 0.3927,
      "step": 110900
    },
    {
      "epoch": 147.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002960047896392494,
      "loss": 0.3735,
      "step": 110910
    },
    {
      "epoch": 147.89333333333335,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029600406912609774,
      "loss": 0.3851,
      "step": 110920
    },
    {
      "epoch": 147.90666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029600334854885886,
      "loss": 0.3916,
      "step": 110930
    },
    {
      "epoch": 147.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000296002627907533,
      "loss": 0.3939,
      "step": 110940
    },
    {
      "epoch": 147.93333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029600190720212056,
      "loss": 0.3871,
      "step": 110950
    },
    {
      "epoch": 147.94666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002960011864326218,
      "loss": 0.3879,
      "step": 110960
    },
    {
      "epoch": 147.96,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029600046559903696,
      "loss": 0.3872,
      "step": 110970
    },
    {
      "epoch": 147.97333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029599974470136646,
      "loss": 0.4119,
      "step": 110980
    },
    {
      "epoch": 147.98666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029599902373961056,
      "loss": 0.384,
      "step": 110990
    },
    {
      "epoch": 148.0,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029599830271376964,
      "loss": 0.3805,
      "step": 111000
    },
    {
      "epoch": 148.0,
      "eval_loss": 0.42561355233192444,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7115,
      "eval_samples_per_second": 1.648,
      "eval_steps_per_second": 0.103,
      "step": 111000
    },
    {
      "epoch": 148.01333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029599758162384397,
      "loss": 0.3978,
      "step": 111010
    },
    {
      "epoch": 148.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002959968604698339,
      "loss": 0.4109,
      "step": 111020
    },
    {
      "epoch": 148.04,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002959961392517397,
      "loss": 0.4239,
      "step": 111030
    },
    {
      "epoch": 148.05333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029599541796956175,
      "loss": 0.4088,
      "step": 111040
    },
    {
      "epoch": 148.06666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002959946966233003,
      "loss": 0.3965,
      "step": 111050
    },
    {
      "epoch": 148.08,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002959939752129557,
      "loss": 0.4006,
      "step": 111060
    },
    {
      "epoch": 148.09333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029599325373852827,
      "loss": 0.4007,
      "step": 111070
    },
    {
      "epoch": 148.10666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002959925322000183,
      "loss": 0.3897,
      "step": 111080
    },
    {
      "epoch": 148.12,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029599181059742616,
      "loss": 0.3939,
      "step": 111090
    },
    {
      "epoch": 148.13333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002959910889307521,
      "loss": 0.3863,
      "step": 111100
    },
    {
      "epoch": 148.14666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002959903671999965,
      "loss": 0.4043,
      "step": 111110
    },
    {
      "epoch": 148.16,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002959896454051596,
      "loss": 0.3981,
      "step": 111120
    },
    {
      "epoch": 148.17333333333335,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002959889235462418,
      "loss": 0.393,
      "step": 111130
    },
    {
      "epoch": 148.18666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002959882016232433,
      "loss": 0.3909,
      "step": 111140
    },
    {
      "epoch": 148.2,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002959874796361646,
      "loss": 0.3834,
      "step": 111150
    },
    {
      "epoch": 148.21333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029598675758500583,
      "loss": 0.3842,
      "step": 111160
    },
    {
      "epoch": 148.22666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029598603546976746,
      "loss": 0.3962,
      "step": 111170
    },
    {
      "epoch": 148.24,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002959853132904497,
      "loss": 0.3811,
      "step": 111180
    },
    {
      "epoch": 148.25333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002959845910470529,
      "loss": 0.3833,
      "step": 111190
    },
    {
      "epoch": 148.26666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002959838687395774,
      "loss": 0.3858,
      "step": 111200
    },
    {
      "epoch": 148.28,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002959831463680235,
      "loss": 0.4162,
      "step": 111210
    },
    {
      "epoch": 148.29333333333332,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002959824239323915,
      "loss": 0.3718,
      "step": 111220
    },
    {
      "epoch": 148.30666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029598170143268175,
      "loss": 0.3955,
      "step": 111230
    },
    {
      "epoch": 148.32,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029598097886889447,
      "loss": 0.3983,
      "step": 111240
    },
    {
      "epoch": 148.33333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002959802562410301,
      "loss": 0.3997,
      "step": 111250
    },
    {
      "epoch": 148.34666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000295979533549089,
      "loss": 0.3912,
      "step": 111260
    },
    {
      "epoch": 148.36,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029597881079307137,
      "loss": 0.3912,
      "step": 111270
    },
    {
      "epoch": 148.37333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002959780879729775,
      "loss": 0.3935,
      "step": 111280
    },
    {
      "epoch": 148.38666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029597736508880777,
      "loss": 0.385,
      "step": 111290
    },
    {
      "epoch": 148.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002959766421405625,
      "loss": 0.3928,
      "step": 111300
    },
    {
      "epoch": 148.41333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000295975919128242,
      "loss": 0.3964,
      "step": 111310
    },
    {
      "epoch": 148.42666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002959751960518466,
      "loss": 0.397,
      "step": 111320
    },
    {
      "epoch": 148.44,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002959744729113766,
      "loss": 0.4095,
      "step": 111330
    },
    {
      "epoch": 148.45333333333335,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029597374970683236,
      "loss": 0.3989,
      "step": 111340
    },
    {
      "epoch": 148.46666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029597302643821413,
      "loss": 0.4072,
      "step": 111350
    },
    {
      "epoch": 148.48,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029597230310552227,
      "loss": 0.3884,
      "step": 111360
    },
    {
      "epoch": 148.49333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029597157970875703,
      "loss": 0.4007,
      "step": 111370
    },
    {
      "epoch": 148.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002959708562479188,
      "loss": 0.3993,
      "step": 111380
    },
    {
      "epoch": 148.52,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029597013272300793,
      "loss": 0.3881,
      "step": 111390
    },
    {
      "epoch": 148.53333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029596940913402466,
      "loss": 0.3923,
      "step": 111400
    },
    {
      "epoch": 148.54666666666665,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002959686854809693,
      "loss": 0.3951,
      "step": 111410
    },
    {
      "epoch": 148.56,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029596796176384224,
      "loss": 0.3877,
      "step": 111420
    },
    {
      "epoch": 148.57333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029596723798264374,
      "loss": 0.3904,
      "step": 111430
    },
    {
      "epoch": 148.58666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029596651413737416,
      "loss": 0.3805,
      "step": 111440
    },
    {
      "epoch": 148.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002959657902280338,
      "loss": 0.3823,
      "step": 111450
    },
    {
      "epoch": 148.61333333333334,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029596506625462297,
      "loss": 0.3732,
      "step": 111460
    },
    {
      "epoch": 148.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029596434221714195,
      "loss": 0.3781,
      "step": 111470
    },
    {
      "epoch": 148.64,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029596361811559115,
      "loss": 0.3905,
      "step": 111480
    },
    {
      "epoch": 148.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029596289394997083,
      "loss": 0.3991,
      "step": 111490
    },
    {
      "epoch": 148.66666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029596216972028127,
      "loss": 0.3867,
      "step": 111500
    },
    {
      "epoch": 148.68,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002959614454265229,
      "loss": 0.3789,
      "step": 111510
    },
    {
      "epoch": 148.69333333333333,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002959607210686959,
      "loss": 0.3876,
      "step": 111520
    },
    {
      "epoch": 148.70666666666668,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002959599966468007,
      "loss": 0.3807,
      "step": 111530
    },
    {
      "epoch": 148.72,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029595927216083753,
      "loss": 0.4029,
      "step": 111540
    },
    {
      "epoch": 148.73333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002959585476108068,
      "loss": 0.3969,
      "step": 111550
    },
    {
      "epoch": 148.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029595782299670877,
      "loss": 0.3996,
      "step": 111560
    },
    {
      "epoch": 148.76,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029595709831854375,
      "loss": 0.4121,
      "step": 111570
    },
    {
      "epoch": 148.77333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029595637357631213,
      "loss": 0.3988,
      "step": 111580
    },
    {
      "epoch": 148.78666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029595564877001415,
      "loss": 0.3997,
      "step": 111590
    },
    {
      "epoch": 148.8,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029595492389965016,
      "loss": 0.3978,
      "step": 111600
    },
    {
      "epoch": 148.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029595419896522046,
      "loss": 0.3718,
      "step": 111610
    },
    {
      "epoch": 148.82666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002959534739667254,
      "loss": 0.3812,
      "step": 111620
    },
    {
      "epoch": 148.84,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029595274890416523,
      "loss": 0.3926,
      "step": 111630
    },
    {
      "epoch": 148.85333333333332,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002959520237775404,
      "loss": 0.3887,
      "step": 111640
    },
    {
      "epoch": 148.86666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002959512985868511,
      "loss": 0.3933,
      "step": 111650
    },
    {
      "epoch": 148.88,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002959505733320977,
      "loss": 0.3739,
      "step": 111660
    },
    {
      "epoch": 148.89333333333335,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029594984801328047,
      "loss": 0.3859,
      "step": 111670
    },
    {
      "epoch": 148.90666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029594912263039986,
      "loss": 0.3921,
      "step": 111680
    },
    {
      "epoch": 148.92,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029594839718345597,
      "loss": 0.3934,
      "step": 111690
    },
    {
      "epoch": 148.93333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002959476716724494,
      "loss": 0.388,
      "step": 111700
    },
    {
      "epoch": 148.94666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029594694609738024,
      "loss": 0.3888,
      "step": 111710
    },
    {
      "epoch": 148.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002959462204582488,
      "loss": 0.3857,
      "step": 111720
    },
    {
      "epoch": 148.97333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029594549475505565,
      "loss": 0.4115,
      "step": 111730
    },
    {
      "epoch": 148.98666666666668,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029594476898780087,
      "loss": 0.384,
      "step": 111740
    },
    {
      "epoch": 149.0,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002959440431564848,
      "loss": 0.3799,
      "step": 111750
    },
    {
      "epoch": 149.0,
      "eval_loss": 0.4255213141441345,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0125,
      "eval_samples_per_second": 1.598,
      "eval_steps_per_second": 0.1,
      "step": 111750
    },
    {
      "epoch": 149.01333333333332,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029594331726110786,
      "loss": 0.3981,
      "step": 111760
    },
    {
      "epoch": 149.02666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002959425913016703,
      "loss": 0.4112,
      "step": 111770
    },
    {
      "epoch": 149.04,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002959418652781725,
      "loss": 0.4241,
      "step": 111780
    },
    {
      "epoch": 149.05333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002959411391906147,
      "loss": 0.4094,
      "step": 111790
    },
    {
      "epoch": 149.06666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002959404130389972,
      "loss": 0.3972,
      "step": 111800
    },
    {
      "epoch": 149.08,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029593968682332044,
      "loss": 0.3997,
      "step": 111810
    },
    {
      "epoch": 149.09333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002959389605435847,
      "loss": 0.4004,
      "step": 111820
    },
    {
      "epoch": 149.10666666666665,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002959382341997902,
      "loss": 0.3896,
      "step": 111830
    },
    {
      "epoch": 149.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002959375077919374,
      "loss": 0.3941,
      "step": 111840
    },
    {
      "epoch": 149.13333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002959367813200265,
      "loss": 0.3848,
      "step": 111850
    },
    {
      "epoch": 149.14666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029593605478405783,
      "loss": 0.4052,
      "step": 111860
    },
    {
      "epoch": 149.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029593532818403175,
      "loss": 0.3975,
      "step": 111870
    },
    {
      "epoch": 149.17333333333335,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002959346015199486,
      "loss": 0.3929,
      "step": 111880
    },
    {
      "epoch": 149.18666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002959338747918087,
      "loss": 0.3917,
      "step": 111890
    },
    {
      "epoch": 149.2,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029593314799961236,
      "loss": 0.3837,
      "step": 111900
    },
    {
      "epoch": 149.21333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002959324211433598,
      "loss": 0.384,
      "step": 111910
    },
    {
      "epoch": 149.22666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002959316942230515,
      "loss": 0.3946,
      "step": 111920
    },
    {
      "epoch": 149.24,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029593096723868766,
      "loss": 0.3813,
      "step": 111930
    },
    {
      "epoch": 149.25333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029593024019026863,
      "loss": 0.3838,
      "step": 111940
    },
    {
      "epoch": 149.26666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002959295130777947,
      "loss": 0.3856,
      "step": 111950
    },
    {
      "epoch": 149.28,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029592878590126636,
      "loss": 0.4154,
      "step": 111960
    },
    {
      "epoch": 149.29333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029592805866068367,
      "loss": 0.3716,
      "step": 111970
    },
    {
      "epoch": 149.30666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002959273313560471,
      "loss": 0.3954,
      "step": 111980
    },
    {
      "epoch": 149.32,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000295926603987357,
      "loss": 0.3985,
      "step": 111990
    },
    {
      "epoch": 149.33333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002959258765546136,
      "loss": 0.4009,
      "step": 112000
    },
    {
      "epoch": 149.34666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029592514905781725,
      "loss": 0.392,
      "step": 112010
    },
    {
      "epoch": 149.36,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002959244214969682,
      "loss": 0.3913,
      "step": 112020
    },
    {
      "epoch": 149.37333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000295923693872067,
      "loss": 0.393,
      "step": 112030
    },
    {
      "epoch": 149.38666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029592296618311366,
      "loss": 0.3841,
      "step": 112040
    },
    {
      "epoch": 149.4,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002959222384301088,
      "loss": 0.3922,
      "step": 112050
    },
    {
      "epoch": 149.41333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002959215106130525,
      "loss": 0.3972,
      "step": 112060
    },
    {
      "epoch": 149.42666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029592078273194515,
      "loss": 0.3987,
      "step": 112070
    },
    {
      "epoch": 149.44,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002959200547867871,
      "loss": 0.4092,
      "step": 112080
    },
    {
      "epoch": 149.45333333333335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002959193267775787,
      "loss": 0.3986,
      "step": 112090
    },
    {
      "epoch": 149.46666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002959185987043202,
      "loss": 0.4071,
      "step": 112100
    },
    {
      "epoch": 149.48,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002959178705670119,
      "loss": 0.3889,
      "step": 112110
    },
    {
      "epoch": 149.49333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029591714236565424,
      "loss": 0.4011,
      "step": 112120
    },
    {
      "epoch": 149.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029591641410024744,
      "loss": 0.3997,
      "step": 112130
    },
    {
      "epoch": 149.52,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002959156857707918,
      "loss": 0.389,
      "step": 112140
    },
    {
      "epoch": 149.53333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002959149573772878,
      "loss": 0.3925,
      "step": 112150
    },
    {
      "epoch": 149.54666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029591422891973553,
      "loss": 0.3938,
      "step": 112160
    },
    {
      "epoch": 149.56,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002959135003981355,
      "loss": 0.3879,
      "step": 112170
    },
    {
      "epoch": 149.57333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029591277181248795,
      "loss": 0.3924,
      "step": 112180
    },
    {
      "epoch": 149.58666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029591204316279317,
      "loss": 0.3809,
      "step": 112190
    },
    {
      "epoch": 149.6,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029591131444905153,
      "loss": 0.3827,
      "step": 112200
    },
    {
      "epoch": 149.61333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029591058567126336,
      "loss": 0.3724,
      "step": 112210
    },
    {
      "epoch": 149.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002959098568294289,
      "loss": 0.3774,
      "step": 112220
    },
    {
      "epoch": 149.64,
      "grad_norm": 0.375,
      "learning_rate": 0.00029590912792354856,
      "loss": 0.3896,
      "step": 112230
    },
    {
      "epoch": 149.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029590839895362263,
      "loss": 0.3981,
      "step": 112240
    },
    {
      "epoch": 149.66666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002959076699196514,
      "loss": 0.3873,
      "step": 112250
    },
    {
      "epoch": 149.68,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029590694082163525,
      "loss": 0.3785,
      "step": 112260
    },
    {
      "epoch": 149.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029590621165957444,
      "loss": 0.3867,
      "step": 112270
    },
    {
      "epoch": 149.70666666666668,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002959054824334693,
      "loss": 0.3808,
      "step": 112280
    },
    {
      "epoch": 149.72,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002959047531433202,
      "loss": 0.403,
      "step": 112290
    },
    {
      "epoch": 149.73333333333332,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002959040237891274,
      "loss": 0.3968,
      "step": 112300
    },
    {
      "epoch": 149.74666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029590329437089125,
      "loss": 0.3991,
      "step": 112310
    },
    {
      "epoch": 149.76,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002959025648886121,
      "loss": 0.4119,
      "step": 112320
    },
    {
      "epoch": 149.77333333333334,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002959018353422902,
      "loss": 0.3994,
      "step": 112330
    },
    {
      "epoch": 149.78666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002959011057319259,
      "loss": 0.3999,
      "step": 112340
    },
    {
      "epoch": 149.8,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002959003760575195,
      "loss": 0.3987,
      "step": 112350
    },
    {
      "epoch": 149.81333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002958996463190714,
      "loss": 0.3716,
      "step": 112360
    },
    {
      "epoch": 149.82666666666665,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002958989165165818,
      "loss": 0.3808,
      "step": 112370
    },
    {
      "epoch": 149.84,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002958981866500512,
      "loss": 0.3934,
      "step": 112380
    },
    {
      "epoch": 149.85333333333332,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002958974567194797,
      "loss": 0.3883,
      "step": 112390
    },
    {
      "epoch": 149.86666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002958967267248678,
      "loss": 0.3934,
      "step": 112400
    },
    {
      "epoch": 149.88,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029589599666621577,
      "loss": 0.3743,
      "step": 112410
    },
    {
      "epoch": 149.89333333333335,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029589526654352386,
      "loss": 0.3849,
      "step": 112420
    },
    {
      "epoch": 149.90666666666667,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002958945363567924,
      "loss": 0.3916,
      "step": 112430
    },
    {
      "epoch": 149.92,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029589380610602176,
      "loss": 0.3946,
      "step": 112440
    },
    {
      "epoch": 149.93333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029589307579121226,
      "loss": 0.3875,
      "step": 112450
    },
    {
      "epoch": 149.94666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029589234541236426,
      "loss": 0.3885,
      "step": 112460
    },
    {
      "epoch": 149.96,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000295891614969478,
      "loss": 0.3866,
      "step": 112470
    },
    {
      "epoch": 149.97333333333333,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002958908844625538,
      "loss": 0.4113,
      "step": 112480
    },
    {
      "epoch": 149.98666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002958901538915921,
      "loss": 0.3849,
      "step": 112490
    },
    {
      "epoch": 150.0,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029588942325659305,
      "loss": 0.3798,
      "step": 112500
    },
    {
      "epoch": 150.0,
      "eval_loss": 0.42573192715644836,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9413,
      "eval_samples_per_second": 1.609,
      "eval_steps_per_second": 0.101,
      "step": 112500
    },
    {
      "epoch": 150.01333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002958886925575571,
      "loss": 0.398,
      "step": 112510
    },
    {
      "epoch": 150.02666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029588796179448444,
      "loss": 0.411,
      "step": 112520
    },
    {
      "epoch": 150.04,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002958872309673756,
      "loss": 0.4238,
      "step": 112530
    },
    {
      "epoch": 150.05333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002958865000762307,
      "loss": 0.4095,
      "step": 112540
    },
    {
      "epoch": 150.06666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002958857691210502,
      "loss": 0.3965,
      "step": 112550
    },
    {
      "epoch": 150.08,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029588503810183426,
      "loss": 0.3999,
      "step": 112560
    },
    {
      "epoch": 150.09333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029588430701858336,
      "loss": 0.4015,
      "step": 112570
    },
    {
      "epoch": 150.10666666666665,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029588357587129774,
      "loss": 0.3885,
      "step": 112580
    },
    {
      "epoch": 150.12,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029588284465997773,
      "loss": 0.3936,
      "step": 112590
    },
    {
      "epoch": 150.13333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002958821133846237,
      "loss": 0.3852,
      "step": 112600
    },
    {
      "epoch": 150.14666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002958813820452359,
      "loss": 0.4043,
      "step": 112610
    },
    {
      "epoch": 150.16,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002958806506418147,
      "loss": 0.3983,
      "step": 112620
    },
    {
      "epoch": 150.17333333333335,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002958799191743604,
      "loss": 0.3919,
      "step": 112630
    },
    {
      "epoch": 150.18666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029587918764287333,
      "loss": 0.3904,
      "step": 112640
    },
    {
      "epoch": 150.2,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002958784560473538,
      "loss": 0.3834,
      "step": 112650
    },
    {
      "epoch": 150.21333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029587772438780213,
      "loss": 0.3849,
      "step": 112660
    },
    {
      "epoch": 150.22666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002958769926642187,
      "loss": 0.3955,
      "step": 112670
    },
    {
      "epoch": 150.24,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002958762608766037,
      "loss": 0.3804,
      "step": 112680
    },
    {
      "epoch": 150.25333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029587552902495754,
      "loss": 0.382,
      "step": 112690
    },
    {
      "epoch": 150.26666666666668,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029587479710928066,
      "loss": 0.3852,
      "step": 112700
    },
    {
      "epoch": 150.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029587406512957313,
      "loss": 0.416,
      "step": 112710
    },
    {
      "epoch": 150.29333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029587333308583543,
      "loss": 0.3715,
      "step": 112720
    },
    {
      "epoch": 150.30666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002958726009780678,
      "loss": 0.3954,
      "step": 112730
    },
    {
      "epoch": 150.32,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029587186880627065,
      "loss": 0.3978,
      "step": 112740
    },
    {
      "epoch": 150.33333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029587113657044426,
      "loss": 0.4011,
      "step": 112750
    },
    {
      "epoch": 150.34666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029587040427058895,
      "loss": 0.392,
      "step": 112760
    },
    {
      "epoch": 150.36,
      "grad_norm": 0.51171875,
      "learning_rate": 0.000295869671906705,
      "loss": 0.391,
      "step": 112770
    },
    {
      "epoch": 150.37333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029586893947879285,
      "loss": 0.393,
      "step": 112780
    },
    {
      "epoch": 150.38666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029586820698685275,
      "loss": 0.3846,
      "step": 112790
    },
    {
      "epoch": 150.4,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029586747443088494,
      "loss": 0.3917,
      "step": 112800
    },
    {
      "epoch": 150.41333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029586674181088983,
      "loss": 0.3974,
      "step": 112810
    },
    {
      "epoch": 150.42666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002958660091268678,
      "loss": 0.3986,
      "step": 112820
    },
    {
      "epoch": 150.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000295865276378819,
      "loss": 0.4097,
      "step": 112830
    },
    {
      "epoch": 150.45333333333335,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029586454356674393,
      "loss": 0.3982,
      "step": 112840
    },
    {
      "epoch": 150.46666666666667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002958638106906428,
      "loss": 0.4074,
      "step": 112850
    },
    {
      "epoch": 150.48,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000295863077750516,
      "loss": 0.3884,
      "step": 112860
    },
    {
      "epoch": 150.49333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002958623447463638,
      "loss": 0.4013,
      "step": 112870
    },
    {
      "epoch": 150.50666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029586161167818653,
      "loss": 0.3993,
      "step": 112880
    },
    {
      "epoch": 150.52,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002958608785459845,
      "loss": 0.3891,
      "step": 112890
    },
    {
      "epoch": 150.53333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002958601453497581,
      "loss": 0.3918,
      "step": 112900
    },
    {
      "epoch": 150.54666666666665,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029585941208950763,
      "loss": 0.3939,
      "step": 112910
    },
    {
      "epoch": 150.56,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002958586787652333,
      "loss": 0.3878,
      "step": 112920
    },
    {
      "epoch": 150.57333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002958579453769356,
      "loss": 0.3917,
      "step": 112930
    },
    {
      "epoch": 150.58666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002958572119246147,
      "loss": 0.3815,
      "step": 112940
    },
    {
      "epoch": 150.6,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029585647840827105,
      "loss": 0.3821,
      "step": 112950
    },
    {
      "epoch": 150.61333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002958557448279049,
      "loss": 0.3725,
      "step": 112960
    },
    {
      "epoch": 150.62666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029585501118351655,
      "loss": 0.3781,
      "step": 112970
    },
    {
      "epoch": 150.64,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002958542774751064,
      "loss": 0.3903,
      "step": 112980
    },
    {
      "epoch": 150.65333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002958535437026747,
      "loss": 0.3992,
      "step": 112990
    },
    {
      "epoch": 150.66666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002958528098662218,
      "loss": 0.3873,
      "step": 113000
    },
    {
      "epoch": 150.68,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029585207596574805,
      "loss": 0.3787,
      "step": 113010
    },
    {
      "epoch": 150.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029585134200125373,
      "loss": 0.3882,
      "step": 113020
    },
    {
      "epoch": 150.70666666666668,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002958506079727392,
      "loss": 0.3806,
      "step": 113030
    },
    {
      "epoch": 150.72,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029584987388020474,
      "loss": 0.4036,
      "step": 113040
    },
    {
      "epoch": 150.73333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002958491397236507,
      "loss": 0.3966,
      "step": 113050
    },
    {
      "epoch": 150.74666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029584840550307744,
      "loss": 0.3991,
      "step": 113060
    },
    {
      "epoch": 150.76,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002958476712184852,
      "loss": 0.4121,
      "step": 113070
    },
    {
      "epoch": 150.77333333333334,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002958469368698744,
      "loss": 0.3987,
      "step": 113080
    },
    {
      "epoch": 150.78666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002958462024572452,
      "loss": 0.3995,
      "step": 113090
    },
    {
      "epoch": 150.8,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029584546798059805,
      "loss": 0.3984,
      "step": 113100
    },
    {
      "epoch": 150.81333333333333,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029584473343993327,
      "loss": 0.3709,
      "step": 113110
    },
    {
      "epoch": 150.82666666666665,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029584399883525117,
      "loss": 0.3811,
      "step": 113120
    },
    {
      "epoch": 150.84,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029584326416655203,
      "loss": 0.3926,
      "step": 113130
    },
    {
      "epoch": 150.85333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002958425294338362,
      "loss": 0.3875,
      "step": 113140
    },
    {
      "epoch": 150.86666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029584179463710403,
      "loss": 0.3931,
      "step": 113150
    },
    {
      "epoch": 150.88,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002958410597763558,
      "loss": 0.3734,
      "step": 113160
    },
    {
      "epoch": 150.89333333333335,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029584032485159193,
      "loss": 0.386,
      "step": 113170
    },
    {
      "epoch": 150.90666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002958395898628126,
      "loss": 0.3917,
      "step": 113180
    },
    {
      "epoch": 150.92,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002958388548100182,
      "loss": 0.3936,
      "step": 113190
    },
    {
      "epoch": 150.93333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002958381196932091,
      "loss": 0.387,
      "step": 113200
    },
    {
      "epoch": 150.94666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002958373845123855,
      "loss": 0.3886,
      "step": 113210
    },
    {
      "epoch": 150.96,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002958366492675478,
      "loss": 0.3858,
      "step": 113220
    },
    {
      "epoch": 150.97333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029583591395869637,
      "loss": 0.4116,
      "step": 113230
    },
    {
      "epoch": 150.98666666666668,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029583517858583144,
      "loss": 0.3844,
      "step": 113240
    },
    {
      "epoch": 151.0,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002958344431489534,
      "loss": 0.3797,
      "step": 113250
    },
    {
      "epoch": 151.0,
      "eval_loss": 0.42617669701576233,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9986,
      "eval_samples_per_second": 1.6,
      "eval_steps_per_second": 0.1,
      "step": 113250
    },
    {
      "epoch": 151.01333333333332,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029583370764806256,
      "loss": 0.3978,
      "step": 113260
    },
    {
      "epoch": 151.02666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002958329720831592,
      "loss": 0.4103,
      "step": 113270
    },
    {
      "epoch": 151.04,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002958322364542437,
      "loss": 0.4232,
      "step": 113280
    },
    {
      "epoch": 151.05333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029583150076131635,
      "loss": 0.4091,
      "step": 113290
    },
    {
      "epoch": 151.06666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002958307650043774,
      "loss": 0.3972,
      "step": 113300
    },
    {
      "epoch": 151.08,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00029583002918342734,
      "loss": 0.4,
      "step": 113310
    },
    {
      "epoch": 151.09333333333333,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002958292932984664,
      "loss": 0.4008,
      "step": 113320
    },
    {
      "epoch": 151.10666666666665,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002958285573494949,
      "loss": 0.3892,
      "step": 113330
    },
    {
      "epoch": 151.12,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029582782133651315,
      "loss": 0.3929,
      "step": 113340
    },
    {
      "epoch": 151.13333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002958270852595215,
      "loss": 0.3849,
      "step": 113350
    },
    {
      "epoch": 151.14666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029582634911852024,
      "loss": 0.4031,
      "step": 113360
    },
    {
      "epoch": 151.16,
      "grad_norm": 0.375,
      "learning_rate": 0.00029582561291350976,
      "loss": 0.3973,
      "step": 113370
    },
    {
      "epoch": 151.17333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002958248766444903,
      "loss": 0.3922,
      "step": 113380
    },
    {
      "epoch": 151.18666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002958241403114623,
      "loss": 0.3911,
      "step": 113390
    },
    {
      "epoch": 151.2,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029582340391442596,
      "loss": 0.3842,
      "step": 113400
    },
    {
      "epoch": 151.21333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002958226674533817,
      "loss": 0.3848,
      "step": 113410
    },
    {
      "epoch": 151.22666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029582193092832974,
      "loss": 0.3963,
      "step": 113420
    },
    {
      "epoch": 151.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029582119433927046,
      "loss": 0.3813,
      "step": 113430
    },
    {
      "epoch": 151.25333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029582045768620417,
      "loss": 0.3838,
      "step": 113440
    },
    {
      "epoch": 151.26666666666668,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029581972096913125,
      "loss": 0.3865,
      "step": 113450
    },
    {
      "epoch": 151.28,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029581898418805196,
      "loss": 0.4146,
      "step": 113460
    },
    {
      "epoch": 151.29333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029581824734296663,
      "loss": 0.3713,
      "step": 113470
    },
    {
      "epoch": 151.30666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002958175104338756,
      "loss": 0.396,
      "step": 113480
    },
    {
      "epoch": 151.32,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002958167734607792,
      "loss": 0.3971,
      "step": 113490
    },
    {
      "epoch": 151.33333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029581603642367773,
      "loss": 0.3999,
      "step": 113500
    },
    {
      "epoch": 151.34666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029581529932257156,
      "loss": 0.3916,
      "step": 113510
    },
    {
      "epoch": 151.36,
      "grad_norm": 0.458984375,
      "learning_rate": 0.000295814562157461,
      "loss": 0.3913,
      "step": 113520
    },
    {
      "epoch": 151.37333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002958138249283463,
      "loss": 0.3924,
      "step": 113530
    },
    {
      "epoch": 151.38666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002958130876352278,
      "loss": 0.3848,
      "step": 113540
    },
    {
      "epoch": 151.4,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029581235027810595,
      "loss": 0.3923,
      "step": 113550
    },
    {
      "epoch": 151.41333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002958116128569809,
      "loss": 0.3967,
      "step": 113560
    },
    {
      "epoch": 151.42666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002958108753718531,
      "loss": 0.3981,
      "step": 113570
    },
    {
      "epoch": 151.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002958101378227229,
      "loss": 0.41,
      "step": 113580
    },
    {
      "epoch": 151.45333333333335,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002958094002095904,
      "loss": 0.3976,
      "step": 113590
    },
    {
      "epoch": 151.46666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002958086625324562,
      "loss": 0.4081,
      "step": 113600
    },
    {
      "epoch": 151.48,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002958079247913205,
      "loss": 0.3886,
      "step": 113610
    },
    {
      "epoch": 151.49333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029580718698618357,
      "loss": 0.4008,
      "step": 113620
    },
    {
      "epoch": 151.50666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002958064491170458,
      "loss": 0.3987,
      "step": 113630
    },
    {
      "epoch": 151.52,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029580571118390756,
      "loss": 0.3891,
      "step": 113640
    },
    {
      "epoch": 151.53333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002958049731867691,
      "loss": 0.3922,
      "step": 113650
    },
    {
      "epoch": 151.54666666666665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002958042351256307,
      "loss": 0.3947,
      "step": 113660
    },
    {
      "epoch": 151.56,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002958034970004928,
      "loss": 0.3887,
      "step": 113670
    },
    {
      "epoch": 151.57333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029580275881135567,
      "loss": 0.3919,
      "step": 113680
    },
    {
      "epoch": 151.58666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029580202055821963,
      "loss": 0.3816,
      "step": 113690
    },
    {
      "epoch": 151.6,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000295801282241085,
      "loss": 0.3832,
      "step": 113700
    },
    {
      "epoch": 151.61333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002958005438599521,
      "loss": 0.3726,
      "step": 113710
    },
    {
      "epoch": 151.62666666666667,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00029579980541482134,
      "loss": 0.3778,
      "step": 113720
    },
    {
      "epoch": 151.64,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029579906690569286,
      "loss": 0.3903,
      "step": 113730
    },
    {
      "epoch": 151.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002957983283325672,
      "loss": 0.3994,
      "step": 113740
    },
    {
      "epoch": 151.66666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002957975896954445,
      "loss": 0.3865,
      "step": 113750
    },
    {
      "epoch": 151.68,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002957968509943252,
      "loss": 0.3784,
      "step": 113760
    },
    {
      "epoch": 151.69333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002957961122292096,
      "loss": 0.3884,
      "step": 113770
    },
    {
      "epoch": 151.70666666666668,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029579537340009796,
      "loss": 0.381,
      "step": 113780
    },
    {
      "epoch": 151.72,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002957946345069907,
      "loss": 0.4022,
      "step": 113790
    },
    {
      "epoch": 151.73333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029579389554988813,
      "loss": 0.3968,
      "step": 113800
    },
    {
      "epoch": 151.74666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029579315652879045,
      "loss": 0.3996,
      "step": 113810
    },
    {
      "epoch": 151.76,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029579241744369817,
      "loss": 0.4114,
      "step": 113820
    },
    {
      "epoch": 151.77333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029579167829461145,
      "loss": 0.3992,
      "step": 113830
    },
    {
      "epoch": 151.78666666666666,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002957909390815308,
      "loss": 0.3988,
      "step": 113840
    },
    {
      "epoch": 151.8,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029579019980445633,
      "loss": 0.3986,
      "step": 113850
    },
    {
      "epoch": 151.81333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029578946046338847,
      "loss": 0.3716,
      "step": 113860
    },
    {
      "epoch": 151.82666666666665,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002957887210583276,
      "loss": 0.3811,
      "step": 113870
    },
    {
      "epoch": 151.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029578798158927394,
      "loss": 0.3929,
      "step": 113880
    },
    {
      "epoch": 151.85333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029578724205622786,
      "loss": 0.3878,
      "step": 113890
    },
    {
      "epoch": 151.86666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002957865024591897,
      "loss": 0.3926,
      "step": 113900
    },
    {
      "epoch": 151.88,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002957857627981598,
      "loss": 0.3737,
      "step": 113910
    },
    {
      "epoch": 151.89333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002957850230731384,
      "loss": 0.3859,
      "step": 113920
    },
    {
      "epoch": 151.90666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029578428328412587,
      "loss": 0.3924,
      "step": 113930
    },
    {
      "epoch": 151.92,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002957835434311226,
      "loss": 0.3939,
      "step": 113940
    },
    {
      "epoch": 151.93333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029578280351412884,
      "loss": 0.3876,
      "step": 113950
    },
    {
      "epoch": 151.94666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002957820635331449,
      "loss": 0.3879,
      "step": 113960
    },
    {
      "epoch": 151.96,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002957813234881712,
      "loss": 0.3869,
      "step": 113970
    },
    {
      "epoch": 151.97333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.000295780583379208,
      "loss": 0.4109,
      "step": 113980
    },
    {
      "epoch": 151.98666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002957798432062556,
      "loss": 0.3835,
      "step": 113990
    },
    {
      "epoch": 152.0,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029577910296931436,
      "loss": 0.3799,
      "step": 114000
    },
    {
      "epoch": 152.0,
      "eval_loss": 0.4273970425128937,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1,
      "eval_samples_per_second": 1.584,
      "eval_steps_per_second": 0.099,
      "step": 114000
    },
    {
      "epoch": 152.01333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029577836266838454,
      "loss": 0.397,
      "step": 114010
    },
    {
      "epoch": 152.02666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002957776223034666,
      "loss": 0.4118,
      "step": 114020
    },
    {
      "epoch": 152.04,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029577688187456077,
      "loss": 0.423,
      "step": 114030
    },
    {
      "epoch": 152.05333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029577614138166737,
      "loss": 0.4081,
      "step": 114040
    },
    {
      "epoch": 152.06666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002957754008247868,
      "loss": 0.3967,
      "step": 114050
    },
    {
      "epoch": 152.08,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029577466020391926,
      "loss": 0.3995,
      "step": 114060
    },
    {
      "epoch": 152.09333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002957739195190652,
      "loss": 0.4003,
      "step": 114070
    },
    {
      "epoch": 152.10666666666665,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002957731787702249,
      "loss": 0.3886,
      "step": 114080
    },
    {
      "epoch": 152.12,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029577243795739867,
      "loss": 0.3934,
      "step": 114090
    },
    {
      "epoch": 152.13333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002957716970805868,
      "loss": 0.3847,
      "step": 114100
    },
    {
      "epoch": 152.14666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029577095613978973,
      "loss": 0.4037,
      "step": 114110
    },
    {
      "epoch": 152.16,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002957702151350076,
      "loss": 0.3975,
      "step": 114120
    },
    {
      "epoch": 152.17333333333335,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029576947406624094,
      "loss": 0.3924,
      "step": 114130
    },
    {
      "epoch": 152.18666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029576873293349,
      "loss": 0.3906,
      "step": 114140
    },
    {
      "epoch": 152.2,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029576799173675506,
      "loss": 0.3833,
      "step": 114150
    },
    {
      "epoch": 152.21333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029576725047603645,
      "loss": 0.3842,
      "step": 114160
    },
    {
      "epoch": 152.22666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002957665091513346,
      "loss": 0.3964,
      "step": 114170
    },
    {
      "epoch": 152.24,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029576576776264965,
      "loss": 0.3815,
      "step": 114180
    },
    {
      "epoch": 152.25333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029576502630998205,
      "loss": 0.383,
      "step": 114190
    },
    {
      "epoch": 152.26666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002957642847933322,
      "loss": 0.3853,
      "step": 114200
    },
    {
      "epoch": 152.28,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029576354321270024,
      "loss": 0.4154,
      "step": 114210
    },
    {
      "epoch": 152.29333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002957628015680866,
      "loss": 0.3719,
      "step": 114220
    },
    {
      "epoch": 152.30666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029576205985949164,
      "loss": 0.3941,
      "step": 114230
    },
    {
      "epoch": 152.32,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002957613180869156,
      "loss": 0.3971,
      "step": 114240
    },
    {
      "epoch": 152.33333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029576057625035885,
      "loss": 0.4005,
      "step": 114250
    },
    {
      "epoch": 152.34666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029575983434982175,
      "loss": 0.3915,
      "step": 114260
    },
    {
      "epoch": 152.36,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002957590923853045,
      "loss": 0.392,
      "step": 114270
    },
    {
      "epoch": 152.37333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002957583503568076,
      "loss": 0.3927,
      "step": 114280
    },
    {
      "epoch": 152.38666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029575760826433127,
      "loss": 0.3839,
      "step": 114290
    },
    {
      "epoch": 152.4,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002957568661078758,
      "loss": 0.392,
      "step": 114300
    },
    {
      "epoch": 152.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002957561238874416,
      "loss": 0.3963,
      "step": 114310
    },
    {
      "epoch": 152.42666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000295755381603029,
      "loss": 0.3977,
      "step": 114320
    },
    {
      "epoch": 152.44,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002957546392546382,
      "loss": 0.4091,
      "step": 114330
    },
    {
      "epoch": 152.45333333333335,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0002957538968422697,
      "loss": 0.3983,
      "step": 114340
    },
    {
      "epoch": 152.46666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002957531543659237,
      "loss": 0.407,
      "step": 114350
    },
    {
      "epoch": 152.48,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002957524118256006,
      "loss": 0.3883,
      "step": 114360
    },
    {
      "epoch": 152.49333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002957516692213007,
      "loss": 0.4004,
      "step": 114370
    },
    {
      "epoch": 152.50666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002957509265530243,
      "loss": 0.399,
      "step": 114380
    },
    {
      "epoch": 152.52,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002957501838207717,
      "loss": 0.3898,
      "step": 114390
    },
    {
      "epoch": 152.53333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002957494410245433,
      "loss": 0.392,
      "step": 114400
    },
    {
      "epoch": 152.54666666666665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002957486981643394,
      "loss": 0.3944,
      "step": 114410
    },
    {
      "epoch": 152.56,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029574795524016037,
      "loss": 0.3881,
      "step": 114420
    },
    {
      "epoch": 152.57333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029574721225200646,
      "loss": 0.3915,
      "step": 114430
    },
    {
      "epoch": 152.58666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029574646919987806,
      "loss": 0.3816,
      "step": 114440
    },
    {
      "epoch": 152.6,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002957457260837754,
      "loss": 0.3816,
      "step": 114450
    },
    {
      "epoch": 152.61333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002957449829036989,
      "loss": 0.372,
      "step": 114460
    },
    {
      "epoch": 152.62666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002957442396596488,
      "loss": 0.3776,
      "step": 114470
    },
    {
      "epoch": 152.64,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029574349635162555,
      "loss": 0.389,
      "step": 114480
    },
    {
      "epoch": 152.65333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002957427529796294,
      "loss": 0.3989,
      "step": 114490
    },
    {
      "epoch": 152.66666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029574200954366066,
      "loss": 0.3874,
      "step": 114500
    },
    {
      "epoch": 152.68,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002957412660437197,
      "loss": 0.3779,
      "step": 114510
    },
    {
      "epoch": 152.69333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029574052247980677,
      "loss": 0.3873,
      "step": 114520
    },
    {
      "epoch": 152.70666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029573977885192235,
      "loss": 0.3799,
      "step": 114530
    },
    {
      "epoch": 152.72,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002957390351600666,
      "loss": 0.4031,
      "step": 114540
    },
    {
      "epoch": 152.73333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002957382914042399,
      "loss": 0.3973,
      "step": 114550
    },
    {
      "epoch": 152.74666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029573754758444265,
      "loss": 0.399,
      "step": 114560
    },
    {
      "epoch": 152.76,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002957368037006751,
      "loss": 0.412,
      "step": 114570
    },
    {
      "epoch": 152.77333333333334,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029573605975293757,
      "loss": 0.3989,
      "step": 114580
    },
    {
      "epoch": 152.78666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029573531574123046,
      "loss": 0.3994,
      "step": 114590
    },
    {
      "epoch": 152.8,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000295734571665554,
      "loss": 0.398,
      "step": 114600
    },
    {
      "epoch": 152.81333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002957338275259086,
      "loss": 0.3724,
      "step": 114610
    },
    {
      "epoch": 152.82666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029573308332229455,
      "loss": 0.3815,
      "step": 114620
    },
    {
      "epoch": 152.84,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029573233905471214,
      "loss": 0.3927,
      "step": 114630
    },
    {
      "epoch": 152.85333333333332,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029573159472316175,
      "loss": 0.3879,
      "step": 114640
    },
    {
      "epoch": 152.86666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029573085032764365,
      "loss": 0.3932,
      "step": 114650
    },
    {
      "epoch": 152.88,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002957301058681583,
      "loss": 0.3738,
      "step": 114660
    },
    {
      "epoch": 152.89333333333335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002957293613447059,
      "loss": 0.3858,
      "step": 114670
    },
    {
      "epoch": 152.90666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029572861675728683,
      "loss": 0.3917,
      "step": 114680
    },
    {
      "epoch": 152.92,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002957278721059013,
      "loss": 0.3947,
      "step": 114690
    },
    {
      "epoch": 152.93333333333334,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029572712739054985,
      "loss": 0.3883,
      "step": 114700
    },
    {
      "epoch": 152.94666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029572638261123263,
      "loss": 0.3886,
      "step": 114710
    },
    {
      "epoch": 152.96,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029572563776795004,
      "loss": 0.3858,
      "step": 114720
    },
    {
      "epoch": 152.97333333333333,
      "grad_norm": 0.515625,
      "learning_rate": 0.00029572489286070245,
      "loss": 0.4112,
      "step": 114730
    },
    {
      "epoch": 152.98666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029572414788949007,
      "loss": 0.3838,
      "step": 114740
    },
    {
      "epoch": 153.0,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002957234028543133,
      "loss": 0.3797,
      "step": 114750
    },
    {
      "epoch": 153.0,
      "eval_loss": 0.425544410943985,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7842,
      "eval_samples_per_second": 1.635,
      "eval_steps_per_second": 0.102,
      "step": 114750
    },
    {
      "epoch": 153.01333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029572265775517243,
      "loss": 0.398,
      "step": 114760
    },
    {
      "epoch": 153.02666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002957219125920679,
      "loss": 0.4101,
      "step": 114770
    },
    {
      "epoch": 153.04,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002957211673649999,
      "loss": 0.4233,
      "step": 114780
    },
    {
      "epoch": 153.05333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002957204220739688,
      "loss": 0.4091,
      "step": 114790
    },
    {
      "epoch": 153.06666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002957196767189749,
      "loss": 0.3965,
      "step": 114800
    },
    {
      "epoch": 153.08,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029571893130001865,
      "loss": 0.4002,
      "step": 114810
    },
    {
      "epoch": 153.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029571818581710025,
      "loss": 0.4008,
      "step": 114820
    },
    {
      "epoch": 153.10666666666665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029571744027022005,
      "loss": 0.3887,
      "step": 114830
    },
    {
      "epoch": 153.12,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002957166946593784,
      "loss": 0.3932,
      "step": 114840
    },
    {
      "epoch": 153.13333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029571594898457565,
      "loss": 0.3849,
      "step": 114850
    },
    {
      "epoch": 153.14666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029571520324581205,
      "loss": 0.4042,
      "step": 114860
    },
    {
      "epoch": 153.16,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000295714457443088,
      "loss": 0.3985,
      "step": 114870
    },
    {
      "epoch": 153.17333333333335,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029571371157640383,
      "loss": 0.3921,
      "step": 114880
    },
    {
      "epoch": 153.18666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002957129656457598,
      "loss": 0.3909,
      "step": 114890
    },
    {
      "epoch": 153.2,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002957122196511563,
      "loss": 0.3831,
      "step": 114900
    },
    {
      "epoch": 153.21333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002957114735925937,
      "loss": 0.3831,
      "step": 114910
    },
    {
      "epoch": 153.22666666666666,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029571072747007216,
      "loss": 0.395,
      "step": 114920
    },
    {
      "epoch": 153.24,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029570998128359215,
      "loss": 0.3812,
      "step": 114930
    },
    {
      "epoch": 153.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002957092350331539,
      "loss": 0.3825,
      "step": 114940
    },
    {
      "epoch": 153.26666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002957084887187579,
      "loss": 0.3856,
      "step": 114950
    },
    {
      "epoch": 153.28,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002957077423404043,
      "loss": 0.4148,
      "step": 114960
    },
    {
      "epoch": 153.29333333333332,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029570699589809356,
      "loss": 0.3709,
      "step": 114970
    },
    {
      "epoch": 153.30666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002957062493918259,
      "loss": 0.395,
      "step": 114980
    },
    {
      "epoch": 153.32,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002957055028216017,
      "loss": 0.3973,
      "step": 114990
    },
    {
      "epoch": 153.33333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002957047561874213,
      "loss": 0.3997,
      "step": 115000
    },
    {
      "epoch": 153.34666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029570400948928505,
      "loss": 0.3917,
      "step": 115010
    },
    {
      "epoch": 153.36,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029570326272719316,
      "loss": 0.3919,
      "step": 115020
    },
    {
      "epoch": 153.37333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002957025159011461,
      "loss": 0.3925,
      "step": 115030
    },
    {
      "epoch": 153.38666666666666,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002957017690111441,
      "loss": 0.3829,
      "step": 115040
    },
    {
      "epoch": 153.4,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002957010220571875,
      "loss": 0.3925,
      "step": 115050
    },
    {
      "epoch": 153.41333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029570027503927676,
      "loss": 0.3963,
      "step": 115060
    },
    {
      "epoch": 153.42666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029569952795741196,
      "loss": 0.3989,
      "step": 115070
    },
    {
      "epoch": 153.44,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029569878081159366,
      "loss": 0.4101,
      "step": 115080
    },
    {
      "epoch": 153.45333333333335,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029569803360182206,
      "loss": 0.3977,
      "step": 115090
    },
    {
      "epoch": 153.46666666666667,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002956972863280975,
      "loss": 0.4075,
      "step": 115100
    },
    {
      "epoch": 153.48,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002956965389904204,
      "loss": 0.3885,
      "step": 115110
    },
    {
      "epoch": 153.49333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000295695791588791,
      "loss": 0.4009,
      "step": 115120
    },
    {
      "epoch": 153.50666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002956950441232096,
      "loss": 0.3992,
      "step": 115130
    },
    {
      "epoch": 153.52,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002956942965936766,
      "loss": 0.3889,
      "step": 115140
    },
    {
      "epoch": 153.53333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002956935490001923,
      "loss": 0.3924,
      "step": 115150
    },
    {
      "epoch": 153.54666666666665,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029569280134275703,
      "loss": 0.3942,
      "step": 115160
    },
    {
      "epoch": 153.56,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029569205362137114,
      "loss": 0.3887,
      "step": 115170
    },
    {
      "epoch": 153.57333333333332,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002956913058360349,
      "loss": 0.3919,
      "step": 115180
    },
    {
      "epoch": 153.58666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029569055798674875,
      "loss": 0.381,
      "step": 115190
    },
    {
      "epoch": 153.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029568981007351285,
      "loss": 0.3826,
      "step": 115200
    },
    {
      "epoch": 153.61333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029568906209632767,
      "loss": 0.373,
      "step": 115210
    },
    {
      "epoch": 153.62666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002956883140551935,
      "loss": 0.3776,
      "step": 115220
    },
    {
      "epoch": 153.64,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002956875659501106,
      "loss": 0.3894,
      "step": 115230
    },
    {
      "epoch": 153.65333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029568681778107943,
      "loss": 0.3976,
      "step": 115240
    },
    {
      "epoch": 153.66666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002956860695481002,
      "loss": 0.3868,
      "step": 115250
    },
    {
      "epoch": 153.68,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002956853212511733,
      "loss": 0.379,
      "step": 115260
    },
    {
      "epoch": 153.69333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029568457289029905,
      "loss": 0.3871,
      "step": 115270
    },
    {
      "epoch": 153.70666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029568382446547775,
      "loss": 0.3801,
      "step": 115280
    },
    {
      "epoch": 153.72,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029568307597670977,
      "loss": 0.4025,
      "step": 115290
    },
    {
      "epoch": 153.73333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029568232742399543,
      "loss": 0.3969,
      "step": 115300
    },
    {
      "epoch": 153.74666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029568157880733507,
      "loss": 0.3993,
      "step": 115310
    },
    {
      "epoch": 153.76,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029568083012672895,
      "loss": 0.4118,
      "step": 115320
    },
    {
      "epoch": 153.77333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002956800813821774,
      "loss": 0.3986,
      "step": 115330
    },
    {
      "epoch": 153.78666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029567933257368086,
      "loss": 0.3994,
      "step": 115340
    },
    {
      "epoch": 153.8,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002956785837012396,
      "loss": 0.3981,
      "step": 115350
    },
    {
      "epoch": 153.81333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029567783476485386,
      "loss": 0.3713,
      "step": 115360
    },
    {
      "epoch": 153.82666666666665,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002956770857645241,
      "loss": 0.3806,
      "step": 115370
    },
    {
      "epoch": 153.84,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002956763367002506,
      "loss": 0.3917,
      "step": 115380
    },
    {
      "epoch": 153.85333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002956755875720337,
      "loss": 0.387,
      "step": 115390
    },
    {
      "epoch": 153.86666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002956748383798737,
      "loss": 0.3925,
      "step": 115400
    },
    {
      "epoch": 153.88,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000295674089123771,
      "loss": 0.3737,
      "step": 115410
    },
    {
      "epoch": 153.89333333333335,
      "grad_norm": 0.5,
      "learning_rate": 0.0002956733398037258,
      "loss": 0.3844,
      "step": 115420
    },
    {
      "epoch": 153.90666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002956725904197385,
      "loss": 0.3921,
      "step": 115430
    },
    {
      "epoch": 153.92,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029567184097180945,
      "loss": 0.3943,
      "step": 115440
    },
    {
      "epoch": 153.93333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029567109145993897,
      "loss": 0.3875,
      "step": 115450
    },
    {
      "epoch": 153.94666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002956703418841274,
      "loss": 0.3884,
      "step": 115460
    },
    {
      "epoch": 153.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000295669592244375,
      "loss": 0.3861,
      "step": 115470
    },
    {
      "epoch": 153.97333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029566884254068215,
      "loss": 0.4119,
      "step": 115480
    },
    {
      "epoch": 153.98666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029566809277304924,
      "loss": 0.3842,
      "step": 115490
    },
    {
      "epoch": 154.0,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029566734294147643,
      "loss": 0.3804,
      "step": 115500
    },
    {
      "epoch": 154.0,
      "eval_loss": 0.4268149435520172,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8534,
      "eval_samples_per_second": 1.624,
      "eval_steps_per_second": 0.101,
      "step": 115500
    },
    {
      "epoch": 154.01333333333332,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002956665930459642,
      "loss": 0.3977,
      "step": 115510
    },
    {
      "epoch": 154.02666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002956658430865129,
      "loss": 0.4108,
      "step": 115520
    },
    {
      "epoch": 154.04,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002956650930631227,
      "loss": 0.4244,
      "step": 115530
    },
    {
      "epoch": 154.05333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002956643429757941,
      "loss": 0.4095,
      "step": 115540
    },
    {
      "epoch": 154.06666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029566359282452725,
      "loss": 0.3964,
      "step": 115550
    },
    {
      "epoch": 154.08,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002956628426093226,
      "loss": 0.4001,
      "step": 115560
    },
    {
      "epoch": 154.09333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002956620923301806,
      "loss": 0.4009,
      "step": 115570
    },
    {
      "epoch": 154.10666666666665,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002956613419871013,
      "loss": 0.3891,
      "step": 115580
    },
    {
      "epoch": 154.12,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002956605915800852,
      "loss": 0.3938,
      "step": 115590
    },
    {
      "epoch": 154.13333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029565984110913263,
      "loss": 0.3848,
      "step": 115600
    },
    {
      "epoch": 154.14666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029565909057424383,
      "loss": 0.4039,
      "step": 115610
    },
    {
      "epoch": 154.16,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029565833997541926,
      "loss": 0.3986,
      "step": 115620
    },
    {
      "epoch": 154.17333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002956575893126591,
      "loss": 0.3926,
      "step": 115630
    },
    {
      "epoch": 154.18666666666667,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002956568385859638,
      "loss": 0.3906,
      "step": 115640
    },
    {
      "epoch": 154.2,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029565608779533366,
      "loss": 0.3829,
      "step": 115650
    },
    {
      "epoch": 154.21333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029565533694076893,
      "loss": 0.3846,
      "step": 115660
    },
    {
      "epoch": 154.22666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029565458602227006,
      "loss": 0.396,
      "step": 115670
    },
    {
      "epoch": 154.24,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002956538350398373,
      "loss": 0.381,
      "step": 115680
    },
    {
      "epoch": 154.25333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.000295653083993471,
      "loss": 0.3821,
      "step": 115690
    },
    {
      "epoch": 154.26666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002956523328831715,
      "loss": 0.3857,
      "step": 115700
    },
    {
      "epoch": 154.28,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002956515817089391,
      "loss": 0.4154,
      "step": 115710
    },
    {
      "epoch": 154.29333333333332,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002956508304707742,
      "loss": 0.3717,
      "step": 115720
    },
    {
      "epoch": 154.30666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029565007916867704,
      "loss": 0.3954,
      "step": 115730
    },
    {
      "epoch": 154.32,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000295649327802648,
      "loss": 0.3981,
      "step": 115740
    },
    {
      "epoch": 154.33333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029564857637268745,
      "loss": 0.4005,
      "step": 115750
    },
    {
      "epoch": 154.34666666666666,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00029564782487879565,
      "loss": 0.3909,
      "step": 115760
    },
    {
      "epoch": 154.36,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00029564707332097295,
      "loss": 0.3918,
      "step": 115770
    },
    {
      "epoch": 154.37333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002956463216992196,
      "loss": 0.3924,
      "step": 115780
    },
    {
      "epoch": 154.38666666666666,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029564557001353613,
      "loss": 0.3847,
      "step": 115790
    },
    {
      "epoch": 154.4,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002956448182639227,
      "loss": 0.3912,
      "step": 115800
    },
    {
      "epoch": 154.41333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029564406645037967,
      "loss": 0.397,
      "step": 115810
    },
    {
      "epoch": 154.42666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029564331457290744,
      "loss": 0.3986,
      "step": 115820
    },
    {
      "epoch": 154.44,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029564256263150626,
      "loss": 0.4102,
      "step": 115830
    },
    {
      "epoch": 154.45333333333335,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002956418106261765,
      "loss": 0.3981,
      "step": 115840
    },
    {
      "epoch": 154.46666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029564105855691845,
      "loss": 0.4069,
      "step": 115850
    },
    {
      "epoch": 154.48,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029564030642373253,
      "loss": 0.3883,
      "step": 115860
    },
    {
      "epoch": 154.49333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029563955422661896,
      "loss": 0.4001,
      "step": 115870
    },
    {
      "epoch": 154.50666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002956388019655782,
      "loss": 0.3986,
      "step": 115880
    },
    {
      "epoch": 154.52,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002956380496406104,
      "loss": 0.3882,
      "step": 115890
    },
    {
      "epoch": 154.53333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000295637297251716,
      "loss": 0.3912,
      "step": 115900
    },
    {
      "epoch": 154.54666666666665,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002956365447988954,
      "loss": 0.3936,
      "step": 115910
    },
    {
      "epoch": 154.56,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002956357922821488,
      "loss": 0.388,
      "step": 115920
    },
    {
      "epoch": 154.57333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002956350397014766,
      "loss": 0.3918,
      "step": 115930
    },
    {
      "epoch": 154.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002956342870568791,
      "loss": 0.381,
      "step": 115940
    },
    {
      "epoch": 154.6,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029563353434835664,
      "loss": 0.3828,
      "step": 115950
    },
    {
      "epoch": 154.61333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002956327815759096,
      "loss": 0.372,
      "step": 115960
    },
    {
      "epoch": 154.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002956320287395382,
      "loss": 0.3787,
      "step": 115970
    },
    {
      "epoch": 154.64,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029563127583924286,
      "loss": 0.3894,
      "step": 115980
    },
    {
      "epoch": 154.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002956305228750239,
      "loss": 0.3989,
      "step": 115990
    },
    {
      "epoch": 154.66666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002956297698468816,
      "loss": 0.3873,
      "step": 116000
    },
    {
      "epoch": 154.68,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002956290167548164,
      "loss": 0.3786,
      "step": 116010
    },
    {
      "epoch": 154.69333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029562826359882846,
      "loss": 0.3881,
      "step": 116020
    },
    {
      "epoch": 154.70666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002956275103789183,
      "loss": 0.3798,
      "step": 116030
    },
    {
      "epoch": 154.72,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002956267570950861,
      "loss": 0.4029,
      "step": 116040
    },
    {
      "epoch": 154.73333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029562600374733226,
      "loss": 0.3974,
      "step": 116050
    },
    {
      "epoch": 154.74666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029562525033565714,
      "loss": 0.3992,
      "step": 116060
    },
    {
      "epoch": 154.76,
      "grad_norm": 0.44921875,
      "learning_rate": 0.000295624496860061,
      "loss": 0.4124,
      "step": 116070
    },
    {
      "epoch": 154.77333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002956237433205442,
      "loss": 0.3985,
      "step": 116080
    },
    {
      "epoch": 154.78666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029562298971710704,
      "loss": 0.3992,
      "step": 116090
    },
    {
      "epoch": 154.8,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002956222360497499,
      "loss": 0.397,
      "step": 116100
    },
    {
      "epoch": 154.81333333333333,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002956214823184731,
      "loss": 0.3709,
      "step": 116110
    },
    {
      "epoch": 154.82666666666665,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000295620728523277,
      "loss": 0.3807,
      "step": 116120
    },
    {
      "epoch": 154.84,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029561997466416183,
      "loss": 0.3928,
      "step": 116130
    },
    {
      "epoch": 154.85333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000295619220741128,
      "loss": 0.388,
      "step": 116140
    },
    {
      "epoch": 154.86666666666667,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002956184667541759,
      "loss": 0.3932,
      "step": 116150
    },
    {
      "epoch": 154.88,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029561771270330574,
      "loss": 0.3752,
      "step": 116160
    },
    {
      "epoch": 154.89333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029561695858851787,
      "loss": 0.385,
      "step": 116170
    },
    {
      "epoch": 154.90666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002956162044098127,
      "loss": 0.3908,
      "step": 116180
    },
    {
      "epoch": 154.92,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029561545016719047,
      "loss": 0.3933,
      "step": 116190
    },
    {
      "epoch": 154.93333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002956146958606516,
      "loss": 0.3869,
      "step": 116200
    },
    {
      "epoch": 154.94666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029561394149019626,
      "loss": 0.3882,
      "step": 116210
    },
    {
      "epoch": 154.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029561318705582506,
      "loss": 0.3853,
      "step": 116220
    },
    {
      "epoch": 154.97333333333333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002956124325575381,
      "loss": 0.4112,
      "step": 116230
    },
    {
      "epoch": 154.98666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002956116779953357,
      "loss": 0.384,
      "step": 116240
    },
    {
      "epoch": 155.0,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029561092336921835,
      "loss": 0.3806,
      "step": 116250
    },
    {
      "epoch": 155.0,
      "eval_loss": 0.4250892102718353,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8615,
      "eval_samples_per_second": 1.622,
      "eval_steps_per_second": 0.101,
      "step": 116250
    },
    {
      "epoch": 155.01333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029561016867918626,
      "loss": 0.3974,
      "step": 116260
    },
    {
      "epoch": 155.02666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002956094139252398,
      "loss": 0.4112,
      "step": 116270
    },
    {
      "epoch": 155.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029560865910737934,
      "loss": 0.4235,
      "step": 116280
    },
    {
      "epoch": 155.05333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002956079042256051,
      "loss": 0.4094,
      "step": 116290
    },
    {
      "epoch": 155.06666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002956071492799175,
      "loss": 0.3966,
      "step": 116300
    },
    {
      "epoch": 155.08,
      "grad_norm": 0.43359375,
      "learning_rate": 0.000295606394270317,
      "loss": 0.4004,
      "step": 116310
    },
    {
      "epoch": 155.09333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029560563919680367,
      "loss": 0.4004,
      "step": 116320
    },
    {
      "epoch": 155.10666666666665,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029560488405937793,
      "loss": 0.3892,
      "step": 116330
    },
    {
      "epoch": 155.12,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029560412885804016,
      "loss": 0.3938,
      "step": 116340
    },
    {
      "epoch": 155.13333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002956033735927907,
      "loss": 0.3847,
      "step": 116350
    },
    {
      "epoch": 155.14666666666668,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002956026182636298,
      "loss": 0.4037,
      "step": 116360
    },
    {
      "epoch": 155.16,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029560186287055793,
      "loss": 0.3969,
      "step": 116370
    },
    {
      "epoch": 155.17333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029560110741357526,
      "loss": 0.3927,
      "step": 116380
    },
    {
      "epoch": 155.18666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029560035189268223,
      "loss": 0.3901,
      "step": 116390
    },
    {
      "epoch": 155.2,
      "grad_norm": 0.375,
      "learning_rate": 0.0002955995963078791,
      "loss": 0.3832,
      "step": 116400
    },
    {
      "epoch": 155.21333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002955988406591663,
      "loss": 0.3843,
      "step": 116410
    },
    {
      "epoch": 155.22666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002955980849465441,
      "loss": 0.3961,
      "step": 116420
    },
    {
      "epoch": 155.24,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029559732917001284,
      "loss": 0.3809,
      "step": 116430
    },
    {
      "epoch": 155.25333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002955965733295728,
      "loss": 0.3825,
      "step": 116440
    },
    {
      "epoch": 155.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029559581742522436,
      "loss": 0.3858,
      "step": 116450
    },
    {
      "epoch": 155.28,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002955950614569679,
      "loss": 0.4159,
      "step": 116460
    },
    {
      "epoch": 155.29333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029559430542480366,
      "loss": 0.3717,
      "step": 116470
    },
    {
      "epoch": 155.30666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000295593549328732,
      "loss": 0.3942,
      "step": 116480
    },
    {
      "epoch": 155.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002955927931687533,
      "loss": 0.398,
      "step": 116490
    },
    {
      "epoch": 155.33333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029559203694486786,
      "loss": 0.4001,
      "step": 116500
    },
    {
      "epoch": 155.34666666666666,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029559128065707597,
      "loss": 0.3913,
      "step": 116510
    },
    {
      "epoch": 155.36,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029559052430537807,
      "loss": 0.3916,
      "step": 116520
    },
    {
      "epoch": 155.37333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029558976788977436,
      "loss": 0.3915,
      "step": 116530
    },
    {
      "epoch": 155.38666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002955890114102653,
      "loss": 0.3844,
      "step": 116540
    },
    {
      "epoch": 155.4,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002955882548668511,
      "loss": 0.3918,
      "step": 116550
    },
    {
      "epoch": 155.41333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002955874982595321,
      "loss": 0.3962,
      "step": 116560
    },
    {
      "epoch": 155.42666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029558674158830875,
      "loss": 0.3982,
      "step": 116570
    },
    {
      "epoch": 155.44,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002955859848531813,
      "loss": 0.4097,
      "step": 116580
    },
    {
      "epoch": 155.45333333333335,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002955852280541501,
      "loss": 0.3974,
      "step": 116590
    },
    {
      "epoch": 155.46666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002955844711912155,
      "loss": 0.4064,
      "step": 116600
    },
    {
      "epoch": 155.48,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029558371426437777,
      "loss": 0.3876,
      "step": 116610
    },
    {
      "epoch": 155.49333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002955829572736373,
      "loss": 0.4009,
      "step": 116620
    },
    {
      "epoch": 155.50666666666666,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002955822002189944,
      "loss": 0.397,
      "step": 116630
    },
    {
      "epoch": 155.52,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002955814431004494,
      "loss": 0.3898,
      "step": 116640
    },
    {
      "epoch": 155.53333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029558068591800267,
      "loss": 0.3928,
      "step": 116650
    },
    {
      "epoch": 155.54666666666665,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002955799286716545,
      "loss": 0.3929,
      "step": 116660
    },
    {
      "epoch": 155.56,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029557917136140523,
      "loss": 0.3877,
      "step": 116670
    },
    {
      "epoch": 155.57333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002955784139872552,
      "loss": 0.392,
      "step": 116680
    },
    {
      "epoch": 155.58666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002955776565492047,
      "loss": 0.3811,
      "step": 116690
    },
    {
      "epoch": 155.6,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029557689904725416,
      "loss": 0.3829,
      "step": 116700
    },
    {
      "epoch": 155.61333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002955761414814038,
      "loss": 0.3726,
      "step": 116710
    },
    {
      "epoch": 155.62666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029557538385165404,
      "loss": 0.3775,
      "step": 116720
    },
    {
      "epoch": 155.64,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002955746261580052,
      "loss": 0.3895,
      "step": 116730
    },
    {
      "epoch": 155.65333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029557386840045754,
      "loss": 0.399,
      "step": 116740
    },
    {
      "epoch": 155.66666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002955731105790115,
      "loss": 0.3863,
      "step": 116750
    },
    {
      "epoch": 155.68,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029557235269366726,
      "loss": 0.3782,
      "step": 116760
    },
    {
      "epoch": 155.69333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002955715947444254,
      "loss": 0.3873,
      "step": 116770
    },
    {
      "epoch": 155.70666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.000295570836731286,
      "loss": 0.3804,
      "step": 116780
    },
    {
      "epoch": 155.72,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002955700786542495,
      "loss": 0.4025,
      "step": 116790
    },
    {
      "epoch": 155.73333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002955693205133162,
      "loss": 0.397,
      "step": 116800
    },
    {
      "epoch": 155.74666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002955685623084865,
      "loss": 0.398,
      "step": 116810
    },
    {
      "epoch": 155.76,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002955678040397607,
      "loss": 0.4124,
      "step": 116820
    },
    {
      "epoch": 155.77333333333334,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029556704570713913,
      "loss": 0.3983,
      "step": 116830
    },
    {
      "epoch": 155.78666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002955662873106221,
      "loss": 0.3987,
      "step": 116840
    },
    {
      "epoch": 155.8,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029556552885021,
      "loss": 0.3978,
      "step": 116850
    },
    {
      "epoch": 155.81333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002955647703259031,
      "loss": 0.3717,
      "step": 116860
    },
    {
      "epoch": 155.82666666666665,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002955640117377017,
      "loss": 0.3802,
      "step": 116870
    },
    {
      "epoch": 155.84,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002955632530856063,
      "loss": 0.3924,
      "step": 116880
    },
    {
      "epoch": 155.85333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.000295562494369617,
      "loss": 0.3878,
      "step": 116890
    },
    {
      "epoch": 155.86666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002955617355897343,
      "loss": 0.3917,
      "step": 116900
    },
    {
      "epoch": 155.88,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002955609767459586,
      "loss": 0.3733,
      "step": 116910
    },
    {
      "epoch": 155.89333333333335,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029556021783829,
      "loss": 0.3849,
      "step": 116920
    },
    {
      "epoch": 155.90666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000295559458866729,
      "loss": 0.3918,
      "step": 116930
    },
    {
      "epoch": 155.92,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029555869983127585,
      "loss": 0.3935,
      "step": 116940
    },
    {
      "epoch": 155.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029555794073193094,
      "loss": 0.3872,
      "step": 116950
    },
    {
      "epoch": 155.94666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002955571815686946,
      "loss": 0.3883,
      "step": 116960
    },
    {
      "epoch": 155.96,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029555642234156714,
      "loss": 0.387,
      "step": 116970
    },
    {
      "epoch": 155.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002955556630505489,
      "loss": 0.4113,
      "step": 116980
    },
    {
      "epoch": 155.98666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029555490369564025,
      "loss": 0.3832,
      "step": 116990
    },
    {
      "epoch": 156.0,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002955541442768414,
      "loss": 0.3799,
      "step": 117000
    },
    {
      "epoch": 156.0,
      "eval_loss": 0.42700961232185364,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1555,
      "eval_samples_per_second": 1.575,
      "eval_steps_per_second": 0.098,
      "step": 117000
    },
    {
      "epoch": 156.01333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002955533847941529,
      "loss": 0.3973,
      "step": 117010
    },
    {
      "epoch": 156.02666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002955526252475749,
      "loss": 0.4098,
      "step": 117020
    },
    {
      "epoch": 156.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029555186563710775,
      "loss": 0.423,
      "step": 117030
    },
    {
      "epoch": 156.05333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029555110596275183,
      "loss": 0.4079,
      "step": 117040
    },
    {
      "epoch": 156.06666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002955503462245075,
      "loss": 0.396,
      "step": 117050
    },
    {
      "epoch": 156.08,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029554958642237505,
      "loss": 0.3992,
      "step": 117060
    },
    {
      "epoch": 156.09333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002955488265563548,
      "loss": 0.401,
      "step": 117070
    },
    {
      "epoch": 156.10666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002955480666264471,
      "loss": 0.3888,
      "step": 117080
    },
    {
      "epoch": 156.12,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029554730663265233,
      "loss": 0.3939,
      "step": 117090
    },
    {
      "epoch": 156.13333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029554654657497077,
      "loss": 0.3855,
      "step": 117100
    },
    {
      "epoch": 156.14666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029554578645340276,
      "loss": 0.4038,
      "step": 117110
    },
    {
      "epoch": 156.16,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002955450262679486,
      "loss": 0.3978,
      "step": 117120
    },
    {
      "epoch": 156.17333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029554426601860874,
      "loss": 0.3924,
      "step": 117130
    },
    {
      "epoch": 156.18666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002955435057053834,
      "loss": 0.3905,
      "step": 117140
    },
    {
      "epoch": 156.2,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029554274532827293,
      "loss": 0.3822,
      "step": 117150
    },
    {
      "epoch": 156.21333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002955419848872777,
      "loss": 0.3834,
      "step": 117160
    },
    {
      "epoch": 156.22666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029554122438239805,
      "loss": 0.3949,
      "step": 117170
    },
    {
      "epoch": 156.24,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002955404638136343,
      "loss": 0.3808,
      "step": 117180
    },
    {
      "epoch": 156.25333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002955397031809868,
      "loss": 0.3833,
      "step": 117190
    },
    {
      "epoch": 156.26666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029553894248445574,
      "loss": 0.3855,
      "step": 117200
    },
    {
      "epoch": 156.28,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029553818172404166,
      "loss": 0.4155,
      "step": 117210
    },
    {
      "epoch": 156.29333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002955374208997448,
      "loss": 0.3714,
      "step": 117220
    },
    {
      "epoch": 156.30666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002955366600115655,
      "loss": 0.3951,
      "step": 117230
    },
    {
      "epoch": 156.32,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002955358990595041,
      "loss": 0.3976,
      "step": 117240
    },
    {
      "epoch": 156.33333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029553513804356094,
      "loss": 0.3995,
      "step": 117250
    },
    {
      "epoch": 156.34666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029553437696373634,
      "loss": 0.3908,
      "step": 117260
    },
    {
      "epoch": 156.36,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029553361582003066,
      "loss": 0.3911,
      "step": 117270
    },
    {
      "epoch": 156.37333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029553285461244417,
      "loss": 0.3918,
      "step": 117280
    },
    {
      "epoch": 156.38666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029553209334097724,
      "loss": 0.3845,
      "step": 117290
    },
    {
      "epoch": 156.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029553133200563026,
      "loss": 0.3914,
      "step": 117300
    },
    {
      "epoch": 156.41333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029553057060640345,
      "loss": 0.3968,
      "step": 117310
    },
    {
      "epoch": 156.42666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002955298091432973,
      "loss": 0.3981,
      "step": 117320
    },
    {
      "epoch": 156.44,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029552904761631193,
      "loss": 0.4093,
      "step": 117330
    },
    {
      "epoch": 156.45333333333335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029552828602544794,
      "loss": 0.3982,
      "step": 117340
    },
    {
      "epoch": 156.46666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029552752437070546,
      "loss": 0.4061,
      "step": 117350
    },
    {
      "epoch": 156.48,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002955267626520848,
      "loss": 0.3886,
      "step": 117360
    },
    {
      "epoch": 156.49333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002955260008695865,
      "loss": 0.3999,
      "step": 117370
    },
    {
      "epoch": 156.50666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002955252390232107,
      "loss": 0.3986,
      "step": 117380
    },
    {
      "epoch": 156.52,
      "grad_norm": 0.375,
      "learning_rate": 0.0002955244771129579,
      "loss": 0.3896,
      "step": 117390
    },
    {
      "epoch": 156.53333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029552371513882827,
      "loss": 0.3925,
      "step": 117400
    },
    {
      "epoch": 156.54666666666665,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002955229531008222,
      "loss": 0.3939,
      "step": 117410
    },
    {
      "epoch": 156.56,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002955221909989401,
      "loss": 0.3875,
      "step": 117420
    },
    {
      "epoch": 156.57333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002955214288331822,
      "loss": 0.3921,
      "step": 117430
    },
    {
      "epoch": 156.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002955206666035489,
      "loss": 0.3803,
      "step": 117440
    },
    {
      "epoch": 156.6,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029551990431004053,
      "loss": 0.382,
      "step": 117450
    },
    {
      "epoch": 156.61333333333334,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0002955191419526574,
      "loss": 0.3716,
      "step": 117460
    },
    {
      "epoch": 156.62666666666667,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0002955183795313999,
      "loss": 0.3779,
      "step": 117470
    },
    {
      "epoch": 156.64,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029551761704626827,
      "loss": 0.3897,
      "step": 117480
    },
    {
      "epoch": 156.65333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002955168544972629,
      "loss": 0.3989,
      "step": 117490
    },
    {
      "epoch": 156.66666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002955160918843841,
      "loss": 0.3866,
      "step": 117500
    },
    {
      "epoch": 156.68,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029551532920763223,
      "loss": 0.3773,
      "step": 117510
    },
    {
      "epoch": 156.69333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029551456646700766,
      "loss": 0.3879,
      "step": 117520
    },
    {
      "epoch": 156.70666666666668,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002955138036625107,
      "loss": 0.3802,
      "step": 117530
    },
    {
      "epoch": 156.72,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002955130407941416,
      "loss": 0.4025,
      "step": 117540
    },
    {
      "epoch": 156.73333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002955122778619008,
      "loss": 0.3961,
      "step": 117550
    },
    {
      "epoch": 156.74666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002955115148657886,
      "loss": 0.3985,
      "step": 117560
    },
    {
      "epoch": 156.76,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029551075180580535,
      "loss": 0.4124,
      "step": 117570
    },
    {
      "epoch": 156.77333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002955099886819513,
      "loss": 0.3982,
      "step": 117580
    },
    {
      "epoch": 156.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002955092254942269,
      "loss": 0.3984,
      "step": 117590
    },
    {
      "epoch": 156.8,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029550846224263245,
      "loss": 0.3969,
      "step": 117600
    },
    {
      "epoch": 156.81333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029550769892716823,
      "loss": 0.3719,
      "step": 117610
    },
    {
      "epoch": 156.82666666666665,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002955069355478347,
      "loss": 0.3804,
      "step": 117620
    },
    {
      "epoch": 156.84,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029550617210463205,
      "loss": 0.3918,
      "step": 117630
    },
    {
      "epoch": 156.85333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002955054085975607,
      "loss": 0.3872,
      "step": 117640
    },
    {
      "epoch": 156.86666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029550464502662096,
      "loss": 0.392,
      "step": 117650
    },
    {
      "epoch": 156.88,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002955038813918132,
      "loss": 0.3721,
      "step": 117660
    },
    {
      "epoch": 156.89333333333335,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029550311769313764,
      "loss": 0.385,
      "step": 117670
    },
    {
      "epoch": 156.90666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002955023539305948,
      "loss": 0.392,
      "step": 117680
    },
    {
      "epoch": 156.92,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029550159010418485,
      "loss": 0.3942,
      "step": 117690
    },
    {
      "epoch": 156.93333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002955008262139082,
      "loss": 0.3873,
      "step": 117700
    },
    {
      "epoch": 156.94666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029550006225976513,
      "loss": 0.3891,
      "step": 117710
    },
    {
      "epoch": 156.96,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029549929824175606,
      "loss": 0.3854,
      "step": 117720
    },
    {
      "epoch": 156.97333333333333,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029549853415988136,
      "loss": 0.4112,
      "step": 117730
    },
    {
      "epoch": 156.98666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029549777001414124,
      "loss": 0.384,
      "step": 117740
    },
    {
      "epoch": 157.0,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029549700580453603,
      "loss": 0.3811,
      "step": 117750
    },
    {
      "epoch": 157.0,
      "eval_loss": 0.4260455071926117,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7939,
      "eval_samples_per_second": 1.634,
      "eval_steps_per_second": 0.102,
      "step": 117750
    },
    {
      "epoch": 157.01333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002954962415310662,
      "loss": 0.398,
      "step": 117760
    },
    {
      "epoch": 157.02666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029549547719373196,
      "loss": 0.4099,
      "step": 117770
    },
    {
      "epoch": 157.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002954947127925337,
      "loss": 0.4231,
      "step": 117780
    },
    {
      "epoch": 157.05333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029549394832747175,
      "loss": 0.4087,
      "step": 117790
    },
    {
      "epoch": 157.06666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029549318379854645,
      "loss": 0.3965,
      "step": 117800
    },
    {
      "epoch": 157.08,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002954924192057581,
      "loss": 0.3997,
      "step": 117810
    },
    {
      "epoch": 157.09333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029549165454910713,
      "loss": 0.4006,
      "step": 117820
    },
    {
      "epoch": 157.10666666666665,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002954908898285938,
      "loss": 0.3878,
      "step": 117830
    },
    {
      "epoch": 157.12,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002954901250442184,
      "loss": 0.3933,
      "step": 117840
    },
    {
      "epoch": 157.13333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029548936019598135,
      "loss": 0.3843,
      "step": 117850
    },
    {
      "epoch": 157.14666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029548859528388295,
      "loss": 0.4032,
      "step": 117860
    },
    {
      "epoch": 157.16,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002954878303079236,
      "loss": 0.3982,
      "step": 117870
    },
    {
      "epoch": 157.17333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002954870652681035,
      "loss": 0.3913,
      "step": 117880
    },
    {
      "epoch": 157.18666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002954863001644232,
      "loss": 0.3906,
      "step": 117890
    },
    {
      "epoch": 157.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029548553499688274,
      "loss": 0.3828,
      "step": 117900
    },
    {
      "epoch": 157.21333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029548476976548274,
      "loss": 0.3843,
      "step": 117910
    },
    {
      "epoch": 157.22666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002954840044702233,
      "loss": 0.3955,
      "step": 117920
    },
    {
      "epoch": 157.24,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002954832391111049,
      "loss": 0.3801,
      "step": 117930
    },
    {
      "epoch": 157.25333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002954824736881279,
      "loss": 0.3834,
      "step": 117940
    },
    {
      "epoch": 157.26666666666668,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029548170820129253,
      "loss": 0.3851,
      "step": 117950
    },
    {
      "epoch": 157.28,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029548094265059927,
      "loss": 0.4145,
      "step": 117960
    },
    {
      "epoch": 157.29333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029548017703604824,
      "loss": 0.3709,
      "step": 117970
    },
    {
      "epoch": 157.30666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029547941135764,
      "loss": 0.3941,
      "step": 117980
    },
    {
      "epoch": 157.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002954786456153747,
      "loss": 0.3974,
      "step": 117990
    },
    {
      "epoch": 157.33333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002954778798092528,
      "loss": 0.4001,
      "step": 118000
    },
    {
      "epoch": 157.34666666666666,
      "grad_norm": 0.5,
      "learning_rate": 0.0002954771139392746,
      "loss": 0.3906,
      "step": 118010
    },
    {
      "epoch": 157.36,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002954763480054404,
      "loss": 0.3918,
      "step": 118020
    },
    {
      "epoch": 157.37333333333333,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029547558200775065,
      "loss": 0.3925,
      "step": 118030
    },
    {
      "epoch": 157.38666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002954748159462055,
      "loss": 0.3832,
      "step": 118040
    },
    {
      "epoch": 157.4,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029547404982080546,
      "loss": 0.3921,
      "step": 118050
    },
    {
      "epoch": 157.41333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002954732836315508,
      "loss": 0.3958,
      "step": 118060
    },
    {
      "epoch": 157.42666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029547251737844187,
      "loss": 0.398,
      "step": 118070
    },
    {
      "epoch": 157.44,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002954717510614789,
      "loss": 0.4089,
      "step": 118080
    },
    {
      "epoch": 157.45333333333335,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002954709846806624,
      "loss": 0.3977,
      "step": 118090
    },
    {
      "epoch": 157.46666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029547021823599263,
      "loss": 0.4065,
      "step": 118100
    },
    {
      "epoch": 157.48,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029546945172746986,
      "loss": 0.3886,
      "step": 118110
    },
    {
      "epoch": 157.49333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002954686851550945,
      "loss": 0.4005,
      "step": 118120
    },
    {
      "epoch": 157.50666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029546791851886686,
      "loss": 0.3987,
      "step": 118130
    },
    {
      "epoch": 157.52,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0002954671518187874,
      "loss": 0.3882,
      "step": 118140
    },
    {
      "epoch": 157.53333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029546638505485625,
      "loss": 0.3916,
      "step": 118150
    },
    {
      "epoch": 157.54666666666665,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029546561822707383,
      "loss": 0.3933,
      "step": 118160
    },
    {
      "epoch": 157.56,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029546485133544057,
      "loss": 0.3877,
      "step": 118170
    },
    {
      "epoch": 157.57333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029546408437995664,
      "loss": 0.3919,
      "step": 118180
    },
    {
      "epoch": 157.58666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002954633173606225,
      "loss": 0.3802,
      "step": 118190
    },
    {
      "epoch": 157.6,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002954625502774385,
      "loss": 0.3824,
      "step": 118200
    },
    {
      "epoch": 157.61333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002954617831304048,
      "loss": 0.3721,
      "step": 118210
    },
    {
      "epoch": 157.62666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000295461015919522,
      "loss": 0.3782,
      "step": 118220
    },
    {
      "epoch": 157.64,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029546024864479024,
      "loss": 0.39,
      "step": 118230
    },
    {
      "epoch": 157.65333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029545948130620987,
      "loss": 0.3987,
      "step": 118240
    },
    {
      "epoch": 157.66666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002954587139037814,
      "loss": 0.3862,
      "step": 118250
    },
    {
      "epoch": 157.68,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029545794643750487,
      "loss": 0.3776,
      "step": 118260
    },
    {
      "epoch": 157.69333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002954571789073809,
      "loss": 0.387,
      "step": 118270
    },
    {
      "epoch": 157.70666666666668,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002954564113134097,
      "loss": 0.3811,
      "step": 118280
    },
    {
      "epoch": 157.72,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002954556436555916,
      "loss": 0.4019,
      "step": 118290
    },
    {
      "epoch": 157.73333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029545487593392696,
      "loss": 0.3963,
      "step": 118300
    },
    {
      "epoch": 157.74666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002954541081484161,
      "loss": 0.399,
      "step": 118310
    },
    {
      "epoch": 157.76,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029545334029905943,
      "loss": 0.4115,
      "step": 118320
    },
    {
      "epoch": 157.77333333333334,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002954525723858572,
      "loss": 0.3989,
      "step": 118330
    },
    {
      "epoch": 157.78666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029545180440880976,
      "loss": 0.3999,
      "step": 118340
    },
    {
      "epoch": 157.8,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002954510363679175,
      "loss": 0.3975,
      "step": 118350
    },
    {
      "epoch": 157.81333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029545026826318066,
      "loss": 0.3712,
      "step": 118360
    },
    {
      "epoch": 157.82666666666665,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029544950009459967,
      "loss": 0.3804,
      "step": 118370
    },
    {
      "epoch": 157.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029544873186217483,
      "loss": 0.3923,
      "step": 118380
    },
    {
      "epoch": 157.85333333333332,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029544796356590654,
      "loss": 0.3879,
      "step": 118390
    },
    {
      "epoch": 157.86666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000295447195205795,
      "loss": 0.3913,
      "step": 118400
    },
    {
      "epoch": 157.88,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029544642678184065,
      "loss": 0.3733,
      "step": 118410
    },
    {
      "epoch": 157.89333333333335,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029544565829404376,
      "loss": 0.3853,
      "step": 118420
    },
    {
      "epoch": 157.90666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029544488974240477,
      "loss": 0.391,
      "step": 118430
    },
    {
      "epoch": 157.92,
      "grad_norm": 0.431640625,
      "learning_rate": 0.000295444121126924,
      "loss": 0.3936,
      "step": 118440
    },
    {
      "epoch": 157.93333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029544335244760165,
      "loss": 0.3866,
      "step": 118450
    },
    {
      "epoch": 157.94666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002954425837044382,
      "loss": 0.3878,
      "step": 118460
    },
    {
      "epoch": 157.96,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029544181489743395,
      "loss": 0.3866,
      "step": 118470
    },
    {
      "epoch": 157.97333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002954410460265892,
      "loss": 0.4104,
      "step": 118480
    },
    {
      "epoch": 157.98666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002954402770919043,
      "loss": 0.3834,
      "step": 118490
    },
    {
      "epoch": 158.0,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029543950809337964,
      "loss": 0.3799,
      "step": 118500
    },
    {
      "epoch": 158.0,
      "eval_loss": 0.42594558000564575,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0497,
      "eval_samples_per_second": 1.592,
      "eval_steps_per_second": 0.1,
      "step": 118500
    },
    {
      "epoch": 158.01333333333332,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002954387390310155,
      "loss": 0.397,
      "step": 118510
    },
    {
      "epoch": 158.02666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029543796990481224,
      "loss": 0.411,
      "step": 118520
    },
    {
      "epoch": 158.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029543720071477023,
      "loss": 0.4234,
      "step": 118530
    },
    {
      "epoch": 158.05333333333334,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029543643146088974,
      "loss": 0.4088,
      "step": 118540
    },
    {
      "epoch": 158.06666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002954356621431711,
      "loss": 0.3963,
      "step": 118550
    },
    {
      "epoch": 158.08,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002954348927616148,
      "loss": 0.3997,
      "step": 118560
    },
    {
      "epoch": 158.09333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000295434123316221,
      "loss": 0.4004,
      "step": 118570
    },
    {
      "epoch": 158.10666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002954333538069901,
      "loss": 0.3888,
      "step": 118580
    },
    {
      "epoch": 158.12,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029543258423392246,
      "loss": 0.3932,
      "step": 118590
    },
    {
      "epoch": 158.13333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002954318145970184,
      "loss": 0.3846,
      "step": 118600
    },
    {
      "epoch": 158.14666666666668,
      "grad_norm": 0.375,
      "learning_rate": 0.00029543104489627823,
      "loss": 0.4036,
      "step": 118610
    },
    {
      "epoch": 158.16,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002954302751317023,
      "loss": 0.3975,
      "step": 118620
    },
    {
      "epoch": 158.17333333333335,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000295429505303291,
      "loss": 0.3924,
      "step": 118630
    },
    {
      "epoch": 158.18666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029542873541104465,
      "loss": 0.3904,
      "step": 118640
    },
    {
      "epoch": 158.2,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002954279654549635,
      "loss": 0.3831,
      "step": 118650
    },
    {
      "epoch": 158.21333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000295427195435048,
      "loss": 0.3835,
      "step": 118660
    },
    {
      "epoch": 158.22666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029542642535129845,
      "loss": 0.3956,
      "step": 118670
    },
    {
      "epoch": 158.24,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002954256552037152,
      "loss": 0.3801,
      "step": 118680
    },
    {
      "epoch": 158.25333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029542488499229854,
      "loss": 0.3824,
      "step": 118690
    },
    {
      "epoch": 158.26666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002954241147170488,
      "loss": 0.3848,
      "step": 118700
    },
    {
      "epoch": 158.28,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002954233443779664,
      "loss": 0.4154,
      "step": 118710
    },
    {
      "epoch": 158.29333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002954225739750517,
      "loss": 0.3716,
      "step": 118720
    },
    {
      "epoch": 158.30666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002954218035083049,
      "loss": 0.3945,
      "step": 118730
    },
    {
      "epoch": 158.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029542103297772643,
      "loss": 0.3981,
      "step": 118740
    },
    {
      "epoch": 158.33333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029542026238331664,
      "loss": 0.3997,
      "step": 118750
    },
    {
      "epoch": 158.34666666666666,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00029541949172507575,
      "loss": 0.3905,
      "step": 118760
    },
    {
      "epoch": 158.36,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029541872100300424,
      "loss": 0.3913,
      "step": 118770
    },
    {
      "epoch": 158.37333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002954179502171024,
      "loss": 0.3923,
      "step": 118780
    },
    {
      "epoch": 158.38666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029541717936737053,
      "loss": 0.3839,
      "step": 118790
    },
    {
      "epoch": 158.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002954164084538091,
      "loss": 0.3916,
      "step": 118800
    },
    {
      "epoch": 158.41333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002954156374764182,
      "loss": 0.3959,
      "step": 118810
    },
    {
      "epoch": 158.42666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002954148664351984,
      "loss": 0.3976,
      "step": 118820
    },
    {
      "epoch": 158.44,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029541409533015,
      "loss": 0.4087,
      "step": 118830
    },
    {
      "epoch": 158.45333333333335,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029541332416127325,
      "loss": 0.3981,
      "step": 118840
    },
    {
      "epoch": 158.46666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029541255292856854,
      "loss": 0.4062,
      "step": 118850
    },
    {
      "epoch": 158.48,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002954117816320362,
      "loss": 0.3886,
      "step": 118860
    },
    {
      "epoch": 158.49333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002954110102716765,
      "loss": 0.4001,
      "step": 118870
    },
    {
      "epoch": 158.50666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029541023884749,
      "loss": 0.3984,
      "step": 118880
    },
    {
      "epoch": 158.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029540946735947675,
      "loss": 0.3893,
      "step": 118890
    },
    {
      "epoch": 158.53333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002954086958076373,
      "loss": 0.3917,
      "step": 118900
    },
    {
      "epoch": 158.54666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002954079241919719,
      "loss": 0.3925,
      "step": 118910
    },
    {
      "epoch": 158.56,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002954071525124809,
      "loss": 0.3884,
      "step": 118920
    },
    {
      "epoch": 158.57333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029540638076916464,
      "loss": 0.3919,
      "step": 118930
    },
    {
      "epoch": 158.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029540560896202343,
      "loss": 0.3804,
      "step": 118940
    },
    {
      "epoch": 158.6,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002954048370910577,
      "loss": 0.3823,
      "step": 118950
    },
    {
      "epoch": 158.61333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002954040651562677,
      "loss": 0.3719,
      "step": 118960
    },
    {
      "epoch": 158.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029540329315765377,
      "loss": 0.3785,
      "step": 118970
    },
    {
      "epoch": 158.64,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029540252109521635,
      "loss": 0.3885,
      "step": 118980
    },
    {
      "epoch": 158.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029540174896895563,
      "loss": 0.3985,
      "step": 118990
    },
    {
      "epoch": 158.66666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029540097677887206,
      "loss": 0.3859,
      "step": 119000
    },
    {
      "epoch": 158.68,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002954002045249659,
      "loss": 0.3778,
      "step": 119010
    },
    {
      "epoch": 158.69333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002953994322072376,
      "loss": 0.3875,
      "step": 119020
    },
    {
      "epoch": 158.70666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002953986598256874,
      "loss": 0.3805,
      "step": 119030
    },
    {
      "epoch": 158.72,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002953978873803157,
      "loss": 0.4022,
      "step": 119040
    },
    {
      "epoch": 158.73333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029539711487112274,
      "loss": 0.396,
      "step": 119050
    },
    {
      "epoch": 158.74666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.000295396342298109,
      "loss": 0.3986,
      "step": 119060
    },
    {
      "epoch": 158.76,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002953955696612747,
      "loss": 0.4117,
      "step": 119070
    },
    {
      "epoch": 158.77333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029539479696062026,
      "loss": 0.398,
      "step": 119080
    },
    {
      "epoch": 158.78666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029539402419614594,
      "loss": 0.399,
      "step": 119090
    },
    {
      "epoch": 158.8,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002953932513678522,
      "loss": 0.3982,
      "step": 119100
    },
    {
      "epoch": 158.81333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029539247847573923,
      "loss": 0.3713,
      "step": 119110
    },
    {
      "epoch": 158.82666666666665,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029539170551980744,
      "loss": 0.3816,
      "step": 119120
    },
    {
      "epoch": 158.84,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029539093250005724,
      "loss": 0.3929,
      "step": 119130
    },
    {
      "epoch": 158.85333333333332,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002953901594164889,
      "loss": 0.3869,
      "step": 119140
    },
    {
      "epoch": 158.86666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002953893862691027,
      "loss": 0.3919,
      "step": 119150
    },
    {
      "epoch": 158.88,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002953886130578991,
      "loss": 0.3733,
      "step": 119160
    },
    {
      "epoch": 158.89333333333335,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002953878397828783,
      "loss": 0.3848,
      "step": 119170
    },
    {
      "epoch": 158.90666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002953870664440408,
      "loss": 0.3916,
      "step": 119180
    },
    {
      "epoch": 158.92,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002953862930413868,
      "loss": 0.3937,
      "step": 119190
    },
    {
      "epoch": 158.93333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029538551957491673,
      "loss": 0.3874,
      "step": 119200
    },
    {
      "epoch": 158.94666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002953847460446309,
      "loss": 0.3881,
      "step": 119210
    },
    {
      "epoch": 158.96,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002953839724505297,
      "loss": 0.3872,
      "step": 119220
    },
    {
      "epoch": 158.97333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029538319879261337,
      "loss": 0.411,
      "step": 119230
    },
    {
      "epoch": 158.98666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029538242507088226,
      "loss": 0.3834,
      "step": 119240
    },
    {
      "epoch": 159.0,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029538165128533675,
      "loss": 0.3798,
      "step": 119250
    },
    {
      "epoch": 159.0,
      "eval_loss": 0.4245608150959015,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9562,
      "eval_samples_per_second": 1.607,
      "eval_steps_per_second": 0.1,
      "step": 119250
    },
    {
      "epoch": 159.01333333333332,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002953808774359772,
      "loss": 0.3975,
      "step": 119260
    },
    {
      "epoch": 159.02666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029538010352280397,
      "loss": 0.4111,
      "step": 119270
    },
    {
      "epoch": 159.04,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002953793295458173,
      "loss": 0.4234,
      "step": 119280
    },
    {
      "epoch": 159.05333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002953785555050176,
      "loss": 0.4096,
      "step": 119290
    },
    {
      "epoch": 159.06666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002953777814004052,
      "loss": 0.3955,
      "step": 119300
    },
    {
      "epoch": 159.08,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002953770072319804,
      "loss": 0.4002,
      "step": 119310
    },
    {
      "epoch": 159.09333333333333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002953762329997436,
      "loss": 0.3999,
      "step": 119320
    },
    {
      "epoch": 159.10666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029537545870369516,
      "loss": 0.389,
      "step": 119330
    },
    {
      "epoch": 159.12,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002953746843438353,
      "loss": 0.3942,
      "step": 119340
    },
    {
      "epoch": 159.13333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002953739099201645,
      "loss": 0.3847,
      "step": 119350
    },
    {
      "epoch": 159.14666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029537313543268295,
      "loss": 0.4038,
      "step": 119360
    },
    {
      "epoch": 159.16,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029537236088139114,
      "loss": 0.398,
      "step": 119370
    },
    {
      "epoch": 159.17333333333335,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002953715862662893,
      "loss": 0.3922,
      "step": 119380
    },
    {
      "epoch": 159.18666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002953708115873779,
      "loss": 0.3909,
      "step": 119390
    },
    {
      "epoch": 159.2,
      "grad_norm": 0.375,
      "learning_rate": 0.00029537003684465714,
      "loss": 0.3835,
      "step": 119400
    },
    {
      "epoch": 159.21333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002953692620381274,
      "loss": 0.3839,
      "step": 119410
    },
    {
      "epoch": 159.22666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029536848716778903,
      "loss": 0.3949,
      "step": 119420
    },
    {
      "epoch": 159.24,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002953677122336424,
      "loss": 0.381,
      "step": 119430
    },
    {
      "epoch": 159.25333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002953669372356878,
      "loss": 0.382,
      "step": 119440
    },
    {
      "epoch": 159.26666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029536616217392563,
      "loss": 0.3854,
      "step": 119450
    },
    {
      "epoch": 159.28,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029536538704835616,
      "loss": 0.4148,
      "step": 119460
    },
    {
      "epoch": 159.29333333333332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029536461185897977,
      "loss": 0.3705,
      "step": 119470
    },
    {
      "epoch": 159.30666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029536383660579683,
      "loss": 0.3949,
      "step": 119480
    },
    {
      "epoch": 159.32,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002953630612888076,
      "loss": 0.3972,
      "step": 119490
    },
    {
      "epoch": 159.33333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002953622859080125,
      "loss": 0.3997,
      "step": 119500
    },
    {
      "epoch": 159.34666666666666,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029536151046341184,
      "loss": 0.3912,
      "step": 119510
    },
    {
      "epoch": 159.36,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002953607349550059,
      "loss": 0.3903,
      "step": 119520
    },
    {
      "epoch": 159.37333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029535995938279513,
      "loss": 0.3925,
      "step": 119530
    },
    {
      "epoch": 159.38666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002953591837467798,
      "loss": 0.3843,
      "step": 119540
    },
    {
      "epoch": 159.4,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002953584080469603,
      "loss": 0.3923,
      "step": 119550
    },
    {
      "epoch": 159.41333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002953576322833369,
      "loss": 0.3964,
      "step": 119560
    },
    {
      "epoch": 159.42666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029535685645590997,
      "loss": 0.3981,
      "step": 119570
    },
    {
      "epoch": 159.44,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002953560805646799,
      "loss": 0.4095,
      "step": 119580
    },
    {
      "epoch": 159.45333333333335,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029535530460964693,
      "loss": 0.3978,
      "step": 119590
    },
    {
      "epoch": 159.46666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029535452859081153,
      "loss": 0.4068,
      "step": 119600
    },
    {
      "epoch": 159.48,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002953537525081739,
      "loss": 0.3879,
      "step": 119610
    },
    {
      "epoch": 159.49333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029535297636173454,
      "loss": 0.4009,
      "step": 119620
    },
    {
      "epoch": 159.50666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029535220015149366,
      "loss": 0.3985,
      "step": 119630
    },
    {
      "epoch": 159.52,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029535142387745165,
      "loss": 0.3893,
      "step": 119640
    },
    {
      "epoch": 159.53333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029535064753960884,
      "loss": 0.3919,
      "step": 119650
    },
    {
      "epoch": 159.54666666666665,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029534987113796556,
      "loss": 0.3939,
      "step": 119660
    },
    {
      "epoch": 159.56,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002953490946725222,
      "loss": 0.3877,
      "step": 119670
    },
    {
      "epoch": 159.57333333333332,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000295348318143279,
      "loss": 0.3915,
      "step": 119680
    },
    {
      "epoch": 159.58666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002953475415502364,
      "loss": 0.38,
      "step": 119690
    },
    {
      "epoch": 159.6,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029534676489339476,
      "loss": 0.3822,
      "step": 119700
    },
    {
      "epoch": 159.61333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002953459881727543,
      "loss": 0.3721,
      "step": 119710
    },
    {
      "epoch": 159.62666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029534521138831546,
      "loss": 0.3785,
      "step": 119720
    },
    {
      "epoch": 159.64,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029534443454007857,
      "loss": 0.389,
      "step": 119730
    },
    {
      "epoch": 159.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002953436576280439,
      "loss": 0.3985,
      "step": 119740
    },
    {
      "epoch": 159.66666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002953428806522119,
      "loss": 0.3867,
      "step": 119750
    },
    {
      "epoch": 159.68,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002953421036125828,
      "loss": 0.3782,
      "step": 119760
    },
    {
      "epoch": 159.69333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000295341326509157,
      "loss": 0.3874,
      "step": 119770
    },
    {
      "epoch": 159.70666666666668,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002953405493419349,
      "loss": 0.3801,
      "step": 119780
    },
    {
      "epoch": 159.72,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029533977211091675,
      "loss": 0.4029,
      "step": 119790
    },
    {
      "epoch": 159.73333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002953389948161029,
      "loss": 0.396,
      "step": 119800
    },
    {
      "epoch": 159.74666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002953382174574937,
      "loss": 0.3988,
      "step": 119810
    },
    {
      "epoch": 159.76,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002953374400350895,
      "loss": 0.4118,
      "step": 119820
    },
    {
      "epoch": 159.77333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002953366625488907,
      "loss": 0.3979,
      "step": 119830
    },
    {
      "epoch": 159.78666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029533588499889755,
      "loss": 0.3988,
      "step": 119840
    },
    {
      "epoch": 159.8,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002953351073851104,
      "loss": 0.3973,
      "step": 119850
    },
    {
      "epoch": 159.81333333333333,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00029533432970752963,
      "loss": 0.3704,
      "step": 119860
    },
    {
      "epoch": 159.82666666666665,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029533355196615556,
      "loss": 0.3808,
      "step": 119870
    },
    {
      "epoch": 159.84,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029533277416098855,
      "loss": 0.3922,
      "step": 119880
    },
    {
      "epoch": 159.85333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029533199629202893,
      "loss": 0.3875,
      "step": 119890
    },
    {
      "epoch": 159.86666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002953312183592771,
      "loss": 0.3911,
      "step": 119900
    },
    {
      "epoch": 159.88,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002953304403627332,
      "loss": 0.3731,
      "step": 119910
    },
    {
      "epoch": 159.89333333333335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029532966230239787,
      "loss": 0.3852,
      "step": 119920
    },
    {
      "epoch": 159.90666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002953288841782712,
      "loss": 0.3916,
      "step": 119930
    },
    {
      "epoch": 159.92,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002953281059903536,
      "loss": 0.393,
      "step": 119940
    },
    {
      "epoch": 159.93333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.00029532732773864554,
      "loss": 0.3872,
      "step": 119950
    },
    {
      "epoch": 159.94666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002953265494231472,
      "loss": 0.3888,
      "step": 119960
    },
    {
      "epoch": 159.96,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000295325771043859,
      "loss": 0.386,
      "step": 119970
    },
    {
      "epoch": 159.97333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00029532499260078127,
      "loss": 0.4107,
      "step": 119980
    },
    {
      "epoch": 159.98666666666668,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029532421409391433,
      "loss": 0.3835,
      "step": 119990
    },
    {
      "epoch": 160.0,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002953234355232586,
      "loss": 0.3798,
      "step": 120000
    },
    {
      "epoch": 160.0,
      "eval_loss": 0.425727903842926,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2961,
      "eval_samples_per_second": 1.554,
      "eval_steps_per_second": 0.097,
      "step": 120000
    },
    {
      "epoch": 160.01333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002953226568888142,
      "loss": 0.3974,
      "step": 120010
    },
    {
      "epoch": 160.02666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002953218781905818,
      "loss": 0.4107,
      "step": 120020
    },
    {
      "epoch": 160.04,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002953210994285615,
      "loss": 0.4235,
      "step": 120030
    },
    {
      "epoch": 160.05333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002953203206027537,
      "loss": 0.4086,
      "step": 120040
    },
    {
      "epoch": 160.06666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002953195417131588,
      "loss": 0.3958,
      "step": 120050
    },
    {
      "epoch": 160.08,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002953187627597771,
      "loss": 0.3987,
      "step": 120060
    },
    {
      "epoch": 160.09333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029531798374260893,
      "loss": 0.4007,
      "step": 120070
    },
    {
      "epoch": 160.10666666666665,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002953172046616546,
      "loss": 0.3883,
      "step": 120080
    },
    {
      "epoch": 160.12,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002953164255169145,
      "loss": 0.3934,
      "step": 120090
    },
    {
      "epoch": 160.13333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000295315646308389,
      "loss": 0.3845,
      "step": 120100
    },
    {
      "epoch": 160.14666666666668,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029531486703607843,
      "loss": 0.4041,
      "step": 120110
    },
    {
      "epoch": 160.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002953140876999831,
      "loss": 0.3977,
      "step": 120120
    },
    {
      "epoch": 160.17333333333335,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029531330830010334,
      "loss": 0.3913,
      "step": 120130
    },
    {
      "epoch": 160.18666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029531252883643953,
      "loss": 0.3909,
      "step": 120140
    },
    {
      "epoch": 160.2,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029531174930899195,
      "loss": 0.3824,
      "step": 120150
    },
    {
      "epoch": 160.21333333333334,
      "grad_norm": 0.466796875,
      "learning_rate": 0.000295310969717761,
      "loss": 0.3833,
      "step": 120160
    },
    {
      "epoch": 160.22666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002953101900627471,
      "loss": 0.3946,
      "step": 120170
    },
    {
      "epoch": 160.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029530941034395044,
      "loss": 0.3808,
      "step": 120180
    },
    {
      "epoch": 160.25333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002953086305613714,
      "loss": 0.3824,
      "step": 120190
    },
    {
      "epoch": 160.26666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002953078507150104,
      "loss": 0.3857,
      "step": 120200
    },
    {
      "epoch": 160.28,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002953070708048677,
      "loss": 0.4143,
      "step": 120210
    },
    {
      "epoch": 160.29333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029530629083094365,
      "loss": 0.3711,
      "step": 120220
    },
    {
      "epoch": 160.30666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029530551079323864,
      "loss": 0.3943,
      "step": 120230
    },
    {
      "epoch": 160.32,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000295304730691753,
      "loss": 0.3976,
      "step": 120240
    },
    {
      "epoch": 160.33333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000295303950526487,
      "loss": 0.3998,
      "step": 120250
    },
    {
      "epoch": 160.34666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029530317029744115,
      "loss": 0.3903,
      "step": 120260
    },
    {
      "epoch": 160.36,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002953023900046156,
      "loss": 0.3908,
      "step": 120270
    },
    {
      "epoch": 160.37333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002953016096480108,
      "loss": 0.3927,
      "step": 120280
    },
    {
      "epoch": 160.38666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029530082922762707,
      "loss": 0.3839,
      "step": 120290
    },
    {
      "epoch": 160.4,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002953000487434648,
      "loss": 0.3917,
      "step": 120300
    },
    {
      "epoch": 160.41333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002952992681955242,
      "loss": 0.3964,
      "step": 120310
    },
    {
      "epoch": 160.42666666666668,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029529848758380573,
      "loss": 0.3973,
      "step": 120320
    },
    {
      "epoch": 160.44,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029529770690830975,
      "loss": 0.4099,
      "step": 120330
    },
    {
      "epoch": 160.45333333333335,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002952969261690365,
      "loss": 0.3964,
      "step": 120340
    },
    {
      "epoch": 160.46666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002952961453659864,
      "loss": 0.4064,
      "step": 120350
    },
    {
      "epoch": 160.48,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029529536449915975,
      "loss": 0.3886,
      "step": 120360
    },
    {
      "epoch": 160.49333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002952945835685569,
      "loss": 0.4002,
      "step": 120370
    },
    {
      "epoch": 160.50666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029529380257417825,
      "loss": 0.3985,
      "step": 120380
    },
    {
      "epoch": 160.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029529302151602406,
      "loss": 0.3886,
      "step": 120390
    },
    {
      "epoch": 160.53333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.0002952922403940947,
      "loss": 0.391,
      "step": 120400
    },
    {
      "epoch": 160.54666666666665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029529145920839054,
      "loss": 0.393,
      "step": 120410
    },
    {
      "epoch": 160.56,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002952906779589119,
      "loss": 0.3874,
      "step": 120420
    },
    {
      "epoch": 160.57333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029528989664565915,
      "loss": 0.3911,
      "step": 120430
    },
    {
      "epoch": 160.58666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002952891152686326,
      "loss": 0.3801,
      "step": 120440
    },
    {
      "epoch": 160.6,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002952883338278326,
      "loss": 0.3826,
      "step": 120450
    },
    {
      "epoch": 160.61333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002952875523232595,
      "loss": 0.3722,
      "step": 120460
    },
    {
      "epoch": 160.62666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002952867707549136,
      "loss": 0.3771,
      "step": 120470
    },
    {
      "epoch": 160.64,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029528598912279534,
      "loss": 0.3887,
      "step": 120480
    },
    {
      "epoch": 160.65333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002952852074269049,
      "loss": 0.3993,
      "step": 120490
    },
    {
      "epoch": 160.66666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002952844256672428,
      "loss": 0.3868,
      "step": 120500
    },
    {
      "epoch": 160.68,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002952836438438094,
      "loss": 0.3775,
      "step": 120510
    },
    {
      "epoch": 160.69333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029528286195660484,
      "loss": 0.3874,
      "step": 120520
    },
    {
      "epoch": 160.70666666666668,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002952820800056296,
      "loss": 0.3795,
      "step": 120530
    },
    {
      "epoch": 160.72,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002952812979908841,
      "loss": 0.4021,
      "step": 120540
    },
    {
      "epoch": 160.73333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029528051591236847,
      "loss": 0.3971,
      "step": 120550
    },
    {
      "epoch": 160.74666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029527973377008323,
      "loss": 0.3993,
      "step": 120560
    },
    {
      "epoch": 160.76,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029527895156402864,
      "loss": 0.4114,
      "step": 120570
    },
    {
      "epoch": 160.77333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000295278169294205,
      "loss": 0.3971,
      "step": 120580
    },
    {
      "epoch": 160.78666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029527738696061284,
      "loss": 0.3988,
      "step": 120590
    },
    {
      "epoch": 160.8,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029527660456325235,
      "loss": 0.397,
      "step": 120600
    },
    {
      "epoch": 160.81333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029527582210212385,
      "loss": 0.3711,
      "step": 120610
    },
    {
      "epoch": 160.82666666666665,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029527503957722773,
      "loss": 0.3801,
      "step": 120620
    },
    {
      "epoch": 160.84,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002952742569885644,
      "loss": 0.3925,
      "step": 120630
    },
    {
      "epoch": 160.85333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029527347433613415,
      "loss": 0.3871,
      "step": 120640
    },
    {
      "epoch": 160.86666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002952726916199373,
      "loss": 0.3925,
      "step": 120650
    },
    {
      "epoch": 160.88,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002952719088399742,
      "loss": 0.3727,
      "step": 120660
    },
    {
      "epoch": 160.89333333333335,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029527112599624523,
      "loss": 0.3854,
      "step": 120670
    },
    {
      "epoch": 160.90666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002952703430887507,
      "loss": 0.3917,
      "step": 120680
    },
    {
      "epoch": 160.92,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029526956011749093,
      "loss": 0.3933,
      "step": 120690
    },
    {
      "epoch": 160.93333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002952687770824663,
      "loss": 0.3871,
      "step": 120700
    },
    {
      "epoch": 160.94666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002952679939836772,
      "loss": 0.3875,
      "step": 120710
    },
    {
      "epoch": 160.96,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002952672108211239,
      "loss": 0.3856,
      "step": 120720
    },
    {
      "epoch": 160.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029526642759480676,
      "loss": 0.4103,
      "step": 120730
    },
    {
      "epoch": 160.98666666666668,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002952656443047262,
      "loss": 0.3837,
      "step": 120740
    },
    {
      "epoch": 161.0,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002952648609508824,
      "loss": 0.3795,
      "step": 120750
    },
    {
      "epoch": 161.0,
      "eval_loss": 0.42638805508613586,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0133,
      "eval_samples_per_second": 1.598,
      "eval_steps_per_second": 0.1,
      "step": 120750
    },
    {
      "epoch": 161.01333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029526407753327586,
      "loss": 0.396,
      "step": 120760
    },
    {
      "epoch": 161.02666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029526329405190683,
      "loss": 0.4104,
      "step": 120770
    },
    {
      "epoch": 161.04,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002952625105067757,
      "loss": 0.423,
      "step": 120780
    },
    {
      "epoch": 161.05333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002952617268978828,
      "loss": 0.4078,
      "step": 120790
    },
    {
      "epoch": 161.06666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002952609432252285,
      "loss": 0.3952,
      "step": 120800
    },
    {
      "epoch": 161.08,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002952601594888131,
      "loss": 0.3994,
      "step": 120810
    },
    {
      "epoch": 161.09333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029525937568863697,
      "loss": 0.3994,
      "step": 120820
    },
    {
      "epoch": 161.10666666666665,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002952585918247005,
      "loss": 0.3893,
      "step": 120830
    },
    {
      "epoch": 161.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029525780789700385,
      "loss": 0.3939,
      "step": 120840
    },
    {
      "epoch": 161.13333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002952570239055476,
      "loss": 0.3838,
      "step": 120850
    },
    {
      "epoch": 161.14666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029525623985033196,
      "loss": 0.4034,
      "step": 120860
    },
    {
      "epoch": 161.16,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002952554557313573,
      "loss": 0.3969,
      "step": 120870
    },
    {
      "epoch": 161.17333333333335,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029525467154862395,
      "loss": 0.3914,
      "step": 120880
    },
    {
      "epoch": 161.18666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029525388730213236,
      "loss": 0.3907,
      "step": 120890
    },
    {
      "epoch": 161.2,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002952531029918827,
      "loss": 0.3834,
      "step": 120900
    },
    {
      "epoch": 161.21333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029525231861787544,
      "loss": 0.3842,
      "step": 120910
    },
    {
      "epoch": 161.22666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029525153418011085,
      "loss": 0.395,
      "step": 120920
    },
    {
      "epoch": 161.24,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029525074967858933,
      "loss": 0.3807,
      "step": 120930
    },
    {
      "epoch": 161.25333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029524996511331124,
      "loss": 0.3825,
      "step": 120940
    },
    {
      "epoch": 161.26666666666668,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002952491804842768,
      "loss": 0.3853,
      "step": 120950
    },
    {
      "epoch": 161.28,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002952483957914865,
      "loss": 0.4159,
      "step": 120960
    },
    {
      "epoch": 161.29333333333332,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029524761103494064,
      "loss": 0.3715,
      "step": 120970
    },
    {
      "epoch": 161.30666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029524682621463955,
      "loss": 0.3947,
      "step": 120980
    },
    {
      "epoch": 161.32,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002952460413305836,
      "loss": 0.3967,
      "step": 120990
    },
    {
      "epoch": 161.33333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029524525638277305,
      "loss": 0.4001,
      "step": 121000
    },
    {
      "epoch": 161.34666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029524447137120835,
      "loss": 0.3908,
      "step": 121010
    },
    {
      "epoch": 161.36,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002952436862958898,
      "loss": 0.39,
      "step": 121020
    },
    {
      "epoch": 161.37333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029524290115681766,
      "loss": 0.3923,
      "step": 121030
    },
    {
      "epoch": 161.38666666666666,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002952421159539925,
      "loss": 0.3848,
      "step": 121040
    },
    {
      "epoch": 161.4,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002952413306874144,
      "loss": 0.3915,
      "step": 121050
    },
    {
      "epoch": 161.41333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029524054535708387,
      "loss": 0.396,
      "step": 121060
    },
    {
      "epoch": 161.42666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002952397599630012,
      "loss": 0.3979,
      "step": 121070
    },
    {
      "epoch": 161.44,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002952389745051668,
      "loss": 0.4098,
      "step": 121080
    },
    {
      "epoch": 161.45333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002952381889835809,
      "loss": 0.3976,
      "step": 121090
    },
    {
      "epoch": 161.46666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029523740339824396,
      "loss": 0.4062,
      "step": 121100
    },
    {
      "epoch": 161.48,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002952366177491563,
      "loss": 0.3883,
      "step": 121110
    },
    {
      "epoch": 161.49333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002952358320363182,
      "loss": 0.4001,
      "step": 121120
    },
    {
      "epoch": 161.50666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029523504625972996,
      "loss": 0.3987,
      "step": 121130
    },
    {
      "epoch": 161.52,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002952342604193921,
      "loss": 0.3879,
      "step": 121140
    },
    {
      "epoch": 161.53333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029523347451530487,
      "loss": 0.3916,
      "step": 121150
    },
    {
      "epoch": 161.54666666666665,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029523268854746864,
      "loss": 0.3935,
      "step": 121160
    },
    {
      "epoch": 161.56,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029523190251588366,
      "loss": 0.3871,
      "step": 121170
    },
    {
      "epoch": 161.57333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029523111642055036,
      "loss": 0.3914,
      "step": 121180
    },
    {
      "epoch": 161.58666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029523033026146906,
      "loss": 0.3805,
      "step": 121190
    },
    {
      "epoch": 161.6,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002952295440386402,
      "loss": 0.3825,
      "step": 121200
    },
    {
      "epoch": 161.61333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000295228757752064,
      "loss": 0.3725,
      "step": 121210
    },
    {
      "epoch": 161.62666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002952279714017408,
      "loss": 0.3771,
      "step": 121220
    },
    {
      "epoch": 161.64,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002952271849876711,
      "loss": 0.389,
      "step": 121230
    },
    {
      "epoch": 161.65333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000295226398509855,
      "loss": 0.3976,
      "step": 121240
    },
    {
      "epoch": 161.66666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000295225611968293,
      "loss": 0.3866,
      "step": 121250
    },
    {
      "epoch": 161.68,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029522482536298555,
      "loss": 0.3768,
      "step": 121260
    },
    {
      "epoch": 161.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002952240386939328,
      "loss": 0.3875,
      "step": 121270
    },
    {
      "epoch": 161.70666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029522325196113517,
      "loss": 0.3794,
      "step": 121280
    },
    {
      "epoch": 161.72,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029522246516459303,
      "loss": 0.4022,
      "step": 121290
    },
    {
      "epoch": 161.73333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029522167830430663,
      "loss": 0.3951,
      "step": 121300
    },
    {
      "epoch": 161.74666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029522089138027646,
      "loss": 0.3982,
      "step": 121310
    },
    {
      "epoch": 161.76,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029522010439250274,
      "loss": 0.4113,
      "step": 121320
    },
    {
      "epoch": 161.77333333333334,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002952193173409859,
      "loss": 0.3983,
      "step": 121330
    },
    {
      "epoch": 161.78666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002952185302257262,
      "loss": 0.3996,
      "step": 121340
    },
    {
      "epoch": 161.8,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002952177430467241,
      "loss": 0.3972,
      "step": 121350
    },
    {
      "epoch": 161.81333333333333,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029521695580397985,
      "loss": 0.3701,
      "step": 121360
    },
    {
      "epoch": 161.82666666666665,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029521616849749384,
      "loss": 0.3804,
      "step": 121370
    },
    {
      "epoch": 161.84,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002952153811272664,
      "loss": 0.3917,
      "step": 121380
    },
    {
      "epoch": 161.85333333333332,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002952145936932979,
      "loss": 0.3882,
      "step": 121390
    },
    {
      "epoch": 161.86666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029521380619558865,
      "loss": 0.393,
      "step": 121400
    },
    {
      "epoch": 161.88,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000295213018634139,
      "loss": 0.3743,
      "step": 121410
    },
    {
      "epoch": 161.89333333333335,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029521223100894927,
      "loss": 0.3853,
      "step": 121420
    },
    {
      "epoch": 161.90666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002952114433200199,
      "loss": 0.3909,
      "step": 121430
    },
    {
      "epoch": 161.92,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002952106555673512,
      "loss": 0.3931,
      "step": 121440
    },
    {
      "epoch": 161.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002952098677509434,
      "loss": 0.3865,
      "step": 121450
    },
    {
      "epoch": 161.94666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000295209079870797,
      "loss": 0.3873,
      "step": 121460
    },
    {
      "epoch": 161.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029520829192691226,
      "loss": 0.3858,
      "step": 121470
    },
    {
      "epoch": 161.97333333333333,
      "grad_norm": 0.5,
      "learning_rate": 0.00029520750391928956,
      "loss": 0.41,
      "step": 121480
    },
    {
      "epoch": 161.98666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002952067158479293,
      "loss": 0.3837,
      "step": 121490
    },
    {
      "epoch": 162.0,
      "grad_norm": 0.375,
      "learning_rate": 0.0002952059277128317,
      "loss": 0.3798,
      "step": 121500
    },
    {
      "epoch": 162.0,
      "eval_loss": 0.4264082610607147,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0681,
      "eval_samples_per_second": 1.589,
      "eval_steps_per_second": 0.099,
      "step": 121500
    },
    {
      "epoch": 162.01333333333332,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00029520513951399713,
      "loss": 0.3959,
      "step": 121510
    },
    {
      "epoch": 162.02666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029520435125142603,
      "loss": 0.4105,
      "step": 121520
    },
    {
      "epoch": 162.04,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002952035629251187,
      "loss": 0.4233,
      "step": 121530
    },
    {
      "epoch": 162.05333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029520277453507545,
      "loss": 0.4091,
      "step": 121540
    },
    {
      "epoch": 162.06666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002952019860812967,
      "loss": 0.3963,
      "step": 121550
    },
    {
      "epoch": 162.08,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029520119756378264,
      "loss": 0.3993,
      "step": 121560
    },
    {
      "epoch": 162.09333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002952004089825338,
      "loss": 0.3997,
      "step": 121570
    },
    {
      "epoch": 162.10666666666665,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002951996203375505,
      "loss": 0.3884,
      "step": 121580
    },
    {
      "epoch": 162.12,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029519883162883295,
      "loss": 0.3939,
      "step": 121590
    },
    {
      "epoch": 162.13333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002951980428563816,
      "loss": 0.3857,
      "step": 121600
    },
    {
      "epoch": 162.14666666666668,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002951972540201968,
      "loss": 0.4032,
      "step": 121610
    },
    {
      "epoch": 162.16,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029519646512027884,
      "loss": 0.3978,
      "step": 121620
    },
    {
      "epoch": 162.17333333333335,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029519567615662813,
      "loss": 0.3931,
      "step": 121630
    },
    {
      "epoch": 162.18666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000295194887129245,
      "loss": 0.3903,
      "step": 121640
    },
    {
      "epoch": 162.2,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002951940980381298,
      "loss": 0.383,
      "step": 121650
    },
    {
      "epoch": 162.21333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002951933088832828,
      "loss": 0.3834,
      "step": 121660
    },
    {
      "epoch": 162.22666666666666,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029519251966470445,
      "loss": 0.3946,
      "step": 121670
    },
    {
      "epoch": 162.24,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029519173038239507,
      "loss": 0.3805,
      "step": 121680
    },
    {
      "epoch": 162.25333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029519094103635493,
      "loss": 0.3833,
      "step": 121690
    },
    {
      "epoch": 162.26666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029519015162658447,
      "loss": 0.3848,
      "step": 121700
    },
    {
      "epoch": 162.28,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000295189362153084,
      "loss": 0.4148,
      "step": 121710
    },
    {
      "epoch": 162.29333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029518857261585387,
      "loss": 0.3711,
      "step": 121720
    },
    {
      "epoch": 162.30666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002951877830148945,
      "loss": 0.3947,
      "step": 121730
    },
    {
      "epoch": 162.32,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002951869933502061,
      "loss": 0.3973,
      "step": 121740
    },
    {
      "epoch": 162.33333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029518620362178904,
      "loss": 0.3991,
      "step": 121750
    },
    {
      "epoch": 162.34666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002951854138296438,
      "loss": 0.3907,
      "step": 121760
    },
    {
      "epoch": 162.36,
      "grad_norm": 0.515625,
      "learning_rate": 0.00029518462397377053,
      "loss": 0.3903,
      "step": 121770
    },
    {
      "epoch": 162.37333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002951838340541697,
      "loss": 0.3914,
      "step": 121780
    },
    {
      "epoch": 162.38666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029518304407084167,
      "loss": 0.3834,
      "step": 121790
    },
    {
      "epoch": 162.4,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002951822540237867,
      "loss": 0.3922,
      "step": 121800
    },
    {
      "epoch": 162.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002951814639130053,
      "loss": 0.3958,
      "step": 121810
    },
    {
      "epoch": 162.42666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029518067373849764,
      "loss": 0.3974,
      "step": 121820
    },
    {
      "epoch": 162.44,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002951798835002641,
      "loss": 0.4092,
      "step": 121830
    },
    {
      "epoch": 162.45333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002951790931983051,
      "loss": 0.3975,
      "step": 121840
    },
    {
      "epoch": 162.46666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029517830283262096,
      "loss": 0.4065,
      "step": 121850
    },
    {
      "epoch": 162.48,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029517751240321197,
      "loss": 0.3868,
      "step": 121860
    },
    {
      "epoch": 162.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029517672191007856,
      "loss": 0.3994,
      "step": 121870
    },
    {
      "epoch": 162.50666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000295175931353221,
      "loss": 0.3983,
      "step": 121880
    },
    {
      "epoch": 162.52,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029517514073263974,
      "loss": 0.3879,
      "step": 121890
    },
    {
      "epoch": 162.53333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.000295174350048335,
      "loss": 0.3926,
      "step": 121900
    },
    {
      "epoch": 162.54666666666665,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002951735593003072,
      "loss": 0.3936,
      "step": 121910
    },
    {
      "epoch": 162.56,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002951727684885567,
      "loss": 0.3871,
      "step": 121920
    },
    {
      "epoch": 162.57333333333332,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002951719776130838,
      "loss": 0.3909,
      "step": 121930
    },
    {
      "epoch": 162.58666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002951711866738889,
      "loss": 0.38,
      "step": 121940
    },
    {
      "epoch": 162.6,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002951703956709723,
      "loss": 0.3815,
      "step": 121950
    },
    {
      "epoch": 162.61333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002951696046043344,
      "loss": 0.3722,
      "step": 121960
    },
    {
      "epoch": 162.62666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029516881347397547,
      "loss": 0.3781,
      "step": 121970
    },
    {
      "epoch": 162.64,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029516802227989587,
      "loss": 0.3885,
      "step": 121980
    },
    {
      "epoch": 162.65333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.000295167231022096,
      "loss": 0.3987,
      "step": 121990
    },
    {
      "epoch": 162.66666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002951664397005762,
      "loss": 0.3865,
      "step": 122000
    },
    {
      "epoch": 162.68,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002951656483153368,
      "loss": 0.378,
      "step": 122010
    },
    {
      "epoch": 162.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002951648568663782,
      "loss": 0.3874,
      "step": 122020
    },
    {
      "epoch": 162.70666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029516406535370064,
      "loss": 0.3797,
      "step": 122030
    },
    {
      "epoch": 162.72,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029516327377730446,
      "loss": 0.4019,
      "step": 122040
    },
    {
      "epoch": 162.73333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002951624821371902,
      "loss": 0.396,
      "step": 122050
    },
    {
      "epoch": 162.74666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000295161690433358,
      "loss": 0.399,
      "step": 122060
    },
    {
      "epoch": 162.76,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002951608986658083,
      "loss": 0.4119,
      "step": 122070
    },
    {
      "epoch": 162.77333333333334,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029516010683454147,
      "loss": 0.3977,
      "step": 122080
    },
    {
      "epoch": 162.78666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029515931493955775,
      "loss": 0.3981,
      "step": 122090
    },
    {
      "epoch": 162.8,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029515852298085763,
      "loss": 0.397,
      "step": 122100
    },
    {
      "epoch": 162.81333333333333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029515773095844134,
      "loss": 0.3708,
      "step": 122110
    },
    {
      "epoch": 162.82666666666665,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002951569388723093,
      "loss": 0.3799,
      "step": 122120
    },
    {
      "epoch": 162.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002951561467224618,
      "loss": 0.3921,
      "step": 122130
    },
    {
      "epoch": 162.85333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029515535450889925,
      "loss": 0.3869,
      "step": 122140
    },
    {
      "epoch": 162.86666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029515456223162194,
      "loss": 0.392,
      "step": 122150
    },
    {
      "epoch": 162.88,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002951537698906303,
      "loss": 0.3729,
      "step": 122160
    },
    {
      "epoch": 162.89333333333335,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002951529774859246,
      "loss": 0.3842,
      "step": 122170
    },
    {
      "epoch": 162.90666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002951521850175052,
      "loss": 0.3907,
      "step": 122180
    },
    {
      "epoch": 162.92,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029515139248537244,
      "loss": 0.3938,
      "step": 122190
    },
    {
      "epoch": 162.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002951505998895267,
      "loss": 0.386,
      "step": 122200
    },
    {
      "epoch": 162.94666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002951498072299683,
      "loss": 0.3875,
      "step": 122210
    },
    {
      "epoch": 162.96,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029514901450669763,
      "loss": 0.3867,
      "step": 122220
    },
    {
      "epoch": 162.97333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.000295148221719715,
      "loss": 0.4095,
      "step": 122230
    },
    {
      "epoch": 162.98666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002951474288690207,
      "loss": 0.3829,
      "step": 122240
    },
    {
      "epoch": 163.0,
      "grad_norm": 0.375,
      "learning_rate": 0.00029514663595461523,
      "loss": 0.3788,
      "step": 122250
    },
    {
      "epoch": 163.0,
      "eval_loss": 0.4261762499809265,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5546,
      "eval_samples_per_second": 1.675,
      "eval_steps_per_second": 0.105,
      "step": 122250
    },
    {
      "epoch": 163.01333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029514584297649885,
      "loss": 0.3971,
      "step": 122260
    },
    {
      "epoch": 163.02666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002951450499346719,
      "loss": 0.4102,
      "step": 122270
    },
    {
      "epoch": 163.04,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002951442568291348,
      "loss": 0.4222,
      "step": 122280
    },
    {
      "epoch": 163.05333333333334,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002951434636598877,
      "loss": 0.4084,
      "step": 122290
    },
    {
      "epoch": 163.06666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002951426704269312,
      "loss": 0.3963,
      "step": 122300
    },
    {
      "epoch": 163.08,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029514187713026546,
      "loss": 0.3987,
      "step": 122310
    },
    {
      "epoch": 163.09333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029514108376989094,
      "loss": 0.4009,
      "step": 122320
    },
    {
      "epoch": 163.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.000295140290345808,
      "loss": 0.3882,
      "step": 122330
    },
    {
      "epoch": 163.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029513949685801684,
      "loss": 0.3922,
      "step": 122340
    },
    {
      "epoch": 163.13333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029513870330651797,
      "loss": 0.385,
      "step": 122350
    },
    {
      "epoch": 163.14666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029513790969131165,
      "loss": 0.4024,
      "step": 122360
    },
    {
      "epoch": 163.16,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002951371160123983,
      "loss": 0.3972,
      "step": 122370
    },
    {
      "epoch": 163.17333333333335,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002951363222697782,
      "loss": 0.3914,
      "step": 122380
    },
    {
      "epoch": 163.18666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002951355284634517,
      "loss": 0.3899,
      "step": 122390
    },
    {
      "epoch": 163.2,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029513473459341914,
      "loss": 0.3828,
      "step": 122400
    },
    {
      "epoch": 163.21333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000295133940659681,
      "loss": 0.3839,
      "step": 122410
    },
    {
      "epoch": 163.22666666666666,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029513314666223747,
      "loss": 0.3951,
      "step": 122420
    },
    {
      "epoch": 163.24,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029513235260108893,
      "loss": 0.3802,
      "step": 122430
    },
    {
      "epoch": 163.25333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029513155847623576,
      "loss": 0.3823,
      "step": 122440
    },
    {
      "epoch": 163.26666666666668,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029513076428767834,
      "loss": 0.3852,
      "step": 122450
    },
    {
      "epoch": 163.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029512997003541694,
      "loss": 0.4144,
      "step": 122460
    },
    {
      "epoch": 163.29333333333332,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000295129175719452,
      "loss": 0.3705,
      "step": 122470
    },
    {
      "epoch": 163.30666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002951283813397838,
      "loss": 0.3949,
      "step": 122480
    },
    {
      "epoch": 163.32,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002951275868964127,
      "loss": 0.3957,
      "step": 122490
    },
    {
      "epoch": 163.33333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029512679238933903,
      "loss": 0.3997,
      "step": 122500
    },
    {
      "epoch": 163.34666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002951259978185632,
      "loss": 0.3902,
      "step": 122510
    },
    {
      "epoch": 163.36,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029512520318408553,
      "loss": 0.3902,
      "step": 122520
    },
    {
      "epoch": 163.37333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002951244084859063,
      "loss": 0.3912,
      "step": 122530
    },
    {
      "epoch": 163.38666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029512361372402597,
      "loss": 0.3835,
      "step": 122540
    },
    {
      "epoch": 163.4,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029512281889844486,
      "loss": 0.3906,
      "step": 122550
    },
    {
      "epoch": 163.41333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029512202400916324,
      "loss": 0.3964,
      "step": 122560
    },
    {
      "epoch": 163.42666666666668,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029512122905618154,
      "loss": 0.3975,
      "step": 122570
    },
    {
      "epoch": 163.44,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002951204340395001,
      "loss": 0.4084,
      "step": 122580
    },
    {
      "epoch": 163.45333333333335,
      "grad_norm": 0.5,
      "learning_rate": 0.0002951196389591193,
      "loss": 0.3978,
      "step": 122590
    },
    {
      "epoch": 163.46666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029511884381503936,
      "loss": 0.4064,
      "step": 122600
    },
    {
      "epoch": 163.48,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002951180486072607,
      "loss": 0.3872,
      "step": 122610
    },
    {
      "epoch": 163.49333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029511725333578373,
      "loss": 0.4003,
      "step": 122620
    },
    {
      "epoch": 163.50666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029511645800060874,
      "loss": 0.3976,
      "step": 122630
    },
    {
      "epoch": 163.52,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002951156626017361,
      "loss": 0.3885,
      "step": 122640
    },
    {
      "epoch": 163.53333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029511486713916616,
      "loss": 0.39,
      "step": 122650
    },
    {
      "epoch": 163.54666666666665,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002951140716128993,
      "loss": 0.3936,
      "step": 122660
    },
    {
      "epoch": 163.56,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029511327602293574,
      "loss": 0.3872,
      "step": 122670
    },
    {
      "epoch": 163.57333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000295112480369276,
      "loss": 0.3905,
      "step": 122680
    },
    {
      "epoch": 163.58666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029511168465192025,
      "loss": 0.38,
      "step": 122690
    },
    {
      "epoch": 163.6,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000295110888870869,
      "loss": 0.3818,
      "step": 122700
    },
    {
      "epoch": 163.61333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002951100930261225,
      "loss": 0.3725,
      "step": 122710
    },
    {
      "epoch": 163.62666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029510929711768115,
      "loss": 0.3776,
      "step": 122720
    },
    {
      "epoch": 163.64,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002951085011455453,
      "loss": 0.3888,
      "step": 122730
    },
    {
      "epoch": 163.65333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029510770510971526,
      "loss": 0.3985,
      "step": 122740
    },
    {
      "epoch": 163.66666666666666,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002951069090101914,
      "loss": 0.3861,
      "step": 122750
    },
    {
      "epoch": 163.68,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002951061128469741,
      "loss": 0.3772,
      "step": 122760
    },
    {
      "epoch": 163.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002951053166200637,
      "loss": 0.3868,
      "step": 122770
    },
    {
      "epoch": 163.70666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002951045203294605,
      "loss": 0.3798,
      "step": 122780
    },
    {
      "epoch": 163.72,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002951037239751649,
      "loss": 0.4022,
      "step": 122790
    },
    {
      "epoch": 163.73333333333332,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029510292755717717,
      "loss": 0.3968,
      "step": 122800
    },
    {
      "epoch": 163.74666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002951021310754977,
      "loss": 0.3983,
      "step": 122810
    },
    {
      "epoch": 163.76,
      "grad_norm": 0.427734375,
      "learning_rate": 0.000295101334530127,
      "loss": 0.4118,
      "step": 122820
    },
    {
      "epoch": 163.77333333333334,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002951005379210652,
      "loss": 0.3981,
      "step": 122830
    },
    {
      "epoch": 163.78666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002950997412483127,
      "loss": 0.3986,
      "step": 122840
    },
    {
      "epoch": 163.8,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002950989445118699,
      "loss": 0.3969,
      "step": 122850
    },
    {
      "epoch": 163.81333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029509814771173714,
      "loss": 0.3703,
      "step": 122860
    },
    {
      "epoch": 163.82666666666665,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029509735084791476,
      "loss": 0.3797,
      "step": 122870
    },
    {
      "epoch": 163.84,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002950965539204031,
      "loss": 0.3919,
      "step": 122880
    },
    {
      "epoch": 163.85333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002950957569292025,
      "loss": 0.3876,
      "step": 122890
    },
    {
      "epoch": 163.86666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029509495987431337,
      "loss": 0.3924,
      "step": 122900
    },
    {
      "epoch": 163.88,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029509416275573595,
      "loss": 0.3733,
      "step": 122910
    },
    {
      "epoch": 163.89333333333335,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002950933655734707,
      "loss": 0.3852,
      "step": 122920
    },
    {
      "epoch": 163.90666666666667,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002950925683275179,
      "loss": 0.3909,
      "step": 122930
    },
    {
      "epoch": 163.92,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029509177101787794,
      "loss": 0.3933,
      "step": 122940
    },
    {
      "epoch": 163.93333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002950909736445512,
      "loss": 0.3868,
      "step": 122950
    },
    {
      "epoch": 163.94666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029509017620753795,
      "loss": 0.3874,
      "step": 122960
    },
    {
      "epoch": 163.96,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002950893787068386,
      "loss": 0.3859,
      "step": 122970
    },
    {
      "epoch": 163.97333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029508858114245343,
      "loss": 0.4105,
      "step": 122980
    },
    {
      "epoch": 163.98666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029508778351438285,
      "loss": 0.383,
      "step": 122990
    },
    {
      "epoch": 164.0,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002950869858226272,
      "loss": 0.3796,
      "step": 123000
    },
    {
      "epoch": 164.0,
      "eval_loss": 0.4265204668045044,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7332,
      "eval_samples_per_second": 1.644,
      "eval_steps_per_second": 0.103,
      "step": 123000
    },
    {
      "epoch": 164.01333333333332,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029508618806718684,
      "loss": 0.3966,
      "step": 123010
    },
    {
      "epoch": 164.02666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002950853902480621,
      "loss": 0.4106,
      "step": 123020
    },
    {
      "epoch": 164.04,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029508459236525335,
      "loss": 0.4234,
      "step": 123030
    },
    {
      "epoch": 164.05333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002950837944187609,
      "loss": 0.4086,
      "step": 123040
    },
    {
      "epoch": 164.06666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029508299640858515,
      "loss": 0.3965,
      "step": 123050
    },
    {
      "epoch": 164.08,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002950821983347264,
      "loss": 0.4,
      "step": 123060
    },
    {
      "epoch": 164.09333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002950814001971851,
      "loss": 0.4004,
      "step": 123070
    },
    {
      "epoch": 164.10666666666665,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029508060199596146,
      "loss": 0.3882,
      "step": 123080
    },
    {
      "epoch": 164.12,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029507980373105595,
      "loss": 0.3925,
      "step": 123090
    },
    {
      "epoch": 164.13333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029507900540246885,
      "loss": 0.3842,
      "step": 123100
    },
    {
      "epoch": 164.14666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002950782070102005,
      "loss": 0.4033,
      "step": 123110
    },
    {
      "epoch": 164.16,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029507740855425134,
      "loss": 0.397,
      "step": 123120
    },
    {
      "epoch": 164.17333333333335,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002950766100346216,
      "loss": 0.3918,
      "step": 123130
    },
    {
      "epoch": 164.18666666666667,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002950758114513117,
      "loss": 0.3898,
      "step": 123140
    },
    {
      "epoch": 164.2,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000295075012804322,
      "loss": 0.3826,
      "step": 123150
    },
    {
      "epoch": 164.21333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029507421409365284,
      "loss": 0.3833,
      "step": 123160
    },
    {
      "epoch": 164.22666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002950734153193045,
      "loss": 0.3957,
      "step": 123170
    },
    {
      "epoch": 164.24,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002950726164812775,
      "loss": 0.3807,
      "step": 123180
    },
    {
      "epoch": 164.25333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000295071817579572,
      "loss": 0.3815,
      "step": 123190
    },
    {
      "epoch": 164.26666666666668,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029507101861418847,
      "loss": 0.384,
      "step": 123200
    },
    {
      "epoch": 164.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029507021958512724,
      "loss": 0.4148,
      "step": 123210
    },
    {
      "epoch": 164.29333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002950694204923886,
      "loss": 0.3705,
      "step": 123220
    },
    {
      "epoch": 164.30666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029506862133597296,
      "loss": 0.3946,
      "step": 123230
    },
    {
      "epoch": 164.32,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029506782211588073,
      "loss": 0.3967,
      "step": 123240
    },
    {
      "epoch": 164.33333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002950670228321121,
      "loss": 0.3989,
      "step": 123250
    },
    {
      "epoch": 164.34666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029506622348466754,
      "loss": 0.3901,
      "step": 123260
    },
    {
      "epoch": 164.36,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00029506542407354734,
      "loss": 0.3911,
      "step": 123270
    },
    {
      "epoch": 164.37333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029506462459875194,
      "loss": 0.3918,
      "step": 123280
    },
    {
      "epoch": 164.38666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029506382506028163,
      "loss": 0.3837,
      "step": 123290
    },
    {
      "epoch": 164.4,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002950630254581367,
      "loss": 0.3911,
      "step": 123300
    },
    {
      "epoch": 164.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029506222579231764,
      "loss": 0.3952,
      "step": 123310
    },
    {
      "epoch": 164.42666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029506142606282467,
      "loss": 0.3968,
      "step": 123320
    },
    {
      "epoch": 164.44,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029506062626965824,
      "loss": 0.4093,
      "step": 123330
    },
    {
      "epoch": 164.45333333333335,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002950598264128186,
      "loss": 0.3979,
      "step": 123340
    },
    {
      "epoch": 164.46666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002950590264923062,
      "loss": 0.4065,
      "step": 123350
    },
    {
      "epoch": 164.48,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029505822650812135,
      "loss": 0.3874,
      "step": 123360
    },
    {
      "epoch": 164.49333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002950574264602644,
      "loss": 0.3994,
      "step": 123370
    },
    {
      "epoch": 164.50666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029505662634873566,
      "loss": 0.3979,
      "step": 123380
    },
    {
      "epoch": 164.52,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002950558261735356,
      "loss": 0.3889,
      "step": 123390
    },
    {
      "epoch": 164.53333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002950550259346644,
      "loss": 0.3918,
      "step": 123400
    },
    {
      "epoch": 164.54666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002950542256321226,
      "loss": 0.3933,
      "step": 123410
    },
    {
      "epoch": 164.56,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002950534252659104,
      "loss": 0.3881,
      "step": 123420
    },
    {
      "epoch": 164.57333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002950526248360282,
      "loss": 0.3913,
      "step": 123430
    },
    {
      "epoch": 164.58666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002950518243424764,
      "loss": 0.3799,
      "step": 123440
    },
    {
      "epoch": 164.6,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002950510237852553,
      "loss": 0.382,
      "step": 123450
    },
    {
      "epoch": 164.61333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029505022316436523,
      "loss": 0.3719,
      "step": 123460
    },
    {
      "epoch": 164.62666666666667,
      "grad_norm": 0.328125,
      "learning_rate": 0.0002950494224798066,
      "loss": 0.3767,
      "step": 123470
    },
    {
      "epoch": 164.64,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029504862173157975,
      "loss": 0.3881,
      "step": 123480
    },
    {
      "epoch": 164.65333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.000295047820919685,
      "loss": 0.3979,
      "step": 123490
    },
    {
      "epoch": 164.66666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002950470200441227,
      "loss": 0.3862,
      "step": 123500
    },
    {
      "epoch": 164.68,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002950462191048933,
      "loss": 0.3781,
      "step": 123510
    },
    {
      "epoch": 164.69333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029504541810199694,
      "loss": 0.3866,
      "step": 123520
    },
    {
      "epoch": 164.70666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029504461703543414,
      "loss": 0.3803,
      "step": 123530
    },
    {
      "epoch": 164.72,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029504381590520526,
      "loss": 0.4012,
      "step": 123540
    },
    {
      "epoch": 164.73333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002950430147113106,
      "loss": 0.3956,
      "step": 123550
    },
    {
      "epoch": 164.74666666666667,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002950422134537505,
      "loss": 0.3991,
      "step": 123560
    },
    {
      "epoch": 164.76,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002950414121325254,
      "loss": 0.4111,
      "step": 123570
    },
    {
      "epoch": 164.77333333333334,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002950406107476355,
      "loss": 0.3978,
      "step": 123580
    },
    {
      "epoch": 164.78666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029503980929908123,
      "loss": 0.3988,
      "step": 123590
    },
    {
      "epoch": 164.8,
      "grad_norm": 0.40625,
      "learning_rate": 0.000295039007786863,
      "loss": 0.397,
      "step": 123600
    },
    {
      "epoch": 164.81333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002950382062109811,
      "loss": 0.3709,
      "step": 123610
    },
    {
      "epoch": 164.82666666666665,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002950374045714358,
      "loss": 0.3799,
      "step": 123620
    },
    {
      "epoch": 164.84,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029503660286822766,
      "loss": 0.3919,
      "step": 123630
    },
    {
      "epoch": 164.85333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002950358011013568,
      "loss": 0.3877,
      "step": 123640
    },
    {
      "epoch": 164.86666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029503499927082376,
      "loss": 0.3919,
      "step": 123650
    },
    {
      "epoch": 164.88,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002950341973766288,
      "loss": 0.3723,
      "step": 123660
    },
    {
      "epoch": 164.89333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029503339541877226,
      "loss": 0.3842,
      "step": 123670
    },
    {
      "epoch": 164.90666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002950325933972546,
      "loss": 0.3907,
      "step": 123680
    },
    {
      "epoch": 164.92,
      "grad_norm": 0.431640625,
      "learning_rate": 0.000295031791312076,
      "loss": 0.3931,
      "step": 123690
    },
    {
      "epoch": 164.93333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029503098916323694,
      "loss": 0.3865,
      "step": 123700
    },
    {
      "epoch": 164.94666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029503018695073777,
      "loss": 0.3875,
      "step": 123710
    },
    {
      "epoch": 164.96,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029502938467457874,
      "loss": 0.3855,
      "step": 123720
    },
    {
      "epoch": 164.97333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002950285823347603,
      "loss": 0.4101,
      "step": 123730
    },
    {
      "epoch": 164.98666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002950277799312828,
      "loss": 0.383,
      "step": 123740
    },
    {
      "epoch": 165.0,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002950269774641465,
      "loss": 0.3795,
      "step": 123750
    },
    {
      "epoch": 165.0,
      "eval_loss": 0.42592698335647583,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6847,
      "eval_samples_per_second": 1.652,
      "eval_steps_per_second": 0.103,
      "step": 123750
    },
    {
      "epoch": 165.01333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002950261749333519,
      "loss": 0.3968,
      "step": 123760
    },
    {
      "epoch": 165.02666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002950253723388992,
      "loss": 0.4106,
      "step": 123770
    },
    {
      "epoch": 165.04,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002950245696807889,
      "loss": 0.4225,
      "step": 123780
    },
    {
      "epoch": 165.05333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029502376695902125,
      "loss": 0.4084,
      "step": 123790
    },
    {
      "epoch": 165.06666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002950229641735966,
      "loss": 0.3959,
      "step": 123800
    },
    {
      "epoch": 165.08,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002950221613245153,
      "loss": 0.3994,
      "step": 123810
    },
    {
      "epoch": 165.09333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029502135841177776,
      "loss": 0.4,
      "step": 123820
    },
    {
      "epoch": 165.10666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002950205554353843,
      "loss": 0.3886,
      "step": 123830
    },
    {
      "epoch": 165.12,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029501975239533526,
      "loss": 0.3931,
      "step": 123840
    },
    {
      "epoch": 165.13333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029501894929163106,
      "loss": 0.384,
      "step": 123850
    },
    {
      "epoch": 165.14666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000295018146124272,
      "loss": 0.4029,
      "step": 123860
    },
    {
      "epoch": 165.16,
      "grad_norm": 0.375,
      "learning_rate": 0.0002950173428932584,
      "loss": 0.3973,
      "step": 123870
    },
    {
      "epoch": 165.17333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029501653959859063,
      "loss": 0.3916,
      "step": 123880
    },
    {
      "epoch": 165.18666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002950157362402691,
      "loss": 0.3903,
      "step": 123890
    },
    {
      "epoch": 165.2,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002950149328182941,
      "loss": 0.382,
      "step": 123900
    },
    {
      "epoch": 165.21333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000295014129332666,
      "loss": 0.383,
      "step": 123910
    },
    {
      "epoch": 165.22666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002950133257833852,
      "loss": 0.3961,
      "step": 123920
    },
    {
      "epoch": 165.24,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029501252217045194,
      "loss": 0.3808,
      "step": 123930
    },
    {
      "epoch": 165.25333333333333,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029501171849386664,
      "loss": 0.3823,
      "step": 123940
    },
    {
      "epoch": 165.26666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029501091475362973,
      "loss": 0.3849,
      "step": 123950
    },
    {
      "epoch": 165.28,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029501011094974143,
      "loss": 0.4158,
      "step": 123960
    },
    {
      "epoch": 165.29333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029500930708220216,
      "loss": 0.37,
      "step": 123970
    },
    {
      "epoch": 165.30666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002950085031510123,
      "loss": 0.3949,
      "step": 123980
    },
    {
      "epoch": 165.32,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029500769915617216,
      "loss": 0.3963,
      "step": 123990
    },
    {
      "epoch": 165.33333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029500689509768206,
      "loss": 0.3998,
      "step": 124000
    },
    {
      "epoch": 165.34666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002950060909755424,
      "loss": 0.39,
      "step": 124010
    },
    {
      "epoch": 165.36,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029500528678975355,
      "loss": 0.3901,
      "step": 124020
    },
    {
      "epoch": 165.37333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029500448254031583,
      "loss": 0.3919,
      "step": 124030
    },
    {
      "epoch": 165.38666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002950036782272296,
      "loss": 0.3841,
      "step": 124040
    },
    {
      "epoch": 165.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002950028738504952,
      "loss": 0.3912,
      "step": 124050
    },
    {
      "epoch": 165.41333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000295002069410113,
      "loss": 0.3959,
      "step": 124060
    },
    {
      "epoch": 165.42666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029500126490608343,
      "loss": 0.3974,
      "step": 124070
    },
    {
      "epoch": 165.44,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002950004603384067,
      "loss": 0.4089,
      "step": 124080
    },
    {
      "epoch": 165.45333333333335,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00029499965570708314,
      "loss": 0.3966,
      "step": 124090
    },
    {
      "epoch": 165.46666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002949988510121133,
      "loss": 0.4062,
      "step": 124100
    },
    {
      "epoch": 165.48,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029499804625349743,
      "loss": 0.3883,
      "step": 124110
    },
    {
      "epoch": 165.49333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029499724143123576,
      "loss": 0.3998,
      "step": 124120
    },
    {
      "epoch": 165.50666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029499643654532886,
      "loss": 0.3992,
      "step": 124130
    },
    {
      "epoch": 165.52,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029499563159577697,
      "loss": 0.3893,
      "step": 124140
    },
    {
      "epoch": 165.53333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029499482658258046,
      "loss": 0.3906,
      "step": 124150
    },
    {
      "epoch": 165.54666666666665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029499402150573965,
      "loss": 0.3936,
      "step": 124160
    },
    {
      "epoch": 165.56,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029499321636525494,
      "loss": 0.388,
      "step": 124170
    },
    {
      "epoch": 165.57333333333332,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002949924111611267,
      "loss": 0.3909,
      "step": 124180
    },
    {
      "epoch": 165.58666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029499160589335516,
      "loss": 0.38,
      "step": 124190
    },
    {
      "epoch": 165.6,
      "grad_norm": 0.375,
      "learning_rate": 0.00029499080056194087,
      "loss": 0.3821,
      "step": 124200
    },
    {
      "epoch": 165.61333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.000294989995166884,
      "loss": 0.3716,
      "step": 124210
    },
    {
      "epoch": 165.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029498918970818504,
      "loss": 0.3772,
      "step": 124220
    },
    {
      "epoch": 165.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029498838418584426,
      "loss": 0.389,
      "step": 124230
    },
    {
      "epoch": 165.65333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000294987578599862,
      "loss": 0.3985,
      "step": 124240
    },
    {
      "epoch": 165.66666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029498677295023866,
      "loss": 0.386,
      "step": 124250
    },
    {
      "epoch": 165.68,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002949859672369746,
      "loss": 0.3778,
      "step": 124260
    },
    {
      "epoch": 165.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002949851614600702,
      "loss": 0.386,
      "step": 124270
    },
    {
      "epoch": 165.70666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002949843556195257,
      "loss": 0.3798,
      "step": 124280
    },
    {
      "epoch": 165.72,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029498354971534157,
      "loss": 0.4018,
      "step": 124290
    },
    {
      "epoch": 165.73333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002949827437475181,
      "loss": 0.3956,
      "step": 124300
    },
    {
      "epoch": 165.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029498193771605567,
      "loss": 0.3985,
      "step": 124310
    },
    {
      "epoch": 165.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002949811316209547,
      "loss": 0.4113,
      "step": 124320
    },
    {
      "epoch": 165.77333333333334,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029498032546221536,
      "loss": 0.3991,
      "step": 124330
    },
    {
      "epoch": 165.78666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029497951923983815,
      "loss": 0.3985,
      "step": 124340
    },
    {
      "epoch": 165.8,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002949787129538234,
      "loss": 0.3969,
      "step": 124350
    },
    {
      "epoch": 165.81333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029497790660417143,
      "loss": 0.3703,
      "step": 124360
    },
    {
      "epoch": 165.82666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029497710019088264,
      "loss": 0.3799,
      "step": 124370
    },
    {
      "epoch": 165.84,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029497629371395736,
      "loss": 0.3924,
      "step": 124380
    },
    {
      "epoch": 165.85333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002949754871733959,
      "loss": 0.3865,
      "step": 124390
    },
    {
      "epoch": 165.86666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029497468056919875,
      "loss": 0.3917,
      "step": 124400
    },
    {
      "epoch": 165.88,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029497387390136606,
      "loss": 0.3721,
      "step": 124410
    },
    {
      "epoch": 165.89333333333335,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002949730671698984,
      "loss": 0.3849,
      "step": 124420
    },
    {
      "epoch": 165.90666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029497226037479595,
      "loss": 0.392,
      "step": 124430
    },
    {
      "epoch": 165.92,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029497145351605917,
      "loss": 0.3931,
      "step": 124440
    },
    {
      "epoch": 165.93333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002949706465936884,
      "loss": 0.3869,
      "step": 124450
    },
    {
      "epoch": 165.94666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029496983960768396,
      "loss": 0.3877,
      "step": 124460
    },
    {
      "epoch": 165.96,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029496903255804617,
      "loss": 0.3857,
      "step": 124470
    },
    {
      "epoch": 165.97333333333333,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002949682254447755,
      "loss": 0.4105,
      "step": 124480
    },
    {
      "epoch": 165.98666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002949674182678722,
      "loss": 0.3831,
      "step": 124490
    },
    {
      "epoch": 166.0,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002949666110273366,
      "loss": 0.3793,
      "step": 124500
    },
    {
      "epoch": 166.0,
      "eval_loss": 0.42683181166648865,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.743,
      "eval_samples_per_second": 1.642,
      "eval_steps_per_second": 0.103,
      "step": 124500
    },
    {
      "epoch": 166.01333333333332,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002949658037231692,
      "loss": 0.3972,
      "step": 124510
    },
    {
      "epoch": 166.02666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002949649963553702,
      "loss": 0.4102,
      "step": 124520
    },
    {
      "epoch": 166.04,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002949641889239401,
      "loss": 0.4235,
      "step": 124530
    },
    {
      "epoch": 166.05333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002949633814288792,
      "loss": 0.4082,
      "step": 124540
    },
    {
      "epoch": 166.06666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002949625738701877,
      "loss": 0.3954,
      "step": 124550
    },
    {
      "epoch": 166.08,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002949617662478662,
      "loss": 0.3985,
      "step": 124560
    },
    {
      "epoch": 166.09333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002949609585619149,
      "loss": 0.3994,
      "step": 124570
    },
    {
      "epoch": 166.10666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002949601508123342,
      "loss": 0.3888,
      "step": 124580
    },
    {
      "epoch": 166.12,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002949593429991244,
      "loss": 0.3926,
      "step": 124590
    },
    {
      "epoch": 166.13333333333333,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000294958535122286,
      "loss": 0.3846,
      "step": 124600
    },
    {
      "epoch": 166.14666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002949577271818192,
      "loss": 0.404,
      "step": 124610
    },
    {
      "epoch": 166.16,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002949569191777244,
      "loss": 0.3971,
      "step": 124620
    },
    {
      "epoch": 166.17333333333335,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029495611111000203,
      "loss": 0.3914,
      "step": 124630
    },
    {
      "epoch": 166.18666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002949553029786523,
      "loss": 0.3901,
      "step": 124640
    },
    {
      "epoch": 166.2,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002949544947836758,
      "loss": 0.3825,
      "step": 124650
    },
    {
      "epoch": 166.21333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002949536865250726,
      "loss": 0.3837,
      "step": 124660
    },
    {
      "epoch": 166.22666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002949528782028432,
      "loss": 0.3948,
      "step": 124670
    },
    {
      "epoch": 166.24,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000294952069816988,
      "loss": 0.3807,
      "step": 124680
    },
    {
      "epoch": 166.25333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029495126136750723,
      "loss": 0.3822,
      "step": 124690
    },
    {
      "epoch": 166.26666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002949504528544013,
      "loss": 0.3847,
      "step": 124700
    },
    {
      "epoch": 166.28,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002949496442776707,
      "loss": 0.4143,
      "step": 124710
    },
    {
      "epoch": 166.29333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029494883563731554,
      "loss": 0.37,
      "step": 124720
    },
    {
      "epoch": 166.30666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002949480269333363,
      "loss": 0.3945,
      "step": 124730
    },
    {
      "epoch": 166.32,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002949472181657334,
      "loss": 0.3963,
      "step": 124740
    },
    {
      "epoch": 166.33333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002949464093345071,
      "loss": 0.3986,
      "step": 124750
    },
    {
      "epoch": 166.34666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029494560043965775,
      "loss": 0.3899,
      "step": 124760
    },
    {
      "epoch": 166.36,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002949447914811858,
      "loss": 0.39,
      "step": 124770
    },
    {
      "epoch": 166.37333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002949439824590915,
      "loss": 0.3913,
      "step": 124780
    },
    {
      "epoch": 166.38666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029494317337337527,
      "loss": 0.3839,
      "step": 124790
    },
    {
      "epoch": 166.4,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002949423642240374,
      "loss": 0.3909,
      "step": 124800
    },
    {
      "epoch": 166.41333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029494155501107834,
      "loss": 0.3952,
      "step": 124810
    },
    {
      "epoch": 166.42666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029494074573449834,
      "loss": 0.3971,
      "step": 124820
    },
    {
      "epoch": 166.44,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029493993639429785,
      "loss": 0.4082,
      "step": 124830
    },
    {
      "epoch": 166.45333333333335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002949391269904772,
      "loss": 0.3969,
      "step": 124840
    },
    {
      "epoch": 166.46666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029493831752303663,
      "loss": 0.4061,
      "step": 124850
    },
    {
      "epoch": 166.48,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002949375079919767,
      "loss": 0.3882,
      "step": 124860
    },
    {
      "epoch": 166.49333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029493669839729766,
      "loss": 0.3998,
      "step": 124870
    },
    {
      "epoch": 166.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002949358887389998,
      "loss": 0.3981,
      "step": 124880
    },
    {
      "epoch": 166.52,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029493507901708353,
      "loss": 0.3887,
      "step": 124890
    },
    {
      "epoch": 166.53333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002949342692315493,
      "loss": 0.3907,
      "step": 124900
    },
    {
      "epoch": 166.54666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002949334593823973,
      "loss": 0.3926,
      "step": 124910
    },
    {
      "epoch": 166.56,
      "grad_norm": 0.375,
      "learning_rate": 0.000294932649469628,
      "loss": 0.387,
      "step": 124920
    },
    {
      "epoch": 166.57333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029493183949324175,
      "loss": 0.3911,
      "step": 124930
    },
    {
      "epoch": 166.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002949310294532388,
      "loss": 0.3798,
      "step": 124940
    },
    {
      "epoch": 166.6,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029493021934961963,
      "loss": 0.3818,
      "step": 124950
    },
    {
      "epoch": 166.61333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029492940918238457,
      "loss": 0.3717,
      "step": 124960
    },
    {
      "epoch": 166.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002949285989515339,
      "loss": 0.3765,
      "step": 124970
    },
    {
      "epoch": 166.64,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002949277886570681,
      "loss": 0.3878,
      "step": 124980
    },
    {
      "epoch": 166.65333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002949269782989874,
      "loss": 0.3984,
      "step": 124990
    },
    {
      "epoch": 166.66666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029492616787729224,
      "loss": 0.3854,
      "step": 125000
    },
    {
      "epoch": 166.68,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002949253573919829,
      "loss": 0.3777,
      "step": 125010
    },
    {
      "epoch": 166.69333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029492454684305983,
      "loss": 0.3868,
      "step": 125020
    },
    {
      "epoch": 166.70666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002949237362305233,
      "loss": 0.3796,
      "step": 125030
    },
    {
      "epoch": 166.72,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029492292555437374,
      "loss": 0.4023,
      "step": 125040
    },
    {
      "epoch": 166.73333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002949221148146115,
      "loss": 0.3955,
      "step": 125050
    },
    {
      "epoch": 166.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002949213040112369,
      "loss": 0.3988,
      "step": 125060
    },
    {
      "epoch": 166.76,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002949204931442502,
      "loss": 0.4115,
      "step": 125070
    },
    {
      "epoch": 166.77333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029491968221365193,
      "loss": 0.397,
      "step": 125080
    },
    {
      "epoch": 166.78666666666666,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029491887121944237,
      "loss": 0.3985,
      "step": 125090
    },
    {
      "epoch": 166.8,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029491806016162186,
      "loss": 0.3972,
      "step": 125100
    },
    {
      "epoch": 166.81333333333333,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002949172490401908,
      "loss": 0.3704,
      "step": 125110
    },
    {
      "epoch": 166.82666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029491643785514954,
      "loss": 0.3797,
      "step": 125120
    },
    {
      "epoch": 166.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002949156266064984,
      "loss": 0.3923,
      "step": 125130
    },
    {
      "epoch": 166.85333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029491481529423774,
      "loss": 0.3866,
      "step": 125140
    },
    {
      "epoch": 166.86666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002949140039183679,
      "loss": 0.3919,
      "step": 125150
    },
    {
      "epoch": 166.88,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002949131924788893,
      "loss": 0.3727,
      "step": 125160
    },
    {
      "epoch": 166.89333333333335,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029491238097580227,
      "loss": 0.3844,
      "step": 125170
    },
    {
      "epoch": 166.90666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002949115694091072,
      "loss": 0.3901,
      "step": 125180
    },
    {
      "epoch": 166.92,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002949107577788043,
      "loss": 0.3931,
      "step": 125190
    },
    {
      "epoch": 166.93333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002949099460848941,
      "loss": 0.3872,
      "step": 125200
    },
    {
      "epoch": 166.94666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002949091343273769,
      "loss": 0.3878,
      "step": 125210
    },
    {
      "epoch": 166.96,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000294908322506253,
      "loss": 0.3853,
      "step": 125220
    },
    {
      "epoch": 166.97333333333333,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00029490751062152283,
      "loss": 0.4102,
      "step": 125230
    },
    {
      "epoch": 166.98666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029490669867318674,
      "loss": 0.3831,
      "step": 125240
    },
    {
      "epoch": 167.0,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000294905886661245,
      "loss": 0.3793,
      "step": 125250
    },
    {
      "epoch": 167.0,
      "eval_loss": 0.42693260312080383,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8575,
      "eval_samples_per_second": 1.623,
      "eval_steps_per_second": 0.101,
      "step": 125250
    },
    {
      "epoch": 167.01333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029490507458569806,
      "loss": 0.396,
      "step": 125260
    },
    {
      "epoch": 167.02666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029490426244654623,
      "loss": 0.4085,
      "step": 125270
    },
    {
      "epoch": 167.04,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002949034502437899,
      "loss": 0.4234,
      "step": 125280
    },
    {
      "epoch": 167.05333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002949026379774294,
      "loss": 0.408,
      "step": 125290
    },
    {
      "epoch": 167.06666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002949018256474651,
      "loss": 0.3955,
      "step": 125300
    },
    {
      "epoch": 167.08,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029490101325389736,
      "loss": 0.3981,
      "step": 125310
    },
    {
      "epoch": 167.09333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029490020079672653,
      "loss": 0.401,
      "step": 125320
    },
    {
      "epoch": 167.10666666666665,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029489938827595294,
      "loss": 0.3883,
      "step": 125330
    },
    {
      "epoch": 167.12,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000294898575691577,
      "loss": 0.3922,
      "step": 125340
    },
    {
      "epoch": 167.13333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029489776304359903,
      "loss": 0.3835,
      "step": 125350
    },
    {
      "epoch": 167.14666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029489695033201935,
      "loss": 0.4031,
      "step": 125360
    },
    {
      "epoch": 167.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002948961375568384,
      "loss": 0.3969,
      "step": 125370
    },
    {
      "epoch": 167.17333333333335,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029489532471805647,
      "loss": 0.3914,
      "step": 125380
    },
    {
      "epoch": 167.18666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.000294894511815674,
      "loss": 0.3907,
      "step": 125390
    },
    {
      "epoch": 167.2,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002948936988496913,
      "loss": 0.3828,
      "step": 125400
    },
    {
      "epoch": 167.21333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029489288582010867,
      "loss": 0.3825,
      "step": 125410
    },
    {
      "epoch": 167.22666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029489207272692647,
      "loss": 0.3953,
      "step": 125420
    },
    {
      "epoch": 167.24,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002948912595701452,
      "loss": 0.3809,
      "step": 125430
    },
    {
      "epoch": 167.25333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002948904463497651,
      "loss": 0.3818,
      "step": 125440
    },
    {
      "epoch": 167.26666666666668,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029488963306578654,
      "loss": 0.3839,
      "step": 125450
    },
    {
      "epoch": 167.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029488881971820985,
      "loss": 0.4146,
      "step": 125460
    },
    {
      "epoch": 167.29333333333332,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002948880063070354,
      "loss": 0.3714,
      "step": 125470
    },
    {
      "epoch": 167.30666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029488719283226364,
      "loss": 0.3945,
      "step": 125480
    },
    {
      "epoch": 167.32,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002948863792938948,
      "loss": 0.3966,
      "step": 125490
    },
    {
      "epoch": 167.33333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029488556569192933,
      "loss": 0.3986,
      "step": 125500
    },
    {
      "epoch": 167.34666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029488475202636753,
      "loss": 0.3901,
      "step": 125510
    },
    {
      "epoch": 167.36,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002948839382972098,
      "loss": 0.3907,
      "step": 125520
    },
    {
      "epoch": 167.37333333333333,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029488312450445646,
      "loss": 0.3911,
      "step": 125530
    },
    {
      "epoch": 167.38666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002948823106481079,
      "loss": 0.3832,
      "step": 125540
    },
    {
      "epoch": 167.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002948814967281644,
      "loss": 0.3915,
      "step": 125550
    },
    {
      "epoch": 167.41333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002948806827446264,
      "loss": 0.3955,
      "step": 125560
    },
    {
      "epoch": 167.42666666666668,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002948798686974942,
      "loss": 0.3966,
      "step": 125570
    },
    {
      "epoch": 167.44,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002948790545867682,
      "loss": 0.4084,
      "step": 125580
    },
    {
      "epoch": 167.45333333333335,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002948782404124488,
      "loss": 0.3974,
      "step": 125590
    },
    {
      "epoch": 167.46666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029487742617453634,
      "loss": 0.4055,
      "step": 125600
    },
    {
      "epoch": 167.48,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029487661187303104,
      "loss": 0.3879,
      "step": 125610
    },
    {
      "epoch": 167.49333333333334,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002948757975079334,
      "loss": 0.3996,
      "step": 125620
    },
    {
      "epoch": 167.50666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029487498307924375,
      "loss": 0.3976,
      "step": 125630
    },
    {
      "epoch": 167.52,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002948741685869624,
      "loss": 0.3883,
      "step": 125640
    },
    {
      "epoch": 167.53333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002948733540310898,
      "loss": 0.3915,
      "step": 125650
    },
    {
      "epoch": 167.54666666666665,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002948725394116262,
      "loss": 0.3933,
      "step": 125660
    },
    {
      "epoch": 167.56,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000294871724728572,
      "loss": 0.3867,
      "step": 125670
    },
    {
      "epoch": 167.57333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029487090998192757,
      "loss": 0.3907,
      "step": 125680
    },
    {
      "epoch": 167.58666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029487009517169325,
      "loss": 0.381,
      "step": 125690
    },
    {
      "epoch": 167.6,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029486928029786945,
      "loss": 0.3812,
      "step": 125700
    },
    {
      "epoch": 167.61333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002948684653604565,
      "loss": 0.372,
      "step": 125710
    },
    {
      "epoch": 167.62666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002948676503594547,
      "loss": 0.3766,
      "step": 125720
    },
    {
      "epoch": 167.64,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029486683529486444,
      "loss": 0.3895,
      "step": 125730
    },
    {
      "epoch": 167.65333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029486602016668616,
      "loss": 0.3984,
      "step": 125740
    },
    {
      "epoch": 167.66666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029486520497492007,
      "loss": 0.386,
      "step": 125750
    },
    {
      "epoch": 167.68,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029486438971956666,
      "loss": 0.3785,
      "step": 125760
    },
    {
      "epoch": 167.69333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002948635744006262,
      "loss": 0.388,
      "step": 125770
    },
    {
      "epoch": 167.70666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002948627590180991,
      "loss": 0.3791,
      "step": 125780
    },
    {
      "epoch": 167.72,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002948619435719857,
      "loss": 0.4028,
      "step": 125790
    },
    {
      "epoch": 167.73333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.0002948611280622863,
      "loss": 0.3948,
      "step": 125800
    },
    {
      "epoch": 167.74666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002948603124890014,
      "loss": 0.3979,
      "step": 125810
    },
    {
      "epoch": 167.76,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029485949685213123,
      "loss": 0.4115,
      "step": 125820
    },
    {
      "epoch": 167.77333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029485868115167624,
      "loss": 0.3984,
      "step": 125830
    },
    {
      "epoch": 167.78666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029485786538763664,
      "loss": 0.3982,
      "step": 125840
    },
    {
      "epoch": 167.8,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029485704956001303,
      "loss": 0.3964,
      "step": 125850
    },
    {
      "epoch": 167.81333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002948562336688055,
      "loss": 0.3707,
      "step": 125860
    },
    {
      "epoch": 167.82666666666665,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002948554177140146,
      "loss": 0.3803,
      "step": 125870
    },
    {
      "epoch": 167.84,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002948546016956406,
      "loss": 0.3916,
      "step": 125880
    },
    {
      "epoch": 167.85333333333332,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002948537856136839,
      "loss": 0.3871,
      "step": 125890
    },
    {
      "epoch": 167.86666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002948529694681448,
      "loss": 0.3925,
      "step": 125900
    },
    {
      "epoch": 167.88,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002948521532590237,
      "loss": 0.3735,
      "step": 125910
    },
    {
      "epoch": 167.89333333333335,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000294851336986321,
      "loss": 0.3845,
      "step": 125920
    },
    {
      "epoch": 167.90666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029485052065003696,
      "loss": 0.3899,
      "step": 125930
    },
    {
      "epoch": 167.92,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029484970425017204,
      "loss": 0.393,
      "step": 125940
    },
    {
      "epoch": 167.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002948488877867265,
      "loss": 0.3862,
      "step": 125950
    },
    {
      "epoch": 167.94666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002948480712597008,
      "loss": 0.3889,
      "step": 125960
    },
    {
      "epoch": 167.96,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002948472546690952,
      "loss": 0.3859,
      "step": 125970
    },
    {
      "epoch": 167.97333333333333,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002948464380149101,
      "loss": 0.4097,
      "step": 125980
    },
    {
      "epoch": 167.98666666666668,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002948456212971459,
      "loss": 0.383,
      "step": 125990
    },
    {
      "epoch": 168.0,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029484480451580293,
      "loss": 0.3791,
      "step": 126000
    },
    {
      "epoch": 168.0,
      "eval_loss": 0.42691129446029663,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6775,
      "eval_samples_per_second": 1.653,
      "eval_steps_per_second": 0.103,
      "step": 126000
    },
    {
      "epoch": 168.01333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029484398767088153,
      "loss": 0.3973,
      "step": 126010
    },
    {
      "epoch": 168.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002948431707623821,
      "loss": 0.4097,
      "step": 126020
    },
    {
      "epoch": 168.04,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029484235379030485,
      "loss": 0.4229,
      "step": 126030
    },
    {
      "epoch": 168.05333333333334,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002948415367546504,
      "loss": 0.4078,
      "step": 126040
    },
    {
      "epoch": 168.06666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029484071965541885,
      "loss": 0.396,
      "step": 126050
    },
    {
      "epoch": 168.08,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029483990249261073,
      "loss": 0.399,
      "step": 126060
    },
    {
      "epoch": 168.09333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029483908526622634,
      "loss": 0.3997,
      "step": 126070
    },
    {
      "epoch": 168.10666666666665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000294838267976266,
      "loss": 0.3882,
      "step": 126080
    },
    {
      "epoch": 168.12,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002948374506227302,
      "loss": 0.3926,
      "step": 126090
    },
    {
      "epoch": 168.13333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029483663320561916,
      "loss": 0.3854,
      "step": 126100
    },
    {
      "epoch": 168.14666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029483581572493326,
      "loss": 0.4031,
      "step": 126110
    },
    {
      "epoch": 168.16,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029483499818067294,
      "loss": 0.3973,
      "step": 126120
    },
    {
      "epoch": 168.17333333333335,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002948341805728385,
      "loss": 0.392,
      "step": 126130
    },
    {
      "epoch": 168.18666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029483336290143025,
      "loss": 0.3895,
      "step": 126140
    },
    {
      "epoch": 168.2,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029483254516644863,
      "loss": 0.3822,
      "step": 126150
    },
    {
      "epoch": 168.21333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029483172736789395,
      "loss": 0.3834,
      "step": 126160
    },
    {
      "epoch": 168.22666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029483090950576665,
      "loss": 0.3948,
      "step": 126170
    },
    {
      "epoch": 168.24,
      "grad_norm": 0.455078125,
      "learning_rate": 0.000294830091580067,
      "loss": 0.3806,
      "step": 126180
    },
    {
      "epoch": 168.25333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029482927359079534,
      "loss": 0.3821,
      "step": 126190
    },
    {
      "epoch": 168.26666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002948284555379521,
      "loss": 0.3838,
      "step": 126200
    },
    {
      "epoch": 168.28,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002948276374215377,
      "loss": 0.413,
      "step": 126210
    },
    {
      "epoch": 168.29333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002948268192415523,
      "loss": 0.3711,
      "step": 126220
    },
    {
      "epoch": 168.30666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029482600099799643,
      "loss": 0.3941,
      "step": 126230
    },
    {
      "epoch": 168.32,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029482518269087043,
      "loss": 0.3965,
      "step": 126240
    },
    {
      "epoch": 168.33333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002948243643201745,
      "loss": 0.3999,
      "step": 126250
    },
    {
      "epoch": 168.34666666666666,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002948235458859092,
      "loss": 0.3908,
      "step": 126260
    },
    {
      "epoch": 168.36,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002948227273880749,
      "loss": 0.3895,
      "step": 126270
    },
    {
      "epoch": 168.37333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029482190882667176,
      "loss": 0.3922,
      "step": 126280
    },
    {
      "epoch": 168.38666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002948210902017003,
      "loss": 0.384,
      "step": 126290
    },
    {
      "epoch": 168.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002948202715131608,
      "loss": 0.3912,
      "step": 126300
    },
    {
      "epoch": 168.41333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002948194527610537,
      "loss": 0.3961,
      "step": 126310
    },
    {
      "epoch": 168.42666666666668,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029481863394537923,
      "loss": 0.398,
      "step": 126320
    },
    {
      "epoch": 168.44,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029481781506613785,
      "loss": 0.4092,
      "step": 126330
    },
    {
      "epoch": 168.45333333333335,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002948169961233299,
      "loss": 0.3983,
      "step": 126340
    },
    {
      "epoch": 168.46666666666667,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029481617711695575,
      "loss": 0.4059,
      "step": 126350
    },
    {
      "epoch": 168.48,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029481535804701573,
      "loss": 0.3878,
      "step": 126360
    },
    {
      "epoch": 168.49333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029481453891351024,
      "loss": 0.3996,
      "step": 126370
    },
    {
      "epoch": 168.50666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029481371971643966,
      "loss": 0.398,
      "step": 126380
    },
    {
      "epoch": 168.52,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002948129004558042,
      "loss": 0.3878,
      "step": 126390
    },
    {
      "epoch": 168.53333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002948120811316044,
      "loss": 0.3912,
      "step": 126400
    },
    {
      "epoch": 168.54666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029481126174384054,
      "loss": 0.3936,
      "step": 126410
    },
    {
      "epoch": 168.56,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029481044229251295,
      "loss": 0.3874,
      "step": 126420
    },
    {
      "epoch": 168.57333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029480962277762205,
      "loss": 0.3911,
      "step": 126430
    },
    {
      "epoch": 168.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002948088031991682,
      "loss": 0.3804,
      "step": 126440
    },
    {
      "epoch": 168.6,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029480798355715164,
      "loss": 0.3814,
      "step": 126450
    },
    {
      "epoch": 168.61333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002948071638515729,
      "loss": 0.3714,
      "step": 126460
    },
    {
      "epoch": 168.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029480634408243225,
      "loss": 0.3776,
      "step": 126470
    },
    {
      "epoch": 168.64,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029480552424973003,
      "loss": 0.3892,
      "step": 126480
    },
    {
      "epoch": 168.65333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002948047043534667,
      "loss": 0.3966,
      "step": 126490
    },
    {
      "epoch": 168.66666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029480388439364247,
      "loss": 0.3857,
      "step": 126500
    },
    {
      "epoch": 168.68,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002948030643702578,
      "loss": 0.377,
      "step": 126510
    },
    {
      "epoch": 168.69333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002948022442833131,
      "loss": 0.3862,
      "step": 126520
    },
    {
      "epoch": 168.70666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029480142413280854,
      "loss": 0.3801,
      "step": 126530
    },
    {
      "epoch": 168.72,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029480060391874467,
      "loss": 0.4015,
      "step": 126540
    },
    {
      "epoch": 168.73333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002947997836411218,
      "loss": 0.396,
      "step": 126550
    },
    {
      "epoch": 168.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002947989632999403,
      "loss": 0.3978,
      "step": 126560
    },
    {
      "epoch": 168.76,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002947981428952005,
      "loss": 0.4116,
      "step": 126570
    },
    {
      "epoch": 168.77333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002947973224269027,
      "loss": 0.3977,
      "step": 126580
    },
    {
      "epoch": 168.78666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029479650189504733,
      "loss": 0.3986,
      "step": 126590
    },
    {
      "epoch": 168.8,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029479568129963475,
      "loss": 0.3963,
      "step": 126600
    },
    {
      "epoch": 168.81333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002947948606406653,
      "loss": 0.3703,
      "step": 126610
    },
    {
      "epoch": 168.82666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002947940399181394,
      "loss": 0.3796,
      "step": 126620
    },
    {
      "epoch": 168.84,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029479321913205734,
      "loss": 0.3916,
      "step": 126630
    },
    {
      "epoch": 168.85333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029479239828241946,
      "loss": 0.3876,
      "step": 126640
    },
    {
      "epoch": 168.86666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029479157736922624,
      "loss": 0.3908,
      "step": 126650
    },
    {
      "epoch": 168.88,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002947907563924779,
      "loss": 0.3726,
      "step": 126660
    },
    {
      "epoch": 168.89333333333335,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029478993535217494,
      "loss": 0.3847,
      "step": 126670
    },
    {
      "epoch": 168.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029478911424831757,
      "loss": 0.3912,
      "step": 126680
    },
    {
      "epoch": 168.92,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029478829308090626,
      "loss": 0.3931,
      "step": 126690
    },
    {
      "epoch": 168.93333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002947874718499413,
      "loss": 0.3862,
      "step": 126700
    },
    {
      "epoch": 168.94666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002947866505554232,
      "loss": 0.3873,
      "step": 126710
    },
    {
      "epoch": 168.96,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002947858291973521,
      "loss": 0.385,
      "step": 126720
    },
    {
      "epoch": 168.97333333333333,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00029478500777572846,
      "loss": 0.4101,
      "step": 126730
    },
    {
      "epoch": 168.98666666666668,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002947841862905527,
      "loss": 0.3839,
      "step": 126740
    },
    {
      "epoch": 169.0,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029478336474182514,
      "loss": 0.3803,
      "step": 126750
    },
    {
      "epoch": 169.0,
      "eval_loss": 0.4274819791316986,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9632,
      "eval_samples_per_second": 1.606,
      "eval_steps_per_second": 0.1,
      "step": 126750
    },
    {
      "epoch": 169.01333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029478254312954606,
      "loss": 0.3964,
      "step": 126760
    },
    {
      "epoch": 169.02666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002947817214537159,
      "loss": 0.4094,
      "step": 126770
    },
    {
      "epoch": 169.04,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029478089971433506,
      "loss": 0.423,
      "step": 126780
    },
    {
      "epoch": 169.05333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002947800779114038,
      "loss": 0.4087,
      "step": 126790
    },
    {
      "epoch": 169.06666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002947792560449226,
      "loss": 0.3951,
      "step": 126800
    },
    {
      "epoch": 169.08,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002947784341148917,
      "loss": 0.3992,
      "step": 126810
    },
    {
      "epoch": 169.09333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002947776121213115,
      "loss": 0.3992,
      "step": 126820
    },
    {
      "epoch": 169.10666666666665,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002947767900641824,
      "loss": 0.3882,
      "step": 126830
    },
    {
      "epoch": 169.12,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029477596794350475,
      "loss": 0.3937,
      "step": 126840
    },
    {
      "epoch": 169.13333333333333,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002947751457592789,
      "loss": 0.3837,
      "step": 126850
    },
    {
      "epoch": 169.14666666666668,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029477432351150516,
      "loss": 0.4032,
      "step": 126860
    },
    {
      "epoch": 169.16,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029477350120018397,
      "loss": 0.3971,
      "step": 126870
    },
    {
      "epoch": 169.17333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002947726788253157,
      "loss": 0.3914,
      "step": 126880
    },
    {
      "epoch": 169.18666666666667,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029477185638690056,
      "loss": 0.3897,
      "step": 126890
    },
    {
      "epoch": 169.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029477103388493906,
      "loss": 0.3824,
      "step": 126900
    },
    {
      "epoch": 169.21333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002947702113194316,
      "loss": 0.3833,
      "step": 126910
    },
    {
      "epoch": 169.22666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029476938869037834,
      "loss": 0.3948,
      "step": 126920
    },
    {
      "epoch": 169.24,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029476856599777983,
      "loss": 0.3806,
      "step": 126930
    },
    {
      "epoch": 169.25333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002947677432416364,
      "loss": 0.3811,
      "step": 126940
    },
    {
      "epoch": 169.26666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029476692042194836,
      "loss": 0.3838,
      "step": 126950
    },
    {
      "epoch": 169.28,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029476609753871605,
      "loss": 0.4141,
      "step": 126960
    },
    {
      "epoch": 169.29333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002947652745919399,
      "loss": 0.3703,
      "step": 126970
    },
    {
      "epoch": 169.30666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029476445158162023,
      "loss": 0.3938,
      "step": 126980
    },
    {
      "epoch": 169.32,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002947636285077574,
      "loss": 0.3965,
      "step": 126990
    },
    {
      "epoch": 169.33333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002947628053703518,
      "loss": 0.3987,
      "step": 127000
    },
    {
      "epoch": 169.34666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029476198216940374,
      "loss": 0.3902,
      "step": 127010
    },
    {
      "epoch": 169.36,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00029476115890491363,
      "loss": 0.3902,
      "step": 127020
    },
    {
      "epoch": 169.37333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029476033557688185,
      "loss": 0.3917,
      "step": 127030
    },
    {
      "epoch": 169.38666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029475951218530867,
      "loss": 0.3831,
      "step": 127040
    },
    {
      "epoch": 169.4,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029475868873019457,
      "loss": 0.3914,
      "step": 127050
    },
    {
      "epoch": 169.41333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002947578652115398,
      "loss": 0.3958,
      "step": 127060
    },
    {
      "epoch": 169.42666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002947570416293448,
      "loss": 0.3979,
      "step": 127070
    },
    {
      "epoch": 169.44,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029475621798360986,
      "loss": 0.4085,
      "step": 127080
    },
    {
      "epoch": 169.45333333333335,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002947553942743354,
      "loss": 0.3972,
      "step": 127090
    },
    {
      "epoch": 169.46666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029475457050152183,
      "loss": 0.4054,
      "step": 127100
    },
    {
      "epoch": 169.48,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002947537466651694,
      "loss": 0.3878,
      "step": 127110
    },
    {
      "epoch": 169.49333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029475292276527854,
      "loss": 0.4001,
      "step": 127120
    },
    {
      "epoch": 169.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002947520988018496,
      "loss": 0.3982,
      "step": 127130
    },
    {
      "epoch": 169.52,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029475127477488286,
      "loss": 0.3889,
      "step": 127140
    },
    {
      "epoch": 169.53333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029475045068437885,
      "loss": 0.3916,
      "step": 127150
    },
    {
      "epoch": 169.54666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002947496265303378,
      "loss": 0.3934,
      "step": 127160
    },
    {
      "epoch": 169.56,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029474880231276,
      "loss": 0.3871,
      "step": 127170
    },
    {
      "epoch": 169.57333333333332,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029474797803164606,
      "loss": 0.3909,
      "step": 127180
    },
    {
      "epoch": 169.58666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029474715368699617,
      "loss": 0.3791,
      "step": 127190
    },
    {
      "epoch": 169.6,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029474632927881073,
      "loss": 0.3812,
      "step": 127200
    },
    {
      "epoch": 169.61333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002947455048070901,
      "loss": 0.3718,
      "step": 127210
    },
    {
      "epoch": 169.62666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029474468027183457,
      "loss": 0.377,
      "step": 127220
    },
    {
      "epoch": 169.64,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002947438556730446,
      "loss": 0.3889,
      "step": 127230
    },
    {
      "epoch": 169.65333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029474303101072056,
      "loss": 0.3982,
      "step": 127240
    },
    {
      "epoch": 169.66666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029474220628486275,
      "loss": 0.3867,
      "step": 127250
    },
    {
      "epoch": 169.68,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029474138149547155,
      "loss": 0.3774,
      "step": 127260
    },
    {
      "epoch": 169.69333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029474055664254736,
      "loss": 0.3861,
      "step": 127270
    },
    {
      "epoch": 169.70666666666668,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029473973172609044,
      "loss": 0.3795,
      "step": 127280
    },
    {
      "epoch": 169.72,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002947389067461013,
      "loss": 0.4008,
      "step": 127290
    },
    {
      "epoch": 169.73333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029473808170258015,
      "loss": 0.3955,
      "step": 127300
    },
    {
      "epoch": 169.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002947372565955275,
      "loss": 0.3986,
      "step": 127310
    },
    {
      "epoch": 169.76,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029473643142494355,
      "loss": 0.4121,
      "step": 127320
    },
    {
      "epoch": 169.77333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029473560619082883,
      "loss": 0.3975,
      "step": 127330
    },
    {
      "epoch": 169.78666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029473478089318356,
      "loss": 0.3983,
      "step": 127340
    },
    {
      "epoch": 169.8,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002947339555320082,
      "loss": 0.3969,
      "step": 127350
    },
    {
      "epoch": 169.81333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002947331301073031,
      "loss": 0.3712,
      "step": 127360
    },
    {
      "epoch": 169.82666666666665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029473230461906855,
      "loss": 0.3797,
      "step": 127370
    },
    {
      "epoch": 169.84,
      "grad_norm": 0.46484375,
      "learning_rate": 0.000294731479067305,
      "loss": 0.3915,
      "step": 127380
    },
    {
      "epoch": 169.85333333333332,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029473065345201276,
      "loss": 0.3874,
      "step": 127390
    },
    {
      "epoch": 169.86666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002947298277731922,
      "loss": 0.3921,
      "step": 127400
    },
    {
      "epoch": 169.88,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029472900203084373,
      "loss": 0.3722,
      "step": 127410
    },
    {
      "epoch": 169.89333333333335,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002947281762249676,
      "loss": 0.3852,
      "step": 127420
    },
    {
      "epoch": 169.90666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002947273503555643,
      "loss": 0.3914,
      "step": 127430
    },
    {
      "epoch": 169.92,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002947265244226341,
      "loss": 0.3919,
      "step": 127440
    },
    {
      "epoch": 169.93333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029472569842617743,
      "loss": 0.3863,
      "step": 127450
    },
    {
      "epoch": 169.94666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002947248723661946,
      "loss": 0.3872,
      "step": 127460
    },
    {
      "epoch": 169.96,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029472404624268596,
      "loss": 0.3857,
      "step": 127470
    },
    {
      "epoch": 169.97333333333333,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029472322005565197,
      "loss": 0.4104,
      "step": 127480
    },
    {
      "epoch": 169.98666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002947223938050929,
      "loss": 0.3824,
      "step": 127490
    },
    {
      "epoch": 170.0,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002947215674910091,
      "loss": 0.3796,
      "step": 127500
    },
    {
      "epoch": 170.0,
      "eval_loss": 0.42618387937545776,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0708,
      "eval_samples_per_second": 1.589,
      "eval_steps_per_second": 0.099,
      "step": 127500
    },
    {
      "epoch": 170.01333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029472074111340106,
      "loss": 0.3959,
      "step": 127510
    },
    {
      "epoch": 170.02666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000294719914672269,
      "loss": 0.4101,
      "step": 127520
    },
    {
      "epoch": 170.04,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002947190881676134,
      "loss": 0.4229,
      "step": 127530
    },
    {
      "epoch": 170.05333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029471826159943446,
      "loss": 0.408,
      "step": 127540
    },
    {
      "epoch": 170.06666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002947174349677327,
      "loss": 0.3953,
      "step": 127550
    },
    {
      "epoch": 170.08,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002947166082725084,
      "loss": 0.3986,
      "step": 127560
    },
    {
      "epoch": 170.09333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029471578151376204,
      "loss": 0.3997,
      "step": 127570
    },
    {
      "epoch": 170.10666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029471495469149384,
      "loss": 0.3877,
      "step": 127580
    },
    {
      "epoch": 170.12,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002947141278057042,
      "loss": 0.3926,
      "step": 127590
    },
    {
      "epoch": 170.13333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002947133008563935,
      "loss": 0.3839,
      "step": 127600
    },
    {
      "epoch": 170.14666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029471247384356213,
      "loss": 0.4034,
      "step": 127610
    },
    {
      "epoch": 170.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029471164676721044,
      "loss": 0.3966,
      "step": 127620
    },
    {
      "epoch": 170.17333333333335,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002947108196273387,
      "loss": 0.3913,
      "step": 127630
    },
    {
      "epoch": 170.18666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002947099924239474,
      "loss": 0.3894,
      "step": 127640
    },
    {
      "epoch": 170.2,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029470916515703685,
      "loss": 0.3831,
      "step": 127650
    },
    {
      "epoch": 170.21333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002947083378266075,
      "loss": 0.3839,
      "step": 127660
    },
    {
      "epoch": 170.22666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029470751043265953,
      "loss": 0.3948,
      "step": 127670
    },
    {
      "epoch": 170.24,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029470668297519343,
      "loss": 0.3798,
      "step": 127680
    },
    {
      "epoch": 170.25333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002947058554542095,
      "loss": 0.3815,
      "step": 127690
    },
    {
      "epoch": 170.26666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002947050278697082,
      "loss": 0.3837,
      "step": 127700
    },
    {
      "epoch": 170.28,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029470420022168983,
      "loss": 0.4138,
      "step": 127710
    },
    {
      "epoch": 170.29333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002947033725101548,
      "loss": 0.37,
      "step": 127720
    },
    {
      "epoch": 170.30666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002947025447351033,
      "loss": 0.3932,
      "step": 127730
    },
    {
      "epoch": 170.32,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002947017168965359,
      "loss": 0.3965,
      "step": 127740
    },
    {
      "epoch": 170.33333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029470088899445293,
      "loss": 0.3986,
      "step": 127750
    },
    {
      "epoch": 170.34666666666666,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029470006102885467,
      "loss": 0.3895,
      "step": 127760
    },
    {
      "epoch": 170.36,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002946992329997415,
      "loss": 0.3904,
      "step": 127770
    },
    {
      "epoch": 170.37333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029469840490711384,
      "loss": 0.3915,
      "step": 127780
    },
    {
      "epoch": 170.38666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000294697576750972,
      "loss": 0.384,
      "step": 127790
    },
    {
      "epoch": 170.4,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002946967485313164,
      "loss": 0.3913,
      "step": 127800
    },
    {
      "epoch": 170.41333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029469592024814736,
      "loss": 0.3953,
      "step": 127810
    },
    {
      "epoch": 170.42666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002946950919014652,
      "loss": 0.3963,
      "step": 127820
    },
    {
      "epoch": 170.44,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002946942634912704,
      "loss": 0.4085,
      "step": 127830
    },
    {
      "epoch": 170.45333333333335,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002946934350175632,
      "loss": 0.3973,
      "step": 127840
    },
    {
      "epoch": 170.46666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029469260648034407,
      "loss": 0.4061,
      "step": 127850
    },
    {
      "epoch": 170.48,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029469177787961334,
      "loss": 0.3872,
      "step": 127860
    },
    {
      "epoch": 170.49333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029469094921537136,
      "loss": 0.3996,
      "step": 127870
    },
    {
      "epoch": 170.50666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029469012048761843,
      "loss": 0.3982,
      "step": 127880
    },
    {
      "epoch": 170.52,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000294689291696355,
      "loss": 0.3881,
      "step": 127890
    },
    {
      "epoch": 170.53333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002946884628415814,
      "loss": 0.3913,
      "step": 127900
    },
    {
      "epoch": 170.54666666666665,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029468763392329804,
      "loss": 0.393,
      "step": 127910
    },
    {
      "epoch": 170.56,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029468680494150527,
      "loss": 0.3876,
      "step": 127920
    },
    {
      "epoch": 170.57333333333332,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029468597589620335,
      "loss": 0.3905,
      "step": 127930
    },
    {
      "epoch": 170.58666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029468514678739283,
      "loss": 0.3793,
      "step": 127940
    },
    {
      "epoch": 170.6,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002946843176150739,
      "loss": 0.3817,
      "step": 127950
    },
    {
      "epoch": 170.61333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029468348837924705,
      "loss": 0.3727,
      "step": 127960
    },
    {
      "epoch": 170.62666666666667,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029468265907991255,
      "loss": 0.3775,
      "step": 127970
    },
    {
      "epoch": 170.64,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002946818297170708,
      "loss": 0.3889,
      "step": 127980
    },
    {
      "epoch": 170.65333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002946810002907222,
      "loss": 0.397,
      "step": 127990
    },
    {
      "epoch": 170.66666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029468017080086707,
      "loss": 0.3866,
      "step": 128000
    },
    {
      "epoch": 170.68,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029467934124750573,
      "loss": 0.377,
      "step": 128010
    },
    {
      "epoch": 170.69333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029467851163063867,
      "loss": 0.3865,
      "step": 128020
    },
    {
      "epoch": 170.70666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029467768195026614,
      "loss": 0.3788,
      "step": 128030
    },
    {
      "epoch": 170.72,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002946768522063886,
      "loss": 0.4004,
      "step": 128040
    },
    {
      "epoch": 170.73333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029467602239900627,
      "loss": 0.3951,
      "step": 128050
    },
    {
      "epoch": 170.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002946751925281197,
      "loss": 0.3984,
      "step": 128060
    },
    {
      "epoch": 170.76,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002946743625937291,
      "loss": 0.4109,
      "step": 128070
    },
    {
      "epoch": 170.77333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002946735325958349,
      "loss": 0.3978,
      "step": 128080
    },
    {
      "epoch": 170.78666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029467270253443747,
      "loss": 0.3984,
      "step": 128090
    },
    {
      "epoch": 170.8,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002946718724095372,
      "loss": 0.3976,
      "step": 128100
    },
    {
      "epoch": 170.81333333333333,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029467104222113434,
      "loss": 0.3705,
      "step": 128110
    },
    {
      "epoch": 170.82666666666665,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0002946702119692294,
      "loss": 0.3793,
      "step": 128120
    },
    {
      "epoch": 170.84,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029466938165382265,
      "loss": 0.3918,
      "step": 128130
    },
    {
      "epoch": 170.85333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002946685512749145,
      "loss": 0.3871,
      "step": 128140
    },
    {
      "epoch": 170.86666666666667,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002946677208325053,
      "loss": 0.3912,
      "step": 128150
    },
    {
      "epoch": 170.88,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002946668903265954,
      "loss": 0.3714,
      "step": 128160
    },
    {
      "epoch": 170.89333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002946660597571851,
      "loss": 0.3846,
      "step": 128170
    },
    {
      "epoch": 170.90666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029466522912427494,
      "loss": 0.3905,
      "step": 128180
    },
    {
      "epoch": 170.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002946643984278652,
      "loss": 0.3926,
      "step": 128190
    },
    {
      "epoch": 170.93333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002946635676679561,
      "loss": 0.386,
      "step": 128200
    },
    {
      "epoch": 170.94666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002946627368445482,
      "loss": 0.3877,
      "step": 128210
    },
    {
      "epoch": 170.96,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029466190595764185,
      "loss": 0.3854,
      "step": 128220
    },
    {
      "epoch": 170.97333333333333,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00029466107500723734,
      "loss": 0.4107,
      "step": 128230
    },
    {
      "epoch": 170.98666666666668,
      "grad_norm": 0.3671875,
      "learning_rate": 0.000294660243993335,
      "loss": 0.3819,
      "step": 128240
    },
    {
      "epoch": 171.0,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002946594129159353,
      "loss": 0.38,
      "step": 128250
    },
    {
      "epoch": 171.0,
      "eval_loss": 0.42594289779663086,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2429,
      "eval_samples_per_second": 1.562,
      "eval_steps_per_second": 0.098,
      "step": 128250
    },
    {
      "epoch": 171.01333333333332,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002946585817750385,
      "loss": 0.3959,
      "step": 128260
    },
    {
      "epoch": 171.02666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002946577505706451,
      "loss": 0.4097,
      "step": 128270
    },
    {
      "epoch": 171.04,
      "grad_norm": 0.375,
      "learning_rate": 0.00029465691930275536,
      "loss": 0.4231,
      "step": 128280
    },
    {
      "epoch": 171.05333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002946560879713697,
      "loss": 0.4077,
      "step": 128290
    },
    {
      "epoch": 171.06666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002946552565764884,
      "loss": 0.3963,
      "step": 128300
    },
    {
      "epoch": 171.08,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029465442511811187,
      "loss": 0.3989,
      "step": 128310
    },
    {
      "epoch": 171.09333333333333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029465359359624055,
      "loss": 0.3996,
      "step": 128320
    },
    {
      "epoch": 171.10666666666665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029465276201087466,
      "loss": 0.3876,
      "step": 128330
    },
    {
      "epoch": 171.12,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029465193036201475,
      "loss": 0.392,
      "step": 128340
    },
    {
      "epoch": 171.13333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000294651098649661,
      "loss": 0.3839,
      "step": 128350
    },
    {
      "epoch": 171.14666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002946502668738139,
      "loss": 0.4036,
      "step": 128360
    },
    {
      "epoch": 171.16,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029464943503447374,
      "loss": 0.397,
      "step": 128370
    },
    {
      "epoch": 171.17333333333335,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029464860313164093,
      "loss": 0.3908,
      "step": 128380
    },
    {
      "epoch": 171.18666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029464777116531584,
      "loss": 0.3904,
      "step": 128390
    },
    {
      "epoch": 171.2,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002946469391354988,
      "loss": 0.3825,
      "step": 128400
    },
    {
      "epoch": 171.21333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029464610704219013,
      "loss": 0.3835,
      "step": 128410
    },
    {
      "epoch": 171.22666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029464527488539034,
      "loss": 0.3945,
      "step": 128420
    },
    {
      "epoch": 171.24,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002946444426650997,
      "loss": 0.3801,
      "step": 128430
    },
    {
      "epoch": 171.25333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029464361038131855,
      "loss": 0.3818,
      "step": 128440
    },
    {
      "epoch": 171.26666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002946427780340473,
      "loss": 0.3839,
      "step": 128450
    },
    {
      "epoch": 171.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002946419456232863,
      "loss": 0.4145,
      "step": 128460
    },
    {
      "epoch": 171.29333333333332,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000294641113149036,
      "loss": 0.3707,
      "step": 128470
    },
    {
      "epoch": 171.30666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002946402806112966,
      "loss": 0.3935,
      "step": 128480
    },
    {
      "epoch": 171.32,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00029463944801006863,
      "loss": 0.3968,
      "step": 128490
    },
    {
      "epoch": 171.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029463861534535237,
      "loss": 0.3987,
      "step": 128500
    },
    {
      "epoch": 171.34666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029463778261714816,
      "loss": 0.3898,
      "step": 128510
    },
    {
      "epoch": 171.36,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00029463694982545643,
      "loss": 0.3901,
      "step": 128520
    },
    {
      "epoch": 171.37333333333333,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029463611697027746,
      "loss": 0.392,
      "step": 128530
    },
    {
      "epoch": 171.38666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029463528405161173,
      "loss": 0.3838,
      "step": 128540
    },
    {
      "epoch": 171.4,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002946344510694595,
      "loss": 0.3921,
      "step": 128550
    },
    {
      "epoch": 171.41333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029463361802382123,
      "loss": 0.3953,
      "step": 128560
    },
    {
      "epoch": 171.42666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002946327849146972,
      "loss": 0.3969,
      "step": 128570
    },
    {
      "epoch": 171.44,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029463195174208787,
      "loss": 0.4097,
      "step": 128580
    },
    {
      "epoch": 171.45333333333335,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029463111850599354,
      "loss": 0.3963,
      "step": 128590
    },
    {
      "epoch": 171.46666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002946302852064145,
      "loss": 0.4065,
      "step": 128600
    },
    {
      "epoch": 171.48,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002946294518433513,
      "loss": 0.3867,
      "step": 128610
    },
    {
      "epoch": 171.49333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029462861841680416,
      "loss": 0.3994,
      "step": 128620
    },
    {
      "epoch": 171.50666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029462778492677353,
      "loss": 0.3975,
      "step": 128630
    },
    {
      "epoch": 171.52,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002946269513732597,
      "loss": 0.3878,
      "step": 128640
    },
    {
      "epoch": 171.53333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029462611775626305,
      "loss": 0.3909,
      "step": 128650
    },
    {
      "epoch": 171.54666666666665,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002946252840757841,
      "loss": 0.3929,
      "step": 128660
    },
    {
      "epoch": 171.56,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029462445033182294,
      "loss": 0.3876,
      "step": 128670
    },
    {
      "epoch": 171.57333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029462361652438015,
      "loss": 0.3911,
      "step": 128680
    },
    {
      "epoch": 171.58666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000294622782653456,
      "loss": 0.38,
      "step": 128690
    },
    {
      "epoch": 171.6,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000294621948719051,
      "loss": 0.3815,
      "step": 128700
    },
    {
      "epoch": 171.61333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029462111472116525,
      "loss": 0.3716,
      "step": 128710
    },
    {
      "epoch": 171.62666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002946202806597993,
      "loss": 0.3775,
      "step": 128720
    },
    {
      "epoch": 171.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002946194465349535,
      "loss": 0.3891,
      "step": 128730
    },
    {
      "epoch": 171.65333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029461861234662823,
      "loss": 0.3974,
      "step": 128740
    },
    {
      "epoch": 171.66666666666666,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002946177780948238,
      "loss": 0.3857,
      "step": 128750
    },
    {
      "epoch": 171.68,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002946169437795406,
      "loss": 0.3774,
      "step": 128760
    },
    {
      "epoch": 171.69333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029461610940077906,
      "loss": 0.3868,
      "step": 128770
    },
    {
      "epoch": 171.70666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002946152749585394,
      "loss": 0.379,
      "step": 128780
    },
    {
      "epoch": 171.72,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029461444045282206,
      "loss": 0.4009,
      "step": 128790
    },
    {
      "epoch": 171.73333333333332,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002946136058836275,
      "loss": 0.3949,
      "step": 128800
    },
    {
      "epoch": 171.74666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002946127712509559,
      "loss": 0.3987,
      "step": 128810
    },
    {
      "epoch": 171.76,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002946119365548078,
      "loss": 0.4117,
      "step": 128820
    },
    {
      "epoch": 171.77333333333334,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002946111017951835,
      "loss": 0.3974,
      "step": 128830
    },
    {
      "epoch": 171.78666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002946102669720834,
      "loss": 0.3994,
      "step": 128840
    },
    {
      "epoch": 171.8,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002946094320855077,
      "loss": 0.3968,
      "step": 128850
    },
    {
      "epoch": 171.81333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.00029460859713545704,
      "loss": 0.3709,
      "step": 128860
    },
    {
      "epoch": 171.82666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029460776212193154,
      "loss": 0.3799,
      "step": 128870
    },
    {
      "epoch": 171.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002946069270449317,
      "loss": 0.3905,
      "step": 128880
    },
    {
      "epoch": 171.85333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029460609190445783,
      "loss": 0.3871,
      "step": 128890
    },
    {
      "epoch": 171.86666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002946052567005104,
      "loss": 0.3911,
      "step": 128900
    },
    {
      "epoch": 171.88,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002946044214330896,
      "loss": 0.3729,
      "step": 128910
    },
    {
      "epoch": 171.89333333333335,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029460358610219596,
      "loss": 0.3843,
      "step": 128920
    },
    {
      "epoch": 171.90666666666667,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029460275070782976,
      "loss": 0.3902,
      "step": 128930
    },
    {
      "epoch": 171.92,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029460191524999143,
      "loss": 0.3931,
      "step": 128940
    },
    {
      "epoch": 171.93333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029460107972868125,
      "loss": 0.3862,
      "step": 128950
    },
    {
      "epoch": 171.94666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002946002441438996,
      "loss": 0.3872,
      "step": 128960
    },
    {
      "epoch": 171.96,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002945994084956469,
      "loss": 0.3843,
      "step": 128970
    },
    {
      "epoch": 171.97333333333333,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029459857278392356,
      "loss": 0.4101,
      "step": 128980
    },
    {
      "epoch": 171.98666666666668,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029459773700872983,
      "loss": 0.383,
      "step": 128990
    },
    {
      "epoch": 172.0,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029459690117006614,
      "loss": 0.3789,
      "step": 129000
    },
    {
      "epoch": 172.0,
      "eval_loss": 0.4271913170814514,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9853,
      "eval_samples_per_second": 1.602,
      "eval_steps_per_second": 0.1,
      "step": 129000
    },
    {
      "epoch": 172.01333333333332,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002945960652679328,
      "loss": 0.3971,
      "step": 129010
    },
    {
      "epoch": 172.02666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029459522930233025,
      "loss": 0.4094,
      "step": 129020
    },
    {
      "epoch": 172.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029459439327325887,
      "loss": 0.4227,
      "step": 129030
    },
    {
      "epoch": 172.05333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029459355718071894,
      "loss": 0.4079,
      "step": 129040
    },
    {
      "epoch": 172.06666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002945927210247109,
      "loss": 0.3957,
      "step": 129050
    },
    {
      "epoch": 172.08,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002945918848052351,
      "loss": 0.399,
      "step": 129060
    },
    {
      "epoch": 172.09333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029459104852229184,
      "loss": 0.3991,
      "step": 129070
    },
    {
      "epoch": 172.10666666666665,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002945902121758816,
      "loss": 0.3875,
      "step": 129080
    },
    {
      "epoch": 172.12,
      "grad_norm": 0.375,
      "learning_rate": 0.0002945893757660047,
      "loss": 0.3921,
      "step": 129090
    },
    {
      "epoch": 172.13333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029458853929266145,
      "loss": 0.3835,
      "step": 129100
    },
    {
      "epoch": 172.14666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002945877027558523,
      "loss": 0.4021,
      "step": 129110
    },
    {
      "epoch": 172.16,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029458686615557755,
      "loss": 0.3972,
      "step": 129120
    },
    {
      "epoch": 172.17333333333335,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029458602949183763,
      "loss": 0.3914,
      "step": 129130
    },
    {
      "epoch": 172.18666666666667,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029458519276463285,
      "loss": 0.3895,
      "step": 129140
    },
    {
      "epoch": 172.2,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029458435597396365,
      "loss": 0.3821,
      "step": 129150
    },
    {
      "epoch": 172.21333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002945835191198303,
      "loss": 0.3831,
      "step": 129160
    },
    {
      "epoch": 172.22666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002945826822022333,
      "loss": 0.3951,
      "step": 129170
    },
    {
      "epoch": 172.24,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002945818452211728,
      "loss": 0.3792,
      "step": 129180
    },
    {
      "epoch": 172.25333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029458100817664944,
      "loss": 0.3815,
      "step": 129190
    },
    {
      "epoch": 172.26666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029458017106866343,
      "loss": 0.3836,
      "step": 129200
    },
    {
      "epoch": 172.28,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002945793338972151,
      "loss": 0.4136,
      "step": 129210
    },
    {
      "epoch": 172.29333333333332,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002945784966623049,
      "loss": 0.3705,
      "step": 129220
    },
    {
      "epoch": 172.30666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029457765936393316,
      "loss": 0.3936,
      "step": 129230
    },
    {
      "epoch": 172.32,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002945768220021003,
      "loss": 0.3971,
      "step": 129240
    },
    {
      "epoch": 172.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029457598457680663,
      "loss": 0.3995,
      "step": 129250
    },
    {
      "epoch": 172.34666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029457514708805256,
      "loss": 0.3905,
      "step": 129260
    },
    {
      "epoch": 172.36,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002945743095358384,
      "loss": 0.3894,
      "step": 129270
    },
    {
      "epoch": 172.37333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002945734719201645,
      "loss": 0.3911,
      "step": 129280
    },
    {
      "epoch": 172.38666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029457263424103144,
      "loss": 0.3834,
      "step": 129290
    },
    {
      "epoch": 172.4,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002945717964984393,
      "loss": 0.3899,
      "step": 129300
    },
    {
      "epoch": 172.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029457095869238857,
      "loss": 0.3952,
      "step": 129310
    },
    {
      "epoch": 172.42666666666668,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029457012082287966,
      "loss": 0.3972,
      "step": 129320
    },
    {
      "epoch": 172.44,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029456928288991294,
      "loss": 0.4088,
      "step": 129330
    },
    {
      "epoch": 172.45333333333335,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002945684448934887,
      "loss": 0.3968,
      "step": 129340
    },
    {
      "epoch": 172.46666666666667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002945676068336073,
      "loss": 0.4056,
      "step": 129350
    },
    {
      "epoch": 172.48,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002945667687102692,
      "loss": 0.3867,
      "step": 129360
    },
    {
      "epoch": 172.49333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029456593052347473,
      "loss": 0.3993,
      "step": 129370
    },
    {
      "epoch": 172.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029456509227322427,
      "loss": 0.3978,
      "step": 129380
    },
    {
      "epoch": 172.52,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029456425395951816,
      "loss": 0.3876,
      "step": 129390
    },
    {
      "epoch": 172.53333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029456341558235674,
      "loss": 0.3911,
      "step": 129400
    },
    {
      "epoch": 172.54666666666665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002945625771417404,
      "loss": 0.3929,
      "step": 129410
    },
    {
      "epoch": 172.56,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002945617386376695,
      "loss": 0.3867,
      "step": 129420
    },
    {
      "epoch": 172.57333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002945609000701445,
      "loss": 0.39,
      "step": 129430
    },
    {
      "epoch": 172.58666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029456006143916574,
      "loss": 0.3804,
      "step": 129440
    },
    {
      "epoch": 172.6,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002945592227447335,
      "loss": 0.3805,
      "step": 129450
    },
    {
      "epoch": 172.61333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029455838398684817,
      "loss": 0.3716,
      "step": 129460
    },
    {
      "epoch": 172.62666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002945575451655101,
      "loss": 0.3772,
      "step": 129470
    },
    {
      "epoch": 172.64,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002945567062807198,
      "loss": 0.3882,
      "step": 129480
    },
    {
      "epoch": 172.65333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029455586733247743,
      "loss": 0.3974,
      "step": 129490
    },
    {
      "epoch": 172.66666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029455502832078355,
      "loss": 0.3853,
      "step": 129500
    },
    {
      "epoch": 172.68,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002945541892456384,
      "loss": 0.3772,
      "step": 129510
    },
    {
      "epoch": 172.69333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029455335010704245,
      "loss": 0.3866,
      "step": 129520
    },
    {
      "epoch": 172.70666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029455251090499594,
      "loss": 0.3787,
      "step": 129530
    },
    {
      "epoch": 172.72,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002945516716394994,
      "loss": 0.4019,
      "step": 129540
    },
    {
      "epoch": 172.73333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029455083231055303,
      "loss": 0.3956,
      "step": 129550
    },
    {
      "epoch": 172.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002945499929181573,
      "loss": 0.3979,
      "step": 129560
    },
    {
      "epoch": 172.76,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029454915346231253,
      "loss": 0.4107,
      "step": 129570
    },
    {
      "epoch": 172.77333333333334,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002945483139430192,
      "loss": 0.398,
      "step": 129580
    },
    {
      "epoch": 172.78666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029454747436027755,
      "loss": 0.3985,
      "step": 129590
    },
    {
      "epoch": 172.8,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029454663471408795,
      "loss": 0.3972,
      "step": 129600
    },
    {
      "epoch": 172.81333333333333,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002945457950044509,
      "loss": 0.3711,
      "step": 129610
    },
    {
      "epoch": 172.82666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002945449552313666,
      "loss": 0.3798,
      "step": 129620
    },
    {
      "epoch": 172.84,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002945441153948355,
      "loss": 0.3907,
      "step": 129630
    },
    {
      "epoch": 172.85333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029454327549485797,
      "loss": 0.3859,
      "step": 129640
    },
    {
      "epoch": 172.86666666666667,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002945424355314344,
      "loss": 0.3909,
      "step": 129650
    },
    {
      "epoch": 172.88,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002945415955045651,
      "loss": 0.3723,
      "step": 129660
    },
    {
      "epoch": 172.89333333333335,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029454075541425045,
      "loss": 0.3846,
      "step": 129670
    },
    {
      "epoch": 172.90666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002945399152604909,
      "loss": 0.391,
      "step": 129680
    },
    {
      "epoch": 172.92,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029453907504328676,
      "loss": 0.3929,
      "step": 129690
    },
    {
      "epoch": 172.93333333333334,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029453823476263837,
      "loss": 0.3865,
      "step": 129700
    },
    {
      "epoch": 172.94666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002945373944185461,
      "loss": 0.3866,
      "step": 129710
    },
    {
      "epoch": 172.96,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029453655401101043,
      "loss": 0.3844,
      "step": 129720
    },
    {
      "epoch": 172.97333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002945357135400316,
      "loss": 0.4102,
      "step": 129730
    },
    {
      "epoch": 172.98666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029453487300561,
      "loss": 0.3819,
      "step": 129740
    },
    {
      "epoch": 173.0,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000294534032407746,
      "loss": 0.3787,
      "step": 129750
    },
    {
      "epoch": 173.0,
      "eval_loss": 0.42602506279945374,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6824,
      "eval_samples_per_second": 1.652,
      "eval_steps_per_second": 0.103,
      "step": 129750
    },
    {
      "epoch": 173.01333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029453319174644005,
      "loss": 0.3956,
      "step": 129760
    },
    {
      "epoch": 173.02666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002945323510216924,
      "loss": 0.4092,
      "step": 129770
    },
    {
      "epoch": 173.04,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029453151023350356,
      "loss": 0.4224,
      "step": 129780
    },
    {
      "epoch": 173.05333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029453066938187376,
      "loss": 0.4088,
      "step": 129790
    },
    {
      "epoch": 173.06666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002945298284668035,
      "loss": 0.3961,
      "step": 129800
    },
    {
      "epoch": 173.08,
      "grad_norm": 0.44921875,
      "learning_rate": 0.000294528987488293,
      "loss": 0.3993,
      "step": 129810
    },
    {
      "epoch": 173.09333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002945281464463427,
      "loss": 0.3995,
      "step": 129820
    },
    {
      "epoch": 173.10666666666665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029452730534095304,
      "loss": 0.388,
      "step": 129830
    },
    {
      "epoch": 173.12,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029452646417212427,
      "loss": 0.3921,
      "step": 129840
    },
    {
      "epoch": 173.13333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029452562293985683,
      "loss": 0.384,
      "step": 129850
    },
    {
      "epoch": 173.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002945247816441511,
      "loss": 0.4032,
      "step": 129860
    },
    {
      "epoch": 173.16,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002945239402850074,
      "loss": 0.3981,
      "step": 129870
    },
    {
      "epoch": 173.17333333333335,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002945230988624261,
      "loss": 0.3914,
      "step": 129880
    },
    {
      "epoch": 173.18666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002945222573764076,
      "loss": 0.3905,
      "step": 129890
    },
    {
      "epoch": 173.2,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029452141582695225,
      "loss": 0.3818,
      "step": 129900
    },
    {
      "epoch": 173.21333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029452057421406046,
      "loss": 0.3828,
      "step": 129910
    },
    {
      "epoch": 173.22666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002945197325377326,
      "loss": 0.3945,
      "step": 129920
    },
    {
      "epoch": 173.24,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029451889079796893,
      "loss": 0.3797,
      "step": 129930
    },
    {
      "epoch": 173.25333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029451804899476995,
      "loss": 0.3821,
      "step": 129940
    },
    {
      "epoch": 173.26666666666668,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029451720712813593,
      "loss": 0.384,
      "step": 129950
    },
    {
      "epoch": 173.28,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002945163651980673,
      "loss": 0.4137,
      "step": 129960
    },
    {
      "epoch": 173.29333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029451552320456444,
      "loss": 0.3701,
      "step": 129970
    },
    {
      "epoch": 173.30666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029451468114762773,
      "loss": 0.3935,
      "step": 129980
    },
    {
      "epoch": 173.32,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002945138390272574,
      "loss": 0.396,
      "step": 129990
    },
    {
      "epoch": 173.33333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.000294512996843454,
      "loss": 0.3988,
      "step": 130000
    },
    {
      "epoch": 173.34666666666666,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002945121545962178,
      "loss": 0.3902,
      "step": 130010
    },
    {
      "epoch": 173.36,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002945113122855492,
      "loss": 0.3896,
      "step": 130020
    },
    {
      "epoch": 173.37333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002945104699114486,
      "loss": 0.3915,
      "step": 130030
    },
    {
      "epoch": 173.38666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002945096274739163,
      "loss": 0.3834,
      "step": 130040
    },
    {
      "epoch": 173.4,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029450878497295276,
      "loss": 0.3914,
      "step": 130050
    },
    {
      "epoch": 173.41333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002945079424085582,
      "loss": 0.3958,
      "step": 130060
    },
    {
      "epoch": 173.42666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002945070997807331,
      "loss": 0.3972,
      "step": 130070
    },
    {
      "epoch": 173.44,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029450625708947784,
      "loss": 0.4082,
      "step": 130080
    },
    {
      "epoch": 173.45333333333335,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002945054143347928,
      "loss": 0.3969,
      "step": 130090
    },
    {
      "epoch": 173.46666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029450457151667823,
      "loss": 0.4063,
      "step": 130100
    },
    {
      "epoch": 173.48,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029450372863513465,
      "loss": 0.3878,
      "step": 130110
    },
    {
      "epoch": 173.49333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029450288569016236,
      "loss": 0.3995,
      "step": 130120
    },
    {
      "epoch": 173.50666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002945020426817617,
      "loss": 0.3986,
      "step": 130130
    },
    {
      "epoch": 173.52,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002945011996099331,
      "loss": 0.3887,
      "step": 130140
    },
    {
      "epoch": 173.53333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002945003564746769,
      "loss": 0.391,
      "step": 130150
    },
    {
      "epoch": 173.54666666666665,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029449951327599347,
      "loss": 0.3929,
      "step": 130160
    },
    {
      "epoch": 173.56,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029449867001388316,
      "loss": 0.3865,
      "step": 130170
    },
    {
      "epoch": 173.57333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029449782668834637,
      "loss": 0.3905,
      "step": 130180
    },
    {
      "epoch": 173.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002944969832993835,
      "loss": 0.379,
      "step": 130190
    },
    {
      "epoch": 173.6,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002944961398469948,
      "loss": 0.3818,
      "step": 130200
    },
    {
      "epoch": 173.61333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002944952963311808,
      "loss": 0.3721,
      "step": 130210
    },
    {
      "epoch": 173.62666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002944944527519418,
      "loss": 0.3763,
      "step": 130220
    },
    {
      "epoch": 173.64,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029449360910927815,
      "loss": 0.3894,
      "step": 130230
    },
    {
      "epoch": 173.65333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029449276540319025,
      "loss": 0.3973,
      "step": 130240
    },
    {
      "epoch": 173.66666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029449192163367836,
      "loss": 0.3851,
      "step": 130250
    },
    {
      "epoch": 173.68,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029449107780074303,
      "loss": 0.3774,
      "step": 130260
    },
    {
      "epoch": 173.69333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029449023390438453,
      "loss": 0.387,
      "step": 130270
    },
    {
      "epoch": 173.70666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029448938994460324,
      "loss": 0.3798,
      "step": 130280
    },
    {
      "epoch": 173.72,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002944885459213996,
      "loss": 0.4015,
      "step": 130290
    },
    {
      "epoch": 173.73333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029448770183477385,
      "loss": 0.3947,
      "step": 130300
    },
    {
      "epoch": 173.74666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002944868576847264,
      "loss": 0.3982,
      "step": 130310
    },
    {
      "epoch": 173.76,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002944860134712577,
      "loss": 0.4105,
      "step": 130320
    },
    {
      "epoch": 173.77333333333334,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002944851691943681,
      "loss": 0.3974,
      "step": 130330
    },
    {
      "epoch": 173.78666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029448432485405785,
      "loss": 0.3981,
      "step": 130340
    },
    {
      "epoch": 173.8,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002944834804503275,
      "loss": 0.3969,
      "step": 130350
    },
    {
      "epoch": 173.81333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029448263598317724,
      "loss": 0.3703,
      "step": 130360
    },
    {
      "epoch": 173.82666666666665,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002944817914526076,
      "loss": 0.3798,
      "step": 130370
    },
    {
      "epoch": 173.84,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002944809468586188,
      "loss": 0.3912,
      "step": 130380
    },
    {
      "epoch": 173.85333333333332,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029448010220121143,
      "loss": 0.386,
      "step": 130390
    },
    {
      "epoch": 173.86666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029447925748038564,
      "loss": 0.3918,
      "step": 130400
    },
    {
      "epoch": 173.88,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002944784126961419,
      "loss": 0.3736,
      "step": 130410
    },
    {
      "epoch": 173.89333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029447756784848055,
      "loss": 0.3839,
      "step": 130420
    },
    {
      "epoch": 173.90666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029447672293740195,
      "loss": 0.3905,
      "step": 130430
    },
    {
      "epoch": 173.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002944758779629065,
      "loss": 0.3927,
      "step": 130440
    },
    {
      "epoch": 173.93333333333334,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029447503292499464,
      "loss": 0.3864,
      "step": 130450
    },
    {
      "epoch": 173.94666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029447418782366664,
      "loss": 0.3871,
      "step": 130460
    },
    {
      "epoch": 173.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002944733426589229,
      "loss": 0.3849,
      "step": 130470
    },
    {
      "epoch": 173.97333333333333,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002944724974307638,
      "loss": 0.4096,
      "step": 130480
    },
    {
      "epoch": 173.98666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029447165213918963,
      "loss": 0.3819,
      "step": 130490
    },
    {
      "epoch": 174.0,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002944708067842009,
      "loss": 0.379,
      "step": 130500
    },
    {
      "epoch": 174.0,
      "eval_loss": 0.42759260535240173,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1279,
      "eval_samples_per_second": 1.58,
      "eval_steps_per_second": 0.099,
      "step": 130500
    },
    {
      "epoch": 174.01333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002944699613657979,
      "loss": 0.3964,
      "step": 130510
    },
    {
      "epoch": 174.02666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029446911588398096,
      "loss": 0.4098,
      "step": 130520
    },
    {
      "epoch": 174.04,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002944682703387506,
      "loss": 0.4218,
      "step": 130530
    },
    {
      "epoch": 174.05333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029446742473010707,
      "loss": 0.4078,
      "step": 130540
    },
    {
      "epoch": 174.06666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029446657905805076,
      "loss": 0.3958,
      "step": 130550
    },
    {
      "epoch": 174.08,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000294465733322582,
      "loss": 0.399,
      "step": 130560
    },
    {
      "epoch": 174.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029446488752370127,
      "loss": 0.3995,
      "step": 130570
    },
    {
      "epoch": 174.10666666666665,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029446404166140884,
      "loss": 0.3884,
      "step": 130580
    },
    {
      "epoch": 174.12,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029446319573570517,
      "loss": 0.3929,
      "step": 130590
    },
    {
      "epoch": 174.13333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002944623497465906,
      "loss": 0.3834,
      "step": 130600
    },
    {
      "epoch": 174.14666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002944615036940654,
      "loss": 0.4027,
      "step": 130610
    },
    {
      "epoch": 174.16,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029446065757813005,
      "loss": 0.397,
      "step": 130620
    },
    {
      "epoch": 174.17333333333335,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002944598113987849,
      "loss": 0.3915,
      "step": 130630
    },
    {
      "epoch": 174.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002944589651560304,
      "loss": 0.3895,
      "step": 130640
    },
    {
      "epoch": 174.2,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029445811884986673,
      "loss": 0.3812,
      "step": 130650
    },
    {
      "epoch": 174.21333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029445727248029443,
      "loss": 0.3828,
      "step": 130660
    },
    {
      "epoch": 174.22666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029445642604731387,
      "loss": 0.3945,
      "step": 130670
    },
    {
      "epoch": 174.24,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029445557955092526,
      "loss": 0.3792,
      "step": 130680
    },
    {
      "epoch": 174.25333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029445473299112915,
      "loss": 0.3821,
      "step": 130690
    },
    {
      "epoch": 174.26666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002944538863679258,
      "loss": 0.3838,
      "step": 130700
    },
    {
      "epoch": 174.28,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029445303968131566,
      "loss": 0.4139,
      "step": 130710
    },
    {
      "epoch": 174.29333333333332,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000294452192931299,
      "loss": 0.3706,
      "step": 130720
    },
    {
      "epoch": 174.30666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002944513461178763,
      "loss": 0.3941,
      "step": 130730
    },
    {
      "epoch": 174.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002944504992410479,
      "loss": 0.3963,
      "step": 130740
    },
    {
      "epoch": 174.33333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002944496523008141,
      "loss": 0.3986,
      "step": 130750
    },
    {
      "epoch": 174.34666666666666,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002944488052971754,
      "loss": 0.3898,
      "step": 130760
    },
    {
      "epoch": 174.36,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029444795823013205,
      "loss": 0.3896,
      "step": 130770
    },
    {
      "epoch": 174.37333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002944471110996845,
      "loss": 0.3916,
      "step": 130780
    },
    {
      "epoch": 174.38666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002944462639058331,
      "loss": 0.3822,
      "step": 130790
    },
    {
      "epoch": 174.4,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002944454166485782,
      "loss": 0.3913,
      "step": 130800
    },
    {
      "epoch": 174.41333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029444456932792014,
      "loss": 0.3952,
      "step": 130810
    },
    {
      "epoch": 174.42666666666668,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029444372194385943,
      "loss": 0.3964,
      "step": 130820
    },
    {
      "epoch": 174.44,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002944428744963963,
      "loss": 0.408,
      "step": 130830
    },
    {
      "epoch": 174.45333333333335,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0002944420269855312,
      "loss": 0.3972,
      "step": 130840
    },
    {
      "epoch": 174.46666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029444117941126443,
      "loss": 0.4051,
      "step": 130850
    },
    {
      "epoch": 174.48,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002944403317735964,
      "loss": 0.3864,
      "step": 130860
    },
    {
      "epoch": 174.49333333333334,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002944394840725276,
      "loss": 0.3991,
      "step": 130870
    },
    {
      "epoch": 174.50666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002944386363080582,
      "loss": 0.3984,
      "step": 130880
    },
    {
      "epoch": 174.52,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029443778848018873,
      "loss": 0.3877,
      "step": 130890
    },
    {
      "epoch": 174.53333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029443694058891944,
      "loss": 0.3909,
      "step": 130900
    },
    {
      "epoch": 174.54666666666665,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029443609263425077,
      "loss": 0.3925,
      "step": 130910
    },
    {
      "epoch": 174.56,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029443524461618306,
      "loss": 0.3866,
      "step": 130920
    },
    {
      "epoch": 174.57333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029443439653471673,
      "loss": 0.3894,
      "step": 130930
    },
    {
      "epoch": 174.58666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002944335483898521,
      "loss": 0.3797,
      "step": 130940
    },
    {
      "epoch": 174.6,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029443270018158964,
      "loss": 0.3806,
      "step": 130950
    },
    {
      "epoch": 174.61333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002944318519099296,
      "loss": 0.372,
      "step": 130960
    },
    {
      "epoch": 174.62666666666667,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0002944310035748724,
      "loss": 0.3768,
      "step": 130970
    },
    {
      "epoch": 174.64,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002944301551764184,
      "loss": 0.3887,
      "step": 130980
    },
    {
      "epoch": 174.65333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029442930671456805,
      "loss": 0.3968,
      "step": 130990
    },
    {
      "epoch": 174.66666666666666,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002944284581893216,
      "loss": 0.3847,
      "step": 131000
    },
    {
      "epoch": 174.68,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002944276096006795,
      "loss": 0.3772,
      "step": 131010
    },
    {
      "epoch": 174.69333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029442676094864213,
      "loss": 0.3864,
      "step": 131020
    },
    {
      "epoch": 174.70666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002944259122332098,
      "loss": 0.379,
      "step": 131030
    },
    {
      "epoch": 174.72,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029442506345438293,
      "loss": 0.4021,
      "step": 131040
    },
    {
      "epoch": 174.73333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002944242146121619,
      "loss": 0.395,
      "step": 131050
    },
    {
      "epoch": 174.74666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029442336570654706,
      "loss": 0.397,
      "step": 131060
    },
    {
      "epoch": 174.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029442251673753874,
      "loss": 0.4105,
      "step": 131070
    },
    {
      "epoch": 174.77333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002944216677051374,
      "loss": 0.398,
      "step": 131080
    },
    {
      "epoch": 174.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002944208186093434,
      "loss": 0.3985,
      "step": 131090
    },
    {
      "epoch": 174.8,
      "grad_norm": 0.443359375,
      "learning_rate": 0.000294419969450157,
      "loss": 0.3971,
      "step": 131100
    },
    {
      "epoch": 174.81333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029441912022757873,
      "loss": 0.37,
      "step": 131110
    },
    {
      "epoch": 174.82666666666665,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029441827094160895,
      "loss": 0.3795,
      "step": 131120
    },
    {
      "epoch": 174.84,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029441742159224787,
      "loss": 0.3919,
      "step": 131130
    },
    {
      "epoch": 174.85333333333332,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000294416572179496,
      "loss": 0.3864,
      "step": 131140
    },
    {
      "epoch": 174.86666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029441572270335367,
      "loss": 0.3912,
      "step": 131150
    },
    {
      "epoch": 174.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029441487316382125,
      "loss": 0.3728,
      "step": 131160
    },
    {
      "epoch": 174.89333333333335,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029441402356089917,
      "loss": 0.3833,
      "step": 131170
    },
    {
      "epoch": 174.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002944131738945877,
      "loss": 0.3907,
      "step": 131180
    },
    {
      "epoch": 174.92,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029441232416488734,
      "loss": 0.3925,
      "step": 131190
    },
    {
      "epoch": 174.93333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029441147437179836,
      "loss": 0.3856,
      "step": 131200
    },
    {
      "epoch": 174.94666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002944106245153211,
      "loss": 0.3872,
      "step": 131210
    },
    {
      "epoch": 174.96,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002944097745954561,
      "loss": 0.3845,
      "step": 131220
    },
    {
      "epoch": 174.97333333333333,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002944089246122036,
      "loss": 0.4097,
      "step": 131230
    },
    {
      "epoch": 174.98666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029440807456556403,
      "loss": 0.3827,
      "step": 131240
    },
    {
      "epoch": 175.0,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002944072244555377,
      "loss": 0.3797,
      "step": 131250
    },
    {
      "epoch": 175.0,
      "eval_loss": 0.42538198828697205,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5401,
      "eval_samples_per_second": 1.677,
      "eval_steps_per_second": 0.105,
      "step": 131250
    },
    {
      "epoch": 175.01333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029440637428212503,
      "loss": 0.3962,
      "step": 131260
    },
    {
      "epoch": 175.02666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029440552404532636,
      "loss": 0.4093,
      "step": 131270
    },
    {
      "epoch": 175.04,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029440467374514215,
      "loss": 0.4221,
      "step": 131280
    },
    {
      "epoch": 175.05333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029440382338157266,
      "loss": 0.4079,
      "step": 131290
    },
    {
      "epoch": 175.06666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002944029729546183,
      "loss": 0.3945,
      "step": 131300
    },
    {
      "epoch": 175.08,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002944021224642796,
      "loss": 0.3991,
      "step": 131310
    },
    {
      "epoch": 175.09333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002944012719105567,
      "loss": 0.3997,
      "step": 131320
    },
    {
      "epoch": 175.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029440042129345,
      "loss": 0.3873,
      "step": 131330
    },
    {
      "epoch": 175.12,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029439957061296,
      "loss": 0.3921,
      "step": 131340
    },
    {
      "epoch": 175.13333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000294398719869087,
      "loss": 0.3834,
      "step": 131350
    },
    {
      "epoch": 175.14666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002943978690618314,
      "loss": 0.4023,
      "step": 131360
    },
    {
      "epoch": 175.16,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029439701819119357,
      "loss": 0.3966,
      "step": 131370
    },
    {
      "epoch": 175.17333333333335,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029439616725717387,
      "loss": 0.3909,
      "step": 131380
    },
    {
      "epoch": 175.18666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029439531625977263,
      "loss": 0.3894,
      "step": 131390
    },
    {
      "epoch": 175.2,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002943944651989903,
      "loss": 0.3818,
      "step": 131400
    },
    {
      "epoch": 175.21333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029439361407482723,
      "loss": 0.383,
      "step": 131410
    },
    {
      "epoch": 175.22666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029439276288728376,
      "loss": 0.3945,
      "step": 131420
    },
    {
      "epoch": 175.24,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029439191163636034,
      "loss": 0.3797,
      "step": 131430
    },
    {
      "epoch": 175.25333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029439106032205727,
      "loss": 0.3823,
      "step": 131440
    },
    {
      "epoch": 175.26666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029439020894437494,
      "loss": 0.3838,
      "step": 131450
    },
    {
      "epoch": 175.28,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002943893575033137,
      "loss": 0.4137,
      "step": 131460
    },
    {
      "epoch": 175.29333333333332,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000294388505998874,
      "loss": 0.3703,
      "step": 131470
    },
    {
      "epoch": 175.30666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002943876544310562,
      "loss": 0.3936,
      "step": 131480
    },
    {
      "epoch": 175.32,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029438680279986055,
      "loss": 0.3964,
      "step": 131490
    },
    {
      "epoch": 175.33333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002943859511052876,
      "loss": 0.3989,
      "step": 131500
    },
    {
      "epoch": 175.34666666666666,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002943850993473376,
      "loss": 0.3905,
      "step": 131510
    },
    {
      "epoch": 175.36,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000294384247526011,
      "loss": 0.3891,
      "step": 131520
    },
    {
      "epoch": 175.37333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002943833956413081,
      "loss": 0.3918,
      "step": 131530
    },
    {
      "epoch": 175.38666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002943825436932293,
      "loss": 0.3827,
      "step": 131540
    },
    {
      "epoch": 175.4,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029438169168177503,
      "loss": 0.3904,
      "step": 131550
    },
    {
      "epoch": 175.41333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002943808396069456,
      "loss": 0.396,
      "step": 131560
    },
    {
      "epoch": 175.42666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002943799874687414,
      "loss": 0.3969,
      "step": 131570
    },
    {
      "epoch": 175.44,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002943791352671628,
      "loss": 0.4091,
      "step": 131580
    },
    {
      "epoch": 175.45333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002943782830022102,
      "loss": 0.397,
      "step": 131590
    },
    {
      "epoch": 175.46666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029437743067388394,
      "loss": 0.4058,
      "step": 131600
    },
    {
      "epoch": 175.48,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029437657828218446,
      "loss": 0.387,
      "step": 131610
    },
    {
      "epoch": 175.49333333333334,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029437572582711205,
      "loss": 0.3995,
      "step": 131620
    },
    {
      "epoch": 175.50666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029437487330866705,
      "loss": 0.3975,
      "step": 131630
    },
    {
      "epoch": 175.52,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029437402072685,
      "loss": 0.3883,
      "step": 131640
    },
    {
      "epoch": 175.53333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002943731680816611,
      "loss": 0.3909,
      "step": 131650
    },
    {
      "epoch": 175.54666666666665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002943723153731009,
      "loss": 0.3924,
      "step": 131660
    },
    {
      "epoch": 175.56,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002943714626011696,
      "loss": 0.3866,
      "step": 131670
    },
    {
      "epoch": 175.57333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029437060976586764,
      "loss": 0.39,
      "step": 131680
    },
    {
      "epoch": 175.58666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002943697568671955,
      "loss": 0.3796,
      "step": 131690
    },
    {
      "epoch": 175.6,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002943689039051534,
      "loss": 0.3809,
      "step": 131700
    },
    {
      "epoch": 175.61333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029436805087974176,
      "loss": 0.3712,
      "step": 131710
    },
    {
      "epoch": 175.62666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029436719779096093,
      "loss": 0.3761,
      "step": 131720
    },
    {
      "epoch": 175.64,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029436634463881137,
      "loss": 0.3884,
      "step": 131730
    },
    {
      "epoch": 175.65333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029436549142329343,
      "loss": 0.3967,
      "step": 131740
    },
    {
      "epoch": 175.66666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029436463814440746,
      "loss": 0.3849,
      "step": 131750
    },
    {
      "epoch": 175.68,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002943637848021538,
      "loss": 0.3776,
      "step": 131760
    },
    {
      "epoch": 175.69333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029436293139653287,
      "loss": 0.3867,
      "step": 131770
    },
    {
      "epoch": 175.70666666666668,
      "grad_norm": 0.453125,
      "learning_rate": 0.000294362077927545,
      "loss": 0.3786,
      "step": 131780
    },
    {
      "epoch": 175.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002943612243951906,
      "loss": 0.4014,
      "step": 131790
    },
    {
      "epoch": 175.73333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029436037079947014,
      "loss": 0.3954,
      "step": 131800
    },
    {
      "epoch": 175.74666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029435951714038385,
      "loss": 0.3976,
      "step": 131810
    },
    {
      "epoch": 175.76,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002943586634179321,
      "loss": 0.4113,
      "step": 131820
    },
    {
      "epoch": 175.77333333333334,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002943578096321154,
      "loss": 0.3964,
      "step": 131830
    },
    {
      "epoch": 175.78666666666666,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000294356955782934,
      "loss": 0.3982,
      "step": 131840
    },
    {
      "epoch": 175.8,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002943561018703883,
      "loss": 0.397,
      "step": 131850
    },
    {
      "epoch": 175.81333333333333,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002943552478944787,
      "loss": 0.3702,
      "step": 131860
    },
    {
      "epoch": 175.82666666666665,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002943543938552056,
      "loss": 0.3789,
      "step": 131870
    },
    {
      "epoch": 175.84,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002943535397525693,
      "loss": 0.391,
      "step": 131880
    },
    {
      "epoch": 175.85333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029435268558657027,
      "loss": 0.3863,
      "step": 131890
    },
    {
      "epoch": 175.86666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029435183135720876,
      "loss": 0.3914,
      "step": 131900
    },
    {
      "epoch": 175.88,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002943509770644853,
      "loss": 0.3728,
      "step": 131910
    },
    {
      "epoch": 175.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002943501227084001,
      "loss": 0.3845,
      "step": 131920
    },
    {
      "epoch": 175.90666666666667,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029434926828895367,
      "loss": 0.3902,
      "step": 131930
    },
    {
      "epoch": 175.92,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029434841380614635,
      "loss": 0.3906,
      "step": 131940
    },
    {
      "epoch": 175.93333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002943475592599784,
      "loss": 0.3862,
      "step": 131950
    },
    {
      "epoch": 175.94666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002943467046504504,
      "loss": 0.3872,
      "step": 131960
    },
    {
      "epoch": 175.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029434584997756256,
      "loss": 0.3856,
      "step": 131970
    },
    {
      "epoch": 175.97333333333333,
      "grad_norm": 0.5,
      "learning_rate": 0.00029434499524131534,
      "loss": 0.4102,
      "step": 131980
    },
    {
      "epoch": 175.98666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002943441404417091,
      "loss": 0.3826,
      "step": 131990
    },
    {
      "epoch": 176.0,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029434328557874416,
      "loss": 0.3788,
      "step": 132000
    },
    {
      "epoch": 176.0,
      "eval_loss": 0.42565304040908813,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9854,
      "eval_samples_per_second": 1.602,
      "eval_steps_per_second": 0.1,
      "step": 132000
    },
    {
      "epoch": 176.01333333333332,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029434243065242096,
      "loss": 0.3959,
      "step": 132010
    },
    {
      "epoch": 176.02666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029434157566273985,
      "loss": 0.4098,
      "step": 132020
    },
    {
      "epoch": 176.04,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029434072060970123,
      "loss": 0.4222,
      "step": 132030
    },
    {
      "epoch": 176.05333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002943398654933054,
      "loss": 0.4079,
      "step": 132040
    },
    {
      "epoch": 176.06666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002943390103135528,
      "loss": 0.3957,
      "step": 132050
    },
    {
      "epoch": 176.08,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029433815507044384,
      "loss": 0.3987,
      "step": 132060
    },
    {
      "epoch": 176.09333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002943372997639788,
      "loss": 0.3999,
      "step": 132070
    },
    {
      "epoch": 176.10666666666665,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029433644439415816,
      "loss": 0.3878,
      "step": 132080
    },
    {
      "epoch": 176.12,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002943355889609822,
      "loss": 0.3915,
      "step": 132090
    },
    {
      "epoch": 176.13333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002943347334644514,
      "loss": 0.3835,
      "step": 132100
    },
    {
      "epoch": 176.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000294333877904566,
      "loss": 0.4032,
      "step": 132110
    },
    {
      "epoch": 176.16,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029433302228132644,
      "loss": 0.3973,
      "step": 132120
    },
    {
      "epoch": 176.17333333333335,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029433216659473314,
      "loss": 0.391,
      "step": 132130
    },
    {
      "epoch": 176.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029433131084478643,
      "loss": 0.3897,
      "step": 132140
    },
    {
      "epoch": 176.2,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002943304550314867,
      "loss": 0.3817,
      "step": 132150
    },
    {
      "epoch": 176.21333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029432959915483433,
      "loss": 0.3826,
      "step": 132160
    },
    {
      "epoch": 176.22666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002943287432148297,
      "loss": 0.3947,
      "step": 132170
    },
    {
      "epoch": 176.24,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002943278872114731,
      "loss": 0.3791,
      "step": 132180
    },
    {
      "epoch": 176.25333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029432703114476503,
      "loss": 0.3821,
      "step": 132190
    },
    {
      "epoch": 176.26666666666668,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002943261750147058,
      "loss": 0.3837,
      "step": 132200
    },
    {
      "epoch": 176.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002943253188212958,
      "loss": 0.4147,
      "step": 132210
    },
    {
      "epoch": 176.29333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029432446256453545,
      "loss": 0.3695,
      "step": 132220
    },
    {
      "epoch": 176.30666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029432360624442503,
      "loss": 0.3939,
      "step": 132230
    },
    {
      "epoch": 176.32,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029432274986096495,
      "loss": 0.3967,
      "step": 132240
    },
    {
      "epoch": 176.33333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002943218934141556,
      "loss": 0.3989,
      "step": 132250
    },
    {
      "epoch": 176.34666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002943210369039974,
      "loss": 0.3892,
      "step": 132260
    },
    {
      "epoch": 176.36,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029432018033049065,
      "loss": 0.39,
      "step": 132270
    },
    {
      "epoch": 176.37333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002943193236936358,
      "loss": 0.3907,
      "step": 132280
    },
    {
      "epoch": 176.38666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002943184669934332,
      "loss": 0.3831,
      "step": 132290
    },
    {
      "epoch": 176.4,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002943176102298831,
      "loss": 0.3909,
      "step": 132300
    },
    {
      "epoch": 176.41333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002943167534029861,
      "loss": 0.3953,
      "step": 132310
    },
    {
      "epoch": 176.42666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002943158965127424,
      "loss": 0.3976,
      "step": 132320
    },
    {
      "epoch": 176.44,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029431503955915247,
      "loss": 0.4088,
      "step": 132330
    },
    {
      "epoch": 176.45333333333335,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002943141825422167,
      "loss": 0.3967,
      "step": 132340
    },
    {
      "epoch": 176.46666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002943133254619354,
      "loss": 0.4058,
      "step": 132350
    },
    {
      "epoch": 176.48,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002943124683183089,
      "loss": 0.3872,
      "step": 132360
    },
    {
      "epoch": 176.49333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029431161111133765,
      "loss": 0.3997,
      "step": 132370
    },
    {
      "epoch": 176.50666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002943107538410221,
      "loss": 0.3974,
      "step": 132380
    },
    {
      "epoch": 176.52,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002943098965073625,
      "loss": 0.388,
      "step": 132390
    },
    {
      "epoch": 176.53333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002943090391103593,
      "loss": 0.3906,
      "step": 132400
    },
    {
      "epoch": 176.54666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002943081816500128,
      "loss": 0.3923,
      "step": 132410
    },
    {
      "epoch": 176.56,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002943073241263235,
      "loss": 0.3874,
      "step": 132420
    },
    {
      "epoch": 176.57333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029430646653929167,
      "loss": 0.3902,
      "step": 132430
    },
    {
      "epoch": 176.58666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029430560888891766,
      "loss": 0.3788,
      "step": 132440
    },
    {
      "epoch": 176.6,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000294304751175202,
      "loss": 0.3817,
      "step": 132450
    },
    {
      "epoch": 176.61333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002943038933981449,
      "loss": 0.3716,
      "step": 132460
    },
    {
      "epoch": 176.62666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029430303555774684,
      "loss": 0.3767,
      "step": 132470
    },
    {
      "epoch": 176.64,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002943021776540082,
      "loss": 0.3885,
      "step": 132480
    },
    {
      "epoch": 176.65333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002943013196869293,
      "loss": 0.3977,
      "step": 132490
    },
    {
      "epoch": 176.66666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002943004616565105,
      "loss": 0.3855,
      "step": 132500
    },
    {
      "epoch": 176.68,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002942996035627522,
      "loss": 0.3773,
      "step": 132510
    },
    {
      "epoch": 176.69333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029429874540565486,
      "loss": 0.3863,
      "step": 132520
    },
    {
      "epoch": 176.70666666666668,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002942978871852188,
      "loss": 0.3786,
      "step": 132530
    },
    {
      "epoch": 176.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029429702890144434,
      "loss": 0.4015,
      "step": 132540
    },
    {
      "epoch": 176.73333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002942961705543319,
      "loss": 0.3942,
      "step": 132550
    },
    {
      "epoch": 176.74666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029429531214388184,
      "loss": 0.3979,
      "step": 132560
    },
    {
      "epoch": 176.76,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002942944536700946,
      "loss": 0.4111,
      "step": 132570
    },
    {
      "epoch": 176.77333333333334,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002942935951329705,
      "loss": 0.3974,
      "step": 132580
    },
    {
      "epoch": 176.78666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029429273653250993,
      "loss": 0.3979,
      "step": 132590
    },
    {
      "epoch": 176.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002942918778687133,
      "loss": 0.396,
      "step": 132600
    },
    {
      "epoch": 176.81333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029429101914158086,
      "loss": 0.3702,
      "step": 132610
    },
    {
      "epoch": 176.82666666666665,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029429016035111314,
      "loss": 0.3791,
      "step": 132620
    },
    {
      "epoch": 176.84,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029428930149731045,
      "loss": 0.391,
      "step": 132630
    },
    {
      "epoch": 176.85333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029428844258017317,
      "loss": 0.3861,
      "step": 132640
    },
    {
      "epoch": 176.86666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002942875835997017,
      "loss": 0.3912,
      "step": 132650
    },
    {
      "epoch": 176.88,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002942867245558964,
      "loss": 0.3713,
      "step": 132660
    },
    {
      "epoch": 176.89333333333335,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002942858654487576,
      "loss": 0.3843,
      "step": 132670
    },
    {
      "epoch": 176.90666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002942850062782858,
      "loss": 0.3899,
      "step": 132680
    },
    {
      "epoch": 176.92,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002942841470444812,
      "loss": 0.3917,
      "step": 132690
    },
    {
      "epoch": 176.93333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002942832877473444,
      "loss": 0.3861,
      "step": 132700
    },
    {
      "epoch": 176.94666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029428242838687555,
      "loss": 0.387,
      "step": 132710
    },
    {
      "epoch": 176.96,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029428156896307514,
      "loss": 0.3838,
      "step": 132720
    },
    {
      "epoch": 176.97333333333333,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002942807094759436,
      "loss": 0.41,
      "step": 132730
    },
    {
      "epoch": 176.98666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029427984992548117,
      "loss": 0.3825,
      "step": 132740
    },
    {
      "epoch": 177.0,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029427899031168837,
      "loss": 0.3788,
      "step": 132750
    },
    {
      "epoch": 177.0,
      "eval_loss": 0.4268683195114136,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8269,
      "eval_samples_per_second": 1.628,
      "eval_steps_per_second": 0.102,
      "step": 132750
    },
    {
      "epoch": 177.01333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002942781306345655,
      "loss": 0.3962,
      "step": 132760
    },
    {
      "epoch": 177.02666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002942772708941129,
      "loss": 0.4086,
      "step": 132770
    },
    {
      "epoch": 177.04,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029427641109033105,
      "loss": 0.4216,
      "step": 132780
    },
    {
      "epoch": 177.05333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002942755512232202,
      "loss": 0.4083,
      "step": 132790
    },
    {
      "epoch": 177.06666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029427469129278085,
      "loss": 0.3955,
      "step": 132800
    },
    {
      "epoch": 177.08,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002942738312990133,
      "loss": 0.3992,
      "step": 132810
    },
    {
      "epoch": 177.09333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000294272971241918,
      "loss": 0.3985,
      "step": 132820
    },
    {
      "epoch": 177.10666666666665,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029427211112149524,
      "loss": 0.3884,
      "step": 132830
    },
    {
      "epoch": 177.12,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029427125093774544,
      "loss": 0.3918,
      "step": 132840
    },
    {
      "epoch": 177.13333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000294270390690669,
      "loss": 0.3839,
      "step": 132850
    },
    {
      "epoch": 177.14666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002942695303802663,
      "loss": 0.402,
      "step": 132860
    },
    {
      "epoch": 177.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029426867000653765,
      "loss": 0.3962,
      "step": 132870
    },
    {
      "epoch": 177.17333333333335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029426780956948347,
      "loss": 0.3912,
      "step": 132880
    },
    {
      "epoch": 177.18666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002942669490691041,
      "loss": 0.3893,
      "step": 132890
    },
    {
      "epoch": 177.2,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029426608850540006,
      "loss": 0.3818,
      "step": 132900
    },
    {
      "epoch": 177.21333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029426522787837154,
      "loss": 0.3827,
      "step": 132910
    },
    {
      "epoch": 177.22666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029426436718801906,
      "loss": 0.3942,
      "step": 132920
    },
    {
      "epoch": 177.24,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002942635064343429,
      "loss": 0.3793,
      "step": 132930
    },
    {
      "epoch": 177.25333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002942626456173435,
      "loss": 0.381,
      "step": 132940
    },
    {
      "epoch": 177.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029426178473702117,
      "loss": 0.3844,
      "step": 132950
    },
    {
      "epoch": 177.28,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002942609237933764,
      "loss": 0.414,
      "step": 132960
    },
    {
      "epoch": 177.29333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002942600627864094,
      "loss": 0.3691,
      "step": 132970
    },
    {
      "epoch": 177.30666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029425920171612075,
      "loss": 0.3937,
      "step": 132980
    },
    {
      "epoch": 177.32,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029425834058251064,
      "loss": 0.3961,
      "step": 132990
    },
    {
      "epoch": 177.33333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002942574793855796,
      "loss": 0.3991,
      "step": 133000
    },
    {
      "epoch": 177.34666666666666,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002942566181253279,
      "loss": 0.3891,
      "step": 133010
    },
    {
      "epoch": 177.36,
      "grad_norm": 0.482421875,
      "learning_rate": 0.000294255756801756,
      "loss": 0.3906,
      "step": 133020
    },
    {
      "epoch": 177.37333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029425489541486425,
      "loss": 0.3913,
      "step": 133030
    },
    {
      "epoch": 177.38666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029425403396465295,
      "loss": 0.3835,
      "step": 133040
    },
    {
      "epoch": 177.4,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029425317245112257,
      "loss": 0.3914,
      "step": 133050
    },
    {
      "epoch": 177.41333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002942523108742735,
      "loss": 0.3948,
      "step": 133060
    },
    {
      "epoch": 177.42666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000294251449234106,
      "loss": 0.3967,
      "step": 133070
    },
    {
      "epoch": 177.44,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029425058753062064,
      "loss": 0.4077,
      "step": 133080
    },
    {
      "epoch": 177.45333333333335,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002942497257638176,
      "loss": 0.3965,
      "step": 133090
    },
    {
      "epoch": 177.46666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029424886393369736,
      "loss": 0.4058,
      "step": 133100
    },
    {
      "epoch": 177.48,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002942480020402603,
      "loss": 0.3862,
      "step": 133110
    },
    {
      "epoch": 177.49333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002942471400835068,
      "loss": 0.3991,
      "step": 133120
    },
    {
      "epoch": 177.50666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002942462780634372,
      "loss": 0.3971,
      "step": 133130
    },
    {
      "epoch": 177.52,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002942454159800519,
      "loss": 0.3879,
      "step": 133140
    },
    {
      "epoch": 177.53333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002942445538333513,
      "loss": 0.39,
      "step": 133150
    },
    {
      "epoch": 177.54666666666665,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002942436916233357,
      "loss": 0.3931,
      "step": 133160
    },
    {
      "epoch": 177.56,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029424282935000556,
      "loss": 0.3865,
      "step": 133170
    },
    {
      "epoch": 177.57333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029424196701336125,
      "loss": 0.3912,
      "step": 133180
    },
    {
      "epoch": 177.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002942411046134031,
      "loss": 0.3792,
      "step": 133190
    },
    {
      "epoch": 177.6,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029424024215013157,
      "loss": 0.3819,
      "step": 133200
    },
    {
      "epoch": 177.61333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002942393796235469,
      "loss": 0.3711,
      "step": 133210
    },
    {
      "epoch": 177.62666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002942385170336496,
      "loss": 0.3766,
      "step": 133220
    },
    {
      "epoch": 177.64,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029423765438044006,
      "loss": 0.3885,
      "step": 133230
    },
    {
      "epoch": 177.65333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002942367916639186,
      "loss": 0.3966,
      "step": 133240
    },
    {
      "epoch": 177.66666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029423592888408554,
      "loss": 0.385,
      "step": 133250
    },
    {
      "epoch": 177.68,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029423506604094133,
      "loss": 0.3763,
      "step": 133260
    },
    {
      "epoch": 177.69333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002942342031344863,
      "loss": 0.3857,
      "step": 133270
    },
    {
      "epoch": 177.70666666666668,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029423334016472096,
      "loss": 0.3786,
      "step": 133280
    },
    {
      "epoch": 177.72,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029423247713164557,
      "loss": 0.4013,
      "step": 133290
    },
    {
      "epoch": 177.73333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029423161403526057,
      "loss": 0.3957,
      "step": 133300
    },
    {
      "epoch": 177.74666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002942307508755663,
      "loss": 0.3977,
      "step": 133310
    },
    {
      "epoch": 177.76,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029422988765256307,
      "loss": 0.4111,
      "step": 133320
    },
    {
      "epoch": 177.77333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029422902436625133,
      "loss": 0.3973,
      "step": 133330
    },
    {
      "epoch": 177.78666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002942281610166315,
      "loss": 0.3972,
      "step": 133340
    },
    {
      "epoch": 177.8,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029422729760370393,
      "loss": 0.397,
      "step": 133350
    },
    {
      "epoch": 177.81333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.000294226434127469,
      "loss": 0.3698,
      "step": 133360
    },
    {
      "epoch": 177.82666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029422557058792707,
      "loss": 0.3784,
      "step": 133370
    },
    {
      "epoch": 177.84,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002942247069850785,
      "loss": 0.3911,
      "step": 133380
    },
    {
      "epoch": 177.85333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029422384331892373,
      "loss": 0.3859,
      "step": 133390
    },
    {
      "epoch": 177.86666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002942229795894631,
      "loss": 0.3902,
      "step": 133400
    },
    {
      "epoch": 177.88,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000294222115796697,
      "loss": 0.3729,
      "step": 133410
    },
    {
      "epoch": 177.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002942212519406258,
      "loss": 0.3842,
      "step": 133420
    },
    {
      "epoch": 177.90666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002942203880212499,
      "loss": 0.3897,
      "step": 133430
    },
    {
      "epoch": 177.92,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002942195240385696,
      "loss": 0.3916,
      "step": 133440
    },
    {
      "epoch": 177.93333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029421865999258544,
      "loss": 0.3865,
      "step": 133450
    },
    {
      "epoch": 177.94666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002942177958832976,
      "loss": 0.3876,
      "step": 133460
    },
    {
      "epoch": 177.96,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029421693171070666,
      "loss": 0.3849,
      "step": 133470
    },
    {
      "epoch": 177.97333333333333,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002942160674748128,
      "loss": 0.4104,
      "step": 133480
    },
    {
      "epoch": 177.98666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002942152031756166,
      "loss": 0.3823,
      "step": 133490
    },
    {
      "epoch": 178.0,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029421433881311824,
      "loss": 0.3794,
      "step": 133500
    },
    {
      "epoch": 178.0,
      "eval_loss": 0.4251432716846466,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5776,
      "eval_samples_per_second": 1.671,
      "eval_steps_per_second": 0.104,
      "step": 133500
    },
    {
      "epoch": 178.01333333333332,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029421347438731826,
      "loss": 0.3969,
      "step": 133510
    },
    {
      "epoch": 178.02666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029421260989821697,
      "loss": 0.4095,
      "step": 133520
    },
    {
      "epoch": 178.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029421174534581475,
      "loss": 0.4223,
      "step": 133530
    },
    {
      "epoch": 178.05333333333334,
      "grad_norm": 0.48828125,
      "learning_rate": 0.000294210880730112,
      "loss": 0.4079,
      "step": 133540
    },
    {
      "epoch": 178.06666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029421001605110905,
      "loss": 0.3952,
      "step": 133550
    },
    {
      "epoch": 178.08,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029420915130880633,
      "loss": 0.3982,
      "step": 133560
    },
    {
      "epoch": 178.09333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002942082865032042,
      "loss": 0.3996,
      "step": 133570
    },
    {
      "epoch": 178.10666666666665,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029420742163430304,
      "loss": 0.3879,
      "step": 133580
    },
    {
      "epoch": 178.12,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002942065567021033,
      "loss": 0.3927,
      "step": 133590
    },
    {
      "epoch": 178.13333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029420569170660526,
      "loss": 0.3831,
      "step": 133600
    },
    {
      "epoch": 178.14666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002942048266478093,
      "loss": 0.4018,
      "step": 133610
    },
    {
      "epoch": 178.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029420396152571586,
      "loss": 0.396,
      "step": 133620
    },
    {
      "epoch": 178.17333333333335,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002942030963403253,
      "loss": 0.3907,
      "step": 133630
    },
    {
      "epoch": 178.18666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029420223109163793,
      "loss": 0.3899,
      "step": 133640
    },
    {
      "epoch": 178.2,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029420136577965424,
      "loss": 0.3816,
      "step": 133650
    },
    {
      "epoch": 178.21333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029420050040437456,
      "loss": 0.3833,
      "step": 133660
    },
    {
      "epoch": 178.22666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002941996349657993,
      "loss": 0.3941,
      "step": 133670
    },
    {
      "epoch": 178.24,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002941987694639288,
      "loss": 0.379,
      "step": 133680
    },
    {
      "epoch": 178.25333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029419790389876346,
      "loss": 0.3815,
      "step": 133690
    },
    {
      "epoch": 178.26666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002941970382703036,
      "loss": 0.3836,
      "step": 133700
    },
    {
      "epoch": 178.28,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002941961725785497,
      "loss": 0.4139,
      "step": 133710
    },
    {
      "epoch": 178.29333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029419530682350207,
      "loss": 0.3695,
      "step": 133720
    },
    {
      "epoch": 178.30666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002941944410051611,
      "loss": 0.3935,
      "step": 133730
    },
    {
      "epoch": 178.32,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029419357512352725,
      "loss": 0.3959,
      "step": 133740
    },
    {
      "epoch": 178.33333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029419270917860075,
      "loss": 0.3988,
      "step": 133750
    },
    {
      "epoch": 178.34666666666666,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002941918431703821,
      "loss": 0.3893,
      "step": 133760
    },
    {
      "epoch": 178.36,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00029419097709887165,
      "loss": 0.3896,
      "step": 133770
    },
    {
      "epoch": 178.37333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002941901109640698,
      "loss": 0.3906,
      "step": 133780
    },
    {
      "epoch": 178.38666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029418924476597684,
      "loss": 0.3829,
      "step": 133790
    },
    {
      "epoch": 178.4,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029418837850459325,
      "loss": 0.3896,
      "step": 133800
    },
    {
      "epoch": 178.41333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029418751217991936,
      "loss": 0.3948,
      "step": 133810
    },
    {
      "epoch": 178.42666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029418664579195555,
      "loss": 0.3968,
      "step": 133820
    },
    {
      "epoch": 178.44,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029418577934070225,
      "loss": 0.409,
      "step": 133830
    },
    {
      "epoch": 178.45333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002941849128261598,
      "loss": 0.3968,
      "step": 133840
    },
    {
      "epoch": 178.46666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029418404624832853,
      "loss": 0.4058,
      "step": 133850
    },
    {
      "epoch": 178.48,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029418317960720893,
      "loss": 0.3869,
      "step": 133860
    },
    {
      "epoch": 178.49333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002941823129028013,
      "loss": 0.3991,
      "step": 133870
    },
    {
      "epoch": 178.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029418144613510604,
      "loss": 0.3971,
      "step": 133880
    },
    {
      "epoch": 178.52,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029418057930412356,
      "loss": 0.3881,
      "step": 133890
    },
    {
      "epoch": 178.53333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029417971240985424,
      "loss": 0.3904,
      "step": 133900
    },
    {
      "epoch": 178.54666666666665,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029417884545229837,
      "loss": 0.392,
      "step": 133910
    },
    {
      "epoch": 178.56,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002941779784314565,
      "loss": 0.3865,
      "step": 133920
    },
    {
      "epoch": 178.57333333333332,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002941771113473288,
      "loss": 0.389,
      "step": 133930
    },
    {
      "epoch": 178.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029417624419991577,
      "loss": 0.3797,
      "step": 133940
    },
    {
      "epoch": 178.6,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002941753769892178,
      "loss": 0.3819,
      "step": 133950
    },
    {
      "epoch": 178.61333333333334,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00029417450971523526,
      "loss": 0.3717,
      "step": 133960
    },
    {
      "epoch": 178.62666666666667,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029417364237796853,
      "loss": 0.3775,
      "step": 133970
    },
    {
      "epoch": 178.64,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029417277497741795,
      "loss": 0.3887,
      "step": 133980
    },
    {
      "epoch": 178.65333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029417190751358395,
      "loss": 0.3985,
      "step": 133990
    },
    {
      "epoch": 178.66666666666666,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002941710399864669,
      "loss": 0.3859,
      "step": 134000
    },
    {
      "epoch": 178.68,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002941701723960672,
      "loss": 0.3773,
      "step": 134010
    },
    {
      "epoch": 178.69333333333333,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002941693047423852,
      "loss": 0.386,
      "step": 134020
    },
    {
      "epoch": 178.70666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029416843702542126,
      "loss": 0.3788,
      "step": 134030
    },
    {
      "epoch": 178.72,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029416756924517575,
      "loss": 0.4006,
      "step": 134040
    },
    {
      "epoch": 178.73333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029416670140164917,
      "loss": 0.3949,
      "step": 134050
    },
    {
      "epoch": 178.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002941658334948417,
      "loss": 0.3978,
      "step": 134060
    },
    {
      "epoch": 178.76,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000294164965524754,
      "loss": 0.4104,
      "step": 134070
    },
    {
      "epoch": 178.77333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029416409749138614,
      "loss": 0.3969,
      "step": 134080
    },
    {
      "epoch": 178.78666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029416322939473873,
      "loss": 0.3988,
      "step": 134090
    },
    {
      "epoch": 178.8,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002941623612348121,
      "loss": 0.3958,
      "step": 134100
    },
    {
      "epoch": 178.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002941614930116065,
      "loss": 0.3699,
      "step": 134110
    },
    {
      "epoch": 178.82666666666665,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002941606247251225,
      "loss": 0.3788,
      "step": 134120
    },
    {
      "epoch": 178.84,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029415975637536035,
      "loss": 0.3905,
      "step": 134130
    },
    {
      "epoch": 178.85333333333332,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002941588879623205,
      "loss": 0.3867,
      "step": 134140
    },
    {
      "epoch": 178.86666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002941580194860033,
      "loss": 0.3912,
      "step": 134150
    },
    {
      "epoch": 178.88,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029415715094640915,
      "loss": 0.3719,
      "step": 134160
    },
    {
      "epoch": 178.89333333333335,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002941562823435384,
      "loss": 0.383,
      "step": 134170
    },
    {
      "epoch": 178.90666666666667,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002941554136773915,
      "loss": 0.3902,
      "step": 134180
    },
    {
      "epoch": 178.92,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002941545449479687,
      "loss": 0.3926,
      "step": 134190
    },
    {
      "epoch": 178.93333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029415367615527057,
      "loss": 0.386,
      "step": 134200
    },
    {
      "epoch": 178.94666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002941528072992973,
      "loss": 0.3867,
      "step": 134210
    },
    {
      "epoch": 178.96,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002941519383800494,
      "loss": 0.3844,
      "step": 134220
    },
    {
      "epoch": 178.97333333333333,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00029415106939752715,
      "loss": 0.4096,
      "step": 134230
    },
    {
      "epoch": 178.98666666666668,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029415020035173105,
      "loss": 0.382,
      "step": 134240
    },
    {
      "epoch": 179.0,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002941493312426614,
      "loss": 0.3796,
      "step": 134250
    },
    {
      "epoch": 179.0,
      "eval_loss": 0.4248909056186676,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8234,
      "eval_samples_per_second": 1.629,
      "eval_steps_per_second": 0.102,
      "step": 134250
    },
    {
      "epoch": 179.01333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029414846207031863,
      "loss": 0.3962,
      "step": 134260
    },
    {
      "epoch": 179.02666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029414759283470307,
      "loss": 0.4085,
      "step": 134270
    },
    {
      "epoch": 179.04,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002941467235358151,
      "loss": 0.4212,
      "step": 134280
    },
    {
      "epoch": 179.05333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002941458541736552,
      "loss": 0.4079,
      "step": 134290
    },
    {
      "epoch": 179.06666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002941449847482236,
      "loss": 0.3955,
      "step": 134300
    },
    {
      "epoch": 179.08,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029414411525952077,
      "loss": 0.3989,
      "step": 134310
    },
    {
      "epoch": 179.09333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029414324570754716,
      "loss": 0.3996,
      "step": 134320
    },
    {
      "epoch": 179.10666666666665,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000294142376092303,
      "loss": 0.388,
      "step": 134330
    },
    {
      "epoch": 179.12,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029414150641378877,
      "loss": 0.3911,
      "step": 134340
    },
    {
      "epoch": 179.13333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002941406366720048,
      "loss": 0.3829,
      "step": 134350
    },
    {
      "epoch": 179.14666666666668,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029413976686695157,
      "loss": 0.4024,
      "step": 134360
    },
    {
      "epoch": 179.16,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029413889699862934,
      "loss": 0.3964,
      "step": 134370
    },
    {
      "epoch": 179.17333333333335,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002941380270670385,
      "loss": 0.3916,
      "step": 134380
    },
    {
      "epoch": 179.18666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002941371570721795,
      "loss": 0.3894,
      "step": 134390
    },
    {
      "epoch": 179.2,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029413628701405273,
      "loss": 0.3817,
      "step": 134400
    },
    {
      "epoch": 179.21333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002941354168926585,
      "loss": 0.383,
      "step": 134410
    },
    {
      "epoch": 179.22666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029413454670799733,
      "loss": 0.3936,
      "step": 134420
    },
    {
      "epoch": 179.24,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002941336764600694,
      "loss": 0.3799,
      "step": 134430
    },
    {
      "epoch": 179.25333333333333,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002941328061488752,
      "loss": 0.3815,
      "step": 134440
    },
    {
      "epoch": 179.26666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029413193577441514,
      "loss": 0.3844,
      "step": 134450
    },
    {
      "epoch": 179.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029413106533668956,
      "loss": 0.4138,
      "step": 134460
    },
    {
      "epoch": 179.29333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002941301948356989,
      "loss": 0.3697,
      "step": 134470
    },
    {
      "epoch": 179.30666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002941293242714434,
      "loss": 0.3937,
      "step": 134480
    },
    {
      "epoch": 179.32,
      "grad_norm": 0.375,
      "learning_rate": 0.0002941284536439236,
      "loss": 0.3959,
      "step": 134490
    },
    {
      "epoch": 179.33333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029412758295313974,
      "loss": 0.3988,
      "step": 134500
    },
    {
      "epoch": 179.34666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029412671219909237,
      "loss": 0.3895,
      "step": 134510
    },
    {
      "epoch": 179.36,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00029412584138178174,
      "loss": 0.3894,
      "step": 134520
    },
    {
      "epoch": 179.37333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029412497050120825,
      "loss": 0.3914,
      "step": 134530
    },
    {
      "epoch": 179.38666666666666,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002941240995573723,
      "loss": 0.3823,
      "step": 134540
    },
    {
      "epoch": 179.4,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029412322855027433,
      "loss": 0.3902,
      "step": 134550
    },
    {
      "epoch": 179.41333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029412235747991466,
      "loss": 0.396,
      "step": 134560
    },
    {
      "epoch": 179.42666666666668,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029412148634629364,
      "loss": 0.3972,
      "step": 134570
    },
    {
      "epoch": 179.44,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029412061514941175,
      "loss": 0.4076,
      "step": 134580
    },
    {
      "epoch": 179.45333333333335,
      "grad_norm": 0.5,
      "learning_rate": 0.0002941197438892693,
      "loss": 0.3969,
      "step": 134590
    },
    {
      "epoch": 179.46666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002941188725658667,
      "loss": 0.4061,
      "step": 134600
    },
    {
      "epoch": 179.48,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002941180011792043,
      "loss": 0.3873,
      "step": 134610
    },
    {
      "epoch": 179.49333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029411712972928254,
      "loss": 0.3998,
      "step": 134620
    },
    {
      "epoch": 179.50666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002941162582161017,
      "loss": 0.3973,
      "step": 134630
    },
    {
      "epoch": 179.52,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002941153866396623,
      "loss": 0.388,
      "step": 134640
    },
    {
      "epoch": 179.53333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002941145149999646,
      "loss": 0.3906,
      "step": 134650
    },
    {
      "epoch": 179.54666666666665,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029411364329700907,
      "loss": 0.3921,
      "step": 134660
    },
    {
      "epoch": 179.56,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029411277153079603,
      "loss": 0.387,
      "step": 134670
    },
    {
      "epoch": 179.57333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002941118997013259,
      "loss": 0.3912,
      "step": 134680
    },
    {
      "epoch": 179.58666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029411102780859907,
      "loss": 0.3789,
      "step": 134690
    },
    {
      "epoch": 179.6,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002941101558526159,
      "loss": 0.3815,
      "step": 134700
    },
    {
      "epoch": 179.61333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029410928383337675,
      "loss": 0.3708,
      "step": 134710
    },
    {
      "epoch": 179.62666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029410841175088204,
      "loss": 0.3767,
      "step": 134720
    },
    {
      "epoch": 179.64,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029410753960513216,
      "loss": 0.3877,
      "step": 134730
    },
    {
      "epoch": 179.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002941066673961275,
      "loss": 0.3975,
      "step": 134740
    },
    {
      "epoch": 179.66666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002941057951238684,
      "loss": 0.3869,
      "step": 134750
    },
    {
      "epoch": 179.68,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002941049227883552,
      "loss": 0.3767,
      "step": 134760
    },
    {
      "epoch": 179.69333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029410405038958845,
      "loss": 0.3862,
      "step": 134770
    },
    {
      "epoch": 179.70666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002941031779275684,
      "loss": 0.3781,
      "step": 134780
    },
    {
      "epoch": 179.72,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029410230540229544,
      "loss": 0.401,
      "step": 134790
    },
    {
      "epoch": 179.73333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029410143281376997,
      "loss": 0.3951,
      "step": 134800
    },
    {
      "epoch": 179.74666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029410056016199236,
      "loss": 0.3965,
      "step": 134810
    },
    {
      "epoch": 179.76,
      "grad_norm": 0.515625,
      "learning_rate": 0.00029409968744696305,
      "loss": 0.411,
      "step": 134820
    },
    {
      "epoch": 179.77333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029409881466868236,
      "loss": 0.3968,
      "step": 134830
    },
    {
      "epoch": 179.78666666666666,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002940979418271507,
      "loss": 0.3981,
      "step": 134840
    },
    {
      "epoch": 179.8,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029409706892236846,
      "loss": 0.3965,
      "step": 134850
    },
    {
      "epoch": 179.81333333333333,
      "grad_norm": 0.51953125,
      "learning_rate": 0.000294096195954336,
      "loss": 0.369,
      "step": 134860
    },
    {
      "epoch": 179.82666666666665,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002940953229230537,
      "loss": 0.3794,
      "step": 134870
    },
    {
      "epoch": 179.84,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029409444982852204,
      "loss": 0.391,
      "step": 134880
    },
    {
      "epoch": 179.85333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029409357667074126,
      "loss": 0.3859,
      "step": 134890
    },
    {
      "epoch": 179.86666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029409270344971176,
      "loss": 0.3912,
      "step": 134900
    },
    {
      "epoch": 179.88,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000294091830165434,
      "loss": 0.3719,
      "step": 134910
    },
    {
      "epoch": 179.89333333333335,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002940909568179084,
      "loss": 0.3834,
      "step": 134920
    },
    {
      "epoch": 179.90666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002940900834071352,
      "loss": 0.3905,
      "step": 134930
    },
    {
      "epoch": 179.92,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029408920993311493,
      "loss": 0.3916,
      "step": 134940
    },
    {
      "epoch": 179.93333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029408833639584783,
      "loss": 0.386,
      "step": 134950
    },
    {
      "epoch": 179.94666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002940874627953344,
      "loss": 0.3868,
      "step": 134960
    },
    {
      "epoch": 179.96,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029408658913157495,
      "loss": 0.3842,
      "step": 134970
    },
    {
      "epoch": 179.97333333333333,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002940857154045699,
      "loss": 0.4099,
      "step": 134980
    },
    {
      "epoch": 179.98666666666668,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029408484161431964,
      "loss": 0.3819,
      "step": 134990
    },
    {
      "epoch": 180.0,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029408396776082454,
      "loss": 0.3785,
      "step": 135000
    },
    {
      "epoch": 180.0,
      "eval_loss": 0.4270727038383484,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0157,
      "eval_samples_per_second": 1.597,
      "eval_steps_per_second": 0.1,
      "step": 135000
    },
    {
      "epoch": 180.01333333333332,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029408309384408495,
      "loss": 0.3953,
      "step": 135010
    },
    {
      "epoch": 180.02666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029408221986410135,
      "loss": 0.4099,
      "step": 135020
    },
    {
      "epoch": 180.04,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000294081345820874,
      "loss": 0.4214,
      "step": 135030
    },
    {
      "epoch": 180.05333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002940804717144034,
      "loss": 0.407,
      "step": 135040
    },
    {
      "epoch": 180.06666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002940795975446898,
      "loss": 0.3943,
      "step": 135050
    },
    {
      "epoch": 180.08,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002940787233117337,
      "loss": 0.3987,
      "step": 135060
    },
    {
      "epoch": 180.09333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029407784901553546,
      "loss": 0.3999,
      "step": 135070
    },
    {
      "epoch": 180.10666666666665,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029407697465609546,
      "loss": 0.3878,
      "step": 135080
    },
    {
      "epoch": 180.12,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029407610023341407,
      "loss": 0.392,
      "step": 135090
    },
    {
      "epoch": 180.13333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029407522574749164,
      "loss": 0.3832,
      "step": 135100
    },
    {
      "epoch": 180.14666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029407435119832863,
      "loss": 0.4024,
      "step": 135110
    },
    {
      "epoch": 180.16,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029407347658592535,
      "loss": 0.3958,
      "step": 135120
    },
    {
      "epoch": 180.17333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029407260191028224,
      "loss": 0.3913,
      "step": 135130
    },
    {
      "epoch": 180.18666666666667,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029407172717139967,
      "loss": 0.3901,
      "step": 135140
    },
    {
      "epoch": 180.2,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029407085236927803,
      "loss": 0.3822,
      "step": 135150
    },
    {
      "epoch": 180.21333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029406997750391765,
      "loss": 0.3823,
      "step": 135160
    },
    {
      "epoch": 180.22666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.000294069102575319,
      "loss": 0.3937,
      "step": 135170
    },
    {
      "epoch": 180.24,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029406822758348236,
      "loss": 0.3798,
      "step": 135180
    },
    {
      "epoch": 180.25333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029406735252840823,
      "loss": 0.3812,
      "step": 135190
    },
    {
      "epoch": 180.26666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029406647741009686,
      "loss": 0.3835,
      "step": 135200
    },
    {
      "epoch": 180.28,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029406560222854875,
      "loss": 0.4141,
      "step": 135210
    },
    {
      "epoch": 180.29333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002940647269837643,
      "loss": 0.3699,
      "step": 135220
    },
    {
      "epoch": 180.30666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029406385167574377,
      "loss": 0.3936,
      "step": 135230
    },
    {
      "epoch": 180.32,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002940629763044876,
      "loss": 0.3954,
      "step": 135240
    },
    {
      "epoch": 180.33333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029406210086999627,
      "loss": 0.3993,
      "step": 135250
    },
    {
      "epoch": 180.34666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029406122537227003,
      "loss": 0.3897,
      "step": 135260
    },
    {
      "epoch": 180.36,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029406034981130933,
      "loss": 0.3896,
      "step": 135270
    },
    {
      "epoch": 180.37333333333333,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029405947418711454,
      "loss": 0.3923,
      "step": 135280
    },
    {
      "epoch": 180.38666666666666,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029405859849968605,
      "loss": 0.3829,
      "step": 135290
    },
    {
      "epoch": 180.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002940577227490242,
      "loss": 0.3904,
      "step": 135300
    },
    {
      "epoch": 180.41333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029405684693512945,
      "loss": 0.3948,
      "step": 135310
    },
    {
      "epoch": 180.42666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002940559710580021,
      "loss": 0.3968,
      "step": 135320
    },
    {
      "epoch": 180.44,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029405509511764265,
      "loss": 0.408,
      "step": 135330
    },
    {
      "epoch": 180.45333333333335,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029405421911405137,
      "loss": 0.3969,
      "step": 135340
    },
    {
      "epoch": 180.46666666666667,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029405334304722876,
      "loss": 0.4066,
      "step": 135350
    },
    {
      "epoch": 180.48,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029405246691717506,
      "loss": 0.3869,
      "step": 135360
    },
    {
      "epoch": 180.49333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029405159072389074,
      "loss": 0.3985,
      "step": 135370
    },
    {
      "epoch": 180.50666666666666,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002940507144673762,
      "loss": 0.397,
      "step": 135380
    },
    {
      "epoch": 180.52,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002940498381476318,
      "loss": 0.3874,
      "step": 135390
    },
    {
      "epoch": 180.53333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002940489617646579,
      "loss": 0.3903,
      "step": 135400
    },
    {
      "epoch": 180.54666666666665,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002940480853184549,
      "loss": 0.3936,
      "step": 135410
    },
    {
      "epoch": 180.56,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002940472088090232,
      "loss": 0.3864,
      "step": 135420
    },
    {
      "epoch": 180.57333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002940463322363632,
      "loss": 0.3904,
      "step": 135430
    },
    {
      "epoch": 180.58666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029404545560047526,
      "loss": 0.3802,
      "step": 135440
    },
    {
      "epoch": 180.6,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029404457890135977,
      "loss": 0.3815,
      "step": 135450
    },
    {
      "epoch": 180.61333333333334,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029404370213901714,
      "loss": 0.3718,
      "step": 135460
    },
    {
      "epoch": 180.62666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002940428253134477,
      "loss": 0.3774,
      "step": 135470
    },
    {
      "epoch": 180.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029404194842465184,
      "loss": 0.3877,
      "step": 135480
    },
    {
      "epoch": 180.65333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029404107147263,
      "loss": 0.3966,
      "step": 135490
    },
    {
      "epoch": 180.66666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002940401944573825,
      "loss": 0.3849,
      "step": 135500
    },
    {
      "epoch": 180.68,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002940393173789098,
      "loss": 0.3774,
      "step": 135510
    },
    {
      "epoch": 180.69333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029403844023721224,
      "loss": 0.3865,
      "step": 135520
    },
    {
      "epoch": 180.70666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029403756303229015,
      "loss": 0.3787,
      "step": 135530
    },
    {
      "epoch": 180.72,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000294036685764144,
      "loss": 0.401,
      "step": 135540
    },
    {
      "epoch": 180.73333333333332,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002940358084327742,
      "loss": 0.3949,
      "step": 135550
    },
    {
      "epoch": 180.74666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.000294034931038181,
      "loss": 0.3984,
      "step": 135560
    },
    {
      "epoch": 180.76,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029403405358036495,
      "loss": 0.4103,
      "step": 135570
    },
    {
      "epoch": 180.77333333333334,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002940331760593263,
      "loss": 0.3974,
      "step": 135580
    },
    {
      "epoch": 180.78666666666666,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002940322984750655,
      "loss": 0.3974,
      "step": 135590
    },
    {
      "epoch": 180.8,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002940314208275829,
      "loss": 0.3968,
      "step": 135600
    },
    {
      "epoch": 180.81333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.000294030543116879,
      "loss": 0.3701,
      "step": 135610
    },
    {
      "epoch": 180.82666666666665,
      "grad_norm": 0.455078125,
      "learning_rate": 0.000294029665342954,
      "loss": 0.3785,
      "step": 135620
    },
    {
      "epoch": 180.84,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002940287875058084,
      "loss": 0.391,
      "step": 135630
    },
    {
      "epoch": 180.85333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029402790960544254,
      "loss": 0.3858,
      "step": 135640
    },
    {
      "epoch": 180.86666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029402703164185687,
      "loss": 0.3905,
      "step": 135650
    },
    {
      "epoch": 180.88,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029402615361505174,
      "loss": 0.372,
      "step": 135660
    },
    {
      "epoch": 180.89333333333335,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002940252755250275,
      "loss": 0.3834,
      "step": 135670
    },
    {
      "epoch": 180.90666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029402439737178455,
      "loss": 0.3905,
      "step": 135680
    },
    {
      "epoch": 180.92,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029402351915532336,
      "loss": 0.3919,
      "step": 135690
    },
    {
      "epoch": 180.93333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002940226408756442,
      "loss": 0.3858,
      "step": 135700
    },
    {
      "epoch": 180.94666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002940217625327475,
      "loss": 0.3871,
      "step": 135710
    },
    {
      "epoch": 180.96,
      "grad_norm": 0.375,
      "learning_rate": 0.00029402088412663365,
      "loss": 0.3844,
      "step": 135720
    },
    {
      "epoch": 180.97333333333333,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00029402000565730306,
      "loss": 0.409,
      "step": 135730
    },
    {
      "epoch": 180.98666666666668,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002940191271247561,
      "loss": 0.3822,
      "step": 135740
    },
    {
      "epoch": 181.0,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029401824852899307,
      "loss": 0.3793,
      "step": 135750
    },
    {
      "epoch": 181.0,
      "eval_loss": 0.4258576035499573,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.5497,
      "eval_samples_per_second": 1.517,
      "eval_steps_per_second": 0.095,
      "step": 135750
    },
    {
      "epoch": 181.01333333333332,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002940173698700145,
      "loss": 0.3963,
      "step": 135760
    },
    {
      "epoch": 181.02666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002940164911478207,
      "loss": 0.4095,
      "step": 135770
    },
    {
      "epoch": 181.04,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029401561236241204,
      "loss": 0.4221,
      "step": 135780
    },
    {
      "epoch": 181.05333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029401473351378893,
      "loss": 0.4075,
      "step": 135790
    },
    {
      "epoch": 181.06666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029401385460195174,
      "loss": 0.395,
      "step": 135800
    },
    {
      "epoch": 181.08,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002940129756269009,
      "loss": 0.3991,
      "step": 135810
    },
    {
      "epoch": 181.09333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029401209658863674,
      "loss": 0.3993,
      "step": 135820
    },
    {
      "epoch": 181.10666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029401121748715963,
      "loss": 0.3871,
      "step": 135830
    },
    {
      "epoch": 181.12,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029401033832247007,
      "loss": 0.3921,
      "step": 135840
    },
    {
      "epoch": 181.13333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002940094590945684,
      "loss": 0.3836,
      "step": 135850
    },
    {
      "epoch": 181.14666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002940085798034549,
      "loss": 0.4031,
      "step": 135860
    },
    {
      "epoch": 181.16,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029400770044913006,
      "loss": 0.3962,
      "step": 135870
    },
    {
      "epoch": 181.17333333333335,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029400682103159425,
      "loss": 0.3917,
      "step": 135880
    },
    {
      "epoch": 181.18666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029400594155084783,
      "loss": 0.3897,
      "step": 135890
    },
    {
      "epoch": 181.2,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029400506200689123,
      "loss": 0.3816,
      "step": 135900
    },
    {
      "epoch": 181.21333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029400418239972477,
      "loss": 0.3832,
      "step": 135910
    },
    {
      "epoch": 181.22666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002940033027293489,
      "loss": 0.3937,
      "step": 135920
    },
    {
      "epoch": 181.24,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000294002422995764,
      "loss": 0.3788,
      "step": 135930
    },
    {
      "epoch": 181.25333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002940015431989704,
      "loss": 0.3817,
      "step": 135940
    },
    {
      "epoch": 181.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029400066333896854,
      "loss": 0.3832,
      "step": 135950
    },
    {
      "epoch": 181.28,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002939997834157588,
      "loss": 0.4136,
      "step": 135960
    },
    {
      "epoch": 181.29333333333332,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002939989034293415,
      "loss": 0.3705,
      "step": 135970
    },
    {
      "epoch": 181.30666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002939980233797171,
      "loss": 0.3943,
      "step": 135980
    },
    {
      "epoch": 181.32,
      "grad_norm": 0.34375,
      "learning_rate": 0.000293997143266886,
      "loss": 0.397,
      "step": 135990
    },
    {
      "epoch": 181.33333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029399626309084857,
      "loss": 0.3991,
      "step": 136000
    },
    {
      "epoch": 181.34666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029399538285160515,
      "loss": 0.3894,
      "step": 136010
    },
    {
      "epoch": 181.36,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029399450254915616,
      "loss": 0.3884,
      "step": 136020
    },
    {
      "epoch": 181.37333333333333,
      "grad_norm": 0.416015625,
      "learning_rate": 0.000293993622183502,
      "loss": 0.3903,
      "step": 136030
    },
    {
      "epoch": 181.38666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029399274175464303,
      "loss": 0.3827,
      "step": 136040
    },
    {
      "epoch": 181.4,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029399186126257966,
      "loss": 0.3907,
      "step": 136050
    },
    {
      "epoch": 181.41333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002939909807073122,
      "loss": 0.3943,
      "step": 136060
    },
    {
      "epoch": 181.42666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029399010008884113,
      "loss": 0.3963,
      "step": 136070
    },
    {
      "epoch": 181.44,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029398921940716684,
      "loss": 0.4073,
      "step": 136080
    },
    {
      "epoch": 181.45333333333335,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00029398833866228964,
      "loss": 0.396,
      "step": 136090
    },
    {
      "epoch": 181.46666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029398745785421,
      "loss": 0.4054,
      "step": 136100
    },
    {
      "epoch": 181.48,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002939865769829282,
      "loss": 0.3873,
      "step": 136110
    },
    {
      "epoch": 181.49333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029398569604844476,
      "loss": 0.3982,
      "step": 136120
    },
    {
      "epoch": 181.50666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029398481505076,
      "loss": 0.3975,
      "step": 136130
    },
    {
      "epoch": 181.52,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002939839339898743,
      "loss": 0.3875,
      "step": 136140
    },
    {
      "epoch": 181.53333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.000293983052865788,
      "loss": 0.3903,
      "step": 136150
    },
    {
      "epoch": 181.54666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002939821716785016,
      "loss": 0.3927,
      "step": 136160
    },
    {
      "epoch": 181.56,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002939812904280154,
      "loss": 0.3866,
      "step": 136170
    },
    {
      "epoch": 181.57333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002939804091143298,
      "loss": 0.3898,
      "step": 136180
    },
    {
      "epoch": 181.58666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029397952773744525,
      "loss": 0.3795,
      "step": 136190
    },
    {
      "epoch": 181.6,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029397864629736206,
      "loss": 0.3811,
      "step": 136200
    },
    {
      "epoch": 181.61333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002939777647940806,
      "loss": 0.371,
      "step": 136210
    },
    {
      "epoch": 181.62666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029397688322760135,
      "loss": 0.3766,
      "step": 136220
    },
    {
      "epoch": 181.64,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029397600159792464,
      "loss": 0.388,
      "step": 136230
    },
    {
      "epoch": 181.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002939751199050508,
      "loss": 0.3968,
      "step": 136240
    },
    {
      "epoch": 181.66666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002939742381489804,
      "loss": 0.385,
      "step": 136250
    },
    {
      "epoch": 181.68,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002939733563297137,
      "loss": 0.3765,
      "step": 136260
    },
    {
      "epoch": 181.69333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000293972474447251,
      "loss": 0.3869,
      "step": 136270
    },
    {
      "epoch": 181.70666666666668,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002939715925015928,
      "loss": 0.3785,
      "step": 136280
    },
    {
      "epoch": 181.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029397071049273946,
      "loss": 0.4002,
      "step": 136290
    },
    {
      "epoch": 181.73333333333332,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029396982842069147,
      "loss": 0.3956,
      "step": 136300
    },
    {
      "epoch": 181.74666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029396894628544906,
      "loss": 0.3973,
      "step": 136310
    },
    {
      "epoch": 181.76,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029396806408701264,
      "loss": 0.4109,
      "step": 136320
    },
    {
      "epoch": 181.77333333333334,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002939671818253827,
      "loss": 0.3971,
      "step": 136330
    },
    {
      "epoch": 181.78666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029396629950055955,
      "loss": 0.3977,
      "step": 136340
    },
    {
      "epoch": 181.8,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029396541711254365,
      "loss": 0.3967,
      "step": 136350
    },
    {
      "epoch": 181.81333333333333,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029396453466133524,
      "loss": 0.3698,
      "step": 136360
    },
    {
      "epoch": 181.82666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002939636521469349,
      "loss": 0.379,
      "step": 136370
    },
    {
      "epoch": 181.84,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029396276956934276,
      "loss": 0.3906,
      "step": 136380
    },
    {
      "epoch": 181.85333333333332,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002939618869285595,
      "loss": 0.386,
      "step": 136390
    },
    {
      "epoch": 181.86666666666667,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002939610042245853,
      "loss": 0.391,
      "step": 136400
    },
    {
      "epoch": 181.88,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029396012145742063,
      "loss": 0.3719,
      "step": 136410
    },
    {
      "epoch": 181.89333333333335,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029395923862706586,
      "loss": 0.3829,
      "step": 136420
    },
    {
      "epoch": 181.90666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002939583557335214,
      "loss": 0.3898,
      "step": 136430
    },
    {
      "epoch": 181.92,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002939574727767876,
      "loss": 0.3911,
      "step": 136440
    },
    {
      "epoch": 181.93333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002939565897568649,
      "loss": 0.3861,
      "step": 136450
    },
    {
      "epoch": 181.94666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002939557066737537,
      "loss": 0.3869,
      "step": 136460
    },
    {
      "epoch": 181.96,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002939548235274542,
      "loss": 0.3857,
      "step": 136470
    },
    {
      "epoch": 181.97333333333333,
      "grad_norm": 0.494140625,
      "learning_rate": 0.000293953940317967,
      "loss": 0.4093,
      "step": 136480
    },
    {
      "epoch": 181.98666666666668,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029395305704529244,
      "loss": 0.3816,
      "step": 136490
    },
    {
      "epoch": 182.0,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002939521737094309,
      "loss": 0.3788,
      "step": 136500
    },
    {
      "epoch": 182.0,
      "eval_loss": 0.4246582090854645,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8537,
      "eval_samples_per_second": 1.624,
      "eval_steps_per_second": 0.101,
      "step": 136500
    },
    {
      "epoch": 182.01333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002939512903103827,
      "loss": 0.3955,
      "step": 136510
    },
    {
      "epoch": 182.02666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029395040684814834,
      "loss": 0.4085,
      "step": 136520
    },
    {
      "epoch": 182.04,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029394952332272814,
      "loss": 0.4215,
      "step": 136530
    },
    {
      "epoch": 182.05333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029394863973412243,
      "loss": 0.4069,
      "step": 136540
    },
    {
      "epoch": 182.06666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002939477560823317,
      "loss": 0.3946,
      "step": 136550
    },
    {
      "epoch": 182.08,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002939468723673563,
      "loss": 0.3975,
      "step": 136560
    },
    {
      "epoch": 182.09333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029394598858919666,
      "loss": 0.3992,
      "step": 136570
    },
    {
      "epoch": 182.10666666666665,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002939451047478531,
      "loss": 0.3865,
      "step": 136580
    },
    {
      "epoch": 182.12,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000293944220843326,
      "loss": 0.3921,
      "step": 136590
    },
    {
      "epoch": 182.13333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029394333687561585,
      "loss": 0.383,
      "step": 136600
    },
    {
      "epoch": 182.14666666666668,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029394245284472293,
      "loss": 0.4018,
      "step": 136610
    },
    {
      "epoch": 182.16,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002939415687506477,
      "loss": 0.3969,
      "step": 136620
    },
    {
      "epoch": 182.17333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029394068459339046,
      "loss": 0.3901,
      "step": 136630
    },
    {
      "epoch": 182.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029393980037295173,
      "loss": 0.3899,
      "step": 136640
    },
    {
      "epoch": 182.2,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029393891608933177,
      "loss": 0.3819,
      "step": 136650
    },
    {
      "epoch": 182.21333333333334,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029393803174253107,
      "loss": 0.3822,
      "step": 136660
    },
    {
      "epoch": 182.22666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029393714733254994,
      "loss": 0.395,
      "step": 136670
    },
    {
      "epoch": 182.24,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002939362628593888,
      "loss": 0.3793,
      "step": 136680
    },
    {
      "epoch": 182.25333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.000293935378323048,
      "loss": 0.3806,
      "step": 136690
    },
    {
      "epoch": 182.26666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002939344937235281,
      "loss": 0.3836,
      "step": 136700
    },
    {
      "epoch": 182.28,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029393360906082924,
      "loss": 0.413,
      "step": 136710
    },
    {
      "epoch": 182.29333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029393272433495194,
      "loss": 0.3707,
      "step": 136720
    },
    {
      "epoch": 182.30666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029393183954589655,
      "loss": 0.3926,
      "step": 136730
    },
    {
      "epoch": 182.32,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002939309546936635,
      "loss": 0.3955,
      "step": 136740
    },
    {
      "epoch": 182.33333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029393006977825314,
      "loss": 0.3987,
      "step": 136750
    },
    {
      "epoch": 182.34666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002939291847996659,
      "loss": 0.3889,
      "step": 136760
    },
    {
      "epoch": 182.36,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029392829975790214,
      "loss": 0.3888,
      "step": 136770
    },
    {
      "epoch": 182.37333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002939274146529623,
      "loss": 0.3914,
      "step": 136780
    },
    {
      "epoch": 182.38666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029392652948484666,
      "loss": 0.3818,
      "step": 136790
    },
    {
      "epoch": 182.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029392564425355567,
      "loss": 0.3901,
      "step": 136800
    },
    {
      "epoch": 182.41333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029392475895908973,
      "loss": 0.3957,
      "step": 136810
    },
    {
      "epoch": 182.42666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029392387360144924,
      "loss": 0.3966,
      "step": 136820
    },
    {
      "epoch": 182.44,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002939229881806345,
      "loss": 0.4074,
      "step": 136830
    },
    {
      "epoch": 182.45333333333335,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029392210269664606,
      "loss": 0.3962,
      "step": 136840
    },
    {
      "epoch": 182.46666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029392121714948415,
      "loss": 0.4061,
      "step": 136850
    },
    {
      "epoch": 182.48,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029392033153914925,
      "loss": 0.3866,
      "step": 136860
    },
    {
      "epoch": 182.49333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002939194458656417,
      "loss": 0.3991,
      "step": 136870
    },
    {
      "epoch": 182.50666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029391856012896193,
      "loss": 0.3968,
      "step": 136880
    },
    {
      "epoch": 182.52,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002939176743291102,
      "loss": 0.3875,
      "step": 136890
    },
    {
      "epoch": 182.53333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029391678846608715,
      "loss": 0.39,
      "step": 136900
    },
    {
      "epoch": 182.54666666666665,
      "grad_norm": 0.451171875,
      "learning_rate": 0.000293915902539893,
      "loss": 0.3924,
      "step": 136910
    },
    {
      "epoch": 182.56,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002939150165505281,
      "loss": 0.3861,
      "step": 136920
    },
    {
      "epoch": 182.57333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029391413049799294,
      "loss": 0.3898,
      "step": 136930
    },
    {
      "epoch": 182.58666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002939132443822879,
      "loss": 0.3792,
      "step": 136940
    },
    {
      "epoch": 182.6,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002939123582034133,
      "loss": 0.381,
      "step": 136950
    },
    {
      "epoch": 182.61333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029391147196136956,
      "loss": 0.3712,
      "step": 136960
    },
    {
      "epoch": 182.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0002939105856561571,
      "loss": 0.3773,
      "step": 136970
    },
    {
      "epoch": 182.64,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002939096992877763,
      "loss": 0.3874,
      "step": 136980
    },
    {
      "epoch": 182.65333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029390881285622754,
      "loss": 0.3965,
      "step": 136990
    },
    {
      "epoch": 182.66666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002939079263615112,
      "loss": 0.3856,
      "step": 137000
    },
    {
      "epoch": 182.68,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029390703980362767,
      "loss": 0.3767,
      "step": 137010
    },
    {
      "epoch": 182.69333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029390615318257733,
      "loss": 0.3867,
      "step": 137020
    },
    {
      "epoch": 182.70666666666668,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0002939052664983606,
      "loss": 0.3784,
      "step": 137030
    },
    {
      "epoch": 182.72,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002939043797509779,
      "loss": 0.4003,
      "step": 137040
    },
    {
      "epoch": 182.73333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029390349294042945,
      "loss": 0.3952,
      "step": 137050
    },
    {
      "epoch": 182.74666666666667,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002939026060667159,
      "loss": 0.3972,
      "step": 137060
    },
    {
      "epoch": 182.76,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002939017191298374,
      "loss": 0.41,
      "step": 137070
    },
    {
      "epoch": 182.77333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002939008321297945,
      "loss": 0.3967,
      "step": 137080
    },
    {
      "epoch": 182.78666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002938999450665875,
      "loss": 0.398,
      "step": 137090
    },
    {
      "epoch": 182.8,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002938990579402168,
      "loss": 0.3968,
      "step": 137100
    },
    {
      "epoch": 182.81333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002938981707506828,
      "loss": 0.3691,
      "step": 137110
    },
    {
      "epoch": 182.82666666666665,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029389728349798593,
      "loss": 0.3788,
      "step": 137120
    },
    {
      "epoch": 182.84,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002938963961821266,
      "loss": 0.3902,
      "step": 137130
    },
    {
      "epoch": 182.85333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002938955088031051,
      "loss": 0.385,
      "step": 137140
    },
    {
      "epoch": 182.86666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002938946213609218,
      "loss": 0.39,
      "step": 137150
    },
    {
      "epoch": 182.88,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029389373385557726,
      "loss": 0.3729,
      "step": 137160
    },
    {
      "epoch": 182.89333333333335,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002938928462870717,
      "loss": 0.3838,
      "step": 137170
    },
    {
      "epoch": 182.90666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029389195865540556,
      "loss": 0.3893,
      "step": 137180
    },
    {
      "epoch": 182.92,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002938910709605793,
      "loss": 0.3917,
      "step": 137190
    },
    {
      "epoch": 182.93333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002938901832025932,
      "loss": 0.3863,
      "step": 137200
    },
    {
      "epoch": 182.94666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002938892953814478,
      "loss": 0.3859,
      "step": 137210
    },
    {
      "epoch": 182.96,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002938884074971433,
      "loss": 0.3851,
      "step": 137220
    },
    {
      "epoch": 182.97333333333333,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002938875195496802,
      "loss": 0.4097,
      "step": 137230
    },
    {
      "epoch": 182.98666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002938866315390589,
      "loss": 0.3816,
      "step": 137240
    },
    {
      "epoch": 183.0,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029388574346527976,
      "loss": 0.3786,
      "step": 137250
    },
    {
      "epoch": 183.0,
      "eval_loss": 0.42526087164878845,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.107,
      "eval_samples_per_second": 1.583,
      "eval_steps_per_second": 0.099,
      "step": 137250
    },
    {
      "epoch": 183.01333333333332,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029388485532834315,
      "loss": 0.3947,
      "step": 137260
    },
    {
      "epoch": 183.02666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002938839671282495,
      "loss": 0.4084,
      "step": 137270
    },
    {
      "epoch": 183.04,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029388307886499916,
      "loss": 0.4215,
      "step": 137280
    },
    {
      "epoch": 183.05333333333334,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002938821905385926,
      "loss": 0.407,
      "step": 137290
    },
    {
      "epoch": 183.06666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029388130214903004,
      "loss": 0.3946,
      "step": 137300
    },
    {
      "epoch": 183.08,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00029388041369631207,
      "loss": 0.3991,
      "step": 137310
    },
    {
      "epoch": 183.09333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.000293879525180439,
      "loss": 0.3987,
      "step": 137320
    },
    {
      "epoch": 183.10666666666665,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029387863660141115,
      "loss": 0.3872,
      "step": 137330
    },
    {
      "epoch": 183.12,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000293877747959229,
      "loss": 0.3917,
      "step": 137340
    },
    {
      "epoch": 183.13333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002938768592538929,
      "loss": 0.3828,
      "step": 137350
    },
    {
      "epoch": 183.14666666666668,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029387597048540333,
      "loss": 0.4024,
      "step": 137360
    },
    {
      "epoch": 183.16,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002938750816537605,
      "loss": 0.3966,
      "step": 137370
    },
    {
      "epoch": 183.17333333333335,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029387419275896494,
      "loss": 0.3908,
      "step": 137380
    },
    {
      "epoch": 183.18666666666667,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000293873303801017,
      "loss": 0.3894,
      "step": 137390
    },
    {
      "epoch": 183.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002938724147799171,
      "loss": 0.3821,
      "step": 137400
    },
    {
      "epoch": 183.21333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029387152569566557,
      "loss": 0.3825,
      "step": 137410
    },
    {
      "epoch": 183.22666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002938706365482629,
      "loss": 0.3941,
      "step": 137420
    },
    {
      "epoch": 183.24,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029386974733770934,
      "loss": 0.3792,
      "step": 137430
    },
    {
      "epoch": 183.25333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029386885806400535,
      "loss": 0.3817,
      "step": 137440
    },
    {
      "epoch": 183.26666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029386796872715135,
      "loss": 0.3834,
      "step": 137450
    },
    {
      "epoch": 183.28,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029386707932714767,
      "loss": 0.4134,
      "step": 137460
    },
    {
      "epoch": 183.29333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002938661898639948,
      "loss": 0.3699,
      "step": 137470
    },
    {
      "epoch": 183.30666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000293865300337693,
      "loss": 0.3932,
      "step": 137480
    },
    {
      "epoch": 183.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002938644107482428,
      "loss": 0.3963,
      "step": 137490
    },
    {
      "epoch": 183.33333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029386352109564445,
      "loss": 0.3988,
      "step": 137500
    },
    {
      "epoch": 183.34666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029386263137989844,
      "loss": 0.3886,
      "step": 137510
    },
    {
      "epoch": 183.36,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029386174160100513,
      "loss": 0.3897,
      "step": 137520
    },
    {
      "epoch": 183.37333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029386085175896485,
      "loss": 0.3914,
      "step": 137530
    },
    {
      "epoch": 183.38666666666666,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029385996185377815,
      "loss": 0.3827,
      "step": 137540
    },
    {
      "epoch": 183.4,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029385907188544523,
      "loss": 0.3905,
      "step": 137550
    },
    {
      "epoch": 183.41333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002938581818539666,
      "loss": 0.3949,
      "step": 137560
    },
    {
      "epoch": 183.42666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029385729175934267,
      "loss": 0.396,
      "step": 137570
    },
    {
      "epoch": 183.44,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029385640160157367,
      "loss": 0.4078,
      "step": 137580
    },
    {
      "epoch": 183.45333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002938555113806602,
      "loss": 0.3967,
      "step": 137590
    },
    {
      "epoch": 183.46666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002938546210966025,
      "loss": 0.4063,
      "step": 137600
    },
    {
      "epoch": 183.48,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029385373074940105,
      "loss": 0.3879,
      "step": 137610
    },
    {
      "epoch": 183.49333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002938528403390562,
      "loss": 0.3985,
      "step": 137620
    },
    {
      "epoch": 183.50666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029385194986556834,
      "loss": 0.3978,
      "step": 137630
    },
    {
      "epoch": 183.52,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029385105932893784,
      "loss": 0.3879,
      "step": 137640
    },
    {
      "epoch": 183.53333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029385016872916515,
      "loss": 0.3905,
      "step": 137650
    },
    {
      "epoch": 183.54666666666665,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002938492780662506,
      "loss": 0.3917,
      "step": 137660
    },
    {
      "epoch": 183.56,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029384838734019457,
      "loss": 0.3868,
      "step": 137670
    },
    {
      "epoch": 183.57333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029384749655099755,
      "loss": 0.3904,
      "step": 137680
    },
    {
      "epoch": 183.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029384660569865985,
      "loss": 0.3798,
      "step": 137690
    },
    {
      "epoch": 183.6,
      "grad_norm": 0.375,
      "learning_rate": 0.0002938457147831819,
      "loss": 0.3804,
      "step": 137700
    },
    {
      "epoch": 183.61333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002938448238045641,
      "loss": 0.372,
      "step": 137710
    },
    {
      "epoch": 183.62666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002938439327628068,
      "loss": 0.3769,
      "step": 137720
    },
    {
      "epoch": 183.64,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002938430416579103,
      "loss": 0.3882,
      "step": 137730
    },
    {
      "epoch": 183.65333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002938421504898752,
      "loss": 0.3975,
      "step": 137740
    },
    {
      "epoch": 183.66666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002938412592587018,
      "loss": 0.3858,
      "step": 137750
    },
    {
      "epoch": 183.68,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002938403679643904,
      "loss": 0.3766,
      "step": 137760
    },
    {
      "epoch": 183.69333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002938394766069416,
      "loss": 0.3852,
      "step": 137770
    },
    {
      "epoch": 183.70666666666668,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002938385851863555,
      "loss": 0.3787,
      "step": 137780
    },
    {
      "epoch": 183.72,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029383769370263274,
      "loss": 0.4001,
      "step": 137790
    },
    {
      "epoch": 183.73333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002938368021557736,
      "loss": 0.3953,
      "step": 137800
    },
    {
      "epoch": 183.74666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029383591054577853,
      "loss": 0.3973,
      "step": 137810
    },
    {
      "epoch": 183.76,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029383501887264785,
      "loss": 0.4103,
      "step": 137820
    },
    {
      "epoch": 183.77333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.000293834127136382,
      "loss": 0.3964,
      "step": 137830
    },
    {
      "epoch": 183.78666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029383323533698137,
      "loss": 0.3984,
      "step": 137840
    },
    {
      "epoch": 183.8,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002938323434744463,
      "loss": 0.396,
      "step": 137850
    },
    {
      "epoch": 183.81333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029383145154877725,
      "loss": 0.3694,
      "step": 137860
    },
    {
      "epoch": 183.82666666666665,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002938305595599746,
      "loss": 0.3785,
      "step": 137870
    },
    {
      "epoch": 183.84,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002938296675080387,
      "loss": 0.3916,
      "step": 137880
    },
    {
      "epoch": 183.85333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029382877539297,
      "loss": 0.3869,
      "step": 137890
    },
    {
      "epoch": 183.86666666666667,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002938278832147688,
      "loss": 0.3908,
      "step": 137900
    },
    {
      "epoch": 183.88,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002938269909734356,
      "loss": 0.3716,
      "step": 137910
    },
    {
      "epoch": 183.89333333333335,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029382609866897074,
      "loss": 0.3837,
      "step": 137920
    },
    {
      "epoch": 183.90666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002938252063013746,
      "loss": 0.3903,
      "step": 137930
    },
    {
      "epoch": 183.92,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029382431387064756,
      "loss": 0.3918,
      "step": 137940
    },
    {
      "epoch": 183.93333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002938234213767901,
      "loss": 0.3855,
      "step": 137950
    },
    {
      "epoch": 183.94666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029382252881980246,
      "loss": 0.3863,
      "step": 137960
    },
    {
      "epoch": 183.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029382163619968516,
      "loss": 0.385,
      "step": 137970
    },
    {
      "epoch": 183.97333333333333,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029382074351643855,
      "loss": 0.4092,
      "step": 137980
    },
    {
      "epoch": 183.98666666666668,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029381985077006303,
      "loss": 0.3814,
      "step": 137990
    },
    {
      "epoch": 184.0,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029381895796055897,
      "loss": 0.3784,
      "step": 138000
    },
    {
      "epoch": 184.0,
      "eval_loss": 0.4264039099216461,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.3122,
      "eval_samples_per_second": 1.552,
      "eval_steps_per_second": 0.097,
      "step": 138000
    },
    {
      "epoch": 184.01333333333332,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002938180650879268,
      "loss": 0.3962,
      "step": 138010
    },
    {
      "epoch": 184.02666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002938171721521669,
      "loss": 0.4096,
      "step": 138020
    },
    {
      "epoch": 184.04,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029381627915327967,
      "loss": 0.4224,
      "step": 138030
    },
    {
      "epoch": 184.05333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002938153860912654,
      "loss": 0.4071,
      "step": 138040
    },
    {
      "epoch": 184.06666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002938144929661246,
      "loss": 0.3943,
      "step": 138050
    },
    {
      "epoch": 184.08,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029381359977785767,
      "loss": 0.3984,
      "step": 138060
    },
    {
      "epoch": 184.09333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029381270652646495,
      "loss": 0.3995,
      "step": 138070
    },
    {
      "epoch": 184.10666666666665,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029381181321194683,
      "loss": 0.3868,
      "step": 138080
    },
    {
      "epoch": 184.12,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002938109198343037,
      "loss": 0.3911,
      "step": 138090
    },
    {
      "epoch": 184.13333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029381002639353594,
      "loss": 0.384,
      "step": 138100
    },
    {
      "epoch": 184.14666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.000293809132889644,
      "loss": 0.4026,
      "step": 138110
    },
    {
      "epoch": 184.16,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029380823932262823,
      "loss": 0.3963,
      "step": 138120
    },
    {
      "epoch": 184.17333333333335,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029380734569248905,
      "loss": 0.3915,
      "step": 138130
    },
    {
      "epoch": 184.18666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002938064519992268,
      "loss": 0.3899,
      "step": 138140
    },
    {
      "epoch": 184.2,
      "grad_norm": 0.455078125,
      "learning_rate": 0.000293805558242842,
      "loss": 0.3818,
      "step": 138150
    },
    {
      "epoch": 184.21333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002938046644233348,
      "loss": 0.3833,
      "step": 138160
    },
    {
      "epoch": 184.22666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029380377054070587,
      "loss": 0.395,
      "step": 138170
    },
    {
      "epoch": 184.24,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029380287659495544,
      "loss": 0.3797,
      "step": 138180
    },
    {
      "epoch": 184.25333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002938019825860839,
      "loss": 0.3813,
      "step": 138190
    },
    {
      "epoch": 184.26666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029380108851409173,
      "loss": 0.3839,
      "step": 138200
    },
    {
      "epoch": 184.28,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002938001943789792,
      "loss": 0.4134,
      "step": 138210
    },
    {
      "epoch": 184.29333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002937993001807468,
      "loss": 0.3695,
      "step": 138220
    },
    {
      "epoch": 184.30666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029379840591939495,
      "loss": 0.3931,
      "step": 138230
    },
    {
      "epoch": 184.32,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002937975115949239,
      "loss": 0.3964,
      "step": 138240
    },
    {
      "epoch": 184.33333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002937966172073342,
      "loss": 0.3988,
      "step": 138250
    },
    {
      "epoch": 184.34666666666666,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029379572275662616,
      "loss": 0.3885,
      "step": 138260
    },
    {
      "epoch": 184.36,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029379482824280014,
      "loss": 0.3898,
      "step": 138270
    },
    {
      "epoch": 184.37333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002937939336658567,
      "loss": 0.3907,
      "step": 138280
    },
    {
      "epoch": 184.38666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029379303902579603,
      "loss": 0.3825,
      "step": 138290
    },
    {
      "epoch": 184.4,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002937921443226186,
      "loss": 0.3902,
      "step": 138300
    },
    {
      "epoch": 184.41333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029379124955632483,
      "loss": 0.3951,
      "step": 138310
    },
    {
      "epoch": 184.42666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029379035472691504,
      "loss": 0.3958,
      "step": 138320
    },
    {
      "epoch": 184.44,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029378945983438967,
      "loss": 0.4078,
      "step": 138330
    },
    {
      "epoch": 184.45333333333335,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029378856487874915,
      "loss": 0.3968,
      "step": 138340
    },
    {
      "epoch": 184.46666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029378766985999386,
      "loss": 0.4047,
      "step": 138350
    },
    {
      "epoch": 184.48,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002937867747781242,
      "loss": 0.3873,
      "step": 138360
    },
    {
      "epoch": 184.49333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029378587963314044,
      "loss": 0.3983,
      "step": 138370
    },
    {
      "epoch": 184.50666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002937849844250431,
      "loss": 0.397,
      "step": 138380
    },
    {
      "epoch": 184.52,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029378408915383254,
      "loss": 0.3877,
      "step": 138390
    },
    {
      "epoch": 184.53333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002937831938195092,
      "loss": 0.3904,
      "step": 138400
    },
    {
      "epoch": 184.54666666666665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002937822984220733,
      "loss": 0.3924,
      "step": 138410
    },
    {
      "epoch": 184.56,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002937814029615255,
      "loss": 0.3861,
      "step": 138420
    },
    {
      "epoch": 184.57333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000293780507437866,
      "loss": 0.3904,
      "step": 138430
    },
    {
      "epoch": 184.58666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029377961185109527,
      "loss": 0.3792,
      "step": 138440
    },
    {
      "epoch": 184.6,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002937787162012136,
      "loss": 0.3804,
      "step": 138450
    },
    {
      "epoch": 184.61333333333334,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00029377782048822153,
      "loss": 0.3706,
      "step": 138460
    },
    {
      "epoch": 184.62666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029377692471211936,
      "loss": 0.3764,
      "step": 138470
    },
    {
      "epoch": 184.64,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002937760288729075,
      "loss": 0.388,
      "step": 138480
    },
    {
      "epoch": 184.65333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002937751329705864,
      "loss": 0.3971,
      "step": 138490
    },
    {
      "epoch": 184.66666666666666,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029377423700515634,
      "loss": 0.3855,
      "step": 138500
    },
    {
      "epoch": 184.68,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002937733409766178,
      "loss": 0.376,
      "step": 138510
    },
    {
      "epoch": 184.69333333333333,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002937724448849712,
      "loss": 0.3854,
      "step": 138520
    },
    {
      "epoch": 184.70666666666668,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029377154873021677,
      "loss": 0.3789,
      "step": 138530
    },
    {
      "epoch": 184.72,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029377065251235513,
      "loss": 0.4004,
      "step": 138540
    },
    {
      "epoch": 184.73333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002937697562313865,
      "loss": 0.3949,
      "step": 138550
    },
    {
      "epoch": 184.74666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002937688598873114,
      "loss": 0.3974,
      "step": 138560
    },
    {
      "epoch": 184.76,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002937679634801301,
      "loss": 0.4107,
      "step": 138570
    },
    {
      "epoch": 184.77333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029376706700984305,
      "loss": 0.3968,
      "step": 138580
    },
    {
      "epoch": 184.78666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029376617047645066,
      "loss": 0.3978,
      "step": 138590
    },
    {
      "epoch": 184.8,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029376527387995325,
      "loss": 0.3956,
      "step": 138600
    },
    {
      "epoch": 184.81333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002937643772203514,
      "loss": 0.3702,
      "step": 138610
    },
    {
      "epoch": 184.82666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029376348049764525,
      "loss": 0.3784,
      "step": 138620
    },
    {
      "epoch": 184.84,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029376258371183536,
      "loss": 0.3904,
      "step": 138630
    },
    {
      "epoch": 184.85333333333332,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002937616868629221,
      "loss": 0.3858,
      "step": 138640
    },
    {
      "epoch": 184.86666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029376078995090586,
      "loss": 0.3916,
      "step": 138650
    },
    {
      "epoch": 184.88,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029375989297578695,
      "loss": 0.3719,
      "step": 138660
    },
    {
      "epoch": 184.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029375899593756595,
      "loss": 0.383,
      "step": 138670
    },
    {
      "epoch": 184.90666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029375809883624304,
      "loss": 0.389,
      "step": 138680
    },
    {
      "epoch": 184.92,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029375720167181874,
      "loss": 0.3921,
      "step": 138690
    },
    {
      "epoch": 184.93333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002937563044442934,
      "loss": 0.3846,
      "step": 138700
    },
    {
      "epoch": 184.94666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002937554071536674,
      "loss": 0.3868,
      "step": 138710
    },
    {
      "epoch": 184.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029375450979994127,
      "loss": 0.3849,
      "step": 138720
    },
    {
      "epoch": 184.97333333333333,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002937536123831152,
      "loss": 0.4101,
      "step": 138730
    },
    {
      "epoch": 184.98666666666668,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029375271490318975,
      "loss": 0.3821,
      "step": 138740
    },
    {
      "epoch": 185.0,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029375181736016515,
      "loss": 0.378,
      "step": 138750
    },
    {
      "epoch": 185.0,
      "eval_loss": 0.42469078302383423,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.3601,
      "eval_samples_per_second": 1.544,
      "eval_steps_per_second": 0.097,
      "step": 138750
    },
    {
      "epoch": 185.01333333333332,
      "grad_norm": 0.44921875,
      "learning_rate": 0.000293750919754042,
      "loss": 0.3949,
      "step": 138760
    },
    {
      "epoch": 185.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029375002208482053,
      "loss": 0.4088,
      "step": 138770
    },
    {
      "epoch": 185.04,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029374912435250117,
      "loss": 0.4218,
      "step": 138780
    },
    {
      "epoch": 185.05333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002937482265570843,
      "loss": 0.4075,
      "step": 138790
    },
    {
      "epoch": 185.06666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002937473286985704,
      "loss": 0.3945,
      "step": 138800
    },
    {
      "epoch": 185.08,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002937464307769598,
      "loss": 0.3982,
      "step": 138810
    },
    {
      "epoch": 185.09333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002937455327922529,
      "loss": 0.3992,
      "step": 138820
    },
    {
      "epoch": 185.10666666666665,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002937446347444501,
      "loss": 0.3878,
      "step": 138830
    },
    {
      "epoch": 185.12,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002937437366335518,
      "loss": 0.3911,
      "step": 138840
    },
    {
      "epoch": 185.13333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029374283845955834,
      "loss": 0.3825,
      "step": 138850
    },
    {
      "epoch": 185.14666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029374194022247017,
      "loss": 0.4023,
      "step": 138860
    },
    {
      "epoch": 185.16,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002937410419222877,
      "loss": 0.3961,
      "step": 138870
    },
    {
      "epoch": 185.17333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029374014355901127,
      "loss": 0.3904,
      "step": 138880
    },
    {
      "epoch": 185.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029373924513264135,
      "loss": 0.3895,
      "step": 138890
    },
    {
      "epoch": 185.2,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029373834664317823,
      "loss": 0.3818,
      "step": 138900
    },
    {
      "epoch": 185.21333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002937374480906224,
      "loss": 0.3828,
      "step": 138910
    },
    {
      "epoch": 185.22666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002937365494749742,
      "loss": 0.3938,
      "step": 138920
    },
    {
      "epoch": 185.24,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029373565079623406,
      "loss": 0.3789,
      "step": 138930
    },
    {
      "epoch": 185.25333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029373475205440235,
      "loss": 0.3812,
      "step": 138940
    },
    {
      "epoch": 185.26666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029373385324947944,
      "loss": 0.3836,
      "step": 138950
    },
    {
      "epoch": 185.28,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0002937329543814658,
      "loss": 0.4138,
      "step": 138960
    },
    {
      "epoch": 185.29333333333332,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002937320554503617,
      "loss": 0.3704,
      "step": 138970
    },
    {
      "epoch": 185.30666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029373115645616767,
      "loss": 0.3932,
      "step": 138980
    },
    {
      "epoch": 185.32,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002937302573988841,
      "loss": 0.3958,
      "step": 138990
    },
    {
      "epoch": 185.33333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029372935827851125,
      "loss": 0.3984,
      "step": 139000
    },
    {
      "epoch": 185.34666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002937284590950496,
      "loss": 0.3892,
      "step": 139010
    },
    {
      "epoch": 185.36,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029372755984849957,
      "loss": 0.3893,
      "step": 139020
    },
    {
      "epoch": 185.37333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002937266605388615,
      "loss": 0.3911,
      "step": 139030
    },
    {
      "epoch": 185.38666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002937257611661358,
      "loss": 0.3825,
      "step": 139040
    },
    {
      "epoch": 185.4,
      "grad_norm": 0.375,
      "learning_rate": 0.00029372486173032293,
      "loss": 0.3905,
      "step": 139050
    },
    {
      "epoch": 185.41333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002937239622314232,
      "loss": 0.3945,
      "step": 139060
    },
    {
      "epoch": 185.42666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029372306266943704,
      "loss": 0.3956,
      "step": 139070
    },
    {
      "epoch": 185.44,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002937221630443648,
      "loss": 0.4076,
      "step": 139080
    },
    {
      "epoch": 185.45333333333335,
      "grad_norm": 0.48828125,
      "learning_rate": 0.000293721263356207,
      "loss": 0.3965,
      "step": 139090
    },
    {
      "epoch": 185.46666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002937203636049639,
      "loss": 0.4049,
      "step": 139100
    },
    {
      "epoch": 185.48,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002937194637906359,
      "loss": 0.3877,
      "step": 139110
    },
    {
      "epoch": 185.49333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002937185639132235,
      "loss": 0.3983,
      "step": 139120
    },
    {
      "epoch": 185.50666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029371766397272704,
      "loss": 0.3973,
      "step": 139130
    },
    {
      "epoch": 185.52,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029371676396914686,
      "loss": 0.3877,
      "step": 139140
    },
    {
      "epoch": 185.53333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029371586390248346,
      "loss": 0.3909,
      "step": 139150
    },
    {
      "epoch": 185.54666666666665,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002937149637727371,
      "loss": 0.3923,
      "step": 139160
    },
    {
      "epoch": 185.56,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002937140635799083,
      "loss": 0.3862,
      "step": 139170
    },
    {
      "epoch": 185.57333333333332,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029371316332399747,
      "loss": 0.3904,
      "step": 139180
    },
    {
      "epoch": 185.58666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029371226300500483,
      "loss": 0.3794,
      "step": 139190
    },
    {
      "epoch": 185.6,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029371136262293097,
      "loss": 0.3801,
      "step": 139200
    },
    {
      "epoch": 185.61333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002937104621777762,
      "loss": 0.3713,
      "step": 139210
    },
    {
      "epoch": 185.62666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002937095616695409,
      "loss": 0.3765,
      "step": 139220
    },
    {
      "epoch": 185.64,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029370866109822553,
      "loss": 0.3875,
      "step": 139230
    },
    {
      "epoch": 185.65333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002937077604638304,
      "loss": 0.3974,
      "step": 139240
    },
    {
      "epoch": 185.66666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029370685976635595,
      "loss": 0.3856,
      "step": 139250
    },
    {
      "epoch": 185.68,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002937059590058025,
      "loss": 0.3759,
      "step": 139260
    },
    {
      "epoch": 185.69333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002937050581821706,
      "loss": 0.3861,
      "step": 139270
    },
    {
      "epoch": 185.70666666666668,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002937041572954606,
      "loss": 0.3779,
      "step": 139280
    },
    {
      "epoch": 185.72,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002937032563456728,
      "loss": 0.4013,
      "step": 139290
    },
    {
      "epoch": 185.73333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002937023553328077,
      "loss": 0.3949,
      "step": 139300
    },
    {
      "epoch": 185.74666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002937014542568656,
      "loss": 0.3975,
      "step": 139310
    },
    {
      "epoch": 185.76,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029370055311784697,
      "loss": 0.4105,
      "step": 139320
    },
    {
      "epoch": 185.77333333333334,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002936996519157522,
      "loss": 0.3969,
      "step": 139330
    },
    {
      "epoch": 185.78666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002936987506505816,
      "loss": 0.3972,
      "step": 139340
    },
    {
      "epoch": 185.8,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029369784932233565,
      "loss": 0.3963,
      "step": 139350
    },
    {
      "epoch": 185.81333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029369694793101474,
      "loss": 0.3694,
      "step": 139360
    },
    {
      "epoch": 185.82666666666665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029369604647661924,
      "loss": 0.379,
      "step": 139370
    },
    {
      "epoch": 185.84,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029369514495914957,
      "loss": 0.3901,
      "step": 139380
    },
    {
      "epoch": 185.85333333333332,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029369424337860617,
      "loss": 0.3856,
      "step": 139390
    },
    {
      "epoch": 185.86666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002936933417349893,
      "loss": 0.3905,
      "step": 139400
    },
    {
      "epoch": 185.88,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029369244002829946,
      "loss": 0.3714,
      "step": 139410
    },
    {
      "epoch": 185.89333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029369153825853703,
      "loss": 0.3835,
      "step": 139420
    },
    {
      "epoch": 185.90666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002936906364257024,
      "loss": 0.3892,
      "step": 139430
    },
    {
      "epoch": 185.92,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029368973452979595,
      "loss": 0.3918,
      "step": 139440
    },
    {
      "epoch": 185.93333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029368883257081807,
      "loss": 0.3852,
      "step": 139450
    },
    {
      "epoch": 185.94666666666666,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002936879305487692,
      "loss": 0.3871,
      "step": 139460
    },
    {
      "epoch": 185.96,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002936870284636497,
      "loss": 0.3838,
      "step": 139470
    },
    {
      "epoch": 185.97333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029368612631546,
      "loss": 0.4102,
      "step": 139480
    },
    {
      "epoch": 185.98666666666668,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002936852241042005,
      "loss": 0.3821,
      "step": 139490
    },
    {
      "epoch": 186.0,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002936843218298715,
      "loss": 0.3779,
      "step": 139500
    },
    {
      "epoch": 186.0,
      "eval_loss": 0.4251280426979065,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.3099,
      "eval_samples_per_second": 1.552,
      "eval_steps_per_second": 0.097,
      "step": 139500
    },
    {
      "epoch": 186.01333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029368341949247346,
      "loss": 0.3952,
      "step": 139510
    },
    {
      "epoch": 186.02666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002936825170920068,
      "loss": 0.4093,
      "step": 139520
    },
    {
      "epoch": 186.04,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029368161462847193,
      "loss": 0.4217,
      "step": 139530
    },
    {
      "epoch": 186.05333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002936807121018692,
      "loss": 0.4081,
      "step": 139540
    },
    {
      "epoch": 186.06666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000293679809512199,
      "loss": 0.3945,
      "step": 139550
    },
    {
      "epoch": 186.08,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002936789068594618,
      "loss": 0.3979,
      "step": 139560
    },
    {
      "epoch": 186.09333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029367800414365787,
      "loss": 0.3991,
      "step": 139570
    },
    {
      "epoch": 186.10666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002936771013647877,
      "loss": 0.3872,
      "step": 139580
    },
    {
      "epoch": 186.12,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002936761985228517,
      "loss": 0.3919,
      "step": 139590
    },
    {
      "epoch": 186.13333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029367529561785015,
      "loss": 0.384,
      "step": 139600
    },
    {
      "epoch": 186.14666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002936743926497836,
      "loss": 0.4016,
      "step": 139610
    },
    {
      "epoch": 186.16,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029367348961865236,
      "loss": 0.396,
      "step": 139620
    },
    {
      "epoch": 186.17333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002936725865244568,
      "loss": 0.3898,
      "step": 139630
    },
    {
      "epoch": 186.18666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002936716833671974,
      "loss": 0.3883,
      "step": 139640
    },
    {
      "epoch": 186.2,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002936707801468745,
      "loss": 0.3811,
      "step": 139650
    },
    {
      "epoch": 186.21333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029366987686348854,
      "loss": 0.3824,
      "step": 139660
    },
    {
      "epoch": 186.22666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029366897351703984,
      "loss": 0.3938,
      "step": 139670
    },
    {
      "epoch": 186.24,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029366807010752885,
      "loss": 0.3798,
      "step": 139680
    },
    {
      "epoch": 186.25333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029366716663495595,
      "loss": 0.3811,
      "step": 139690
    },
    {
      "epoch": 186.26666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029366626309932156,
      "loss": 0.3835,
      "step": 139700
    },
    {
      "epoch": 186.28,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002936653595006261,
      "loss": 0.413,
      "step": 139710
    },
    {
      "epoch": 186.29333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029366445583886986,
      "loss": 0.3696,
      "step": 139720
    },
    {
      "epoch": 186.30666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002936635521140533,
      "loss": 0.3934,
      "step": 139730
    },
    {
      "epoch": 186.32,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002936626483261769,
      "loss": 0.3958,
      "step": 139740
    },
    {
      "epoch": 186.33333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002936617444752409,
      "loss": 0.3975,
      "step": 139750
    },
    {
      "epoch": 186.34666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029366084056124583,
      "loss": 0.3888,
      "step": 139760
    },
    {
      "epoch": 186.36,
      "grad_norm": 0.44140625,
      "learning_rate": 0.000293659936584192,
      "loss": 0.3893,
      "step": 139770
    },
    {
      "epoch": 186.37333333333333,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002936590325440799,
      "loss": 0.3907,
      "step": 139780
    },
    {
      "epoch": 186.38666666666666,
      "grad_norm": 0.5,
      "learning_rate": 0.0002936581284409098,
      "loss": 0.382,
      "step": 139790
    },
    {
      "epoch": 186.4,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029365722427468217,
      "loss": 0.3902,
      "step": 139800
    },
    {
      "epoch": 186.41333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029365632004539735,
      "loss": 0.3947,
      "step": 139810
    },
    {
      "epoch": 186.42666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002936554157530559,
      "loss": 0.3961,
      "step": 139820
    },
    {
      "epoch": 186.44,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029365451139765796,
      "loss": 0.4075,
      "step": 139830
    },
    {
      "epoch": 186.45333333333335,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002936536069792042,
      "loss": 0.3962,
      "step": 139840
    },
    {
      "epoch": 186.46666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002936527024976948,
      "loss": 0.4045,
      "step": 139850
    },
    {
      "epoch": 186.48,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002936517979531303,
      "loss": 0.3869,
      "step": 139860
    },
    {
      "epoch": 186.49333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000293650893345511,
      "loss": 0.3988,
      "step": 139870
    },
    {
      "epoch": 186.50666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002936499886748374,
      "loss": 0.3975,
      "step": 139880
    },
    {
      "epoch": 186.52,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002936490839411098,
      "loss": 0.3878,
      "step": 139890
    },
    {
      "epoch": 186.53333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029364817914432864,
      "loss": 0.3901,
      "step": 139900
    },
    {
      "epoch": 186.54666666666665,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029364727428449433,
      "loss": 0.393,
      "step": 139910
    },
    {
      "epoch": 186.56,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029364636936160716,
      "loss": 0.386,
      "step": 139920
    },
    {
      "epoch": 186.57333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002936454643756677,
      "loss": 0.3901,
      "step": 139930
    },
    {
      "epoch": 186.58666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002936445593266762,
      "loss": 0.3794,
      "step": 139940
    },
    {
      "epoch": 186.6,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029364365421463316,
      "loss": 0.3807,
      "step": 139950
    },
    {
      "epoch": 186.61333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029364274903953894,
      "loss": 0.3707,
      "step": 139960
    },
    {
      "epoch": 186.62666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002936418438013939,
      "loss": 0.3761,
      "step": 139970
    },
    {
      "epoch": 186.64,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002936409385001985,
      "loss": 0.3879,
      "step": 139980
    },
    {
      "epoch": 186.65333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029364003313595303,
      "loss": 0.3968,
      "step": 139990
    },
    {
      "epoch": 186.66666666666666,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029363912770865805,
      "loss": 0.3842,
      "step": 140000
    },
    {
      "epoch": 186.68,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002936382222183139,
      "loss": 0.3768,
      "step": 140010
    },
    {
      "epoch": 186.69333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029363731666492087,
      "loss": 0.386,
      "step": 140020
    },
    {
      "epoch": 186.70666666666668,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002936364110484795,
      "loss": 0.3777,
      "step": 140030
    },
    {
      "epoch": 186.72,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002936355053689901,
      "loss": 0.4004,
      "step": 140040
    },
    {
      "epoch": 186.73333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029363459962645307,
      "loss": 0.3946,
      "step": 140050
    },
    {
      "epoch": 186.74666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002936336938208688,
      "loss": 0.3966,
      "step": 140060
    },
    {
      "epoch": 186.76,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002936327879522378,
      "loss": 0.4107,
      "step": 140070
    },
    {
      "epoch": 186.77333333333334,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029363188202056036,
      "loss": 0.3958,
      "step": 140080
    },
    {
      "epoch": 186.78666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002936309760258369,
      "loss": 0.3989,
      "step": 140090
    },
    {
      "epoch": 186.8,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029363006996806776,
      "loss": 0.3961,
      "step": 140100
    },
    {
      "epoch": 186.81333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.0002936291638472534,
      "loss": 0.3687,
      "step": 140110
    },
    {
      "epoch": 186.82666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002936282576633943,
      "loss": 0.3785,
      "step": 140120
    },
    {
      "epoch": 186.84,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029362735141649077,
      "loss": 0.3908,
      "step": 140130
    },
    {
      "epoch": 186.85333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029362644510654316,
      "loss": 0.3855,
      "step": 140140
    },
    {
      "epoch": 186.86666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029362553873355196,
      "loss": 0.3915,
      "step": 140150
    },
    {
      "epoch": 186.88,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002936246322975175,
      "loss": 0.372,
      "step": 140160
    },
    {
      "epoch": 186.89333333333335,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002936237257984402,
      "loss": 0.3836,
      "step": 140170
    },
    {
      "epoch": 186.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002936228192363205,
      "loss": 0.3903,
      "step": 140180
    },
    {
      "epoch": 186.92,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002936219126111587,
      "loss": 0.3919,
      "step": 140190
    },
    {
      "epoch": 186.93333333333334,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029362100592295525,
      "loss": 0.3856,
      "step": 140200
    },
    {
      "epoch": 186.94666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029362009917171064,
      "loss": 0.3868,
      "step": 140210
    },
    {
      "epoch": 186.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029361919235742514,
      "loss": 0.3838,
      "step": 140220
    },
    {
      "epoch": 186.97333333333333,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00029361828548009924,
      "loss": 0.409,
      "step": 140230
    },
    {
      "epoch": 186.98666666666668,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029361737853973323,
      "loss": 0.3805,
      "step": 140240
    },
    {
      "epoch": 187.0,
      "grad_norm": 0.375,
      "learning_rate": 0.0002936164715363276,
      "loss": 0.379,
      "step": 140250
    },
    {
      "epoch": 187.0,
      "eval_loss": 0.42645925283432007,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5597,
      "eval_samples_per_second": 1.674,
      "eval_steps_per_second": 0.105,
      "step": 140250
    },
    {
      "epoch": 187.01333333333332,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002936155644698827,
      "loss": 0.395,
      "step": 140260
    },
    {
      "epoch": 187.02666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029361465734039895,
      "loss": 0.4091,
      "step": 140270
    },
    {
      "epoch": 187.04,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002936137501478767,
      "loss": 0.4222,
      "step": 140280
    },
    {
      "epoch": 187.05333333333334,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029361284289231644,
      "loss": 0.4071,
      "step": 140290
    },
    {
      "epoch": 187.06666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029361193557371853,
      "loss": 0.3945,
      "step": 140300
    },
    {
      "epoch": 187.08,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029361102819208337,
      "loss": 0.3968,
      "step": 140310
    },
    {
      "epoch": 187.09333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002936101207474113,
      "loss": 0.3988,
      "step": 140320
    },
    {
      "epoch": 187.10666666666665,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029360921323970276,
      "loss": 0.3868,
      "step": 140330
    },
    {
      "epoch": 187.12,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002936083056689582,
      "loss": 0.3918,
      "step": 140340
    },
    {
      "epoch": 187.13333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029360739803517793,
      "loss": 0.3825,
      "step": 140350
    },
    {
      "epoch": 187.14666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029360649033836244,
      "loss": 0.4024,
      "step": 140360
    },
    {
      "epoch": 187.16,
      "grad_norm": 0.36328125,
      "learning_rate": 0.000293605582578512,
      "loss": 0.396,
      "step": 140370
    },
    {
      "epoch": 187.17333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002936046747556271,
      "loss": 0.3906,
      "step": 140380
    },
    {
      "epoch": 187.18666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002936037668697082,
      "loss": 0.3886,
      "step": 140390
    },
    {
      "epoch": 187.2,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002936028589207556,
      "loss": 0.3813,
      "step": 140400
    },
    {
      "epoch": 187.21333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002936019509087697,
      "loss": 0.3833,
      "step": 140410
    },
    {
      "epoch": 187.22666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002936010428337509,
      "loss": 0.3941,
      "step": 140420
    },
    {
      "epoch": 187.24,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029360013469569967,
      "loss": 0.3785,
      "step": 140430
    },
    {
      "epoch": 187.25333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002935992264946163,
      "loss": 0.3809,
      "step": 140440
    },
    {
      "epoch": 187.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002935983182305013,
      "loss": 0.383,
      "step": 140450
    },
    {
      "epoch": 187.28,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000293597409903355,
      "loss": 0.4135,
      "step": 140460
    },
    {
      "epoch": 187.29333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002935965015131778,
      "loss": 0.3689,
      "step": 140470
    },
    {
      "epoch": 187.30666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002935955930599701,
      "loss": 0.393,
      "step": 140480
    },
    {
      "epoch": 187.32,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029359468454373235,
      "loss": 0.3952,
      "step": 140490
    },
    {
      "epoch": 187.33333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002935937759644649,
      "loss": 0.3987,
      "step": 140500
    },
    {
      "epoch": 187.34666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002935928673221682,
      "loss": 0.3889,
      "step": 140510
    },
    {
      "epoch": 187.36,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00029359195861684254,
      "loss": 0.3892,
      "step": 140520
    },
    {
      "epoch": 187.37333333333333,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002935910498484884,
      "loss": 0.3912,
      "step": 140530
    },
    {
      "epoch": 187.38666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002935901410171061,
      "loss": 0.3819,
      "step": 140540
    },
    {
      "epoch": 187.4,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029358923212269625,
      "loss": 0.3898,
      "step": 140550
    },
    {
      "epoch": 187.41333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029358832316525905,
      "loss": 0.3955,
      "step": 140560
    },
    {
      "epoch": 187.42666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002935874141447949,
      "loss": 0.3957,
      "step": 140570
    },
    {
      "epoch": 187.44,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002935865050613043,
      "loss": 0.4081,
      "step": 140580
    },
    {
      "epoch": 187.45333333333335,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002935855959147876,
      "loss": 0.3959,
      "step": 140590
    },
    {
      "epoch": 187.46666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002935846867052452,
      "loss": 0.405,
      "step": 140600
    },
    {
      "epoch": 187.48,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002935837774326774,
      "loss": 0.3876,
      "step": 140610
    },
    {
      "epoch": 187.49333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029358286809708485,
      "loss": 0.3983,
      "step": 140620
    },
    {
      "epoch": 187.50666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002935819586984677,
      "loss": 0.3964,
      "step": 140630
    },
    {
      "epoch": 187.52,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002935810492368265,
      "loss": 0.3878,
      "step": 140640
    },
    {
      "epoch": 187.53333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029358013971216154,
      "loss": 0.39,
      "step": 140650
    },
    {
      "epoch": 187.54666666666665,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029357923012447327,
      "loss": 0.3919,
      "step": 140660
    },
    {
      "epoch": 187.56,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002935783204737622,
      "loss": 0.3863,
      "step": 140670
    },
    {
      "epoch": 187.57333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029357741076002853,
      "loss": 0.3901,
      "step": 140680
    },
    {
      "epoch": 187.58666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002935765009832728,
      "loss": 0.3792,
      "step": 140690
    },
    {
      "epoch": 187.6,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002935755911434953,
      "loss": 0.3811,
      "step": 140700
    },
    {
      "epoch": 187.61333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002935746812406965,
      "loss": 0.3711,
      "step": 140710
    },
    {
      "epoch": 187.62666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029357377127487685,
      "loss": 0.3765,
      "step": 140720
    },
    {
      "epoch": 187.64,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029357286124603665,
      "loss": 0.3888,
      "step": 140730
    },
    {
      "epoch": 187.65333333333334,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002935719511541763,
      "loss": 0.3965,
      "step": 140740
    },
    {
      "epoch": 187.66666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002935710409992963,
      "loss": 0.385,
      "step": 140750
    },
    {
      "epoch": 187.68,
      "grad_norm": 0.439453125,
      "learning_rate": 0.000293570130781397,
      "loss": 0.377,
      "step": 140760
    },
    {
      "epoch": 187.69333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029356922050047875,
      "loss": 0.3861,
      "step": 140770
    },
    {
      "epoch": 187.70666666666668,
      "grad_norm": 0.421875,
      "learning_rate": 0.000293568310156542,
      "loss": 0.3782,
      "step": 140780
    },
    {
      "epoch": 187.72,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029356739974958717,
      "loss": 0.4003,
      "step": 140790
    },
    {
      "epoch": 187.73333333333332,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002935664892796146,
      "loss": 0.3948,
      "step": 140800
    },
    {
      "epoch": 187.74666666666667,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029356557874662465,
      "loss": 0.3977,
      "step": 140810
    },
    {
      "epoch": 187.76,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029356466815061785,
      "loss": 0.4107,
      "step": 140820
    },
    {
      "epoch": 187.77333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029356375749159456,
      "loss": 0.3959,
      "step": 140830
    },
    {
      "epoch": 187.78666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002935628467695551,
      "loss": 0.3973,
      "step": 140840
    },
    {
      "epoch": 187.8,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002935619359845,
      "loss": 0.3961,
      "step": 140850
    },
    {
      "epoch": 187.81333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002935610251364295,
      "loss": 0.3693,
      "step": 140860
    },
    {
      "epoch": 187.82666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029356011422534414,
      "loss": 0.379,
      "step": 140870
    },
    {
      "epoch": 187.84,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029355920325124427,
      "loss": 0.3901,
      "step": 140880
    },
    {
      "epoch": 187.85333333333332,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029355829221413025,
      "loss": 0.3855,
      "step": 140890
    },
    {
      "epoch": 187.86666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029355738111400256,
      "loss": 0.3909,
      "step": 140900
    },
    {
      "epoch": 187.88,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002935564699508615,
      "loss": 0.3716,
      "step": 140910
    },
    {
      "epoch": 187.89333333333335,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029355555872470754,
      "loss": 0.3838,
      "step": 140920
    },
    {
      "epoch": 187.90666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029355464743554107,
      "loss": 0.3901,
      "step": 140930
    },
    {
      "epoch": 187.92,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002935537360833625,
      "loss": 0.3915,
      "step": 140940
    },
    {
      "epoch": 187.93333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029355282466817217,
      "loss": 0.3857,
      "step": 140950
    },
    {
      "epoch": 187.94666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029355191318997055,
      "loss": 0.3865,
      "step": 140960
    },
    {
      "epoch": 187.96,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029355100164875803,
      "loss": 0.3843,
      "step": 140970
    },
    {
      "epoch": 187.97333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.000293550090044535,
      "loss": 0.4097,
      "step": 140980
    },
    {
      "epoch": 187.98666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002935491783773018,
      "loss": 0.3811,
      "step": 140990
    },
    {
      "epoch": 188.0,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029354826664705895,
      "loss": 0.3784,
      "step": 141000
    },
    {
      "epoch": 188.0,
      "eval_loss": 0.4262850880622864,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5703,
      "eval_samples_per_second": 1.672,
      "eval_steps_per_second": 0.104,
      "step": 141000
    },
    {
      "epoch": 188.01333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002935473548538067,
      "loss": 0.3954,
      "step": 141010
    },
    {
      "epoch": 188.02666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029354644299754565,
      "loss": 0.4094,
      "step": 141020
    },
    {
      "epoch": 188.04,
      "grad_norm": 0.376953125,
      "learning_rate": 0.000293545531078276,
      "loss": 0.4214,
      "step": 141030
    },
    {
      "epoch": 188.05333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002935446190959983,
      "loss": 0.4076,
      "step": 141040
    },
    {
      "epoch": 188.06666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002935437070507128,
      "loss": 0.3948,
      "step": 141050
    },
    {
      "epoch": 188.08,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029354279494242004,
      "loss": 0.3975,
      "step": 141060
    },
    {
      "epoch": 188.09333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029354188277112034,
      "loss": 0.3992,
      "step": 141070
    },
    {
      "epoch": 188.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002935409705368142,
      "loss": 0.3867,
      "step": 141080
    },
    {
      "epoch": 188.12,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002935400582395019,
      "loss": 0.3917,
      "step": 141090
    },
    {
      "epoch": 188.13333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002935391458791839,
      "loss": 0.3838,
      "step": 141100
    },
    {
      "epoch": 188.14666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002935382334558605,
      "loss": 0.4022,
      "step": 141110
    },
    {
      "epoch": 188.16,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002935373209695323,
      "loss": 0.3957,
      "step": 141120
    },
    {
      "epoch": 188.17333333333335,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002935364084201996,
      "loss": 0.3902,
      "step": 141130
    },
    {
      "epoch": 188.18666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002935354958078627,
      "loss": 0.3881,
      "step": 141140
    },
    {
      "epoch": 188.2,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002935345831325221,
      "loss": 0.3813,
      "step": 141150
    },
    {
      "epoch": 188.21333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002935336703941782,
      "loss": 0.3828,
      "step": 141160
    },
    {
      "epoch": 188.22666666666666,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029353275759283145,
      "loss": 0.394,
      "step": 141170
    },
    {
      "epoch": 188.24,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002935318447284822,
      "loss": 0.3791,
      "step": 141180
    },
    {
      "epoch": 188.25333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002935309318011308,
      "loss": 0.3803,
      "step": 141190
    },
    {
      "epoch": 188.26666666666668,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002935300188107777,
      "loss": 0.3836,
      "step": 141200
    },
    {
      "epoch": 188.28,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002935291057574233,
      "loss": 0.4132,
      "step": 141210
    },
    {
      "epoch": 188.29333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029352819264106796,
      "loss": 0.3697,
      "step": 141220
    },
    {
      "epoch": 188.30666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002935272794617121,
      "loss": 0.3928,
      "step": 141230
    },
    {
      "epoch": 188.32,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002935263662193562,
      "loss": 0.3959,
      "step": 141240
    },
    {
      "epoch": 188.33333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029352545291400057,
      "loss": 0.3978,
      "step": 141250
    },
    {
      "epoch": 188.34666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029352453954564566,
      "loss": 0.3884,
      "step": 141260
    },
    {
      "epoch": 188.36,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029352362611429183,
      "loss": 0.3885,
      "step": 141270
    },
    {
      "epoch": 188.37333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002935227126199395,
      "loss": 0.3911,
      "step": 141280
    },
    {
      "epoch": 188.38666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002935217990625891,
      "loss": 0.3828,
      "step": 141290
    },
    {
      "epoch": 188.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000293520885442241,
      "loss": 0.3895,
      "step": 141300
    },
    {
      "epoch": 188.41333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002935199717588956,
      "loss": 0.3945,
      "step": 141310
    },
    {
      "epoch": 188.42666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029351905801255326,
      "loss": 0.397,
      "step": 141320
    },
    {
      "epoch": 188.44,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029351814420321446,
      "loss": 0.4075,
      "step": 141330
    },
    {
      "epoch": 188.45333333333335,
      "grad_norm": 0.5,
      "learning_rate": 0.00029351723033087956,
      "loss": 0.396,
      "step": 141340
    },
    {
      "epoch": 188.46666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029351631639554893,
      "loss": 0.4053,
      "step": 141350
    },
    {
      "epoch": 188.48,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029351540239722307,
      "loss": 0.3874,
      "step": 141360
    },
    {
      "epoch": 188.49333333333334,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002935144883359023,
      "loss": 0.3975,
      "step": 141370
    },
    {
      "epoch": 188.50666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029351357421158704,
      "loss": 0.3977,
      "step": 141380
    },
    {
      "epoch": 188.52,
      "grad_norm": 0.34375,
      "learning_rate": 0.00029351266002427775,
      "loss": 0.3877,
      "step": 141390
    },
    {
      "epoch": 188.53333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002935117457739747,
      "loss": 0.3902,
      "step": 141400
    },
    {
      "epoch": 188.54666666666665,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002935108314606784,
      "loss": 0.3917,
      "step": 141410
    },
    {
      "epoch": 188.56,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002935099170843892,
      "loss": 0.3857,
      "step": 141420
    },
    {
      "epoch": 188.57333333333332,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002935090026451075,
      "loss": 0.389,
      "step": 141430
    },
    {
      "epoch": 188.58666666666667,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029350808814283374,
      "loss": 0.3789,
      "step": 141440
    },
    {
      "epoch": 188.6,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002935071735775683,
      "loss": 0.3805,
      "step": 141450
    },
    {
      "epoch": 188.61333333333334,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0002935062589493116,
      "loss": 0.3713,
      "step": 141460
    },
    {
      "epoch": 188.62666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029350534425806395,
      "loss": 0.376,
      "step": 141470
    },
    {
      "epoch": 188.64,
      "grad_norm": 0.375,
      "learning_rate": 0.00029350442950382594,
      "loss": 0.3879,
      "step": 141480
    },
    {
      "epoch": 188.65333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002935035146865978,
      "loss": 0.3975,
      "step": 141490
    },
    {
      "epoch": 188.66666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029350259980638,
      "loss": 0.3841,
      "step": 141500
    },
    {
      "epoch": 188.68,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002935016848631729,
      "loss": 0.3763,
      "step": 141510
    },
    {
      "epoch": 188.69333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000293500769856977,
      "loss": 0.3859,
      "step": 141520
    },
    {
      "epoch": 188.70666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029349985478779254,
      "loss": 0.3784,
      "step": 141530
    },
    {
      "epoch": 188.72,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002934989396556201,
      "loss": 0.4011,
      "step": 141540
    },
    {
      "epoch": 188.73333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002934980244604599,
      "loss": 0.3947,
      "step": 141550
    },
    {
      "epoch": 188.74666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029349710920231254,
      "loss": 0.3979,
      "step": 141560
    },
    {
      "epoch": 188.76,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002934961938811782,
      "loss": 0.4099,
      "step": 141570
    },
    {
      "epoch": 188.77333333333334,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029349527849705756,
      "loss": 0.3964,
      "step": 141580
    },
    {
      "epoch": 188.78666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029349436304995077,
      "loss": 0.3978,
      "step": 141590
    },
    {
      "epoch": 188.8,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002934934475398583,
      "loss": 0.3951,
      "step": 141600
    },
    {
      "epoch": 188.81333333333333,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002934925319667806,
      "loss": 0.3691,
      "step": 141610
    },
    {
      "epoch": 188.82666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029349161633071807,
      "loss": 0.3781,
      "step": 141620
    },
    {
      "epoch": 188.84,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002934907006316711,
      "loss": 0.3918,
      "step": 141630
    },
    {
      "epoch": 188.85333333333332,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029348978486964006,
      "loss": 0.3867,
      "step": 141640
    },
    {
      "epoch": 188.86666666666667,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002934888690446254,
      "loss": 0.391,
      "step": 141650
    },
    {
      "epoch": 188.88,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029348795315662746,
      "loss": 0.372,
      "step": 141660
    },
    {
      "epoch": 188.89333333333335,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002934870372056467,
      "loss": 0.384,
      "step": 141670
    },
    {
      "epoch": 188.90666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002934861211916835,
      "loss": 0.3899,
      "step": 141680
    },
    {
      "epoch": 188.92,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029348520511473825,
      "loss": 0.3909,
      "step": 141690
    },
    {
      "epoch": 188.93333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002934842889748114,
      "loss": 0.3852,
      "step": 141700
    },
    {
      "epoch": 188.94666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002934833727719033,
      "loss": 0.3866,
      "step": 141710
    },
    {
      "epoch": 188.96,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002934824565060144,
      "loss": 0.3847,
      "step": 141720
    },
    {
      "epoch": 188.97333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.000293481540177145,
      "loss": 0.4085,
      "step": 141730
    },
    {
      "epoch": 188.98666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002934806237852956,
      "loss": 0.3815,
      "step": 141740
    },
    {
      "epoch": 189.0,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029347970733046663,
      "loss": 0.3777,
      "step": 141750
    },
    {
      "epoch": 189.0,
      "eval_loss": 0.4256782531738281,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.672,
      "eval_samples_per_second": 1.654,
      "eval_steps_per_second": 0.103,
      "step": 141750
    },
    {
      "epoch": 189.01333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029347879081265837,
      "loss": 0.3954,
      "step": 141760
    },
    {
      "epoch": 189.02666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002934778742318713,
      "loss": 0.4095,
      "step": 141770
    },
    {
      "epoch": 189.04,
      "grad_norm": 0.375,
      "learning_rate": 0.00029347695758810585,
      "loss": 0.4222,
      "step": 141780
    },
    {
      "epoch": 189.05333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029347604088136235,
      "loss": 0.4072,
      "step": 141790
    },
    {
      "epoch": 189.06666666666666,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002934751241116413,
      "loss": 0.3949,
      "step": 141800
    },
    {
      "epoch": 189.08,
      "grad_norm": 0.45703125,
      "learning_rate": 0.000293474207278943,
      "loss": 0.3976,
      "step": 141810
    },
    {
      "epoch": 189.09333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002934732903832678,
      "loss": 0.3988,
      "step": 141820
    },
    {
      "epoch": 189.10666666666665,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029347237342461634,
      "loss": 0.3876,
      "step": 141830
    },
    {
      "epoch": 189.12,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002934714564029888,
      "loss": 0.3914,
      "step": 141840
    },
    {
      "epoch": 189.13333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029347053931838573,
      "loss": 0.3826,
      "step": 141850
    },
    {
      "epoch": 189.14666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029346962217080737,
      "loss": 0.4016,
      "step": 141860
    },
    {
      "epoch": 189.16,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029346870496025425,
      "loss": 0.396,
      "step": 141870
    },
    {
      "epoch": 189.17333333333335,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029346778768672677,
      "loss": 0.3892,
      "step": 141880
    },
    {
      "epoch": 189.18666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002934668703502253,
      "loss": 0.3883,
      "step": 141890
    },
    {
      "epoch": 189.2,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002934659529507502,
      "loss": 0.3818,
      "step": 141900
    },
    {
      "epoch": 189.21333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029346503548830194,
      "loss": 0.3819,
      "step": 141910
    },
    {
      "epoch": 189.22666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002934641179628809,
      "loss": 0.3941,
      "step": 141920
    },
    {
      "epoch": 189.24,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029346320037448745,
      "loss": 0.3783,
      "step": 141930
    },
    {
      "epoch": 189.25333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029346228272312207,
      "loss": 0.3806,
      "step": 141940
    },
    {
      "epoch": 189.26666666666668,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002934613650087851,
      "loss": 0.3832,
      "step": 141950
    },
    {
      "epoch": 189.28,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029346044723147695,
      "loss": 0.4127,
      "step": 141960
    },
    {
      "epoch": 189.29333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.000293459529391198,
      "loss": 0.3703,
      "step": 141970
    },
    {
      "epoch": 189.30666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029345861148794873,
      "loss": 0.3931,
      "step": 141980
    },
    {
      "epoch": 189.32,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002934576935217295,
      "loss": 0.3959,
      "step": 141990
    },
    {
      "epoch": 189.33333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002934567754925407,
      "loss": 0.3979,
      "step": 142000
    },
    {
      "epoch": 189.34666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029345585740038276,
      "loss": 0.3886,
      "step": 142010
    },
    {
      "epoch": 189.36,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002934549392452561,
      "loss": 0.3885,
      "step": 142020
    },
    {
      "epoch": 189.37333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029345402102716104,
      "loss": 0.3911,
      "step": 142030
    },
    {
      "epoch": 189.38666666666666,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00029345310274609803,
      "loss": 0.3819,
      "step": 142040
    },
    {
      "epoch": 189.4,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002934521844020675,
      "loss": 0.3909,
      "step": 142050
    },
    {
      "epoch": 189.41333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002934512659950698,
      "loss": 0.3946,
      "step": 142060
    },
    {
      "epoch": 189.42666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002934503475251054,
      "loss": 0.3954,
      "step": 142070
    },
    {
      "epoch": 189.44,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002934494289921746,
      "loss": 0.4071,
      "step": 142080
    },
    {
      "epoch": 189.45333333333335,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029344851039627795,
      "loss": 0.3967,
      "step": 142090
    },
    {
      "epoch": 189.46666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029344759173741575,
      "loss": 0.4047,
      "step": 142100
    },
    {
      "epoch": 189.48,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002934466730155884,
      "loss": 0.386,
      "step": 142110
    },
    {
      "epoch": 189.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029344575423079634,
      "loss": 0.3981,
      "step": 142120
    },
    {
      "epoch": 189.50666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029344483538303994,
      "loss": 0.396,
      "step": 142130
    },
    {
      "epoch": 189.52,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002934439164723197,
      "loss": 0.3868,
      "step": 142140
    },
    {
      "epoch": 189.53333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029344299749863587,
      "loss": 0.39,
      "step": 142150
    },
    {
      "epoch": 189.54666666666665,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029344207846198895,
      "loss": 0.3918,
      "step": 142160
    },
    {
      "epoch": 189.56,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029344115936237933,
      "loss": 0.387,
      "step": 142170
    },
    {
      "epoch": 189.57333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029344024019980743,
      "loss": 0.3899,
      "step": 142180
    },
    {
      "epoch": 189.58666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029343932097427363,
      "loss": 0.3798,
      "step": 142190
    },
    {
      "epoch": 189.6,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002934384016857783,
      "loss": 0.3809,
      "step": 142200
    },
    {
      "epoch": 189.61333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002934374823343219,
      "loss": 0.3712,
      "step": 142210
    },
    {
      "epoch": 189.62666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002934365629199048,
      "loss": 0.3765,
      "step": 142220
    },
    {
      "epoch": 189.64,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029343564344252743,
      "loss": 0.3872,
      "step": 142230
    },
    {
      "epoch": 189.65333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029343472390219017,
      "loss": 0.3969,
      "step": 142240
    },
    {
      "epoch": 189.66666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029343380429889344,
      "loss": 0.3846,
      "step": 142250
    },
    {
      "epoch": 189.68,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029343288463263764,
      "loss": 0.3764,
      "step": 142260
    },
    {
      "epoch": 189.69333333333333,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002934319649034232,
      "loss": 0.3855,
      "step": 142270
    },
    {
      "epoch": 189.70666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002934310451112505,
      "loss": 0.3782,
      "step": 142280
    },
    {
      "epoch": 189.72,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002934301252561199,
      "loss": 0.4005,
      "step": 142290
    },
    {
      "epoch": 189.73333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029342920533803184,
      "loss": 0.3947,
      "step": 142300
    },
    {
      "epoch": 189.74666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002934282853569867,
      "loss": 0.3976,
      "step": 142310
    },
    {
      "epoch": 189.76,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029342736531298496,
      "loss": 0.4097,
      "step": 142320
    },
    {
      "epoch": 189.77333333333334,
      "grad_norm": 0.45703125,
      "learning_rate": 0.000293426445206027,
      "loss": 0.3971,
      "step": 142330
    },
    {
      "epoch": 189.78666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002934255250361131,
      "loss": 0.3973,
      "step": 142340
    },
    {
      "epoch": 189.8,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029342460480324386,
      "loss": 0.3968,
      "step": 142350
    },
    {
      "epoch": 189.81333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002934236845074195,
      "loss": 0.3689,
      "step": 142360
    },
    {
      "epoch": 189.82666666666665,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002934227641486406,
      "loss": 0.3789,
      "step": 142370
    },
    {
      "epoch": 189.84,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002934218437269074,
      "loss": 0.391,
      "step": 142380
    },
    {
      "epoch": 189.85333333333332,
      "grad_norm": 0.375,
      "learning_rate": 0.00029342092324222043,
      "loss": 0.3855,
      "step": 142390
    },
    {
      "epoch": 189.86666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029342000269458,
      "loss": 0.3903,
      "step": 142400
    },
    {
      "epoch": 189.88,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002934190820839866,
      "loss": 0.3723,
      "step": 142410
    },
    {
      "epoch": 189.89333333333335,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002934181614104405,
      "loss": 0.3833,
      "step": 142420
    },
    {
      "epoch": 189.90666666666667,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002934172406739423,
      "loss": 0.3895,
      "step": 142430
    },
    {
      "epoch": 189.92,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029341631987449225,
      "loss": 0.3914,
      "step": 142440
    },
    {
      "epoch": 189.93333333333334,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002934153990120908,
      "loss": 0.3855,
      "step": 142450
    },
    {
      "epoch": 189.94666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002934144780867383,
      "loss": 0.3864,
      "step": 142460
    },
    {
      "epoch": 189.96,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002934135570984353,
      "loss": 0.3841,
      "step": 142470
    },
    {
      "epoch": 189.97333333333333,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00029341263604718205,
      "loss": 0.409,
      "step": 142480
    },
    {
      "epoch": 189.98666666666668,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029341171493297907,
      "loss": 0.3809,
      "step": 142490
    },
    {
      "epoch": 190.0,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002934107937558267,
      "loss": 0.3784,
      "step": 142500
    },
    {
      "epoch": 190.0,
      "eval_loss": 0.42411378026008606,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9297,
      "eval_samples_per_second": 1.611,
      "eval_steps_per_second": 0.101,
      "step": 142500
    },
    {
      "epoch": 190.01333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029340987251572537,
      "loss": 0.3956,
      "step": 142510
    },
    {
      "epoch": 190.02666666666667,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029340895121267546,
      "loss": 0.4089,
      "step": 142520
    },
    {
      "epoch": 190.04,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029340802984667737,
      "loss": 0.4214,
      "step": 142530
    },
    {
      "epoch": 190.05333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029340710841773153,
      "loss": 0.4077,
      "step": 142540
    },
    {
      "epoch": 190.06666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002934061869258383,
      "loss": 0.3948,
      "step": 142550
    },
    {
      "epoch": 190.08,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002934052653709982,
      "loss": 0.399,
      "step": 142560
    },
    {
      "epoch": 190.09333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002934043437532115,
      "loss": 0.3997,
      "step": 142570
    },
    {
      "epoch": 190.10666666666665,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002934034220724787,
      "loss": 0.3869,
      "step": 142580
    },
    {
      "epoch": 190.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002934025003288001,
      "loss": 0.3912,
      "step": 142590
    },
    {
      "epoch": 190.13333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029340157852217623,
      "loss": 0.3819,
      "step": 142600
    },
    {
      "epoch": 190.14666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002934006566526074,
      "loss": 0.4025,
      "step": 142610
    },
    {
      "epoch": 190.16,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000293399734720094,
      "loss": 0.3955,
      "step": 142620
    },
    {
      "epoch": 190.17333333333335,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029339881272463656,
      "loss": 0.3903,
      "step": 142630
    },
    {
      "epoch": 190.18666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029339789066623535,
      "loss": 0.3879,
      "step": 142640
    },
    {
      "epoch": 190.2,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002933969685448909,
      "loss": 0.3811,
      "step": 142650
    },
    {
      "epoch": 190.21333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002933960463606035,
      "loss": 0.383,
      "step": 142660
    },
    {
      "epoch": 190.22666666666666,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002933951241133736,
      "loss": 0.393,
      "step": 142670
    },
    {
      "epoch": 190.24,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029339420180320163,
      "loss": 0.3787,
      "step": 142680
    },
    {
      "epoch": 190.25333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.000293393279430088,
      "loss": 0.3807,
      "step": 142690
    },
    {
      "epoch": 190.26666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.000293392356994033,
      "loss": 0.3837,
      "step": 142700
    },
    {
      "epoch": 190.28,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029339143449503717,
      "loss": 0.4129,
      "step": 142710
    },
    {
      "epoch": 190.29333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029339051193310087,
      "loss": 0.3693,
      "step": 142720
    },
    {
      "epoch": 190.30666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029338958930822447,
      "loss": 0.3933,
      "step": 142730
    },
    {
      "epoch": 190.32,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002933886666204084,
      "loss": 0.3958,
      "step": 142740
    },
    {
      "epoch": 190.33333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002933877438696531,
      "loss": 0.3992,
      "step": 142750
    },
    {
      "epoch": 190.34666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002933868210559589,
      "loss": 0.3889,
      "step": 142760
    },
    {
      "epoch": 190.36,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029338589817932634,
      "loss": 0.3895,
      "step": 142770
    },
    {
      "epoch": 190.37333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002933849752397557,
      "loss": 0.3903,
      "step": 142780
    },
    {
      "epoch": 190.38666666666666,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029338405223724735,
      "loss": 0.3819,
      "step": 142790
    },
    {
      "epoch": 190.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029338312917180187,
      "loss": 0.3886,
      "step": 142800
    },
    {
      "epoch": 190.41333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029338220604341943,
      "loss": 0.3958,
      "step": 142810
    },
    {
      "epoch": 190.42666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002933812828521007,
      "loss": 0.3967,
      "step": 142820
    },
    {
      "epoch": 190.44,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029338035959784584,
      "loss": 0.4083,
      "step": 142830
    },
    {
      "epoch": 190.45333333333335,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029337943628065545,
      "loss": 0.3971,
      "step": 142840
    },
    {
      "epoch": 190.46666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029337851290052984,
      "loss": 0.4048,
      "step": 142850
    },
    {
      "epoch": 190.48,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002933775894574694,
      "loss": 0.3874,
      "step": 142860
    },
    {
      "epoch": 190.49333333333334,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029337666595147455,
      "loss": 0.3986,
      "step": 142870
    },
    {
      "epoch": 190.50666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029337574238254575,
      "loss": 0.3972,
      "step": 142880
    },
    {
      "epoch": 190.52,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029337481875068335,
      "loss": 0.3873,
      "step": 142890
    },
    {
      "epoch": 190.53333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002933738950558878,
      "loss": 0.391,
      "step": 142900
    },
    {
      "epoch": 190.54666666666665,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029337297129815944,
      "loss": 0.3924,
      "step": 142910
    },
    {
      "epoch": 190.56,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002933720474774986,
      "loss": 0.3859,
      "step": 142920
    },
    {
      "epoch": 190.57333333333332,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029337112359390595,
      "loss": 0.3895,
      "step": 142930
    },
    {
      "epoch": 190.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029337019964738173,
      "loss": 0.3786,
      "step": 142940
    },
    {
      "epoch": 190.6,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002933692756379263,
      "loss": 0.38,
      "step": 142950
    },
    {
      "epoch": 190.61333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029336835156554015,
      "loss": 0.3711,
      "step": 142960
    },
    {
      "epoch": 190.62666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029336742743022365,
      "loss": 0.3763,
      "step": 142970
    },
    {
      "epoch": 190.64,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002933665032319772,
      "loss": 0.3878,
      "step": 142980
    },
    {
      "epoch": 190.65333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029336557897080123,
      "loss": 0.3971,
      "step": 142990
    },
    {
      "epoch": 190.66666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002933646546466961,
      "loss": 0.3849,
      "step": 143000
    },
    {
      "epoch": 190.68,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002933637302596623,
      "loss": 0.3763,
      "step": 143010
    },
    {
      "epoch": 190.69333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029336280580970014,
      "loss": 0.3861,
      "step": 143020
    },
    {
      "epoch": 190.70666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002933618812968101,
      "loss": 0.3782,
      "step": 143030
    },
    {
      "epoch": 190.72,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029336095672099263,
      "loss": 0.4001,
      "step": 143040
    },
    {
      "epoch": 190.73333333333332,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000293360032082248,
      "loss": 0.3948,
      "step": 143050
    },
    {
      "epoch": 190.74666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002933591073805766,
      "loss": 0.3972,
      "step": 143060
    },
    {
      "epoch": 190.76,
      "grad_norm": 0.41015625,
      "learning_rate": 0.000293358182615979,
      "loss": 0.4094,
      "step": 143070
    },
    {
      "epoch": 190.77333333333334,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002933572577884555,
      "loss": 0.3969,
      "step": 143080
    },
    {
      "epoch": 190.78666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029335633289800657,
      "loss": 0.3965,
      "step": 143090
    },
    {
      "epoch": 190.8,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029335540794463253,
      "loss": 0.3958,
      "step": 143100
    },
    {
      "epoch": 190.81333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002933544829283338,
      "loss": 0.3682,
      "step": 143110
    },
    {
      "epoch": 190.82666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029335355784911087,
      "loss": 0.3784,
      "step": 143120
    },
    {
      "epoch": 190.84,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029335263270696406,
      "loss": 0.3901,
      "step": 143130
    },
    {
      "epoch": 190.85333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029335170750189384,
      "loss": 0.3861,
      "step": 143140
    },
    {
      "epoch": 190.86666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029335078223390054,
      "loss": 0.3898,
      "step": 143150
    },
    {
      "epoch": 190.88,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002933498569029846,
      "loss": 0.3717,
      "step": 143160
    },
    {
      "epoch": 190.89333333333335,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002933489315091465,
      "loss": 0.3834,
      "step": 143170
    },
    {
      "epoch": 190.90666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029334800605238654,
      "loss": 0.3901,
      "step": 143180
    },
    {
      "epoch": 190.92,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029334708053270513,
      "loss": 0.3914,
      "step": 143190
    },
    {
      "epoch": 190.93333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029334615495010276,
      "loss": 0.3852,
      "step": 143200
    },
    {
      "epoch": 190.94666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002933452293045798,
      "loss": 0.3866,
      "step": 143210
    },
    {
      "epoch": 190.96,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029334430359613664,
      "loss": 0.3845,
      "step": 143220
    },
    {
      "epoch": 190.97333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002933433778247737,
      "loss": 0.4095,
      "step": 143230
    },
    {
      "epoch": 190.98666666666668,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029334245199049135,
      "loss": 0.3809,
      "step": 143240
    },
    {
      "epoch": 191.0,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029334152609329005,
      "loss": 0.3787,
      "step": 143250
    },
    {
      "epoch": 191.0,
      "eval_loss": 0.42531707882881165,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2197,
      "eval_samples_per_second": 1.566,
      "eval_steps_per_second": 0.098,
      "step": 143250
    },
    {
      "epoch": 191.01333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002933406001331702,
      "loss": 0.3945,
      "step": 143260
    },
    {
      "epoch": 191.02666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002933396741101321,
      "loss": 0.4086,
      "step": 143270
    },
    {
      "epoch": 191.04,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002933387480241764,
      "loss": 0.4218,
      "step": 143280
    },
    {
      "epoch": 191.05333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002933378218753032,
      "loss": 0.4068,
      "step": 143290
    },
    {
      "epoch": 191.06666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002933368956635131,
      "loss": 0.3949,
      "step": 143300
    },
    {
      "epoch": 191.08,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0002933359693888065,
      "loss": 0.3978,
      "step": 143310
    },
    {
      "epoch": 191.09333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029333504305118375,
      "loss": 0.3991,
      "step": 143320
    },
    {
      "epoch": 191.10666666666665,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002933341166506453,
      "loss": 0.3865,
      "step": 143330
    },
    {
      "epoch": 191.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002933331901871915,
      "loss": 0.3912,
      "step": 143340
    },
    {
      "epoch": 191.13333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002933322636608228,
      "loss": 0.3837,
      "step": 143350
    },
    {
      "epoch": 191.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002933313370715396,
      "loss": 0.4021,
      "step": 143360
    },
    {
      "epoch": 191.16,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002933304104193423,
      "loss": 0.396,
      "step": 143370
    },
    {
      "epoch": 191.17333333333335,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029332948370423134,
      "loss": 0.3897,
      "step": 143380
    },
    {
      "epoch": 191.18666666666667,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029332855692620706,
      "loss": 0.389,
      "step": 143390
    },
    {
      "epoch": 191.2,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002933276300852699,
      "loss": 0.381,
      "step": 143400
    },
    {
      "epoch": 191.21333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002933267031814203,
      "loss": 0.3818,
      "step": 143410
    },
    {
      "epoch": 191.22666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029332577621465867,
      "loss": 0.394,
      "step": 143420
    },
    {
      "epoch": 191.24,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002933248491849853,
      "loss": 0.3779,
      "step": 143430
    },
    {
      "epoch": 191.25333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029332392209240076,
      "loss": 0.3805,
      "step": 143440
    },
    {
      "epoch": 191.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029332299493690537,
      "loss": 0.3828,
      "step": 143450
    },
    {
      "epoch": 191.28,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029332206771849953,
      "loss": 0.4133,
      "step": 143460
    },
    {
      "epoch": 191.29333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029332114043718367,
      "loss": 0.3691,
      "step": 143470
    },
    {
      "epoch": 191.30666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029332021309295817,
      "loss": 0.3929,
      "step": 143480
    },
    {
      "epoch": 191.32,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002933192856858234,
      "loss": 0.3952,
      "step": 143490
    },
    {
      "epoch": 191.33333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029331835821577994,
      "loss": 0.3978,
      "step": 143500
    },
    {
      "epoch": 191.34666666666666,
      "grad_norm": 0.478515625,
      "learning_rate": 0.000293317430682828,
      "loss": 0.3883,
      "step": 143510
    },
    {
      "epoch": 191.36,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029331650308696814,
      "loss": 0.3889,
      "step": 143520
    },
    {
      "epoch": 191.37333333333333,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029331557542820063,
      "loss": 0.3908,
      "step": 143530
    },
    {
      "epoch": 191.38666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.000293314647706526,
      "loss": 0.3824,
      "step": 143540
    },
    {
      "epoch": 191.4,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029331371992194456,
      "loss": 0.3893,
      "step": 143550
    },
    {
      "epoch": 191.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029331279207445675,
      "loss": 0.3942,
      "step": 143560
    },
    {
      "epoch": 191.42666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029331186416406305,
      "loss": 0.3955,
      "step": 143570
    },
    {
      "epoch": 191.44,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002933109361907637,
      "loss": 0.4074,
      "step": 143580
    },
    {
      "epoch": 191.45333333333335,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002933100081545593,
      "loss": 0.3956,
      "step": 143590
    },
    {
      "epoch": 191.46666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002933090800554501,
      "loss": 0.4054,
      "step": 143600
    },
    {
      "epoch": 191.48,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029330815189343657,
      "loss": 0.3867,
      "step": 143610
    },
    {
      "epoch": 191.49333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002933072236685192,
      "loss": 0.398,
      "step": 143620
    },
    {
      "epoch": 191.50666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029330629538069827,
      "loss": 0.3964,
      "step": 143630
    },
    {
      "epoch": 191.52,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029330536702997423,
      "loss": 0.3871,
      "step": 143640
    },
    {
      "epoch": 191.53333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002933044386163475,
      "loss": 0.389,
      "step": 143650
    },
    {
      "epoch": 191.54666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002933035101398185,
      "loss": 0.3912,
      "step": 143660
    },
    {
      "epoch": 191.56,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002933025816003876,
      "loss": 0.3864,
      "step": 143670
    },
    {
      "epoch": 191.57333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002933016529980552,
      "loss": 0.3898,
      "step": 143680
    },
    {
      "epoch": 191.58666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002933007243328218,
      "loss": 0.3801,
      "step": 143690
    },
    {
      "epoch": 191.6,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002932997956046877,
      "loss": 0.3811,
      "step": 143700
    },
    {
      "epoch": 191.61333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029329886681365335,
      "loss": 0.3711,
      "step": 143710
    },
    {
      "epoch": 191.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0002932979379597192,
      "loss": 0.3767,
      "step": 143720
    },
    {
      "epoch": 191.64,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002932970090428855,
      "loss": 0.3871,
      "step": 143730
    },
    {
      "epoch": 191.65333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002932960800631529,
      "loss": 0.3967,
      "step": 143740
    },
    {
      "epoch": 191.66666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002932951510205216,
      "loss": 0.3853,
      "step": 143750
    },
    {
      "epoch": 191.68,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002932942219149921,
      "loss": 0.376,
      "step": 143760
    },
    {
      "epoch": 191.69333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029329329274656486,
      "loss": 0.3859,
      "step": 143770
    },
    {
      "epoch": 191.70666666666668,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029329236351524016,
      "loss": 0.3786,
      "step": 143780
    },
    {
      "epoch": 191.72,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002932914342210185,
      "loss": 0.4012,
      "step": 143790
    },
    {
      "epoch": 191.73333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002932905048639003,
      "loss": 0.3947,
      "step": 143800
    },
    {
      "epoch": 191.74666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002932895754438858,
      "loss": 0.397,
      "step": 143810
    },
    {
      "epoch": 191.76,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029328864596097563,
      "loss": 0.4104,
      "step": 143820
    },
    {
      "epoch": 191.77333333333334,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029328771641517007,
      "loss": 0.3956,
      "step": 143830
    },
    {
      "epoch": 191.78666666666666,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002932867868064696,
      "loss": 0.397,
      "step": 143840
    },
    {
      "epoch": 191.8,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029328585713487453,
      "loss": 0.3962,
      "step": 143850
    },
    {
      "epoch": 191.81333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002932849274003854,
      "loss": 0.3691,
      "step": 143860
    },
    {
      "epoch": 191.82666666666665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029328399760300246,
      "loss": 0.3783,
      "step": 143870
    },
    {
      "epoch": 191.84,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002932830677427263,
      "loss": 0.3905,
      "step": 143880
    },
    {
      "epoch": 191.85333333333332,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029328213781955716,
      "loss": 0.3863,
      "step": 143890
    },
    {
      "epoch": 191.86666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029328120783349553,
      "loss": 0.3904,
      "step": 143900
    },
    {
      "epoch": 191.88,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002932802777845418,
      "loss": 0.3711,
      "step": 143910
    },
    {
      "epoch": 191.89333333333335,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002932793476726965,
      "loss": 0.3829,
      "step": 143920
    },
    {
      "epoch": 191.90666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029327841749795977,
      "loss": 0.3897,
      "step": 143930
    },
    {
      "epoch": 191.92,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002932774872603322,
      "loss": 0.3914,
      "step": 143940
    },
    {
      "epoch": 191.93333333333334,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002932765569598143,
      "loss": 0.3859,
      "step": 143950
    },
    {
      "epoch": 191.94666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029327562659640623,
      "loss": 0.3856,
      "step": 143960
    },
    {
      "epoch": 191.96,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029327469617010854,
      "loss": 0.3845,
      "step": 143970
    },
    {
      "epoch": 191.97333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002932737656809216,
      "loss": 0.4089,
      "step": 143980
    },
    {
      "epoch": 191.98666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029327283512884587,
      "loss": 0.3811,
      "step": 143990
    },
    {
      "epoch": 192.0,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002932719045138817,
      "loss": 0.3776,
      "step": 144000
    },
    {
      "epoch": 192.0,
      "eval_loss": 0.4261593520641327,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8627,
      "eval_samples_per_second": 1.622,
      "eval_steps_per_second": 0.101,
      "step": 144000
    },
    {
      "epoch": 192.01333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029327097383602955,
      "loss": 0.3954,
      "step": 144010
    },
    {
      "epoch": 192.02666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002932700430952898,
      "loss": 0.4085,
      "step": 144020
    },
    {
      "epoch": 192.04,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002932691122916628,
      "loss": 0.4208,
      "step": 144030
    },
    {
      "epoch": 192.05333333333334,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029326818142514906,
      "loss": 0.4069,
      "step": 144040
    },
    {
      "epoch": 192.06666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000293267250495749,
      "loss": 0.3948,
      "step": 144050
    },
    {
      "epoch": 192.08,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002932663195034629,
      "loss": 0.3978,
      "step": 144060
    },
    {
      "epoch": 192.09333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002932653884482913,
      "loss": 0.399,
      "step": 144070
    },
    {
      "epoch": 192.10666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002932644573302345,
      "loss": 0.3863,
      "step": 144080
    },
    {
      "epoch": 192.12,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029326352614929296,
      "loss": 0.391,
      "step": 144090
    },
    {
      "epoch": 192.13333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002932625949054671,
      "loss": 0.3827,
      "step": 144100
    },
    {
      "epoch": 192.14666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029326166359875733,
      "loss": 0.4013,
      "step": 144110
    },
    {
      "epoch": 192.16,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000293260732229164,
      "loss": 0.3961,
      "step": 144120
    },
    {
      "epoch": 192.17333333333335,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002932598007966876,
      "loss": 0.3907,
      "step": 144130
    },
    {
      "epoch": 192.18666666666667,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002932588693013286,
      "loss": 0.3887,
      "step": 144140
    },
    {
      "epoch": 192.2,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002932579377430872,
      "loss": 0.3807,
      "step": 144150
    },
    {
      "epoch": 192.21333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029325700612196394,
      "loss": 0.3823,
      "step": 144160
    },
    {
      "epoch": 192.22666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002932560744379592,
      "loss": 0.3929,
      "step": 144170
    },
    {
      "epoch": 192.24,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029325514269107344,
      "loss": 0.3782,
      "step": 144180
    },
    {
      "epoch": 192.25333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000293254210881307,
      "loss": 0.3798,
      "step": 144190
    },
    {
      "epoch": 192.26666666666668,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002932532790086603,
      "loss": 0.3828,
      "step": 144200
    },
    {
      "epoch": 192.28,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029325234707313383,
      "loss": 0.4126,
      "step": 144210
    },
    {
      "epoch": 192.29333333333332,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002932514150747279,
      "loss": 0.3694,
      "step": 144220
    },
    {
      "epoch": 192.30666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029325048301344294,
      "loss": 0.3931,
      "step": 144230
    },
    {
      "epoch": 192.32,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002932495508892794,
      "loss": 0.3966,
      "step": 144240
    },
    {
      "epoch": 192.33333333333334,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002932486187022377,
      "loss": 0.3974,
      "step": 144250
    },
    {
      "epoch": 192.34666666666666,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029324768645231817,
      "loss": 0.3893,
      "step": 144260
    },
    {
      "epoch": 192.36,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002932467541395212,
      "loss": 0.3886,
      "step": 144270
    },
    {
      "epoch": 192.37333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002932458217638473,
      "loss": 0.3911,
      "step": 144280
    },
    {
      "epoch": 192.38666666666666,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002932448893252969,
      "loss": 0.3823,
      "step": 144290
    },
    {
      "epoch": 192.4,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029324395682387035,
      "loss": 0.39,
      "step": 144300
    },
    {
      "epoch": 192.41333333333333,
      "grad_norm": 0.392578125,
      "learning_rate": 0.000293243024259568,
      "loss": 0.3941,
      "step": 144310
    },
    {
      "epoch": 192.42666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029324209163239035,
      "loss": 0.3954,
      "step": 144320
    },
    {
      "epoch": 192.44,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002932411589423378,
      "loss": 0.4076,
      "step": 144330
    },
    {
      "epoch": 192.45333333333335,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029324022618941063,
      "loss": 0.3966,
      "step": 144340
    },
    {
      "epoch": 192.46666666666667,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029323929337360947,
      "loss": 0.4044,
      "step": 144350
    },
    {
      "epoch": 192.48,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002932383604949346,
      "loss": 0.387,
      "step": 144360
    },
    {
      "epoch": 192.49333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029323742755338637,
      "loss": 0.3984,
      "step": 144370
    },
    {
      "epoch": 192.50666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029323649454896536,
      "loss": 0.3964,
      "step": 144380
    },
    {
      "epoch": 192.52,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00029323556148167185,
      "loss": 0.3873,
      "step": 144390
    },
    {
      "epoch": 192.53333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029323462835150626,
      "loss": 0.3903,
      "step": 144400
    },
    {
      "epoch": 192.54666666666665,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029323369515846904,
      "loss": 0.3911,
      "step": 144410
    },
    {
      "epoch": 192.56,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029323276190256056,
      "loss": 0.3857,
      "step": 144420
    },
    {
      "epoch": 192.57333333333332,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002932318285837813,
      "loss": 0.3892,
      "step": 144430
    },
    {
      "epoch": 192.58666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002932308952021316,
      "loss": 0.3785,
      "step": 144440
    },
    {
      "epoch": 192.6,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002932299617576119,
      "loss": 0.3802,
      "step": 144450
    },
    {
      "epoch": 192.61333333333334,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00029322902825022263,
      "loss": 0.371,
      "step": 144460
    },
    {
      "epoch": 192.62666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002932280946799641,
      "loss": 0.3767,
      "step": 144470
    },
    {
      "epoch": 192.64,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029322716104683685,
      "loss": 0.3871,
      "step": 144480
    },
    {
      "epoch": 192.65333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002932262273508412,
      "loss": 0.3977,
      "step": 144490
    },
    {
      "epoch": 192.66666666666666,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002932252935919776,
      "loss": 0.3851,
      "step": 144500
    },
    {
      "epoch": 192.68,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002932243597702465,
      "loss": 0.3764,
      "step": 144510
    },
    {
      "epoch": 192.69333333333333,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002932234258856482,
      "loss": 0.3866,
      "step": 144520
    },
    {
      "epoch": 192.70666666666668,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002932224919381832,
      "loss": 0.3786,
      "step": 144530
    },
    {
      "epoch": 192.72,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029322155792785184,
      "loss": 0.4,
      "step": 144540
    },
    {
      "epoch": 192.73333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029322062385465464,
      "loss": 0.3944,
      "step": 144550
    },
    {
      "epoch": 192.74666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029321968971859186,
      "loss": 0.396,
      "step": 144560
    },
    {
      "epoch": 192.76,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029321875551966407,
      "loss": 0.4102,
      "step": 144570
    },
    {
      "epoch": 192.77333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002932178212578715,
      "loss": 0.396,
      "step": 144580
    },
    {
      "epoch": 192.78666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029321688693321476,
      "loss": 0.3975,
      "step": 144590
    },
    {
      "epoch": 192.8,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029321595254569417,
      "loss": 0.3952,
      "step": 144600
    },
    {
      "epoch": 192.81333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029321501809531007,
      "loss": 0.3688,
      "step": 144610
    },
    {
      "epoch": 192.82666666666665,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029321408358206296,
      "loss": 0.3781,
      "step": 144620
    },
    {
      "epoch": 192.84,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002932131490059532,
      "loss": 0.3899,
      "step": 144630
    },
    {
      "epoch": 192.85333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029321221436698125,
      "loss": 0.3859,
      "step": 144640
    },
    {
      "epoch": 192.86666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029321127966514747,
      "loss": 0.3901,
      "step": 144650
    },
    {
      "epoch": 192.88,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002932103449004523,
      "loss": 0.3716,
      "step": 144660
    },
    {
      "epoch": 192.89333333333335,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029320941007289616,
      "loss": 0.3833,
      "step": 144670
    },
    {
      "epoch": 192.90666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002932084751824794,
      "loss": 0.3891,
      "step": 144680
    },
    {
      "epoch": 192.92,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029320754022920255,
      "loss": 0.3915,
      "step": 144690
    },
    {
      "epoch": 192.93333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029320660521306587,
      "loss": 0.3853,
      "step": 144700
    },
    {
      "epoch": 192.94666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029320567013406987,
      "loss": 0.3855,
      "step": 144710
    },
    {
      "epoch": 192.96,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002932047349922149,
      "loss": 0.3848,
      "step": 144720
    },
    {
      "epoch": 192.97333333333333,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002932037997875015,
      "loss": 0.4094,
      "step": 144730
    },
    {
      "epoch": 192.98666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029320286451992993,
      "loss": 0.3817,
      "step": 144740
    },
    {
      "epoch": 193.0,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002932019291895006,
      "loss": 0.3783,
      "step": 144750
    },
    {
      "epoch": 193.0,
      "eval_loss": 0.4271315634250641,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9543,
      "eval_samples_per_second": 1.607,
      "eval_steps_per_second": 0.1,
      "step": 144750
    },
    {
      "epoch": 193.01333333333332,
      "grad_norm": 0.484375,
      "learning_rate": 0.000293200993796214,
      "loss": 0.3947,
      "step": 144760
    },
    {
      "epoch": 193.02666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029320005834007054,
      "loss": 0.4089,
      "step": 144770
    },
    {
      "epoch": 193.04,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029319912282107065,
      "loss": 0.4212,
      "step": 144780
    },
    {
      "epoch": 193.05333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002931981872392147,
      "loss": 0.4071,
      "step": 144790
    },
    {
      "epoch": 193.06666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000293197251594503,
      "loss": 0.3947,
      "step": 144800
    },
    {
      "epoch": 193.08,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002931963158869362,
      "loss": 0.398,
      "step": 144810
    },
    {
      "epoch": 193.09333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029319538011651444,
      "loss": 0.3984,
      "step": 144820
    },
    {
      "epoch": 193.10666666666665,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029319444428323833,
      "loss": 0.3877,
      "step": 144830
    },
    {
      "epoch": 193.12,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002931935083871082,
      "loss": 0.3915,
      "step": 144840
    },
    {
      "epoch": 193.13333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002931925724281245,
      "loss": 0.3829,
      "step": 144850
    },
    {
      "epoch": 193.14666666666668,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002931916364062875,
      "loss": 0.4021,
      "step": 144860
    },
    {
      "epoch": 193.16,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002931907003215979,
      "loss": 0.3957,
      "step": 144870
    },
    {
      "epoch": 193.17333333333335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002931897641740558,
      "loss": 0.3909,
      "step": 144880
    },
    {
      "epoch": 193.18666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002931888279636618,
      "loss": 0.3882,
      "step": 144890
    },
    {
      "epoch": 193.2,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029318789169041626,
      "loss": 0.3814,
      "step": 144900
    },
    {
      "epoch": 193.21333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029318695535431955,
      "loss": 0.3822,
      "step": 144910
    },
    {
      "epoch": 193.22666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002931860189553722,
      "loss": 0.3936,
      "step": 144920
    },
    {
      "epoch": 193.24,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002931850824935745,
      "loss": 0.3786,
      "step": 144930
    },
    {
      "epoch": 193.25333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002931841459689268,
      "loss": 0.381,
      "step": 144940
    },
    {
      "epoch": 193.26666666666668,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029318320938142976,
      "loss": 0.3833,
      "step": 144950
    },
    {
      "epoch": 193.28,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002931822727310836,
      "loss": 0.4125,
      "step": 144960
    },
    {
      "epoch": 193.29333333333332,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029318133601788875,
      "loss": 0.3693,
      "step": 144970
    },
    {
      "epoch": 193.30666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002931803992418456,
      "loss": 0.393,
      "step": 144980
    },
    {
      "epoch": 193.32,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002931794624029547,
      "loss": 0.3963,
      "step": 144990
    },
    {
      "epoch": 193.33333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029317852550121633,
      "loss": 0.3977,
      "step": 145000
    },
    {
      "epoch": 193.34666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.000293177588536631,
      "loss": 0.3895,
      "step": 145010
    },
    {
      "epoch": 193.36,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00029317665150919894,
      "loss": 0.3893,
      "step": 145020
    },
    {
      "epoch": 193.37333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002931757144189208,
      "loss": 0.3903,
      "step": 145030
    },
    {
      "epoch": 193.38666666666666,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0002931747772657968,
      "loss": 0.3819,
      "step": 145040
    },
    {
      "epoch": 193.4,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002931738400498274,
      "loss": 0.3902,
      "step": 145050
    },
    {
      "epoch": 193.41333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029317290277101313,
      "loss": 0.3938,
      "step": 145060
    },
    {
      "epoch": 193.42666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029317196542935425,
      "loss": 0.3954,
      "step": 145070
    },
    {
      "epoch": 193.44,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002931710280248512,
      "loss": 0.4067,
      "step": 145080
    },
    {
      "epoch": 193.45333333333335,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002931700905575045,
      "loss": 0.3964,
      "step": 145090
    },
    {
      "epoch": 193.46666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002931691530273145,
      "loss": 0.4053,
      "step": 145100
    },
    {
      "epoch": 193.48,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002931682154342815,
      "loss": 0.3871,
      "step": 145110
    },
    {
      "epoch": 193.49333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029316727777840606,
      "loss": 0.3987,
      "step": 145120
    },
    {
      "epoch": 193.50666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002931663400596885,
      "loss": 0.3966,
      "step": 145130
    },
    {
      "epoch": 193.52,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002931654022781293,
      "loss": 0.3872,
      "step": 145140
    },
    {
      "epoch": 193.53333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029316446443372883,
      "loss": 0.3906,
      "step": 145150
    },
    {
      "epoch": 193.54666666666665,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002931635265264875,
      "loss": 0.3919,
      "step": 145160
    },
    {
      "epoch": 193.56,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029316258855640573,
      "loss": 0.3857,
      "step": 145170
    },
    {
      "epoch": 193.57333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029316165052348394,
      "loss": 0.3903,
      "step": 145180
    },
    {
      "epoch": 193.58666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002931607124277226,
      "loss": 0.3787,
      "step": 145190
    },
    {
      "epoch": 193.6,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000293159774269122,
      "loss": 0.3807,
      "step": 145200
    },
    {
      "epoch": 193.61333333333334,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002931588360476826,
      "loss": 0.3709,
      "step": 145210
    },
    {
      "epoch": 193.62666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029315789776340485,
      "loss": 0.3754,
      "step": 145220
    },
    {
      "epoch": 193.64,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029315695941628913,
      "loss": 0.3884,
      "step": 145230
    },
    {
      "epoch": 193.65333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002931560210063358,
      "loss": 0.3965,
      "step": 145240
    },
    {
      "epoch": 193.66666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002931550825335454,
      "loss": 0.385,
      "step": 145250
    },
    {
      "epoch": 193.68,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029315414399791825,
      "loss": 0.3757,
      "step": 145260
    },
    {
      "epoch": 193.69333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002931532053994548,
      "loss": 0.3858,
      "step": 145270
    },
    {
      "epoch": 193.70666666666668,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00029315226673815535,
      "loss": 0.3779,
      "step": 145280
    },
    {
      "epoch": 193.72,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002931513280140205,
      "loss": 0.4001,
      "step": 145290
    },
    {
      "epoch": 193.73333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002931503892270506,
      "loss": 0.394,
      "step": 145300
    },
    {
      "epoch": 193.74666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029314945037724595,
      "loss": 0.3966,
      "step": 145310
    },
    {
      "epoch": 193.76,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029314851146460707,
      "loss": 0.4106,
      "step": 145320
    },
    {
      "epoch": 193.77333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029314757248913434,
      "loss": 0.3958,
      "step": 145330
    },
    {
      "epoch": 193.78666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002931466334508282,
      "loss": 0.3976,
      "step": 145340
    },
    {
      "epoch": 193.8,
      "grad_norm": 0.44921875,
      "learning_rate": 0.000293145694349689,
      "loss": 0.3957,
      "step": 145350
    },
    {
      "epoch": 193.81333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002931447551857172,
      "loss": 0.3689,
      "step": 145360
    },
    {
      "epoch": 193.82666666666665,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029314381595891317,
      "loss": 0.3777,
      "step": 145370
    },
    {
      "epoch": 193.84,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029314287666927746,
      "loss": 0.3903,
      "step": 145380
    },
    {
      "epoch": 193.85333333333332,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002931419373168103,
      "loss": 0.3849,
      "step": 145390
    },
    {
      "epoch": 193.86666666666667,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002931409979015122,
      "loss": 0.3905,
      "step": 145400
    },
    {
      "epoch": 193.88,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029314005842338354,
      "loss": 0.3712,
      "step": 145410
    },
    {
      "epoch": 193.89333333333335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002931391188824248,
      "loss": 0.3827,
      "step": 145420
    },
    {
      "epoch": 193.90666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029313817927863623,
      "loss": 0.3896,
      "step": 145430
    },
    {
      "epoch": 193.92,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002931372396120184,
      "loss": 0.3919,
      "step": 145440
    },
    {
      "epoch": 193.93333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002931362998825717,
      "loss": 0.3855,
      "step": 145450
    },
    {
      "epoch": 193.94666666666666,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002931353600902965,
      "loss": 0.3867,
      "step": 145460
    },
    {
      "epoch": 193.96,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002931344202351932,
      "loss": 0.3853,
      "step": 145470
    },
    {
      "epoch": 193.97333333333333,
      "grad_norm": 0.484375,
      "learning_rate": 0.00029313348031726226,
      "loss": 0.4088,
      "step": 145480
    },
    {
      "epoch": 193.98666666666668,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002931325403365041,
      "loss": 0.3809,
      "step": 145490
    },
    {
      "epoch": 194.0,
      "grad_norm": 0.37109375,
      "learning_rate": 0.000293131600292919,
      "loss": 0.3786,
      "step": 145500
    },
    {
      "epoch": 194.0,
      "eval_loss": 0.4264920651912689,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.5955,
      "eval_samples_per_second": 1.667,
      "eval_steps_per_second": 0.104,
      "step": 145500
    },
    {
      "epoch": 194.01333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002931306601865076,
      "loss": 0.3952,
      "step": 145510
    },
    {
      "epoch": 194.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029312972001727014,
      "loss": 0.4091,
      "step": 145520
    },
    {
      "epoch": 194.04,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002931287797852071,
      "loss": 0.4211,
      "step": 145530
    },
    {
      "epoch": 194.05333333333334,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029312783949031885,
      "loss": 0.4071,
      "step": 145540
    },
    {
      "epoch": 194.06666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002931268991326058,
      "loss": 0.3939,
      "step": 145550
    },
    {
      "epoch": 194.08,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002931259587120685,
      "loss": 0.3978,
      "step": 145560
    },
    {
      "epoch": 194.09333333333333,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029312501822870715,
      "loss": 0.3988,
      "step": 145570
    },
    {
      "epoch": 194.10666666666665,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029312407768252233,
      "loss": 0.387,
      "step": 145580
    },
    {
      "epoch": 194.12,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002931231370735144,
      "loss": 0.3916,
      "step": 145590
    },
    {
      "epoch": 194.13333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029312219640168364,
      "loss": 0.3832,
      "step": 145600
    },
    {
      "epoch": 194.14666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002931212556670307,
      "loss": 0.4012,
      "step": 145610
    },
    {
      "epoch": 194.16,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029312031486955584,
      "loss": 0.3951,
      "step": 145620
    },
    {
      "epoch": 194.17333333333335,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002931193740092595,
      "loss": 0.3901,
      "step": 145630
    },
    {
      "epoch": 194.18666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002931184330861421,
      "loss": 0.3889,
      "step": 145640
    },
    {
      "epoch": 194.2,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002931174921002041,
      "loss": 0.382,
      "step": 145650
    },
    {
      "epoch": 194.21333333333334,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029311655105144585,
      "loss": 0.3836,
      "step": 145660
    },
    {
      "epoch": 194.22666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029311560993986775,
      "loss": 0.3932,
      "step": 145670
    },
    {
      "epoch": 194.24,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002931146687654703,
      "loss": 0.3788,
      "step": 145680
    },
    {
      "epoch": 194.25333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029311372752825385,
      "loss": 0.38,
      "step": 145690
    },
    {
      "epoch": 194.26666666666668,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002931127862282188,
      "loss": 0.3836,
      "step": 145700
    },
    {
      "epoch": 194.28,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002931118448653656,
      "loss": 0.4125,
      "step": 145710
    },
    {
      "epoch": 194.29333333333332,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029311090343969465,
      "loss": 0.3698,
      "step": 145720
    },
    {
      "epoch": 194.30666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029310996195120636,
      "loss": 0.3932,
      "step": 145730
    },
    {
      "epoch": 194.32,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002931090203999011,
      "loss": 0.3953,
      "step": 145740
    },
    {
      "epoch": 194.33333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002931080787857794,
      "loss": 0.3982,
      "step": 145750
    },
    {
      "epoch": 194.34666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002931071371088415,
      "loss": 0.3885,
      "step": 145760
    },
    {
      "epoch": 194.36,
      "grad_norm": 0.5625,
      "learning_rate": 0.000293106195369088,
      "loss": 0.3877,
      "step": 145770
    },
    {
      "epoch": 194.37333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029310525356651923,
      "loss": 0.391,
      "step": 145780
    },
    {
      "epoch": 194.38666666666666,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002931043117011356,
      "loss": 0.3826,
      "step": 145790
    },
    {
      "epoch": 194.4,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029310336977293755,
      "loss": 0.3909,
      "step": 145800
    },
    {
      "epoch": 194.41333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002931024277819254,
      "loss": 0.3945,
      "step": 145810
    },
    {
      "epoch": 194.42666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029310148572809965,
      "loss": 0.3962,
      "step": 145820
    },
    {
      "epoch": 194.44,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002931005436114607,
      "loss": 0.4077,
      "step": 145830
    },
    {
      "epoch": 194.45333333333335,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029309960143200897,
      "loss": 0.3963,
      "step": 145840
    },
    {
      "epoch": 194.46666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002930986591897449,
      "loss": 0.4049,
      "step": 145850
    },
    {
      "epoch": 194.48,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002930977168846688,
      "loss": 0.3864,
      "step": 145860
    },
    {
      "epoch": 194.49333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029309677451678113,
      "loss": 0.3986,
      "step": 145870
    },
    {
      "epoch": 194.50666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002930958320860824,
      "loss": 0.3967,
      "step": 145880
    },
    {
      "epoch": 194.52,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029309488959257293,
      "loss": 0.3873,
      "step": 145890
    },
    {
      "epoch": 194.53333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029309394703625315,
      "loss": 0.3906,
      "step": 145900
    },
    {
      "epoch": 194.54666666666665,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002930930044171235,
      "loss": 0.392,
      "step": 145910
    },
    {
      "epoch": 194.56,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002930920617351843,
      "loss": 0.3857,
      "step": 145920
    },
    {
      "epoch": 194.57333333333332,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029309111899043604,
      "loss": 0.3893,
      "step": 145930
    },
    {
      "epoch": 194.58666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029309017618287913,
      "loss": 0.3785,
      "step": 145940
    },
    {
      "epoch": 194.6,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000293089233312514,
      "loss": 0.3807,
      "step": 145950
    },
    {
      "epoch": 194.61333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002930882903793411,
      "loss": 0.3707,
      "step": 145960
    },
    {
      "epoch": 194.62666666666667,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002930873473833607,
      "loss": 0.3761,
      "step": 145970
    },
    {
      "epoch": 194.64,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029308640432457335,
      "loss": 0.3871,
      "step": 145980
    },
    {
      "epoch": 194.65333333333334,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002930854612029794,
      "loss": 0.3967,
      "step": 145990
    },
    {
      "epoch": 194.66666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029308451801857925,
      "loss": 0.3854,
      "step": 146000
    },
    {
      "epoch": 194.68,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029308357477137337,
      "loss": 0.3761,
      "step": 146010
    },
    {
      "epoch": 194.69333333333333,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029308263146136216,
      "loss": 0.3859,
      "step": 146020
    },
    {
      "epoch": 194.70666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029308168808854604,
      "loss": 0.3776,
      "step": 146030
    },
    {
      "epoch": 194.72,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029308074465292535,
      "loss": 0.3998,
      "step": 146040
    },
    {
      "epoch": 194.73333333333332,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002930798011545006,
      "loss": 0.3941,
      "step": 146050
    },
    {
      "epoch": 194.74666666666667,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029307885759327217,
      "loss": 0.3968,
      "step": 146060
    },
    {
      "epoch": 194.76,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029307791396924045,
      "loss": 0.4095,
      "step": 146070
    },
    {
      "epoch": 194.77333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002930769702824059,
      "loss": 0.3955,
      "step": 146080
    },
    {
      "epoch": 194.78666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029307602653276884,
      "loss": 0.3975,
      "step": 146090
    },
    {
      "epoch": 194.8,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002930750827203298,
      "loss": 0.396,
      "step": 146100
    },
    {
      "epoch": 194.81333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002930741388450891,
      "loss": 0.3689,
      "step": 146110
    },
    {
      "epoch": 194.82666666666665,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029307319490704724,
      "loss": 0.378,
      "step": 146120
    },
    {
      "epoch": 194.84,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002930722509062046,
      "loss": 0.3907,
      "step": 146130
    },
    {
      "epoch": 194.85333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029307130684256156,
      "loss": 0.3859,
      "step": 146140
    },
    {
      "epoch": 194.86666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002930703627161186,
      "loss": 0.3907,
      "step": 146150
    },
    {
      "epoch": 194.88,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002930694185268761,
      "loss": 0.3724,
      "step": 146160
    },
    {
      "epoch": 194.89333333333335,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002930684742748344,
      "loss": 0.3828,
      "step": 146170
    },
    {
      "epoch": 194.90666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029306752995999407,
      "loss": 0.3887,
      "step": 146180
    },
    {
      "epoch": 194.92,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029306658558235537,
      "loss": 0.3919,
      "step": 146190
    },
    {
      "epoch": 194.93333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029306564114191887,
      "loss": 0.3851,
      "step": 146200
    },
    {
      "epoch": 194.94666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029306469663868483,
      "loss": 0.3863,
      "step": 146210
    },
    {
      "epoch": 194.96,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029306375207265376,
      "loss": 0.3846,
      "step": 146220
    },
    {
      "epoch": 194.97333333333333,
      "grad_norm": 0.4921875,
      "learning_rate": 0.000293062807443826,
      "loss": 0.4087,
      "step": 146230
    },
    {
      "epoch": 194.98666666666668,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002930618627522021,
      "loss": 0.3814,
      "step": 146240
    },
    {
      "epoch": 195.0,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002930609179977823,
      "loss": 0.3771,
      "step": 146250
    },
    {
      "epoch": 195.0,
      "eval_loss": 0.42632701992988586,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8059,
      "eval_samples_per_second": 1.632,
      "eval_steps_per_second": 0.102,
      "step": 146250
    },
    {
      "epoch": 195.01333333333332,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029305997318056714,
      "loss": 0.3949,
      "step": 146260
    },
    {
      "epoch": 195.02666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000293059028300557,
      "loss": 0.4085,
      "step": 146270
    },
    {
      "epoch": 195.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029305808335775235,
      "loss": 0.4213,
      "step": 146280
    },
    {
      "epoch": 195.05333333333334,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029305713835215346,
      "loss": 0.4071,
      "step": 146290
    },
    {
      "epoch": 195.06666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002930561932837609,
      "loss": 0.3945,
      "step": 146300
    },
    {
      "epoch": 195.08,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029305524815257495,
      "loss": 0.3968,
      "step": 146310
    },
    {
      "epoch": 195.09333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002930543029585961,
      "loss": 0.3983,
      "step": 146320
    },
    {
      "epoch": 195.10666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002930533577018248,
      "loss": 0.3864,
      "step": 146330
    },
    {
      "epoch": 195.12,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029305241238226145,
      "loss": 0.3907,
      "step": 146340
    },
    {
      "epoch": 195.13333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029305146699990637,
      "loss": 0.3819,
      "step": 146350
    },
    {
      "epoch": 195.14666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029305052155476004,
      "loss": 0.402,
      "step": 146360
    },
    {
      "epoch": 195.16,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029304957604682285,
      "loss": 0.3956,
      "step": 146370
    },
    {
      "epoch": 195.17333333333335,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029304863047609534,
      "loss": 0.3899,
      "step": 146380
    },
    {
      "epoch": 195.18666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002930476848425777,
      "loss": 0.3889,
      "step": 146390
    },
    {
      "epoch": 195.2,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002930467391462706,
      "loss": 0.3808,
      "step": 146400
    },
    {
      "epoch": 195.21333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002930457933871743,
      "loss": 0.3814,
      "step": 146410
    },
    {
      "epoch": 195.22666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002930448475652892,
      "loss": 0.3932,
      "step": 146420
    },
    {
      "epoch": 195.24,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029304390168061574,
      "loss": 0.3783,
      "step": 146430
    },
    {
      "epoch": 195.25333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002930429557331544,
      "loss": 0.3814,
      "step": 146440
    },
    {
      "epoch": 195.26666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002930420097229055,
      "loss": 0.3829,
      "step": 146450
    },
    {
      "epoch": 195.28,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002930410636498695,
      "loss": 0.4134,
      "step": 146460
    },
    {
      "epoch": 195.29333333333332,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002930401175140469,
      "loss": 0.3687,
      "step": 146470
    },
    {
      "epoch": 195.30666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029303917131543795,
      "loss": 0.392,
      "step": 146480
    },
    {
      "epoch": 195.32,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002930382250540432,
      "loss": 0.3949,
      "step": 146490
    },
    {
      "epoch": 195.33333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029303727872986293,
      "loss": 0.398,
      "step": 146500
    },
    {
      "epoch": 195.34666666666666,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002930363323428977,
      "loss": 0.3883,
      "step": 146510
    },
    {
      "epoch": 195.36,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029303538589314787,
      "loss": 0.3895,
      "step": 146520
    },
    {
      "epoch": 195.37333333333333,
      "grad_norm": 0.359375,
      "learning_rate": 0.0002930344393806139,
      "loss": 0.3905,
      "step": 146530
    },
    {
      "epoch": 195.38666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002930334928052961,
      "loss": 0.3818,
      "step": 146540
    },
    {
      "epoch": 195.4,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002930325461671949,
      "loss": 0.39,
      "step": 146550
    },
    {
      "epoch": 195.41333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002930315994663108,
      "loss": 0.3947,
      "step": 146560
    },
    {
      "epoch": 195.42666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029303065270264416,
      "loss": 0.3966,
      "step": 146570
    },
    {
      "epoch": 195.44,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002930297058761954,
      "loss": 0.4081,
      "step": 146580
    },
    {
      "epoch": 195.45333333333335,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029302875898696494,
      "loss": 0.3956,
      "step": 146590
    },
    {
      "epoch": 195.46666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029302781203495323,
      "loss": 0.4045,
      "step": 146600
    },
    {
      "epoch": 195.48,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029302686502016064,
      "loss": 0.387,
      "step": 146610
    },
    {
      "epoch": 195.49333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002930259179425876,
      "loss": 0.3988,
      "step": 146620
    },
    {
      "epoch": 195.50666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002930249708022345,
      "loss": 0.3975,
      "step": 146630
    },
    {
      "epoch": 195.52,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029302402359910186,
      "loss": 0.3876,
      "step": 146640
    },
    {
      "epoch": 195.53333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029302307633318993,
      "loss": 0.3897,
      "step": 146650
    },
    {
      "epoch": 195.54666666666665,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029302212900449924,
      "loss": 0.3918,
      "step": 146660
    },
    {
      "epoch": 195.56,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002930211816130302,
      "loss": 0.3851,
      "step": 146670
    },
    {
      "epoch": 195.57333333333332,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002930202341587832,
      "loss": 0.389,
      "step": 146680
    },
    {
      "epoch": 195.58666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029301928664175866,
      "loss": 0.379,
      "step": 146690
    },
    {
      "epoch": 195.6,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000293018339061957,
      "loss": 0.38,
      "step": 146700
    },
    {
      "epoch": 195.61333333333334,
      "grad_norm": 0.375,
      "learning_rate": 0.0002930173914193786,
      "loss": 0.3704,
      "step": 146710
    },
    {
      "epoch": 195.62666666666667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0002930164437140239,
      "loss": 0.3747,
      "step": 146720
    },
    {
      "epoch": 195.64,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002930154959458934,
      "loss": 0.3872,
      "step": 146730
    },
    {
      "epoch": 195.65333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002930145481149874,
      "loss": 0.3962,
      "step": 146740
    },
    {
      "epoch": 195.66666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002930136002213063,
      "loss": 0.3851,
      "step": 146750
    },
    {
      "epoch": 195.68,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029301265226485063,
      "loss": 0.3755,
      "step": 146760
    },
    {
      "epoch": 195.69333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002930117042456207,
      "loss": 0.3854,
      "step": 146770
    },
    {
      "epoch": 195.70666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002930107561636171,
      "loss": 0.3787,
      "step": 146780
    },
    {
      "epoch": 195.72,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029300980801884,
      "loss": 0.3991,
      "step": 146790
    },
    {
      "epoch": 195.73333333333332,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029300885981128997,
      "loss": 0.395,
      "step": 146800
    },
    {
      "epoch": 195.74666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029300791154096735,
      "loss": 0.3972,
      "step": 146810
    },
    {
      "epoch": 195.76,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002930069632078727,
      "loss": 0.4096,
      "step": 146820
    },
    {
      "epoch": 195.77333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002930060148120063,
      "loss": 0.3954,
      "step": 146830
    },
    {
      "epoch": 195.78666666666666,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029300506635336854,
      "loss": 0.3974,
      "step": 146840
    },
    {
      "epoch": 195.8,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029300411783196,
      "loss": 0.3955,
      "step": 146850
    },
    {
      "epoch": 195.81333333333333,
      "grad_norm": 0.515625,
      "learning_rate": 0.0002930031692477809,
      "loss": 0.3689,
      "step": 146860
    },
    {
      "epoch": 195.82666666666665,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029300222060083176,
      "loss": 0.3784,
      "step": 146870
    },
    {
      "epoch": 195.84,
      "grad_norm": 0.4375,
      "learning_rate": 0.000293001271891113,
      "loss": 0.3903,
      "step": 146880
    },
    {
      "epoch": 195.85333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002930003231186251,
      "loss": 0.385,
      "step": 146890
    },
    {
      "epoch": 195.86666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002929993742833683,
      "loss": 0.3911,
      "step": 146900
    },
    {
      "epoch": 195.88,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029299842538534315,
      "loss": 0.3712,
      "step": 146910
    },
    {
      "epoch": 195.89333333333335,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029299747642455,
      "loss": 0.383,
      "step": 146920
    },
    {
      "epoch": 195.90666666666667,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002929965274009894,
      "loss": 0.3897,
      "step": 146930
    },
    {
      "epoch": 195.92,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029299557831466156,
      "loss": 0.3915,
      "step": 146940
    },
    {
      "epoch": 195.93333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029299462916556706,
      "loss": 0.3853,
      "step": 146950
    },
    {
      "epoch": 195.94666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029299367995370626,
      "loss": 0.3865,
      "step": 146960
    },
    {
      "epoch": 195.96,
      "grad_norm": 0.328125,
      "learning_rate": 0.00029299273067907953,
      "loss": 0.3834,
      "step": 146970
    },
    {
      "epoch": 195.97333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00029299178134168736,
      "loss": 0.4083,
      "step": 146980
    },
    {
      "epoch": 195.98666666666668,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002929908319415301,
      "loss": 0.3801,
      "step": 146990
    },
    {
      "epoch": 196.0,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002929898824786083,
      "loss": 0.3779,
      "step": 147000
    },
    {
      "epoch": 196.0,
      "eval_loss": 0.4270703196525574,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9374,
      "eval_samples_per_second": 1.61,
      "eval_steps_per_second": 0.101,
      "step": 147000
    },
    {
      "epoch": 196.01333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029298893295292227,
      "loss": 0.3944,
      "step": 147010
    },
    {
      "epoch": 196.02666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002929879833644724,
      "loss": 0.4088,
      "step": 147020
    },
    {
      "epoch": 196.04,
      "grad_norm": 0.375,
      "learning_rate": 0.00029298703371325916,
      "loss": 0.4211,
      "step": 147030
    },
    {
      "epoch": 196.05333333333334,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002929860839992829,
      "loss": 0.4072,
      "step": 147040
    },
    {
      "epoch": 196.06666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029298513422254416,
      "loss": 0.3944,
      "step": 147050
    },
    {
      "epoch": 196.08,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029298418438304327,
      "loss": 0.3978,
      "step": 147060
    },
    {
      "epoch": 196.09333333333333,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029298323448078063,
      "loss": 0.3995,
      "step": 147070
    },
    {
      "epoch": 196.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002929822845157567,
      "loss": 0.387,
      "step": 147080
    },
    {
      "epoch": 196.12,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002929813344879719,
      "loss": 0.3911,
      "step": 147090
    },
    {
      "epoch": 196.13333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002929803843974267,
      "loss": 0.3826,
      "step": 147100
    },
    {
      "epoch": 196.14666666666668,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029297943424412136,
      "loss": 0.4013,
      "step": 147110
    },
    {
      "epoch": 196.16,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029297848402805646,
      "loss": 0.3953,
      "step": 147120
    },
    {
      "epoch": 196.17333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002929775337492323,
      "loss": 0.3902,
      "step": 147130
    },
    {
      "epoch": 196.18666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029297658340764936,
      "loss": 0.3886,
      "step": 147140
    },
    {
      "epoch": 196.2,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029297563300330803,
      "loss": 0.3819,
      "step": 147150
    },
    {
      "epoch": 196.21333333333334,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029297468253620875,
      "loss": 0.3821,
      "step": 147160
    },
    {
      "epoch": 196.22666666666666,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002929737320063519,
      "loss": 0.393,
      "step": 147170
    },
    {
      "epoch": 196.24,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029297278141373793,
      "loss": 0.3786,
      "step": 147180
    },
    {
      "epoch": 196.25333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029297183075836726,
      "loss": 0.3803,
      "step": 147190
    },
    {
      "epoch": 196.26666666666668,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002929708800402403,
      "loss": 0.3836,
      "step": 147200
    },
    {
      "epoch": 196.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029296992925935747,
      "loss": 0.4123,
      "step": 147210
    },
    {
      "epoch": 196.29333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029296897841571916,
      "loss": 0.3698,
      "step": 147220
    },
    {
      "epoch": 196.30666666666667,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002929680275093258,
      "loss": 0.3929,
      "step": 147230
    },
    {
      "epoch": 196.32,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002929670765401779,
      "loss": 0.3957,
      "step": 147240
    },
    {
      "epoch": 196.33333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002929661255082757,
      "loss": 0.3981,
      "step": 147250
    },
    {
      "epoch": 196.34666666666666,
      "grad_norm": 0.5,
      "learning_rate": 0.00029296517441361973,
      "loss": 0.3884,
      "step": 147260
    },
    {
      "epoch": 196.36,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029296422325621034,
      "loss": 0.3884,
      "step": 147270
    },
    {
      "epoch": 196.37333333333333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029296327203604813,
      "loss": 0.3909,
      "step": 147280
    },
    {
      "epoch": 196.38666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002929623207531333,
      "loss": 0.3823,
      "step": 147290
    },
    {
      "epoch": 196.4,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002929613694074663,
      "loss": 0.3898,
      "step": 147300
    },
    {
      "epoch": 196.41333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002929604179990477,
      "loss": 0.3947,
      "step": 147310
    },
    {
      "epoch": 196.42666666666668,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029295946652787777,
      "loss": 0.3958,
      "step": 147320
    },
    {
      "epoch": 196.44,
      "grad_norm": 0.39453125,
      "learning_rate": 0.000292958514993957,
      "loss": 0.4074,
      "step": 147330
    },
    {
      "epoch": 196.45333333333335,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029295756339728574,
      "loss": 0.3952,
      "step": 147340
    },
    {
      "epoch": 196.46666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002929566117378645,
      "loss": 0.4044,
      "step": 147350
    },
    {
      "epoch": 196.48,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002929556600156936,
      "loss": 0.3852,
      "step": 147360
    },
    {
      "epoch": 196.49333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002929547082307735,
      "loss": 0.3976,
      "step": 147370
    },
    {
      "epoch": 196.50666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002929537563831047,
      "loss": 0.398,
      "step": 147380
    },
    {
      "epoch": 196.52,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00029295280447268744,
      "loss": 0.3865,
      "step": 147390
    },
    {
      "epoch": 196.53333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029295185249952226,
      "loss": 0.39,
      "step": 147400
    },
    {
      "epoch": 196.54666666666665,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002929509004636096,
      "loss": 0.3911,
      "step": 147410
    },
    {
      "epoch": 196.56,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002929499483649498,
      "loss": 0.3857,
      "step": 147420
    },
    {
      "epoch": 196.57333333333332,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029294899620354334,
      "loss": 0.39,
      "step": 147430
    },
    {
      "epoch": 196.58666666666667,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002929480439793906,
      "loss": 0.3792,
      "step": 147440
    },
    {
      "epoch": 196.6,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000292947091692492,
      "loss": 0.3799,
      "step": 147450
    },
    {
      "epoch": 196.61333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029294613934284795,
      "loss": 0.3711,
      "step": 147460
    },
    {
      "epoch": 196.62666666666667,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029294518693045887,
      "loss": 0.3756,
      "step": 147470
    },
    {
      "epoch": 196.64,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002929442344553253,
      "loss": 0.3867,
      "step": 147480
    },
    {
      "epoch": 196.65333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029294328191744744,
      "loss": 0.3968,
      "step": 147490
    },
    {
      "epoch": 196.66666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029294232931682585,
      "loss": 0.3844,
      "step": 147500
    },
    {
      "epoch": 196.68,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029294137665346093,
      "loss": 0.3764,
      "step": 147510
    },
    {
      "epoch": 196.69333333333333,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000292940423927353,
      "loss": 0.3857,
      "step": 147520
    },
    {
      "epoch": 196.70666666666668,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002929394711385027,
      "loss": 0.3775,
      "step": 147530
    },
    {
      "epoch": 196.72,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002929385182869102,
      "loss": 0.4,
      "step": 147540
    },
    {
      "epoch": 196.73333333333332,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029293756537257607,
      "loss": 0.395,
      "step": 147550
    },
    {
      "epoch": 196.74666666666667,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002929366123955007,
      "loss": 0.3967,
      "step": 147560
    },
    {
      "epoch": 196.76,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002929356593556845,
      "loss": 0.4105,
      "step": 147570
    },
    {
      "epoch": 196.77333333333334,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002929347062531279,
      "loss": 0.3966,
      "step": 147580
    },
    {
      "epoch": 196.78666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002929337530878313,
      "loss": 0.3973,
      "step": 147590
    },
    {
      "epoch": 196.8,
      "grad_norm": 0.43359375,
      "learning_rate": 0.000292932799859795,
      "loss": 0.3956,
      "step": 147600
    },
    {
      "epoch": 196.81333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029293184656901966,
      "loss": 0.3691,
      "step": 147610
    },
    {
      "epoch": 196.82666666666665,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002929308932155056,
      "loss": 0.3784,
      "step": 147620
    },
    {
      "epoch": 196.84,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002929299397992531,
      "loss": 0.3906,
      "step": 147630
    },
    {
      "epoch": 196.85333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002929289863202628,
      "loss": 0.3852,
      "step": 147640
    },
    {
      "epoch": 196.86666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029292803277853496,
      "loss": 0.3905,
      "step": 147650
    },
    {
      "epoch": 196.88,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002929270791740701,
      "loss": 0.3713,
      "step": 147660
    },
    {
      "epoch": 196.89333333333335,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002929261255068685,
      "loss": 0.3834,
      "step": 147670
    },
    {
      "epoch": 196.90666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002929251717769307,
      "loss": 0.3899,
      "step": 147680
    },
    {
      "epoch": 196.92,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002929242179842572,
      "loss": 0.3905,
      "step": 147690
    },
    {
      "epoch": 196.93333333333334,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002929232641288482,
      "loss": 0.3851,
      "step": 147700
    },
    {
      "epoch": 196.94666666666666,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0002929223102107042,
      "loss": 0.3863,
      "step": 147710
    },
    {
      "epoch": 196.96,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002929213562298257,
      "loss": 0.3837,
      "step": 147720
    },
    {
      "epoch": 196.97333333333333,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00029292040218621305,
      "loss": 0.4084,
      "step": 147730
    },
    {
      "epoch": 196.98666666666668,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002929194480798667,
      "loss": 0.381,
      "step": 147740
    },
    {
      "epoch": 197.0,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029291849391078703,
      "loss": 0.3777,
      "step": 147750
    },
    {
      "epoch": 197.0,
      "eval_loss": 0.42557817697525024,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.8655,
      "eval_samples_per_second": 1.622,
      "eval_steps_per_second": 0.101,
      "step": 147750
    },
    {
      "epoch": 197.01333333333332,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029291753967897443,
      "loss": 0.3952,
      "step": 147760
    },
    {
      "epoch": 197.02666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029291658538442946,
      "loss": 0.4086,
      "step": 147770
    },
    {
      "epoch": 197.04,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0002929156310271524,
      "loss": 0.4214,
      "step": 147780
    },
    {
      "epoch": 197.05333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002929146766071437,
      "loss": 0.4065,
      "step": 147790
    },
    {
      "epoch": 197.06666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002929137221244038,
      "loss": 0.3934,
      "step": 147800
    },
    {
      "epoch": 197.08,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029291276757893313,
      "loss": 0.3973,
      "step": 147810
    },
    {
      "epoch": 197.09333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002929118129707321,
      "loss": 0.3991,
      "step": 147820
    },
    {
      "epoch": 197.10666666666665,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002929108582998011,
      "loss": 0.3864,
      "step": 147830
    },
    {
      "epoch": 197.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002929099035661406,
      "loss": 0.3915,
      "step": 147840
    },
    {
      "epoch": 197.13333333333333,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002929089487697509,
      "loss": 0.382,
      "step": 147850
    },
    {
      "epoch": 197.14666666666668,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002929079939106326,
      "loss": 0.4011,
      "step": 147860
    },
    {
      "epoch": 197.16,
      "grad_norm": 0.37890625,
      "learning_rate": 0.000292907038988786,
      "loss": 0.3957,
      "step": 147870
    },
    {
      "epoch": 197.17333333333335,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002929060840042115,
      "loss": 0.3903,
      "step": 147880
    },
    {
      "epoch": 197.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002929051289569097,
      "loss": 0.3874,
      "step": 147890
    },
    {
      "epoch": 197.2,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029290417384688077,
      "loss": 0.38,
      "step": 147900
    },
    {
      "epoch": 197.21333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029290321867412526,
      "loss": 0.3823,
      "step": 147910
    },
    {
      "epoch": 197.22666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002929022634386436,
      "loss": 0.3937,
      "step": 147920
    },
    {
      "epoch": 197.24,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029290130814043616,
      "loss": 0.3787,
      "step": 147930
    },
    {
      "epoch": 197.25333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002929003527795034,
      "loss": 0.3806,
      "step": 147940
    },
    {
      "epoch": 197.26666666666668,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002928993973558457,
      "loss": 0.3826,
      "step": 147950
    },
    {
      "epoch": 197.28,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002928984418694635,
      "loss": 0.4136,
      "step": 147960
    },
    {
      "epoch": 197.29333333333332,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002928974863203573,
      "loss": 0.3692,
      "step": 147970
    },
    {
      "epoch": 197.30666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002928965307085273,
      "loss": 0.3927,
      "step": 147980
    },
    {
      "epoch": 197.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029289557503397415,
      "loss": 0.3956,
      "step": 147990
    },
    {
      "epoch": 197.33333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029289461929669816,
      "loss": 0.3971,
      "step": 148000
    },
    {
      "epoch": 197.34666666666666,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029289366349669976,
      "loss": 0.3887,
      "step": 148010
    },
    {
      "epoch": 197.36,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002928927076339794,
      "loss": 0.3881,
      "step": 148020
    },
    {
      "epoch": 197.37333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00029289175170853747,
      "loss": 0.3908,
      "step": 148030
    },
    {
      "epoch": 197.38666666666666,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002928907957203744,
      "loss": 0.3821,
      "step": 148040
    },
    {
      "epoch": 197.4,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002928898396694906,
      "loss": 0.3903,
      "step": 148050
    },
    {
      "epoch": 197.41333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002928888835558865,
      "loss": 0.3938,
      "step": 148060
    },
    {
      "epoch": 197.42666666666668,
      "grad_norm": 0.375,
      "learning_rate": 0.0002928879273795625,
      "loss": 0.3957,
      "step": 148070
    },
    {
      "epoch": 197.44,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029288697114051904,
      "loss": 0.4071,
      "step": 148080
    },
    {
      "epoch": 197.45333333333335,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029288601483875654,
      "loss": 0.3965,
      "step": 148090
    },
    {
      "epoch": 197.46666666666667,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002928850584742754,
      "loss": 0.4042,
      "step": 148100
    },
    {
      "epoch": 197.48,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029288410204707607,
      "loss": 0.3862,
      "step": 148110
    },
    {
      "epoch": 197.49333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029288314555715896,
      "loss": 0.3975,
      "step": 148120
    },
    {
      "epoch": 197.50666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002928821890045245,
      "loss": 0.3959,
      "step": 148130
    },
    {
      "epoch": 197.52,
      "grad_norm": 0.375,
      "learning_rate": 0.00029288123238917305,
      "loss": 0.3866,
      "step": 148140
    },
    {
      "epoch": 197.53333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002928802757111051,
      "loss": 0.3902,
      "step": 148150
    },
    {
      "epoch": 197.54666666666665,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029287931897032103,
      "loss": 0.3918,
      "step": 148160
    },
    {
      "epoch": 197.56,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029287836216682127,
      "loss": 0.3855,
      "step": 148170
    },
    {
      "epoch": 197.57333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029287740530060626,
      "loss": 0.3898,
      "step": 148180
    },
    {
      "epoch": 197.58666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002928764483716764,
      "loss": 0.3785,
      "step": 148190
    },
    {
      "epoch": 197.6,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002928754913800321,
      "loss": 0.3807,
      "step": 148200
    },
    {
      "epoch": 197.61333333333334,
      "grad_norm": 0.5,
      "learning_rate": 0.0002928745343256738,
      "loss": 0.3703,
      "step": 148210
    },
    {
      "epoch": 197.62666666666667,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029287357720860196,
      "loss": 0.3761,
      "step": 148220
    },
    {
      "epoch": 197.64,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029287262002881693,
      "loss": 0.3872,
      "step": 148230
    },
    {
      "epoch": 197.65333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029287166278631915,
      "loss": 0.3956,
      "step": 148240
    },
    {
      "epoch": 197.66666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.000292870705481109,
      "loss": 0.3858,
      "step": 148250
    },
    {
      "epoch": 197.68,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029286974811318703,
      "loss": 0.3763,
      "step": 148260
    },
    {
      "epoch": 197.69333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002928687906825535,
      "loss": 0.3854,
      "step": 148270
    },
    {
      "epoch": 197.70666666666668,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00029286783318920896,
      "loss": 0.3785,
      "step": 148280
    },
    {
      "epoch": 197.72,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029286687563315374,
      "loss": 0.4002,
      "step": 148290
    },
    {
      "epoch": 197.73333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002928659180143883,
      "loss": 0.3944,
      "step": 148300
    },
    {
      "epoch": 197.74666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029286496033291307,
      "loss": 0.3969,
      "step": 148310
    },
    {
      "epoch": 197.76,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029286400258872843,
      "loss": 0.4101,
      "step": 148320
    },
    {
      "epoch": 197.77333333333334,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029286304478183485,
      "loss": 0.3957,
      "step": 148330
    },
    {
      "epoch": 197.78666666666666,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029286208691223274,
      "loss": 0.397,
      "step": 148340
    },
    {
      "epoch": 197.8,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002928611289799225,
      "loss": 0.3948,
      "step": 148350
    },
    {
      "epoch": 197.81333333333333,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029286017098490455,
      "loss": 0.369,
      "step": 148360
    },
    {
      "epoch": 197.82666666666665,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029285921292717933,
      "loss": 0.3783,
      "step": 148370
    },
    {
      "epoch": 197.84,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029285825480674716,
      "loss": 0.3899,
      "step": 148380
    },
    {
      "epoch": 197.85333333333332,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002928572966236087,
      "loss": 0.3857,
      "step": 148390
    },
    {
      "epoch": 197.86666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029285633837776415,
      "loss": 0.3906,
      "step": 148400
    },
    {
      "epoch": 197.88,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029285538006921396,
      "loss": 0.3716,
      "step": 148410
    },
    {
      "epoch": 197.89333333333335,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002928544216979586,
      "loss": 0.3836,
      "step": 148420
    },
    {
      "epoch": 197.90666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029285346326399854,
      "loss": 0.3887,
      "step": 148430
    },
    {
      "epoch": 197.92,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002928525047673341,
      "loss": 0.3915,
      "step": 148440
    },
    {
      "epoch": 197.93333333333334,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0002928515462079658,
      "loss": 0.3856,
      "step": 148450
    },
    {
      "epoch": 197.94666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.000292850587585894,
      "loss": 0.3865,
      "step": 148460
    },
    {
      "epoch": 197.96,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002928496289011191,
      "loss": 0.3843,
      "step": 148470
    },
    {
      "epoch": 197.97333333333333,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002928486701536415,
      "loss": 0.4086,
      "step": 148480
    },
    {
      "epoch": 197.98666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029284771134346167,
      "loss": 0.3808,
      "step": 148490
    },
    {
      "epoch": 198.0,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002928467524705801,
      "loss": 0.3771,
      "step": 148500
    },
    {
      "epoch": 198.0,
      "eval_loss": 0.4270714521408081,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7369,
      "eval_samples_per_second": 1.643,
      "eval_steps_per_second": 0.103,
      "step": 148500
    },
    {
      "epoch": 198.01333333333332,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002928457935349971,
      "loss": 0.3954,
      "step": 148510
    },
    {
      "epoch": 198.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002928448345367131,
      "loss": 0.4083,
      "step": 148520
    },
    {
      "epoch": 198.04,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002928438754757286,
      "loss": 0.4222,
      "step": 148530
    },
    {
      "epoch": 198.05333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029284291635204397,
      "loss": 0.4066,
      "step": 148540
    },
    {
      "epoch": 198.06666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002928419571656596,
      "loss": 0.3941,
      "step": 148550
    },
    {
      "epoch": 198.08,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002928409979165759,
      "loss": 0.3969,
      "step": 148560
    },
    {
      "epoch": 198.09333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029284003860479346,
      "loss": 0.3987,
      "step": 148570
    },
    {
      "epoch": 198.10666666666665,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002928390792303125,
      "loss": 0.3869,
      "step": 148580
    },
    {
      "epoch": 198.12,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029283811979313355,
      "loss": 0.3911,
      "step": 148590
    },
    {
      "epoch": 198.13333333333333,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029283716029325697,
      "loss": 0.3823,
      "step": 148600
    },
    {
      "epoch": 198.14666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002928362007306832,
      "loss": 0.4015,
      "step": 148610
    },
    {
      "epoch": 198.16,
      "grad_norm": 0.375,
      "learning_rate": 0.0002928352411054127,
      "loss": 0.3952,
      "step": 148620
    },
    {
      "epoch": 198.17333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029283428141744583,
      "loss": 0.3902,
      "step": 148630
    },
    {
      "epoch": 198.18666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029283332166678305,
      "loss": 0.3876,
      "step": 148640
    },
    {
      "epoch": 198.2,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002928323618534248,
      "loss": 0.3797,
      "step": 148650
    },
    {
      "epoch": 198.21333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029283140197737144,
      "loss": 0.3821,
      "step": 148660
    },
    {
      "epoch": 198.22666666666666,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002928304420386235,
      "loss": 0.3933,
      "step": 148670
    },
    {
      "epoch": 198.24,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002928294820371812,
      "loss": 0.3788,
      "step": 148680
    },
    {
      "epoch": 198.25333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002928285219730452,
      "loss": 0.3815,
      "step": 148690
    },
    {
      "epoch": 198.26666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029282756184621577,
      "loss": 0.3826,
      "step": 148700
    },
    {
      "epoch": 198.28,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002928266016566934,
      "loss": 0.4127,
      "step": 148710
    },
    {
      "epoch": 198.29333333333332,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029282564140447844,
      "loss": 0.3693,
      "step": 148720
    },
    {
      "epoch": 198.30666666666667,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002928246810895714,
      "loss": 0.3925,
      "step": 148730
    },
    {
      "epoch": 198.32,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029282372071197263,
      "loss": 0.3948,
      "step": 148740
    },
    {
      "epoch": 198.33333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029282276027168256,
      "loss": 0.3981,
      "step": 148750
    },
    {
      "epoch": 198.34666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029282179976870164,
      "loss": 0.388,
      "step": 148760
    },
    {
      "epoch": 198.36,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002928208392030303,
      "loss": 0.3885,
      "step": 148770
    },
    {
      "epoch": 198.37333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029281987857466895,
      "loss": 0.3901,
      "step": 148780
    },
    {
      "epoch": 198.38666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.000292818917883618,
      "loss": 0.3817,
      "step": 148790
    },
    {
      "epoch": 198.4,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002928179571298778,
      "loss": 0.3889,
      "step": 148800
    },
    {
      "epoch": 198.41333333333333,
      "grad_norm": 0.375,
      "learning_rate": 0.00029281699631344895,
      "loss": 0.3942,
      "step": 148810
    },
    {
      "epoch": 198.42666666666668,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029281603543433173,
      "loss": 0.3966,
      "step": 148820
    },
    {
      "epoch": 198.44,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002928150744925266,
      "loss": 0.407,
      "step": 148830
    },
    {
      "epoch": 198.45333333333335,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00029281411348803404,
      "loss": 0.3957,
      "step": 148840
    },
    {
      "epoch": 198.46666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029281315242085437,
      "loss": 0.4045,
      "step": 148850
    },
    {
      "epoch": 198.48,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029281219129098803,
      "loss": 0.3871,
      "step": 148860
    },
    {
      "epoch": 198.49333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002928112300984355,
      "loss": 0.3979,
      "step": 148870
    },
    {
      "epoch": 198.50666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029281026884319717,
      "loss": 0.3968,
      "step": 148880
    },
    {
      "epoch": 198.52,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029280930752527347,
      "loss": 0.3865,
      "step": 148890
    },
    {
      "epoch": 198.53333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002928083461446648,
      "loss": 0.3893,
      "step": 148900
    },
    {
      "epoch": 198.54666666666665,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002928073847013716,
      "loss": 0.3912,
      "step": 148910
    },
    {
      "epoch": 198.56,
      "grad_norm": 0.375,
      "learning_rate": 0.00029280642319539426,
      "loss": 0.386,
      "step": 148920
    },
    {
      "epoch": 198.57333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002928054616267333,
      "loss": 0.3893,
      "step": 148930
    },
    {
      "epoch": 198.58666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029280449999538903,
      "loss": 0.3789,
      "step": 148940
    },
    {
      "epoch": 198.6,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002928035383013619,
      "loss": 0.3791,
      "step": 148950
    },
    {
      "epoch": 198.61333333333334,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029280257654465234,
      "loss": 0.3698,
      "step": 148960
    },
    {
      "epoch": 198.62666666666667,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00029280161472526085,
      "loss": 0.3762,
      "step": 148970
    },
    {
      "epoch": 198.64,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029280065284318773,
      "loss": 0.3868,
      "step": 148980
    },
    {
      "epoch": 198.65333333333334,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029279969089843346,
      "loss": 0.3968,
      "step": 148990
    },
    {
      "epoch": 198.66666666666666,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029279872889099843,
      "loss": 0.3847,
      "step": 149000
    },
    {
      "epoch": 198.68,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002927977668208831,
      "loss": 0.3755,
      "step": 149010
    },
    {
      "epoch": 198.69333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002927968046880879,
      "loss": 0.3859,
      "step": 149020
    },
    {
      "epoch": 198.70666666666668,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029279584249261326,
      "loss": 0.3778,
      "step": 149030
    },
    {
      "epoch": 198.72,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029279488023445957,
      "loss": 0.4001,
      "step": 149040
    },
    {
      "epoch": 198.73333333333332,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029279391791362723,
      "loss": 0.3945,
      "step": 149050
    },
    {
      "epoch": 198.74666666666667,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029279295553011667,
      "loss": 0.3969,
      "step": 149060
    },
    {
      "epoch": 198.76,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002927919930839284,
      "loss": 0.4091,
      "step": 149070
    },
    {
      "epoch": 198.77333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002927910305750627,
      "loss": 0.3962,
      "step": 149080
    },
    {
      "epoch": 198.78666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002927900680035201,
      "loss": 0.3974,
      "step": 149090
    },
    {
      "epoch": 198.8,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029278910536930096,
      "loss": 0.3955,
      "step": 149100
    },
    {
      "epoch": 198.81333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002927881426724058,
      "loss": 0.3684,
      "step": 149110
    },
    {
      "epoch": 198.82666666666665,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029278717991283493,
      "loss": 0.3774,
      "step": 149120
    },
    {
      "epoch": 198.84,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002927862170905888,
      "loss": 0.39,
      "step": 149130
    },
    {
      "epoch": 198.85333333333332,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029278525420566785,
      "loss": 0.3857,
      "step": 149140
    },
    {
      "epoch": 198.86666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029278429125807255,
      "loss": 0.39,
      "step": 149150
    },
    {
      "epoch": 198.88,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029278332824780325,
      "loss": 0.371,
      "step": 149160
    },
    {
      "epoch": 198.89333333333335,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002927823651748604,
      "loss": 0.3827,
      "step": 149170
    },
    {
      "epoch": 198.90666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002927814020392444,
      "loss": 0.3891,
      "step": 149180
    },
    {
      "epoch": 198.92,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029278043884095573,
      "loss": 0.3915,
      "step": 149190
    },
    {
      "epoch": 198.93333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002927794755799948,
      "loss": 0.3855,
      "step": 149200
    },
    {
      "epoch": 198.94666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029277851225636194,
      "loss": 0.3871,
      "step": 149210
    },
    {
      "epoch": 198.96,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00029277754887005767,
      "loss": 0.3837,
      "step": 149220
    },
    {
      "epoch": 198.97333333333333,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0002927765854210824,
      "loss": 0.4082,
      "step": 149230
    },
    {
      "epoch": 198.98666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002927756219094365,
      "loss": 0.3812,
      "step": 149240
    },
    {
      "epoch": 199.0,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002927746583351205,
      "loss": 0.3776,
      "step": 149250
    },
    {
      "epoch": 199.0,
      "eval_loss": 0.42438021302223206,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.0116,
      "eval_samples_per_second": 1.598,
      "eval_steps_per_second": 0.1,
      "step": 149250
    },
    {
      "epoch": 199.01333333333332,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029277369469813465,
      "loss": 0.3948,
      "step": 149260
    },
    {
      "epoch": 199.02666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002927727309984796,
      "loss": 0.4082,
      "step": 149270
    },
    {
      "epoch": 199.04,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00029277176723615557,
      "loss": 0.4218,
      "step": 149280
    },
    {
      "epoch": 199.05333333333334,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002927708034111631,
      "loss": 0.4066,
      "step": 149290
    },
    {
      "epoch": 199.06666666666666,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029276983952350254,
      "loss": 0.3943,
      "step": 149300
    },
    {
      "epoch": 199.08,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002927688755731744,
      "loss": 0.3975,
      "step": 149310
    },
    {
      "epoch": 199.09333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.000292767911560179,
      "loss": 0.3994,
      "step": 149320
    },
    {
      "epoch": 199.10666666666665,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002927669474845168,
      "loss": 0.3868,
      "step": 149330
    },
    {
      "epoch": 199.12,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002927659833461883,
      "loss": 0.3911,
      "step": 149340
    },
    {
      "epoch": 199.13333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029276501914519385,
      "loss": 0.3818,
      "step": 149350
    },
    {
      "epoch": 199.14666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002927640548815338,
      "loss": 0.401,
      "step": 149360
    },
    {
      "epoch": 199.16,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002927630905552088,
      "loss": 0.3949,
      "step": 149370
    },
    {
      "epoch": 199.17333333333335,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029276212616621903,
      "loss": 0.3895,
      "step": 149380
    },
    {
      "epoch": 199.18666666666667,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002927611617145651,
      "loss": 0.3887,
      "step": 149390
    },
    {
      "epoch": 199.2,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002927601972002472,
      "loss": 0.3809,
      "step": 149400
    },
    {
      "epoch": 199.21333333333334,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00029275923262326605,
      "loss": 0.382,
      "step": 149410
    },
    {
      "epoch": 199.22666666666666,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029275826798362184,
      "loss": 0.3931,
      "step": 149420
    },
    {
      "epoch": 199.24,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029275730328131514,
      "loss": 0.3784,
      "step": 149430
    },
    {
      "epoch": 199.25333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002927563385163463,
      "loss": 0.3801,
      "step": 149440
    },
    {
      "epoch": 199.26666666666668,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002927553736887157,
      "loss": 0.382,
      "step": 149450
    },
    {
      "epoch": 199.28,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002927544087984238,
      "loss": 0.4145,
      "step": 149460
    },
    {
      "epoch": 199.29333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029275344384547115,
      "loss": 0.3691,
      "step": 149470
    },
    {
      "epoch": 199.30666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.000292752478829858,
      "loss": 0.3922,
      "step": 149480
    },
    {
      "epoch": 199.32,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029275151375158484,
      "loss": 0.3944,
      "step": 149490
    },
    {
      "epoch": 199.33333333333334,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002927505486106522,
      "loss": 0.3972,
      "step": 149500
    },
    {
      "epoch": 199.34666666666666,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0002927495834070602,
      "loss": 0.3877,
      "step": 149510
    },
    {
      "epoch": 199.36,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002927486181408096,
      "loss": 0.3891,
      "step": 149520
    },
    {
      "epoch": 199.37333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002927476528119006,
      "loss": 0.3897,
      "step": 149530
    },
    {
      "epoch": 199.38666666666666,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002927466874203338,
      "loss": 0.3818,
      "step": 149540
    },
    {
      "epoch": 199.4,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002927457219661095,
      "loss": 0.3897,
      "step": 149550
    },
    {
      "epoch": 199.41333333333333,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029274475644922813,
      "loss": 0.394,
      "step": 149560
    },
    {
      "epoch": 199.42666666666668,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029274379086969014,
      "loss": 0.3956,
      "step": 149570
    },
    {
      "epoch": 199.44,
      "grad_norm": 0.5078125,
      "learning_rate": 0.000292742825227496,
      "loss": 0.4077,
      "step": 149580
    },
    {
      "epoch": 199.45333333333335,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029274185952264605,
      "loss": 0.3954,
      "step": 149590
    },
    {
      "epoch": 199.46666666666667,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029274089375514074,
      "loss": 0.4054,
      "step": 149600
    },
    {
      "epoch": 199.48,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002927399279249805,
      "loss": 0.3858,
      "step": 149610
    },
    {
      "epoch": 199.49333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029273896203216575,
      "loss": 0.3976,
      "step": 149620
    },
    {
      "epoch": 199.50666666666666,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002927379960766969,
      "loss": 0.3963,
      "step": 149630
    },
    {
      "epoch": 199.52,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0002927370300585745,
      "loss": 0.3867,
      "step": 149640
    },
    {
      "epoch": 199.53333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002927360639777988,
      "loss": 0.3905,
      "step": 149650
    },
    {
      "epoch": 199.54666666666665,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029273509783437035,
      "loss": 0.3919,
      "step": 149660
    },
    {
      "epoch": 199.56,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002927341316282895,
      "loss": 0.3855,
      "step": 149670
    },
    {
      "epoch": 199.57333333333332,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029273316535955666,
      "loss": 0.3894,
      "step": 149680
    },
    {
      "epoch": 199.58666666666667,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002927321990281723,
      "loss": 0.3784,
      "step": 149690
    },
    {
      "epoch": 199.6,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002927312326341368,
      "loss": 0.3793,
      "step": 149700
    },
    {
      "epoch": 199.61333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029273026617745063,
      "loss": 0.3702,
      "step": 149710
    },
    {
      "epoch": 199.62666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002927292996581142,
      "loss": 0.376,
      "step": 149720
    },
    {
      "epoch": 199.64,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029272833307612795,
      "loss": 0.3874,
      "step": 149730
    },
    {
      "epoch": 199.65333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002927273664314923,
      "loss": 0.3965,
      "step": 149740
    },
    {
      "epoch": 199.66666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029272639972420766,
      "loss": 0.3845,
      "step": 149750
    },
    {
      "epoch": 199.68,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029272543295427446,
      "loss": 0.3757,
      "step": 149760
    },
    {
      "epoch": 199.69333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029272446612169307,
      "loss": 0.3867,
      "step": 149770
    },
    {
      "epoch": 199.70666666666668,
      "grad_norm": 0.431640625,
      "learning_rate": 0.000292723499226464,
      "loss": 0.378,
      "step": 149780
    },
    {
      "epoch": 199.72,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029272253226858764,
      "loss": 0.4004,
      "step": 149790
    },
    {
      "epoch": 199.73333333333332,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002927215652480644,
      "loss": 0.3941,
      "step": 149800
    },
    {
      "epoch": 199.74666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029272059816489473,
      "loss": 0.396,
      "step": 149810
    },
    {
      "epoch": 199.76,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029271963101907904,
      "loss": 0.4111,
      "step": 149820
    },
    {
      "epoch": 199.77333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002927186638106178,
      "loss": 0.3962,
      "step": 149830
    },
    {
      "epoch": 199.78666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029271769653951135,
      "loss": 0.3972,
      "step": 149840
    },
    {
      "epoch": 199.8,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029271672920576017,
      "loss": 0.3949,
      "step": 149850
    },
    {
      "epoch": 199.81333333333333,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029271576180936465,
      "loss": 0.3686,
      "step": 149860
    },
    {
      "epoch": 199.82666666666665,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002927147943503253,
      "loss": 0.3783,
      "step": 149870
    },
    {
      "epoch": 199.84,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002927138268286424,
      "loss": 0.3901,
      "step": 149880
    },
    {
      "epoch": 199.85333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029271285924431647,
      "loss": 0.3856,
      "step": 149890
    },
    {
      "epoch": 199.86666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029271189159734795,
      "loss": 0.3902,
      "step": 149900
    },
    {
      "epoch": 199.88,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002927109238877372,
      "loss": 0.3712,
      "step": 149910
    },
    {
      "epoch": 199.89333333333335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002927099561154847,
      "loss": 0.3834,
      "step": 149920
    },
    {
      "epoch": 199.90666666666667,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029270898828059086,
      "loss": 0.3894,
      "step": 149930
    },
    {
      "epoch": 199.92,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029270802038305606,
      "loss": 0.3905,
      "step": 149940
    },
    {
      "epoch": 199.93333333333334,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002927070524228809,
      "loss": 0.3851,
      "step": 149950
    },
    {
      "epoch": 199.94666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002927060844000655,
      "loss": 0.3855,
      "step": 149960
    },
    {
      "epoch": 199.96,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029270511631461054,
      "loss": 0.3836,
      "step": 149970
    },
    {
      "epoch": 199.97333333333333,
      "grad_norm": 0.515625,
      "learning_rate": 0.00029270414816651635,
      "loss": 0.4081,
      "step": 149980
    },
    {
      "epoch": 199.98666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029270317995578335,
      "loss": 0.3818,
      "step": 149990
    },
    {
      "epoch": 200.0,
      "grad_norm": 0.388671875,
      "learning_rate": 0.000292702211682412,
      "loss": 0.3767,
      "step": 150000
    },
    {
      "epoch": 200.0,
      "eval_loss": 0.4261203110218048,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6055,
      "eval_samples_per_second": 1.666,
      "eval_steps_per_second": 0.104,
      "step": 150000
    },
    {
      "epoch": 200.01333333333332,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029270124334640263,
      "loss": 0.3953,
      "step": 150010
    },
    {
      "epoch": 200.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002927002749477558,
      "loss": 0.4079,
      "step": 150020
    },
    {
      "epoch": 200.04,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002926993064864719,
      "loss": 0.4213,
      "step": 150030
    },
    {
      "epoch": 200.05333333333334,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002926983379625513,
      "loss": 0.4073,
      "step": 150040
    },
    {
      "epoch": 200.06666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029269736937599444,
      "loss": 0.3951,
      "step": 150050
    },
    {
      "epoch": 200.08,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029269640072680173,
      "loss": 0.3967,
      "step": 150060
    },
    {
      "epoch": 200.09333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002926954320149737,
      "loss": 0.3989,
      "step": 150070
    },
    {
      "epoch": 200.10666666666665,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002926944632405107,
      "loss": 0.3871,
      "step": 150080
    },
    {
      "epoch": 200.12,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029269349440341313,
      "loss": 0.3908,
      "step": 150090
    },
    {
      "epoch": 200.13333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002926925255036814,
      "loss": 0.3826,
      "step": 150100
    },
    {
      "epoch": 200.14666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000292691556541316,
      "loss": 0.4019,
      "step": 150110
    },
    {
      "epoch": 200.16,
      "grad_norm": 0.375,
      "learning_rate": 0.00029269058751631735,
      "loss": 0.3953,
      "step": 150120
    },
    {
      "epoch": 200.17333333333335,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002926896184286858,
      "loss": 0.3901,
      "step": 150130
    },
    {
      "epoch": 200.18666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002926886492784219,
      "loss": 0.3883,
      "step": 150140
    },
    {
      "epoch": 200.2,
      "grad_norm": 0.443359375,
      "learning_rate": 0.000292687680065526,
      "loss": 0.3805,
      "step": 150150
    },
    {
      "epoch": 200.21333333333334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029268671078999854,
      "loss": 0.3815,
      "step": 150160
    },
    {
      "epoch": 200.22666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029268574145183986,
      "loss": 0.3934,
      "step": 150170
    },
    {
      "epoch": 200.24,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029268477205105056,
      "loss": 0.3783,
      "step": 150180
    },
    {
      "epoch": 200.25333333333333,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002926838025876309,
      "loss": 0.3806,
      "step": 150190
    },
    {
      "epoch": 200.26666666666668,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002926828330615814,
      "loss": 0.3829,
      "step": 150200
    },
    {
      "epoch": 200.28,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002926818634729025,
      "loss": 0.4131,
      "step": 150210
    },
    {
      "epoch": 200.29333333333332,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002926808938215945,
      "loss": 0.3687,
      "step": 150220
    },
    {
      "epoch": 200.30666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029267992410765797,
      "loss": 0.393,
      "step": 150230
    },
    {
      "epoch": 200.32,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029267895433109325,
      "loss": 0.396,
      "step": 150240
    },
    {
      "epoch": 200.33333333333334,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029267798449190085,
      "loss": 0.3978,
      "step": 150250
    },
    {
      "epoch": 200.34666666666666,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029267701459008107,
      "loss": 0.3877,
      "step": 150260
    },
    {
      "epoch": 200.36,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002926760446256344,
      "loss": 0.388,
      "step": 150270
    },
    {
      "epoch": 200.37333333333333,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002926750745985613,
      "loss": 0.3898,
      "step": 150280
    },
    {
      "epoch": 200.38666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029267410450886216,
      "loss": 0.3811,
      "step": 150290
    },
    {
      "epoch": 200.4,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002926731343565374,
      "loss": 0.3898,
      "step": 150300
    },
    {
      "epoch": 200.41333333333333,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029267216414158753,
      "loss": 0.3942,
      "step": 150310
    },
    {
      "epoch": 200.42666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029267119386401283,
      "loss": 0.3957,
      "step": 150320
    },
    {
      "epoch": 200.44,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002926702235238138,
      "loss": 0.4076,
      "step": 150330
    },
    {
      "epoch": 200.45333333333335,
      "grad_norm": 0.5,
      "learning_rate": 0.00029266925312099087,
      "loss": 0.396,
      "step": 150340
    },
    {
      "epoch": 200.46666666666667,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0002926682826555445,
      "loss": 0.405,
      "step": 150350
    },
    {
      "epoch": 200.48,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029266731212747505,
      "loss": 0.3858,
      "step": 150360
    },
    {
      "epoch": 200.49333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002926663415367829,
      "loss": 0.398,
      "step": 150370
    },
    {
      "epoch": 200.50666666666666,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029266537088346863,
      "loss": 0.3966,
      "step": 150380
    },
    {
      "epoch": 200.52,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029266440016753256,
      "loss": 0.3878,
      "step": 150390
    },
    {
      "epoch": 200.53333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002926634293889752,
      "loss": 0.3895,
      "step": 150400
    },
    {
      "epoch": 200.54666666666665,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029266245854779686,
      "loss": 0.3915,
      "step": 150410
    },
    {
      "epoch": 200.56,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029266148764399804,
      "loss": 0.3858,
      "step": 150420
    },
    {
      "epoch": 200.57333333333332,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002926605166775791,
      "loss": 0.3895,
      "step": 150430
    },
    {
      "epoch": 200.58666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002926595456485406,
      "loss": 0.3781,
      "step": 150440
    },
    {
      "epoch": 200.6,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029265857455688287,
      "loss": 0.3789,
      "step": 150450
    },
    {
      "epoch": 200.61333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002926576034026063,
      "loss": 0.3709,
      "step": 150460
    },
    {
      "epoch": 200.62666666666667,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029265663218571136,
      "loss": 0.3757,
      "step": 150470
    },
    {
      "epoch": 200.64,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029265566090619854,
      "loss": 0.3876,
      "step": 150480
    },
    {
      "epoch": 200.65333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002926546895640681,
      "loss": 0.3957,
      "step": 150490
    },
    {
      "epoch": 200.66666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029265371815932067,
      "loss": 0.3848,
      "step": 150500
    },
    {
      "epoch": 200.68,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029265274669195655,
      "loss": 0.3758,
      "step": 150510
    },
    {
      "epoch": 200.69333333333333,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002926517751619762,
      "loss": 0.3857,
      "step": 150520
    },
    {
      "epoch": 200.70666666666668,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029265080356938,
      "loss": 0.3781,
      "step": 150530
    },
    {
      "epoch": 200.72,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002926498319141685,
      "loss": 0.4001,
      "step": 150540
    },
    {
      "epoch": 200.73333333333332,
      "grad_norm": 0.447265625,
      "learning_rate": 0.000292648860196342,
      "loss": 0.3945,
      "step": 150550
    },
    {
      "epoch": 200.74666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029264788841590095,
      "loss": 0.3958,
      "step": 150560
    },
    {
      "epoch": 200.76,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029264691657284586,
      "loss": 0.4092,
      "step": 150570
    },
    {
      "epoch": 200.77333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000292645944667177,
      "loss": 0.3955,
      "step": 150580
    },
    {
      "epoch": 200.78666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029264497269889495,
      "loss": 0.3972,
      "step": 150590
    },
    {
      "epoch": 200.8,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029264400066800016,
      "loss": 0.3962,
      "step": 150600
    },
    {
      "epoch": 200.81333333333333,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00029264302857449285,
      "loss": 0.368,
      "step": 150610
    },
    {
      "epoch": 200.82666666666665,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029264205641837363,
      "loss": 0.3781,
      "step": 150620
    },
    {
      "epoch": 200.84,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029264108419964287,
      "loss": 0.3905,
      "step": 150630
    },
    {
      "epoch": 200.85333333333332,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029264011191830095,
      "loss": 0.3845,
      "step": 150640
    },
    {
      "epoch": 200.86666666666667,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002926391395743484,
      "loss": 0.3899,
      "step": 150650
    },
    {
      "epoch": 200.88,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029263816716778554,
      "loss": 0.3714,
      "step": 150660
    },
    {
      "epoch": 200.89333333333335,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029263719469861286,
      "loss": 0.3826,
      "step": 150670
    },
    {
      "epoch": 200.90666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002926362221668308,
      "loss": 0.3892,
      "step": 150680
    },
    {
      "epoch": 200.92,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002926352495724397,
      "loss": 0.3906,
      "step": 150690
    },
    {
      "epoch": 200.93333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002926342769154401,
      "loss": 0.3854,
      "step": 150700
    },
    {
      "epoch": 200.94666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002926333041958324,
      "loss": 0.3863,
      "step": 150710
    },
    {
      "epoch": 200.96,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029263233141361695,
      "loss": 0.3837,
      "step": 150720
    },
    {
      "epoch": 200.97333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029263135856879424,
      "loss": 0.4083,
      "step": 150730
    },
    {
      "epoch": 200.98666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029263038566136466,
      "loss": 0.3802,
      "step": 150740
    },
    {
      "epoch": 201.0,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002926294126913287,
      "loss": 0.3777,
      "step": 150750
    },
    {
      "epoch": 201.0,
      "eval_loss": 0.42512086033821106,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6675,
      "eval_samples_per_second": 1.655,
      "eval_steps_per_second": 0.103,
      "step": 150750
    },
    {
      "epoch": 201.01333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002926284396586867,
      "loss": 0.3954,
      "step": 150760
    },
    {
      "epoch": 201.02666666666667,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002926274665634392,
      "loss": 0.4089,
      "step": 150770
    },
    {
      "epoch": 201.04,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002926264934055865,
      "loss": 0.4219,
      "step": 150780
    },
    {
      "epoch": 201.05333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002926255201851291,
      "loss": 0.407,
      "step": 150790
    },
    {
      "epoch": 201.06666666666666,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002926245469020674,
      "loss": 0.3946,
      "step": 150800
    },
    {
      "epoch": 201.08,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002926235735564019,
      "loss": 0.3981,
      "step": 150810
    },
    {
      "epoch": 201.09333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.000292622600148133,
      "loss": 0.3983,
      "step": 150820
    },
    {
      "epoch": 201.10666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000292621626677261,
      "loss": 0.3876,
      "step": 150830
    },
    {
      "epoch": 201.12,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002926206531437865,
      "loss": 0.3914,
      "step": 150840
    },
    {
      "epoch": 201.13333333333333,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002926196795477098,
      "loss": 0.3825,
      "step": 150850
    },
    {
      "epoch": 201.14666666666668,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029261870588903144,
      "loss": 0.4014,
      "step": 150860
    },
    {
      "epoch": 201.16,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029261773216775173,
      "loss": 0.3957,
      "step": 150870
    },
    {
      "epoch": 201.17333333333335,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002926167583838712,
      "loss": 0.3893,
      "step": 150880
    },
    {
      "epoch": 201.18666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002926157845373902,
      "loss": 0.3885,
      "step": 150890
    },
    {
      "epoch": 201.2,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029261481062830923,
      "loss": 0.3806,
      "step": 150900
    },
    {
      "epoch": 201.21333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029261383665662863,
      "loss": 0.3817,
      "step": 150910
    },
    {
      "epoch": 201.22666666666666,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002926128626223489,
      "loss": 0.3934,
      "step": 150920
    },
    {
      "epoch": 201.24,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029261188852547045,
      "loss": 0.3781,
      "step": 150930
    },
    {
      "epoch": 201.25333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029261091436599373,
      "loss": 0.3796,
      "step": 150940
    },
    {
      "epoch": 201.26666666666668,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002926099401439191,
      "loss": 0.3837,
      "step": 150950
    },
    {
      "epoch": 201.28,
      "grad_norm": 0.46484375,
      "learning_rate": 0.000292608965859247,
      "loss": 0.4122,
      "step": 150960
    },
    {
      "epoch": 201.29333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002926079915119779,
      "loss": 0.3682,
      "step": 150970
    },
    {
      "epoch": 201.30666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002926070171021122,
      "loss": 0.3918,
      "step": 150980
    },
    {
      "epoch": 201.32,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00029260604262965035,
      "loss": 0.395,
      "step": 150990
    },
    {
      "epoch": 201.33333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029260506809459277,
      "loss": 0.3981,
      "step": 151000
    },
    {
      "epoch": 201.34666666666666,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002926040934969399,
      "loss": 0.3881,
      "step": 151010
    },
    {
      "epoch": 201.36,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029260311883669217,
      "loss": 0.3883,
      "step": 151020
    },
    {
      "epoch": 201.37333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002926021441138499,
      "loss": 0.3909,
      "step": 151030
    },
    {
      "epoch": 201.38666666666666,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002926011693284137,
      "loss": 0.3816,
      "step": 151040
    },
    {
      "epoch": 201.4,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002926001944803839,
      "loss": 0.3892,
      "step": 151050
    },
    {
      "epoch": 201.41333333333333,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002925992195697609,
      "loss": 0.3942,
      "step": 151060
    },
    {
      "epoch": 201.42666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029259824459654515,
      "loss": 0.3974,
      "step": 151070
    },
    {
      "epoch": 201.44,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002925972695607371,
      "loss": 0.4065,
      "step": 151080
    },
    {
      "epoch": 201.45333333333335,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002925962944623372,
      "loss": 0.3956,
      "step": 151090
    },
    {
      "epoch": 201.46666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029259531930134577,
      "loss": 0.4044,
      "step": 151100
    },
    {
      "epoch": 201.48,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002925943440777634,
      "loss": 0.3861,
      "step": 151110
    },
    {
      "epoch": 201.49333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029259336879159043,
      "loss": 0.3992,
      "step": 151120
    },
    {
      "epoch": 201.50666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029259239344282725,
      "loss": 0.3965,
      "step": 151130
    },
    {
      "epoch": 201.52,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0002925914180314743,
      "loss": 0.3866,
      "step": 151140
    },
    {
      "epoch": 201.53333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002925904425575321,
      "loss": 0.3892,
      "step": 151150
    },
    {
      "epoch": 201.54666666666665,
      "grad_norm": 0.470703125,
      "learning_rate": 0.000292589467021001,
      "loss": 0.3912,
      "step": 151160
    },
    {
      "epoch": 201.56,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029258849142188136,
      "loss": 0.3858,
      "step": 151170
    },
    {
      "epoch": 201.57333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002925875157601738,
      "loss": 0.3894,
      "step": 151180
    },
    {
      "epoch": 201.58666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002925865400358786,
      "loss": 0.3786,
      "step": 151190
    },
    {
      "epoch": 201.6,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0002925855642489962,
      "loss": 0.38,
      "step": 151200
    },
    {
      "epoch": 201.61333333333334,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029258458839952705,
      "loss": 0.3707,
      "step": 151210
    },
    {
      "epoch": 201.62666666666667,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0002925836124874716,
      "loss": 0.3757,
      "step": 151220
    },
    {
      "epoch": 201.64,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002925826365128303,
      "loss": 0.3864,
      "step": 151230
    },
    {
      "epoch": 201.65333333333334,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002925816604756035,
      "loss": 0.3958,
      "step": 151240
    },
    {
      "epoch": 201.66666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002925806843757917,
      "loss": 0.3846,
      "step": 151250
    },
    {
      "epoch": 201.68,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029257970821339527,
      "loss": 0.3749,
      "step": 151260
    },
    {
      "epoch": 201.69333333333333,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029257873198841464,
      "loss": 0.3858,
      "step": 151270
    },
    {
      "epoch": 201.70666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002925777557008503,
      "loss": 0.3782,
      "step": 151280
    },
    {
      "epoch": 201.72,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029257677935070264,
      "loss": 0.3995,
      "step": 151290
    },
    {
      "epoch": 201.73333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029257580293797213,
      "loss": 0.3941,
      "step": 151300
    },
    {
      "epoch": 201.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002925748264626591,
      "loss": 0.3966,
      "step": 151310
    },
    {
      "epoch": 201.76,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029257384992476405,
      "loss": 0.4107,
      "step": 151320
    },
    {
      "epoch": 201.77333333333334,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002925728733242874,
      "loss": 0.3962,
      "step": 151330
    },
    {
      "epoch": 201.78666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002925718966612296,
      "loss": 0.3963,
      "step": 151340
    },
    {
      "epoch": 201.8,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029257091993559105,
      "loss": 0.3953,
      "step": 151350
    },
    {
      "epoch": 201.81333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002925699431473721,
      "loss": 0.3688,
      "step": 151360
    },
    {
      "epoch": 201.82666666666665,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029256896629657335,
      "loss": 0.3779,
      "step": 151370
    },
    {
      "epoch": 201.84,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029256798938319514,
      "loss": 0.3904,
      "step": 151380
    },
    {
      "epoch": 201.85333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029256701240723787,
      "loss": 0.3852,
      "step": 151390
    },
    {
      "epoch": 201.86666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.000292566035368702,
      "loss": 0.391,
      "step": 151400
    },
    {
      "epoch": 201.88,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029256505826758797,
      "loss": 0.3709,
      "step": 151410
    },
    {
      "epoch": 201.89333333333335,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002925640811038962,
      "loss": 0.3828,
      "step": 151420
    },
    {
      "epoch": 201.90666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002925631038776271,
      "loss": 0.3891,
      "step": 151430
    },
    {
      "epoch": 201.92,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029256212658878113,
      "loss": 0.3912,
      "step": 151440
    },
    {
      "epoch": 201.93333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029256114923735874,
      "loss": 0.3844,
      "step": 151450
    },
    {
      "epoch": 201.94666666666666,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029256017182336026,
      "loss": 0.3856,
      "step": 151460
    },
    {
      "epoch": 201.96,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002925591943467862,
      "loss": 0.3836,
      "step": 151470
    },
    {
      "epoch": 201.97333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029255821680763695,
      "loss": 0.4087,
      "step": 151480
    },
    {
      "epoch": 201.98666666666668,
      "grad_norm": 0.4453125,
      "learning_rate": 0.000292557239205913,
      "loss": 0.38,
      "step": 151490
    },
    {
      "epoch": 202.0,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002925562615416147,
      "loss": 0.3776,
      "step": 151500
    },
    {
      "epoch": 202.0,
      "eval_loss": 0.42565760016441345,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.1427,
      "eval_samples_per_second": 1.577,
      "eval_steps_per_second": 0.099,
      "step": 151500
    },
    {
      "epoch": 202.01333333333332,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029255528381474255,
      "loss": 0.3947,
      "step": 151510
    },
    {
      "epoch": 202.02666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029255430602529695,
      "loss": 0.4084,
      "step": 151520
    },
    {
      "epoch": 202.04,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002925533281732783,
      "loss": 0.4216,
      "step": 151530
    },
    {
      "epoch": 202.05333333333334,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029255235025868703,
      "loss": 0.4066,
      "step": 151540
    },
    {
      "epoch": 202.06666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002925513722815236,
      "loss": 0.3937,
      "step": 151550
    },
    {
      "epoch": 202.08,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002925503942417885,
      "loss": 0.397,
      "step": 151560
    },
    {
      "epoch": 202.09333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029254941613948205,
      "loss": 0.3985,
      "step": 151570
    },
    {
      "epoch": 202.10666666666665,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002925484379746047,
      "loss": 0.3869,
      "step": 151580
    },
    {
      "epoch": 202.12,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029254745974715695,
      "loss": 0.3917,
      "step": 151590
    },
    {
      "epoch": 202.13333333333333,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002925464814571391,
      "loss": 0.3822,
      "step": 151600
    },
    {
      "epoch": 202.14666666666668,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002925455031045518,
      "loss": 0.4012,
      "step": 151610
    },
    {
      "epoch": 202.16,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002925445246893952,
      "loss": 0.396,
      "step": 151620
    },
    {
      "epoch": 202.17333333333335,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029254354621166995,
      "loss": 0.3899,
      "step": 151630
    },
    {
      "epoch": 202.18666666666667,
      "grad_norm": 0.390625,
      "learning_rate": 0.0002925425676713764,
      "loss": 0.3874,
      "step": 151640
    },
    {
      "epoch": 202.2,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002925415890685149,
      "loss": 0.3807,
      "step": 151650
    },
    {
      "epoch": 202.21333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029254061040308603,
      "loss": 0.3824,
      "step": 151660
    },
    {
      "epoch": 202.22666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029253963167509014,
      "loss": 0.3936,
      "step": 151670
    },
    {
      "epoch": 202.24,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029253865288452765,
      "loss": 0.3782,
      "step": 151680
    },
    {
      "epoch": 202.25333333333333,
      "grad_norm": 0.462890625,
      "learning_rate": 0.000292537674031399,
      "loss": 0.3805,
      "step": 151690
    },
    {
      "epoch": 202.26666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002925366951157046,
      "loss": 0.3834,
      "step": 151700
    },
    {
      "epoch": 202.28,
      "grad_norm": 0.462890625,
      "learning_rate": 0.000292535716137445,
      "loss": 0.4137,
      "step": 151710
    },
    {
      "epoch": 202.29333333333332,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029253473709662045,
      "loss": 0.3688,
      "step": 151720
    },
    {
      "epoch": 202.30666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029253375799323154,
      "loss": 0.3928,
      "step": 151730
    },
    {
      "epoch": 202.32,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029253277882727857,
      "loss": 0.3958,
      "step": 151740
    },
    {
      "epoch": 202.33333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.000292531799598762,
      "loss": 0.3978,
      "step": 151750
    },
    {
      "epoch": 202.34666666666666,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002925308203076823,
      "loss": 0.389,
      "step": 151760
    },
    {
      "epoch": 202.36,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029252984095403994,
      "loss": 0.3888,
      "step": 151770
    },
    {
      "epoch": 202.37333333333333,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0002925288615378353,
      "loss": 0.3898,
      "step": 151780
    },
    {
      "epoch": 202.38666666666666,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002925278820590687,
      "loss": 0.382,
      "step": 151790
    },
    {
      "epoch": 202.4,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029252690251774076,
      "loss": 0.3899,
      "step": 151800
    },
    {
      "epoch": 202.41333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002925259229138518,
      "loss": 0.3935,
      "step": 151810
    },
    {
      "epoch": 202.42666666666668,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002925249432474023,
      "loss": 0.395,
      "step": 151820
    },
    {
      "epoch": 202.44,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002925239635183926,
      "loss": 0.4072,
      "step": 151830
    },
    {
      "epoch": 202.45333333333335,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029252298372682323,
      "loss": 0.3951,
      "step": 151840
    },
    {
      "epoch": 202.46666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002925220038726946,
      "loss": 0.4041,
      "step": 151850
    },
    {
      "epoch": 202.48,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002925210239560071,
      "loss": 0.3858,
      "step": 151860
    },
    {
      "epoch": 202.49333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029252004397676125,
      "loss": 0.3979,
      "step": 151870
    },
    {
      "epoch": 202.50666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002925190639349573,
      "loss": 0.3966,
      "step": 151880
    },
    {
      "epoch": 202.52,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002925180838305959,
      "loss": 0.3872,
      "step": 151890
    },
    {
      "epoch": 202.53333333333333,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002925171036636773,
      "loss": 0.3903,
      "step": 151900
    },
    {
      "epoch": 202.54666666666665,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002925161234342021,
      "loss": 0.3917,
      "step": 151910
    },
    {
      "epoch": 202.56,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029251514314217056,
      "loss": 0.3852,
      "step": 151920
    },
    {
      "epoch": 202.57333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002925141627875832,
      "loss": 0.3894,
      "step": 151930
    },
    {
      "epoch": 202.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002925131823704404,
      "loss": 0.3795,
      "step": 151940
    },
    {
      "epoch": 202.6,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029251220189074266,
      "loss": 0.3804,
      "step": 151950
    },
    {
      "epoch": 202.61333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002925112213484904,
      "loss": 0.3704,
      "step": 151960
    },
    {
      "epoch": 202.62666666666667,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000292510240743684,
      "loss": 0.3759,
      "step": 151970
    },
    {
      "epoch": 202.64,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029250926007632396,
      "loss": 0.387,
      "step": 151980
    },
    {
      "epoch": 202.65333333333334,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002925082793464106,
      "loss": 0.3973,
      "step": 151990
    },
    {
      "epoch": 202.66666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002925072985539445,
      "loss": 0.3855,
      "step": 152000
    },
    {
      "epoch": 202.68,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002925063176989259,
      "loss": 0.3755,
      "step": 152010
    },
    {
      "epoch": 202.69333333333333,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029250533678135544,
      "loss": 0.386,
      "step": 152020
    },
    {
      "epoch": 202.70666666666668,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002925043558012334,
      "loss": 0.3778,
      "step": 152030
    },
    {
      "epoch": 202.72,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002925033747585603,
      "loss": 0.4,
      "step": 152040
    },
    {
      "epoch": 202.73333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002925023936533365,
      "loss": 0.3937,
      "step": 152050
    },
    {
      "epoch": 202.74666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029250141248556244,
      "loss": 0.3957,
      "step": 152060
    },
    {
      "epoch": 202.76,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002925004312552386,
      "loss": 0.4092,
      "step": 152070
    },
    {
      "epoch": 202.77333333333334,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002924994499623654,
      "loss": 0.3953,
      "step": 152080
    },
    {
      "epoch": 202.78666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.0002924984686069432,
      "loss": 0.3972,
      "step": 152090
    },
    {
      "epoch": 202.8,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029249748718897256,
      "loss": 0.3952,
      "step": 152100
    },
    {
      "epoch": 202.81333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002924965057084538,
      "loss": 0.3686,
      "step": 152110
    },
    {
      "epoch": 202.82666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002924955241653874,
      "loss": 0.3775,
      "step": 152120
    },
    {
      "epoch": 202.84,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002924945425597737,
      "loss": 0.3897,
      "step": 152130
    },
    {
      "epoch": 202.85333333333332,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002924935608916133,
      "loss": 0.3858,
      "step": 152140
    },
    {
      "epoch": 202.86666666666667,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002924925791609065,
      "loss": 0.3895,
      "step": 152150
    },
    {
      "epoch": 202.88,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002924915973676538,
      "loss": 0.3709,
      "step": 152160
    },
    {
      "epoch": 202.89333333333335,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002924906155118556,
      "loss": 0.3821,
      "step": 152170
    },
    {
      "epoch": 202.90666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029248963359351234,
      "loss": 0.3897,
      "step": 152180
    },
    {
      "epoch": 202.92,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029248865161262435,
      "loss": 0.3901,
      "step": 152190
    },
    {
      "epoch": 202.93333333333334,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029248766956919227,
      "loss": 0.3855,
      "step": 152200
    },
    {
      "epoch": 202.94666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029248668746321635,
      "loss": 0.3852,
      "step": 152210
    },
    {
      "epoch": 202.96,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0002924857052946971,
      "loss": 0.3836,
      "step": 152220
    },
    {
      "epoch": 202.97333333333333,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0002924847230636349,
      "loss": 0.4081,
      "step": 152230
    },
    {
      "epoch": 202.98666666666668,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002924837407700303,
      "loss": 0.3805,
      "step": 152240
    },
    {
      "epoch": 203.0,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029248275841388367,
      "loss": 0.3779,
      "step": 152250
    },
    {
      "epoch": 203.0,
      "eval_loss": 0.4261859357357025,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7558,
      "eval_samples_per_second": 1.64,
      "eval_steps_per_second": 0.103,
      "step": 152250
    },
    {
      "epoch": 203.01333333333332,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029248177599519533,
      "loss": 0.3938,
      "step": 152260
    },
    {
      "epoch": 203.02666666666667,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002924807935139658,
      "loss": 0.409,
      "step": 152270
    },
    {
      "epoch": 203.04,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029247981097019557,
      "loss": 0.4201,
      "step": 152280
    },
    {
      "epoch": 203.05333333333334,
      "grad_norm": 0.4296875,
      "learning_rate": 0.000292478828363885,
      "loss": 0.4068,
      "step": 152290
    },
    {
      "epoch": 203.06666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029247784569503453,
      "loss": 0.3945,
      "step": 152300
    },
    {
      "epoch": 203.08,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029247686296364456,
      "loss": 0.3977,
      "step": 152310
    },
    {
      "epoch": 203.09333333333333,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002924758801697156,
      "loss": 0.3968,
      "step": 152320
    },
    {
      "epoch": 203.10666666666665,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029247489731324804,
      "loss": 0.3868,
      "step": 152330
    },
    {
      "epoch": 203.12,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002924739143942423,
      "loss": 0.3908,
      "step": 152340
    },
    {
      "epoch": 203.13333333333333,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029247293141269887,
      "loss": 0.382,
      "step": 152350
    },
    {
      "epoch": 203.14666666666668,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029247194836861805,
      "loss": 0.4006,
      "step": 152360
    },
    {
      "epoch": 203.16,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002924709652620004,
      "loss": 0.3954,
      "step": 152370
    },
    {
      "epoch": 203.17333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002924699820928463,
      "loss": 0.3895,
      "step": 152380
    },
    {
      "epoch": 203.18666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002924689988611562,
      "loss": 0.3881,
      "step": 152390
    },
    {
      "epoch": 203.2,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029246801556693055,
      "loss": 0.3814,
      "step": 152400
    },
    {
      "epoch": 203.21333333333334,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029246703221016973,
      "loss": 0.3811,
      "step": 152410
    },
    {
      "epoch": 203.22666666666666,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029246604879087413,
      "loss": 0.3936,
      "step": 152420
    },
    {
      "epoch": 203.24,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029246506530904436,
      "loss": 0.3778,
      "step": 152430
    },
    {
      "epoch": 203.25333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002924640817646807,
      "loss": 0.3803,
      "step": 152440
    },
    {
      "epoch": 203.26666666666668,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002924630981577835,
      "loss": 0.3828,
      "step": 152450
    },
    {
      "epoch": 203.28,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029246211448835343,
      "loss": 0.4132,
      "step": 152460
    },
    {
      "epoch": 203.29333333333332,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002924611307563908,
      "loss": 0.37,
      "step": 152470
    },
    {
      "epoch": 203.30666666666667,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029246014696189597,
      "loss": 0.3928,
      "step": 152480
    },
    {
      "epoch": 203.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002924591631048695,
      "loss": 0.3948,
      "step": 152490
    },
    {
      "epoch": 203.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029245817918531177,
      "loss": 0.397,
      "step": 152500
    },
    {
      "epoch": 203.34666666666666,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00029245719520322325,
      "loss": 0.3882,
      "step": 152510
    },
    {
      "epoch": 203.36,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002924562111586043,
      "loss": 0.3884,
      "step": 152520
    },
    {
      "epoch": 203.37333333333333,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029245522705145533,
      "loss": 0.3905,
      "step": 152530
    },
    {
      "epoch": 203.38666666666666,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002924542428817769,
      "loss": 0.3807,
      "step": 152540
    },
    {
      "epoch": 203.4,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029245325864956935,
      "loss": 0.3896,
      "step": 152550
    },
    {
      "epoch": 203.41333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002924522743548331,
      "loss": 0.394,
      "step": 152560
    },
    {
      "epoch": 203.42666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002924512899975686,
      "loss": 0.3968,
      "step": 152570
    },
    {
      "epoch": 203.44,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029245030557777633,
      "loss": 0.4075,
      "step": 152580
    },
    {
      "epoch": 203.45333333333335,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029244932109545667,
      "loss": 0.395,
      "step": 152590
    },
    {
      "epoch": 203.46666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002924483365506101,
      "loss": 0.4048,
      "step": 152600
    },
    {
      "epoch": 203.48,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029244735194323696,
      "loss": 0.3869,
      "step": 152610
    },
    {
      "epoch": 203.49333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002924463672733378,
      "loss": 0.3979,
      "step": 152620
    },
    {
      "epoch": 203.50666666666666,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029244538254091296,
      "loss": 0.3966,
      "step": 152630
    },
    {
      "epoch": 203.52,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029244439774596295,
      "loss": 0.3876,
      "step": 152640
    },
    {
      "epoch": 203.53333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002924434128884881,
      "loss": 0.3901,
      "step": 152650
    },
    {
      "epoch": 203.54666666666665,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029244242796848895,
      "loss": 0.3905,
      "step": 152660
    },
    {
      "epoch": 203.56,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029244144298596584,
      "loss": 0.3855,
      "step": 152670
    },
    {
      "epoch": 203.57333333333332,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002924404579409193,
      "loss": 0.3892,
      "step": 152680
    },
    {
      "epoch": 203.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029243947283334965,
      "loss": 0.3781,
      "step": 152690
    },
    {
      "epoch": 203.6,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002924384876632574,
      "loss": 0.3799,
      "step": 152700
    },
    {
      "epoch": 203.61333333333334,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002924375024306429,
      "loss": 0.3702,
      "step": 152710
    },
    {
      "epoch": 203.62666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002924365171355068,
      "loss": 0.376,
      "step": 152720
    },
    {
      "epoch": 203.64,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029243553177784925,
      "loss": 0.3877,
      "step": 152730
    },
    {
      "epoch": 203.65333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029243454635767086,
      "loss": 0.3963,
      "step": 152740
    },
    {
      "epoch": 203.66666666666666,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029243356087497205,
      "loss": 0.3844,
      "step": 152750
    },
    {
      "epoch": 203.68,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029243257532975315,
      "loss": 0.3758,
      "step": 152760
    },
    {
      "epoch": 203.69333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002924315897220147,
      "loss": 0.3854,
      "step": 152770
    },
    {
      "epoch": 203.70666666666668,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029243060405175706,
      "loss": 0.378,
      "step": 152780
    },
    {
      "epoch": 203.72,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002924296183189807,
      "loss": 0.3997,
      "step": 152790
    },
    {
      "epoch": 203.73333333333332,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029242863252368606,
      "loss": 0.3943,
      "step": 152800
    },
    {
      "epoch": 203.74666666666667,
      "grad_norm": 0.5,
      "learning_rate": 0.00029242764666587357,
      "loss": 0.3971,
      "step": 152810
    },
    {
      "epoch": 203.76,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002924266607455436,
      "loss": 0.4097,
      "step": 152820
    },
    {
      "epoch": 203.77333333333334,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002924256747626967,
      "loss": 0.3955,
      "step": 152830
    },
    {
      "epoch": 203.78666666666666,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0002924246887173332,
      "loss": 0.3972,
      "step": 152840
    },
    {
      "epoch": 203.8,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029242370260945357,
      "loss": 0.3954,
      "step": 152850
    },
    {
      "epoch": 203.81333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002924227164390582,
      "loss": 0.3684,
      "step": 152860
    },
    {
      "epoch": 203.82666666666665,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002924217302061477,
      "loss": 0.3773,
      "step": 152870
    },
    {
      "epoch": 203.84,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029242074391072224,
      "loss": 0.3909,
      "step": 152880
    },
    {
      "epoch": 203.85333333333332,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002924197575527824,
      "loss": 0.386,
      "step": 152890
    },
    {
      "epoch": 203.86666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029241877113232864,
      "loss": 0.3897,
      "step": 152900
    },
    {
      "epoch": 203.88,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029241778464936133,
      "loss": 0.3717,
      "step": 152910
    },
    {
      "epoch": 203.89333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.000292416798103881,
      "loss": 0.3832,
      "step": 152920
    },
    {
      "epoch": 203.90666666666667,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002924158114958879,
      "loss": 0.3887,
      "step": 152930
    },
    {
      "epoch": 203.92,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002924148248253826,
      "loss": 0.3912,
      "step": 152940
    },
    {
      "epoch": 203.93333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029241383809236547,
      "loss": 0.3847,
      "step": 152950
    },
    {
      "epoch": 203.94666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.000292412851296837,
      "loss": 0.3857,
      "step": 152960
    },
    {
      "epoch": 203.96,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0002924118644387976,
      "loss": 0.3832,
      "step": 152970
    },
    {
      "epoch": 203.97333333333333,
      "grad_norm": 0.515625,
      "learning_rate": 0.00029241087751824763,
      "loss": 0.4092,
      "step": 152980
    },
    {
      "epoch": 203.98666666666668,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002924098905351877,
      "loss": 0.3801,
      "step": 152990
    },
    {
      "epoch": 204.0,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029240890348961805,
      "loss": 0.3785,
      "step": 153000
    },
    {
      "epoch": 204.0,
      "eval_loss": 0.4270828366279602,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.6246,
      "eval_samples_per_second": 1.662,
      "eval_steps_per_second": 0.104,
      "step": 153000
    },
    {
      "epoch": 204.01333333333332,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00029240791638153924,
      "loss": 0.3947,
      "step": 153010
    },
    {
      "epoch": 204.02666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029240692921095166,
      "loss": 0.4083,
      "step": 153020
    },
    {
      "epoch": 204.04,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002924059419778558,
      "loss": 0.4214,
      "step": 153030
    },
    {
      "epoch": 204.05333333333334,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029240495468225194,
      "loss": 0.4065,
      "step": 153040
    },
    {
      "epoch": 204.06666666666666,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029240396732414065,
      "loss": 0.3941,
      "step": 153050
    },
    {
      "epoch": 204.08,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029240297990352235,
      "loss": 0.3974,
      "step": 153060
    },
    {
      "epoch": 204.09333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0002924019924203974,
      "loss": 0.3978,
      "step": 153070
    },
    {
      "epoch": 204.10666666666665,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029240100487476636,
      "loss": 0.3856,
      "step": 153080
    },
    {
      "epoch": 204.12,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002924000172666295,
      "loss": 0.3904,
      "step": 153090
    },
    {
      "epoch": 204.13333333333333,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002923990295959874,
      "loss": 0.3824,
      "step": 153100
    },
    {
      "epoch": 204.14666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029239804186284037,
      "loss": 0.4009,
      "step": 153110
    },
    {
      "epoch": 204.16,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000292397054067189,
      "loss": 0.3953,
      "step": 153120
    },
    {
      "epoch": 204.17333333333335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029239606620903353,
      "loss": 0.3904,
      "step": 153130
    },
    {
      "epoch": 204.18666666666667,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029239507828837457,
      "loss": 0.3874,
      "step": 153140
    },
    {
      "epoch": 204.2,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029239409030521244,
      "loss": 0.3807,
      "step": 153150
    },
    {
      "epoch": 204.21333333333334,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002923931022595476,
      "loss": 0.3815,
      "step": 153160
    },
    {
      "epoch": 204.22666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002923921141513805,
      "loss": 0.3932,
      "step": 153170
    },
    {
      "epoch": 204.24,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002923911259807116,
      "loss": 0.3786,
      "step": 153180
    },
    {
      "epoch": 204.25333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002923901377475413,
      "loss": 0.3807,
      "step": 153190
    },
    {
      "epoch": 204.26666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029238914945187004,
      "loss": 0.3833,
      "step": 153200
    },
    {
      "epoch": 204.28,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002923881610936982,
      "loss": 0.4121,
      "step": 153210
    },
    {
      "epoch": 204.29333333333332,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029238717267302634,
      "loss": 0.369,
      "step": 153220
    },
    {
      "epoch": 204.30666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002923861841898548,
      "loss": 0.3924,
      "step": 153230
    },
    {
      "epoch": 204.32,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029238519564418395,
      "loss": 0.3946,
      "step": 153240
    },
    {
      "epoch": 204.33333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002923842070360144,
      "loss": 0.397,
      "step": 153250
    },
    {
      "epoch": 204.34666666666666,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029238321836534643,
      "loss": 0.3877,
      "step": 153260
    },
    {
      "epoch": 204.36,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002923822296321805,
      "loss": 0.3883,
      "step": 153270
    },
    {
      "epoch": 204.37333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029238124083651716,
      "loss": 0.39,
      "step": 153280
    },
    {
      "epoch": 204.38666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002923802519783567,
      "loss": 0.3815,
      "step": 153290
    },
    {
      "epoch": 204.4,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002923792630576997,
      "loss": 0.3901,
      "step": 153300
    },
    {
      "epoch": 204.41333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029237827407454646,
      "loss": 0.3938,
      "step": 153310
    },
    {
      "epoch": 204.42666666666668,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002923772850288974,
      "loss": 0.3956,
      "step": 153320
    },
    {
      "epoch": 204.44,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002923762959207531,
      "loss": 0.4068,
      "step": 153330
    },
    {
      "epoch": 204.45333333333335,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0002923753067501139,
      "loss": 0.3965,
      "step": 153340
    },
    {
      "epoch": 204.46666666666667,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00029237431751698024,
      "loss": 0.4043,
      "step": 153350
    },
    {
      "epoch": 204.48,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002923733282213525,
      "loss": 0.3857,
      "step": 153360
    },
    {
      "epoch": 204.49333333333334,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002923723388632313,
      "loss": 0.3974,
      "step": 153370
    },
    {
      "epoch": 204.50666666666666,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00029237134944261686,
      "loss": 0.3962,
      "step": 153380
    },
    {
      "epoch": 204.52,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00029237035995950976,
      "loss": 0.3869,
      "step": 153390
    },
    {
      "epoch": 204.53333333333333,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029236937041391027,
      "loss": 0.3896,
      "step": 153400
    },
    {
      "epoch": 204.54666666666665,
      "grad_norm": 0.4375,
      "learning_rate": 0.000292368380805819,
      "loss": 0.3903,
      "step": 153410
    },
    {
      "epoch": 204.56,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002923673911352363,
      "loss": 0.3847,
      "step": 153420
    },
    {
      "epoch": 204.57333333333332,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002923664014021627,
      "loss": 0.3893,
      "step": 153430
    },
    {
      "epoch": 204.58666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029236541160659847,
      "loss": 0.3788,
      "step": 153440
    },
    {
      "epoch": 204.6,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029236442174854416,
      "loss": 0.3804,
      "step": 153450
    },
    {
      "epoch": 204.61333333333334,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0002923634318280002,
      "loss": 0.3707,
      "step": 153460
    },
    {
      "epoch": 204.62666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002923624418449669,
      "loss": 0.3758,
      "step": 153470
    },
    {
      "epoch": 204.64,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002923614517994449,
      "loss": 0.3866,
      "step": 153480
    },
    {
      "epoch": 204.65333333333334,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029236046169143446,
      "loss": 0.3961,
      "step": 153490
    },
    {
      "epoch": 204.66666666666666,
      "grad_norm": 0.375,
      "learning_rate": 0.00029235947152093613,
      "loss": 0.3839,
      "step": 153500
    },
    {
      "epoch": 204.68,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00029235848128795024,
      "loss": 0.3758,
      "step": 153510
    },
    {
      "epoch": 204.69333333333333,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029235749099247734,
      "loss": 0.3859,
      "step": 153520
    },
    {
      "epoch": 204.70666666666668,
      "grad_norm": 0.375,
      "learning_rate": 0.00029235650063451775,
      "loss": 0.3775,
      "step": 153530
    },
    {
      "epoch": 204.72,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029235551021407206,
      "loss": 0.3993,
      "step": 153540
    },
    {
      "epoch": 204.73333333333332,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0002923545197311405,
      "loss": 0.3941,
      "step": 153550
    },
    {
      "epoch": 204.74666666666667,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029235352918572364,
      "loss": 0.3966,
      "step": 153560
    },
    {
      "epoch": 204.76,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002923525385778219,
      "loss": 0.4095,
      "step": 153570
    },
    {
      "epoch": 204.77333333333334,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002923515479074357,
      "loss": 0.3963,
      "step": 153580
    },
    {
      "epoch": 204.78666666666666,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002923505571745654,
      "loss": 0.397,
      "step": 153590
    },
    {
      "epoch": 204.8,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00029234956637921167,
      "loss": 0.3954,
      "step": 153600
    },
    {
      "epoch": 204.81333333333333,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00029234857552137464,
      "loss": 0.3687,
      "step": 153610
    },
    {
      "epoch": 204.82666666666665,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029234758460105494,
      "loss": 0.3777,
      "step": 153620
    },
    {
      "epoch": 204.84,
      "grad_norm": 0.46484375,
      "learning_rate": 0.000292346593618253,
      "loss": 0.3907,
      "step": 153630
    },
    {
      "epoch": 204.85333333333332,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002923456025729691,
      "loss": 0.3853,
      "step": 153640
    },
    {
      "epoch": 204.86666666666667,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029234461146520393,
      "loss": 0.3907,
      "step": 153650
    },
    {
      "epoch": 204.88,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002923436202949576,
      "loss": 0.3706,
      "step": 153660
    },
    {
      "epoch": 204.89333333333335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029234262906223087,
      "loss": 0.3825,
      "step": 153670
    },
    {
      "epoch": 204.90666666666667,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029234163776702403,
      "loss": 0.3889,
      "step": 153680
    },
    {
      "epoch": 204.92,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002923406464093374,
      "loss": 0.3906,
      "step": 153690
    },
    {
      "epoch": 204.93333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029233965498917165,
      "loss": 0.3849,
      "step": 153700
    },
    {
      "epoch": 204.94666666666666,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000292338663506527,
      "loss": 0.3851,
      "step": 153710
    },
    {
      "epoch": 204.96,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029233767196140404,
      "loss": 0.3844,
      "step": 153720
    },
    {
      "epoch": 204.97333333333333,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00029233668035380316,
      "loss": 0.4081,
      "step": 153730
    },
    {
      "epoch": 204.98666666666668,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002923356886837247,
      "loss": 0.3804,
      "step": 153740
    },
    {
      "epoch": 205.0,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00029233469695116925,
      "loss": 0.3774,
      "step": 153750
    },
    {
      "epoch": 205.0,
      "eval_loss": 0.42539915442466736,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9153,
      "eval_samples_per_second": 1.614,
      "eval_steps_per_second": 0.101,
      "step": 153750
    },
    {
      "epoch": 205.01333333333332,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029233370515613713,
      "loss": 0.3947,
      "step": 153760
    },
    {
      "epoch": 205.02666666666667,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029233271329862884,
      "loss": 0.407,
      "step": 153770
    },
    {
      "epoch": 205.04,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00029233172137864476,
      "loss": 0.4218,
      "step": 153780
    },
    {
      "epoch": 205.05333333333334,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002923307293961854,
      "loss": 0.4067,
      "step": 153790
    },
    {
      "epoch": 205.06666666666666,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00029232973735125115,
      "loss": 0.394,
      "step": 153800
    },
    {
      "epoch": 205.08,
      "grad_norm": 0.421875,
      "learning_rate": 0.00029232874524384245,
      "loss": 0.397,
      "step": 153810
    },
    {
      "epoch": 205.09333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029232775307395974,
      "loss": 0.3984,
      "step": 153820
    },
    {
      "epoch": 205.10666666666665,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002923267608416034,
      "loss": 0.3868,
      "step": 153830
    },
    {
      "epoch": 205.12,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029232576854677393,
      "loss": 0.3909,
      "step": 153840
    },
    {
      "epoch": 205.13333333333333,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029232477618947175,
      "loss": 0.3818,
      "step": 153850
    },
    {
      "epoch": 205.14666666666668,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002923237837696973,
      "loss": 0.4017,
      "step": 153860
    },
    {
      "epoch": 205.16,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029232279128745106,
      "loss": 0.3956,
      "step": 153870
    },
    {
      "epoch": 205.17333333333335,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029232179874273337,
      "loss": 0.3899,
      "step": 153880
    },
    {
      "epoch": 205.18666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002923208061355447,
      "loss": 0.3876,
      "step": 153890
    },
    {
      "epoch": 205.2,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029231981346588556,
      "loss": 0.3807,
      "step": 153900
    },
    {
      "epoch": 205.21333333333334,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029231882073375626,
      "loss": 0.3817,
      "step": 153910
    },
    {
      "epoch": 205.22666666666666,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0002923178279391573,
      "loss": 0.3933,
      "step": 153920
    },
    {
      "epoch": 205.24,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00029231683508208913,
      "loss": 0.379,
      "step": 153930
    },
    {
      "epoch": 205.25333333333333,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029231584216255223,
      "loss": 0.3805,
      "step": 153940
    },
    {
      "epoch": 205.26666666666668,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002923148491805469,
      "loss": 0.3822,
      "step": 153950
    },
    {
      "epoch": 205.28,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002923138561360737,
      "loss": 0.4122,
      "step": 153960
    },
    {
      "epoch": 205.29333333333332,
      "grad_norm": 0.423828125,
      "learning_rate": 0.000292312863029133,
      "loss": 0.3694,
      "step": 153970
    },
    {
      "epoch": 205.30666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002923118698597252,
      "loss": 0.3928,
      "step": 153980
    },
    {
      "epoch": 205.32,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002923108766278509,
      "loss": 0.3949,
      "step": 153990
    },
    {
      "epoch": 205.33333333333334,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0002923098833335104,
      "loss": 0.3971,
      "step": 154000
    },
    {
      "epoch": 205.34666666666666,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029230888997670406,
      "loss": 0.3876,
      "step": 154010
    },
    {
      "epoch": 205.36,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002923078965574325,
      "loss": 0.3878,
      "step": 154020
    },
    {
      "epoch": 205.37333333333333,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002923069030756961,
      "loss": 0.3909,
      "step": 154030
    },
    {
      "epoch": 205.38666666666666,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029230590953149523,
      "loss": 0.3815,
      "step": 154040
    },
    {
      "epoch": 205.4,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002923049159248304,
      "loss": 0.389,
      "step": 154050
    },
    {
      "epoch": 205.41333333333333,
      "grad_norm": 0.400390625,
      "learning_rate": 0.000292303922255702,
      "loss": 0.3945,
      "step": 154060
    },
    {
      "epoch": 205.42666666666668,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029230292852411044,
      "loss": 0.3947,
      "step": 154070
    },
    {
      "epoch": 205.44,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029230193473005623,
      "loss": 0.4069,
      "step": 154080
    },
    {
      "epoch": 205.45333333333335,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002923009408735398,
      "loss": 0.3958,
      "step": 154090
    },
    {
      "epoch": 205.46666666666667,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002922999469545615,
      "loss": 0.4036,
      "step": 154100
    },
    {
      "epoch": 205.48,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002922989529731219,
      "loss": 0.3865,
      "step": 154110
    },
    {
      "epoch": 205.49333333333334,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0002922979589292213,
      "loss": 0.3977,
      "step": 154120
    },
    {
      "epoch": 205.50666666666666,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002922969648228602,
      "loss": 0.3972,
      "step": 154130
    },
    {
      "epoch": 205.52,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00029229597065403906,
      "loss": 0.3869,
      "step": 154140
    },
    {
      "epoch": 205.53333333333333,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029229497642275826,
      "loss": 0.3892,
      "step": 154150
    },
    {
      "epoch": 205.54666666666665,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002922939821290183,
      "loss": 0.391,
      "step": 154160
    },
    {
      "epoch": 205.56,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0002922929877728195,
      "loss": 0.3855,
      "step": 154170
    },
    {
      "epoch": 205.57333333333332,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002922919933541625,
      "loss": 0.3893,
      "step": 154180
    },
    {
      "epoch": 205.58666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029229099887304754,
      "loss": 0.3788,
      "step": 154190
    },
    {
      "epoch": 205.6,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029229000432947516,
      "loss": 0.3802,
      "step": 154200
    },
    {
      "epoch": 205.61333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002922890097234458,
      "loss": 0.3693,
      "step": 154210
    },
    {
      "epoch": 205.62666666666667,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002922880150549598,
      "loss": 0.3757,
      "step": 154220
    },
    {
      "epoch": 205.64,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029228702032401766,
      "loss": 0.3875,
      "step": 154230
    },
    {
      "epoch": 205.65333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002922860255306199,
      "loss": 0.3961,
      "step": 154240
    },
    {
      "epoch": 205.66666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002922850306747668,
      "loss": 0.3841,
      "step": 154250
    },
    {
      "epoch": 205.68,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002922840357564589,
      "loss": 0.3757,
      "step": 154260
    },
    {
      "epoch": 205.69333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002922830407756966,
      "loss": 0.386,
      "step": 154270
    },
    {
      "epoch": 205.70666666666668,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002922820457324803,
      "loss": 0.3776,
      "step": 154280
    },
    {
      "epoch": 205.72,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029228105062681055,
      "loss": 0.399,
      "step": 154290
    },
    {
      "epoch": 205.73333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029228005545868773,
      "loss": 0.393,
      "step": 154300
    },
    {
      "epoch": 205.74666666666667,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002922790602281122,
      "loss": 0.3959,
      "step": 154310
    },
    {
      "epoch": 205.76,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002922780649350845,
      "loss": 0.409,
      "step": 154320
    },
    {
      "epoch": 205.77333333333334,
      "grad_norm": 0.53125,
      "learning_rate": 0.000292277069579605,
      "loss": 0.3951,
      "step": 154330
    },
    {
      "epoch": 205.78666666666666,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00029227607416167426,
      "loss": 0.3968,
      "step": 154340
    },
    {
      "epoch": 205.8,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029227507868129254,
      "loss": 0.3945,
      "step": 154350
    },
    {
      "epoch": 205.81333333333333,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0002922740831384604,
      "loss": 0.369,
      "step": 154360
    },
    {
      "epoch": 205.82666666666665,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002922730875331782,
      "loss": 0.3776,
      "step": 154370
    },
    {
      "epoch": 205.84,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0002922720918654464,
      "loss": 0.3901,
      "step": 154380
    },
    {
      "epoch": 205.85333333333332,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002922710961352655,
      "loss": 0.3845,
      "step": 154390
    },
    {
      "epoch": 205.86666666666667,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029227010034263586,
      "loss": 0.3898,
      "step": 154400
    },
    {
      "epoch": 205.88,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029226910448755793,
      "loss": 0.3709,
      "step": 154410
    },
    {
      "epoch": 205.89333333333335,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002922681085700322,
      "loss": 0.3826,
      "step": 154420
    },
    {
      "epoch": 205.90666666666667,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002922671125900591,
      "loss": 0.3894,
      "step": 154430
    },
    {
      "epoch": 205.92,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029226611654763895,
      "loss": 0.3904,
      "step": 154440
    },
    {
      "epoch": 205.93333333333334,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00029226512044277234,
      "loss": 0.3844,
      "step": 154450
    },
    {
      "epoch": 205.94666666666666,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002922641242754596,
      "loss": 0.3857,
      "step": 154460
    },
    {
      "epoch": 205.96,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029226312804570123,
      "loss": 0.3835,
      "step": 154470
    },
    {
      "epoch": 205.97333333333333,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0002922621317534976,
      "loss": 0.4083,
      "step": 154480
    },
    {
      "epoch": 205.98666666666668,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002922611353988493,
      "loss": 0.3803,
      "step": 154490
    },
    {
      "epoch": 206.0,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002922601389817566,
      "loss": 0.3775,
      "step": 154500
    },
    {
      "epoch": 206.0,
      "eval_loss": 0.425143301486969,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.7636,
      "eval_samples_per_second": 1.639,
      "eval_steps_per_second": 0.102,
      "step": 154500
    },
    {
      "epoch": 206.01333333333332,
      "grad_norm": 0.484375,
      "learning_rate": 0.00029225914250222,
      "loss": 0.3947,
      "step": 154510
    },
    {
      "epoch": 206.02666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.0002922581459602399,
      "loss": 0.4081,
      "step": 154520
    },
    {
      "epoch": 206.04,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002922571493558168,
      "loss": 0.4213,
      "step": 154530
    },
    {
      "epoch": 206.05333333333334,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002922561526889511,
      "loss": 0.4063,
      "step": 154540
    },
    {
      "epoch": 206.06666666666666,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029225515595964326,
      "loss": 0.3942,
      "step": 154550
    },
    {
      "epoch": 206.08,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029225415916789375,
      "loss": 0.3972,
      "step": 154560
    },
    {
      "epoch": 206.09333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0002922531623137029,
      "loss": 0.3986,
      "step": 154570
    },
    {
      "epoch": 206.10666666666665,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002922521653970712,
      "loss": 0.3862,
      "step": 154580
    },
    {
      "epoch": 206.12,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029225116841799916,
      "loss": 0.3909,
      "step": 154590
    },
    {
      "epoch": 206.13333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002922501713764871,
      "loss": 0.3822,
      "step": 154600
    },
    {
      "epoch": 206.14666666666668,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029224917427253554,
      "loss": 0.402,
      "step": 154610
    },
    {
      "epoch": 206.16,
      "grad_norm": 0.34375,
      "learning_rate": 0.0002922481771061449,
      "loss": 0.3951,
      "step": 154620
    },
    {
      "epoch": 206.17333333333335,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002922471798773156,
      "loss": 0.3903,
      "step": 154630
    },
    {
      "epoch": 206.18666666666667,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002922461825860481,
      "loss": 0.3871,
      "step": 154640
    },
    {
      "epoch": 206.2,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002922451852323428,
      "loss": 0.3803,
      "step": 154650
    },
    {
      "epoch": 206.21333333333334,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029224418781620014,
      "loss": 0.3817,
      "step": 154660
    },
    {
      "epoch": 206.22666666666666,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002922431903376206,
      "loss": 0.3928,
      "step": 154670
    },
    {
      "epoch": 206.24,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002922421927966046,
      "loss": 0.378,
      "step": 154680
    },
    {
      "epoch": 206.25333333333333,
      "grad_norm": 0.4375,
      "learning_rate": 0.0002922411951931526,
      "loss": 0.3795,
      "step": 154690
    },
    {
      "epoch": 206.26666666666668,
      "grad_norm": 0.390625,
      "learning_rate": 0.000292240197527265,
      "loss": 0.3822,
      "step": 154700
    },
    {
      "epoch": 206.28,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002922391997989422,
      "loss": 0.413,
      "step": 154710
    },
    {
      "epoch": 206.29333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002922382020081847,
      "loss": 0.3687,
      "step": 154720
    },
    {
      "epoch": 206.30666666666667,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029223720415499303,
      "loss": 0.393,
      "step": 154730
    },
    {
      "epoch": 206.32,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029223620623936746,
      "loss": 0.3956,
      "step": 154740
    },
    {
      "epoch": 206.33333333333334,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029223520826130844,
      "loss": 0.3972,
      "step": 154750
    },
    {
      "epoch": 206.34666666666666,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029223421022081655,
      "loss": 0.3873,
      "step": 154760
    },
    {
      "epoch": 206.36,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0002922332121178921,
      "loss": 0.3881,
      "step": 154770
    },
    {
      "epoch": 206.37333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00029223221395253556,
      "loss": 0.3914,
      "step": 154780
    },
    {
      "epoch": 206.38666666666666,
      "grad_norm": 0.453125,
      "learning_rate": 0.00029223121572474737,
      "loss": 0.3811,
      "step": 154790
    },
    {
      "epoch": 206.4,
      "grad_norm": 0.4375,
      "learning_rate": 0.000292230217434528,
      "loss": 0.39,
      "step": 154800
    },
    {
      "epoch": 206.41333333333333,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002922292190818778,
      "loss": 0.3939,
      "step": 154810
    },
    {
      "epoch": 206.42666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029222822066679734,
      "loss": 0.3961,
      "step": 154820
    },
    {
      "epoch": 206.44,
      "grad_norm": 0.3828125,
      "learning_rate": 0.000292227222189287,
      "loss": 0.4068,
      "step": 154830
    },
    {
      "epoch": 206.45333333333335,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002922262236493471,
      "loss": 0.3959,
      "step": 154840
    },
    {
      "epoch": 206.46666666666667,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002922252250469783,
      "loss": 0.4043,
      "step": 154850
    },
    {
      "epoch": 206.48,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029222422638218085,
      "loss": 0.3857,
      "step": 154860
    },
    {
      "epoch": 206.49333333333334,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002922232276549553,
      "loss": 0.3984,
      "step": 154870
    },
    {
      "epoch": 206.50666666666666,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029222222886530206,
      "loss": 0.397,
      "step": 154880
    },
    {
      "epoch": 206.52,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029222123001322153,
      "loss": 0.3864,
      "step": 154890
    },
    {
      "epoch": 206.53333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0002922202310987142,
      "loss": 0.3892,
      "step": 154900
    },
    {
      "epoch": 206.54666666666665,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00029221923212178043,
      "loss": 0.3909,
      "step": 154910
    },
    {
      "epoch": 206.56,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002922182330824208,
      "loss": 0.3854,
      "step": 154920
    },
    {
      "epoch": 206.57333333333332,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0002922172339806356,
      "loss": 0.3884,
      "step": 154930
    },
    {
      "epoch": 206.58666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029221623481642535,
      "loss": 0.3787,
      "step": 154940
    },
    {
      "epoch": 206.6,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002922152355897905,
      "loss": 0.3798,
      "step": 154950
    },
    {
      "epoch": 206.61333333333334,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002922142363007314,
      "loss": 0.3698,
      "step": 154960
    },
    {
      "epoch": 206.62666666666667,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00029221323694924857,
      "loss": 0.3753,
      "step": 154970
    },
    {
      "epoch": 206.64,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002922122375353424,
      "loss": 0.3861,
      "step": 154980
    },
    {
      "epoch": 206.65333333333334,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0002922112380590134,
      "loss": 0.3966,
      "step": 154990
    },
    {
      "epoch": 206.66666666666666,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002922102385202619,
      "loss": 0.3852,
      "step": 155000
    },
    {
      "epoch": 206.68,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002922092389190885,
      "loss": 0.3758,
      "step": 155010
    },
    {
      "epoch": 206.69333333333333,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0002922082392554934,
      "loss": 0.3853,
      "step": 155020
    },
    {
      "epoch": 206.70666666666668,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0002922072395294773,
      "loss": 0.3774,
      "step": 155030
    },
    {
      "epoch": 206.72,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002922062397410405,
      "loss": 0.4001,
      "step": 155040
    },
    {
      "epoch": 206.73333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0002922052398901834,
      "loss": 0.394,
      "step": 155050
    },
    {
      "epoch": 206.74666666666667,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002922042399769065,
      "loss": 0.3966,
      "step": 155060
    },
    {
      "epoch": 206.76,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002922032400012103,
      "loss": 0.4097,
      "step": 155070
    },
    {
      "epoch": 206.77333333333334,
      "grad_norm": 0.46875,
      "learning_rate": 0.00029220223996309516,
      "loss": 0.3957,
      "step": 155080
    },
    {
      "epoch": 206.78666666666666,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002922012398625615,
      "loss": 0.397,
      "step": 155090
    },
    {
      "epoch": 206.8,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0002922002396996098,
      "loss": 0.3956,
      "step": 155100
    },
    {
      "epoch": 206.81333333333333,
      "grad_norm": 0.458984375,
      "learning_rate": 0.00029219923947424055,
      "loss": 0.3685,
      "step": 155110
    },
    {
      "epoch": 206.82666666666665,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00029219823918645403,
      "loss": 0.3774,
      "step": 155120
    },
    {
      "epoch": 206.84,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002921972388362508,
      "loss": 0.3896,
      "step": 155130
    },
    {
      "epoch": 206.85333333333332,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002921962384236313,
      "loss": 0.385,
      "step": 155140
    },
    {
      "epoch": 206.86666666666667,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00029219523794859597,
      "loss": 0.3896,
      "step": 155150
    },
    {
      "epoch": 206.88,
      "grad_norm": 0.375,
      "learning_rate": 0.00029219423741114523,
      "loss": 0.3708,
      "step": 155160
    },
    {
      "epoch": 206.89333333333335,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00029219323681127946,
      "loss": 0.3833,
      "step": 155170
    },
    {
      "epoch": 206.90666666666667,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002921922361489992,
      "loss": 0.389,
      "step": 155180
    },
    {
      "epoch": 206.92,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0002921912354243048,
      "loss": 0.3912,
      "step": 155190
    },
    {
      "epoch": 206.93333333333334,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002921902346371968,
      "loss": 0.3849,
      "step": 155200
    },
    {
      "epoch": 206.94666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002921892337876755,
      "loss": 0.3852,
      "step": 155210
    },
    {
      "epoch": 206.96,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002921882328757415,
      "loss": 0.3839,
      "step": 155220
    },
    {
      "epoch": 206.97333333333333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0002921872319013951,
      "loss": 0.4082,
      "step": 155230
    },
    {
      "epoch": 206.98666666666668,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029218623086463687,
      "loss": 0.3801,
      "step": 155240
    },
    {
      "epoch": 207.0,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002921852297654671,
      "loss": 0.3767,
      "step": 155250
    },
    {
      "epoch": 207.0,
      "eval_loss": 0.42495977878570557,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.988,
      "eval_samples_per_second": 1.602,
      "eval_steps_per_second": 0.1,
      "step": 155250
    },
    {
      "epoch": 207.01333333333332,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00029218422860388633,
      "loss": 0.3943,
      "step": 155260
    },
    {
      "epoch": 207.02666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029218322737989503,
      "loss": 0.4082,
      "step": 155270
    },
    {
      "epoch": 207.04,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002921822260934935,
      "loss": 0.4209,
      "step": 155280
    },
    {
      "epoch": 207.05333333333334,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029218122474468236,
      "loss": 0.4066,
      "step": 155290
    },
    {
      "epoch": 207.06666666666666,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002921802233334619,
      "loss": 0.3946,
      "step": 155300
    },
    {
      "epoch": 207.08,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002921792218598327,
      "loss": 0.397,
      "step": 155310
    },
    {
      "epoch": 207.09333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.000292178220323795,
      "loss": 0.3984,
      "step": 155320
    },
    {
      "epoch": 207.10666666666665,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029217721872534943,
      "loss": 0.3862,
      "step": 155330
    },
    {
      "epoch": 207.12,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002921762170644963,
      "loss": 0.3906,
      "step": 155340
    },
    {
      "epoch": 207.13333333333333,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029217521534123615,
      "loss": 0.3822,
      "step": 155350
    },
    {
      "epoch": 207.14666666666668,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00029217421355556936,
      "loss": 0.4002,
      "step": 155360
    },
    {
      "epoch": 207.16,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0002921732117074964,
      "loss": 0.3948,
      "step": 155370
    },
    {
      "epoch": 207.17333333333335,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002921722097970177,
      "loss": 0.3885,
      "step": 155380
    },
    {
      "epoch": 207.18666666666667,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029217120782413364,
      "loss": 0.3878,
      "step": 155390
    },
    {
      "epoch": 207.2,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029217020578884475,
      "loss": 0.3803,
      "step": 155400
    },
    {
      "epoch": 207.21333333333334,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002921692036911514,
      "loss": 0.3812,
      "step": 155410
    },
    {
      "epoch": 207.22666666666666,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002921682015310541,
      "loss": 0.3936,
      "step": 155420
    },
    {
      "epoch": 207.24,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029216719930855325,
      "loss": 0.3788,
      "step": 155430
    },
    {
      "epoch": 207.25333333333333,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029216619702364925,
      "loss": 0.3812,
      "step": 155440
    },
    {
      "epoch": 207.26666666666668,
      "grad_norm": 0.373046875,
      "learning_rate": 0.00029216519467634264,
      "loss": 0.3816,
      "step": 155450
    },
    {
      "epoch": 207.28,
      "grad_norm": 0.421875,
      "learning_rate": 0.0002921641922666338,
      "loss": 0.4126,
      "step": 155460
    },
    {
      "epoch": 207.29333333333332,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00029216318979452316,
      "loss": 0.3695,
      "step": 155470
    },
    {
      "epoch": 207.30666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00029216218726001115,
      "loss": 0.3926,
      "step": 155480
    },
    {
      "epoch": 207.32,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00029216118466309827,
      "loss": 0.3947,
      "step": 155490
    },
    {
      "epoch": 207.33333333333334,
      "grad_norm": 0.453125,
      "learning_rate": 0.0002921601820037849,
      "loss": 0.3973,
      "step": 155500
    },
    {
      "epoch": 207.34666666666666,
      "grad_norm": 0.46875,
      "learning_rate": 0.0002921591792820715,
      "loss": 0.3881,
      "step": 155510
    },
    {
      "epoch": 207.36,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00029215817649795855,
      "loss": 0.3881,
      "step": 155520
    },
    {
      "epoch": 207.37333333333333,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002921571736514464,
      "loss": 0.3905,
      "step": 155530
    },
    {
      "epoch": 207.38666666666666,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0002921561707425356,
      "loss": 0.3819,
      "step": 155540
    },
    {
      "epoch": 207.4,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029215516777122643,
      "loss": 0.389,
      "step": 155550
    },
    {
      "epoch": 207.41333333333333,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029215416473751956,
      "loss": 0.3934,
      "step": 155560
    },
    {
      "epoch": 207.42666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002921531616414152,
      "loss": 0.3952,
      "step": 155570
    },
    {
      "epoch": 207.44,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00029215215848291397,
      "loss": 0.4063,
      "step": 155580
    },
    {
      "epoch": 207.45333333333335,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029215115526201623,
      "loss": 0.3961,
      "step": 155590
    },
    {
      "epoch": 207.46666666666667,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002921501519787224,
      "loss": 0.4043,
      "step": 155600
    },
    {
      "epoch": 207.48,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002921491486330329,
      "loss": 0.3859,
      "step": 155610
    },
    {
      "epoch": 207.49333333333334,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029214814522494833,
      "loss": 0.3987,
      "step": 155620
    },
    {
      "epoch": 207.50666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029214714175446893,
      "loss": 0.3969,
      "step": 155630
    },
    {
      "epoch": 207.52,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00029214613822159527,
      "loss": 0.3873,
      "step": 155640
    },
    {
      "epoch": 207.53333333333333,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0002921451346263277,
      "loss": 0.3897,
      "step": 155650
    },
    {
      "epoch": 207.54666666666665,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002921441309686668,
      "loss": 0.3909,
      "step": 155660
    },
    {
      "epoch": 207.56,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0002921431272486128,
      "loss": 0.3853,
      "step": 155670
    },
    {
      "epoch": 207.57333333333332,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029214212346616634,
      "loss": 0.3893,
      "step": 155680
    },
    {
      "epoch": 207.58666666666667,
      "grad_norm": 0.375,
      "learning_rate": 0.00029214111962132776,
      "loss": 0.3779,
      "step": 155690
    },
    {
      "epoch": 207.6,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002921401157140975,
      "loss": 0.3794,
      "step": 155700
    },
    {
      "epoch": 207.61333333333334,
      "grad_norm": 0.359375,
      "learning_rate": 0.00029213911174447605,
      "loss": 0.3702,
      "step": 155710
    },
    {
      "epoch": 207.62666666666667,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0002921381077124638,
      "loss": 0.376,
      "step": 155720
    },
    {
      "epoch": 207.64,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002921371036180612,
      "loss": 0.3867,
      "step": 155730
    },
    {
      "epoch": 207.65333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002921360994612688,
      "loss": 0.396,
      "step": 155740
    },
    {
      "epoch": 207.66666666666666,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00029213509524208685,
      "loss": 0.3849,
      "step": 155750
    },
    {
      "epoch": 207.68,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002921340909605159,
      "loss": 0.375,
      "step": 155760
    },
    {
      "epoch": 207.69333333333333,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0002921330866165564,
      "loss": 0.3854,
      "step": 155770
    },
    {
      "epoch": 207.70666666666668,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002921320822102087,
      "loss": 0.3769,
      "step": 155780
    },
    {
      "epoch": 207.72,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00029213107774147336,
      "loss": 0.3995,
      "step": 155790
    },
    {
      "epoch": 207.73333333333332,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00029213007321035074,
      "loss": 0.3935,
      "step": 155800
    },
    {
      "epoch": 207.74666666666667,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002921290686168414,
      "loss": 0.396,
      "step": 155810
    },
    {
      "epoch": 207.76,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002921280639609456,
      "loss": 0.409,
      "step": 155820
    },
    {
      "epoch": 207.77333333333334,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0002921270592426639,
      "loss": 0.3952,
      "step": 155830
    },
    {
      "epoch": 207.78666666666666,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002921260544619967,
      "loss": 0.3959,
      "step": 155840
    },
    {
      "epoch": 207.8,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00029212504961894444,
      "loss": 0.3953,
      "step": 155850
    },
    {
      "epoch": 207.81333333333333,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002921240447135076,
      "loss": 0.3681,
      "step": 155860
    },
    {
      "epoch": 207.82666666666665,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002921230397456866,
      "loss": 0.3767,
      "step": 155870
    },
    {
      "epoch": 207.84,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029212203471548187,
      "loss": 0.391,
      "step": 155880
    },
    {
      "epoch": 207.85333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002921210296228939,
      "loss": 0.3855,
      "step": 155890
    },
    {
      "epoch": 207.86666666666667,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00029212002446792296,
      "loss": 0.3902,
      "step": 155900
    },
    {
      "epoch": 207.88,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0002921190192505697,
      "loss": 0.3706,
      "step": 155910
    },
    {
      "epoch": 207.89333333333335,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0002921180139708345,
      "loss": 0.3826,
      "step": 155920
    },
    {
      "epoch": 207.90666666666667,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029211700862871774,
      "loss": 0.3882,
      "step": 155930
    },
    {
      "epoch": 207.92,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002921160032242199,
      "loss": 0.3906,
      "step": 155940
    },
    {
      "epoch": 207.93333333333334,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0002921149977573415,
      "loss": 0.3851,
      "step": 155950
    },
    {
      "epoch": 207.94666666666666,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0002921139922280829,
      "loss": 0.3865,
      "step": 155960
    },
    {
      "epoch": 207.96,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029211298663644444,
      "loss": 0.3838,
      "step": 155970
    },
    {
      "epoch": 207.97333333333333,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00029211198098242676,
      "loss": 0.4078,
      "step": 155980
    },
    {
      "epoch": 207.98666666666668,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002921109752660302,
      "loss": 0.3808,
      "step": 155990
    },
    {
      "epoch": 208.0,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029210996948725516,
      "loss": 0.3777,
      "step": 156000
    },
    {
      "epoch": 208.0,
      "eval_loss": 0.42512860894203186,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 9.9085,
      "eval_samples_per_second": 1.615,
      "eval_steps_per_second": 0.101,
      "step": 156000
    },
    {
      "epoch": 208.01333333333332,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0002921089636461022,
      "loss": 0.3953,
      "step": 156010
    },
    {
      "epoch": 208.02666666666667,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00029210795774257167,
      "loss": 0.4083,
      "step": 156020
    },
    {
      "epoch": 208.04,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00029210695177666403,
      "loss": 0.421,
      "step": 156030
    },
    {
      "epoch": 208.05333333333334,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029210594574837975,
      "loss": 0.4068,
      "step": 156040
    },
    {
      "epoch": 208.06666666666666,
      "grad_norm": 0.4375,
      "learning_rate": 0.00029210493965771926,
      "loss": 0.3944,
      "step": 156050
    },
    {
      "epoch": 208.08,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029210393350468294,
      "loss": 0.3973,
      "step": 156060
    },
    {
      "epoch": 208.09333333333333,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002921029272892713,
      "loss": 0.3973,
      "step": 156070
    },
    {
      "epoch": 208.10666666666665,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002921019210114848,
      "loss": 0.3871,
      "step": 156080
    },
    {
      "epoch": 208.12,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002921009146713238,
      "loss": 0.3909,
      "step": 156090
    },
    {
      "epoch": 208.13333333333333,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00029209990826878883,
      "loss": 0.3818,
      "step": 156100
    },
    {
      "epoch": 208.14666666666668,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00029209890180388024,
      "loss": 0.4011,
      "step": 156110
    },
    {
      "epoch": 208.16,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0002920978952765985,
      "loss": 0.3958,
      "step": 156120
    },
    {
      "epoch": 208.17333333333335,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002920968886869442,
      "loss": 0.3901,
      "step": 156130
    },
    {
      "epoch": 208.18666666666667,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029209588203491757,
      "loss": 0.3879,
      "step": 156140
    },
    {
      "epoch": 208.2,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00029209487532051915,
      "loss": 0.3806,
      "step": 156150
    },
    {
      "epoch": 208.21333333333334,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029209386854374934,
      "loss": 0.3817,
      "step": 156160
    },
    {
      "epoch": 208.22666666666666,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00029209286170460864,
      "loss": 0.3935,
      "step": 156170
    },
    {
      "epoch": 208.24,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00029209185480309747,
      "loss": 0.3782,
      "step": 156180
    },
    {
      "epoch": 208.25333333333333,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002920908478392162,
      "loss": 0.3805,
      "step": 156190
    },
    {
      "epoch": 208.26666666666668,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0002920898408129654,
      "loss": 0.3831,
      "step": 156200
    },
    {
      "epoch": 208.28,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029208883372434545,
      "loss": 0.4121,
      "step": 156210
    },
    {
      "epoch": 208.29333333333332,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0002920878265733568,
      "loss": 0.3692,
      "step": 156220
    },
    {
      "epoch": 208.30666666666667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0002920868193599999,
      "loss": 0.393,
      "step": 156230
    },
    {
      "epoch": 208.32,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00029208581208427513,
      "loss": 0.3951,
      "step": 156240
    },
    {
      "epoch": 208.33333333333334,
      "grad_norm": 0.41015625,
      "learning_rate": 0.00029208480474618296,
      "loss": 0.3973,
      "step": 156250
    },
    {
      "epoch": 208.34666666666666,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00029208379734572384,
      "loss": 0.3884,
      "step": 156260
    },
    {
      "epoch": 208.36,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0002920827898828983,
      "loss": 0.3887,
      "step": 156270
    },
    {
      "epoch": 208.37333333333333,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029208178235770664,
      "loss": 0.3894,
      "step": 156280
    },
    {
      "epoch": 208.38666666666666,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00029208077477014936,
      "loss": 0.3808,
      "step": 156290
    },
    {
      "epoch": 208.4,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002920797671202269,
      "loss": 0.3893,
      "step": 156300
    },
    {
      "epoch": 208.41333333333333,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0002920787594079398,
      "loss": 0.3934,
      "step": 156310
    },
    {
      "epoch": 208.42666666666668,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002920777516332884,
      "loss": 0.395,
      "step": 156320
    },
    {
      "epoch": 208.44,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00029207674379627305,
      "loss": 0.4076,
      "step": 156330
    },
    {
      "epoch": 208.45333333333335,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00029207573589689435,
      "loss": 0.3955,
      "step": 156340
    },
    {
      "epoch": 208.46666666666667,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0002920747279351527,
      "loss": 0.4041,
      "step": 156350
    },
    {
      "epoch": 208.48,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002920737199110486,
      "loss": 0.3863,
      "step": 156360
    },
    {
      "epoch": 208.49333333333334,
      "grad_norm": 0.365234375,
      "learning_rate": 0.00029207271182458234,
      "loss": 0.3971,
      "step": 156370
    },
    {
      "epoch": 208.50666666666666,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00029207170367575447,
      "loss": 0.396,
      "step": 156380
    },
    {
      "epoch": 208.52,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002920706954645654,
      "loss": 0.3861,
      "step": 156390
    },
    {
      "epoch": 208.53333333333333,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0002920696871910156,
      "loss": 0.3899,
      "step": 156400
    },
    {
      "epoch": 208.54666666666665,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00029206867885510547,
      "loss": 0.3919,
      "step": 156410
    },
    {
      "epoch": 208.56,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029206767045683547,
      "loss": 0.3856,
      "step": 156420
    },
    {
      "epoch": 208.57333333333332,
      "grad_norm": 0.390625,
      "learning_rate": 0.00029206666199620607,
      "loss": 0.3897,
      "step": 156430
    },
    {
      "epoch": 208.58666666666667,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0002920656534732177,
      "loss": 0.378,
      "step": 156440
    },
    {
      "epoch": 208.6,
      "grad_norm": 0.40625,
      "learning_rate": 0.00029206464488787083,
      "loss": 0.3801,
      "step": 156450
    },
    {
      "epoch": 208.61333333333334,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0002920636362401658,
      "loss": 0.3702,
      "step": 156460
    },
    {
      "epoch": 208.62666666666667,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00029206262753010313,
      "loss": 0.3759,
      "step": 156470
    },
    {
      "epoch": 208.64,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00029206161875768325,
      "loss": 0.3872,
      "step": 156480
    },
    {
      "epoch": 208.65333333333334,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0002920606099229067,
      "loss": 0.3957,
      "step": 156490
    },
    {
      "epoch": 208.66666666666666,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00029205960102577375,
      "loss": 0.3841,
      "step": 156500
    },
    {
      "epoch": 208.68,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002920585920662849,
      "loss": 0.3756,
      "step": 156510
    },
    {
      "epoch": 208.69333333333333,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0002920575830444407,
      "loss": 0.3862,
      "step": 156520
    },
    {
      "epoch": 208.70666666666668,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00029205657396024143,
      "loss": 0.3778,
      "step": 156530
    },
    {
      "epoch": 208.72,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0002920555648136876,
      "loss": 0.3992,
      "step": 156540
    },
    {
      "epoch": 208.73333333333332,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0002920545556047797,
      "loss": 0.3937,
      "step": 156550
    },
    {
      "epoch": 208.74666666666667,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00029205354633351816,
      "loss": 0.3959,
      "step": 156560
    },
    {
      "epoch": 208.76,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002920525369999034,
      "loss": 0.4095,
      "step": 156570
    },
    {
      "epoch": 208.77333333333334,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00029205152760393584,
      "loss": 0.3954,
      "step": 156580
    },
    {
      "epoch": 208.78666666666666,
      "grad_norm": 0.388671875,
      "learning_rate": 0.00029205051814561596,
      "loss": 0.3971,
      "step": 156590
    },
    {
      "epoch": 208.8,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0002920495086249442,
      "loss": 0.3953,
      "step": 156600
    },
    {
      "epoch": 208.81333333333333,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00029204849904192095,
      "loss": 0.3686,
      "step": 156610
    },
    {
      "epoch": 208.82666666666665,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0002920474893965467,
      "loss": 0.3776,
      "step": 156620
    },
    {
      "epoch": 208.84,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0002920464796888219,
      "loss": 0.3895,
      "step": 156630
    },
    {
      "epoch": 208.85333333333332,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000292045469918747,
      "loss": 0.3847,
      "step": 156640
    },
    {
      "epoch": 208.86666666666667,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0002920444600863224,
      "loss": 0.3901,
      "step": 156650
    },
    {
      "epoch": 208.88,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00029204345019154856,
      "loss": 0.3706,
      "step": 156660
    },
    {
      "epoch": 208.89333333333335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00029204244023442596,
      "loss": 0.3824,
      "step": 156670
    },
    {
      "epoch": 208.90666666666667,
      "grad_norm": 0.40234375,
      "learning_rate": 0.000292041430214955,
      "loss": 0.389,
      "step": 156680
    },
    {
      "epoch": 208.92,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00029204042013313616,
      "loss": 0.3906,
      "step": 156690
    },
    {
      "epoch": 208.93333333333334,
      "grad_norm": 0.345703125,
      "learning_rate": 0.00029203940998896987,
      "loss": 0.3846,
      "step": 156700
    },
    {
      "epoch": 208.94666666666666,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0002920383997824565,
      "loss": 0.3848,
      "step": 156710
    },
    {
      "epoch": 208.96,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0002920373895135966,
      "loss": 0.383,
      "step": 156720
    },
    {
      "epoch": 208.97333333333333,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0002920363791823906,
      "loss": 0.4078,
      "step": 156730
    },
    {
      "epoch": 208.98666666666668,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0002920353687888389,
      "loss": 0.3797,
      "step": 156740
    },
    {
      "epoch": 209.0,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0002920343583329419,
      "loss": 0.3778,
      "step": 156750
    },
    {
      "epoch": 209.0,
      "eval_loss": 0.4275403320789337,
      "eval_model_preparation_time": 0.0017,
      "eval_runtime": 10.2851,
      "eval_samples_per_second": 1.556,
      "eval_steps_per_second": 0.097,
      "step": 156750
    }
  ],
  "logging_steps": 10,
  "max_steps": 1500000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2000,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}