{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.1223091976516634,
  "eval_steps": 500,
  "global_step": 4000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 3.057729941291585e-05,
      "grad_norm": 0.53515625,
      "learning_rate": 5e-06,
      "loss": 2.3951,
      "step": 1
    },
    {
      "epoch": 6.11545988258317e-05,
      "grad_norm": 0.474609375,
      "learning_rate": 1e-05,
      "loss": 2.4213,
      "step": 2
    },
    {
      "epoch": 9.173189823874755e-05,
      "grad_norm": 0.4453125,
      "learning_rate": 1.5e-05,
      "loss": 2.1782,
      "step": 3
    },
    {
      "epoch": 0.0001223091976516634,
      "grad_norm": 0.44140625,
      "learning_rate": 2e-05,
      "loss": 1.985,
      "step": 4
    },
    {
      "epoch": 0.00015288649706457925,
      "grad_norm": 0.46875,
      "learning_rate": 2.5e-05,
      "loss": 1.9632,
      "step": 5
    },
    {
      "epoch": 0.0001834637964774951,
      "grad_norm": 0.412109375,
      "learning_rate": 3e-05,
      "loss": 2.0864,
      "step": 6
    },
    {
      "epoch": 0.00021404109589041095,
      "grad_norm": 0.486328125,
      "learning_rate": 3.5000000000000004e-05,
      "loss": 2.3413,
      "step": 7
    },
    {
      "epoch": 0.0002446183953033268,
      "grad_norm": 0.4296875,
      "learning_rate": 4e-05,
      "loss": 2.2499,
      "step": 8
    },
    {
      "epoch": 0.00027519569471624265,
      "grad_norm": 0.53125,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 1.855,
      "step": 9
    },
    {
      "epoch": 0.0003057729941291585,
      "grad_norm": 0.423828125,
      "learning_rate": 5e-05,
      "loss": 1.9292,
      "step": 10
    },
    {
      "epoch": 0.00033635029354207435,
      "grad_norm": 0.427734375,
      "learning_rate": 5.5e-05,
      "loss": 2.532,
      "step": 11
    },
    {
      "epoch": 0.0003669275929549902,
      "grad_norm": 0.494140625,
      "learning_rate": 6e-05,
      "loss": 2.1988,
      "step": 12
    },
    {
      "epoch": 0.00039750489236790604,
      "grad_norm": 0.5546875,
      "learning_rate": 6.500000000000001e-05,
      "loss": 2.1019,
      "step": 13
    },
    {
      "epoch": 0.0004280821917808219,
      "grad_norm": 0.427734375,
      "learning_rate": 7.000000000000001e-05,
      "loss": 2.1677,
      "step": 14
    },
    {
      "epoch": 0.00045865949119373774,
      "grad_norm": 0.45703125,
      "learning_rate": 7.5e-05,
      "loss": 1.8486,
      "step": 15
    },
    {
      "epoch": 0.0004892367906066536,
      "grad_norm": 0.59765625,
      "learning_rate": 8e-05,
      "loss": 2.2717,
      "step": 16
    },
    {
      "epoch": 0.0005198140900195694,
      "grad_norm": 0.40234375,
      "learning_rate": 8.5e-05,
      "loss": 2.1493,
      "step": 17
    },
    {
      "epoch": 0.0005503913894324853,
      "grad_norm": 0.439453125,
      "learning_rate": 8.999999999999999e-05,
      "loss": 2.1527,
      "step": 18
    },
    {
      "epoch": 0.0005809686888454011,
      "grad_norm": 0.419921875,
      "learning_rate": 9.5e-05,
      "loss": 2.4116,
      "step": 19
    },
    {
      "epoch": 0.000611545988258317,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0001,
      "loss": 1.8825,
      "step": 20
    },
    {
      "epoch": 0.0006421232876712328,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000105,
      "loss": 2.3653,
      "step": 21
    },
    {
      "epoch": 0.0006727005870841487,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00011,
      "loss": 1.9738,
      "step": 22
    },
    {
      "epoch": 0.0007032778864970645,
      "grad_norm": 0.53125,
      "learning_rate": 0.000115,
      "loss": 2.0156,
      "step": 23
    },
    {
      "epoch": 0.0007338551859099804,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00012,
      "loss": 1.6368,
      "step": 24
    },
    {
      "epoch": 0.0007644324853228962,
      "grad_norm": 0.3984375,
      "learning_rate": 0.000125,
      "loss": 2.1304,
      "step": 25
    },
    {
      "epoch": 0.0007950097847358121,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00013000000000000002,
      "loss": 2.3547,
      "step": 26
    },
    {
      "epoch": 0.0008255870841487279,
      "grad_norm": 0.478515625,
      "learning_rate": 0.000135,
      "loss": 2.0385,
      "step": 27
    },
    {
      "epoch": 0.0008561643835616438,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00014000000000000001,
      "loss": 2.5523,
      "step": 28
    },
    {
      "epoch": 0.0008867416829745596,
      "grad_norm": 0.494140625,
      "learning_rate": 0.000145,
      "loss": 1.7653,
      "step": 29
    },
    {
      "epoch": 0.0009173189823874755,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00015,
      "loss": 2.3455,
      "step": 30
    },
    {
      "epoch": 0.0009478962818003913,
      "grad_norm": 0.4453125,
      "learning_rate": 0.000155,
      "loss": 1.901,
      "step": 31
    },
    {
      "epoch": 0.0009784735812133072,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00016,
      "loss": 2.7132,
      "step": 32
    },
    {
      "epoch": 0.001009050880626223,
      "grad_norm": 0.373046875,
      "learning_rate": 0.000165,
      "loss": 2.2938,
      "step": 33
    },
    {
      "epoch": 0.0010396281800391389,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00017,
      "loss": 2.3654,
      "step": 34
    },
    {
      "epoch": 0.0010702054794520547,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000175,
      "loss": 2.5596,
      "step": 35
    },
    {
      "epoch": 0.0011007827788649706,
      "grad_norm": 0.390625,
      "learning_rate": 0.00017999999999999998,
      "loss": 2.4283,
      "step": 36
    },
    {
      "epoch": 0.0011313600782778864,
      "grad_norm": 0.404296875,
      "learning_rate": 0.000185,
      "loss": 2.1731,
      "step": 37
    },
    {
      "epoch": 0.0011619373776908023,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00019,
      "loss": 2.1567,
      "step": 38
    },
    {
      "epoch": 0.0011925146771037181,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00019500000000000002,
      "loss": 2.2423,
      "step": 39
    },
    {
      "epoch": 0.001223091976516634,
      "grad_norm": 0.40625,
      "learning_rate": 0.0002,
      "loss": 2.0082,
      "step": 40
    },
    {
      "epoch": 0.0012536692759295498,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000205,
      "loss": 1.8744,
      "step": 41
    },
    {
      "epoch": 0.0012842465753424657,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00021,
      "loss": 2.5591,
      "step": 42
    },
    {
      "epoch": 0.0013148238747553815,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000215,
      "loss": 1.9969,
      "step": 43
    },
    {
      "epoch": 0.0013454011741682974,
      "grad_norm": 0.357421875,
      "learning_rate": 0.00022,
      "loss": 2.3898,
      "step": 44
    },
    {
      "epoch": 0.0013759784735812132,
      "grad_norm": 0.380859375,
      "learning_rate": 0.00022500000000000002,
      "loss": 1.8027,
      "step": 45
    },
    {
      "epoch": 0.001406555772994129,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00023,
      "loss": 2.3455,
      "step": 46
    },
    {
      "epoch": 0.001437133072407045,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000235,
      "loss": 2.0886,
      "step": 47
    },
    {
      "epoch": 0.0014677103718199608,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00024,
      "loss": 2.2461,
      "step": 48
    },
    {
      "epoch": 0.0014982876712328766,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000245,
      "loss": 2.0905,
      "step": 49
    },
    {
      "epoch": 0.0015288649706457925,
      "grad_norm": 0.34765625,
      "learning_rate": 0.00025,
      "loss": 1.936,
      "step": 50
    },
    {
      "epoch": 0.0015594422700587083,
      "grad_norm": 0.369140625,
      "learning_rate": 0.000255,
      "loss": 2.2053,
      "step": 51
    },
    {
      "epoch": 0.0015900195694716242,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00026000000000000003,
      "loss": 2.1812,
      "step": 52
    },
    {
      "epoch": 0.00162059686888454,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00026500000000000004,
      "loss": 2.0602,
      "step": 53
    },
    {
      "epoch": 0.0016511741682974559,
      "grad_norm": 0.390625,
      "learning_rate": 0.00027,
      "loss": 2.5559,
      "step": 54
    },
    {
      "epoch": 0.0016817514677103717,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000275,
      "loss": 1.8256,
      "step": 55
    },
    {
      "epoch": 0.0017123287671232876,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00028000000000000003,
      "loss": 2.4824,
      "step": 56
    },
    {
      "epoch": 0.0017429060665362034,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000285,
      "loss": 2.422,
      "step": 57
    },
    {
      "epoch": 0.0017734833659491193,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00029,
      "loss": 2.216,
      "step": 58
    },
    {
      "epoch": 0.0018040606653620351,
      "grad_norm": 0.353515625,
      "learning_rate": 0.000295,
      "loss": 2.3635,
      "step": 59
    },
    {
      "epoch": 0.001834637964774951,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0003,
      "loss": 1.9856,
      "step": 60
    },
    {
      "epoch": 0.0018652152641878668,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000305,
      "loss": 2.0075,
      "step": 61
    },
    {
      "epoch": 0.0018957925636007827,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00031,
      "loss": 2.0085,
      "step": 62
    },
    {
      "epoch": 0.0019263698630136985,
      "grad_norm": 0.328125,
      "learning_rate": 0.000315,
      "loss": 1.8996,
      "step": 63
    },
    {
      "epoch": 0.0019569471624266144,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00032,
      "loss": 2.064,
      "step": 64
    },
    {
      "epoch": 0.0019875244618395302,
      "grad_norm": 0.333984375,
      "learning_rate": 0.00032500000000000004,
      "loss": 2.2607,
      "step": 65
    },
    {
      "epoch": 0.002018101761252446,
      "grad_norm": 0.3125,
      "learning_rate": 0.00033,
      "loss": 1.8052,
      "step": 66
    },
    {
      "epoch": 0.002048679060665362,
      "grad_norm": 0.357421875,
      "learning_rate": 0.000335,
      "loss": 2.5264,
      "step": 67
    },
    {
      "epoch": 0.0020792563600782778,
      "grad_norm": 0.3125,
      "learning_rate": 0.00034,
      "loss": 1.9934,
      "step": 68
    },
    {
      "epoch": 0.0021098336594911936,
      "grad_norm": 0.3125,
      "learning_rate": 0.000345,
      "loss": 1.6662,
      "step": 69
    },
    {
      "epoch": 0.0021404109589041095,
      "grad_norm": 0.3125,
      "learning_rate": 0.00035,
      "loss": 2.1361,
      "step": 70
    },
    {
      "epoch": 0.0021709882583170253,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000355,
      "loss": 1.7757,
      "step": 71
    },
    {
      "epoch": 0.002201565557729941,
      "grad_norm": 0.328125,
      "learning_rate": 0.00035999999999999997,
      "loss": 2.37,
      "step": 72
    },
    {
      "epoch": 0.002232142857142857,
      "grad_norm": 0.3125,
      "learning_rate": 0.000365,
      "loss": 2.1258,
      "step": 73
    },
    {
      "epoch": 0.002262720156555773,
      "grad_norm": 0.32421875,
      "learning_rate": 0.00037,
      "loss": 2.3308,
      "step": 74
    },
    {
      "epoch": 0.0022932974559686887,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000375,
      "loss": 2.0796,
      "step": 75
    },
    {
      "epoch": 0.0023238747553816046,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00038,
      "loss": 2.3521,
      "step": 76
    },
    {
      "epoch": 0.0023544520547945204,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00038500000000000003,
      "loss": 2.6948,
      "step": 77
    },
    {
      "epoch": 0.0023850293542074363,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00039000000000000005,
      "loss": 2.0404,
      "step": 78
    },
    {
      "epoch": 0.002415606653620352,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000395,
      "loss": 2.1785,
      "step": 79
    },
    {
      "epoch": 0.002446183953033268,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0004,
      "loss": 2.3329,
      "step": 80
    },
    {
      "epoch": 0.002476761252446184,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00040500000000000003,
      "loss": 2.1053,
      "step": 81
    },
    {
      "epoch": 0.0025073385518590997,
      "grad_norm": 0.318359375,
      "learning_rate": 0.00041,
      "loss": 2.2208,
      "step": 82
    },
    {
      "epoch": 0.0025379158512720155,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000415,
      "loss": 2.2338,
      "step": 83
    },
    {
      "epoch": 0.0025684931506849314,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00042,
      "loss": 2.1519,
      "step": 84
    },
    {
      "epoch": 0.002599070450097847,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000425,
      "loss": 2.3913,
      "step": 85
    },
    {
      "epoch": 0.002629647749510763,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00043,
      "loss": 2.2356,
      "step": 86
    },
    {
      "epoch": 0.002660225048923679,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000435,
      "loss": 2.2779,
      "step": 87
    },
    {
      "epoch": 0.0026908023483365948,
      "grad_norm": 0.341796875,
      "learning_rate": 0.00044,
      "loss": 2.6521,
      "step": 88
    },
    {
      "epoch": 0.0027213796477495106,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00044500000000000003,
      "loss": 2.3193,
      "step": 89
    },
    {
      "epoch": 0.0027519569471624265,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00045000000000000004,
      "loss": 1.8995,
      "step": 90
    },
    {
      "epoch": 0.0027825342465753423,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000455,
      "loss": 2.0161,
      "step": 91
    },
    {
      "epoch": 0.002813111545988258,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00046,
      "loss": 2.5361,
      "step": 92
    },
    {
      "epoch": 0.002843688845401174,
      "grad_norm": 0.365234375,
      "learning_rate": 0.000465,
      "loss": 2.4722,
      "step": 93
    },
    {
      "epoch": 0.00287426614481409,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00047,
      "loss": 2.1221,
      "step": 94
    },
    {
      "epoch": 0.0029048434442270057,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000475,
      "loss": 2.7269,
      "step": 95
    },
    {
      "epoch": 0.0029354207436399216,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00048,
      "loss": 2.048,
      "step": 96
    },
    {
      "epoch": 0.0029659980430528374,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00048499999999999997,
      "loss": 2.3612,
      "step": 97
    },
    {
      "epoch": 0.0029965753424657533,
      "grad_norm": 0.330078125,
      "learning_rate": 0.00049,
      "loss": 2.3823,
      "step": 98
    },
    {
      "epoch": 0.003027152641878669,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000495,
      "loss": 2.1227,
      "step": 99
    },
    {
      "epoch": 0.003057729941291585,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0005,
      "loss": 2.2224,
      "step": 100
    },
    {
      "epoch": 0.003088307240704501,
      "grad_norm": 0.296875,
      "learning_rate": 0.000505,
      "loss": 2.1495,
      "step": 101
    },
    {
      "epoch": 0.0031188845401174167,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00051,
      "loss": 2.3277,
      "step": 102
    },
    {
      "epoch": 0.0031494618395303325,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000515,
      "loss": 2.5922,
      "step": 103
    },
    {
      "epoch": 0.0031800391389432484,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0005200000000000001,
      "loss": 2.4107,
      "step": 104
    },
    {
      "epoch": 0.003210616438356164,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0005250000000000001,
      "loss": 2.263,
      "step": 105
    },
    {
      "epoch": 0.00324119373776908,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0005300000000000001,
      "loss": 2.2725,
      "step": 106
    },
    {
      "epoch": 0.003271771037181996,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000535,
      "loss": 2.5816,
      "step": 107
    },
    {
      "epoch": 0.0033023483365949118,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00054,
      "loss": 1.9063,
      "step": 108
    },
    {
      "epoch": 0.0033329256360078276,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000545,
      "loss": 2.1183,
      "step": 109
    },
    {
      "epoch": 0.0033635029354207435,
      "grad_norm": 0.3125,
      "learning_rate": 0.00055,
      "loss": 2.1972,
      "step": 110
    },
    {
      "epoch": 0.0033940802348336593,
      "grad_norm": 0.3125,
      "learning_rate": 0.000555,
      "loss": 2.4576,
      "step": 111
    },
    {
      "epoch": 0.003424657534246575,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0005600000000000001,
      "loss": 2.2102,
      "step": 112
    },
    {
      "epoch": 0.003455234833659491,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000565,
      "loss": 2.1349,
      "step": 113
    },
    {
      "epoch": 0.003485812133072407,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00057,
      "loss": 2.3965,
      "step": 114
    },
    {
      "epoch": 0.0035163894324853227,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000575,
      "loss": 2.1871,
      "step": 115
    },
    {
      "epoch": 0.0035469667318982386,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00058,
      "loss": 2.0631,
      "step": 116
    },
    {
      "epoch": 0.0035775440313111544,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000585,
      "loss": 2.0219,
      "step": 117
    },
    {
      "epoch": 0.0036081213307240702,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00059,
      "loss": 2.2029,
      "step": 118
    },
    {
      "epoch": 0.003638698630136986,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0005949999999999999,
      "loss": 2.3813,
      "step": 119
    },
    {
      "epoch": 0.003669275929549902,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0006,
      "loss": 1.8995,
      "step": 120
    },
    {
      "epoch": 0.003699853228962818,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000605,
      "loss": 2.006,
      "step": 121
    },
    {
      "epoch": 0.0037304305283757336,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00061,
      "loss": 1.8766,
      "step": 122
    },
    {
      "epoch": 0.0037610078277886495,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000615,
      "loss": 2.011,
      "step": 123
    },
    {
      "epoch": 0.0037915851272015653,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00062,
      "loss": 1.7814,
      "step": 124
    },
    {
      "epoch": 0.003822162426614481,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000625,
      "loss": 2.0244,
      "step": 125
    },
    {
      "epoch": 0.003852739726027397,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00063,
      "loss": 2.079,
      "step": 126
    },
    {
      "epoch": 0.003883317025440313,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000635,
      "loss": 1.7991,
      "step": 127
    },
    {
      "epoch": 0.003913894324853229,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00064,
      "loss": 1.819,
      "step": 128
    },
    {
      "epoch": 0.003944471624266145,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0006450000000000001,
      "loss": 2.4266,
      "step": 129
    },
    {
      "epoch": 0.0039750489236790604,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0006500000000000001,
      "loss": 1.8351,
      "step": 130
    },
    {
      "epoch": 0.004005626223091976,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0006550000000000001,
      "loss": 2.2326,
      "step": 131
    },
    {
      "epoch": 0.004036203522504892,
      "grad_norm": 0.296875,
      "learning_rate": 0.00066,
      "loss": 1.866,
      "step": 132
    },
    {
      "epoch": 0.004066780821917808,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000665,
      "loss": 1.8661,
      "step": 133
    },
    {
      "epoch": 0.004097358121330724,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00067,
      "loss": 2.2466,
      "step": 134
    },
    {
      "epoch": 0.00412793542074364,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000675,
      "loss": 2.3069,
      "step": 135
    },
    {
      "epoch": 0.0041585127201565555,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00068,
      "loss": 2.2502,
      "step": 136
    },
    {
      "epoch": 0.004189090019569471,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0006850000000000001,
      "loss": 2.1773,
      "step": 137
    },
    {
      "epoch": 0.004219667318982387,
      "grad_norm": 0.3203125,
      "learning_rate": 0.00069,
      "loss": 2.1598,
      "step": 138
    },
    {
      "epoch": 0.004250244618395303,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000695,
      "loss": 2.2235,
      "step": 139
    },
    {
      "epoch": 0.004280821917808219,
      "grad_norm": 0.3125,
      "learning_rate": 0.0007,
      "loss": 1.8685,
      "step": 140
    },
    {
      "epoch": 0.004311399217221135,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000705,
      "loss": 1.9283,
      "step": 141
    },
    {
      "epoch": 0.004341976516634051,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00071,
      "loss": 2.1856,
      "step": 142
    },
    {
      "epoch": 0.0043725538160469665,
      "grad_norm": 0.3125,
      "learning_rate": 0.000715,
      "loss": 2.0311,
      "step": 143
    },
    {
      "epoch": 0.004403131115459882,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0007199999999999999,
      "loss": 1.9948,
      "step": 144
    },
    {
      "epoch": 0.004433708414872798,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000725,
      "loss": 1.9439,
      "step": 145
    },
    {
      "epoch": 0.004464285714285714,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00073,
      "loss": 2.4116,
      "step": 146
    },
    {
      "epoch": 0.00449486301369863,
      "grad_norm": 0.3125,
      "learning_rate": 0.000735,
      "loss": 2.2165,
      "step": 147
    },
    {
      "epoch": 0.004525440313111546,
      "grad_norm": 0.314453125,
      "learning_rate": 0.00074,
      "loss": 2.3733,
      "step": 148
    },
    {
      "epoch": 0.004556017612524462,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000745,
      "loss": 1.7034,
      "step": 149
    },
    {
      "epoch": 0.0045865949119373774,
      "grad_norm": 0.328125,
      "learning_rate": 0.00075,
      "loss": 2.6385,
      "step": 150
    },
    {
      "epoch": 0.004617172211350293,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000755,
      "loss": 1.8698,
      "step": 151
    },
    {
      "epoch": 0.004647749510763209,
      "grad_norm": 0.283203125,
      "learning_rate": 0.00076,
      "loss": 1.7449,
      "step": 152
    },
    {
      "epoch": 0.004678326810176125,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0007650000000000001,
      "loss": 2.1382,
      "step": 153
    },
    {
      "epoch": 0.004708904109589041,
      "grad_norm": 0.296875,
      "learning_rate": 0.0007700000000000001,
      "loss": 1.9038,
      "step": 154
    },
    {
      "epoch": 0.004739481409001957,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0007750000000000001,
      "loss": 2.034,
      "step": 155
    },
    {
      "epoch": 0.0047700587084148725,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0007800000000000001,
      "loss": 2.1714,
      "step": 156
    },
    {
      "epoch": 0.004800636007827788,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000785,
      "loss": 2.1494,
      "step": 157
    },
    {
      "epoch": 0.004831213307240704,
      "grad_norm": 0.302734375,
      "learning_rate": 0.00079,
      "loss": 1.9725,
      "step": 158
    },
    {
      "epoch": 0.00486179060665362,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000795,
      "loss": 2.6083,
      "step": 159
    },
    {
      "epoch": 0.004892367906066536,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008,
      "loss": 1.8472,
      "step": 160
    },
    {
      "epoch": 0.004922945205479452,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000805,
      "loss": 2.2509,
      "step": 161
    },
    {
      "epoch": 0.004953522504892368,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0008100000000000001,
      "loss": 2.3446,
      "step": 162
    },
    {
      "epoch": 0.0049840998043052835,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000815,
      "loss": 1.6886,
      "step": 163
    },
    {
      "epoch": 0.005014677103718199,
      "grad_norm": 0.28125,
      "learning_rate": 0.00082,
      "loss": 1.5539,
      "step": 164
    },
    {
      "epoch": 0.005045254403131115,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000825,
      "loss": 2.2017,
      "step": 165
    },
    {
      "epoch": 0.005075831702544031,
      "grad_norm": 0.3359375,
      "learning_rate": 0.00083,
      "loss": 1.8211,
      "step": 166
    },
    {
      "epoch": 0.005106409001956947,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000835,
      "loss": 2.0285,
      "step": 167
    },
    {
      "epoch": 0.005136986301369863,
      "grad_norm": 0.30859375,
      "learning_rate": 0.00084,
      "loss": 1.8834,
      "step": 168
    },
    {
      "epoch": 0.005167563600782779,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008449999999999999,
      "loss": 1.9521,
      "step": 169
    },
    {
      "epoch": 0.005198140900195694,
      "grad_norm": 0.27734375,
      "learning_rate": 0.00085,
      "loss": 1.7066,
      "step": 170
    },
    {
      "epoch": 0.00522871819960861,
      "grad_norm": 0.359375,
      "learning_rate": 0.000855,
      "loss": 2.4203,
      "step": 171
    },
    {
      "epoch": 0.005259295499021526,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00086,
      "loss": 2.4077,
      "step": 172
    },
    {
      "epoch": 0.005289872798434442,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000865,
      "loss": 1.9786,
      "step": 173
    },
    {
      "epoch": 0.005320450097847358,
      "grad_norm": 0.310546875,
      "learning_rate": 0.00087,
      "loss": 2.2756,
      "step": 174
    },
    {
      "epoch": 0.005351027397260274,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000875,
      "loss": 1.8947,
      "step": 175
    },
    {
      "epoch": 0.0053816046966731895,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00088,
      "loss": 1.9007,
      "step": 176
    },
    {
      "epoch": 0.005412181996086105,
      "grad_norm": 0.34765625,
      "learning_rate": 0.000885,
      "loss": 2.5307,
      "step": 177
    },
    {
      "epoch": 0.005442759295499021,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008900000000000001,
      "loss": 1.8528,
      "step": 178
    },
    {
      "epoch": 0.005473336594911937,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008950000000000001,
      "loss": 2.1285,
      "step": 179
    },
    {
      "epoch": 0.005503913894324853,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009000000000000001,
      "loss": 2.0295,
      "step": 180
    },
    {
      "epoch": 0.005534491193737769,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009050000000000001,
      "loss": 2.3666,
      "step": 181
    },
    {
      "epoch": 0.005565068493150685,
      "grad_norm": 0.337890625,
      "learning_rate": 0.00091,
      "loss": 2.4486,
      "step": 182
    },
    {
      "epoch": 0.0055956457925636005,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000915,
      "loss": 2.3199,
      "step": 183
    },
    {
      "epoch": 0.005626223091976516,
      "grad_norm": 0.33984375,
      "learning_rate": 0.00092,
      "loss": 2.1553,
      "step": 184
    },
    {
      "epoch": 0.005656800391389432,
      "grad_norm": 0.296875,
      "learning_rate": 0.000925,
      "loss": 2.0072,
      "step": 185
    },
    {
      "epoch": 0.005687377690802348,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00093,
      "loss": 1.8461,
      "step": 186
    },
    {
      "epoch": 0.005717954990215264,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009350000000000001,
      "loss": 2.1507,
      "step": 187
    },
    {
      "epoch": 0.00574853228962818,
      "grad_norm": 0.294921875,
      "learning_rate": 0.00094,
      "loss": 2.1093,
      "step": 188
    },
    {
      "epoch": 0.005779109589041096,
      "grad_norm": 0.341796875,
      "learning_rate": 0.000945,
      "loss": 2.3497,
      "step": 189
    },
    {
      "epoch": 0.005809686888454011,
      "grad_norm": 0.34375,
      "learning_rate": 0.00095,
      "loss": 2.077,
      "step": 190
    },
    {
      "epoch": 0.005840264187866927,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000955,
      "loss": 1.7278,
      "step": 191
    },
    {
      "epoch": 0.005870841487279843,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00096,
      "loss": 1.874,
      "step": 192
    },
    {
      "epoch": 0.005901418786692759,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000965,
      "loss": 1.9747,
      "step": 193
    },
    {
      "epoch": 0.005931996086105675,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009699999999999999,
      "loss": 2.4584,
      "step": 194
    },
    {
      "epoch": 0.005962573385518591,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000975,
      "loss": 2.3829,
      "step": 195
    },
    {
      "epoch": 0.0059931506849315065,
      "grad_norm": 0.287109375,
      "learning_rate": 0.00098,
      "loss": 1.8712,
      "step": 196
    },
    {
      "epoch": 0.006023727984344422,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000985,
      "loss": 2.1504,
      "step": 197
    },
    {
      "epoch": 0.006054305283757338,
      "grad_norm": 0.322265625,
      "learning_rate": 0.00099,
      "loss": 2.2416,
      "step": 198
    },
    {
      "epoch": 0.006084882583170254,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000995,
      "loss": 2.396,
      "step": 199
    },
    {
      "epoch": 0.00611545988258317,
      "grad_norm": 0.314453125,
      "learning_rate": 0.001,
      "loss": 2.2651,
      "step": 200
    },
    {
      "epoch": 0.006146037181996086,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009999692345557469,
      "loss": 2.1309,
      "step": 201
    },
    {
      "epoch": 0.006176614481409002,
      "grad_norm": 0.28125,
      "learning_rate": 0.000999938469111494,
      "loss": 1.8256,
      "step": 202
    },
    {
      "epoch": 0.0062071917808219175,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000999907703667241,
      "loss": 2.1338,
      "step": 203
    },
    {
      "epoch": 0.006237769080234833,
      "grad_norm": 0.38671875,
      "learning_rate": 0.000999876938222988,
      "loss": 3.0285,
      "step": 204
    },
    {
      "epoch": 0.006268346379647749,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009998461727787349,
      "loss": 2.176,
      "step": 205
    },
    {
      "epoch": 0.006298923679060665,
      "grad_norm": 0.3125,
      "learning_rate": 0.000999815407334482,
      "loss": 2.2216,
      "step": 206
    },
    {
      "epoch": 0.006329500978473581,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000999784641890229,
      "loss": 2.2013,
      "step": 207
    },
    {
      "epoch": 0.006360078277886497,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009997538764459758,
      "loss": 2.4782,
      "step": 208
    },
    {
      "epoch": 0.0063906555772994126,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000999723111001723,
      "loss": 1.895,
      "step": 209
    },
    {
      "epoch": 0.006421232876712328,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00099969234555747,
      "loss": 2.2035,
      "step": 210
    },
    {
      "epoch": 0.006451810176125244,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009996615801132168,
      "loss": 2.3579,
      "step": 211
    },
    {
      "epoch": 0.00648238747553816,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009996308146689638,
      "loss": 2.281,
      "step": 212
    },
    {
      "epoch": 0.006512964774951076,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000999600049224711,
      "loss": 2.2068,
      "step": 213
    },
    {
      "epoch": 0.006543542074363992,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000999569283780458,
      "loss": 2.0264,
      "step": 214
    },
    {
      "epoch": 0.006574119373776908,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009995385183362048,
      "loss": 2.0783,
      "step": 215
    },
    {
      "epoch": 0.0066046966731898235,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009995077528919516,
      "loss": 2.2733,
      "step": 216
    },
    {
      "epoch": 0.006635273972602739,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009994769874476987,
      "loss": 2.5679,
      "step": 217
    },
    {
      "epoch": 0.006665851272015655,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009994462220034458,
      "loss": 2.0191,
      "step": 218
    },
    {
      "epoch": 0.006696428571428571,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009994154565591928,
      "loss": 2.0655,
      "step": 219
    },
    {
      "epoch": 0.006727005870841487,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009993846911149397,
      "loss": 2.1788,
      "step": 220
    },
    {
      "epoch": 0.006757583170254403,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009993539256706867,
      "loss": 2.1405,
      "step": 221
    },
    {
      "epoch": 0.006788160469667319,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009993231602264336,
      "loss": 2.0905,
      "step": 222
    },
    {
      "epoch": 0.0068187377690802345,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009992923947821806,
      "loss": 2.3143,
      "step": 223
    },
    {
      "epoch": 0.00684931506849315,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009992616293379277,
      "loss": 1.9765,
      "step": 224
    },
    {
      "epoch": 0.006879892367906066,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009992308638936747,
      "loss": 2.0659,
      "step": 225
    },
    {
      "epoch": 0.006910469667318982,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009992000984494216,
      "loss": 2.462,
      "step": 226
    },
    {
      "epoch": 0.006941046966731898,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009991693330051686,
      "loss": 2.23,
      "step": 227
    },
    {
      "epoch": 0.006971624266144814,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009991385675609157,
      "loss": 2.175,
      "step": 228
    },
    {
      "epoch": 0.0070022015655577296,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009991078021166625,
      "loss": 2.143,
      "step": 229
    },
    {
      "epoch": 0.007032778864970645,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009990770366724096,
      "loss": 2.3461,
      "step": 230
    },
    {
      "epoch": 0.007063356164383561,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009990462712281564,
      "loss": 2.5653,
      "step": 231
    },
    {
      "epoch": 0.007093933463796477,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009990155057839035,
      "loss": 1.8353,
      "step": 232
    },
    {
      "epoch": 0.007124510763209393,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009989847403396505,
      "loss": 2.0492,
      "step": 233
    },
    {
      "epoch": 0.007155088062622309,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009989539748953976,
      "loss": 2.2612,
      "step": 234
    },
    {
      "epoch": 0.007185665362035225,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009989232094511444,
      "loss": 2.0968,
      "step": 235
    },
    {
      "epoch": 0.0072162426614481405,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009988924440068915,
      "loss": 2.1747,
      "step": 236
    },
    {
      "epoch": 0.007246819960861056,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0009988616785626383,
      "loss": 2.6732,
      "step": 237
    },
    {
      "epoch": 0.007277397260273972,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009988309131183854,
      "loss": 1.9682,
      "step": 238
    },
    {
      "epoch": 0.007307974559686888,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009988001476741325,
      "loss": 2.0752,
      "step": 239
    },
    {
      "epoch": 0.007338551859099804,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009987693822298795,
      "loss": 2.069,
      "step": 240
    },
    {
      "epoch": 0.00736912915851272,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0009987386167856264,
      "loss": 2.4306,
      "step": 241
    },
    {
      "epoch": 0.007399706457925636,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009987078513413734,
      "loss": 1.795,
      "step": 242
    },
    {
      "epoch": 0.0074302837573385514,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009986770858971203,
      "loss": 2.1567,
      "step": 243
    },
    {
      "epoch": 0.007460861056751467,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009986463204528673,
      "loss": 2.0829,
      "step": 244
    },
    {
      "epoch": 0.007491438356164383,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009986155550086144,
      "loss": 2.2841,
      "step": 245
    },
    {
      "epoch": 0.007522015655577299,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009985847895643614,
      "loss": 2.0764,
      "step": 246
    },
    {
      "epoch": 0.007552592954990215,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009985540241201083,
      "loss": 1.5766,
      "step": 247
    },
    {
      "epoch": 0.007583170254403131,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009985232586758553,
      "loss": 2.1606,
      "step": 248
    },
    {
      "epoch": 0.0076137475538160465,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009984924932316024,
      "loss": 2.1096,
      "step": 249
    },
    {
      "epoch": 0.007644324853228962,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009984617277873492,
      "loss": 2.1682,
      "step": 250
    },
    {
      "epoch": 0.007674902152641878,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009984309623430963,
      "loss": 2.1836,
      "step": 251
    },
    {
      "epoch": 0.007705479452054794,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009984001968988431,
      "loss": 2.1164,
      "step": 252
    },
    {
      "epoch": 0.00773605675146771,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009983694314545902,
      "loss": 2.2013,
      "step": 253
    },
    {
      "epoch": 0.007766634050880626,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009983386660103372,
      "loss": 2.056,
      "step": 254
    },
    {
      "epoch": 0.007797211350293542,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009983079005660843,
      "loss": 2.1784,
      "step": 255
    },
    {
      "epoch": 0.007827788649706457,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009982771351218311,
      "loss": 2.3248,
      "step": 256
    },
    {
      "epoch": 0.007858365949119374,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009982463696775782,
      "loss": 2.276,
      "step": 257
    },
    {
      "epoch": 0.00788894324853229,
      "grad_norm": 0.3125,
      "learning_rate": 0.000998215604233325,
      "loss": 2.3018,
      "step": 258
    },
    {
      "epoch": 0.007919520547945206,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000998184838789072,
      "loss": 1.8962,
      "step": 259
    },
    {
      "epoch": 0.007950097847358121,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0009981540733448192,
      "loss": 2.1408,
      "step": 260
    },
    {
      "epoch": 0.007980675146771038,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009981233079005662,
      "loss": 2.5669,
      "step": 261
    },
    {
      "epoch": 0.008011252446183953,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000998092542456313,
      "loss": 2.2456,
      "step": 262
    },
    {
      "epoch": 0.00804182974559687,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009980617770120601,
      "loss": 1.9396,
      "step": 263
    },
    {
      "epoch": 0.008072407045009784,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000998031011567807,
      "loss": 2.1749,
      "step": 264
    },
    {
      "epoch": 0.008102984344422701,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000998000246123554,
      "loss": 2.1887,
      "step": 265
    },
    {
      "epoch": 0.008133561643835616,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000997969480679301,
      "loss": 2.4765,
      "step": 266
    },
    {
      "epoch": 0.008164138943248533,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000997938715235048,
      "loss": 1.9077,
      "step": 267
    },
    {
      "epoch": 0.008194716242661448,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000997907949790795,
      "loss": 2.2821,
      "step": 268
    },
    {
      "epoch": 0.008225293542074364,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000997877184346542,
      "loss": 2.276,
      "step": 269
    },
    {
      "epoch": 0.00825587084148728,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000997846418902289,
      "loss": 1.5772,
      "step": 270
    },
    {
      "epoch": 0.008286448140900196,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000997815653458036,
      "loss": 2.1957,
      "step": 271
    },
    {
      "epoch": 0.008317025440313111,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000997784888013783,
      "loss": 2.5946,
      "step": 272
    },
    {
      "epoch": 0.008347602739726028,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009977541225695298,
      "loss": 1.947,
      "step": 273
    },
    {
      "epoch": 0.008378180039138943,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009977233571252769,
      "loss": 2.3044,
      "step": 274
    },
    {
      "epoch": 0.00840875733855186,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000997692591681024,
      "loss": 2.4441,
      "step": 275
    },
    {
      "epoch": 0.008439334637964774,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000997661826236771,
      "loss": 2.4024,
      "step": 276
    },
    {
      "epoch": 0.008469911937377691,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009976310607925178,
      "loss": 2.4364,
      "step": 277
    },
    {
      "epoch": 0.008500489236790606,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000997600295348265,
      "loss": 2.3149,
      "step": 278
    },
    {
      "epoch": 0.008531066536203523,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009975695299040117,
      "loss": 2.3532,
      "step": 279
    },
    {
      "epoch": 0.008561643835616438,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009975387644597588,
      "loss": 2.3574,
      "step": 280
    },
    {
      "epoch": 0.008592221135029355,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009975079990155059,
      "loss": 1.8285,
      "step": 281
    },
    {
      "epoch": 0.00862279843444227,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009974772335712527,
      "loss": 2.1973,
      "step": 282
    },
    {
      "epoch": 0.008653375733855186,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009974464681269998,
      "loss": 1.9756,
      "step": 283
    },
    {
      "epoch": 0.008683953033268101,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009974157026827468,
      "loss": 2.2747,
      "step": 284
    },
    {
      "epoch": 0.008714530332681018,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009973849372384939,
      "loss": 2.3463,
      "step": 285
    },
    {
      "epoch": 0.008745107632093933,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009973541717942407,
      "loss": 2.1024,
      "step": 286
    },
    {
      "epoch": 0.00877568493150685,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009973234063499878,
      "loss": 1.7439,
      "step": 287
    },
    {
      "epoch": 0.008806262230919765,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009972926409057346,
      "loss": 2.1121,
      "step": 288
    },
    {
      "epoch": 0.008836839530332681,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009972618754614817,
      "loss": 2.1495,
      "step": 289
    },
    {
      "epoch": 0.008867416829745596,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009972311100172287,
      "loss": 2.3144,
      "step": 290
    },
    {
      "epoch": 0.008897994129158513,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009972003445729758,
      "loss": 2.2917,
      "step": 291
    },
    {
      "epoch": 0.008928571428571428,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0009971695791287226,
      "loss": 2.4406,
      "step": 292
    },
    {
      "epoch": 0.008959148727984345,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009971388136844695,
      "loss": 2.0552,
      "step": 293
    },
    {
      "epoch": 0.00898972602739726,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009971080482402165,
      "loss": 2.3558,
      "step": 294
    },
    {
      "epoch": 0.009020303326810176,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009970772827959636,
      "loss": 2.0581,
      "step": 295
    },
    {
      "epoch": 0.009050880626223091,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009970465173517106,
      "loss": 2.188,
      "step": 296
    },
    {
      "epoch": 0.009081457925636008,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009970157519074575,
      "loss": 2.1021,
      "step": 297
    },
    {
      "epoch": 0.009112035225048923,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009969849864632045,
      "loss": 1.729,
      "step": 298
    },
    {
      "epoch": 0.00914261252446184,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009969542210189516,
      "loss": 2.0582,
      "step": 299
    },
    {
      "epoch": 0.009173189823874755,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009969234555746984,
      "loss": 2.376,
      "step": 300
    },
    {
      "epoch": 0.009203767123287672,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009968926901304455,
      "loss": 2.2043,
      "step": 301
    },
    {
      "epoch": 0.009234344422700587,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009968619246861926,
      "loss": 2.4015,
      "step": 302
    },
    {
      "epoch": 0.009264921722113503,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009968311592419394,
      "loss": 2.4692,
      "step": 303
    },
    {
      "epoch": 0.009295499021526418,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009968003937976865,
      "loss": 2.2726,
      "step": 304
    },
    {
      "epoch": 0.009326076320939335,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009967696283534335,
      "loss": 2.1852,
      "step": 305
    },
    {
      "epoch": 0.00935665362035225,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0009967388629091806,
      "loss": 1.5289,
      "step": 306
    },
    {
      "epoch": 0.009387230919765167,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009967080974649274,
      "loss": 2.3835,
      "step": 307
    },
    {
      "epoch": 0.009417808219178082,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009966773320206745,
      "loss": 1.7083,
      "step": 308
    },
    {
      "epoch": 0.009448385518590998,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009966465665764213,
      "loss": 1.9104,
      "step": 309
    },
    {
      "epoch": 0.009478962818003913,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009966158011321684,
      "loss": 2.0393,
      "step": 310
    },
    {
      "epoch": 0.00950954011741683,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009965850356879154,
      "loss": 2.0994,
      "step": 311
    },
    {
      "epoch": 0.009540117416829745,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009965542702436623,
      "loss": 2.0848,
      "step": 312
    },
    {
      "epoch": 0.009570694716242662,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009965235047994093,
      "loss": 1.8944,
      "step": 313
    },
    {
      "epoch": 0.009601272015655577,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009964927393551562,
      "loss": 2.4274,
      "step": 314
    },
    {
      "epoch": 0.009631849315068493,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009964619739109032,
      "loss": 2.3467,
      "step": 315
    },
    {
      "epoch": 0.009662426614481408,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009964312084666503,
      "loss": 1.9449,
      "step": 316
    },
    {
      "epoch": 0.009693003913894325,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009964004430223973,
      "loss": 2.1665,
      "step": 317
    },
    {
      "epoch": 0.00972358121330724,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009963696775781442,
      "loss": 2.3272,
      "step": 318
    },
    {
      "epoch": 0.009754158512720157,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009963389121338912,
      "loss": 2.2115,
      "step": 319
    },
    {
      "epoch": 0.009784735812133072,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009963081466896383,
      "loss": 2.2986,
      "step": 320
    },
    {
      "epoch": 0.009815313111545989,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009962773812453851,
      "loss": 1.6748,
      "step": 321
    },
    {
      "epoch": 0.009845890410958904,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009962466158011322,
      "loss": 2.3801,
      "step": 322
    },
    {
      "epoch": 0.00987646771037182,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009962158503568793,
      "loss": 2.2158,
      "step": 323
    },
    {
      "epoch": 0.009907045009784735,
      "grad_norm": 0.28125,
      "learning_rate": 0.000996185084912626,
      "loss": 1.8422,
      "step": 324
    },
    {
      "epoch": 0.009937622309197652,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009961543194683732,
      "loss": 2.3487,
      "step": 325
    },
    {
      "epoch": 0.009968199608610567,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009961235540241202,
      "loss": 1.7893,
      "step": 326
    },
    {
      "epoch": 0.009998776908023484,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000996092788579867,
      "loss": 2.1324,
      "step": 327
    },
    {
      "epoch": 0.010029354207436399,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009960620231356141,
      "loss": 1.771,
      "step": 328
    },
    {
      "epoch": 0.010059931506849315,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000996031257691361,
      "loss": 2.3379,
      "step": 329
    },
    {
      "epoch": 0.01009050880626223,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000996000492247108,
      "loss": 2.1894,
      "step": 330
    },
    {
      "epoch": 0.010121086105675147,
      "grad_norm": 0.3125,
      "learning_rate": 0.000995969726802855,
      "loss": 2.5044,
      "step": 331
    },
    {
      "epoch": 0.010151663405088062,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009959389613586021,
      "loss": 2.0885,
      "step": 332
    },
    {
      "epoch": 0.010182240704500979,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000995908195914349,
      "loss": 2.2884,
      "step": 333
    },
    {
      "epoch": 0.010212818003913894,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000995877430470096,
      "loss": 2.4047,
      "step": 334
    },
    {
      "epoch": 0.01024339530332681,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009958466650258429,
      "loss": 2.3769,
      "step": 335
    },
    {
      "epoch": 0.010273972602739725,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00099581589958159,
      "loss": 1.9841,
      "step": 336
    },
    {
      "epoch": 0.010304549902152642,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000995785134137337,
      "loss": 2.2329,
      "step": 337
    },
    {
      "epoch": 0.010335127201565557,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000995754368693084,
      "loss": 2.1016,
      "step": 338
    },
    {
      "epoch": 0.010365704500978474,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009957236032488309,
      "loss": 2.2224,
      "step": 339
    },
    {
      "epoch": 0.010396281800391389,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000995692837804578,
      "loss": 2.0456,
      "step": 340
    },
    {
      "epoch": 0.010426859099804306,
      "grad_norm": 0.296875,
      "learning_rate": 0.000995662072360325,
      "loss": 1.9073,
      "step": 341
    },
    {
      "epoch": 0.01045743639921722,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009956313069160718,
      "loss": 2.2168,
      "step": 342
    },
    {
      "epoch": 0.010488013698630137,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000995600541471819,
      "loss": 2.199,
      "step": 343
    },
    {
      "epoch": 0.010518590998043052,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009955697760275657,
      "loss": 2.7559,
      "step": 344
    },
    {
      "epoch": 0.010549168297455969,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009955390105833128,
      "loss": 2.0553,
      "step": 345
    },
    {
      "epoch": 0.010579745596868884,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009955082451390599,
      "loss": 2.3385,
      "step": 346
    },
    {
      "epoch": 0.0106103228962818,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000995477479694807,
      "loss": 2.1993,
      "step": 347
    },
    {
      "epoch": 0.010640900195694716,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009954467142505538,
      "loss": 1.9551,
      "step": 348
    },
    {
      "epoch": 0.010671477495107632,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009954159488063008,
      "loss": 2.4147,
      "step": 349
    },
    {
      "epoch": 0.010702054794520547,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009953851833620477,
      "loss": 2.3874,
      "step": 350
    },
    {
      "epoch": 0.010732632093933464,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009953544179177947,
      "loss": 1.9657,
      "step": 351
    },
    {
      "epoch": 0.010763209393346379,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009953236524735418,
      "loss": 2.1676,
      "step": 352
    },
    {
      "epoch": 0.010793786692759296,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009952928870292888,
      "loss": 2.0409,
      "step": 353
    },
    {
      "epoch": 0.01082436399217221,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009952621215850357,
      "loss": 1.7657,
      "step": 354
    },
    {
      "epoch": 0.010854941291585127,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009952313561407827,
      "loss": 2.3092,
      "step": 355
    },
    {
      "epoch": 0.010885518590998042,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009952005906965298,
      "loss": 1.9475,
      "step": 356
    },
    {
      "epoch": 0.01091609589041096,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009951698252522766,
      "loss": 2.6333,
      "step": 357
    },
    {
      "epoch": 0.010946673189823874,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009951390598080237,
      "loss": 2.068,
      "step": 358
    },
    {
      "epoch": 0.01097725048923679,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0009951082943637705,
      "loss": 2.0473,
      "step": 359
    },
    {
      "epoch": 0.011007827788649706,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009950775289195176,
      "loss": 2.6033,
      "step": 360
    },
    {
      "epoch": 0.011038405088062623,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009950467634752646,
      "loss": 2.1902,
      "step": 361
    },
    {
      "epoch": 0.011068982387475538,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009950159980310117,
      "loss": 2.0429,
      "step": 362
    },
    {
      "epoch": 0.011099559686888454,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009949852325867585,
      "loss": 2.5619,
      "step": 363
    },
    {
      "epoch": 0.01113013698630137,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009949544671425056,
      "loss": 2.1843,
      "step": 364
    },
    {
      "epoch": 0.011160714285714286,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009949237016982524,
      "loss": 2.1828,
      "step": 365
    },
    {
      "epoch": 0.011191291585127201,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009948929362539995,
      "loss": 2.1282,
      "step": 366
    },
    {
      "epoch": 0.011221868884540118,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009948621708097466,
      "loss": 2.2411,
      "step": 367
    },
    {
      "epoch": 0.011252446183953033,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009948314053654936,
      "loss": 2.2264,
      "step": 368
    },
    {
      "epoch": 0.01128302348336595,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009948006399212405,
      "loss": 2.0911,
      "step": 369
    },
    {
      "epoch": 0.011313600782778864,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009947698744769875,
      "loss": 1.8712,
      "step": 370
    },
    {
      "epoch": 0.011344178082191781,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009947391090327344,
      "loss": 2.2698,
      "step": 371
    },
    {
      "epoch": 0.011374755381604696,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009947083435884814,
      "loss": 1.9691,
      "step": 372
    },
    {
      "epoch": 0.011405332681017613,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009946775781442285,
      "loss": 2.0117,
      "step": 373
    },
    {
      "epoch": 0.011435909980430528,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009946468126999753,
      "loss": 2.1824,
      "step": 374
    },
    {
      "epoch": 0.011466487279843444,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009946160472557224,
      "loss": 1.8297,
      "step": 375
    },
    {
      "epoch": 0.01149706457925636,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009945852818114694,
      "loss": 2.4965,
      "step": 376
    },
    {
      "epoch": 0.011527641878669276,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009945545163672165,
      "loss": 2.4749,
      "step": 377
    },
    {
      "epoch": 0.011558219178082191,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009945237509229633,
      "loss": 2.0637,
      "step": 378
    },
    {
      "epoch": 0.011588796477495108,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009944929854787104,
      "loss": 2.1722,
      "step": 379
    },
    {
      "epoch": 0.011619373776908023,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009944622200344572,
      "loss": 1.7743,
      "step": 380
    },
    {
      "epoch": 0.01164995107632094,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009944314545902043,
      "loss": 2.3497,
      "step": 381
    },
    {
      "epoch": 0.011680528375733855,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009944006891459513,
      "loss": 2.3561,
      "step": 382
    },
    {
      "epoch": 0.011711105675146771,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009943699237016984,
      "loss": 1.8098,
      "step": 383
    },
    {
      "epoch": 0.011741682974559686,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009943391582574452,
      "loss": 2.1847,
      "step": 384
    },
    {
      "epoch": 0.011772260273972603,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009943083928131923,
      "loss": 2.3436,
      "step": 385
    },
    {
      "epoch": 0.011802837573385518,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009942776273689391,
      "loss": 2.0897,
      "step": 386
    },
    {
      "epoch": 0.011833414872798435,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009942468619246862,
      "loss": 2.1437,
      "step": 387
    },
    {
      "epoch": 0.01186399217221135,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009942160964804333,
      "loss": 1.8694,
      "step": 388
    },
    {
      "epoch": 0.011894569471624266,
      "grad_norm": 0.28125,
      "learning_rate": 0.00099418533103618,
      "loss": 1.8957,
      "step": 389
    },
    {
      "epoch": 0.011925146771037181,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009941545655919272,
      "loss": 2.426,
      "step": 390
    },
    {
      "epoch": 0.011955724070450098,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009941238001476742,
      "loss": 2.4347,
      "step": 391
    },
    {
      "epoch": 0.011986301369863013,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000994093034703421,
      "loss": 1.8822,
      "step": 392
    },
    {
      "epoch": 0.01201687866927593,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009940622692591681,
      "loss": 2.3728,
      "step": 393
    },
    {
      "epoch": 0.012047455968688845,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009940315038149152,
      "loss": 1.9785,
      "step": 394
    },
    {
      "epoch": 0.012078033268101761,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000994000738370662,
      "loss": 2.4185,
      "step": 395
    },
    {
      "epoch": 0.012108610567514676,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000993969972926409,
      "loss": 2.383,
      "step": 396
    },
    {
      "epoch": 0.012139187866927593,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009939392074821561,
      "loss": 2.0967,
      "step": 397
    },
    {
      "epoch": 0.012169765166340508,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009939084420379032,
      "loss": 2.0536,
      "step": 398
    },
    {
      "epoch": 0.012200342465753425,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00099387767659365,
      "loss": 2.0718,
      "step": 399
    },
    {
      "epoch": 0.01223091976516634,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000993846911149397,
      "loss": 2.1995,
      "step": 400
    },
    {
      "epoch": 0.012261497064579257,
      "grad_norm": 0.328125,
      "learning_rate": 0.000993816145705144,
      "loss": 2.556,
      "step": 401
    },
    {
      "epoch": 0.012292074363992172,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000993785380260891,
      "loss": 2.3484,
      "step": 402
    },
    {
      "epoch": 0.012322651663405088,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000993754614816638,
      "loss": 2.1121,
      "step": 403
    },
    {
      "epoch": 0.012353228962818003,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009937238493723849,
      "loss": 2.2993,
      "step": 404
    },
    {
      "epoch": 0.01238380626223092,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000993693083928132,
      "loss": 2.4166,
      "step": 405
    },
    {
      "epoch": 0.012414383561643835,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009936623184838788,
      "loss": 2.0622,
      "step": 406
    },
    {
      "epoch": 0.012444960861056752,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009936315530396258,
      "loss": 2.3007,
      "step": 407
    },
    {
      "epoch": 0.012475538160469667,
      "grad_norm": 0.296875,
      "learning_rate": 0.000993600787595373,
      "loss": 2.351,
      "step": 408
    },
    {
      "epoch": 0.012506115459882583,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00099357002215112,
      "loss": 2.3173,
      "step": 409
    },
    {
      "epoch": 0.012536692759295498,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009935392567068668,
      "loss": 1.9967,
      "step": 410
    },
    {
      "epoch": 0.012567270058708415,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009935084912626139,
      "loss": 2.3376,
      "step": 411
    },
    {
      "epoch": 0.01259784735812133,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000993477725818361,
      "loss": 1.9837,
      "step": 412
    },
    {
      "epoch": 0.012628424657534247,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000993446960374108,
      "loss": 2.1506,
      "step": 413
    },
    {
      "epoch": 0.012659001956947162,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009934161949298548,
      "loss": 2.483,
      "step": 414
    },
    {
      "epoch": 0.012689579256360078,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009933854294856019,
      "loss": 2.5474,
      "step": 415
    },
    {
      "epoch": 0.012720156555772993,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009933546640413487,
      "loss": 1.7729,
      "step": 416
    },
    {
      "epoch": 0.01275073385518591,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009933238985970958,
      "loss": 1.9354,
      "step": 417
    },
    {
      "epoch": 0.012781311154598825,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009932931331528428,
      "loss": 1.9908,
      "step": 418
    },
    {
      "epoch": 0.012811888454011742,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009932623677085897,
      "loss": 2.1765,
      "step": 419
    },
    {
      "epoch": 0.012842465753424657,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009932316022643367,
      "loss": 2.0199,
      "step": 420
    },
    {
      "epoch": 0.012873043052837574,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009932008368200836,
      "loss": 2.3053,
      "step": 421
    },
    {
      "epoch": 0.012903620352250489,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009931700713758306,
      "loss": 2.1483,
      "step": 422
    },
    {
      "epoch": 0.012934197651663405,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009931393059315777,
      "loss": 2.0045,
      "step": 423
    },
    {
      "epoch": 0.01296477495107632,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009931085404873247,
      "loss": 2.2459,
      "step": 424
    },
    {
      "epoch": 0.012995352250489237,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009930777750430716,
      "loss": 2.4526,
      "step": 425
    },
    {
      "epoch": 0.013025929549902152,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009930470095988186,
      "loss": 2.4227,
      "step": 426
    },
    {
      "epoch": 0.013056506849315069,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009930162441545657,
      "loss": 2.1826,
      "step": 427
    },
    {
      "epoch": 0.013087084148727984,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009929854787103125,
      "loss": 2.1699,
      "step": 428
    },
    {
      "epoch": 0.0131176614481409,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009929547132660596,
      "loss": 2.1487,
      "step": 429
    },
    {
      "epoch": 0.013148238747553815,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009929239478218067,
      "loss": 2.133,
      "step": 430
    },
    {
      "epoch": 0.013178816046966732,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009928931823775535,
      "loss": 1.9713,
      "step": 431
    },
    {
      "epoch": 0.013209393346379647,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009928624169333006,
      "loss": 2.0121,
      "step": 432
    },
    {
      "epoch": 0.013239970645792564,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009928316514890476,
      "loss": 2.681,
      "step": 433
    },
    {
      "epoch": 0.013270547945205479,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009928008860447945,
      "loss": 2.1684,
      "step": 434
    },
    {
      "epoch": 0.013301125244618395,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009927701206005415,
      "loss": 2.5859,
      "step": 435
    },
    {
      "epoch": 0.01333170254403131,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009927393551562884,
      "loss": 1.7629,
      "step": 436
    },
    {
      "epoch": 0.013362279843444227,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009927085897120354,
      "loss": 2.0362,
      "step": 437
    },
    {
      "epoch": 0.013392857142857142,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009926778242677825,
      "loss": 2.1976,
      "step": 438
    },
    {
      "epoch": 0.013423434442270059,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009926470588235295,
      "loss": 2.4001,
      "step": 439
    },
    {
      "epoch": 0.013454011741682974,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009926162933792764,
      "loss": 2.4304,
      "step": 440
    },
    {
      "epoch": 0.01348458904109589,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009925855279350234,
      "loss": 2.0786,
      "step": 441
    },
    {
      "epoch": 0.013515166340508806,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009925547624907703,
      "loss": 2.3152,
      "step": 442
    },
    {
      "epoch": 0.013545743639921722,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009925239970465173,
      "loss": 1.9775,
      "step": 443
    },
    {
      "epoch": 0.013576320939334637,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009924932316022644,
      "loss": 2.6624,
      "step": 444
    },
    {
      "epoch": 0.013606898238747554,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009924624661580114,
      "loss": 2.1754,
      "step": 445
    },
    {
      "epoch": 0.013637475538160469,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009924317007137583,
      "loss": 2.508,
      "step": 446
    },
    {
      "epoch": 0.013668052837573386,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009924009352695053,
      "loss": 2.0906,
      "step": 447
    },
    {
      "epoch": 0.0136986301369863,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009923701698252524,
      "loss": 1.9167,
      "step": 448
    },
    {
      "epoch": 0.013729207436399217,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009923394043809992,
      "loss": 1.9894,
      "step": 449
    },
    {
      "epoch": 0.013759784735812132,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009923086389367463,
      "loss": 2.3004,
      "step": 450
    },
    {
      "epoch": 0.013790362035225049,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009922778734924931,
      "loss": 1.9397,
      "step": 451
    },
    {
      "epoch": 0.013820939334637964,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009922471080482402,
      "loss": 1.9595,
      "step": 452
    },
    {
      "epoch": 0.01385151663405088,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009922163426039873,
      "loss": 1.7933,
      "step": 453
    },
    {
      "epoch": 0.013882093933463796,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009921855771597343,
      "loss": 2.2925,
      "step": 454
    },
    {
      "epoch": 0.013912671232876712,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009921548117154812,
      "loss": 2.3676,
      "step": 455
    },
    {
      "epoch": 0.013943248532289627,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009921240462712282,
      "loss": 2.1949,
      "step": 456
    },
    {
      "epoch": 0.013973825831702544,
      "grad_norm": 0.28125,
      "learning_rate": 0.000992093280826975,
      "loss": 1.9789,
      "step": 457
    },
    {
      "epoch": 0.014004403131115459,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009920625153827221,
      "loss": 2.1377,
      "step": 458
    },
    {
      "epoch": 0.014034980430528376,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009920317499384692,
      "loss": 2.3862,
      "step": 459
    },
    {
      "epoch": 0.01406555772994129,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009920009844942162,
      "loss": 2.1586,
      "step": 460
    },
    {
      "epoch": 0.014096135029354208,
      "grad_norm": 0.296875,
      "learning_rate": 0.000991970219049963,
      "loss": 2.3233,
      "step": 461
    },
    {
      "epoch": 0.014126712328767123,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009919394536057101,
      "loss": 2.0636,
      "step": 462
    },
    {
      "epoch": 0.01415728962818004,
      "grad_norm": 0.28125,
      "learning_rate": 0.000991908688161457,
      "loss": 1.9909,
      "step": 463
    },
    {
      "epoch": 0.014187866927592954,
      "grad_norm": 0.296875,
      "learning_rate": 0.000991877922717204,
      "loss": 2.3931,
      "step": 464
    },
    {
      "epoch": 0.014218444227005871,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000991847157272951,
      "loss": 2.0571,
      "step": 465
    },
    {
      "epoch": 0.014249021526418786,
      "grad_norm": 0.328125,
      "learning_rate": 0.000991816391828698,
      "loss": 2.3759,
      "step": 466
    },
    {
      "epoch": 0.014279598825831703,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000991785626384445,
      "loss": 1.8861,
      "step": 467
    },
    {
      "epoch": 0.014310176125244618,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000991754860940192,
      "loss": 2.1917,
      "step": 468
    },
    {
      "epoch": 0.014340753424657534,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000991724095495939,
      "loss": 2.017,
      "step": 469
    },
    {
      "epoch": 0.01437133072407045,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000991693330051686,
      "loss": 2.1875,
      "step": 470
    },
    {
      "epoch": 0.014401908023483366,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000991662564607433,
      "loss": 2.3699,
      "step": 471
    },
    {
      "epoch": 0.014432485322896281,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009916317991631798,
      "loss": 2.043,
      "step": 472
    },
    {
      "epoch": 0.014463062622309198,
      "grad_norm": 0.296875,
      "learning_rate": 0.000991601033718927,
      "loss": 2.2474,
      "step": 473
    },
    {
      "epoch": 0.014493639921722113,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000991570268274674,
      "loss": 2.1709,
      "step": 474
    },
    {
      "epoch": 0.01452421722113503,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000991539502830421,
      "loss": 1.7369,
      "step": 475
    },
    {
      "epoch": 0.014554794520547944,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009915087373861679,
      "loss": 1.8868,
      "step": 476
    },
    {
      "epoch": 0.014585371819960861,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000991477971941915,
      "loss": 1.8963,
      "step": 477
    },
    {
      "epoch": 0.014615949119373776,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009914472064976618,
      "loss": 1.9763,
      "step": 478
    },
    {
      "epoch": 0.014646526418786693,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009914164410534088,
      "loss": 2.2109,
      "step": 479
    },
    {
      "epoch": 0.014677103718199608,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009913856756091559,
      "loss": 2.1014,
      "step": 480
    },
    {
      "epoch": 0.014707681017612525,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009913549101649027,
      "loss": 2.0234,
      "step": 481
    },
    {
      "epoch": 0.01473825831702544,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009913241447206498,
      "loss": 2.488,
      "step": 482
    },
    {
      "epoch": 0.014768835616438356,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009912933792763968,
      "loss": 2.2657,
      "step": 483
    },
    {
      "epoch": 0.014799412915851271,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009912626138321439,
      "loss": 2.1908,
      "step": 484
    },
    {
      "epoch": 0.014829990215264188,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009912318483878907,
      "loss": 1.8675,
      "step": 485
    },
    {
      "epoch": 0.014860567514677103,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009912010829436378,
      "loss": 2.5442,
      "step": 486
    },
    {
      "epoch": 0.01489114481409002,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009911703174993846,
      "loss": 2.2606,
      "step": 487
    },
    {
      "epoch": 0.014921722113502935,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009911395520551317,
      "loss": 2.2742,
      "step": 488
    },
    {
      "epoch": 0.014952299412915851,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0009911087866108787,
      "loss": 2.7511,
      "step": 489
    },
    {
      "epoch": 0.014982876712328766,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009910780211666258,
      "loss": 1.8479,
      "step": 490
    },
    {
      "epoch": 0.015013454011741683,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009910472557223726,
      "loss": 2.4803,
      "step": 491
    },
    {
      "epoch": 0.015044031311154598,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009910164902781197,
      "loss": 1.644,
      "step": 492
    },
    {
      "epoch": 0.015074608610567515,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009909857248338665,
      "loss": 2.0166,
      "step": 493
    },
    {
      "epoch": 0.01510518590998043,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009909549593896136,
      "loss": 2.5616,
      "step": 494
    },
    {
      "epoch": 0.015135763209393346,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009909241939453607,
      "loss": 2.7444,
      "step": 495
    },
    {
      "epoch": 0.015166340508806261,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009908934285011075,
      "loss": 2.307,
      "step": 496
    },
    {
      "epoch": 0.015196917808219178,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009908626630568546,
      "loss": 2.1007,
      "step": 497
    },
    {
      "epoch": 0.015227495107632093,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009908318976126016,
      "loss": 2.5395,
      "step": 498
    },
    {
      "epoch": 0.01525807240704501,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009908011321683485,
      "loss": 2.4529,
      "step": 499
    },
    {
      "epoch": 0.015288649706457925,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009907703667240955,
      "loss": 2.5842,
      "step": 500
    },
    {
      "epoch": 0.015288649706457925,
      "eval_loss": 1.716623306274414,
      "eval_runtime": 70.7609,
      "eval_samples_per_second": 12.662,
      "eval_steps_per_second": 0.396,
      "step": 500
    },
    {
      "epoch": 0.015288649706457925,
      "eval/hellaswag_acc": 0.3770165305715993,
      "eval/hellaswag_acc_norm": 0.4704242182832105,
      "eval_hellaswag_elapsed_time": 350.3106954097748,
      "step": 500
    },
    {
      "epoch": 0.015319227005870842,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009907396012798426,
      "loss": 2.2511,
      "step": 501
    },
    {
      "epoch": 0.015349804305283756,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009907088358355894,
      "loss": 2.0617,
      "step": 502
    },
    {
      "epoch": 0.015380381604696673,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009906780703913365,
      "loss": 1.7559,
      "step": 503
    },
    {
      "epoch": 0.015410958904109588,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009906473049470835,
      "loss": 2.0478,
      "step": 504
    },
    {
      "epoch": 0.015441536203522505,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009906165395028306,
      "loss": 2.219,
      "step": 505
    },
    {
      "epoch": 0.01547211350293542,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009905857740585774,
      "loss": 2.1297,
      "step": 506
    },
    {
      "epoch": 0.015502690802348337,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009905550086143245,
      "loss": 2.1457,
      "step": 507
    },
    {
      "epoch": 0.015533268101761252,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009905242431700713,
      "loss": 2.6076,
      "step": 508
    },
    {
      "epoch": 0.015563845401174168,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009904934777258184,
      "loss": 2.1004,
      "step": 509
    },
    {
      "epoch": 0.015594422700587083,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009904627122815654,
      "loss": 2.0711,
      "step": 510
    },
    {
      "epoch": 0.015625,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009904319468373123,
      "loss": 1.7289,
      "step": 511
    },
    {
      "epoch": 0.015655577299412915,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009904011813930593,
      "loss": 1.6541,
      "step": 512
    },
    {
      "epoch": 0.015686154598825833,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009903704159488062,
      "loss": 2.4011,
      "step": 513
    },
    {
      "epoch": 0.01571673189823875,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009903396505045532,
      "loss": 2.2128,
      "step": 514
    },
    {
      "epoch": 0.015747309197651663,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009903088850603003,
      "loss": 1.9827,
      "step": 515
    },
    {
      "epoch": 0.01577788649706458,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009902781196160474,
      "loss": 1.9274,
      "step": 516
    },
    {
      "epoch": 0.015808463796477497,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009902473541717942,
      "loss": 2.1655,
      "step": 517
    },
    {
      "epoch": 0.015839041095890412,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009902165887275413,
      "loss": 2.3888,
      "step": 518
    },
    {
      "epoch": 0.015869618395303327,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009901858232832883,
      "loss": 2.6237,
      "step": 519
    },
    {
      "epoch": 0.015900195694716242,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009901550578390352,
      "loss": 2.0705,
      "step": 520
    },
    {
      "epoch": 0.01593077299412916,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009901242923947822,
      "loss": 2.3321,
      "step": 521
    },
    {
      "epoch": 0.015961350293542075,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009900935269505293,
      "loss": 2.3664,
      "step": 522
    },
    {
      "epoch": 0.01599192759295499,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009900627615062761,
      "loss": 1.7836,
      "step": 523
    },
    {
      "epoch": 0.016022504892367905,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009900319960620232,
      "loss": 2.0726,
      "step": 524
    },
    {
      "epoch": 0.016053082191780824,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009900012306177702,
      "loss": 2.0144,
      "step": 525
    },
    {
      "epoch": 0.01608365949119374,
      "grad_norm": 0.3125,
      "learning_rate": 0.000989970465173517,
      "loss": 2.4017,
      "step": 526
    },
    {
      "epoch": 0.016114236790606654,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009899396997292641,
      "loss": 2.1724,
      "step": 527
    },
    {
      "epoch": 0.01614481409001957,
      "grad_norm": 0.28125,
      "learning_rate": 0.000989908934285011,
      "loss": 2.0948,
      "step": 528
    },
    {
      "epoch": 0.016175391389432487,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000989878168840758,
      "loss": 1.9541,
      "step": 529
    },
    {
      "epoch": 0.016205968688845402,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000989847403396505,
      "loss": 1.6947,
      "step": 530
    },
    {
      "epoch": 0.016236545988258317,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009898166379522521,
      "loss": 2.23,
      "step": 531
    },
    {
      "epoch": 0.016267123287671232,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000989785872507999,
      "loss": 2.043,
      "step": 532
    },
    {
      "epoch": 0.01629770058708415,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000989755107063746,
      "loss": 2.3014,
      "step": 533
    },
    {
      "epoch": 0.016328277886497065,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009897243416194929,
      "loss": 2.3315,
      "step": 534
    },
    {
      "epoch": 0.01635885518590998,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00098969357617524,
      "loss": 2.2988,
      "step": 535
    },
    {
      "epoch": 0.016389432485322895,
      "grad_norm": 0.296875,
      "learning_rate": 0.000989662810730987,
      "loss": 2.2756,
      "step": 536
    },
    {
      "epoch": 0.016420009784735814,
      "grad_norm": 0.296875,
      "learning_rate": 0.000989632045286734,
      "loss": 2.4776,
      "step": 537
    },
    {
      "epoch": 0.01645058708414873,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000989601279842481,
      "loss": 2.2534,
      "step": 538
    },
    {
      "epoch": 0.016481164383561644,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000989570514398228,
      "loss": 2.2063,
      "step": 539
    },
    {
      "epoch": 0.01651174168297456,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000989539748953975,
      "loss": 1.9507,
      "step": 540
    },
    {
      "epoch": 0.016542318982387477,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009895089835097219,
      "loss": 2.1486,
      "step": 541
    },
    {
      "epoch": 0.016572896281800392,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000989478218065469,
      "loss": 2.2869,
      "step": 542
    },
    {
      "epoch": 0.016603473581213307,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009894474526212158,
      "loss": 2.1189,
      "step": 543
    },
    {
      "epoch": 0.016634050880626222,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009894166871769628,
      "loss": 2.1758,
      "step": 544
    },
    {
      "epoch": 0.01666462818003914,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009893859217327099,
      "loss": 2.2718,
      "step": 545
    },
    {
      "epoch": 0.016695205479452056,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000989355156288457,
      "loss": 1.9357,
      "step": 546
    },
    {
      "epoch": 0.01672578277886497,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009893243908442038,
      "loss": 2.0012,
      "step": 547
    },
    {
      "epoch": 0.016756360078277886,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009892936253999508,
      "loss": 1.9545,
      "step": 548
    },
    {
      "epoch": 0.016786937377690804,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009892628599556977,
      "loss": 2.1917,
      "step": 549
    },
    {
      "epoch": 0.01681751467710372,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009892320945114447,
      "loss": 2.2139,
      "step": 550
    },
    {
      "epoch": 0.016848091976516634,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009892013290671918,
      "loss": 2.2998,
      "step": 551
    },
    {
      "epoch": 0.01687866927592955,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009891705636229388,
      "loss": 1.8642,
      "step": 552
    },
    {
      "epoch": 0.016909246575342467,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009891397981786857,
      "loss": 2.0197,
      "step": 553
    },
    {
      "epoch": 0.016939823874755382,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009891090327344327,
      "loss": 2.2873,
      "step": 554
    },
    {
      "epoch": 0.016970401174168297,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009890782672901798,
      "loss": 2.3232,
      "step": 555
    },
    {
      "epoch": 0.017000978473581212,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009890475018459266,
      "loss": 2.0685,
      "step": 556
    },
    {
      "epoch": 0.01703155577299413,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009890167364016737,
      "loss": 2.6596,
      "step": 557
    },
    {
      "epoch": 0.017062133072407046,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009889859709574205,
      "loss": 2.1771,
      "step": 558
    },
    {
      "epoch": 0.01709271037181996,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009889552055131676,
      "loss": 2.1474,
      "step": 559
    },
    {
      "epoch": 0.017123287671232876,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009889244400689147,
      "loss": 2.2478,
      "step": 560
    },
    {
      "epoch": 0.017153864970645794,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009888936746246617,
      "loss": 2.2764,
      "step": 561
    },
    {
      "epoch": 0.01718444227005871,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009888629091804086,
      "loss": 2.3829,
      "step": 562
    },
    {
      "epoch": 0.017215019569471624,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009888321437361556,
      "loss": 1.735,
      "step": 563
    },
    {
      "epoch": 0.01724559686888454,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009888013782919025,
      "loss": 2.2918,
      "step": 564
    },
    {
      "epoch": 0.017276174168297458,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009887706128476495,
      "loss": 1.8851,
      "step": 565
    },
    {
      "epoch": 0.017306751467710373,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009887398474033966,
      "loss": 2.2268,
      "step": 566
    },
    {
      "epoch": 0.017337328767123288,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009887090819591436,
      "loss": 1.8657,
      "step": 567
    },
    {
      "epoch": 0.017367906066536203,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009886783165148905,
      "loss": 2.2264,
      "step": 568
    },
    {
      "epoch": 0.01739848336594912,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009886475510706375,
      "loss": 2.4368,
      "step": 569
    },
    {
      "epoch": 0.017429060665362036,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009886167856263844,
      "loss": 2.093,
      "step": 570
    },
    {
      "epoch": 0.01745963796477495,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009885860201821314,
      "loss": 2.0221,
      "step": 571
    },
    {
      "epoch": 0.017490215264187866,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009885552547378785,
      "loss": 2.1912,
      "step": 572
    },
    {
      "epoch": 0.017520792563600784,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009885244892936253,
      "loss": 2.3449,
      "step": 573
    },
    {
      "epoch": 0.0175513698630137,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009884937238493724,
      "loss": 2.2561,
      "step": 574
    },
    {
      "epoch": 0.017581947162426614,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009884629584051194,
      "loss": 2.4398,
      "step": 575
    },
    {
      "epoch": 0.01761252446183953,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009884321929608665,
      "loss": 2.113,
      "step": 576
    },
    {
      "epoch": 0.017643101761252448,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009884014275166133,
      "loss": 2.2363,
      "step": 577
    },
    {
      "epoch": 0.017673679060665363,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009883706620723604,
      "loss": 2.0517,
      "step": 578
    },
    {
      "epoch": 0.017704256360078278,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009883398966281072,
      "loss": 2.3236,
      "step": 579
    },
    {
      "epoch": 0.017734833659491193,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009883091311838543,
      "loss": 1.9895,
      "step": 580
    },
    {
      "epoch": 0.01776541095890411,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009882783657396014,
      "loss": 2.4239,
      "step": 581
    },
    {
      "epoch": 0.017795988258317026,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009882476002953484,
      "loss": 2.0944,
      "step": 582
    },
    {
      "epoch": 0.01782656555772994,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009882168348510953,
      "loss": 2.216,
      "step": 583
    },
    {
      "epoch": 0.017857142857142856,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009881860694068423,
      "loss": 2.5593,
      "step": 584
    },
    {
      "epoch": 0.017887720156555775,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009881553039625891,
      "loss": 2.3993,
      "step": 585
    },
    {
      "epoch": 0.01791829745596869,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009881245385183362,
      "loss": 2.0622,
      "step": 586
    },
    {
      "epoch": 0.017948874755381605,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009880937730740833,
      "loss": 2.0217,
      "step": 587
    },
    {
      "epoch": 0.01797945205479452,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00098806300762983,
      "loss": 2.0222,
      "step": 588
    },
    {
      "epoch": 0.018010029354207438,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009880322421855772,
      "loss": 2.3168,
      "step": 589
    },
    {
      "epoch": 0.018040606653620353,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009880014767413242,
      "loss": 2.2092,
      "step": 590
    },
    {
      "epoch": 0.018071183953033268,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000987970711297071,
      "loss": 1.9751,
      "step": 591
    },
    {
      "epoch": 0.018101761252446183,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009879399458528181,
      "loss": 2.1804,
      "step": 592
    },
    {
      "epoch": 0.0181323385518591,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009879091804085652,
      "loss": 2.4953,
      "step": 593
    },
    {
      "epoch": 0.018162915851272016,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000987878414964312,
      "loss": 2.2755,
      "step": 594
    },
    {
      "epoch": 0.01819349315068493,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000987847649520059,
      "loss": 1.9563,
      "step": 595
    },
    {
      "epoch": 0.018224070450097846,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009878168840758061,
      "loss": 2.0248,
      "step": 596
    },
    {
      "epoch": 0.018254647749510765,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009877861186315532,
      "loss": 2.0598,
      "step": 597
    },
    {
      "epoch": 0.01828522504892368,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009877553531873,
      "loss": 1.7734,
      "step": 598
    },
    {
      "epoch": 0.018315802348336595,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000987724587743047,
      "loss": 2.1454,
      "step": 599
    },
    {
      "epoch": 0.01834637964774951,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000987693822298794,
      "loss": 2.0819,
      "step": 600
    },
    {
      "epoch": 0.018376956947162428,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000987663056854541,
      "loss": 2.272,
      "step": 601
    },
    {
      "epoch": 0.018407534246575343,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000987632291410288,
      "loss": 2.1304,
      "step": 602
    },
    {
      "epoch": 0.018438111545988258,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000987601525966035,
      "loss": 2.0535,
      "step": 603
    },
    {
      "epoch": 0.018468688845401173,
      "grad_norm": 0.431640625,
      "learning_rate": 0.000987570760521782,
      "loss": 2.4083,
      "step": 604
    },
    {
      "epoch": 0.01849926614481409,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009875399950775288,
      "loss": 2.395,
      "step": 605
    },
    {
      "epoch": 0.018529843444227007,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009875092296332758,
      "loss": 2.4306,
      "step": 606
    },
    {
      "epoch": 0.01856042074363992,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000987478464189023,
      "loss": 2.0615,
      "step": 607
    },
    {
      "epoch": 0.018590998043052837,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00098744769874477,
      "loss": 2.162,
      "step": 608
    },
    {
      "epoch": 0.018621575342465755,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009874169333005168,
      "loss": 2.1557,
      "step": 609
    },
    {
      "epoch": 0.01865215264187867,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009873861678562639,
      "loss": 1.9753,
      "step": 610
    },
    {
      "epoch": 0.018682729941291585,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000987355402412011,
      "loss": 1.7375,
      "step": 611
    },
    {
      "epoch": 0.0187133072407045,
      "grad_norm": 0.265625,
      "learning_rate": 0.000987324636967758,
      "loss": 1.7498,
      "step": 612
    },
    {
      "epoch": 0.01874388454011742,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009872938715235048,
      "loss": 1.9421,
      "step": 613
    },
    {
      "epoch": 0.018774461839530333,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009872631060792519,
      "loss": 2.2372,
      "step": 614
    },
    {
      "epoch": 0.01880503913894325,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009872323406349987,
      "loss": 2.1993,
      "step": 615
    },
    {
      "epoch": 0.018835616438356163,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009872015751907458,
      "loss": 2.2617,
      "step": 616
    },
    {
      "epoch": 0.018866193737769082,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009871708097464928,
      "loss": 2.227,
      "step": 617
    },
    {
      "epoch": 0.018896771037181997,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009871400443022397,
      "loss": 2.2135,
      "step": 618
    },
    {
      "epoch": 0.018927348336594912,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009871092788579867,
      "loss": 2.2083,
      "step": 619
    },
    {
      "epoch": 0.018957925636007827,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009870785134137336,
      "loss": 2.1748,
      "step": 620
    },
    {
      "epoch": 0.018988502935420745,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009870477479694806,
      "loss": 1.8473,
      "step": 621
    },
    {
      "epoch": 0.01901908023483366,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009870169825252277,
      "loss": 2.1694,
      "step": 622
    },
    {
      "epoch": 0.019049657534246575,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009869862170809748,
      "loss": 1.6654,
      "step": 623
    },
    {
      "epoch": 0.01908023483365949,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009869554516367216,
      "loss": 2.1239,
      "step": 624
    },
    {
      "epoch": 0.01911081213307241,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009869246861924686,
      "loss": 2.1837,
      "step": 625
    },
    {
      "epoch": 0.019141389432485324,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009868939207482157,
      "loss": 1.8814,
      "step": 626
    },
    {
      "epoch": 0.01917196673189824,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009868631553039625,
      "loss": 2.5018,
      "step": 627
    },
    {
      "epoch": 0.019202544031311154,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009868323898597096,
      "loss": 2.3718,
      "step": 628
    },
    {
      "epoch": 0.019233121330724072,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009868016244154567,
      "loss": 2.1996,
      "step": 629
    },
    {
      "epoch": 0.019263698630136987,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009867708589712035,
      "loss": 2.1771,
      "step": 630
    },
    {
      "epoch": 0.019294275929549902,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009867400935269506,
      "loss": 1.958,
      "step": 631
    },
    {
      "epoch": 0.019324853228962817,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009867093280826976,
      "loss": 2.123,
      "step": 632
    },
    {
      "epoch": 0.019355430528375735,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009866785626384445,
      "loss": 1.6604,
      "step": 633
    },
    {
      "epoch": 0.01938600782778865,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009866477971941915,
      "loss": 2.303,
      "step": 634
    },
    {
      "epoch": 0.019416585127201565,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009866170317499384,
      "loss": 2.0465,
      "step": 635
    },
    {
      "epoch": 0.01944716242661448,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009865862663056854,
      "loss": 2.5334,
      "step": 636
    },
    {
      "epoch": 0.0194777397260274,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009865555008614325,
      "loss": 2.3873,
      "step": 637
    },
    {
      "epoch": 0.019508317025440314,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009865247354171795,
      "loss": 2.3439,
      "step": 638
    },
    {
      "epoch": 0.01953889432485323,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009864939699729264,
      "loss": 2.1564,
      "step": 639
    },
    {
      "epoch": 0.019569471624266144,
      "grad_norm": 0.2421875,
      "learning_rate": 0.0009864632045286734,
      "loss": 1.5936,
      "step": 640
    },
    {
      "epoch": 0.019600048923679062,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009864324390844203,
      "loss": 2.065,
      "step": 641
    },
    {
      "epoch": 0.019630626223091977,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009864016736401673,
      "loss": 1.9463,
      "step": 642
    },
    {
      "epoch": 0.019661203522504892,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009863709081959144,
      "loss": 2.3377,
      "step": 643
    },
    {
      "epoch": 0.019691780821917807,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009863401427516614,
      "loss": 2.353,
      "step": 644
    },
    {
      "epoch": 0.019722358121330726,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009863093773074083,
      "loss": 2.375,
      "step": 645
    },
    {
      "epoch": 0.01975293542074364,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009862786118631553,
      "loss": 2.5442,
      "step": 646
    },
    {
      "epoch": 0.019783512720156556,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009862478464189024,
      "loss": 2.4734,
      "step": 647
    },
    {
      "epoch": 0.01981409001956947,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009862170809746492,
      "loss": 2.2144,
      "step": 648
    },
    {
      "epoch": 0.01984466731898239,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009861863155303963,
      "loss": 2.3995,
      "step": 649
    },
    {
      "epoch": 0.019875244618395304,
      "grad_norm": 0.24609375,
      "learning_rate": 0.0009861555500861431,
      "loss": 1.2472,
      "step": 650
    },
    {
      "epoch": 0.01990582191780822,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009861247846418902,
      "loss": 1.986,
      "step": 651
    },
    {
      "epoch": 0.019936399217221134,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009860940191976373,
      "loss": 2.1542,
      "step": 652
    },
    {
      "epoch": 0.019966976516634052,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009860632537533843,
      "loss": 2.1364,
      "step": 653
    },
    {
      "epoch": 0.019997553816046967,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009860324883091312,
      "loss": 2.1848,
      "step": 654
    },
    {
      "epoch": 0.020028131115459882,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0009860017228648782,
      "loss": 1.6254,
      "step": 655
    },
    {
      "epoch": 0.020058708414872797,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000985970957420625,
      "loss": 2.2995,
      "step": 656
    },
    {
      "epoch": 0.020089285714285716,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009859401919763721,
      "loss": 2.6347,
      "step": 657
    },
    {
      "epoch": 0.02011986301369863,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009859094265321192,
      "loss": 2.3285,
      "step": 658
    },
    {
      "epoch": 0.020150440313111546,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009858786610878662,
      "loss": 1.7414,
      "step": 659
    },
    {
      "epoch": 0.02018101761252446,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000985847895643613,
      "loss": 1.8144,
      "step": 660
    },
    {
      "epoch": 0.02021159491193738,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009858171301993601,
      "loss": 2.0137,
      "step": 661
    },
    {
      "epoch": 0.020242172211350294,
      "grad_norm": 0.296875,
      "learning_rate": 0.000985786364755107,
      "loss": 2.2635,
      "step": 662
    },
    {
      "epoch": 0.02027274951076321,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000985755599310854,
      "loss": 2.0639,
      "step": 663
    },
    {
      "epoch": 0.020303326810176124,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000985724833866601,
      "loss": 1.7234,
      "step": 664
    },
    {
      "epoch": 0.020333904109589043,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000985694068422348,
      "loss": 2.3301,
      "step": 665
    },
    {
      "epoch": 0.020364481409001958,
      "grad_norm": 0.3125,
      "learning_rate": 0.000985663302978095,
      "loss": 2.3138,
      "step": 666
    },
    {
      "epoch": 0.020395058708414873,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000985632537533842,
      "loss": 1.9167,
      "step": 667
    },
    {
      "epoch": 0.020425636007827788,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000985601772089589,
      "loss": 2.4076,
      "step": 668
    },
    {
      "epoch": 0.020456213307240706,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000985571006645336,
      "loss": 2.4513,
      "step": 669
    },
    {
      "epoch": 0.02048679060665362,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000985540241201083,
      "loss": 1.909,
      "step": 670
    },
    {
      "epoch": 0.020517367906066536,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009855094757568298,
      "loss": 2.4921,
      "step": 671
    },
    {
      "epoch": 0.02054794520547945,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000985478710312577,
      "loss": 2.3514,
      "step": 672
    },
    {
      "epoch": 0.02057852250489237,
      "grad_norm": 0.28125,
      "learning_rate": 0.000985447944868324,
      "loss": 1.86,
      "step": 673
    },
    {
      "epoch": 0.020609099804305284,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000985417179424071,
      "loss": 2.2364,
      "step": 674
    },
    {
      "epoch": 0.0206396771037182,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009853864139798179,
      "loss": 2.2524,
      "step": 675
    },
    {
      "epoch": 0.020670254403131114,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000985355648535565,
      "loss": 2.0306,
      "step": 676
    },
    {
      "epoch": 0.020700831702544033,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009853248830913118,
      "loss": 2.0512,
      "step": 677
    },
    {
      "epoch": 0.020731409001956948,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009852941176470588,
      "loss": 2.0779,
      "step": 678
    },
    {
      "epoch": 0.020761986301369863,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009852633522028059,
      "loss": 2.0959,
      "step": 679
    },
    {
      "epoch": 0.020792563600782778,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009852325867585527,
      "loss": 2.3264,
      "step": 680
    },
    {
      "epoch": 0.020823140900195696,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009852018213142998,
      "loss": 2.2292,
      "step": 681
    },
    {
      "epoch": 0.02085371819960861,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009851710558700468,
      "loss": 1.8501,
      "step": 682
    },
    {
      "epoch": 0.020884295499021526,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009851402904257939,
      "loss": 1.6725,
      "step": 683
    },
    {
      "epoch": 0.02091487279843444,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009851095249815407,
      "loss": 2.0914,
      "step": 684
    },
    {
      "epoch": 0.02094545009784736,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0009850787595372878,
      "loss": 2.2715,
      "step": 685
    },
    {
      "epoch": 0.020976027397260275,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009850479940930346,
      "loss": 1.9424,
      "step": 686
    },
    {
      "epoch": 0.02100660469667319,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009850172286487817,
      "loss": 2.1426,
      "step": 687
    },
    {
      "epoch": 0.021037181996086105,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009849864632045287,
      "loss": 2.1554,
      "step": 688
    },
    {
      "epoch": 0.021067759295499023,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009849556977602758,
      "loss": 2.4446,
      "step": 689
    },
    {
      "epoch": 0.021098336594911938,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009849249323160226,
      "loss": 2.3391,
      "step": 690
    },
    {
      "epoch": 0.021128913894324853,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009848941668717697,
      "loss": 2.2539,
      "step": 691
    },
    {
      "epoch": 0.021159491193737768,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009848634014275165,
      "loss": 1.9116,
      "step": 692
    },
    {
      "epoch": 0.021190068493150686,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009848326359832636,
      "loss": 2.3943,
      "step": 693
    },
    {
      "epoch": 0.0212206457925636,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009848018705390107,
      "loss": 1.9254,
      "step": 694
    },
    {
      "epoch": 0.021251223091976516,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009847711050947575,
      "loss": 2.4323,
      "step": 695
    },
    {
      "epoch": 0.02128180039138943,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009847403396505046,
      "loss": 1.5554,
      "step": 696
    },
    {
      "epoch": 0.02131237769080235,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009847095742062516,
      "loss": 1.967,
      "step": 697
    },
    {
      "epoch": 0.021342954990215265,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009846788087619985,
      "loss": 2.0434,
      "step": 698
    },
    {
      "epoch": 0.02137353228962818,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009846480433177455,
      "loss": 2.1243,
      "step": 699
    },
    {
      "epoch": 0.021404109589041095,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009846172778734926,
      "loss": 1.9025,
      "step": 700
    },
    {
      "epoch": 0.021434686888454013,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009845865124292394,
      "loss": 2.0506,
      "step": 701
    },
    {
      "epoch": 0.021465264187866928,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009845557469849865,
      "loss": 2.1851,
      "step": 702
    },
    {
      "epoch": 0.021495841487279843,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009845249815407335,
      "loss": 2.0252,
      "step": 703
    },
    {
      "epoch": 0.021526418786692758,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009844942160964806,
      "loss": 2.3445,
      "step": 704
    },
    {
      "epoch": 0.021556996086105677,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009844634506522274,
      "loss": 2.2742,
      "step": 705
    },
    {
      "epoch": 0.02158757338551859,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009844326852079745,
      "loss": 2.4197,
      "step": 706
    },
    {
      "epoch": 0.021618150684931507,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009844019197637213,
      "loss": 2.1236,
      "step": 707
    },
    {
      "epoch": 0.02164872798434442,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009843711543194684,
      "loss": 2.2662,
      "step": 708
    },
    {
      "epoch": 0.02167930528375734,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009843403888752154,
      "loss": 2.1406,
      "step": 709
    },
    {
      "epoch": 0.021709882583170255,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009843096234309623,
      "loss": 1.7579,
      "step": 710
    },
    {
      "epoch": 0.02174045988258317,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009842788579867093,
      "loss": 2.2301,
      "step": 711
    },
    {
      "epoch": 0.021771037181996085,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009842480925424562,
      "loss": 1.9701,
      "step": 712
    },
    {
      "epoch": 0.021801614481409003,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009842173270982032,
      "loss": 1.8472,
      "step": 713
    },
    {
      "epoch": 0.02183219178082192,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009841865616539503,
      "loss": 2.2665,
      "step": 714
    },
    {
      "epoch": 0.021862769080234833,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009841557962096974,
      "loss": 2.2423,
      "step": 715
    },
    {
      "epoch": 0.02189334637964775,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009841250307654442,
      "loss": 2.2297,
      "step": 716
    },
    {
      "epoch": 0.021923923679060667,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009840942653211913,
      "loss": 1.9601,
      "step": 717
    },
    {
      "epoch": 0.02195450097847358,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009840634998769383,
      "loss": 2.0759,
      "step": 718
    },
    {
      "epoch": 0.021985078277886497,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009840327344326852,
      "loss": 2.3448,
      "step": 719
    },
    {
      "epoch": 0.02201565557729941,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009840019689884322,
      "loss": 2.1422,
      "step": 720
    },
    {
      "epoch": 0.02204623287671233,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009839712035441793,
      "loss": 2.0202,
      "step": 721
    },
    {
      "epoch": 0.022076810176125245,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009839404380999261,
      "loss": 2.2184,
      "step": 722
    },
    {
      "epoch": 0.02210738747553816,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0009839096726556732,
      "loss": 1.5607,
      "step": 723
    },
    {
      "epoch": 0.022137964774951075,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009838789072114202,
      "loss": 2.3939,
      "step": 724
    },
    {
      "epoch": 0.022168542074363994,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009838481417671673,
      "loss": 2.3847,
      "step": 725
    },
    {
      "epoch": 0.02219911937377691,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009838173763229141,
      "loss": 2.325,
      "step": 726
    },
    {
      "epoch": 0.022229696673189824,
      "grad_norm": 0.296875,
      "learning_rate": 0.000983786610878661,
      "loss": 2.2338,
      "step": 727
    },
    {
      "epoch": 0.02226027397260274,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000983755845434408,
      "loss": 1.8053,
      "step": 728
    },
    {
      "epoch": 0.022290851272015657,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000983725079990155,
      "loss": 2.0693,
      "step": 729
    },
    {
      "epoch": 0.022321428571428572,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009836943145459021,
      "loss": 1.6886,
      "step": 730
    },
    {
      "epoch": 0.022352005870841487,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000983663549101649,
      "loss": 2.0976,
      "step": 731
    },
    {
      "epoch": 0.022382583170254402,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000983632783657396,
      "loss": 2.1164,
      "step": 732
    },
    {
      "epoch": 0.02241316046966732,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009836020182131429,
      "loss": 2.5491,
      "step": 733
    },
    {
      "epoch": 0.022443737769080235,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00098357125276889,
      "loss": 2.2508,
      "step": 734
    },
    {
      "epoch": 0.02247431506849315,
      "grad_norm": 0.3125,
      "learning_rate": 0.000983540487324637,
      "loss": 2.3631,
      "step": 735
    },
    {
      "epoch": 0.022504892367906065,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000983509721880384,
      "loss": 2.3811,
      "step": 736
    },
    {
      "epoch": 0.022535469667318984,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000983478956436131,
      "loss": 2.4157,
      "step": 737
    },
    {
      "epoch": 0.0225660469667319,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000983448190991878,
      "loss": 2.5609,
      "step": 738
    },
    {
      "epoch": 0.022596624266144814,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000983417425547625,
      "loss": 1.8962,
      "step": 739
    },
    {
      "epoch": 0.02262720156555773,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009833866601033719,
      "loss": 2.525,
      "step": 740
    },
    {
      "epoch": 0.022657778864970647,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000983355894659119,
      "loss": 1.7645,
      "step": 741
    },
    {
      "epoch": 0.022688356164383562,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009833251292148658,
      "loss": 2.3185,
      "step": 742
    },
    {
      "epoch": 0.022718933463796477,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009832943637706128,
      "loss": 2.0894,
      "step": 743
    },
    {
      "epoch": 0.022749510763209392,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009832635983263599,
      "loss": 2.551,
      "step": 744
    },
    {
      "epoch": 0.02278008806262231,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000983232832882107,
      "loss": 1.9296,
      "step": 745
    },
    {
      "epoch": 0.022810665362035226,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009832020674378538,
      "loss": 1.9411,
      "step": 746
    },
    {
      "epoch": 0.02284124266144814,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009831713019936008,
      "loss": 2.2425,
      "step": 747
    },
    {
      "epoch": 0.022871819960861055,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009831405365493477,
      "loss": 2.0724,
      "step": 748
    },
    {
      "epoch": 0.022902397260273974,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009831097711050947,
      "loss": 2.4011,
      "step": 749
    },
    {
      "epoch": 0.02293297455968689,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009830790056608418,
      "loss": 1.8781,
      "step": 750
    },
    {
      "epoch": 0.022963551859099804,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009830482402165888,
      "loss": 2.482,
      "step": 751
    },
    {
      "epoch": 0.02299412915851272,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009830174747723357,
      "loss": 1.9897,
      "step": 752
    },
    {
      "epoch": 0.023024706457925637,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009829867093280827,
      "loss": 2.3262,
      "step": 753
    },
    {
      "epoch": 0.023055283757338552,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009829559438838298,
      "loss": 2.0402,
      "step": 754
    },
    {
      "epoch": 0.023085861056751467,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009829251784395766,
      "loss": 2.0137,
      "step": 755
    },
    {
      "epoch": 0.023116438356164382,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009828944129953237,
      "loss": 2.699,
      "step": 756
    },
    {
      "epoch": 0.0231470156555773,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009828636475510705,
      "loss": 1.7911,
      "step": 757
    },
    {
      "epoch": 0.023177592954990216,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009828328821068176,
      "loss": 2.4854,
      "step": 758
    },
    {
      "epoch": 0.02320817025440313,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009828021166625647,
      "loss": 1.8227,
      "step": 759
    },
    {
      "epoch": 0.023238747553816046,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009827713512183117,
      "loss": 2.1574,
      "step": 760
    },
    {
      "epoch": 0.023269324853228964,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009827405857740586,
      "loss": 2.0884,
      "step": 761
    },
    {
      "epoch": 0.02329990215264188,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009827098203298056,
      "loss": 2.2157,
      "step": 762
    },
    {
      "epoch": 0.023330479452054794,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009826790548855525,
      "loss": 1.8868,
      "step": 763
    },
    {
      "epoch": 0.02336105675146771,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009826482894412995,
      "loss": 1.9814,
      "step": 764
    },
    {
      "epoch": 0.023391634050880628,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009826175239970466,
      "loss": 2.1265,
      "step": 765
    },
    {
      "epoch": 0.023422211350293543,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009825867585527936,
      "loss": 2.2764,
      "step": 766
    },
    {
      "epoch": 0.023452788649706457,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009825559931085405,
      "loss": 1.8944,
      "step": 767
    },
    {
      "epoch": 0.023483365949119372,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009825252276642875,
      "loss": 2.0174,
      "step": 768
    },
    {
      "epoch": 0.02351394324853229,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009824944622200344,
      "loss": 2.4121,
      "step": 769
    },
    {
      "epoch": 0.023544520547945206,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009824636967757814,
      "loss": 1.9759,
      "step": 770
    },
    {
      "epoch": 0.02357509784735812,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009824329313315285,
      "loss": 1.8027,
      "step": 771
    },
    {
      "epoch": 0.023605675146771036,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009824021658872753,
      "loss": 2.3504,
      "step": 772
    },
    {
      "epoch": 0.023636252446183954,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009823714004430224,
      "loss": 2.3359,
      "step": 773
    },
    {
      "epoch": 0.02366682974559687,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009823406349987694,
      "loss": 2.0968,
      "step": 774
    },
    {
      "epoch": 0.023697407045009784,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009823098695545165,
      "loss": 2.0581,
      "step": 775
    },
    {
      "epoch": 0.0237279843444227,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009822791041102633,
      "loss": 2.6302,
      "step": 776
    },
    {
      "epoch": 0.023758561643835618,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009822483386660104,
      "loss": 2.3954,
      "step": 777
    },
    {
      "epoch": 0.023789138943248533,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009822175732217572,
      "loss": 2.2871,
      "step": 778
    },
    {
      "epoch": 0.023819716242661448,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009821868077775043,
      "loss": 1.9887,
      "step": 779
    },
    {
      "epoch": 0.023850293542074363,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009821560423332514,
      "loss": 1.7717,
      "step": 780
    },
    {
      "epoch": 0.02388087084148728,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009821252768889984,
      "loss": 2.083,
      "step": 781
    },
    {
      "epoch": 0.023911448140900196,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0009820945114447453,
      "loss": 1.6457,
      "step": 782
    },
    {
      "epoch": 0.02394202544031311,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009820637460004923,
      "loss": 2.0005,
      "step": 783
    },
    {
      "epoch": 0.023972602739726026,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009820329805562392,
      "loss": 2.0975,
      "step": 784
    },
    {
      "epoch": 0.024003180039138945,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009820022151119862,
      "loss": 2.0215,
      "step": 785
    },
    {
      "epoch": 0.02403375733855186,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009819714496677333,
      "loss": 1.9262,
      "step": 786
    },
    {
      "epoch": 0.024064334637964774,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009819406842234803,
      "loss": 2.2185,
      "step": 787
    },
    {
      "epoch": 0.02409491193737769,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009819099187792272,
      "loss": 2.1667,
      "step": 788
    },
    {
      "epoch": 0.024125489236790608,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009818791533349742,
      "loss": 2.0339,
      "step": 789
    },
    {
      "epoch": 0.024156066536203523,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000981848387890721,
      "loss": 1.911,
      "step": 790
    },
    {
      "epoch": 0.024186643835616438,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009818176224464681,
      "loss": 2.1716,
      "step": 791
    },
    {
      "epoch": 0.024217221135029353,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009817868570022152,
      "loss": 2.2218,
      "step": 792
    },
    {
      "epoch": 0.02424779843444227,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000981756091557962,
      "loss": 1.776,
      "step": 793
    },
    {
      "epoch": 0.024278375733855186,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000981725326113709,
      "loss": 1.906,
      "step": 794
    },
    {
      "epoch": 0.0243089530332681,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009816945606694561,
      "loss": 2.7047,
      "step": 795
    },
    {
      "epoch": 0.024339530332681016,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009816637952252032,
      "loss": 2.3618,
      "step": 796
    },
    {
      "epoch": 0.024370107632093935,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00098163302978095,
      "loss": 2.505,
      "step": 797
    },
    {
      "epoch": 0.02440068493150685,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000981602264336697,
      "loss": 1.8838,
      "step": 798
    },
    {
      "epoch": 0.024431262230919765,
      "grad_norm": 0.28125,
      "learning_rate": 0.000981571498892444,
      "loss": 2.0107,
      "step": 799
    },
    {
      "epoch": 0.02446183953033268,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000981540733448191,
      "loss": 2.0815,
      "step": 800
    },
    {
      "epoch": 0.024492416829745598,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000981509968003938,
      "loss": 1.7088,
      "step": 801
    },
    {
      "epoch": 0.024522994129158513,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009814792025596851,
      "loss": 2.6646,
      "step": 802
    },
    {
      "epoch": 0.024553571428571428,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000981448437115432,
      "loss": 1.9848,
      "step": 803
    },
    {
      "epoch": 0.024584148727984343,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009814176716711788,
      "loss": 2.1764,
      "step": 804
    },
    {
      "epoch": 0.02461472602739726,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009813869062269259,
      "loss": 2.1781,
      "step": 805
    },
    {
      "epoch": 0.024645303326810176,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000981356140782673,
      "loss": 2.2619,
      "step": 806
    },
    {
      "epoch": 0.02467588062622309,
      "grad_norm": 0.296875,
      "learning_rate": 0.00098132537533842,
      "loss": 2.1341,
      "step": 807
    },
    {
      "epoch": 0.024706457925636006,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009812946098941668,
      "loss": 2.3852,
      "step": 808
    },
    {
      "epoch": 0.024737035225048925,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009812638444499139,
      "loss": 2.1199,
      "step": 809
    },
    {
      "epoch": 0.02476761252446184,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000981233079005661,
      "loss": 2.1242,
      "step": 810
    },
    {
      "epoch": 0.024798189823874755,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009812023135614078,
      "loss": 2.0176,
      "step": 811
    },
    {
      "epoch": 0.02482876712328767,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009811715481171548,
      "loss": 2.2905,
      "step": 812
    },
    {
      "epoch": 0.02485934442270059,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009811407826729019,
      "loss": 2.0521,
      "step": 813
    },
    {
      "epoch": 0.024889921722113503,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009811100172286487,
      "loss": 2.2096,
      "step": 814
    },
    {
      "epoch": 0.02492049902152642,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009810792517843958,
      "loss": 2.0377,
      "step": 815
    },
    {
      "epoch": 0.024951076320939333,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009810484863401428,
      "loss": 2.088,
      "step": 816
    },
    {
      "epoch": 0.02498165362035225,
      "grad_norm": 0.2734375,
      "learning_rate": 0.00098101772089589,
      "loss": 2.0392,
      "step": 817
    },
    {
      "epoch": 0.025012230919765167,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009809869554516367,
      "loss": 1.9532,
      "step": 818
    },
    {
      "epoch": 0.02504280821917808,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009809561900073836,
      "loss": 1.8423,
      "step": 819
    },
    {
      "epoch": 0.025073385518590997,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009809254245631306,
      "loss": 1.9741,
      "step": 820
    },
    {
      "epoch": 0.025103962818003915,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009808946591188777,
      "loss": 2.2267,
      "step": 821
    },
    {
      "epoch": 0.02513454011741683,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009808638936746248,
      "loss": 2.0829,
      "step": 822
    },
    {
      "epoch": 0.025165117416829745,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009808331282303716,
      "loss": 2.098,
      "step": 823
    },
    {
      "epoch": 0.02519569471624266,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009808023627861187,
      "loss": 2.5244,
      "step": 824
    },
    {
      "epoch": 0.02522627201565558,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009807715973418657,
      "loss": 2.3111,
      "step": 825
    },
    {
      "epoch": 0.025256849315068493,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009807408318976126,
      "loss": 2.6661,
      "step": 826
    },
    {
      "epoch": 0.02528742661448141,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009807100664533596,
      "loss": 2.1613,
      "step": 827
    },
    {
      "epoch": 0.025318003913894323,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009806793010091067,
      "loss": 2.2934,
      "step": 828
    },
    {
      "epoch": 0.025348581213307242,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009806485355648535,
      "loss": 2.3306,
      "step": 829
    },
    {
      "epoch": 0.025379158512720157,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009806177701206006,
      "loss": 2.154,
      "step": 830
    },
    {
      "epoch": 0.025409735812133072,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009805870046763476,
      "loss": 2.0781,
      "step": 831
    },
    {
      "epoch": 0.025440313111545987,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009805562392320947,
      "loss": 2.1855,
      "step": 832
    },
    {
      "epoch": 0.025470890410958905,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009805254737878415,
      "loss": 2.2375,
      "step": 833
    },
    {
      "epoch": 0.02550146771037182,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009804947083435884,
      "loss": 2.1499,
      "step": 834
    },
    {
      "epoch": 0.025532045009784735,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009804639428993354,
      "loss": 1.9904,
      "step": 835
    },
    {
      "epoch": 0.02556262230919765,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009804331774550825,
      "loss": 2.2367,
      "step": 836
    },
    {
      "epoch": 0.02559319960861057,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009804024120108295,
      "loss": 2.1422,
      "step": 837
    },
    {
      "epoch": 0.025623776908023484,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009803716465665764,
      "loss": 1.8024,
      "step": 838
    },
    {
      "epoch": 0.0256543542074364,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009803408811223234,
      "loss": 1.9911,
      "step": 839
    },
    {
      "epoch": 0.025684931506849314,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009803101156780703,
      "loss": 1.7373,
      "step": 840
    },
    {
      "epoch": 0.025715508806262232,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009802793502338173,
      "loss": 2.2336,
      "step": 841
    },
    {
      "epoch": 0.025746086105675147,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009802485847895644,
      "loss": 2.4946,
      "step": 842
    },
    {
      "epoch": 0.025776663405088062,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009802178193453115,
      "loss": 2.1756,
      "step": 843
    },
    {
      "epoch": 0.025807240704500977,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009801870539010583,
      "loss": 2.0542,
      "step": 844
    },
    {
      "epoch": 0.025837818003913895,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009801562884568054,
      "loss": 2.1299,
      "step": 845
    },
    {
      "epoch": 0.02586839530332681,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009801255230125524,
      "loss": 1.9932,
      "step": 846
    },
    {
      "epoch": 0.025898972602739725,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009800947575682993,
      "loss": 2.2812,
      "step": 847
    },
    {
      "epoch": 0.02592954990215264,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009800639921240463,
      "loss": 2.0366,
      "step": 848
    },
    {
      "epoch": 0.02596012720156556,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009800332266797932,
      "loss": 1.783,
      "step": 849
    },
    {
      "epoch": 0.025990704500978474,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009800024612355402,
      "loss": 2.0871,
      "step": 850
    },
    {
      "epoch": 0.02602128180039139,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009799716957912873,
      "loss": 2.2102,
      "step": 851
    },
    {
      "epoch": 0.026051859099804304,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009799409303470343,
      "loss": 2.2663,
      "step": 852
    },
    {
      "epoch": 0.026082436399217222,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009799101649027812,
      "loss": 2.0608,
      "step": 853
    },
    {
      "epoch": 0.026113013698630137,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009798793994585282,
      "loss": 2.3333,
      "step": 854
    },
    {
      "epoch": 0.026143590998043052,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000979848634014275,
      "loss": 2.1475,
      "step": 855
    },
    {
      "epoch": 0.026174168297455967,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009798178685700221,
      "loss": 1.9479,
      "step": 856
    },
    {
      "epoch": 0.026204745596868886,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009797871031257692,
      "loss": 2.1517,
      "step": 857
    },
    {
      "epoch": 0.0262353228962818,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009797563376815162,
      "loss": 1.9605,
      "step": 858
    },
    {
      "epoch": 0.026265900195694716,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000979725572237263,
      "loss": 1.6808,
      "step": 859
    },
    {
      "epoch": 0.02629647749510763,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009796948067930101,
      "loss": 2.5485,
      "step": 860
    },
    {
      "epoch": 0.02632705479452055,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000979664041348757,
      "loss": 2.3103,
      "step": 861
    },
    {
      "epoch": 0.026357632093933464,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000979633275904504,
      "loss": 2.1248,
      "step": 862
    },
    {
      "epoch": 0.02638820939334638,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000979602510460251,
      "loss": 2.0145,
      "step": 863
    },
    {
      "epoch": 0.026418786692759294,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009795717450159982,
      "loss": 2.4758,
      "step": 864
    },
    {
      "epoch": 0.026449363992172212,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000979540979571745,
      "loss": 2.1144,
      "step": 865
    },
    {
      "epoch": 0.026479941291585127,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000979510214127492,
      "loss": 2.4388,
      "step": 866
    },
    {
      "epoch": 0.026510518590998042,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009794794486832391,
      "loss": 2.2054,
      "step": 867
    },
    {
      "epoch": 0.026541095890410957,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000979448683238986,
      "loss": 2.4001,
      "step": 868
    },
    {
      "epoch": 0.026571673189823876,
      "grad_norm": 0.2578125,
      "learning_rate": 0.000979417917794733,
      "loss": 1.7041,
      "step": 869
    },
    {
      "epoch": 0.02660225048923679,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009793871523504799,
      "loss": 2.1769,
      "step": 870
    },
    {
      "epoch": 0.026632827788649706,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000979356386906227,
      "loss": 2.0614,
      "step": 871
    },
    {
      "epoch": 0.02666340508806262,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000979325621461974,
      "loss": 2.216,
      "step": 872
    },
    {
      "epoch": 0.02669398238747554,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000979294856017721,
      "loss": 2.2333,
      "step": 873
    },
    {
      "epoch": 0.026724559686888454,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009792640905734679,
      "loss": 2.2314,
      "step": 874
    },
    {
      "epoch": 0.02675513698630137,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000979233325129215,
      "loss": 2.2208,
      "step": 875
    },
    {
      "epoch": 0.026785714285714284,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.0009792025596849618,
      "loss": 1.2562,
      "step": 876
    },
    {
      "epoch": 0.026816291585127203,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009791717942407088,
      "loss": 1.7127,
      "step": 877
    },
    {
      "epoch": 0.026846868884540118,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009791410287964559,
      "loss": 2.5562,
      "step": 878
    },
    {
      "epoch": 0.026877446183953033,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000979110263352203,
      "loss": 1.8955,
      "step": 879
    },
    {
      "epoch": 0.026908023483365948,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009790794979079498,
      "loss": 2.0911,
      "step": 880
    },
    {
      "epoch": 0.026938600782778866,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009790487324636968,
      "loss": 2.3061,
      "step": 881
    },
    {
      "epoch": 0.02696917808219178,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009790179670194437,
      "loss": 1.7597,
      "step": 882
    },
    {
      "epoch": 0.026999755381604696,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009789872015751907,
      "loss": 2.5069,
      "step": 883
    },
    {
      "epoch": 0.02703033268101761,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009789564361309378,
      "loss": 2.1877,
      "step": 884
    },
    {
      "epoch": 0.02706090998043053,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009789256706866846,
      "loss": 2.243,
      "step": 885
    },
    {
      "epoch": 0.027091487279843444,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009788949052424317,
      "loss": 2.379,
      "step": 886
    },
    {
      "epoch": 0.02712206457925636,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009788641397981788,
      "loss": 2.1544,
      "step": 887
    },
    {
      "epoch": 0.027152641878669274,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009788333743539258,
      "loss": 1.9046,
      "step": 888
    },
    {
      "epoch": 0.027183219178082193,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009788026089096727,
      "loss": 1.9345,
      "step": 889
    },
    {
      "epoch": 0.027213796477495108,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009787718434654197,
      "loss": 2.4915,
      "step": 890
    },
    {
      "epoch": 0.027244373776908023,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009787410780211666,
      "loss": 2.2406,
      "step": 891
    },
    {
      "epoch": 0.027274951076320938,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009787103125769136,
      "loss": 2.2487,
      "step": 892
    },
    {
      "epoch": 0.027305528375733856,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009786795471326607,
      "loss": 1.798,
      "step": 893
    },
    {
      "epoch": 0.02733610567514677,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009786487816884077,
      "loss": 2.1448,
      "step": 894
    },
    {
      "epoch": 0.027366682974559686,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009786180162441546,
      "loss": 2.3299,
      "step": 895
    },
    {
      "epoch": 0.0273972602739726,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009785872507999016,
      "loss": 2.1961,
      "step": 896
    },
    {
      "epoch": 0.02742783757338552,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009785564853556485,
      "loss": 2.2974,
      "step": 897
    },
    {
      "epoch": 0.027458414872798435,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009785257199113955,
      "loss": 1.9897,
      "step": 898
    },
    {
      "epoch": 0.02748899217221135,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009784949544671426,
      "loss": 2.4495,
      "step": 899
    },
    {
      "epoch": 0.027519569471624265,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009784641890228894,
      "loss": 1.8663,
      "step": 900
    },
    {
      "epoch": 0.027550146771037183,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009784334235786365,
      "loss": 2.1165,
      "step": 901
    },
    {
      "epoch": 0.027580724070450098,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009784026581343835,
      "loss": 2.0267,
      "step": 902
    },
    {
      "epoch": 0.027611301369863013,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009783718926901306,
      "loss": 2.6777,
      "step": 903
    },
    {
      "epoch": 0.027641878669275928,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009783411272458774,
      "loss": 2.2112,
      "step": 904
    },
    {
      "epoch": 0.027672455968688846,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009783103618016245,
      "loss": 1.8469,
      "step": 905
    },
    {
      "epoch": 0.02770303326810176,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009782795963573713,
      "loss": 1.9006,
      "step": 906
    },
    {
      "epoch": 0.027733610567514676,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009782488309131184,
      "loss": 2.5071,
      "step": 907
    },
    {
      "epoch": 0.02776418786692759,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009782180654688655,
      "loss": 2.1744,
      "step": 908
    },
    {
      "epoch": 0.02779476516634051,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009781873000246125,
      "loss": 2.1309,
      "step": 909
    },
    {
      "epoch": 0.027825342465753425,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009781565345803594,
      "loss": 1.9138,
      "step": 910
    },
    {
      "epoch": 0.02785591976516634,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009781257691361062,
      "loss": 2.4596,
      "step": 911
    },
    {
      "epoch": 0.027886497064579255,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009780950036918533,
      "loss": 2.3122,
      "step": 912
    },
    {
      "epoch": 0.027917074363992173,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009780642382476003,
      "loss": 2.3526,
      "step": 913
    },
    {
      "epoch": 0.027947651663405088,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009780334728033474,
      "loss": 2.01,
      "step": 914
    },
    {
      "epoch": 0.027978228962818003,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009780027073590942,
      "loss": 2.4208,
      "step": 915
    },
    {
      "epoch": 0.028008806262230918,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009779719419148413,
      "loss": 2.1916,
      "step": 916
    },
    {
      "epoch": 0.028039383561643837,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009779411764705883,
      "loss": 2.3642,
      "step": 917
    },
    {
      "epoch": 0.02806996086105675,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009779104110263352,
      "loss": 1.8083,
      "step": 918
    },
    {
      "epoch": 0.028100538160469667,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009778796455820822,
      "loss": 2.3414,
      "step": 919
    },
    {
      "epoch": 0.02813111545988258,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009778488801378293,
      "loss": 2.4784,
      "step": 920
    },
    {
      "epoch": 0.0281616927592955,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009778181146935761,
      "loss": 2.0251,
      "step": 921
    },
    {
      "epoch": 0.028192270058708415,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009777873492493232,
      "loss": 2.0359,
      "step": 922
    },
    {
      "epoch": 0.02822284735812133,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009777565838050702,
      "loss": 1.7926,
      "step": 923
    },
    {
      "epoch": 0.028253424657534245,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009777258183608173,
      "loss": 2.3113,
      "step": 924
    },
    {
      "epoch": 0.028284001956947163,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009776950529165641,
      "loss": 1.8365,
      "step": 925
    },
    {
      "epoch": 0.02831457925636008,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009776642874723112,
      "loss": 2.3397,
      "step": 926
    },
    {
      "epoch": 0.028345156555772993,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000977633522028058,
      "loss": 2.3901,
      "step": 927
    },
    {
      "epoch": 0.02837573385518591,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000977602756583805,
      "loss": 1.6438,
      "step": 928
    },
    {
      "epoch": 0.028406311154598827,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009775719911395522,
      "loss": 1.7869,
      "step": 929
    },
    {
      "epoch": 0.028436888454011742,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000977541225695299,
      "loss": 2.0715,
      "step": 930
    },
    {
      "epoch": 0.028467465753424657,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000977510460251046,
      "loss": 2.3589,
      "step": 931
    },
    {
      "epoch": 0.028498043052837572,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000977479694806793,
      "loss": 2.1749,
      "step": 932
    },
    {
      "epoch": 0.02852862035225049,
      "grad_norm": 0.298828125,
      "learning_rate": 0.00097744892936254,
      "loss": 2.0478,
      "step": 933
    },
    {
      "epoch": 0.028559197651663405,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000977418163918287,
      "loss": 2.0807,
      "step": 934
    },
    {
      "epoch": 0.02858977495107632,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000977387398474034,
      "loss": 2.0588,
      "step": 935
    },
    {
      "epoch": 0.028620352250489235,
      "grad_norm": 0.265625,
      "learning_rate": 0.000977356633029781,
      "loss": 1.771,
      "step": 936
    },
    {
      "epoch": 0.028650929549902154,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000977325867585528,
      "loss": 1.6448,
      "step": 937
    },
    {
      "epoch": 0.02868150684931507,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000977295102141275,
      "loss": 2.1612,
      "step": 938
    },
    {
      "epoch": 0.028712084148727984,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009772643366970219,
      "loss": 1.8657,
      "step": 939
    },
    {
      "epoch": 0.0287426614481409,
      "grad_norm": 0.265625,
      "learning_rate": 0.000977233571252769,
      "loss": 1.7873,
      "step": 940
    },
    {
      "epoch": 0.028773238747553817,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000977202805808516,
      "loss": 2.3456,
      "step": 941
    },
    {
      "epoch": 0.028803816046966732,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009771720403642628,
      "loss": 2.1959,
      "step": 942
    },
    {
      "epoch": 0.028834393346379647,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009771412749200099,
      "loss": 2.1689,
      "step": 943
    },
    {
      "epoch": 0.028864970645792562,
      "grad_norm": 0.296875,
      "learning_rate": 0.000977110509475757,
      "loss": 2.2486,
      "step": 944
    },
    {
      "epoch": 0.02889554794520548,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009770797440315038,
      "loss": 2.1049,
      "step": 945
    },
    {
      "epoch": 0.028926125244618395,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009770489785872508,
      "loss": 2.2151,
      "step": 946
    },
    {
      "epoch": 0.02895670254403131,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009770182131429977,
      "loss": 2.2341,
      "step": 947
    },
    {
      "epoch": 0.028987279843444225,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009769874476987447,
      "loss": 2.5223,
      "step": 948
    },
    {
      "epoch": 0.029017857142857144,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009769566822544918,
      "loss": 2.0931,
      "step": 949
    },
    {
      "epoch": 0.02904843444227006,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009769259168102389,
      "loss": 1.9374,
      "step": 950
    },
    {
      "epoch": 0.029079011741682974,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009768951513659857,
      "loss": 2.3508,
      "step": 951
    },
    {
      "epoch": 0.02910958904109589,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009768643859217328,
      "loss": 2.1982,
      "step": 952
    },
    {
      "epoch": 0.029140166340508807,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009768336204774796,
      "loss": 2.5278,
      "step": 953
    },
    {
      "epoch": 0.029170743639921722,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009768028550332267,
      "loss": 2.0315,
      "step": 954
    },
    {
      "epoch": 0.029201320939334637,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009767720895889737,
      "loss": 2.1885,
      "step": 955
    },
    {
      "epoch": 0.029231898238747552,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009767413241447208,
      "loss": 2.4887,
      "step": 956
    },
    {
      "epoch": 0.02926247553816047,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009767105587004676,
      "loss": 2.1949,
      "step": 957
    },
    {
      "epoch": 0.029293052837573386,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009766797932562147,
      "loss": 2.0558,
      "step": 958
    },
    {
      "epoch": 0.0293236301369863,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009766490278119617,
      "loss": 2.0503,
      "step": 959
    },
    {
      "epoch": 0.029354207436399216,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009766182623677086,
      "loss": 2.1204,
      "step": 960
    },
    {
      "epoch": 0.029384784735812134,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009765874969234556,
      "loss": 1.8535,
      "step": 961
    },
    {
      "epoch": 0.02941536203522505,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009765567314792026,
      "loss": 2.1769,
      "step": 962
    },
    {
      "epoch": 0.029445939334637964,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009765259660349496,
      "loss": 2.0202,
      "step": 963
    },
    {
      "epoch": 0.02947651663405088,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009764952005906965,
      "loss": 2.3245,
      "step": 964
    },
    {
      "epoch": 0.029507093933463797,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009764644351464435,
      "loss": 2.1373,
      "step": 965
    },
    {
      "epoch": 0.029537671232876712,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009764336697021905,
      "loss": 2.29,
      "step": 966
    },
    {
      "epoch": 0.029568248532289627,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009764029042579375,
      "loss": 2.6329,
      "step": 967
    },
    {
      "epoch": 0.029598825831702542,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009763721388136845,
      "loss": 2.3327,
      "step": 968
    },
    {
      "epoch": 0.02962940313111546,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009763413733694315,
      "loss": 1.7512,
      "step": 969
    },
    {
      "epoch": 0.029659980430528376,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009763106079251785,
      "loss": 2.1245,
      "step": 970
    },
    {
      "epoch": 0.02969055772994129,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009762798424809254,
      "loss": 2.2932,
      "step": 971
    },
    {
      "epoch": 0.029721135029354206,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009762490770366724,
      "loss": 1.9944,
      "step": 972
    },
    {
      "epoch": 0.029751712328767124,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009762183115924193,
      "loss": 1.7469,
      "step": 973
    },
    {
      "epoch": 0.02978228962818004,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009761875461481664,
      "loss": 2.298,
      "step": 974
    },
    {
      "epoch": 0.029812866927592954,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009761567807039134,
      "loss": 2.3444,
      "step": 975
    },
    {
      "epoch": 0.02984344422700587,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009761260152596604,
      "loss": 2.3028,
      "step": 976
    },
    {
      "epoch": 0.029874021526418788,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009760952498154074,
      "loss": 2.1269,
      "step": 977
    },
    {
      "epoch": 0.029904598825831703,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009760644843711543,
      "loss": 2.2402,
      "step": 978
    },
    {
      "epoch": 0.029935176125244618,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009760337189269013,
      "loss": 2.0563,
      "step": 979
    },
    {
      "epoch": 0.029965753424657533,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009760029534826483,
      "loss": 2.1139,
      "step": 980
    },
    {
      "epoch": 0.02999633072407045,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009759721880383953,
      "loss": 1.8635,
      "step": 981
    },
    {
      "epoch": 0.030026908023483366,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009759414225941423,
      "loss": 1.6653,
      "step": 982
    },
    {
      "epoch": 0.03005748532289628,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009759106571498893,
      "loss": 2.3539,
      "step": 983
    },
    {
      "epoch": 0.030088062622309196,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009758798917056363,
      "loss": 2.4878,
      "step": 984
    },
    {
      "epoch": 0.030118639921722114,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009758491262613832,
      "loss": 2.344,
      "step": 985
    },
    {
      "epoch": 0.03014921722113503,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009758183608171302,
      "loss": 2.4493,
      "step": 986
    },
    {
      "epoch": 0.030179794520547944,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009757875953728772,
      "loss": 2.3297,
      "step": 987
    },
    {
      "epoch": 0.03021037181996086,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009757568299286241,
      "loss": 1.7962,
      "step": 988
    },
    {
      "epoch": 0.030240949119373778,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009757260644843712,
      "loss": 2.1487,
      "step": 989
    },
    {
      "epoch": 0.030271526418786693,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009756952990401181,
      "loss": 1.8397,
      "step": 990
    },
    {
      "epoch": 0.030302103718199608,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009756645335958652,
      "loss": 2.2347,
      "step": 991
    },
    {
      "epoch": 0.030332681017612523,
      "grad_norm": 0.296875,
      "learning_rate": 0.000975633768151612,
      "loss": 2.4162,
      "step": 992
    },
    {
      "epoch": 0.03036325831702544,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009756030027073591,
      "loss": 2.0915,
      "step": 993
    },
    {
      "epoch": 0.030393835616438356,
      "grad_norm": 0.328125,
      "learning_rate": 0.000975572237263106,
      "loss": 2.5844,
      "step": 994
    },
    {
      "epoch": 0.03042441291585127,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009755414718188531,
      "loss": 2.2761,
      "step": 995
    },
    {
      "epoch": 0.030454990215264186,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009755107063746,
      "loss": 2.3393,
      "step": 996
    },
    {
      "epoch": 0.030485567514677105,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009754799409303471,
      "loss": 1.9763,
      "step": 997
    },
    {
      "epoch": 0.03051614481409002,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009754491754860941,
      "loss": 2.6417,
      "step": 998
    },
    {
      "epoch": 0.030546722113502935,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009754184100418411,
      "loss": 2.732,
      "step": 999
    },
    {
      "epoch": 0.03057729941291585,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000975387644597588,
      "loss": 2.3782,
      "step": 1000
    },
    {
      "epoch": 0.03057729941291585,
      "eval_loss": 1.7089320421218872,
      "eval_runtime": 77.4998,
      "eval_samples_per_second": 11.561,
      "eval_steps_per_second": 0.361,
      "step": 1000
    },
    {
      "epoch": 0.03057729941291585,
      "eval/hellaswag_acc": 0.37402907787293366,
      "eval/hellaswag_acc_norm": 0.4711212905795658,
      "eval_hellaswag_elapsed_time": 348.66342782974243,
      "step": 1000
    },
    {
      "epoch": 0.030607876712328768,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000975356879153335,
      "loss": 2.2296,
      "step": 1001
    },
    {
      "epoch": 0.030638454011741683,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000975326113709082,
      "loss": 1.8636,
      "step": 1002
    },
    {
      "epoch": 0.030669031311154598,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000975295348264829,
      "loss": 2.4135,
      "step": 1003
    },
    {
      "epoch": 0.030699608610567513,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000975264582820576,
      "loss": 2.2721,
      "step": 1004
    },
    {
      "epoch": 0.03073018590998043,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009752338173763229,
      "loss": 2.1379,
      "step": 1005
    },
    {
      "epoch": 0.030760763209393346,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00097520305193207,
      "loss": 1.7474,
      "step": 1006
    },
    {
      "epoch": 0.03079134050880626,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009751722864878168,
      "loss": 2.0681,
      "step": 1007
    },
    {
      "epoch": 0.030821917808219176,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009751415210435639,
      "loss": 2.5726,
      "step": 1008
    },
    {
      "epoch": 0.030852495107632095,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009751107555993108,
      "loss": 1.7803,
      "step": 1009
    },
    {
      "epoch": 0.03088307240704501,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009750799901550579,
      "loss": 2.122,
      "step": 1010
    },
    {
      "epoch": 0.030913649706457925,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009750492247108048,
      "loss": 2.0776,
      "step": 1011
    },
    {
      "epoch": 0.03094422700587084,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009750184592665519,
      "loss": 2.3034,
      "step": 1012
    },
    {
      "epoch": 0.030974804305283758,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009749876938222988,
      "loss": 1.9105,
      "step": 1013
    },
    {
      "epoch": 0.031005381604696673,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009749569283780458,
      "loss": 2.0849,
      "step": 1014
    },
    {
      "epoch": 0.031035958904109588,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009749261629337927,
      "loss": 2.111,
      "step": 1015
    },
    {
      "epoch": 0.031066536203522503,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009748953974895398,
      "loss": 2.323,
      "step": 1016
    },
    {
      "epoch": 0.03109711350293542,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009748646320452868,
      "loss": 2.1295,
      "step": 1017
    },
    {
      "epoch": 0.031127690802348337,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009748338666010338,
      "loss": 2.3626,
      "step": 1018
    },
    {
      "epoch": 0.03115826810176125,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0009748031011567808,
      "loss": 1.7198,
      "step": 1019
    },
    {
      "epoch": 0.031188845401174167,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009747723357125277,
      "loss": 1.9743,
      "step": 1020
    },
    {
      "epoch": 0.031219422700587085,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009747415702682747,
      "loss": 2.4514,
      "step": 1021
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009747108048240216,
      "loss": 2.0307,
      "step": 1022
    },
    {
      "epoch": 0.031280577299412915,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009746800393797687,
      "loss": 2.0529,
      "step": 1023
    },
    {
      "epoch": 0.03131115459882583,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009746492739355156,
      "loss": 2.1232,
      "step": 1024
    },
    {
      "epoch": 0.031341731898238745,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009746185084912627,
      "loss": 2.1907,
      "step": 1025
    },
    {
      "epoch": 0.03137230919765167,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009745877430470096,
      "loss": 2.0523,
      "step": 1026
    },
    {
      "epoch": 0.03140288649706458,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009745569776027567,
      "loss": 1.992,
      "step": 1027
    },
    {
      "epoch": 0.0314334637964775,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009745262121585035,
      "loss": 2.2444,
      "step": 1028
    },
    {
      "epoch": 0.03146404109589041,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009744954467142506,
      "loss": 2.1456,
      "step": 1029
    },
    {
      "epoch": 0.03149461839530333,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009744646812699975,
      "loss": 1.9374,
      "step": 1030
    },
    {
      "epoch": 0.03152519569471624,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009744339158257446,
      "loss": 2.0736,
      "step": 1031
    },
    {
      "epoch": 0.03155577299412916,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009744031503814915,
      "loss": 2.2593,
      "step": 1032
    },
    {
      "epoch": 0.03158635029354207,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009743723849372386,
      "loss": 2.5122,
      "step": 1033
    },
    {
      "epoch": 0.031616927592954994,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009743416194929855,
      "loss": 2.2195,
      "step": 1034
    },
    {
      "epoch": 0.03164750489236791,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009743108540487324,
      "loss": 2.3259,
      "step": 1035
    },
    {
      "epoch": 0.031678082191780824,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009742800886044794,
      "loss": 2.2944,
      "step": 1036
    },
    {
      "epoch": 0.03170865949119374,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009742493231602264,
      "loss": 2.1374,
      "step": 1037
    },
    {
      "epoch": 0.031739236790606654,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009742185577159734,
      "loss": 2.5395,
      "step": 1038
    },
    {
      "epoch": 0.03176981409001957,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009741877922717204,
      "loss": 1.9935,
      "step": 1039
    },
    {
      "epoch": 0.031800391389432484,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009741570268274675,
      "loss": 2.2548,
      "step": 1040
    },
    {
      "epoch": 0.0318309686888454,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009741262613832144,
      "loss": 1.9111,
      "step": 1041
    },
    {
      "epoch": 0.03186154598825832,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009740954959389614,
      "loss": 2.27,
      "step": 1042
    },
    {
      "epoch": 0.031892123287671235,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009740647304947083,
      "loss": 2.0582,
      "step": 1043
    },
    {
      "epoch": 0.03192270058708415,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009740339650504554,
      "loss": 2.4442,
      "step": 1044
    },
    {
      "epoch": 0.031953277886497065,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009740031996062023,
      "loss": 2.2958,
      "step": 1045
    },
    {
      "epoch": 0.03198385518590998,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009739724341619494,
      "loss": 1.9731,
      "step": 1046
    },
    {
      "epoch": 0.032014432485322895,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009739416687176963,
      "loss": 2.3865,
      "step": 1047
    },
    {
      "epoch": 0.03204500978473581,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009739109032734434,
      "loss": 2.3721,
      "step": 1048
    },
    {
      "epoch": 0.032075587084148725,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009738801378291902,
      "loss": 2.2074,
      "step": 1049
    },
    {
      "epoch": 0.03210616438356165,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009738493723849372,
      "loss": 2.1065,
      "step": 1050
    },
    {
      "epoch": 0.03213674168297456,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009738186069406842,
      "loss": 2.0788,
      "step": 1051
    },
    {
      "epoch": 0.03216731898238748,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009737878414964312,
      "loss": 2.2479,
      "step": 1052
    },
    {
      "epoch": 0.03219789628180039,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009737570760521782,
      "loss": 2.1733,
      "step": 1053
    },
    {
      "epoch": 0.03222847358121331,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009737263106079252,
      "loss": 2.1101,
      "step": 1054
    },
    {
      "epoch": 0.03225905088062622,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009736955451636722,
      "loss": 1.9757,
      "step": 1055
    },
    {
      "epoch": 0.03228962818003914,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009736647797194191,
      "loss": 1.9829,
      "step": 1056
    },
    {
      "epoch": 0.03232020547945205,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009736340142751661,
      "loss": 1.9643,
      "step": 1057
    },
    {
      "epoch": 0.032350782778864974,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009736032488309131,
      "loss": 2.1574,
      "step": 1058
    },
    {
      "epoch": 0.03238136007827789,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009735724833866601,
      "loss": 1.7307,
      "step": 1059
    },
    {
      "epoch": 0.032411937377690804,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009735417179424071,
      "loss": 2.2624,
      "step": 1060
    },
    {
      "epoch": 0.03244251467710372,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009735109524981542,
      "loss": 2.5662,
      "step": 1061
    },
    {
      "epoch": 0.032473091976516634,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009734801870539011,
      "loss": 2.4176,
      "step": 1062
    },
    {
      "epoch": 0.03250366927592955,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009734494216096482,
      "loss": 2.3263,
      "step": 1063
    },
    {
      "epoch": 0.032534246575342464,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000973418656165395,
      "loss": 2.118,
      "step": 1064
    },
    {
      "epoch": 0.03256482387475538,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009733878907211421,
      "loss": 2.26,
      "step": 1065
    },
    {
      "epoch": 0.0325954011741683,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000973357125276889,
      "loss": 2.1214,
      "step": 1066
    },
    {
      "epoch": 0.032625978473581216,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000973326359832636,
      "loss": 2.4882,
      "step": 1067
    },
    {
      "epoch": 0.03265655577299413,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000973295594388383,
      "loss": 2.3409,
      "step": 1068
    },
    {
      "epoch": 0.032687133072407046,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00097326482894413,
      "loss": 2.179,
      "step": 1069
    },
    {
      "epoch": 0.03271771037181996,
      "grad_norm": 0.3125,
      "learning_rate": 0.000973234063499877,
      "loss": 2.3666,
      "step": 1070
    },
    {
      "epoch": 0.032748287671232876,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009732032980556239,
      "loss": 2.4308,
      "step": 1071
    },
    {
      "epoch": 0.03277886497064579,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009731725326113709,
      "loss": 2.2752,
      "step": 1072
    },
    {
      "epoch": 0.032809442270058706,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009731417671671179,
      "loss": 1.8922,
      "step": 1073
    },
    {
      "epoch": 0.03284001956947163,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009731110017228649,
      "loss": 2.0459,
      "step": 1074
    },
    {
      "epoch": 0.03287059686888454,
      "grad_norm": 0.34375,
      "learning_rate": 0.0009730802362786119,
      "loss": 1.9804,
      "step": 1075
    },
    {
      "epoch": 0.03290117416829746,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009730494708343589,
      "loss": 2.326,
      "step": 1076
    },
    {
      "epoch": 0.03293175146771037,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009730187053901059,
      "loss": 2.1768,
      "step": 1077
    },
    {
      "epoch": 0.03296232876712329,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009729879399458528,
      "loss": 2.3559,
      "step": 1078
    },
    {
      "epoch": 0.0329929060665362,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009729571745015998,
      "loss": 2.0022,
      "step": 1079
    },
    {
      "epoch": 0.03302348336594912,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009729264090573468,
      "loss": 2.2436,
      "step": 1080
    },
    {
      "epoch": 0.03305406066536203,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009728956436130938,
      "loss": 2.1579,
      "step": 1081
    },
    {
      "epoch": 0.033084637964774954,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009728648781688407,
      "loss": 2.4278,
      "step": 1082
    },
    {
      "epoch": 0.03311521526418787,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009728341127245878,
      "loss": 1.8663,
      "step": 1083
    },
    {
      "epoch": 0.033145792563600784,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009728033472803348,
      "loss": 1.9314,
      "step": 1084
    },
    {
      "epoch": 0.0331763698630137,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0009727725818360817,
      "loss": 2.1799,
      "step": 1085
    },
    {
      "epoch": 0.033206947162426614,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009727418163918287,
      "loss": 2.0131,
      "step": 1086
    },
    {
      "epoch": 0.03323752446183953,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009727110509475757,
      "loss": 1.6526,
      "step": 1087
    },
    {
      "epoch": 0.033268101761252444,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009726802855033227,
      "loss": 2.2197,
      "step": 1088
    },
    {
      "epoch": 0.03329867906066536,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009726495200590697,
      "loss": 2.4195,
      "step": 1089
    },
    {
      "epoch": 0.03332925636007828,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009726187546148167,
      "loss": 2.0719,
      "step": 1090
    },
    {
      "epoch": 0.033359833659491196,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009725879891705637,
      "loss": 2.2267,
      "step": 1091
    },
    {
      "epoch": 0.03339041095890411,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009725572237263106,
      "loss": 2.1194,
      "step": 1092
    },
    {
      "epoch": 0.033420988258317026,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009725264582820576,
      "loss": 2.1615,
      "step": 1093
    },
    {
      "epoch": 0.03345156555772994,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009724956928378046,
      "loss": 2.262,
      "step": 1094
    },
    {
      "epoch": 0.033482142857142856,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009724649273935516,
      "loss": 2.5989,
      "step": 1095
    },
    {
      "epoch": 0.03351272015655577,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009724341619492986,
      "loss": 1.9926,
      "step": 1096
    },
    {
      "epoch": 0.033543297455968686,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0009724033965050455,
      "loss": 1.5857,
      "step": 1097
    },
    {
      "epoch": 0.03357387475538161,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009723726310607926,
      "loss": 2.3406,
      "step": 1098
    },
    {
      "epoch": 0.03360445205479452,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009723418656165394,
      "loss": 2.3214,
      "step": 1099
    },
    {
      "epoch": 0.03363502935420744,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009723111001722865,
      "loss": 2.2255,
      "step": 1100
    },
    {
      "epoch": 0.03366560665362035,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009722803347280334,
      "loss": 2.0172,
      "step": 1101
    },
    {
      "epoch": 0.03369618395303327,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009722495692837805,
      "loss": 2.122,
      "step": 1102
    },
    {
      "epoch": 0.03372676125244618,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009722188038395274,
      "loss": 1.9894,
      "step": 1103
    },
    {
      "epoch": 0.0337573385518591,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009721880383952745,
      "loss": 2.3441,
      "step": 1104
    },
    {
      "epoch": 0.03378791585127201,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009721572729510215,
      "loss": 2.3697,
      "step": 1105
    },
    {
      "epoch": 0.033818493150684935,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009721265075067684,
      "loss": 2.4859,
      "step": 1106
    },
    {
      "epoch": 0.03384907045009785,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009720957420625154,
      "loss": 2.1236,
      "step": 1107
    },
    {
      "epoch": 0.033879647749510765,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009720649766182624,
      "loss": 2.4694,
      "step": 1108
    },
    {
      "epoch": 0.03391022504892368,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009720342111740094,
      "loss": 2.2039,
      "step": 1109
    },
    {
      "epoch": 0.033940802348336595,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009720034457297564,
      "loss": 2.2258,
      "step": 1110
    },
    {
      "epoch": 0.03397137964774951,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009719726802855034,
      "loss": 2.2725,
      "step": 1111
    },
    {
      "epoch": 0.034001956947162425,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009719419148412503,
      "loss": 1.8776,
      "step": 1112
    },
    {
      "epoch": 0.03403253424657534,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009719111493969973,
      "loss": 2.5019,
      "step": 1113
    },
    {
      "epoch": 0.03406311154598826,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009718803839527442,
      "loss": 2.1998,
      "step": 1114
    },
    {
      "epoch": 0.03409368884540118,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009718496185084913,
      "loss": 2.1832,
      "step": 1115
    },
    {
      "epoch": 0.03412426614481409,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009718188530642382,
      "loss": 2.249,
      "step": 1116
    },
    {
      "epoch": 0.03415484344422701,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009717880876199853,
      "loss": 2.1951,
      "step": 1117
    },
    {
      "epoch": 0.03418542074363992,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009717573221757322,
      "loss": 2.4775,
      "step": 1118
    },
    {
      "epoch": 0.03421599804305284,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009717265567314793,
      "loss": 1.8342,
      "step": 1119
    },
    {
      "epoch": 0.03424657534246575,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009716957912872261,
      "loss": 2.2213,
      "step": 1120
    },
    {
      "epoch": 0.034277152641878667,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009716650258429732,
      "loss": 2.3585,
      "step": 1121
    },
    {
      "epoch": 0.03430772994129159,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009716342603987201,
      "loss": 2.2536,
      "step": 1122
    },
    {
      "epoch": 0.0343383072407045,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009716034949544672,
      "loss": 2.1217,
      "step": 1123
    },
    {
      "epoch": 0.03436888454011742,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009715727295102141,
      "loss": 2.1666,
      "step": 1124
    },
    {
      "epoch": 0.03439946183953033,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009715419640659612,
      "loss": 2.2246,
      "step": 1125
    },
    {
      "epoch": 0.03443003913894325,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009715111986217082,
      "loss": 1.8107,
      "step": 1126
    },
    {
      "epoch": 0.03446061643835616,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000971480433177455,
      "loss": 2.4798,
      "step": 1127
    },
    {
      "epoch": 0.03449119373776908,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000971449667733202,
      "loss": 2.1827,
      "step": 1128
    },
    {
      "epoch": 0.03452177103718199,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000971418902288949,
      "loss": 2.3265,
      "step": 1129
    },
    {
      "epoch": 0.034552348336594915,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009713881368446961,
      "loss": 2.2076,
      "step": 1130
    },
    {
      "epoch": 0.03458292563600783,
      "grad_norm": 0.26171875,
      "learning_rate": 0.000971357371400443,
      "loss": 1.69,
      "step": 1131
    },
    {
      "epoch": 0.034613502935420745,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009713266059561901,
      "loss": 2.3818,
      "step": 1132
    },
    {
      "epoch": 0.03464408023483366,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000971295840511937,
      "loss": 2.1905,
      "step": 1133
    },
    {
      "epoch": 0.034674657534246575,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009712650750676841,
      "loss": 1.9218,
      "step": 1134
    },
    {
      "epoch": 0.03470523483365949,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009712343096234309,
      "loss": 2.4976,
      "step": 1135
    },
    {
      "epoch": 0.034735812133072405,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000971203544179178,
      "loss": 2.1131,
      "step": 1136
    },
    {
      "epoch": 0.03476638943248532,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009711727787349249,
      "loss": 2.267,
      "step": 1137
    },
    {
      "epoch": 0.03479696673189824,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000971142013290672,
      "loss": 2.2041,
      "step": 1138
    },
    {
      "epoch": 0.03482754403131116,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009711112478464189,
      "loss": 2.0998,
      "step": 1139
    },
    {
      "epoch": 0.03485812133072407,
      "grad_norm": 0.296875,
      "learning_rate": 0.000971080482402166,
      "loss": 2.2438,
      "step": 1140
    },
    {
      "epoch": 0.03488869863013699,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009710497169579129,
      "loss": 2.3501,
      "step": 1141
    },
    {
      "epoch": 0.0349192759295499,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009710189515136599,
      "loss": 2.4599,
      "step": 1142
    },
    {
      "epoch": 0.03494985322896282,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009709881860694068,
      "loss": 2.3537,
      "step": 1143
    },
    {
      "epoch": 0.03498043052837573,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009709574206251538,
      "loss": 2.2385,
      "step": 1144
    },
    {
      "epoch": 0.03501100782778865,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009709266551809008,
      "loss": 2.3265,
      "step": 1145
    },
    {
      "epoch": 0.03504158512720157,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009708958897366478,
      "loss": 2.785,
      "step": 1146
    },
    {
      "epoch": 0.035072162426614484,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009708651242923949,
      "loss": 2.4769,
      "step": 1147
    },
    {
      "epoch": 0.0351027397260274,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009708343588481418,
      "loss": 2.2029,
      "step": 1148
    },
    {
      "epoch": 0.035133317025440314,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009708035934038888,
      "loss": 1.8657,
      "step": 1149
    },
    {
      "epoch": 0.03516389432485323,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009707728279596357,
      "loss": 1.6087,
      "step": 1150
    },
    {
      "epoch": 0.035194471624266144,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009707420625153828,
      "loss": 1.876,
      "step": 1151
    },
    {
      "epoch": 0.03522504892367906,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009707112970711297,
      "loss": 2.1397,
      "step": 1152
    },
    {
      "epoch": 0.035255626223091974,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009706805316268768,
      "loss": 1.9328,
      "step": 1153
    },
    {
      "epoch": 0.035286203522504896,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009706497661826237,
      "loss": 2.2053,
      "step": 1154
    },
    {
      "epoch": 0.03531678082191781,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009706190007383708,
      "loss": 1.9018,
      "step": 1155
    },
    {
      "epoch": 0.035347358121330726,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009705882352941176,
      "loss": 2.2806,
      "step": 1156
    },
    {
      "epoch": 0.03537793542074364,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009705574698498647,
      "loss": 2.2019,
      "step": 1157
    },
    {
      "epoch": 0.035408512720156556,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009705267044056116,
      "loss": 2.2028,
      "step": 1158
    },
    {
      "epoch": 0.03543909001956947,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009704959389613586,
      "loss": 2.002,
      "step": 1159
    },
    {
      "epoch": 0.035469667318982386,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009704651735171056,
      "loss": 1.9443,
      "step": 1160
    },
    {
      "epoch": 0.0355002446183953,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009704344080728526,
      "loss": 2.0293,
      "step": 1161
    },
    {
      "epoch": 0.03553082191780822,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009704036426285996,
      "loss": 2.0486,
      "step": 1162
    },
    {
      "epoch": 0.03556139921722114,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009703728771843465,
      "loss": 1.639,
      "step": 1163
    },
    {
      "epoch": 0.03559197651663405,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009703421117400935,
      "loss": 2.0629,
      "step": 1164
    },
    {
      "epoch": 0.03562255381604697,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009703113462958405,
      "loss": 2.3481,
      "step": 1165
    },
    {
      "epoch": 0.03565313111545988,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009702805808515875,
      "loss": 2.2117,
      "step": 1166
    },
    {
      "epoch": 0.0356837084148728,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009702498154073345,
      "loss": 2.4139,
      "step": 1167
    },
    {
      "epoch": 0.03571428571428571,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009702190499630816,
      "loss": 2.1413,
      "step": 1168
    },
    {
      "epoch": 0.03574486301369863,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009701882845188285,
      "loss": 2.0232,
      "step": 1169
    },
    {
      "epoch": 0.03577544031311155,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009701575190745755,
      "loss": 2.2274,
      "step": 1170
    },
    {
      "epoch": 0.035806017612524464,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009701267536303224,
      "loss": 2.1414,
      "step": 1171
    },
    {
      "epoch": 0.03583659491193738,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009700959881860695,
      "loss": 1.6931,
      "step": 1172
    },
    {
      "epoch": 0.035867172211350294,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009700652227418164,
      "loss": 2.7194,
      "step": 1173
    },
    {
      "epoch": 0.03589774951076321,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009700344572975634,
      "loss": 1.9507,
      "step": 1174
    },
    {
      "epoch": 0.035928326810176124,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009700036918533104,
      "loss": 2.2905,
      "step": 1175
    },
    {
      "epoch": 0.03595890410958904,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009699729264090574,
      "loss": 2.1676,
      "step": 1176
    },
    {
      "epoch": 0.035989481409001954,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009699421609648043,
      "loss": 2.5923,
      "step": 1177
    },
    {
      "epoch": 0.036020058708414876,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009699113955205513,
      "loss": 2.2132,
      "step": 1178
    },
    {
      "epoch": 0.03605063600782779,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009698806300762983,
      "loss": 1.7479,
      "step": 1179
    },
    {
      "epoch": 0.036081213307240706,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009698498646320453,
      "loss": 1.9469,
      "step": 1180
    },
    {
      "epoch": 0.03611179060665362,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009698190991877923,
      "loss": 1.8405,
      "step": 1181
    },
    {
      "epoch": 0.036142367906066536,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0009697883337435393,
      "loss": 1.5847,
      "step": 1182
    },
    {
      "epoch": 0.03617294520547945,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009697575682992863,
      "loss": 2.0201,
      "step": 1183
    },
    {
      "epoch": 0.036203522504892366,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009697268028550332,
      "loss": 1.919,
      "step": 1184
    },
    {
      "epoch": 0.03623409980430528,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009696960374107802,
      "loss": 1.9477,
      "step": 1185
    },
    {
      "epoch": 0.0362646771037182,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009696652719665272,
      "loss": 2.1362,
      "step": 1186
    },
    {
      "epoch": 0.03629525440313112,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009696345065222742,
      "loss": 2.3893,
      "step": 1187
    },
    {
      "epoch": 0.03632583170254403,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009696037410780212,
      "loss": 2.0207,
      "step": 1188
    },
    {
      "epoch": 0.03635640900195695,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009695729756337681,
      "loss": 2.5068,
      "step": 1189
    },
    {
      "epoch": 0.03638698630136986,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009695422101895152,
      "loss": 2.4169,
      "step": 1190
    },
    {
      "epoch": 0.03641756360078278,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000969511444745262,
      "loss": 2.0715,
      "step": 1191
    },
    {
      "epoch": 0.03644814090019569,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009694806793010091,
      "loss": 1.8499,
      "step": 1192
    },
    {
      "epoch": 0.03647871819960861,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000969449913856756,
      "loss": 2.1067,
      "step": 1193
    },
    {
      "epoch": 0.03650929549902153,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009694191484125031,
      "loss": 2.1285,
      "step": 1194
    },
    {
      "epoch": 0.036539872798434445,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009693883829682501,
      "loss": 2.4848,
      "step": 1195
    },
    {
      "epoch": 0.03657045009784736,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009693576175239971,
      "loss": 2.0748,
      "step": 1196
    },
    {
      "epoch": 0.036601027397260275,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009693268520797441,
      "loss": 2.4239,
      "step": 1197
    },
    {
      "epoch": 0.03663160469667319,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009692960866354911,
      "loss": 2.4801,
      "step": 1198
    },
    {
      "epoch": 0.036662181996086105,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000969265321191238,
      "loss": 2.2998,
      "step": 1199
    },
    {
      "epoch": 0.03669275929549902,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000969234555746985,
      "loss": 2.1015,
      "step": 1200
    },
    {
      "epoch": 0.036723336594911934,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000969203790302732,
      "loss": 2.1378,
      "step": 1201
    },
    {
      "epoch": 0.036753913894324856,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000969173024858479,
      "loss": 2.285,
      "step": 1202
    },
    {
      "epoch": 0.03678449119373777,
      "grad_norm": 0.28125,
      "learning_rate": 0.000969142259414226,
      "loss": 2.0107,
      "step": 1203
    },
    {
      "epoch": 0.036815068493150686,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000969111493969973,
      "loss": 2.4146,
      "step": 1204
    },
    {
      "epoch": 0.0368456457925636,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00096908072852572,
      "loss": 2.2804,
      "step": 1205
    },
    {
      "epoch": 0.036876223091976516,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009690499630814668,
      "loss": 1.9166,
      "step": 1206
    },
    {
      "epoch": 0.03690680039138943,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009690191976372139,
      "loss": 1.7932,
      "step": 1207
    },
    {
      "epoch": 0.036937377690802346,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009689884321929608,
      "loss": 2.0285,
      "step": 1208
    },
    {
      "epoch": 0.03696795499021526,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009689576667487079,
      "loss": 2.0698,
      "step": 1209
    },
    {
      "epoch": 0.03699853228962818,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009689269013044548,
      "loss": 2.4238,
      "step": 1210
    },
    {
      "epoch": 0.0370291095890411,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009688961358602019,
      "loss": 2.0396,
      "step": 1211
    },
    {
      "epoch": 0.03705968688845401,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009688653704159489,
      "loss": 2.1408,
      "step": 1212
    },
    {
      "epoch": 0.03709026418786693,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009688346049716958,
      "loss": 2.1601,
      "step": 1213
    },
    {
      "epoch": 0.03712084148727984,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009688038395274428,
      "loss": 2.091,
      "step": 1214
    },
    {
      "epoch": 0.03715141878669276,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009687730740831898,
      "loss": 2.008,
      "step": 1215
    },
    {
      "epoch": 0.03718199608610567,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009687423086389368,
      "loss": 2.3617,
      "step": 1216
    },
    {
      "epoch": 0.03721257338551859,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009687115431946838,
      "loss": 2.1037,
      "step": 1217
    },
    {
      "epoch": 0.03724315068493151,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0009686807777504308,
      "loss": 2.4483,
      "step": 1218
    },
    {
      "epoch": 0.037273727984344425,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009686500123061778,
      "loss": 2.2888,
      "step": 1219
    },
    {
      "epoch": 0.03730430528375734,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009686192468619247,
      "loss": 2.2618,
      "step": 1220
    },
    {
      "epoch": 0.037334882583170255,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009685884814176716,
      "loss": 2.2168,
      "step": 1221
    },
    {
      "epoch": 0.03736545988258317,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009685577159734187,
      "loss": 2.4015,
      "step": 1222
    },
    {
      "epoch": 0.037396037181996085,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009685269505291656,
      "loss": 1.8589,
      "step": 1223
    },
    {
      "epoch": 0.037426614481409,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009684961850849127,
      "loss": 2.3479,
      "step": 1224
    },
    {
      "epoch": 0.037457191780821915,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009684654196406596,
      "loss": 2.2124,
      "step": 1225
    },
    {
      "epoch": 0.03748776908023484,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009684346541964067,
      "loss": 1.8345,
      "step": 1226
    },
    {
      "epoch": 0.03751834637964775,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009684038887521535,
      "loss": 1.8796,
      "step": 1227
    },
    {
      "epoch": 0.03754892367906067,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009683731233079006,
      "loss": 2.059,
      "step": 1228
    },
    {
      "epoch": 0.03757950097847358,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009683423578636475,
      "loss": 2.1153,
      "step": 1229
    },
    {
      "epoch": 0.0376100782778865,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009683115924193946,
      "loss": 2.2601,
      "step": 1230
    },
    {
      "epoch": 0.03764065557729941,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009682808269751415,
      "loss": 1.9584,
      "step": 1231
    },
    {
      "epoch": 0.03767123287671233,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009682500615308886,
      "loss": 2.0008,
      "step": 1232
    },
    {
      "epoch": 0.03770181017612524,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009682192960866356,
      "loss": 1.6892,
      "step": 1233
    },
    {
      "epoch": 0.037732387475538164,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0009681885306423825,
      "loss": 1.8113,
      "step": 1234
    },
    {
      "epoch": 0.03776296477495108,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009681577651981294,
      "loss": 2.5717,
      "step": 1235
    },
    {
      "epoch": 0.037793542074363994,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009681269997538764,
      "loss": 1.8595,
      "step": 1236
    },
    {
      "epoch": 0.03782411937377691,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009680962343096235,
      "loss": 2.0971,
      "step": 1237
    },
    {
      "epoch": 0.037854696673189824,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009680654688653704,
      "loss": 2.3284,
      "step": 1238
    },
    {
      "epoch": 0.03788527397260274,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009680347034211175,
      "loss": 2.3365,
      "step": 1239
    },
    {
      "epoch": 0.037915851272015653,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009680039379768644,
      "loss": 2.4995,
      "step": 1240
    },
    {
      "epoch": 0.03794642857142857,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009679731725326114,
      "loss": 2.3507,
      "step": 1241
    },
    {
      "epoch": 0.03797700587084149,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009679424070883583,
      "loss": 2.141,
      "step": 1242
    },
    {
      "epoch": 0.038007583170254405,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009679116416441054,
      "loss": 2.0758,
      "step": 1243
    },
    {
      "epoch": 0.03803816046966732,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009678808761998523,
      "loss": 1.8104,
      "step": 1244
    },
    {
      "epoch": 0.038068737769080235,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009678501107555994,
      "loss": 2.2563,
      "step": 1245
    },
    {
      "epoch": 0.03809931506849315,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009678193453113463,
      "loss": 2.1451,
      "step": 1246
    },
    {
      "epoch": 0.038129892367906065,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009677885798670934,
      "loss": 2.0706,
      "step": 1247
    },
    {
      "epoch": 0.03816046966731898,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009677578144228402,
      "loss": 2.0781,
      "step": 1248
    },
    {
      "epoch": 0.038191046966731895,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009677270489785873,
      "loss": 2.3708,
      "step": 1249
    },
    {
      "epoch": 0.03822162426614482,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009676962835343342,
      "loss": 2.0897,
      "step": 1250
    },
    {
      "epoch": 0.03825220156555773,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009676655180900812,
      "loss": 1.9878,
      "step": 1251
    },
    {
      "epoch": 0.03828277886497065,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009676347526458282,
      "loss": 2.2635,
      "step": 1252
    },
    {
      "epoch": 0.03831335616438356,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009676039872015752,
      "loss": 1.9306,
      "step": 1253
    },
    {
      "epoch": 0.03834393346379648,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009675732217573222,
      "loss": 2.2341,
      "step": 1254
    },
    {
      "epoch": 0.03837451076320939,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009675424563130691,
      "loss": 2.342,
      "step": 1255
    },
    {
      "epoch": 0.03840508806262231,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009675116908688161,
      "loss": 1.5149,
      "step": 1256
    },
    {
      "epoch": 0.03843566536203522,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009674809254245631,
      "loss": 2.447,
      "step": 1257
    },
    {
      "epoch": 0.038466242661448144,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009674501599803102,
      "loss": 1.6587,
      "step": 1258
    },
    {
      "epoch": 0.03849681996086106,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009674193945360571,
      "loss": 1.833,
      "step": 1259
    },
    {
      "epoch": 0.038527397260273974,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009673886290918042,
      "loss": 2.1997,
      "step": 1260
    },
    {
      "epoch": 0.03855797455968689,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009673578636475511,
      "loss": 2.1268,
      "step": 1261
    },
    {
      "epoch": 0.038588551859099804,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009673270982032981,
      "loss": 1.8413,
      "step": 1262
    },
    {
      "epoch": 0.03861912915851272,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000967296332759045,
      "loss": 2.1518,
      "step": 1263
    },
    {
      "epoch": 0.038649706457925634,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009672655673147921,
      "loss": 1.9642,
      "step": 1264
    },
    {
      "epoch": 0.03868028375733855,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000967234801870539,
      "loss": 2.2679,
      "step": 1265
    },
    {
      "epoch": 0.03871086105675147,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000967204036426286,
      "loss": 2.3025,
      "step": 1266
    },
    {
      "epoch": 0.038741438356164386,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000967173270982033,
      "loss": 1.9007,
      "step": 1267
    },
    {
      "epoch": 0.0387720156555773,
      "grad_norm": 0.30078125,
      "learning_rate": 0.00096714250553778,
      "loss": 2.4262,
      "step": 1268
    },
    {
      "epoch": 0.038802592954990216,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000967111740093527,
      "loss": 2.0647,
      "step": 1269
    },
    {
      "epoch": 0.03883317025440313,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009670809746492739,
      "loss": 1.991,
      "step": 1270
    },
    {
      "epoch": 0.038863747553816046,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009670502092050209,
      "loss": 2.081,
      "step": 1271
    },
    {
      "epoch": 0.03889432485322896,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009670194437607679,
      "loss": 1.7762,
      "step": 1272
    },
    {
      "epoch": 0.038924902152641876,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009669886783165149,
      "loss": 1.6482,
      "step": 1273
    },
    {
      "epoch": 0.0389554794520548,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009669579128722619,
      "loss": 2.3032,
      "step": 1274
    },
    {
      "epoch": 0.03898605675146771,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000966927147428009,
      "loss": 2.2854,
      "step": 1275
    },
    {
      "epoch": 0.03901663405088063,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009668963819837559,
      "loss": 2.0844,
      "step": 1276
    },
    {
      "epoch": 0.03904721135029354,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009668656165395028,
      "loss": 2.0934,
      "step": 1277
    },
    {
      "epoch": 0.03907778864970646,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009668348510952498,
      "loss": 2.2088,
      "step": 1278
    },
    {
      "epoch": 0.03910836594911937,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009668040856509969,
      "loss": 2.3172,
      "step": 1279
    },
    {
      "epoch": 0.03913894324853229,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009667733202067438,
      "loss": 2.0156,
      "step": 1280
    },
    {
      "epoch": 0.0391695205479452,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009667425547624909,
      "loss": 2.0526,
      "step": 1281
    },
    {
      "epoch": 0.039200097847358124,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009667117893182378,
      "loss": 1.8078,
      "step": 1282
    },
    {
      "epoch": 0.03923067514677104,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009666810238739848,
      "loss": 2.2994,
      "step": 1283
    },
    {
      "epoch": 0.039261252446183954,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009666502584297317,
      "loss": 2.1465,
      "step": 1284
    },
    {
      "epoch": 0.03929182974559687,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009666194929854787,
      "loss": 2.2758,
      "step": 1285
    },
    {
      "epoch": 0.039322407045009784,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009665887275412257,
      "loss": 2.0377,
      "step": 1286
    },
    {
      "epoch": 0.0393529843444227,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009665579620969727,
      "loss": 2.1481,
      "step": 1287
    },
    {
      "epoch": 0.039383561643835614,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009665271966527197,
      "loss": 1.8494,
      "step": 1288
    },
    {
      "epoch": 0.03941413894324853,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009664964312084667,
      "loss": 1.6179,
      "step": 1289
    },
    {
      "epoch": 0.03944471624266145,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009664656657642137,
      "loss": 2.3667,
      "step": 1290
    },
    {
      "epoch": 0.039475293542074366,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009664349003199606,
      "loss": 2.1241,
      "step": 1291
    },
    {
      "epoch": 0.03950587084148728,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009664041348757076,
      "loss": 2.1809,
      "step": 1292
    },
    {
      "epoch": 0.039536448140900196,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009663733694314546,
      "loss": 2.1119,
      "step": 1293
    },
    {
      "epoch": 0.03956702544031311,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009663426039872016,
      "loss": 2.4276,
      "step": 1294
    },
    {
      "epoch": 0.039597602739726026,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009663118385429486,
      "loss": 2.3626,
      "step": 1295
    },
    {
      "epoch": 0.03962818003913894,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009662810730986956,
      "loss": 2.3101,
      "step": 1296
    },
    {
      "epoch": 0.039658757338551856,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009662503076544426,
      "loss": 2.5476,
      "step": 1297
    },
    {
      "epoch": 0.03968933463796478,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009662195422101894,
      "loss": 1.837,
      "step": 1298
    },
    {
      "epoch": 0.03971991193737769,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009661887767659365,
      "loss": 2.0921,
      "step": 1299
    },
    {
      "epoch": 0.03975048923679061,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009661580113216834,
      "loss": 1.9713,
      "step": 1300
    },
    {
      "epoch": 0.03978106653620352,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009661272458774305,
      "loss": 2.2786,
      "step": 1301
    },
    {
      "epoch": 0.03981164383561644,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009660964804331775,
      "loss": 2.3383,
      "step": 1302
    },
    {
      "epoch": 0.03984222113502935,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009660657149889245,
      "loss": 2.0522,
      "step": 1303
    },
    {
      "epoch": 0.03987279843444227,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0009660349495446715,
      "loss": 1.7359,
      "step": 1304
    },
    {
      "epoch": 0.03990337573385518,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009660041841004184,
      "loss": 2.4104,
      "step": 1305
    },
    {
      "epoch": 0.039933953033268105,
      "grad_norm": 0.25,
      "learning_rate": 0.0009659734186561654,
      "loss": 1.4506,
      "step": 1306
    },
    {
      "epoch": 0.03996453033268102,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009659426532119124,
      "loss": 2.138,
      "step": 1307
    },
    {
      "epoch": 0.039995107632093935,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009659118877676594,
      "loss": 2.4551,
      "step": 1308
    },
    {
      "epoch": 0.04002568493150685,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009658811223234064,
      "loss": 2.023,
      "step": 1309
    },
    {
      "epoch": 0.040056262230919765,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009658503568791534,
      "loss": 2.3841,
      "step": 1310
    },
    {
      "epoch": 0.04008683953033268,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009658195914349004,
      "loss": 1.7272,
      "step": 1311
    },
    {
      "epoch": 0.040117416829745595,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009657888259906473,
      "loss": 2.582,
      "step": 1312
    },
    {
      "epoch": 0.04014799412915851,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009657580605463942,
      "loss": 2.3073,
      "step": 1313
    },
    {
      "epoch": 0.04017857142857143,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009657272951021413,
      "loss": 2.0085,
      "step": 1314
    },
    {
      "epoch": 0.040209148727984347,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009656965296578882,
      "loss": 2.427,
      "step": 1315
    },
    {
      "epoch": 0.04023972602739726,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009656657642136353,
      "loss": 2.0403,
      "step": 1316
    },
    {
      "epoch": 0.040270303326810176,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009656349987693822,
      "loss": 2.1014,
      "step": 1317
    },
    {
      "epoch": 0.04030088062622309,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009656042333251293,
      "loss": 2.4729,
      "step": 1318
    },
    {
      "epoch": 0.040331457925636006,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009655734678808761,
      "loss": 1.8825,
      "step": 1319
    },
    {
      "epoch": 0.04036203522504892,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009655427024366232,
      "loss": 2.3853,
      "step": 1320
    },
    {
      "epoch": 0.040392612524461836,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009655119369923701,
      "loss": 2.2384,
      "step": 1321
    },
    {
      "epoch": 0.04042318982387476,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009654811715481172,
      "loss": 2.3001,
      "step": 1322
    },
    {
      "epoch": 0.04045376712328767,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009654504061038642,
      "loss": 2.3971,
      "step": 1323
    },
    {
      "epoch": 0.04048434442270059,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009654196406596112,
      "loss": 1.7304,
      "step": 1324
    },
    {
      "epoch": 0.0405149217221135,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009653888752153582,
      "loss": 2.0298,
      "step": 1325
    },
    {
      "epoch": 0.04054549902152642,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009653581097711051,
      "loss": 2.1235,
      "step": 1326
    },
    {
      "epoch": 0.04057607632093933,
      "grad_norm": 0.46875,
      "learning_rate": 0.0009653273443268521,
      "loss": 2.1143,
      "step": 1327
    },
    {
      "epoch": 0.04060665362035225,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000965296578882599,
      "loss": 2.1216,
      "step": 1328
    },
    {
      "epoch": 0.04063723091976516,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009652658134383461,
      "loss": 2.2253,
      "step": 1329
    },
    {
      "epoch": 0.040667808219178085,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000965235047994093,
      "loss": 1.9543,
      "step": 1330
    },
    {
      "epoch": 0.040698385518591,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009652042825498401,
      "loss": 2.1016,
      "step": 1331
    },
    {
      "epoch": 0.040728962818003915,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000965173517105587,
      "loss": 1.7405,
      "step": 1332
    },
    {
      "epoch": 0.04075954011741683,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000965142751661334,
      "loss": 1.7091,
      "step": 1333
    },
    {
      "epoch": 0.040790117416829745,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009651119862170809,
      "loss": 1.916,
      "step": 1334
    },
    {
      "epoch": 0.04082069471624266,
      "grad_norm": 0.296875,
      "learning_rate": 0.000965081220772828,
      "loss": 2.347,
      "step": 1335
    },
    {
      "epoch": 0.040851272015655575,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009650504553285749,
      "loss": 2.4444,
      "step": 1336
    },
    {
      "epoch": 0.04088184931506849,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000965019689884322,
      "loss": 2.5202,
      "step": 1337
    },
    {
      "epoch": 0.04091242661448141,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009649889244400689,
      "loss": 2.3544,
      "step": 1338
    },
    {
      "epoch": 0.04094300391389433,
      "grad_norm": 0.28125,
      "learning_rate": 0.000964958158995816,
      "loss": 1.9944,
      "step": 1339
    },
    {
      "epoch": 0.04097358121330724,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000964927393551563,
      "loss": 2.0983,
      "step": 1340
    },
    {
      "epoch": 0.04100415851272016,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009648966281073099,
      "loss": 2.2625,
      "step": 1341
    },
    {
      "epoch": 0.04103473581213307,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009648658626630568,
      "loss": 2.0577,
      "step": 1342
    },
    {
      "epoch": 0.04106531311154599,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009648350972188039,
      "loss": 2.3482,
      "step": 1343
    },
    {
      "epoch": 0.0410958904109589,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009648043317745509,
      "loss": 2.666,
      "step": 1344
    },
    {
      "epoch": 0.04112646771037182,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009647735663302978,
      "loss": 2.1317,
      "step": 1345
    },
    {
      "epoch": 0.04115704500978474,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009647428008860449,
      "loss": 2.1461,
      "step": 1346
    },
    {
      "epoch": 0.041187622309197654,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009647120354417918,
      "loss": 2.2912,
      "step": 1347
    },
    {
      "epoch": 0.04121819960861057,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009646812699975388,
      "loss": 1.7755,
      "step": 1348
    },
    {
      "epoch": 0.041248776908023484,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009646505045532857,
      "loss": 2.1952,
      "step": 1349
    },
    {
      "epoch": 0.0412793542074364,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009646197391090328,
      "loss": 1.731,
      "step": 1350
    },
    {
      "epoch": 0.041309931506849314,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009645889736647797,
      "loss": 2.2273,
      "step": 1351
    },
    {
      "epoch": 0.04134050880626223,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009645582082205268,
      "loss": 1.9518,
      "step": 1352
    },
    {
      "epoch": 0.041371086105675144,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009645274427762737,
      "loss": 2.1488,
      "step": 1353
    },
    {
      "epoch": 0.041401663405088066,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009644966773320208,
      "loss": 2.1283,
      "step": 1354
    },
    {
      "epoch": 0.04143224070450098,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009644659118877676,
      "loss": 2.6404,
      "step": 1355
    },
    {
      "epoch": 0.041462818003913895,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009644351464435147,
      "loss": 2.1093,
      "step": 1356
    },
    {
      "epoch": 0.04149339530332681,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009644043809992616,
      "loss": 2.045,
      "step": 1357
    },
    {
      "epoch": 0.041523972602739725,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009643736155550087,
      "loss": 1.9528,
      "step": 1358
    },
    {
      "epoch": 0.04155454990215264,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009643428501107556,
      "loss": 2.4687,
      "step": 1359
    },
    {
      "epoch": 0.041585127201565555,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009643120846665026,
      "loss": 2.1251,
      "step": 1360
    },
    {
      "epoch": 0.04161570450097847,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0009642813192222496,
      "loss": 2.4272,
      "step": 1361
    },
    {
      "epoch": 0.04164628180039139,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009642505537779965,
      "loss": 1.8481,
      "step": 1362
    },
    {
      "epoch": 0.04167685909980431,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009642197883337435,
      "loss": 1.943,
      "step": 1363
    },
    {
      "epoch": 0.04170743639921722,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009641890228894905,
      "loss": 1.9649,
      "step": 1364
    },
    {
      "epoch": 0.04173801369863014,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009641582574452376,
      "loss": 2.4126,
      "step": 1365
    },
    {
      "epoch": 0.04176859099804305,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009641274920009845,
      "loss": 2.0656,
      "step": 1366
    },
    {
      "epoch": 0.04179916829745597,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009640967265567316,
      "loss": 1.9088,
      "step": 1367
    },
    {
      "epoch": 0.04182974559686888,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009640659611124785,
      "loss": 2.0115,
      "step": 1368
    },
    {
      "epoch": 0.0418603228962818,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009640351956682255,
      "loss": 2.5665,
      "step": 1369
    },
    {
      "epoch": 0.04189090019569472,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009640044302239724,
      "loss": 2.1018,
      "step": 1370
    },
    {
      "epoch": 0.041921477495107634,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009639736647797195,
      "loss": 2.0037,
      "step": 1371
    },
    {
      "epoch": 0.04195205479452055,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009639428993354664,
      "loss": 1.8819,
      "step": 1372
    },
    {
      "epoch": 0.041982632093933464,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009639121338912135,
      "loss": 2.217,
      "step": 1373
    },
    {
      "epoch": 0.04201320939334638,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009638813684469604,
      "loss": 1.6395,
      "step": 1374
    },
    {
      "epoch": 0.042043786692759294,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009638506030027074,
      "loss": 2.4072,
      "step": 1375
    },
    {
      "epoch": 0.04207436399217221,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009638198375584543,
      "loss": 2.3349,
      "step": 1376
    },
    {
      "epoch": 0.042104941291585124,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009637890721142013,
      "loss": 2.4209,
      "step": 1377
    },
    {
      "epoch": 0.042135518590998046,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009637583066699483,
      "loss": 1.8386,
      "step": 1378
    },
    {
      "epoch": 0.04216609589041096,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009637275412256953,
      "loss": 2.2809,
      "step": 1379
    },
    {
      "epoch": 0.042196673189823876,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009636967757814423,
      "loss": 2.0578,
      "step": 1380
    },
    {
      "epoch": 0.04222725048923679,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009636660103371893,
      "loss": 2.213,
      "step": 1381
    },
    {
      "epoch": 0.042257827788649706,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009636352448929363,
      "loss": 2.3988,
      "step": 1382
    },
    {
      "epoch": 0.04228840508806262,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009636044794486832,
      "loss": 2.312,
      "step": 1383
    },
    {
      "epoch": 0.042318982387475536,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009635737140044302,
      "loss": 1.6625,
      "step": 1384
    },
    {
      "epoch": 0.04234955968688845,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009635429485601772,
      "loss": 1.9727,
      "step": 1385
    },
    {
      "epoch": 0.04238013698630137,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009635121831159243,
      "loss": 2.5205,
      "step": 1386
    },
    {
      "epoch": 0.04241071428571429,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009634814176716712,
      "loss": 2.3523,
      "step": 1387
    },
    {
      "epoch": 0.0424412915851272,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009634506522274183,
      "loss": 2.0496,
      "step": 1388
    },
    {
      "epoch": 0.04247186888454012,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009634198867831652,
      "loss": 2.0552,
      "step": 1389
    },
    {
      "epoch": 0.04250244618395303,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000963389121338912,
      "loss": 2.1658,
      "step": 1390
    },
    {
      "epoch": 0.04253302348336595,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009633583558946591,
      "loss": 1.9011,
      "step": 1391
    },
    {
      "epoch": 0.04256360078277886,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009633275904504061,
      "loss": 2.2301,
      "step": 1392
    },
    {
      "epoch": 0.04259417808219178,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009632968250061531,
      "loss": 2.1874,
      "step": 1393
    },
    {
      "epoch": 0.0426247553816047,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009632660595619001,
      "loss": 2.3464,
      "step": 1394
    },
    {
      "epoch": 0.042655332681017614,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009632352941176471,
      "loss": 1.9025,
      "step": 1395
    },
    {
      "epoch": 0.04268590998043053,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009632045286733941,
      "loss": 1.7891,
      "step": 1396
    },
    {
      "epoch": 0.042716487279843444,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000963173763229141,
      "loss": 1.8327,
      "step": 1397
    },
    {
      "epoch": 0.04274706457925636,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000963142997784888,
      "loss": 2.2752,
      "step": 1398
    },
    {
      "epoch": 0.042777641878669274,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000963112232340635,
      "loss": 2.3511,
      "step": 1399
    },
    {
      "epoch": 0.04280821917808219,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000963081466896382,
      "loss": 1.7718,
      "step": 1400
    },
    {
      "epoch": 0.042838796477495104,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000963050701452129,
      "loss": 1.9635,
      "step": 1401
    },
    {
      "epoch": 0.042869373776908026,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000963019936007876,
      "loss": 2.139,
      "step": 1402
    },
    {
      "epoch": 0.04289995107632094,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000962989170563623,
      "loss": 2.3675,
      "step": 1403
    },
    {
      "epoch": 0.042930528375733856,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009629584051193699,
      "loss": 2.6323,
      "step": 1404
    },
    {
      "epoch": 0.04296110567514677,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009629276396751168,
      "loss": 2.2827,
      "step": 1405
    },
    {
      "epoch": 0.042991682974559686,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009628968742308639,
      "loss": 2.0494,
      "step": 1406
    },
    {
      "epoch": 0.0430222602739726,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009628661087866108,
      "loss": 2.1669,
      "step": 1407
    },
    {
      "epoch": 0.043052837573385516,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009628353433423579,
      "loss": 1.9669,
      "step": 1408
    },
    {
      "epoch": 0.04308341487279843,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009628045778981049,
      "loss": 2.0874,
      "step": 1409
    },
    {
      "epoch": 0.04311399217221135,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009627738124538519,
      "loss": 1.7514,
      "step": 1410
    },
    {
      "epoch": 0.04314456947162427,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009627430470095989,
      "loss": 2.0825,
      "step": 1411
    },
    {
      "epoch": 0.04317514677103718,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009627122815653458,
      "loss": 1.7952,
      "step": 1412
    },
    {
      "epoch": 0.0432057240704501,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009626815161210928,
      "loss": 2.0353,
      "step": 1413
    },
    {
      "epoch": 0.04323630136986301,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009626507506768398,
      "loss": 2.2163,
      "step": 1414
    },
    {
      "epoch": 0.04326687866927593,
      "grad_norm": 0.2490234375,
      "learning_rate": 0.0009626199852325868,
      "loss": 1.5014,
      "step": 1415
    },
    {
      "epoch": 0.04329745596868884,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009625892197883338,
      "loss": 2.1923,
      "step": 1416
    },
    {
      "epoch": 0.04332803326810176,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009625584543440808,
      "loss": 2.0875,
      "step": 1417
    },
    {
      "epoch": 0.04335861056751468,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009625276888998278,
      "loss": 2.0695,
      "step": 1418
    },
    {
      "epoch": 0.043389187866927595,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009624969234555747,
      "loss": 2.299,
      "step": 1419
    },
    {
      "epoch": 0.04341976516634051,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009624661580113217,
      "loss": 2.1364,
      "step": 1420
    },
    {
      "epoch": 0.043450342465753425,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009624353925670687,
      "loss": 2.2951,
      "step": 1421
    },
    {
      "epoch": 0.04348091976516634,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009624046271228156,
      "loss": 1.9261,
      "step": 1422
    },
    {
      "epoch": 0.043511497064579255,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009623738616785627,
      "loss": 1.8224,
      "step": 1423
    },
    {
      "epoch": 0.04354207436399217,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009623430962343096,
      "loss": 2.1373,
      "step": 1424
    },
    {
      "epoch": 0.043572651663405085,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009623123307900567,
      "loss": 2.084,
      "step": 1425
    },
    {
      "epoch": 0.04360322896281801,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009622815653458035,
      "loss": 2.0582,
      "step": 1426
    },
    {
      "epoch": 0.04363380626223092,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009622507999015506,
      "loss": 2.2698,
      "step": 1427
    },
    {
      "epoch": 0.04366438356164384,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009622200344572975,
      "loss": 1.8396,
      "step": 1428
    },
    {
      "epoch": 0.04369496086105675,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009621892690130446,
      "loss": 2.1313,
      "step": 1429
    },
    {
      "epoch": 0.04372553816046967,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009621585035687916,
      "loss": 2.1699,
      "step": 1430
    },
    {
      "epoch": 0.04375611545988258,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009621277381245386,
      "loss": 1.8126,
      "step": 1431
    },
    {
      "epoch": 0.0437866927592955,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009620969726802856,
      "loss": 2.0197,
      "step": 1432
    },
    {
      "epoch": 0.04381727005870841,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009620662072360325,
      "loss": 2.1567,
      "step": 1433
    },
    {
      "epoch": 0.043847847358121333,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009620354417917795,
      "loss": 2.298,
      "step": 1434
    },
    {
      "epoch": 0.04387842465753425,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009620046763475265,
      "loss": 2.1887,
      "step": 1435
    },
    {
      "epoch": 0.04390900195694716,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009619739109032735,
      "loss": 2.1162,
      "step": 1436
    },
    {
      "epoch": 0.04393957925636008,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009619431454590204,
      "loss": 1.8695,
      "step": 1437
    },
    {
      "epoch": 0.04397015655577299,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009619123800147675,
      "loss": 2.3873,
      "step": 1438
    },
    {
      "epoch": 0.04400073385518591,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009618816145705144,
      "loss": 2.19,
      "step": 1439
    },
    {
      "epoch": 0.04403131115459882,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009618508491262614,
      "loss": 2.0441,
      "step": 1440
    },
    {
      "epoch": 0.04406188845401174,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009618200836820083,
      "loss": 2.4066,
      "step": 1441
    },
    {
      "epoch": 0.04409246575342466,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009617893182377554,
      "loss": 1.5216,
      "step": 1442
    },
    {
      "epoch": 0.044123043052837575,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009617585527935023,
      "loss": 1.8884,
      "step": 1443
    },
    {
      "epoch": 0.04415362035225049,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009617277873492494,
      "loss": 2.2967,
      "step": 1444
    },
    {
      "epoch": 0.044184197651663405,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009616970219049963,
      "loss": 2.215,
      "step": 1445
    },
    {
      "epoch": 0.04421477495107632,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009616662564607434,
      "loss": 2.131,
      "step": 1446
    },
    {
      "epoch": 0.044245352250489235,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009616354910164902,
      "loss": 2.5501,
      "step": 1447
    },
    {
      "epoch": 0.04427592954990215,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009616047255722373,
      "loss": 2.1371,
      "step": 1448
    },
    {
      "epoch": 0.044306506849315065,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009615739601279842,
      "loss": 2.0716,
      "step": 1449
    },
    {
      "epoch": 0.04433708414872799,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009615431946837313,
      "loss": 1.65,
      "step": 1450
    },
    {
      "epoch": 0.0443676614481409,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009615124292394782,
      "loss": 1.9574,
      "step": 1451
    },
    {
      "epoch": 0.04439823874755382,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009614816637952252,
      "loss": 2.1044,
      "step": 1452
    },
    {
      "epoch": 0.04442881604696673,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009614508983509723,
      "loss": 2.2628,
      "step": 1453
    },
    {
      "epoch": 0.04445939334637965,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009614201329067191,
      "loss": 1.7105,
      "step": 1454
    },
    {
      "epoch": 0.04448997064579256,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009613893674624662,
      "loss": 2.0871,
      "step": 1455
    },
    {
      "epoch": 0.04452054794520548,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009613586020182131,
      "loss": 1.772,
      "step": 1456
    },
    {
      "epoch": 0.04455112524461839,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009613278365739602,
      "loss": 2.1947,
      "step": 1457
    },
    {
      "epoch": 0.044581702544031314,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009612970711297071,
      "loss": 2.4411,
      "step": 1458
    },
    {
      "epoch": 0.04461227984344423,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009612663056854542,
      "loss": 1.872,
      "step": 1459
    },
    {
      "epoch": 0.044642857142857144,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009612355402412011,
      "loss": 2.0462,
      "step": 1460
    },
    {
      "epoch": 0.04467343444227006,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009612047747969481,
      "loss": 2.2587,
      "step": 1461
    },
    {
      "epoch": 0.044704011741682974,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000961174009352695,
      "loss": 1.9078,
      "step": 1462
    },
    {
      "epoch": 0.04473458904109589,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009611432439084421,
      "loss": 1.8468,
      "step": 1463
    },
    {
      "epoch": 0.044765166340508804,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000961112478464189,
      "loss": 1.7936,
      "step": 1464
    },
    {
      "epoch": 0.04479574363992172,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009610817130199361,
      "loss": 2.3095,
      "step": 1465
    },
    {
      "epoch": 0.04482632093933464,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000961050947575683,
      "loss": 2.0196,
      "step": 1466
    },
    {
      "epoch": 0.044856898238747556,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00096102018213143,
      "loss": 2.1327,
      "step": 1467
    },
    {
      "epoch": 0.04488747553816047,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009609894166871769,
      "loss": 2.0205,
      "step": 1468
    },
    {
      "epoch": 0.044918052837573386,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009609586512429239,
      "loss": 2.0946,
      "step": 1469
    },
    {
      "epoch": 0.0449486301369863,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009609278857986709,
      "loss": 2.1591,
      "step": 1470
    },
    {
      "epoch": 0.044979207436399216,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009608971203544179,
      "loss": 1.7374,
      "step": 1471
    },
    {
      "epoch": 0.04500978473581213,
      "grad_norm": 0.271484375,
      "learning_rate": 0.000960866354910165,
      "loss": 1.8512,
      "step": 1472
    },
    {
      "epoch": 0.045040362035225046,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009608355894659119,
      "loss": 2.5661,
      "step": 1473
    },
    {
      "epoch": 0.04507093933463797,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000960804824021659,
      "loss": 2.3096,
      "step": 1474
    },
    {
      "epoch": 0.04510151663405088,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009607740585774058,
      "loss": 2.2832,
      "step": 1475
    },
    {
      "epoch": 0.0451320939334638,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009607432931331529,
      "loss": 2.2737,
      "step": 1476
    },
    {
      "epoch": 0.04516267123287671,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009607125276888998,
      "loss": 2.1803,
      "step": 1477
    },
    {
      "epoch": 0.04519324853228963,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009606817622446469,
      "loss": 2.1969,
      "step": 1478
    },
    {
      "epoch": 0.04522382583170254,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009606509968003938,
      "loss": 2.1198,
      "step": 1479
    },
    {
      "epoch": 0.04525440313111546,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009606202313561409,
      "loss": 2.0583,
      "step": 1480
    },
    {
      "epoch": 0.04528498043052837,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009605894659118878,
      "loss": 1.9029,
      "step": 1481
    },
    {
      "epoch": 0.045315557729941294,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009605587004676349,
      "loss": 2.4006,
      "step": 1482
    },
    {
      "epoch": 0.04534613502935421,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009605279350233817,
      "loss": 1.8539,
      "step": 1483
    },
    {
      "epoch": 0.045376712328767124,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009604971695791287,
      "loss": 2.1894,
      "step": 1484
    },
    {
      "epoch": 0.04540728962818004,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009604664041348757,
      "loss": 1.88,
      "step": 1485
    },
    {
      "epoch": 0.045437866927592954,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009604356386906227,
      "loss": 2.1947,
      "step": 1486
    },
    {
      "epoch": 0.04546844422700587,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009604048732463697,
      "loss": 2.6062,
      "step": 1487
    },
    {
      "epoch": 0.045499021526418784,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009603741078021167,
      "loss": 2.3586,
      "step": 1488
    },
    {
      "epoch": 0.0455295988258317,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009603433423578637,
      "loss": 1.7181,
      "step": 1489
    },
    {
      "epoch": 0.04556017612524462,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009603125769136106,
      "loss": 1.8557,
      "step": 1490
    },
    {
      "epoch": 0.045590753424657536,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009602818114693576,
      "loss": 1.9478,
      "step": 1491
    },
    {
      "epoch": 0.04562133072407045,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009602510460251046,
      "loss": 2.0851,
      "step": 1492
    },
    {
      "epoch": 0.045651908023483366,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009602202805808516,
      "loss": 2.2468,
      "step": 1493
    },
    {
      "epoch": 0.04568248532289628,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009601895151365986,
      "loss": 2.5219,
      "step": 1494
    },
    {
      "epoch": 0.045713062622309196,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009601587496923457,
      "loss": 2.2741,
      "step": 1495
    },
    {
      "epoch": 0.04574363992172211,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009601279842480926,
      "loss": 2.1108,
      "step": 1496
    },
    {
      "epoch": 0.045774217221135026,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009600972188038396,
      "loss": 2.2262,
      "step": 1497
    },
    {
      "epoch": 0.04580479452054795,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009600664533595865,
      "loss": 2.1436,
      "step": 1498
    },
    {
      "epoch": 0.04583537181996086,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009600356879153335,
      "loss": 2.0131,
      "step": 1499
    },
    {
      "epoch": 0.04586594911937378,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009600049224710805,
      "loss": 1.7481,
      "step": 1500
    },
    {
      "epoch": 0.04586594911937378,
      "eval_loss": 1.7046781778335571,
      "eval_runtime": 77.5302,
      "eval_samples_per_second": 11.557,
      "eval_steps_per_second": 0.361,
      "step": 1500
    },
    {
      "epoch": 0.04586594911937378,
      "eval/hellaswag_acc": 0.3754232224656443,
      "eval/hellaswag_acc_norm": 0.4697271459868552,
      "eval_hellaswag_elapsed_time": 355.7432475090027,
      "step": 1500
    },
    {
      "epoch": 0.04589652641878669,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009599741570268275,
      "loss": 1.9043,
      "step": 1501
    },
    {
      "epoch": 0.04592710371819961,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009599433915825745,
      "loss": 2.0945,
      "step": 1502
    },
    {
      "epoch": 0.04595768101761252,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009599126261383215,
      "loss": 1.8388,
      "step": 1503
    },
    {
      "epoch": 0.04598825831702544,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009598818606940684,
      "loss": 2.3051,
      "step": 1504
    },
    {
      "epoch": 0.04601883561643835,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009598510952498154,
      "loss": 2.4877,
      "step": 1505
    },
    {
      "epoch": 0.046049412915851275,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009598203298055624,
      "loss": 2.2557,
      "step": 1506
    },
    {
      "epoch": 0.04607999021526419,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009597895643613094,
      "loss": 2.6453,
      "step": 1507
    },
    {
      "epoch": 0.046110567514677105,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009597587989170564,
      "loss": 2.1262,
      "step": 1508
    },
    {
      "epoch": 0.04614114481409002,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009597280334728034,
      "loss": 2.414,
      "step": 1509
    },
    {
      "epoch": 0.046171722113502935,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0009596972680285504,
      "loss": 1.8068,
      "step": 1510
    },
    {
      "epoch": 0.04620229941291585,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009596665025842973,
      "loss": 1.8217,
      "step": 1511
    },
    {
      "epoch": 0.046232876712328765,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009596357371400443,
      "loss": 2.0721,
      "step": 1512
    },
    {
      "epoch": 0.04626345401174168,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009596049716957913,
      "loss": 1.7787,
      "step": 1513
    },
    {
      "epoch": 0.0462940313111546,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009595742062515382,
      "loss": 2.1686,
      "step": 1514
    },
    {
      "epoch": 0.046324608610567516,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009595434408072853,
      "loss": 2.4571,
      "step": 1515
    },
    {
      "epoch": 0.04635518590998043,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009595126753630322,
      "loss": 1.5995,
      "step": 1516
    },
    {
      "epoch": 0.046385763209393346,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009594819099187793,
      "loss": 2.0935,
      "step": 1517
    },
    {
      "epoch": 0.04641634050880626,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009594511444745261,
      "loss": 1.709,
      "step": 1518
    },
    {
      "epoch": 0.046446917808219176,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009594203790302732,
      "loss": 2.0947,
      "step": 1519
    },
    {
      "epoch": 0.04647749510763209,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009593896135860202,
      "loss": 2.0811,
      "step": 1520
    },
    {
      "epoch": 0.046508072407045006,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009593588481417672,
      "loss": 2.2042,
      "step": 1521
    },
    {
      "epoch": 0.04653864970645793,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009593280826975142,
      "loss": 2.3556,
      "step": 1522
    },
    {
      "epoch": 0.04656922700587084,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009592973172532612,
      "loss": 2.3521,
      "step": 1523
    },
    {
      "epoch": 0.04659980430528376,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009592665518090082,
      "loss": 2.1089,
      "step": 1524
    },
    {
      "epoch": 0.04663038160469667,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009592357863647551,
      "loss": 1.7236,
      "step": 1525
    },
    {
      "epoch": 0.04666095890410959,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009592050209205021,
      "loss": 2.2824,
      "step": 1526
    },
    {
      "epoch": 0.0466915362035225,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009591742554762491,
      "loss": 1.99,
      "step": 1527
    },
    {
      "epoch": 0.04672211350293542,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0009591434900319961,
      "loss": 1.5907,
      "step": 1528
    },
    {
      "epoch": 0.04675269080234833,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000959112724587743,
      "loss": 1.9493,
      "step": 1529
    },
    {
      "epoch": 0.046783268101761255,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009590819591434901,
      "loss": 2.3319,
      "step": 1530
    },
    {
      "epoch": 0.04681384540117417,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000959051193699237,
      "loss": 2.3692,
      "step": 1531
    },
    {
      "epoch": 0.046844422700587085,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000959020428254984,
      "loss": 2.0566,
      "step": 1532
    },
    {
      "epoch": 0.046875,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009589896628107309,
      "loss": 1.7993,
      "step": 1533
    },
    {
      "epoch": 0.046905577299412915,
      "grad_norm": 0.3125,
      "learning_rate": 0.000958958897366478,
      "loss": 2.3669,
      "step": 1534
    },
    {
      "epoch": 0.04693615459882583,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009589281319222249,
      "loss": 2.3814,
      "step": 1535
    },
    {
      "epoch": 0.046966731898238745,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000958897366477972,
      "loss": 1.9447,
      "step": 1536
    },
    {
      "epoch": 0.04699730919765167,
      "grad_norm": 0.296875,
      "learning_rate": 0.000958866601033719,
      "loss": 2.3216,
      "step": 1537
    },
    {
      "epoch": 0.04702788649706458,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000958835835589466,
      "loss": 2.6124,
      "step": 1538
    },
    {
      "epoch": 0.0470584637964775,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009588050701452128,
      "loss": 2.5198,
      "step": 1539
    },
    {
      "epoch": 0.04708904109589041,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009587743047009599,
      "loss": 1.7668,
      "step": 1540
    },
    {
      "epoch": 0.04711961839530333,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009587435392567069,
      "loss": 2.8113,
      "step": 1541
    },
    {
      "epoch": 0.04715019569471624,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009587127738124539,
      "loss": 1.9744,
      "step": 1542
    },
    {
      "epoch": 0.04718077299412916,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009586820083682009,
      "loss": 2.2362,
      "step": 1543
    },
    {
      "epoch": 0.04721135029354207,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009586512429239479,
      "loss": 2.1524,
      "step": 1544
    },
    {
      "epoch": 0.047241927592954994,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009586204774796949,
      "loss": 2.159,
      "step": 1545
    },
    {
      "epoch": 0.04727250489236791,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009585897120354417,
      "loss": 1.8702,
      "step": 1546
    },
    {
      "epoch": 0.047303082191780824,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009585589465911888,
      "loss": 2.2378,
      "step": 1547
    },
    {
      "epoch": 0.04733365949119374,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009585281811469357,
      "loss": 1.791,
      "step": 1548
    },
    {
      "epoch": 0.047364236790606654,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009584974157026828,
      "loss": 2.02,
      "step": 1549
    },
    {
      "epoch": 0.04739481409001957,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009584666502584297,
      "loss": 2.2712,
      "step": 1550
    },
    {
      "epoch": 0.047425391389432484,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009584358848141768,
      "loss": 2.4001,
      "step": 1551
    },
    {
      "epoch": 0.0474559686888454,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009584051193699237,
      "loss": 1.9022,
      "step": 1552
    },
    {
      "epoch": 0.04748654598825832,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009583743539256708,
      "loss": 2.2968,
      "step": 1553
    },
    {
      "epoch": 0.047517123287671235,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009583435884814176,
      "loss": 1.7993,
      "step": 1554
    },
    {
      "epoch": 0.04754770058708415,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009583128230371647,
      "loss": 2.1622,
      "step": 1555
    },
    {
      "epoch": 0.047578277886497065,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009582820575929116,
      "loss": 1.9693,
      "step": 1556
    },
    {
      "epoch": 0.04760885518590998,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009582512921486587,
      "loss": 1.8353,
      "step": 1557
    },
    {
      "epoch": 0.047639432485322895,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009582205267044056,
      "loss": 2.1431,
      "step": 1558
    },
    {
      "epoch": 0.04767000978473581,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009581897612601527,
      "loss": 2.0826,
      "step": 1559
    },
    {
      "epoch": 0.047700587084148725,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009581589958158997,
      "loss": 2.0166,
      "step": 1560
    },
    {
      "epoch": 0.04773116438356165,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009581282303716465,
      "loss": 2.2858,
      "step": 1561
    },
    {
      "epoch": 0.04776174168297456,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009580974649273936,
      "loss": 1.8586,
      "step": 1562
    },
    {
      "epoch": 0.04779231898238748,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009580666994831405,
      "loss": 2.3229,
      "step": 1563
    },
    {
      "epoch": 0.04782289628180039,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009580359340388876,
      "loss": 2.0807,
      "step": 1564
    },
    {
      "epoch": 0.04785347358121331,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009580051685946345,
      "loss": 2.3986,
      "step": 1565
    },
    {
      "epoch": 0.04788405088062622,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009579744031503816,
      "loss": 1.942,
      "step": 1566
    },
    {
      "epoch": 0.04791462818003914,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009579436377061285,
      "loss": 2.0626,
      "step": 1567
    },
    {
      "epoch": 0.04794520547945205,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009579128722618755,
      "loss": 2.135,
      "step": 1568
    },
    {
      "epoch": 0.047975782778864974,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009578821068176224,
      "loss": 2.0551,
      "step": 1569
    },
    {
      "epoch": 0.04800636007827789,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009578513413733695,
      "loss": 2.3755,
      "step": 1570
    },
    {
      "epoch": 0.048036937377690804,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009578205759291164,
      "loss": 1.9857,
      "step": 1571
    },
    {
      "epoch": 0.04806751467710372,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009577898104848635,
      "loss": 2.1007,
      "step": 1572
    },
    {
      "epoch": 0.048098091976516634,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009577590450406104,
      "loss": 1.9864,
      "step": 1573
    },
    {
      "epoch": 0.04812866927592955,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009577282795963575,
      "loss": 1.8606,
      "step": 1574
    },
    {
      "epoch": 0.048159246575342464,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009576975141521043,
      "loss": 2.3998,
      "step": 1575
    },
    {
      "epoch": 0.04818982387475538,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009576667487078513,
      "loss": 2.6159,
      "step": 1576
    },
    {
      "epoch": 0.0482204011741683,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009576359832635983,
      "loss": 2.5998,
      "step": 1577
    },
    {
      "epoch": 0.048250978473581216,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009576052178193453,
      "loss": 1.7993,
      "step": 1578
    },
    {
      "epoch": 0.04828155577299413,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009575744523750923,
      "loss": 1.7495,
      "step": 1579
    },
    {
      "epoch": 0.048312133072407046,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009575436869308393,
      "loss": 2.5767,
      "step": 1580
    },
    {
      "epoch": 0.04834271037181996,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009575129214865864,
      "loss": 2.7926,
      "step": 1581
    },
    {
      "epoch": 0.048373287671232876,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009574821560423332,
      "loss": 1.8454,
      "step": 1582
    },
    {
      "epoch": 0.04840386497064579,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009574513905980803,
      "loss": 2.3922,
      "step": 1583
    },
    {
      "epoch": 0.048434442270058706,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009574206251538272,
      "loss": 2.4822,
      "step": 1584
    },
    {
      "epoch": 0.04846501956947163,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009573898597095743,
      "loss": 1.7511,
      "step": 1585
    },
    {
      "epoch": 0.04849559686888454,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009573590942653212,
      "loss": 2.2726,
      "step": 1586
    },
    {
      "epoch": 0.04852617416829746,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009573283288210683,
      "loss": 1.842,
      "step": 1587
    },
    {
      "epoch": 0.04855675146771037,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009572975633768152,
      "loss": 1.9638,
      "step": 1588
    },
    {
      "epoch": 0.04858732876712329,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009572667979325622,
      "loss": 1.841,
      "step": 1589
    },
    {
      "epoch": 0.0486179060665362,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009572360324883091,
      "loss": 2.0888,
      "step": 1590
    },
    {
      "epoch": 0.04864848336594912,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009572052670440561,
      "loss": 2.2433,
      "step": 1591
    },
    {
      "epoch": 0.04867906066536203,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009571745015998031,
      "loss": 2.5368,
      "step": 1592
    },
    {
      "epoch": 0.048709637964774954,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009571437361555501,
      "loss": 1.9459,
      "step": 1593
    },
    {
      "epoch": 0.04874021526418787,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009571129707112971,
      "loss": 2.1934,
      "step": 1594
    },
    {
      "epoch": 0.048770792563600784,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009570822052670441,
      "loss": 1.9652,
      "step": 1595
    },
    {
      "epoch": 0.0488013698630137,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000957051439822791,
      "loss": 2.1865,
      "step": 1596
    },
    {
      "epoch": 0.048831947162426614,
      "grad_norm": 0.28125,
      "learning_rate": 0.000957020674378538,
      "loss": 1.6839,
      "step": 1597
    },
    {
      "epoch": 0.04886252446183953,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000956989908934285,
      "loss": 2.0716,
      "step": 1598
    },
    {
      "epoch": 0.048893101761252444,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000956959143490032,
      "loss": 2.249,
      "step": 1599
    },
    {
      "epoch": 0.04892367906066536,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000956928378045779,
      "loss": 2.3648,
      "step": 1600
    },
    {
      "epoch": 0.04895425636007828,
      "grad_norm": 0.296875,
      "learning_rate": 0.000956897612601526,
      "loss": 2.1688,
      "step": 1601
    },
    {
      "epoch": 0.048984833659491196,
      "grad_norm": 0.3125,
      "learning_rate": 0.000956866847157273,
      "loss": 2.1872,
      "step": 1602
    },
    {
      "epoch": 0.04901541095890411,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009568360817130199,
      "loss": 2.3882,
      "step": 1603
    },
    {
      "epoch": 0.049045988258317026,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000956805316268767,
      "loss": 1.9521,
      "step": 1604
    },
    {
      "epoch": 0.04907656555772994,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009567745508245139,
      "loss": 2.3387,
      "step": 1605
    },
    {
      "epoch": 0.049107142857142856,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009567437853802609,
      "loss": 2.0248,
      "step": 1606
    },
    {
      "epoch": 0.04913772015655577,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009567130199360079,
      "loss": 2.0261,
      "step": 1607
    },
    {
      "epoch": 0.049168297455968686,
      "grad_norm": 0.2578125,
      "learning_rate": 0.0009566822544917549,
      "loss": 1.6416,
      "step": 1608
    },
    {
      "epoch": 0.04919887475538161,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009566514890475019,
      "loss": 2.1794,
      "step": 1609
    },
    {
      "epoch": 0.04922945205479452,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009566207236032488,
      "loss": 1.7963,
      "step": 1610
    },
    {
      "epoch": 0.04926002935420744,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009565899581589958,
      "loss": 1.7555,
      "step": 1611
    },
    {
      "epoch": 0.04929060665362035,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009565591927147428,
      "loss": 2.2002,
      "step": 1612
    },
    {
      "epoch": 0.04932118395303327,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009565284272704898,
      "loss": 2.1231,
      "step": 1613
    },
    {
      "epoch": 0.04935176125244618,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009564976618262368,
      "loss": 1.9094,
      "step": 1614
    },
    {
      "epoch": 0.0493823385518591,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009564668963819838,
      "loss": 1.8593,
      "step": 1615
    },
    {
      "epoch": 0.04941291585127201,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009564361309377308,
      "loss": 2.3967,
      "step": 1616
    },
    {
      "epoch": 0.049443493150684935,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009564053654934778,
      "loss": 2.1724,
      "step": 1617
    },
    {
      "epoch": 0.04947407045009785,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009563746000492247,
      "loss": 2.3133,
      "step": 1618
    },
    {
      "epoch": 0.049504647749510765,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009563438346049717,
      "loss": 2.2083,
      "step": 1619
    },
    {
      "epoch": 0.04953522504892368,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009563130691607187,
      "loss": 2.1253,
      "step": 1620
    },
    {
      "epoch": 0.049565802348336595,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009562823037164657,
      "loss": 2.1406,
      "step": 1621
    },
    {
      "epoch": 0.04959637964774951,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0009562515382722127,
      "loss": 2.1722,
      "step": 1622
    },
    {
      "epoch": 0.049626956947162425,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009562207728279596,
      "loss": 2.017,
      "step": 1623
    },
    {
      "epoch": 0.04965753424657534,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009561900073837067,
      "loss": 1.8462,
      "step": 1624
    },
    {
      "epoch": 0.04968811154598826,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009561592419394535,
      "loss": 2.1448,
      "step": 1625
    },
    {
      "epoch": 0.04971868884540118,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009561284764952006,
      "loss": 2.077,
      "step": 1626
    },
    {
      "epoch": 0.04974926614481409,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009560977110509476,
      "loss": 2.2062,
      "step": 1627
    },
    {
      "epoch": 0.04977984344422701,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009560669456066946,
      "loss": 2.4125,
      "step": 1628
    },
    {
      "epoch": 0.04981042074363992,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009560361801624416,
      "loss": 2.3108,
      "step": 1629
    },
    {
      "epoch": 0.04984099804305284,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009560054147181886,
      "loss": 2.4557,
      "step": 1630
    },
    {
      "epoch": 0.04987157534246575,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009559746492739356,
      "loss": 2.2002,
      "step": 1631
    },
    {
      "epoch": 0.049902152641878667,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009559438838296825,
      "loss": 2.0819,
      "step": 1632
    },
    {
      "epoch": 0.04993272994129159,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009559131183854295,
      "loss": 1.9796,
      "step": 1633
    },
    {
      "epoch": 0.0499633072407045,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009558823529411765,
      "loss": 2.3039,
      "step": 1634
    },
    {
      "epoch": 0.04999388454011742,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009558515874969235,
      "loss": 2.0446,
      "step": 1635
    },
    {
      "epoch": 0.05002446183953033,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009558208220526705,
      "loss": 2.6688,
      "step": 1636
    },
    {
      "epoch": 0.05005503913894325,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009557900566084175,
      "loss": 2.0087,
      "step": 1637
    },
    {
      "epoch": 0.05008561643835616,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009557592911641644,
      "loss": 2.3134,
      "step": 1638
    },
    {
      "epoch": 0.05011619373776908,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009557285257199114,
      "loss": 2.2889,
      "step": 1639
    },
    {
      "epoch": 0.05014677103718199,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009556977602756583,
      "loss": 2.3038,
      "step": 1640
    },
    {
      "epoch": 0.050177348336594915,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0009556669948314054,
      "loss": 2.296,
      "step": 1641
    },
    {
      "epoch": 0.05020792563600783,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0009556362293871523,
      "loss": 1.5855,
      "step": 1642
    },
    {
      "epoch": 0.050238502935420745,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009556054639428994,
      "loss": 2.2031,
      "step": 1643
    },
    {
      "epoch": 0.05026908023483366,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009555746984986463,
      "loss": 2.3317,
      "step": 1644
    },
    {
      "epoch": 0.050299657534246575,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009555439330543934,
      "loss": 2.396,
      "step": 1645
    },
    {
      "epoch": 0.05033023483365949,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009555131676101402,
      "loss": 1.595,
      "step": 1646
    },
    {
      "epoch": 0.050360812133072405,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009554824021658873,
      "loss": 2.2421,
      "step": 1647
    },
    {
      "epoch": 0.05039138943248532,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009554516367216342,
      "loss": 2.0226,
      "step": 1648
    },
    {
      "epoch": 0.05042196673189824,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009554208712773813,
      "loss": 2.092,
      "step": 1649
    },
    {
      "epoch": 0.05045254403131116,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009553901058331283,
      "loss": 2.1456,
      "step": 1650
    },
    {
      "epoch": 0.05048312133072407,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009553593403888753,
      "loss": 2.1403,
      "step": 1651
    },
    {
      "epoch": 0.05051369863013699,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009553285749446223,
      "loss": 2.0596,
      "step": 1652
    },
    {
      "epoch": 0.0505442759295499,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009552978095003691,
      "loss": 2.1285,
      "step": 1653
    },
    {
      "epoch": 0.05057485322896282,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009552670440561162,
      "loss": 2.3925,
      "step": 1654
    },
    {
      "epoch": 0.05060543052837573,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009552362786118631,
      "loss": 2.0211,
      "step": 1655
    },
    {
      "epoch": 0.05063600782778865,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009552055131676102,
      "loss": 2.0159,
      "step": 1656
    },
    {
      "epoch": 0.05066658512720157,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009551747477233571,
      "loss": 2.038,
      "step": 1657
    },
    {
      "epoch": 0.050697162426614484,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009551439822791042,
      "loss": 2.101,
      "step": 1658
    },
    {
      "epoch": 0.0507277397260274,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009551132168348511,
      "loss": 2.1376,
      "step": 1659
    },
    {
      "epoch": 0.050758317025440314,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009550824513905981,
      "loss": 2.1965,
      "step": 1660
    },
    {
      "epoch": 0.05078889432485323,
      "grad_norm": 0.296875,
      "learning_rate": 0.000955051685946345,
      "loss": 2.1468,
      "step": 1661
    },
    {
      "epoch": 0.050819471624266144,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009550209205020921,
      "loss": 1.9564,
      "step": 1662
    },
    {
      "epoch": 0.05085004892367906,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000954990155057839,
      "loss": 1.8597,
      "step": 1663
    },
    {
      "epoch": 0.050880626223091974,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009549593896135861,
      "loss": 2.0277,
      "step": 1664
    },
    {
      "epoch": 0.050911203522504896,
      "grad_norm": 0.263671875,
      "learning_rate": 0.000954928624169333,
      "loss": 1.7159,
      "step": 1665
    },
    {
      "epoch": 0.05094178082191781,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009548978587250801,
      "loss": 2.3235,
      "step": 1666
    },
    {
      "epoch": 0.050972358121330726,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009548670932808269,
      "loss": 2.1478,
      "step": 1667
    },
    {
      "epoch": 0.05100293542074364,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009548363278365739,
      "loss": 2.3548,
      "step": 1668
    },
    {
      "epoch": 0.051033512720156556,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000954805562392321,
      "loss": 1.9899,
      "step": 1669
    },
    {
      "epoch": 0.05106409001956947,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009547747969480679,
      "loss": 2.2602,
      "step": 1670
    },
    {
      "epoch": 0.051094667318982386,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000954744031503815,
      "loss": 2.0596,
      "step": 1671
    },
    {
      "epoch": 0.0511252446183953,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009547132660595619,
      "loss": 1.8407,
      "step": 1672
    },
    {
      "epoch": 0.05115582191780822,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000954682500615309,
      "loss": 2.1763,
      "step": 1673
    },
    {
      "epoch": 0.05118639921722114,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009546517351710558,
      "loss": 2.169,
      "step": 1674
    },
    {
      "epoch": 0.05121697651663405,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009546209697268029,
      "loss": 2.1842,
      "step": 1675
    },
    {
      "epoch": 0.05124755381604697,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009545902042825498,
      "loss": 1.7695,
      "step": 1676
    },
    {
      "epoch": 0.05127813111545988,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009545594388382969,
      "loss": 1.7814,
      "step": 1677
    },
    {
      "epoch": 0.0513087084148728,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009545286733940438,
      "loss": 1.9339,
      "step": 1678
    },
    {
      "epoch": 0.05133928571428571,
      "grad_norm": 1.046875,
      "learning_rate": 0.0009544979079497909,
      "loss": 2.5262,
      "step": 1679
    },
    {
      "epoch": 0.05136986301369863,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009544671425055378,
      "loss": 2.4688,
      "step": 1680
    },
    {
      "epoch": 0.05140044031311155,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009544363770612849,
      "loss": 1.7705,
      "step": 1681
    },
    {
      "epoch": 0.051431017612524464,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009544056116170317,
      "loss": 2.4695,
      "step": 1682
    },
    {
      "epoch": 0.05146159491193738,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009543748461727788,
      "loss": 2.3636,
      "step": 1683
    },
    {
      "epoch": 0.051492172211350294,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009543440807285257,
      "loss": 1.9391,
      "step": 1684
    },
    {
      "epoch": 0.05152274951076321,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009543133152842727,
      "loss": 1.8726,
      "step": 1685
    },
    {
      "epoch": 0.051553326810176124,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009542825498400197,
      "loss": 1.6081,
      "step": 1686
    },
    {
      "epoch": 0.05158390410958904,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009542517843957667,
      "loss": 2.4589,
      "step": 1687
    },
    {
      "epoch": 0.051614481409001954,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009542210189515137,
      "loss": 2.4497,
      "step": 1688
    },
    {
      "epoch": 0.051645058708414876,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009541902535072606,
      "loss": 2.1145,
      "step": 1689
    },
    {
      "epoch": 0.05167563600782779,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009541594880630076,
      "loss": 2.1108,
      "step": 1690
    },
    {
      "epoch": 0.051706213307240706,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009541287226187546,
      "loss": 2.096,
      "step": 1691
    },
    {
      "epoch": 0.05173679060665362,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009540979571745017,
      "loss": 2.2229,
      "step": 1692
    },
    {
      "epoch": 0.051767367906066536,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009540671917302486,
      "loss": 1.9524,
      "step": 1693
    },
    {
      "epoch": 0.05179794520547945,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009540364262859957,
      "loss": 1.8286,
      "step": 1694
    },
    {
      "epoch": 0.051828522504892366,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009540056608417426,
      "loss": 1.9922,
      "step": 1695
    },
    {
      "epoch": 0.05185909980430528,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009539748953974896,
      "loss": 2.0722,
      "step": 1696
    },
    {
      "epoch": 0.0518896771037182,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009539441299532365,
      "loss": 2.2156,
      "step": 1697
    },
    {
      "epoch": 0.05192025440313112,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009539133645089836,
      "loss": 2.2743,
      "step": 1698
    },
    {
      "epoch": 0.05195083170254403,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009538825990647305,
      "loss": 2.2993,
      "step": 1699
    },
    {
      "epoch": 0.05198140900195695,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009538518336204775,
      "loss": 2.2017,
      "step": 1700
    },
    {
      "epoch": 0.05201198630136986,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009538210681762245,
      "loss": 2.0293,
      "step": 1701
    },
    {
      "epoch": 0.05204256360078278,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009537903027319715,
      "loss": 2.0921,
      "step": 1702
    },
    {
      "epoch": 0.05207314090019569,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009537595372877184,
      "loss": 2.2674,
      "step": 1703
    },
    {
      "epoch": 0.05210371819960861,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009537287718434654,
      "loss": 2.215,
      "step": 1704
    },
    {
      "epoch": 0.05213429549902153,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009536980063992124,
      "loss": 2.0718,
      "step": 1705
    },
    {
      "epoch": 0.052164872798434445,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009536672409549594,
      "loss": 1.913,
      "step": 1706
    },
    {
      "epoch": 0.05219545009784736,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009536364755107064,
      "loss": 2.7315,
      "step": 1707
    },
    {
      "epoch": 0.052226027397260275,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009536057100664534,
      "loss": 1.8569,
      "step": 1708
    },
    {
      "epoch": 0.05225660469667319,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009535749446222004,
      "loss": 2.0852,
      "step": 1709
    },
    {
      "epoch": 0.052287181996086105,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009535441791779473,
      "loss": 2.1005,
      "step": 1710
    },
    {
      "epoch": 0.05231775929549902,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009535134137336943,
      "loss": 2.32,
      "step": 1711
    },
    {
      "epoch": 0.052348336594911934,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009534826482894413,
      "loss": 2.0538,
      "step": 1712
    },
    {
      "epoch": 0.052378913894324856,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009534518828451884,
      "loss": 2.1924,
      "step": 1713
    },
    {
      "epoch": 0.05240949119373777,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009534211174009353,
      "loss": 2.3797,
      "step": 1714
    },
    {
      "epoch": 0.052440068493150686,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009533903519566823,
      "loss": 1.9933,
      "step": 1715
    },
    {
      "epoch": 0.0524706457925636,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009533595865124293,
      "loss": 2.2798,
      "step": 1716
    },
    {
      "epoch": 0.052501223091976516,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009533288210681762,
      "loss": 2.3276,
      "step": 1717
    },
    {
      "epoch": 0.05253180039138943,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009532980556239232,
      "loss": 2.2559,
      "step": 1718
    },
    {
      "epoch": 0.052562377690802346,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009532672901796702,
      "loss": 2.1741,
      "step": 1719
    },
    {
      "epoch": 0.05259295499021526,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009532365247354172,
      "loss": 2.068,
      "step": 1720
    },
    {
      "epoch": 0.05262353228962818,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009532057592911642,
      "loss": 2.5356,
      "step": 1721
    },
    {
      "epoch": 0.0526541095890411,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009531749938469112,
      "loss": 1.9426,
      "step": 1722
    },
    {
      "epoch": 0.05268468688845401,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009531442284026582,
      "loss": 2.0495,
      "step": 1723
    },
    {
      "epoch": 0.05271526418786693,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009531134629584051,
      "loss": 2.281,
      "step": 1724
    },
    {
      "epoch": 0.05274584148727984,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009530826975141521,
      "loss": 2.1866,
      "step": 1725
    },
    {
      "epoch": 0.05277641878669276,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009530519320698991,
      "loss": 2.0861,
      "step": 1726
    },
    {
      "epoch": 0.05280699608610567,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009530211666256461,
      "loss": 2.4762,
      "step": 1727
    },
    {
      "epoch": 0.05283757338551859,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009529904011813931,
      "loss": 1.85,
      "step": 1728
    },
    {
      "epoch": 0.05286815068493151,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009529596357371401,
      "loss": 2.0265,
      "step": 1729
    },
    {
      "epoch": 0.052898727984344425,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000952928870292887,
      "loss": 2.1971,
      "step": 1730
    },
    {
      "epoch": 0.05292930528375734,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000952898104848634,
      "loss": 1.9388,
      "step": 1731
    },
    {
      "epoch": 0.052959882583170255,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009528673394043809,
      "loss": 1.9088,
      "step": 1732
    },
    {
      "epoch": 0.05299045988258317,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000952836573960128,
      "loss": 2.1963,
      "step": 1733
    },
    {
      "epoch": 0.053021037181996085,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000952805808515875,
      "loss": 2.398,
      "step": 1734
    },
    {
      "epoch": 0.053051614481409,
      "grad_norm": 0.25390625,
      "learning_rate": 0.000952775043071622,
      "loss": 1.5619,
      "step": 1735
    },
    {
      "epoch": 0.053082191780821915,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000952744277627369,
      "loss": 2.332,
      "step": 1736
    },
    {
      "epoch": 0.05311276908023484,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000952713512183116,
      "loss": 2.2224,
      "step": 1737
    },
    {
      "epoch": 0.05314334637964775,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009526827467388629,
      "loss": 2.4235,
      "step": 1738
    },
    {
      "epoch": 0.05317392367906067,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009526519812946099,
      "loss": 2.2642,
      "step": 1739
    },
    {
      "epoch": 0.05320450097847358,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009526212158503569,
      "loss": 2.2835,
      "step": 1740
    },
    {
      "epoch": 0.0532350782778865,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009525904504061039,
      "loss": 2.4678,
      "step": 1741
    },
    {
      "epoch": 0.05326565557729941,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009525596849618509,
      "loss": 1.8904,
      "step": 1742
    },
    {
      "epoch": 0.05329623287671233,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009525289195175979,
      "loss": 2.5777,
      "step": 1743
    },
    {
      "epoch": 0.05332681017612524,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009524981540733449,
      "loss": 2.3504,
      "step": 1744
    },
    {
      "epoch": 0.053357387475538164,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009524673886290917,
      "loss": 1.9413,
      "step": 1745
    },
    {
      "epoch": 0.05338796477495108,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009524366231848388,
      "loss": 2.167,
      "step": 1746
    },
    {
      "epoch": 0.053418542074363994,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009524058577405857,
      "loss": 1.9578,
      "step": 1747
    },
    {
      "epoch": 0.05344911937377691,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009523750922963328,
      "loss": 2.1375,
      "step": 1748
    },
    {
      "epoch": 0.053479696673189824,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009523443268520797,
      "loss": 1.8701,
      "step": 1749
    },
    {
      "epoch": 0.05351027397260274,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0009523135614078268,
      "loss": 2.4161,
      "step": 1750
    },
    {
      "epoch": 0.053540851272015653,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009522827959635737,
      "loss": 1.8193,
      "step": 1751
    },
    {
      "epoch": 0.05357142857142857,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009522520305193208,
      "loss": 1.9474,
      "step": 1752
    },
    {
      "epoch": 0.05360200587084149,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009522212650750676,
      "loss": 2.0911,
      "step": 1753
    },
    {
      "epoch": 0.053632583170254405,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009521904996308147,
      "loss": 2.018,
      "step": 1754
    },
    {
      "epoch": 0.05366316046966732,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009521597341865616,
      "loss": 1.8529,
      "step": 1755
    },
    {
      "epoch": 0.053693737769080235,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009521289687423087,
      "loss": 1.9904,
      "step": 1756
    },
    {
      "epoch": 0.05372431506849315,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009520982032980557,
      "loss": 2.0147,
      "step": 1757
    },
    {
      "epoch": 0.053754892367906065,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009520674378538027,
      "loss": 2.1493,
      "step": 1758
    },
    {
      "epoch": 0.05378546966731898,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009520366724095497,
      "loss": 2.2197,
      "step": 1759
    },
    {
      "epoch": 0.053816046966731895,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009520059069652966,
      "loss": 2.1033,
      "step": 1760
    },
    {
      "epoch": 0.05384662426614482,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009519751415210436,
      "loss": 2.0042,
      "step": 1761
    },
    {
      "epoch": 0.05387720156555773,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009519443760767905,
      "loss": 2.4748,
      "step": 1762
    },
    {
      "epoch": 0.05390777886497065,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009519136106325376,
      "loss": 1.9935,
      "step": 1763
    },
    {
      "epoch": 0.05393835616438356,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009518828451882845,
      "loss": 2.4616,
      "step": 1764
    },
    {
      "epoch": 0.05396893346379648,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009518520797440316,
      "loss": 2.0367,
      "step": 1765
    },
    {
      "epoch": 0.05399951076320939,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009518213142997785,
      "loss": 2.0444,
      "step": 1766
    },
    {
      "epoch": 0.05403008806262231,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009517905488555255,
      "loss": 2.3608,
      "step": 1767
    },
    {
      "epoch": 0.05406066536203522,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009517597834112724,
      "loss": 2.4224,
      "step": 1768
    },
    {
      "epoch": 0.054091242661448144,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009517290179670195,
      "loss": 2.0371,
      "step": 1769
    },
    {
      "epoch": 0.05412181996086106,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009516982525227664,
      "loss": 1.9375,
      "step": 1770
    },
    {
      "epoch": 0.054152397260273974,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009516674870785135,
      "loss": 1.7273,
      "step": 1771
    },
    {
      "epoch": 0.05418297455968689,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009516367216342604,
      "loss": 2.0541,
      "step": 1772
    },
    {
      "epoch": 0.054213551859099804,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009516059561900075,
      "loss": 2.4158,
      "step": 1773
    },
    {
      "epoch": 0.05424412915851272,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009515751907457543,
      "loss": 1.7971,
      "step": 1774
    },
    {
      "epoch": 0.054274706457925634,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009515444253015014,
      "loss": 2.5257,
      "step": 1775
    },
    {
      "epoch": 0.05430528375733855,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009515136598572483,
      "loss": 2.3753,
      "step": 1776
    },
    {
      "epoch": 0.05433586105675147,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009514828944129953,
      "loss": 2.114,
      "step": 1777
    },
    {
      "epoch": 0.054366438356164386,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009514521289687424,
      "loss": 1.8881,
      "step": 1778
    },
    {
      "epoch": 0.0543970156555773,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009514213635244893,
      "loss": 2.4641,
      "step": 1779
    },
    {
      "epoch": 0.054427592954990216,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009513905980802364,
      "loss": 1.8128,
      "step": 1780
    },
    {
      "epoch": 0.05445817025440313,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009513598326359832,
      "loss": 2.1331,
      "step": 1781
    },
    {
      "epoch": 0.054488747553816046,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009513290671917303,
      "loss": 2.2814,
      "step": 1782
    },
    {
      "epoch": 0.05451932485322896,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009512983017474772,
      "loss": 2.0148,
      "step": 1783
    },
    {
      "epoch": 0.054549902152641876,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009512675363032243,
      "loss": 2.5355,
      "step": 1784
    },
    {
      "epoch": 0.0545804794520548,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0009512367708589712,
      "loss": 2.5297,
      "step": 1785
    },
    {
      "epoch": 0.05461105675146771,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009512060054147183,
      "loss": 2.1889,
      "step": 1786
    },
    {
      "epoch": 0.05464163405088063,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009511752399704652,
      "loss": 2.1869,
      "step": 1787
    },
    {
      "epoch": 0.05467221135029354,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009511444745262122,
      "loss": 2.1165,
      "step": 1788
    },
    {
      "epoch": 0.05470278864970646,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009511137090819591,
      "loss": 2.0228,
      "step": 1789
    },
    {
      "epoch": 0.05473336594911937,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009510829436377062,
      "loss": 2.1592,
      "step": 1790
    },
    {
      "epoch": 0.05476394324853229,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009510521781934531,
      "loss": 1.9738,
      "step": 1791
    },
    {
      "epoch": 0.0547945205479452,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009510214127492001,
      "loss": 1.7773,
      "step": 1792
    },
    {
      "epoch": 0.054825097847358124,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009509906473049471,
      "loss": 2.3403,
      "step": 1793
    },
    {
      "epoch": 0.05485567514677104,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009509598818606941,
      "loss": 2.1653,
      "step": 1794
    },
    {
      "epoch": 0.054886252446183954,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000950929116416441,
      "loss": 2.1193,
      "step": 1795
    },
    {
      "epoch": 0.05491682974559687,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000950898350972188,
      "loss": 2.3396,
      "step": 1796
    },
    {
      "epoch": 0.054947407045009784,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000950867585527935,
      "loss": 2.0035,
      "step": 1797
    },
    {
      "epoch": 0.0549779843444227,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000950836820083682,
      "loss": 2.5409,
      "step": 1798
    },
    {
      "epoch": 0.055008561643835614,
      "grad_norm": 0.3125,
      "learning_rate": 0.000950806054639429,
      "loss": 2.4296,
      "step": 1799
    },
    {
      "epoch": 0.05503913894324853,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000950775289195176,
      "loss": 1.9144,
      "step": 1800
    },
    {
      "epoch": 0.05506971624266145,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009507445237509231,
      "loss": 2.3849,
      "step": 1801
    },
    {
      "epoch": 0.055100293542074366,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009507137583066699,
      "loss": 2.0043,
      "step": 1802
    },
    {
      "epoch": 0.05513087084148728,
      "grad_norm": 0.296875,
      "learning_rate": 0.000950682992862417,
      "loss": 2.1575,
      "step": 1803
    },
    {
      "epoch": 0.055161448140900196,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009506522274181639,
      "loss": 2.0513,
      "step": 1804
    },
    {
      "epoch": 0.05519202544031311,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000950621461973911,
      "loss": 2.4739,
      "step": 1805
    },
    {
      "epoch": 0.055222602739726026,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009505906965296579,
      "loss": 2.3461,
      "step": 1806
    },
    {
      "epoch": 0.05525318003913894,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009505599310854049,
      "loss": 2.0976,
      "step": 1807
    },
    {
      "epoch": 0.055283757338551856,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009505291656411519,
      "loss": 2.1997,
      "step": 1808
    },
    {
      "epoch": 0.05531433463796478,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009504984001968988,
      "loss": 2.5395,
      "step": 1809
    },
    {
      "epoch": 0.05534491193737769,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009504676347526458,
      "loss": 1.8245,
      "step": 1810
    },
    {
      "epoch": 0.05537548923679061,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009504368693083928,
      "loss": 2.3699,
      "step": 1811
    },
    {
      "epoch": 0.05540606653620352,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009504061038641398,
      "loss": 1.8508,
      "step": 1812
    },
    {
      "epoch": 0.05543664383561644,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009503753384198868,
      "loss": 2.3055,
      "step": 1813
    },
    {
      "epoch": 0.05546722113502935,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009503445729756338,
      "loss": 2.0233,
      "step": 1814
    },
    {
      "epoch": 0.05549779843444227,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009503138075313808,
      "loss": 2.0345,
      "step": 1815
    },
    {
      "epoch": 0.05552837573385518,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009502830420871278,
      "loss": 1.9252,
      "step": 1816
    },
    {
      "epoch": 0.055558953033268105,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009502522766428747,
      "loss": 2.4912,
      "step": 1817
    },
    {
      "epoch": 0.05558953033268102,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009502215111986217,
      "loss": 2.3501,
      "step": 1818
    },
    {
      "epoch": 0.055620107632093935,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009501907457543687,
      "loss": 2.3351,
      "step": 1819
    },
    {
      "epoch": 0.05565068493150685,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009501599803101158,
      "loss": 2.3211,
      "step": 1820
    },
    {
      "epoch": 0.055681262230919765,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009501292148658627,
      "loss": 2.4482,
      "step": 1821
    },
    {
      "epoch": 0.05571183953033268,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009500984494216098,
      "loss": 2.082,
      "step": 1822
    },
    {
      "epoch": 0.055742416829745595,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009500676839773567,
      "loss": 1.9034,
      "step": 1823
    },
    {
      "epoch": 0.05577299412915851,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009500369185331036,
      "loss": 2.1178,
      "step": 1824
    },
    {
      "epoch": 0.05580357142857143,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009500061530888506,
      "loss": 2.0904,
      "step": 1825
    },
    {
      "epoch": 0.055834148727984347,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009499753876445976,
      "loss": 2.439,
      "step": 1826
    },
    {
      "epoch": 0.05586472602739726,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009499446222003446,
      "loss": 2.0943,
      "step": 1827
    },
    {
      "epoch": 0.055895303326810176,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009499138567560916,
      "loss": 2.5678,
      "step": 1828
    },
    {
      "epoch": 0.05592588062622309,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009498830913118386,
      "loss": 1.8272,
      "step": 1829
    },
    {
      "epoch": 0.055956457925636006,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009498523258675856,
      "loss": 1.6492,
      "step": 1830
    },
    {
      "epoch": 0.05598703522504892,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009498215604233325,
      "loss": 2.0997,
      "step": 1831
    },
    {
      "epoch": 0.056017612524461836,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009497907949790795,
      "loss": 2.4156,
      "step": 1832
    },
    {
      "epoch": 0.05604818982387476,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009497600295348265,
      "loss": 2.2612,
      "step": 1833
    },
    {
      "epoch": 0.05607876712328767,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009497292640905735,
      "loss": 2.5323,
      "step": 1834
    },
    {
      "epoch": 0.05610934442270059,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009496984986463205,
      "loss": 2.2364,
      "step": 1835
    },
    {
      "epoch": 0.0561399217221135,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009496677332020675,
      "loss": 2.2855,
      "step": 1836
    },
    {
      "epoch": 0.05617049902152642,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0009496369677578145,
      "loss": 1.7117,
      "step": 1837
    },
    {
      "epoch": 0.05620107632093933,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009496062023135614,
      "loss": 2.5525,
      "step": 1838
    },
    {
      "epoch": 0.05623165362035225,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009495754368693083,
      "loss": 2.3267,
      "step": 1839
    },
    {
      "epoch": 0.05626223091976516,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009495446714250554,
      "loss": 1.7964,
      "step": 1840
    },
    {
      "epoch": 0.056292808219178085,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009495139059808023,
      "loss": 2.1909,
      "step": 1841
    },
    {
      "epoch": 0.056323385518591,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009494831405365494,
      "loss": 1.7148,
      "step": 1842
    },
    {
      "epoch": 0.056353962818003915,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009494523750922964,
      "loss": 2.0307,
      "step": 1843
    },
    {
      "epoch": 0.05638454011741683,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009494216096480434,
      "loss": 1.7959,
      "step": 1844
    },
    {
      "epoch": 0.056415117416829745,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009493908442037902,
      "loss": 1.9781,
      "step": 1845
    },
    {
      "epoch": 0.05644569471624266,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009493600787595373,
      "loss": 2.1805,
      "step": 1846
    },
    {
      "epoch": 0.056476272015655575,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009493293133152843,
      "loss": 2.1757,
      "step": 1847
    },
    {
      "epoch": 0.05650684931506849,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009492985478710313,
      "loss": 2.267,
      "step": 1848
    },
    {
      "epoch": 0.05653742661448141,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009492677824267783,
      "loss": 2.3297,
      "step": 1849
    },
    {
      "epoch": 0.05656800391389433,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009492370169825253,
      "loss": 2.1806,
      "step": 1850
    },
    {
      "epoch": 0.05659858121330724,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009492062515382723,
      "loss": 1.8255,
      "step": 1851
    },
    {
      "epoch": 0.05662915851272016,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009491754860940192,
      "loss": 2.3496,
      "step": 1852
    },
    {
      "epoch": 0.05665973581213307,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009491447206497662,
      "loss": 2.4799,
      "step": 1853
    },
    {
      "epoch": 0.05669031311154599,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009491139552055131,
      "loss": 1.7603,
      "step": 1854
    },
    {
      "epoch": 0.0567208904109589,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009490831897612602,
      "loss": 1.9692,
      "step": 1855
    },
    {
      "epoch": 0.05675146771037182,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009490524243170071,
      "loss": 2.5693,
      "step": 1856
    },
    {
      "epoch": 0.05678204500978474,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009490216588727542,
      "loss": 1.968,
      "step": 1857
    },
    {
      "epoch": 0.056812622309197654,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009489908934285011,
      "loss": 2.0735,
      "step": 1858
    },
    {
      "epoch": 0.05684319960861057,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009489601279842481,
      "loss": 2.357,
      "step": 1859
    },
    {
      "epoch": 0.056873776908023484,
      "grad_norm": 0.296875,
      "learning_rate": 0.000948929362539995,
      "loss": 1.9997,
      "step": 1860
    },
    {
      "epoch": 0.0569043542074364,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009488985970957421,
      "loss": 1.8826,
      "step": 1861
    },
    {
      "epoch": 0.056934931506849314,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000948867831651489,
      "loss": 1.9686,
      "step": 1862
    },
    {
      "epoch": 0.05696550880626223,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009488370662072361,
      "loss": 2.2545,
      "step": 1863
    },
    {
      "epoch": 0.056996086105675144,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000948806300762983,
      "loss": 2.499,
      "step": 1864
    },
    {
      "epoch": 0.057026663405088066,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009487755353187301,
      "loss": 2.0897,
      "step": 1865
    },
    {
      "epoch": 0.05705724070450098,
      "grad_norm": 0.28125,
      "learning_rate": 0.000948744769874477,
      "loss": 1.9254,
      "step": 1866
    },
    {
      "epoch": 0.057087818003913895,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000948714004430224,
      "loss": 1.85,
      "step": 1867
    },
    {
      "epoch": 0.05711839530332681,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000948683238985971,
      "loss": 2.3236,
      "step": 1868
    },
    {
      "epoch": 0.057148972602739725,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009486524735417179,
      "loss": 2.1357,
      "step": 1869
    },
    {
      "epoch": 0.05717954990215264,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000948621708097465,
      "loss": 2.0327,
      "step": 1870
    },
    {
      "epoch": 0.057210127201565555,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009485909426532119,
      "loss": 2.446,
      "step": 1871
    },
    {
      "epoch": 0.05724070450097847,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000948560177208959,
      "loss": 2.3041,
      "step": 1872
    },
    {
      "epoch": 0.05727128180039139,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009485294117647058,
      "loss": 2.3663,
      "step": 1873
    },
    {
      "epoch": 0.05730185909980431,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009484986463204529,
      "loss": 2.2824,
      "step": 1874
    },
    {
      "epoch": 0.05733243639921722,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009484678808761998,
      "loss": 2.1482,
      "step": 1875
    },
    {
      "epoch": 0.05736301369863014,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009484371154319469,
      "loss": 2.1274,
      "step": 1876
    },
    {
      "epoch": 0.05739359099804305,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009484063499876938,
      "loss": 2.1111,
      "step": 1877
    },
    {
      "epoch": 0.05742416829745597,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009483755845434409,
      "loss": 1.939,
      "step": 1878
    },
    {
      "epoch": 0.05745474559686888,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009483448190991878,
      "loss": 2.0899,
      "step": 1879
    },
    {
      "epoch": 0.0574853228962818,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009483140536549348,
      "loss": 2.2686,
      "step": 1880
    },
    {
      "epoch": 0.05751590019569472,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009482832882106817,
      "loss": 2.4305,
      "step": 1881
    },
    {
      "epoch": 0.057546477495107634,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009482525227664288,
      "loss": 1.9242,
      "step": 1882
    },
    {
      "epoch": 0.05757705479452055,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009482217573221757,
      "loss": 2.5954,
      "step": 1883
    },
    {
      "epoch": 0.057607632093933464,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009481909918779227,
      "loss": 2.2083,
      "step": 1884
    },
    {
      "epoch": 0.05763820939334638,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009481602264336697,
      "loss": 2.2313,
      "step": 1885
    },
    {
      "epoch": 0.057668786692759294,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009481294609894167,
      "loss": 2.2529,
      "step": 1886
    },
    {
      "epoch": 0.05769936399217221,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009480986955451638,
      "loss": 2.1186,
      "step": 1887
    },
    {
      "epoch": 0.057729941291585124,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009480679301009106,
      "loss": 1.891,
      "step": 1888
    },
    {
      "epoch": 0.057760518590998046,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009480371646566577,
      "loss": 2.3164,
      "step": 1889
    },
    {
      "epoch": 0.05779109589041096,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009480063992124046,
      "loss": 2.3262,
      "step": 1890
    },
    {
      "epoch": 0.057821673189823876,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009479756337681517,
      "loss": 1.8689,
      "step": 1891
    },
    {
      "epoch": 0.05785225048923679,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009479448683238986,
      "loss": 2.2875,
      "step": 1892
    },
    {
      "epoch": 0.057882827788649706,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009479141028796457,
      "loss": 1.9394,
      "step": 1893
    },
    {
      "epoch": 0.05791340508806262,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009478833374353926,
      "loss": 1.7287,
      "step": 1894
    },
    {
      "epoch": 0.057943982387475536,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009478525719911396,
      "loss": 2.0843,
      "step": 1895
    },
    {
      "epoch": 0.05797455968688845,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009478218065468865,
      "loss": 1.8934,
      "step": 1896
    },
    {
      "epoch": 0.05800513698630137,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009477910411026336,
      "loss": 1.9808,
      "step": 1897
    },
    {
      "epoch": 0.05803571428571429,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009477602756583805,
      "loss": 2.0136,
      "step": 1898
    },
    {
      "epoch": 0.0580662915851272,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009477295102141276,
      "loss": 2.1639,
      "step": 1899
    },
    {
      "epoch": 0.05809686888454012,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009476987447698745,
      "loss": 2.2653,
      "step": 1900
    },
    {
      "epoch": 0.05812744618395303,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009476679793256215,
      "loss": 2.0321,
      "step": 1901
    },
    {
      "epoch": 0.05815802348336595,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009476372138813684,
      "loss": 2.4699,
      "step": 1902
    },
    {
      "epoch": 0.05818860078277886,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009476064484371154,
      "loss": 1.7812,
      "step": 1903
    },
    {
      "epoch": 0.05821917808219178,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009475756829928624,
      "loss": 1.816,
      "step": 1904
    },
    {
      "epoch": 0.0582497553816047,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009475449175486094,
      "loss": 2.3383,
      "step": 1905
    },
    {
      "epoch": 0.058280332681017614,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009475141521043564,
      "loss": 2.2645,
      "step": 1906
    },
    {
      "epoch": 0.05831090998043053,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009474833866601034,
      "loss": 2.3382,
      "step": 1907
    },
    {
      "epoch": 0.058341487279843444,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009474526212158505,
      "loss": 2.5652,
      "step": 1908
    },
    {
      "epoch": 0.05837206457925636,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009474218557715973,
      "loss": 2.1824,
      "step": 1909
    },
    {
      "epoch": 0.058402641878669274,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009473910903273444,
      "loss": 2.5851,
      "step": 1910
    },
    {
      "epoch": 0.05843321917808219,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009473603248830913,
      "loss": 2.1674,
      "step": 1911
    },
    {
      "epoch": 0.058463796477495104,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009473295594388384,
      "loss": 2.2888,
      "step": 1912
    },
    {
      "epoch": 0.058494373776908026,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009472987939945853,
      "loss": 2.0577,
      "step": 1913
    },
    {
      "epoch": 0.05852495107632094,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009472680285503324,
      "loss": 2.3001,
      "step": 1914
    },
    {
      "epoch": 0.058555528375733856,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009472372631060793,
      "loss": 1.878,
      "step": 1915
    },
    {
      "epoch": 0.05858610567514677,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009472064976618262,
      "loss": 1.9135,
      "step": 1916
    },
    {
      "epoch": 0.058616682974559686,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009471757322175732,
      "loss": 2.3582,
      "step": 1917
    },
    {
      "epoch": 0.0586472602739726,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009471449667733202,
      "loss": 2.3245,
      "step": 1918
    },
    {
      "epoch": 0.058677837573385516,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009471142013290672,
      "loss": 2.413,
      "step": 1919
    },
    {
      "epoch": 0.05870841487279843,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009470834358848142,
      "loss": 2.1822,
      "step": 1920
    },
    {
      "epoch": 0.05873899217221135,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009470526704405612,
      "loss": 2.1673,
      "step": 1921
    },
    {
      "epoch": 0.05876956947162427,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009470219049963082,
      "loss": 2.08,
      "step": 1922
    },
    {
      "epoch": 0.05880014677103718,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009469911395520551,
      "loss": 2.4592,
      "step": 1923
    },
    {
      "epoch": 0.0588307240704501,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009469603741078021,
      "loss": 2.2738,
      "step": 1924
    },
    {
      "epoch": 0.05886130136986301,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009469296086635491,
      "loss": 1.8308,
      "step": 1925
    },
    {
      "epoch": 0.05889187866927593,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009468988432192961,
      "loss": 1.7588,
      "step": 1926
    },
    {
      "epoch": 0.05892245596868884,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009468680777750431,
      "loss": 2.1691,
      "step": 1927
    },
    {
      "epoch": 0.05895303326810176,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009468373123307901,
      "loss": 2.153,
      "step": 1928
    },
    {
      "epoch": 0.05898361056751468,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009468065468865372,
      "loss": 2.2961,
      "step": 1929
    },
    {
      "epoch": 0.059014187866927595,
      "grad_norm": 0.296875,
      "learning_rate": 0.000946775781442284,
      "loss": 1.9716,
      "step": 1930
    },
    {
      "epoch": 0.05904476516634051,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000946745015998031,
      "loss": 2.0113,
      "step": 1931
    },
    {
      "epoch": 0.059075342465753425,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000946714250553778,
      "loss": 2.3972,
      "step": 1932
    },
    {
      "epoch": 0.05910591976516634,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000946683485109525,
      "loss": 1.948,
      "step": 1933
    },
    {
      "epoch": 0.059136497064579255,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000946652719665272,
      "loss": 2.1801,
      "step": 1934
    },
    {
      "epoch": 0.05916707436399217,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000946621954221019,
      "loss": 1.9199,
      "step": 1935
    },
    {
      "epoch": 0.059197651663405085,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000946591188776766,
      "loss": 2.1583,
      "step": 1936
    },
    {
      "epoch": 0.05922822896281801,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009465604233325129,
      "loss": 2.2829,
      "step": 1937
    },
    {
      "epoch": 0.05925880626223092,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009465296578882599,
      "loss": 2.7808,
      "step": 1938
    },
    {
      "epoch": 0.05928938356164384,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009464988924440069,
      "loss": 2.0818,
      "step": 1939
    },
    {
      "epoch": 0.05931996086105675,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009464681269997539,
      "loss": 1.5096,
      "step": 1940
    },
    {
      "epoch": 0.05935053816046967,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009464373615555009,
      "loss": 1.9791,
      "step": 1941
    },
    {
      "epoch": 0.05938111545988258,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009464065961112479,
      "loss": 2.2806,
      "step": 1942
    },
    {
      "epoch": 0.0594116927592955,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009463758306669949,
      "loss": 2.3911,
      "step": 1943
    },
    {
      "epoch": 0.05944227005870841,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009463450652227418,
      "loss": 2.0392,
      "step": 1944
    },
    {
      "epoch": 0.059472847358121333,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009463142997784888,
      "loss": 2.1857,
      "step": 1945
    },
    {
      "epoch": 0.05950342465753425,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009462835343342357,
      "loss": 2.3649,
      "step": 1946
    },
    {
      "epoch": 0.05953400195694716,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009462527688899828,
      "loss": 2.1506,
      "step": 1947
    },
    {
      "epoch": 0.05956457925636008,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009462220034457297,
      "loss": 2.0487,
      "step": 1948
    },
    {
      "epoch": 0.05959515655577299,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009461912380014768,
      "loss": 1.9179,
      "step": 1949
    },
    {
      "epoch": 0.05962573385518591,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009461604725572237,
      "loss": 1.6828,
      "step": 1950
    },
    {
      "epoch": 0.05965631115459882,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009461297071129707,
      "loss": 2.008,
      "step": 1951
    },
    {
      "epoch": 0.05968688845401174,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009460989416687176,
      "loss": 1.94,
      "step": 1952
    },
    {
      "epoch": 0.05971746575342466,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009460681762244647,
      "loss": 1.9267,
      "step": 1953
    },
    {
      "epoch": 0.059748043052837575,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009460374107802117,
      "loss": 2.3409,
      "step": 1954
    },
    {
      "epoch": 0.05977862035225049,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009460066453359587,
      "loss": 2.1753,
      "step": 1955
    },
    {
      "epoch": 0.059809197651663405,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009459758798917057,
      "loss": 2.0154,
      "step": 1956
    },
    {
      "epoch": 0.05983977495107632,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009459451144474527,
      "loss": 2.3282,
      "step": 1957
    },
    {
      "epoch": 0.059870352250489235,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009459143490031997,
      "loss": 2.4611,
      "step": 1958
    },
    {
      "epoch": 0.05990092954990215,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009458835835589466,
      "loss": 2.4713,
      "step": 1959
    },
    {
      "epoch": 0.059931506849315065,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009458528181146936,
      "loss": 2.1933,
      "step": 1960
    },
    {
      "epoch": 0.05996208414872799,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009458220526704406,
      "loss": 2.2234,
      "step": 1961
    },
    {
      "epoch": 0.0599926614481409,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009457912872261876,
      "loss": 1.7876,
      "step": 1962
    },
    {
      "epoch": 0.06002323874755382,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009457605217819345,
      "loss": 2.6083,
      "step": 1963
    },
    {
      "epoch": 0.06005381604696673,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009457297563376816,
      "loss": 2.4349,
      "step": 1964
    },
    {
      "epoch": 0.06008439334637965,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009456989908934285,
      "loss": 2.1929,
      "step": 1965
    },
    {
      "epoch": 0.06011497064579256,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009456682254491755,
      "loss": 1.7904,
      "step": 1966
    },
    {
      "epoch": 0.06014554794520548,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009456374600049224,
      "loss": 2.0759,
      "step": 1967
    },
    {
      "epoch": 0.06017612524461839,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009456066945606695,
      "loss": 1.9957,
      "step": 1968
    },
    {
      "epoch": 0.060206702544031314,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009455759291164164,
      "loss": 2.4642,
      "step": 1969
    },
    {
      "epoch": 0.06023727984344423,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009455451636721635,
      "loss": 2.5818,
      "step": 1970
    },
    {
      "epoch": 0.060267857142857144,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009455143982279104,
      "loss": 2.2748,
      "step": 1971
    },
    {
      "epoch": 0.06029843444227006,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009454836327836575,
      "loss": 2.2863,
      "step": 1972
    },
    {
      "epoch": 0.060329011741682974,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009454528673394043,
      "loss": 1.932,
      "step": 1973
    },
    {
      "epoch": 0.06035958904109589,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009454221018951514,
      "loss": 2.1476,
      "step": 1974
    },
    {
      "epoch": 0.060390166340508804,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009453913364508984,
      "loss": 2.2585,
      "step": 1975
    },
    {
      "epoch": 0.06042074363992172,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009453605710066454,
      "loss": 2.2263,
      "step": 1976
    },
    {
      "epoch": 0.06045132093933464,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009453298055623924,
      "loss": 2.1484,
      "step": 1977
    },
    {
      "epoch": 0.060481898238747556,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009452990401181393,
      "loss": 1.9993,
      "step": 1978
    },
    {
      "epoch": 0.06051247553816047,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009452682746738864,
      "loss": 2.4205,
      "step": 1979
    },
    {
      "epoch": 0.060543052837573386,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009452375092296332,
      "loss": 1.8312,
      "step": 1980
    },
    {
      "epoch": 0.0605736301369863,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009452067437853803,
      "loss": 1.9935,
      "step": 1981
    },
    {
      "epoch": 0.060604207436399216,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009451759783411272,
      "loss": 2.2354,
      "step": 1982
    },
    {
      "epoch": 0.06063478473581213,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009451452128968743,
      "loss": 2.2053,
      "step": 1983
    },
    {
      "epoch": 0.060665362035225046,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009451144474526212,
      "loss": 2.148,
      "step": 1984
    },
    {
      "epoch": 0.06069593933463797,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009450836820083683,
      "loss": 2.2953,
      "step": 1985
    },
    {
      "epoch": 0.06072651663405088,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009450529165641152,
      "loss": 1.9684,
      "step": 1986
    },
    {
      "epoch": 0.0607570939334638,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009450221511198622,
      "loss": 1.9281,
      "step": 1987
    },
    {
      "epoch": 0.06078767123287671,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009449913856756091,
      "loss": 2.3383,
      "step": 1988
    },
    {
      "epoch": 0.06081824853228963,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009449606202313562,
      "loss": 2.3385,
      "step": 1989
    },
    {
      "epoch": 0.06084882583170254,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009449298547871031,
      "loss": 2.2822,
      "step": 1990
    },
    {
      "epoch": 0.06087940313111546,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009448990893428502,
      "loss": 1.9582,
      "step": 1991
    },
    {
      "epoch": 0.06090998043052837,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009448683238985971,
      "loss": 1.9849,
      "step": 1992
    },
    {
      "epoch": 0.060940557729941294,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009448375584543441,
      "loss": 2.2213,
      "step": 1993
    },
    {
      "epoch": 0.06097113502935421,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000944806793010091,
      "loss": 2.1167,
      "step": 1994
    },
    {
      "epoch": 0.061001712328767124,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000944776027565838,
      "loss": 2.3961,
      "step": 1995
    },
    {
      "epoch": 0.06103228962818004,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000944745262121585,
      "loss": 2.4452,
      "step": 1996
    },
    {
      "epoch": 0.061062866927592954,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000944714496677332,
      "loss": 2.2346,
      "step": 1997
    },
    {
      "epoch": 0.06109344422700587,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009446837312330791,
      "loss": 2.0367,
      "step": 1998
    },
    {
      "epoch": 0.061124021526418784,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000944652965788826,
      "loss": 2.3305,
      "step": 1999
    },
    {
      "epoch": 0.0611545988258317,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009446222003445731,
      "loss": 2.2286,
      "step": 2000
    },
    {
      "epoch": 0.0611545988258317,
      "eval_loss": 1.701856255531311,
      "eval_runtime": 77.4423,
      "eval_samples_per_second": 11.57,
      "eval_steps_per_second": 0.362,
      "step": 2000
    },
    {
      "epoch": 0.0611545988258317,
      "eval/hellaswag_acc": 0.3761202947619996,
      "eval/hellaswag_acc_norm": 0.46793467436765585,
      "eval_hellaswag_elapsed_time": 364.51749658584595,
      "step": 2000
    },
    {
      "epoch": 0.06118517612524462,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009445914349003199,
      "loss": 2.249,
      "step": 2001
    },
    {
      "epoch": 0.061215753424657536,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000944560669456067,
      "loss": 2.3079,
      "step": 2002
    },
    {
      "epoch": 0.06124633072407045,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009445299040118139,
      "loss": 2.0977,
      "step": 2003
    },
    {
      "epoch": 0.061276908023483366,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000944499138567561,
      "loss": 2.267,
      "step": 2004
    },
    {
      "epoch": 0.06130748532289628,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009444683731233079,
      "loss": 2.5001,
      "step": 2005
    },
    {
      "epoch": 0.061338062622309196,
      "grad_norm": 0.3125,
      "learning_rate": 0.000944437607679055,
      "loss": 2.3917,
      "step": 2006
    },
    {
      "epoch": 0.06136863992172211,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009444068422348019,
      "loss": 1.8785,
      "step": 2007
    },
    {
      "epoch": 0.061399217221135026,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009443760767905488,
      "loss": 2.1213,
      "step": 2008
    },
    {
      "epoch": 0.06142979452054795,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009443453113462958,
      "loss": 1.8387,
      "step": 2009
    },
    {
      "epoch": 0.06146037181996086,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009443145459020428,
      "loss": 2.1163,
      "step": 2010
    },
    {
      "epoch": 0.06149094911937378,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009442837804577898,
      "loss": 1.9737,
      "step": 2011
    },
    {
      "epoch": 0.06152152641878669,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009442530150135368,
      "loss": 1.6603,
      "step": 2012
    },
    {
      "epoch": 0.06155210371819961,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009442222495692838,
      "loss": 2.204,
      "step": 2013
    },
    {
      "epoch": 0.06158268101761252,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009441914841250308,
      "loss": 1.9687,
      "step": 2014
    },
    {
      "epoch": 0.06161325831702544,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009441607186807777,
      "loss": 2.3741,
      "step": 2015
    },
    {
      "epoch": 0.06164383561643835,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009441299532365247,
      "loss": 2.2942,
      "step": 2016
    },
    {
      "epoch": 0.061674412915851275,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009440991877922718,
      "loss": 2.66,
      "step": 2017
    },
    {
      "epoch": 0.06170499021526419,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009440684223480187,
      "loss": 2.3505,
      "step": 2018
    },
    {
      "epoch": 0.061735567514677105,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009440376569037658,
      "loss": 2.3535,
      "step": 2019
    },
    {
      "epoch": 0.06176614481409002,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009440068914595127,
      "loss": 2.0726,
      "step": 2020
    },
    {
      "epoch": 0.061796722113502935,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009439761260152598,
      "loss": 2.2864,
      "step": 2021
    },
    {
      "epoch": 0.06182729941291585,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009439453605710066,
      "loss": 2.04,
      "step": 2022
    },
    {
      "epoch": 0.061857876712328765,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009439145951267536,
      "loss": 2.0968,
      "step": 2023
    },
    {
      "epoch": 0.06188845401174168,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009438838296825006,
      "loss": 2.3555,
      "step": 2024
    },
    {
      "epoch": 0.0619190313111546,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009438530642382476,
      "loss": 2.0372,
      "step": 2025
    },
    {
      "epoch": 0.061949608610567516,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009438222987939946,
      "loss": 2.2772,
      "step": 2026
    },
    {
      "epoch": 0.06198018590998043,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009437915333497416,
      "loss": 1.8358,
      "step": 2027
    },
    {
      "epoch": 0.062010763209393346,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009437607679054886,
      "loss": 2.0779,
      "step": 2028
    },
    {
      "epoch": 0.06204134050880626,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009437300024612356,
      "loss": 2.0147,
      "step": 2029
    },
    {
      "epoch": 0.062071917808219176,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009436992370169825,
      "loss": 1.7356,
      "step": 2030
    },
    {
      "epoch": 0.06210249510763209,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009436684715727295,
      "loss": 2.1917,
      "step": 2031
    },
    {
      "epoch": 0.062133072407045006,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009436377061284765,
      "loss": 2.3317,
      "step": 2032
    },
    {
      "epoch": 0.06216364970645793,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009436069406842235,
      "loss": 2.2039,
      "step": 2033
    },
    {
      "epoch": 0.06219422700587084,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009435761752399705,
      "loss": 2.0088,
      "step": 2034
    },
    {
      "epoch": 0.06222480430528376,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009435454097957175,
      "loss": 2.3778,
      "step": 2035
    },
    {
      "epoch": 0.06225538160469667,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009435146443514646,
      "loss": 2.1345,
      "step": 2036
    },
    {
      "epoch": 0.06228595890410959,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009434838789072114,
      "loss": 2.5445,
      "step": 2037
    },
    {
      "epoch": 0.0623165362035225,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009434531134629585,
      "loss": 2.3304,
      "step": 2038
    },
    {
      "epoch": 0.06234711350293542,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009434223480187054,
      "loss": 1.981,
      "step": 2039
    },
    {
      "epoch": 0.06237769080234833,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009433915825744524,
      "loss": 2.1291,
      "step": 2040
    },
    {
      "epoch": 0.062408268101761255,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009433608171301994,
      "loss": 1.8908,
      "step": 2041
    },
    {
      "epoch": 0.06243884540117417,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009433300516859464,
      "loss": 2.0836,
      "step": 2042
    },
    {
      "epoch": 0.062469422700587085,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009432992862416934,
      "loss": 2.1048,
      "step": 2043
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009432685207974403,
      "loss": 1.8962,
      "step": 2044
    },
    {
      "epoch": 0.06253057729941291,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009432377553531873,
      "loss": 2.2032,
      "step": 2045
    },
    {
      "epoch": 0.06256115459882583,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009432069899089343,
      "loss": 2.3634,
      "step": 2046
    },
    {
      "epoch": 0.06259173189823874,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009431762244646813,
      "loss": 2.2869,
      "step": 2047
    },
    {
      "epoch": 0.06262230919765166,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009431454590204283,
      "loss": 1.8354,
      "step": 2048
    },
    {
      "epoch": 0.06265288649706457,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009431146935761753,
      "loss": 1.8385,
      "step": 2049
    },
    {
      "epoch": 0.06268346379647749,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009430839281319223,
      "loss": 2.5899,
      "step": 2050
    },
    {
      "epoch": 0.0627140410958904,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009430531626876692,
      "loss": 2.2743,
      "step": 2051
    },
    {
      "epoch": 0.06274461839530333,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009430223972434162,
      "loss": 2.0618,
      "step": 2052
    },
    {
      "epoch": 0.06277519569471625,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009429916317991632,
      "loss": 2.1826,
      "step": 2053
    },
    {
      "epoch": 0.06280577299412916,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009429608663549102,
      "loss": 2.0572,
      "step": 2054
    },
    {
      "epoch": 0.06283635029354208,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009429301009106571,
      "loss": 2.0267,
      "step": 2055
    },
    {
      "epoch": 0.062866927592955,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009428993354664042,
      "loss": 2.5535,
      "step": 2056
    },
    {
      "epoch": 0.06289750489236791,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009428685700221511,
      "loss": 1.6041,
      "step": 2057
    },
    {
      "epoch": 0.06292808219178082,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009428378045778981,
      "loss": 2.2335,
      "step": 2058
    },
    {
      "epoch": 0.06295865949119374,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000942807039133645,
      "loss": 2.0878,
      "step": 2059
    },
    {
      "epoch": 0.06298923679060665,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009427762736893921,
      "loss": 2.5546,
      "step": 2060
    },
    {
      "epoch": 0.06301981409001957,
      "grad_norm": 0.3125,
      "learning_rate": 0.000942745508245139,
      "loss": 2.1698,
      "step": 2061
    },
    {
      "epoch": 0.06305039138943248,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009427147428008861,
      "loss": 2.061,
      "step": 2062
    },
    {
      "epoch": 0.0630809686888454,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009426839773566331,
      "loss": 2.1653,
      "step": 2063
    },
    {
      "epoch": 0.06311154598825831,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009426532119123801,
      "loss": 2.1856,
      "step": 2064
    },
    {
      "epoch": 0.06314212328767123,
      "grad_norm": 0.3125,
      "learning_rate": 0.000942622446468127,
      "loss": 2.5127,
      "step": 2065
    },
    {
      "epoch": 0.06317270058708414,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000942591681023874,
      "loss": 2.2899,
      "step": 2066
    },
    {
      "epoch": 0.06320327788649706,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000942560915579621,
      "loss": 2.209,
      "step": 2067
    },
    {
      "epoch": 0.06323385518590999,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000942530150135368,
      "loss": 2.1828,
      "step": 2068
    },
    {
      "epoch": 0.0632644324853229,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000942499384691115,
      "loss": 1.8452,
      "step": 2069
    },
    {
      "epoch": 0.06329500978473582,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009424686192468619,
      "loss": 2.101,
      "step": 2070
    },
    {
      "epoch": 0.06332558708414873,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000942437853802609,
      "loss": 1.7792,
      "step": 2071
    },
    {
      "epoch": 0.06335616438356165,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009424070883583558,
      "loss": 2.0191,
      "step": 2072
    },
    {
      "epoch": 0.06338674168297456,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009423763229141029,
      "loss": 1.3839,
      "step": 2073
    },
    {
      "epoch": 0.06341731898238748,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009423455574698498,
      "loss": 2.0575,
      "step": 2074
    },
    {
      "epoch": 0.06344789628180039,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009423147920255969,
      "loss": 2.0675,
      "step": 2075
    },
    {
      "epoch": 0.06347847358121331,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009422840265813438,
      "loss": 1.7138,
      "step": 2076
    },
    {
      "epoch": 0.06350905088062622,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009422532611370909,
      "loss": 2.4214,
      "step": 2077
    },
    {
      "epoch": 0.06353962818003914,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009422224956928378,
      "loss": 2.3554,
      "step": 2078
    },
    {
      "epoch": 0.06357020547945205,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009421917302485848,
      "loss": 2.444,
      "step": 2079
    },
    {
      "epoch": 0.06360078277886497,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009421609648043317,
      "loss": 2.3742,
      "step": 2080
    },
    {
      "epoch": 0.06363136007827788,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009421301993600788,
      "loss": 2.213,
      "step": 2081
    },
    {
      "epoch": 0.0636619373776908,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009420994339158257,
      "loss": 1.6788,
      "step": 2082
    },
    {
      "epoch": 0.06369251467710371,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009420686684715728,
      "loss": 2.0097,
      "step": 2083
    },
    {
      "epoch": 0.06372309197651664,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009420379030273198,
      "loss": 2.3796,
      "step": 2084
    },
    {
      "epoch": 0.06375366927592956,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009420071375830667,
      "loss": 2.18,
      "step": 2085
    },
    {
      "epoch": 0.06378424657534247,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009419763721388137,
      "loss": 2.1954,
      "step": 2086
    },
    {
      "epoch": 0.06381482387475539,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009419456066945606,
      "loss": 2.117,
      "step": 2087
    },
    {
      "epoch": 0.0638454011741683,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0009419148412503077,
      "loss": 2.4245,
      "step": 2088
    },
    {
      "epoch": 0.06387597847358122,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009418840758060546,
      "loss": 2.3687,
      "step": 2089
    },
    {
      "epoch": 0.06390655577299413,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009418533103618017,
      "loss": 2.0318,
      "step": 2090
    },
    {
      "epoch": 0.06393713307240705,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009418225449175486,
      "loss": 2.3607,
      "step": 2091
    },
    {
      "epoch": 0.06396771037181996,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009417917794732957,
      "loss": 2.3049,
      "step": 2092
    },
    {
      "epoch": 0.06399828767123288,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009417610140290425,
      "loss": 2.1369,
      "step": 2093
    },
    {
      "epoch": 0.06402886497064579,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009417302485847896,
      "loss": 2.2256,
      "step": 2094
    },
    {
      "epoch": 0.0640594422700587,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009416994831405365,
      "loss": 1.9398,
      "step": 2095
    },
    {
      "epoch": 0.06409001956947162,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009416687176962836,
      "loss": 2.193,
      "step": 2096
    },
    {
      "epoch": 0.06412059686888454,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009416379522520305,
      "loss": 2.0851,
      "step": 2097
    },
    {
      "epoch": 0.06415117416829745,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009416071868077776,
      "loss": 2.3563,
      "step": 2098
    },
    {
      "epoch": 0.06418175146771037,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009415764213635245,
      "loss": 2.147,
      "step": 2099
    },
    {
      "epoch": 0.0642123287671233,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009415456559192716,
      "loss": 2.1209,
      "step": 2100
    },
    {
      "epoch": 0.06424290606653621,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009415148904750184,
      "loss": 2.187,
      "step": 2101
    },
    {
      "epoch": 0.06427348336594912,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009414841250307654,
      "loss": 2.3869,
      "step": 2102
    },
    {
      "epoch": 0.06430406066536204,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009414533595865124,
      "loss": 2.1449,
      "step": 2103
    },
    {
      "epoch": 0.06433463796477495,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009414225941422594,
      "loss": 2.3187,
      "step": 2104
    },
    {
      "epoch": 0.06436521526418787,
      "grad_norm": 0.25390625,
      "learning_rate": 0.0009413918286980065,
      "loss": 1.4915,
      "step": 2105
    },
    {
      "epoch": 0.06439579256360078,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009413610632537534,
      "loss": 2.1756,
      "step": 2106
    },
    {
      "epoch": 0.0644263698630137,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009413302978095005,
      "loss": 2.3415,
      "step": 2107
    },
    {
      "epoch": 0.06445694716242661,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009412995323652473,
      "loss": 2.232,
      "step": 2108
    },
    {
      "epoch": 0.06448752446183953,
      "grad_norm": 0.23046875,
      "learning_rate": 0.0009412687669209944,
      "loss": 1.1436,
      "step": 2109
    },
    {
      "epoch": 0.06451810176125244,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009412380014767413,
      "loss": 2.0428,
      "step": 2110
    },
    {
      "epoch": 0.06454867906066536,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009412072360324884,
      "loss": 2.3829,
      "step": 2111
    },
    {
      "epoch": 0.06457925636007827,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009411764705882353,
      "loss": 1.9303,
      "step": 2112
    },
    {
      "epoch": 0.06460983365949119,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009411457051439824,
      "loss": 2.5541,
      "step": 2113
    },
    {
      "epoch": 0.0646404109589041,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009411149396997293,
      "loss": 1.9853,
      "step": 2114
    },
    {
      "epoch": 0.06467098825831702,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009410841742554763,
      "loss": 1.8999,
      "step": 2115
    },
    {
      "epoch": 0.06470156555772995,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009410534088112232,
      "loss": 2.6311,
      "step": 2116
    },
    {
      "epoch": 0.06473214285714286,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009410226433669702,
      "loss": 2.2694,
      "step": 2117
    },
    {
      "epoch": 0.06476272015655578,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009409918779227172,
      "loss": 2.1319,
      "step": 2118
    },
    {
      "epoch": 0.06479329745596869,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009409611124784642,
      "loss": 2.0311,
      "step": 2119
    },
    {
      "epoch": 0.06482387475538161,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009409303470342112,
      "loss": 2.1045,
      "step": 2120
    },
    {
      "epoch": 0.06485445205479452,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009408995815899582,
      "loss": 1.9838,
      "step": 2121
    },
    {
      "epoch": 0.06488502935420744,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009408688161457051,
      "loss": 1.6277,
      "step": 2122
    },
    {
      "epoch": 0.06491560665362035,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009408380507014521,
      "loss": 2.1557,
      "step": 2123
    },
    {
      "epoch": 0.06494618395303327,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009408072852571991,
      "loss": 2.0732,
      "step": 2124
    },
    {
      "epoch": 0.06497676125244618,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009407765198129461,
      "loss": 2.5704,
      "step": 2125
    },
    {
      "epoch": 0.0650073385518591,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009407457543686932,
      "loss": 2.4175,
      "step": 2126
    },
    {
      "epoch": 0.06503791585127201,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009407149889244401,
      "loss": 1.8592,
      "step": 2127
    },
    {
      "epoch": 0.06506849315068493,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009406842234801872,
      "loss": 2.2728,
      "step": 2128
    },
    {
      "epoch": 0.06509907045009784,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000940653458035934,
      "loss": 2.2411,
      "step": 2129
    },
    {
      "epoch": 0.06512964774951076,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009406226925916811,
      "loss": 1.828,
      "step": 2130
    },
    {
      "epoch": 0.06516022504892367,
      "grad_norm": 0.267578125,
      "learning_rate": 0.000940591927147428,
      "loss": 1.7719,
      "step": 2131
    },
    {
      "epoch": 0.0651908023483366,
      "grad_norm": 1.8125,
      "learning_rate": 0.000940561161703175,
      "loss": 2.2805,
      "step": 2132
    },
    {
      "epoch": 0.06522137964774952,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000940530396258922,
      "loss": 2.2671,
      "step": 2133
    },
    {
      "epoch": 0.06525195694716243,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000940499630814669,
      "loss": 2.6052,
      "step": 2134
    },
    {
      "epoch": 0.06528253424657535,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000940468865370416,
      "loss": 2.2639,
      "step": 2135
    },
    {
      "epoch": 0.06531311154598826,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009404380999261629,
      "loss": 2.1654,
      "step": 2136
    },
    {
      "epoch": 0.06534368884540118,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009404073344819099,
      "loss": 2.0294,
      "step": 2137
    },
    {
      "epoch": 0.06537426614481409,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009403765690376569,
      "loss": 2.1479,
      "step": 2138
    },
    {
      "epoch": 0.065404843444227,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009403458035934039,
      "loss": 2.024,
      "step": 2139
    },
    {
      "epoch": 0.06543542074363992,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009403150381491509,
      "loss": 2.0805,
      "step": 2140
    },
    {
      "epoch": 0.06546599804305284,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009402842727048979,
      "loss": 2.1602,
      "step": 2141
    },
    {
      "epoch": 0.06549657534246575,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009402535072606449,
      "loss": 2.4848,
      "step": 2142
    },
    {
      "epoch": 0.06552715264187867,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009402227418163918,
      "loss": 1.8301,
      "step": 2143
    },
    {
      "epoch": 0.06555772994129158,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009401919763721388,
      "loss": 1.8475,
      "step": 2144
    },
    {
      "epoch": 0.0655883072407045,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009401612109278858,
      "loss": 1.8686,
      "step": 2145
    },
    {
      "epoch": 0.06561888454011741,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009401304454836328,
      "loss": 1.955,
      "step": 2146
    },
    {
      "epoch": 0.06564946183953033,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009400996800393797,
      "loss": 2.1379,
      "step": 2147
    },
    {
      "epoch": 0.06568003913894326,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009400689145951268,
      "loss": 2.2497,
      "step": 2148
    },
    {
      "epoch": 0.06571061643835617,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009400381491508738,
      "loss": 2.0669,
      "step": 2149
    },
    {
      "epoch": 0.06574119373776909,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009400073837066207,
      "loss": 1.9619,
      "step": 2150
    },
    {
      "epoch": 0.065771771037182,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009399766182623677,
      "loss": 2.2983,
      "step": 2151
    },
    {
      "epoch": 0.06580234833659492,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009399458528181147,
      "loss": 2.2572,
      "step": 2152
    },
    {
      "epoch": 0.06583292563600783,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009399150873738617,
      "loss": 2.5471,
      "step": 2153
    },
    {
      "epoch": 0.06586350293542075,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009398843219296087,
      "loss": 2.2069,
      "step": 2154
    },
    {
      "epoch": 0.06589408023483366,
      "grad_norm": 0.259765625,
      "learning_rate": 0.0009398535564853557,
      "loss": 1.7801,
      "step": 2155
    },
    {
      "epoch": 0.06592465753424658,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009398227910411027,
      "loss": 2.4011,
      "step": 2156
    },
    {
      "epoch": 0.06595523483365949,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009397920255968496,
      "loss": 2.3131,
      "step": 2157
    },
    {
      "epoch": 0.0659858121330724,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009397612601525966,
      "loss": 2.0053,
      "step": 2158
    },
    {
      "epoch": 0.06601638943248532,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009397304947083436,
      "loss": 2.002,
      "step": 2159
    },
    {
      "epoch": 0.06604696673189824,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009396997292640906,
      "loss": 2.0603,
      "step": 2160
    },
    {
      "epoch": 0.06607754403131115,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009396689638198376,
      "loss": 2.4393,
      "step": 2161
    },
    {
      "epoch": 0.06610812133072407,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009396381983755845,
      "loss": 1.7758,
      "step": 2162
    },
    {
      "epoch": 0.06613869863013698,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009396074329313316,
      "loss": 2.2415,
      "step": 2163
    },
    {
      "epoch": 0.06616927592954991,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009395766674870784,
      "loss": 1.9786,
      "step": 2164
    },
    {
      "epoch": 0.06619985322896282,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009395459020428255,
      "loss": 2.2884,
      "step": 2165
    },
    {
      "epoch": 0.06623043052837574,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009395151365985724,
      "loss": 2.2406,
      "step": 2166
    },
    {
      "epoch": 0.06626100782778865,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009394843711543195,
      "loss": 1.8669,
      "step": 2167
    },
    {
      "epoch": 0.06629158512720157,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009394536057100664,
      "loss": 2.1145,
      "step": 2168
    },
    {
      "epoch": 0.06632216242661448,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009394228402658135,
      "loss": 2.5566,
      "step": 2169
    },
    {
      "epoch": 0.0663527397260274,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009393920748215605,
      "loss": 2.1561,
      "step": 2170
    },
    {
      "epoch": 0.06638331702544031,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009393613093773075,
      "loss": 2.0977,
      "step": 2171
    },
    {
      "epoch": 0.06641389432485323,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009393305439330544,
      "loss": 1.9707,
      "step": 2172
    },
    {
      "epoch": 0.06644447162426614,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009392997784888014,
      "loss": 1.7778,
      "step": 2173
    },
    {
      "epoch": 0.06647504892367906,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009392690130445484,
      "loss": 1.5494,
      "step": 2174
    },
    {
      "epoch": 0.06650562622309197,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009392382476002954,
      "loss": 1.9074,
      "step": 2175
    },
    {
      "epoch": 0.06653620352250489,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009392074821560424,
      "loss": 2.0382,
      "step": 2176
    },
    {
      "epoch": 0.0665667808219178,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009391767167117894,
      "loss": 2.1496,
      "step": 2177
    },
    {
      "epoch": 0.06659735812133072,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009391459512675364,
      "loss": 2.2514,
      "step": 2178
    },
    {
      "epoch": 0.06662793542074363,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009391151858232832,
      "loss": 2.0928,
      "step": 2179
    },
    {
      "epoch": 0.06665851272015656,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009390844203790303,
      "loss": 2.2878,
      "step": 2180
    },
    {
      "epoch": 0.06668909001956948,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009390536549347772,
      "loss": 1.4942,
      "step": 2181
    },
    {
      "epoch": 0.06671966731898239,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009390228894905243,
      "loss": 2.0785,
      "step": 2182
    },
    {
      "epoch": 0.06675024461839531,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009389921240462712,
      "loss": 2.2363,
      "step": 2183
    },
    {
      "epoch": 0.06678082191780822,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009389613586020183,
      "loss": 1.7653,
      "step": 2184
    },
    {
      "epoch": 0.06681139921722114,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009389305931577652,
      "loss": 2.6098,
      "step": 2185
    },
    {
      "epoch": 0.06684197651663405,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009388998277135122,
      "loss": 1.919,
      "step": 2186
    },
    {
      "epoch": 0.06687255381604697,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009388690622692591,
      "loss": 2.268,
      "step": 2187
    },
    {
      "epoch": 0.06690313111545988,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009388382968250062,
      "loss": 2.3659,
      "step": 2188
    },
    {
      "epoch": 0.0669337084148728,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009388075313807531,
      "loss": 2.4844,
      "step": 2189
    },
    {
      "epoch": 0.06696428571428571,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009387767659365002,
      "loss": 2.2656,
      "step": 2190
    },
    {
      "epoch": 0.06699486301369863,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009387460004922472,
      "loss": 2.2247,
      "step": 2191
    },
    {
      "epoch": 0.06702544031311154,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009387152350479942,
      "loss": 1.8419,
      "step": 2192
    },
    {
      "epoch": 0.06705601761252446,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000938684469603741,
      "loss": 1.9181,
      "step": 2193
    },
    {
      "epoch": 0.06708659491193737,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000938653704159488,
      "loss": 1.936,
      "step": 2194
    },
    {
      "epoch": 0.06711717221135029,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009386229387152351,
      "loss": 1.9122,
      "step": 2195
    },
    {
      "epoch": 0.06714774951076322,
      "grad_norm": 0.28125,
      "learning_rate": 0.000938592173270982,
      "loss": 1.7741,
      "step": 2196
    },
    {
      "epoch": 0.06717832681017613,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009385614078267291,
      "loss": 2.1491,
      "step": 2197
    },
    {
      "epoch": 0.06720890410958905,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000938530642382476,
      "loss": 2.0846,
      "step": 2198
    },
    {
      "epoch": 0.06723948140900196,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009384998769382231,
      "loss": 2.5026,
      "step": 2199
    },
    {
      "epoch": 0.06727005870841488,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009384691114939699,
      "loss": 2.2776,
      "step": 2200
    },
    {
      "epoch": 0.06730063600782779,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000938438346049717,
      "loss": 2.0945,
      "step": 2201
    },
    {
      "epoch": 0.0673312133072407,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009384075806054639,
      "loss": 2.2533,
      "step": 2202
    },
    {
      "epoch": 0.06736179060665362,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000938376815161211,
      "loss": 2.206,
      "step": 2203
    },
    {
      "epoch": 0.06739236790606654,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009383460497169579,
      "loss": 2.5144,
      "step": 2204
    },
    {
      "epoch": 0.06742294520547945,
      "grad_norm": 0.3515625,
      "learning_rate": 0.000938315284272705,
      "loss": 2.0213,
      "step": 2205
    },
    {
      "epoch": 0.06745352250489237,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009382845188284519,
      "loss": 2.2277,
      "step": 2206
    },
    {
      "epoch": 0.06748409980430528,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009382537533841989,
      "loss": 2.4515,
      "step": 2207
    },
    {
      "epoch": 0.0675146771037182,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009382229879399458,
      "loss": 1.9235,
      "step": 2208
    },
    {
      "epoch": 0.06754525440313111,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009381922224956928,
      "loss": 2.1659,
      "step": 2209
    },
    {
      "epoch": 0.06757583170254403,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009381614570514398,
      "loss": 2.4371,
      "step": 2210
    },
    {
      "epoch": 0.06760640900195694,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009381306916071868,
      "loss": 2.1713,
      "step": 2211
    },
    {
      "epoch": 0.06763698630136987,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009380999261629339,
      "loss": 1.8008,
      "step": 2212
    },
    {
      "epoch": 0.06766756360078278,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009380691607186808,
      "loss": 2.436,
      "step": 2213
    },
    {
      "epoch": 0.0676981409001957,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009380383952744278,
      "loss": 2.1986,
      "step": 2214
    },
    {
      "epoch": 0.06772871819960861,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009380076298301747,
      "loss": 2.0872,
      "step": 2215
    },
    {
      "epoch": 0.06775929549902153,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009379768643859218,
      "loss": 2.2774,
      "step": 2216
    },
    {
      "epoch": 0.06778987279843444,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009379460989416687,
      "loss": 2.1641,
      "step": 2217
    },
    {
      "epoch": 0.06782045009784736,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009379153334974158,
      "loss": 2.3144,
      "step": 2218
    },
    {
      "epoch": 0.06785102739726027,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009378845680531627,
      "loss": 1.3643,
      "step": 2219
    },
    {
      "epoch": 0.06788160469667319,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009378538026089098,
      "loss": 1.686,
      "step": 2220
    },
    {
      "epoch": 0.0679121819960861,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009378230371646566,
      "loss": 1.7068,
      "step": 2221
    },
    {
      "epoch": 0.06794275929549902,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009377922717204037,
      "loss": 2.1046,
      "step": 2222
    },
    {
      "epoch": 0.06797333659491193,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009377615062761506,
      "loss": 2.0101,
      "step": 2223
    },
    {
      "epoch": 0.06800391389432485,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009377307408318976,
      "loss": 2.1944,
      "step": 2224
    },
    {
      "epoch": 0.06803449119373776,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009376999753876446,
      "loss": 2.1351,
      "step": 2225
    },
    {
      "epoch": 0.06806506849315068,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009376692099433916,
      "loss": 2.3626,
      "step": 2226
    },
    {
      "epoch": 0.0680956457925636,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009376384444991386,
      "loss": 2.1729,
      "step": 2227
    },
    {
      "epoch": 0.06812622309197652,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009376076790548855,
      "loss": 2.1312,
      "step": 2228
    },
    {
      "epoch": 0.06815680039138944,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009375769136106325,
      "loss": 2.1253,
      "step": 2229
    },
    {
      "epoch": 0.06818737769080235,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009375461481663795,
      "loss": 1.7251,
      "step": 2230
    },
    {
      "epoch": 0.06821795499021527,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009375153827221265,
      "loss": 2.306,
      "step": 2231
    },
    {
      "epoch": 0.06824853228962818,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009374846172778735,
      "loss": 2.3143,
      "step": 2232
    },
    {
      "epoch": 0.0682791095890411,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009374538518336206,
      "loss": 1.7563,
      "step": 2233
    },
    {
      "epoch": 0.06830968688845401,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009374230863893675,
      "loss": 2.0274,
      "step": 2234
    },
    {
      "epoch": 0.06834026418786693,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009373923209451146,
      "loss": 2.1976,
      "step": 2235
    },
    {
      "epoch": 0.06837084148727984,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009373615555008614,
      "loss": 2.4558,
      "step": 2236
    },
    {
      "epoch": 0.06840141878669276,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009373307900566085,
      "loss": 2.2244,
      "step": 2237
    },
    {
      "epoch": 0.06843199608610567,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009373000246123554,
      "loss": 2.4809,
      "step": 2238
    },
    {
      "epoch": 0.06846257338551859,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009372692591681025,
      "loss": 2.4919,
      "step": 2239
    },
    {
      "epoch": 0.0684931506849315,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009372384937238494,
      "loss": 2.5836,
      "step": 2240
    },
    {
      "epoch": 0.06852372798434442,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009372077282795964,
      "loss": 1.9118,
      "step": 2241
    },
    {
      "epoch": 0.06855430528375733,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009371769628353434,
      "loss": 2.2226,
      "step": 2242
    },
    {
      "epoch": 0.06858488258317025,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009371461973910903,
      "loss": 1.3868,
      "step": 2243
    },
    {
      "epoch": 0.06861545988258318,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009371154319468373,
      "loss": 2.3789,
      "step": 2244
    },
    {
      "epoch": 0.06864603718199609,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009370846665025843,
      "loss": 2.3576,
      "step": 2245
    },
    {
      "epoch": 0.068676614481409,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009370539010583313,
      "loss": 2.0659,
      "step": 2246
    },
    {
      "epoch": 0.06870719178082192,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009370231356140783,
      "loss": 1.6755,
      "step": 2247
    },
    {
      "epoch": 0.06873776908023484,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009369923701698253,
      "loss": 2.1775,
      "step": 2248
    },
    {
      "epoch": 0.06876834637964775,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009369616047255723,
      "loss": 1.9524,
      "step": 2249
    },
    {
      "epoch": 0.06879892367906067,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009369308392813192,
      "loss": 1.9768,
      "step": 2250
    },
    {
      "epoch": 0.06882950097847358,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009369000738370662,
      "loss": 1.9713,
      "step": 2251
    },
    {
      "epoch": 0.0688600782778865,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009368693083928132,
      "loss": 2.0776,
      "step": 2252
    },
    {
      "epoch": 0.06889065557729941,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009368385429485602,
      "loss": 2.364,
      "step": 2253
    },
    {
      "epoch": 0.06892123287671233,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009368077775043073,
      "loss": 1.9354,
      "step": 2254
    },
    {
      "epoch": 0.06895181017612524,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009367770120600542,
      "loss": 2.2782,
      "step": 2255
    },
    {
      "epoch": 0.06898238747553816,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009367462466158012,
      "loss": 2.3053,
      "step": 2256
    },
    {
      "epoch": 0.06901296477495107,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009367154811715481,
      "loss": 2.4747,
      "step": 2257
    },
    {
      "epoch": 0.06904354207436399,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000936684715727295,
      "loss": 1.6549,
      "step": 2258
    },
    {
      "epoch": 0.0690741193737769,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009366539502830421,
      "loss": 1.6191,
      "step": 2259
    },
    {
      "epoch": 0.06910469667318983,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009366231848387891,
      "loss": 2.5167,
      "step": 2260
    },
    {
      "epoch": 0.06913527397260275,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009365924193945361,
      "loss": 2.314,
      "step": 2261
    },
    {
      "epoch": 0.06916585127201566,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009365616539502831,
      "loss": 1.8084,
      "step": 2262
    },
    {
      "epoch": 0.06919642857142858,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009365308885060301,
      "loss": 1.9027,
      "step": 2263
    },
    {
      "epoch": 0.06922700587084149,
      "grad_norm": 0.28125,
      "learning_rate": 0.000936500123061777,
      "loss": 1.9183,
      "step": 2264
    },
    {
      "epoch": 0.0692575831702544,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000936469357617524,
      "loss": 2.1973,
      "step": 2265
    },
    {
      "epoch": 0.06928816046966732,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000936438592173271,
      "loss": 2.2039,
      "step": 2266
    },
    {
      "epoch": 0.06931873776908024,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000936407826729018,
      "loss": 2.409,
      "step": 2267
    },
    {
      "epoch": 0.06934931506849315,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000936377061284765,
      "loss": 1.9463,
      "step": 2268
    },
    {
      "epoch": 0.06937989236790607,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000936346295840512,
      "loss": 2.0704,
      "step": 2269
    },
    {
      "epoch": 0.06941046966731898,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000936315530396259,
      "loss": 1.9939,
      "step": 2270
    },
    {
      "epoch": 0.0694410469667319,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009362847649520058,
      "loss": 1.901,
      "step": 2271
    },
    {
      "epoch": 0.06947162426614481,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009362539995077529,
      "loss": 2.1674,
      "step": 2272
    },
    {
      "epoch": 0.06950220156555773,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009362232340634998,
      "loss": 1.9557,
      "step": 2273
    },
    {
      "epoch": 0.06953277886497064,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009361924686192469,
      "loss": 2.3801,
      "step": 2274
    },
    {
      "epoch": 0.06956335616438356,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009361617031749938,
      "loss": 2.2498,
      "step": 2275
    },
    {
      "epoch": 0.06959393346379648,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009361309377307409,
      "loss": 1.9967,
      "step": 2276
    },
    {
      "epoch": 0.0696245107632094,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009361001722864879,
      "loss": 2.5807,
      "step": 2277
    },
    {
      "epoch": 0.06965508806262231,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009360694068422348,
      "loss": 2.0332,
      "step": 2278
    },
    {
      "epoch": 0.06968566536203523,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009360386413979817,
      "loss": 2.3094,
      "step": 2279
    },
    {
      "epoch": 0.06971624266144814,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009360078759537288,
      "loss": 2.0007,
      "step": 2280
    },
    {
      "epoch": 0.06974681996086106,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009359771105094758,
      "loss": 2.2358,
      "step": 2281
    },
    {
      "epoch": 0.06977739726027397,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009359463450652228,
      "loss": 1.795,
      "step": 2282
    },
    {
      "epoch": 0.06980797455968689,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009359155796209698,
      "loss": 2.1544,
      "step": 2283
    },
    {
      "epoch": 0.0698385518590998,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009358848141767168,
      "loss": 2.2873,
      "step": 2284
    },
    {
      "epoch": 0.06986912915851272,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009358540487324637,
      "loss": 2.1766,
      "step": 2285
    },
    {
      "epoch": 0.06989970645792563,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009358232832882106,
      "loss": 1.8251,
      "step": 2286
    },
    {
      "epoch": 0.06993028375733855,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009357925178439577,
      "loss": 1.9455,
      "step": 2287
    },
    {
      "epoch": 0.06996086105675146,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009357617523997046,
      "loss": 2.1617,
      "step": 2288
    },
    {
      "epoch": 0.06999143835616438,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009357309869554517,
      "loss": 1.8558,
      "step": 2289
    },
    {
      "epoch": 0.0700220156555773,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009357002215111986,
      "loss": 2.2299,
      "step": 2290
    },
    {
      "epoch": 0.07005259295499021,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009356694560669457,
      "loss": 1.8747,
      "step": 2291
    },
    {
      "epoch": 0.07008317025440314,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009356386906226925,
      "loss": 1.7073,
      "step": 2292
    },
    {
      "epoch": 0.07011374755381605,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009356079251784396,
      "loss": 1.9272,
      "step": 2293
    },
    {
      "epoch": 0.07014432485322897,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009355771597341865,
      "loss": 2.4228,
      "step": 2294
    },
    {
      "epoch": 0.07017490215264188,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009355463942899336,
      "loss": 2.5861,
      "step": 2295
    },
    {
      "epoch": 0.0702054794520548,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009355156288456805,
      "loss": 1.66,
      "step": 2296
    },
    {
      "epoch": 0.07023605675146771,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009354848634014276,
      "loss": 1.714,
      "step": 2297
    },
    {
      "epoch": 0.07026663405088063,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009354540979571745,
      "loss": 2.1877,
      "step": 2298
    },
    {
      "epoch": 0.07029721135029354,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009354233325129216,
      "loss": 2.3429,
      "step": 2299
    },
    {
      "epoch": 0.07032778864970646,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009353925670686684,
      "loss": 2.0099,
      "step": 2300
    },
    {
      "epoch": 0.07035836594911937,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009353618016244155,
      "loss": 2.09,
      "step": 2301
    },
    {
      "epoch": 0.07038894324853229,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009353310361801625,
      "loss": 1.866,
      "step": 2302
    },
    {
      "epoch": 0.0704195205479452,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009353002707359094,
      "loss": 2.3139,
      "step": 2303
    },
    {
      "epoch": 0.07045009784735812,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009352695052916565,
      "loss": 2.1891,
      "step": 2304
    },
    {
      "epoch": 0.07048067514677103,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009352387398474034,
      "loss": 2.3221,
      "step": 2305
    },
    {
      "epoch": 0.07051125244618395,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009352079744031505,
      "loss": 2.1622,
      "step": 2306
    },
    {
      "epoch": 0.07054182974559686,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009351772089588973,
      "loss": 2.2972,
      "step": 2307
    },
    {
      "epoch": 0.07057240704500979,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009351464435146444,
      "loss": 2.2516,
      "step": 2308
    },
    {
      "epoch": 0.0706029843444227,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009351156780703913,
      "loss": 2.2027,
      "step": 2309
    },
    {
      "epoch": 0.07063356164383562,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009350849126261384,
      "loss": 2.2504,
      "step": 2310
    },
    {
      "epoch": 0.07066413894324854,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009350541471818853,
      "loss": 2.2868,
      "step": 2311
    },
    {
      "epoch": 0.07069471624266145,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009350233817376324,
      "loss": 2.2217,
      "step": 2312
    },
    {
      "epoch": 0.07072529354207437,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009349926162933793,
      "loss": 2.0527,
      "step": 2313
    },
    {
      "epoch": 0.07075587084148728,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009349618508491263,
      "loss": 2.4929,
      "step": 2314
    },
    {
      "epoch": 0.0707864481409002,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009349310854048732,
      "loss": 2.1336,
      "step": 2315
    },
    {
      "epoch": 0.07081702544031311,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009349003199606203,
      "loss": 2.1564,
      "step": 2316
    },
    {
      "epoch": 0.07084760273972603,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009348695545163672,
      "loss": 2.2587,
      "step": 2317
    },
    {
      "epoch": 0.07087818003913894,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009348387890721142,
      "loss": 1.9891,
      "step": 2318
    },
    {
      "epoch": 0.07090875733855186,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009348080236278612,
      "loss": 1.8862,
      "step": 2319
    },
    {
      "epoch": 0.07093933463796477,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009347772581836082,
      "loss": 2.3064,
      "step": 2320
    },
    {
      "epoch": 0.07096991193737769,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009347464927393551,
      "loss": 1.9785,
      "step": 2321
    },
    {
      "epoch": 0.0710004892367906,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009347157272951021,
      "loss": 1.9247,
      "step": 2322
    },
    {
      "epoch": 0.07103106653620352,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009346849618508492,
      "loss": 2.049,
      "step": 2323
    },
    {
      "epoch": 0.07106164383561644,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009346541964065961,
      "loss": 1.9737,
      "step": 2324
    },
    {
      "epoch": 0.07109222113502936,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009346234309623432,
      "loss": 2.1625,
      "step": 2325
    },
    {
      "epoch": 0.07112279843444227,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009345926655180901,
      "loss": 2.2473,
      "step": 2326
    },
    {
      "epoch": 0.07115337573385519,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009345619000738372,
      "loss": 2.391,
      "step": 2327
    },
    {
      "epoch": 0.0711839530332681,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000934531134629584,
      "loss": 2.3334,
      "step": 2328
    },
    {
      "epoch": 0.07121453033268102,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009345003691853311,
      "loss": 1.982,
      "step": 2329
    },
    {
      "epoch": 0.07124510763209393,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000934469603741078,
      "loss": 2.4521,
      "step": 2330
    },
    {
      "epoch": 0.07127568493150685,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009344388382968251,
      "loss": 1.8485,
      "step": 2331
    },
    {
      "epoch": 0.07130626223091976,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000934408072852572,
      "loss": 2.3614,
      "step": 2332
    },
    {
      "epoch": 0.07133683953033268,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000934377307408319,
      "loss": 2.123,
      "step": 2333
    },
    {
      "epoch": 0.0713674168297456,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000934346541964066,
      "loss": 2.0877,
      "step": 2334
    },
    {
      "epoch": 0.07139799412915851,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009343157765198129,
      "loss": 2.0088,
      "step": 2335
    },
    {
      "epoch": 0.07142857142857142,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009342850110755599,
      "loss": 2.2223,
      "step": 2336
    },
    {
      "epoch": 0.07145914872798434,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009342542456313069,
      "loss": 1.9148,
      "step": 2337
    },
    {
      "epoch": 0.07148972602739725,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009342234801870539,
      "loss": 2.0756,
      "step": 2338
    },
    {
      "epoch": 0.07152030332681017,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009341927147428009,
      "loss": 2.3011,
      "step": 2339
    },
    {
      "epoch": 0.0715508806262231,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000934161949298548,
      "loss": 2.195,
      "step": 2340
    },
    {
      "epoch": 0.07158145792563601,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009341311838542949,
      "loss": 2.5794,
      "step": 2341
    },
    {
      "epoch": 0.07161203522504893,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009341004184100418,
      "loss": 2.1688,
      "step": 2342
    },
    {
      "epoch": 0.07164261252446184,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009340696529657888,
      "loss": 2.1167,
      "step": 2343
    },
    {
      "epoch": 0.07167318982387476,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009340388875215359,
      "loss": 2.1105,
      "step": 2344
    },
    {
      "epoch": 0.07170376712328767,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009340081220772828,
      "loss": 2.4707,
      "step": 2345
    },
    {
      "epoch": 0.07173434442270059,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009339773566330299,
      "loss": 1.916,
      "step": 2346
    },
    {
      "epoch": 0.0717649217221135,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009339465911887768,
      "loss": 2.0295,
      "step": 2347
    },
    {
      "epoch": 0.07179549902152642,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009339158257445238,
      "loss": 1.9365,
      "step": 2348
    },
    {
      "epoch": 0.07182607632093933,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009338850603002707,
      "loss": 1.9961,
      "step": 2349
    },
    {
      "epoch": 0.07185665362035225,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0009338542948560177,
      "loss": 2.4895,
      "step": 2350
    },
    {
      "epoch": 0.07188723091976516,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009338235294117647,
      "loss": 2.2724,
      "step": 2351
    },
    {
      "epoch": 0.07191780821917808,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009337927639675117,
      "loss": 2.5817,
      "step": 2352
    },
    {
      "epoch": 0.071948385518591,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009337619985232587,
      "loss": 2.4129,
      "step": 2353
    },
    {
      "epoch": 0.07197896281800391,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009337312330790057,
      "loss": 2.3042,
      "step": 2354
    },
    {
      "epoch": 0.07200954011741682,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009337004676347527,
      "loss": 2.3066,
      "step": 2355
    },
    {
      "epoch": 0.07204011741682975,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009336697021904996,
      "loss": 2.0945,
      "step": 2356
    },
    {
      "epoch": 0.07207069471624267,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009336389367462466,
      "loss": 2.0629,
      "step": 2357
    },
    {
      "epoch": 0.07210127201565558,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009336081713019936,
      "loss": 1.9947,
      "step": 2358
    },
    {
      "epoch": 0.0721318493150685,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009335774058577406,
      "loss": 2.3653,
      "step": 2359
    },
    {
      "epoch": 0.07216242661448141,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009335466404134876,
      "loss": 1.7882,
      "step": 2360
    },
    {
      "epoch": 0.07219300391389433,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009335158749692346,
      "loss": 2.0766,
      "step": 2361
    },
    {
      "epoch": 0.07222358121330724,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009334851095249816,
      "loss": 1.8565,
      "step": 2362
    },
    {
      "epoch": 0.07225415851272016,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009334543440807284,
      "loss": 2.1756,
      "step": 2363
    },
    {
      "epoch": 0.07228473581213307,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009334235786364755,
      "loss": 2.3882,
      "step": 2364
    },
    {
      "epoch": 0.07231531311154599,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009333928131922224,
      "loss": 2.1128,
      "step": 2365
    },
    {
      "epoch": 0.0723458904109589,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009333620477479695,
      "loss": 2.0169,
      "step": 2366
    },
    {
      "epoch": 0.07237646771037182,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009333312823037165,
      "loss": 2.142,
      "step": 2367
    },
    {
      "epoch": 0.07240704500978473,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009333005168594635,
      "loss": 2.1644,
      "step": 2368
    },
    {
      "epoch": 0.07243762230919765,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009332697514152105,
      "loss": 2.2489,
      "step": 2369
    },
    {
      "epoch": 0.07246819960861056,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009332389859709575,
      "loss": 2.0847,
      "step": 2370
    },
    {
      "epoch": 0.07249877690802348,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009332082205267044,
      "loss": 1.9561,
      "step": 2371
    },
    {
      "epoch": 0.0725293542074364,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009331774550824514,
      "loss": 2.0846,
      "step": 2372
    },
    {
      "epoch": 0.07255993150684932,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009331466896381984,
      "loss": 2.392,
      "step": 2373
    },
    {
      "epoch": 0.07259050880626224,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009331159241939454,
      "loss": 2.2721,
      "step": 2374
    },
    {
      "epoch": 0.07262108610567515,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009330851587496924,
      "loss": 1.8321,
      "step": 2375
    },
    {
      "epoch": 0.07265166340508807,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009330543933054394,
      "loss": 2.2408,
      "step": 2376
    },
    {
      "epoch": 0.07268224070450098,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009330236278611864,
      "loss": 2.0727,
      "step": 2377
    },
    {
      "epoch": 0.0727128180039139,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009329928624169333,
      "loss": 1.9922,
      "step": 2378
    },
    {
      "epoch": 0.07274339530332681,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009329620969726803,
      "loss": 2.0778,
      "step": 2379
    },
    {
      "epoch": 0.07277397260273973,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009329313315284272,
      "loss": 2.534,
      "step": 2380
    },
    {
      "epoch": 0.07280454990215264,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009329005660841743,
      "loss": 2.4259,
      "step": 2381
    },
    {
      "epoch": 0.07283512720156556,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009328698006399212,
      "loss": 2.2553,
      "step": 2382
    },
    {
      "epoch": 0.07286570450097847,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009328390351956683,
      "loss": 2.2046,
      "step": 2383
    },
    {
      "epoch": 0.07289628180039139,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009328082697514152,
      "loss": 2.3809,
      "step": 2384
    },
    {
      "epoch": 0.0729268590998043,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009327775043071622,
      "loss": 1.9902,
      "step": 2385
    },
    {
      "epoch": 0.07295743639921722,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009327467388629091,
      "loss": 2.0553,
      "step": 2386
    },
    {
      "epoch": 0.07298801369863013,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009327159734186562,
      "loss": 2.307,
      "step": 2387
    },
    {
      "epoch": 0.07301859099804306,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009326852079744032,
      "loss": 2.1773,
      "step": 2388
    },
    {
      "epoch": 0.07304916829745597,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009326544425301502,
      "loss": 2.3136,
      "step": 2389
    },
    {
      "epoch": 0.07307974559686889,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009326236770858972,
      "loss": 2.2753,
      "step": 2390
    },
    {
      "epoch": 0.0731103228962818,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009325929116416442,
      "loss": 1.7701,
      "step": 2391
    },
    {
      "epoch": 0.07314090019569472,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009325621461973911,
      "loss": 2.1256,
      "step": 2392
    },
    {
      "epoch": 0.07317147749510763,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009325313807531381,
      "loss": 1.9022,
      "step": 2393
    },
    {
      "epoch": 0.07320205479452055,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009325006153088851,
      "loss": 2.4753,
      "step": 2394
    },
    {
      "epoch": 0.07323263209393346,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000932469849864632,
      "loss": 2.1195,
      "step": 2395
    },
    {
      "epoch": 0.07326320939334638,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009324390844203791,
      "loss": 1.8436,
      "step": 2396
    },
    {
      "epoch": 0.0732937866927593,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000932408318976126,
      "loss": 1.7552,
      "step": 2397
    },
    {
      "epoch": 0.07332436399217221,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009323775535318731,
      "loss": 2.131,
      "step": 2398
    },
    {
      "epoch": 0.07335494129158512,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009323467880876199,
      "loss": 1.9867,
      "step": 2399
    },
    {
      "epoch": 0.07338551859099804,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000932316022643367,
      "loss": 2.242,
      "step": 2400
    },
    {
      "epoch": 0.07341609589041095,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009322852571991139,
      "loss": 2.2642,
      "step": 2401
    },
    {
      "epoch": 0.07344667318982387,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000932254491754861,
      "loss": 2.1931,
      "step": 2402
    },
    {
      "epoch": 0.07347725048923678,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009322237263106079,
      "loss": 1.9566,
      "step": 2403
    },
    {
      "epoch": 0.07350782778864971,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000932192960866355,
      "loss": 2.5562,
      "step": 2404
    },
    {
      "epoch": 0.07353840508806263,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000932162195422102,
      "loss": 2.4591,
      "step": 2405
    },
    {
      "epoch": 0.07356898238747554,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009321314299778489,
      "loss": 2.333,
      "step": 2406
    },
    {
      "epoch": 0.07359955968688846,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0009321006645335958,
      "loss": 1.9858,
      "step": 2407
    },
    {
      "epoch": 0.07363013698630137,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009320698990893429,
      "loss": 2.0101,
      "step": 2408
    },
    {
      "epoch": 0.07366071428571429,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009320391336450899,
      "loss": 2.0098,
      "step": 2409
    },
    {
      "epoch": 0.0736912915851272,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009320083682008368,
      "loss": 2.3611,
      "step": 2410
    },
    {
      "epoch": 0.07372186888454012,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009319776027565839,
      "loss": 2.3283,
      "step": 2411
    },
    {
      "epoch": 0.07375244618395303,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009319468373123308,
      "loss": 1.8533,
      "step": 2412
    },
    {
      "epoch": 0.07378302348336595,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009319160718680778,
      "loss": 2.2853,
      "step": 2413
    },
    {
      "epoch": 0.07381360078277886,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009318853064238247,
      "loss": 2.3269,
      "step": 2414
    },
    {
      "epoch": 0.07384417808219178,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009318545409795718,
      "loss": 1.9352,
      "step": 2415
    },
    {
      "epoch": 0.07387475538160469,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009318237755353187,
      "loss": 1.97,
      "step": 2416
    },
    {
      "epoch": 0.07390533268101761,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009317930100910658,
      "loss": 2.3076,
      "step": 2417
    },
    {
      "epoch": 0.07393590998043052,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009317622446468127,
      "loss": 2.408,
      "step": 2418
    },
    {
      "epoch": 0.07396648727984344,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009317314792025598,
      "loss": 2.1922,
      "step": 2419
    },
    {
      "epoch": 0.07399706457925637,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009317007137583066,
      "loss": 2.243,
      "step": 2420
    },
    {
      "epoch": 0.07402764187866928,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009316699483140537,
      "loss": 2.2041,
      "step": 2421
    },
    {
      "epoch": 0.0740582191780822,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009316391828698006,
      "loss": 2.4231,
      "step": 2422
    },
    {
      "epoch": 0.07408879647749511,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009316084174255477,
      "loss": 2.0411,
      "step": 2423
    },
    {
      "epoch": 0.07411937377690803,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009315776519812946,
      "loss": 2.2888,
      "step": 2424
    },
    {
      "epoch": 0.07414995107632094,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009315468865370416,
      "loss": 1.8414,
      "step": 2425
    },
    {
      "epoch": 0.07418052837573386,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009315161210927886,
      "loss": 2.3595,
      "step": 2426
    },
    {
      "epoch": 0.07421110567514677,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009314853556485355,
      "loss": 2.6667,
      "step": 2427
    },
    {
      "epoch": 0.07424168297455969,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009314545902042825,
      "loss": 2.1421,
      "step": 2428
    },
    {
      "epoch": 0.0742722602739726,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009314238247600295,
      "loss": 2.563,
      "step": 2429
    },
    {
      "epoch": 0.07430283757338552,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009313930593157766,
      "loss": 1.9639,
      "step": 2430
    },
    {
      "epoch": 0.07433341487279843,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009313622938715235,
      "loss": 1.8631,
      "step": 2431
    },
    {
      "epoch": 0.07436399217221135,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009313315284272706,
      "loss": 1.8035,
      "step": 2432
    },
    {
      "epoch": 0.07439456947162426,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009313007629830175,
      "loss": 2.0147,
      "step": 2433
    },
    {
      "epoch": 0.07442514677103718,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009312699975387645,
      "loss": 2.4549,
      "step": 2434
    },
    {
      "epoch": 0.07445572407045009,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009312392320945114,
      "loss": 2.4302,
      "step": 2435
    },
    {
      "epoch": 0.07448630136986302,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009312084666502585,
      "loss": 2.0476,
      "step": 2436
    },
    {
      "epoch": 0.07451687866927593,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009311777012060054,
      "loss": 2.1188,
      "step": 2437
    },
    {
      "epoch": 0.07454745596868885,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009311469357617525,
      "loss": 2.6249,
      "step": 2438
    },
    {
      "epoch": 0.07457803326810176,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009311161703174994,
      "loss": 2.2229,
      "step": 2439
    },
    {
      "epoch": 0.07460861056751468,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009310854048732465,
      "loss": 2.2387,
      "step": 2440
    },
    {
      "epoch": 0.0746391878669276,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0009310546394289934,
      "loss": 2.7062,
      "step": 2441
    },
    {
      "epoch": 0.07466976516634051,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009310238739847403,
      "loss": 2.1627,
      "step": 2442
    },
    {
      "epoch": 0.07470034246575342,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009309931085404873,
      "loss": 2.6059,
      "step": 2443
    },
    {
      "epoch": 0.07473091976516634,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009309623430962343,
      "loss": 2.2488,
      "step": 2444
    },
    {
      "epoch": 0.07476149706457925,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009309315776519813,
      "loss": 2.2629,
      "step": 2445
    },
    {
      "epoch": 0.07479207436399217,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009309008122077283,
      "loss": 2.3653,
      "step": 2446
    },
    {
      "epoch": 0.07482265166340508,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009308700467634753,
      "loss": 2.2051,
      "step": 2447
    },
    {
      "epoch": 0.074853228962818,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009308392813192223,
      "loss": 2.5083,
      "step": 2448
    },
    {
      "epoch": 0.07488380626223091,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009308085158749692,
      "loss": 2.3222,
      "step": 2449
    },
    {
      "epoch": 0.07491438356164383,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009307777504307162,
      "loss": 2.0013,
      "step": 2450
    },
    {
      "epoch": 0.07494496086105674,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009307469849864633,
      "loss": 2.1348,
      "step": 2451
    },
    {
      "epoch": 0.07497553816046967,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009307162195422102,
      "loss": 2.5984,
      "step": 2452
    },
    {
      "epoch": 0.07500611545988259,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009306854540979573,
      "loss": 2.4286,
      "step": 2453
    },
    {
      "epoch": 0.0750366927592955,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009306546886537042,
      "loss": 2.4251,
      "step": 2454
    },
    {
      "epoch": 0.07506727005870842,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009306239232094513,
      "loss": 2.0079,
      "step": 2455
    },
    {
      "epoch": 0.07509784735812133,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009305931577651981,
      "loss": 2.1893,
      "step": 2456
    },
    {
      "epoch": 0.07512842465753425,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009305623923209451,
      "loss": 1.7547,
      "step": 2457
    },
    {
      "epoch": 0.07515900195694716,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009305316268766921,
      "loss": 1.9345,
      "step": 2458
    },
    {
      "epoch": 0.07518957925636008,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009305008614324391,
      "loss": 1.9768,
      "step": 2459
    },
    {
      "epoch": 0.075220156555773,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009304700959881861,
      "loss": 1.6093,
      "step": 2460
    },
    {
      "epoch": 0.07525073385518591,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009304393305439331,
      "loss": 2.1008,
      "step": 2461
    },
    {
      "epoch": 0.07528131115459882,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009304085650996801,
      "loss": 1.9703,
      "step": 2462
    },
    {
      "epoch": 0.07531188845401174,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000930377799655427,
      "loss": 2.2926,
      "step": 2463
    },
    {
      "epoch": 0.07534246575342465,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000930347034211174,
      "loss": 2.2064,
      "step": 2464
    },
    {
      "epoch": 0.07537304305283757,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000930316268766921,
      "loss": 2.0689,
      "step": 2465
    },
    {
      "epoch": 0.07540362035225048,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000930285503322668,
      "loss": 2.3552,
      "step": 2466
    },
    {
      "epoch": 0.0754341976516634,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000930254737878415,
      "loss": 1.7921,
      "step": 2467
    },
    {
      "epoch": 0.07546477495107633,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000930223972434162,
      "loss": 1.7172,
      "step": 2468
    },
    {
      "epoch": 0.07549535225048924,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000930193206989909,
      "loss": 1.7875,
      "step": 2469
    },
    {
      "epoch": 0.07552592954990216,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009301624415456559,
      "loss": 1.6164,
      "step": 2470
    },
    {
      "epoch": 0.07555650684931507,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009301316761014029,
      "loss": 1.9727,
      "step": 2471
    },
    {
      "epoch": 0.07558708414872799,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009301009106571498,
      "loss": 2.233,
      "step": 2472
    },
    {
      "epoch": 0.0756176614481409,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009300701452128969,
      "loss": 1.871,
      "step": 2473
    },
    {
      "epoch": 0.07564823874755382,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009300393797686439,
      "loss": 2.1098,
      "step": 2474
    },
    {
      "epoch": 0.07567881604696673,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009300086143243909,
      "loss": 1.9789,
      "step": 2475
    },
    {
      "epoch": 0.07570939334637965,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009299778488801379,
      "loss": 2.0606,
      "step": 2476
    },
    {
      "epoch": 0.07573997064579256,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009299470834358848,
      "loss": 2.16,
      "step": 2477
    },
    {
      "epoch": 0.07577054794520548,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009299163179916318,
      "loss": 2.22,
      "step": 2478
    },
    {
      "epoch": 0.07580112524461839,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009298855525473788,
      "loss": 1.933,
      "step": 2479
    },
    {
      "epoch": 0.07583170254403131,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009298547871031258,
      "loss": 1.6617,
      "step": 2480
    },
    {
      "epoch": 0.07586227984344422,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009298240216588728,
      "loss": 1.7906,
      "step": 2481
    },
    {
      "epoch": 0.07589285714285714,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009297932562146198,
      "loss": 2.2935,
      "step": 2482
    },
    {
      "epoch": 0.07592343444227005,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009297624907703668,
      "loss": 2.3163,
      "step": 2483
    },
    {
      "epoch": 0.07595401174168298,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009297317253261137,
      "loss": 2.2664,
      "step": 2484
    },
    {
      "epoch": 0.0759845890410959,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009297009598818607,
      "loss": 2.6672,
      "step": 2485
    },
    {
      "epoch": 0.07601516634050881,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009296701944376077,
      "loss": 2.0263,
      "step": 2486
    },
    {
      "epoch": 0.07604574363992173,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009296394289933546,
      "loss": 1.8156,
      "step": 2487
    },
    {
      "epoch": 0.07607632093933464,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009296086635491017,
      "loss": 2.1345,
      "step": 2488
    },
    {
      "epoch": 0.07610689823874756,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009295778981048486,
      "loss": 2.1121,
      "step": 2489
    },
    {
      "epoch": 0.07613747553816047,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009295471326605957,
      "loss": 2.2995,
      "step": 2490
    },
    {
      "epoch": 0.07616805283757339,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009295163672163425,
      "loss": 1.9469,
      "step": 2491
    },
    {
      "epoch": 0.0761986301369863,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009294856017720896,
      "loss": 2.1023,
      "step": 2492
    },
    {
      "epoch": 0.07622920743639922,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009294548363278365,
      "loss": 2.347,
      "step": 2493
    },
    {
      "epoch": 0.07625978473581213,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009294240708835836,
      "loss": 1.7821,
      "step": 2494
    },
    {
      "epoch": 0.07629036203522505,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009293933054393305,
      "loss": 2.16,
      "step": 2495
    },
    {
      "epoch": 0.07632093933463796,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009293625399950776,
      "loss": 2.4913,
      "step": 2496
    },
    {
      "epoch": 0.07635151663405088,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009293317745508246,
      "loss": 2.0427,
      "step": 2497
    },
    {
      "epoch": 0.07638209393346379,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009293010091065715,
      "loss": 2.1652,
      "step": 2498
    },
    {
      "epoch": 0.0764126712328767,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009292702436623185,
      "loss": 2.3906,
      "step": 2499
    },
    {
      "epoch": 0.07644324853228963,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009292394782180655,
      "loss": 2.1237,
      "step": 2500
    },
    {
      "epoch": 0.07644324853228963,
      "eval_loss": 1.698198676109314,
      "eval_runtime": 77.4019,
      "eval_samples_per_second": 11.576,
      "eval_steps_per_second": 0.362,
      "step": 2500
    },
    {
      "epoch": 0.07644324853228963,
      "eval/hellaswag_acc": 0.37621987651862177,
      "eval/hellaswag_acc_norm": 0.472814180442143,
      "eval_hellaswag_elapsed_time": 366.38055396080017,
      "step": 2500
    },
    {
      "epoch": 0.07647382583170255,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009292087127738125,
      "loss": 2.0906,
      "step": 2501
    },
    {
      "epoch": 0.07650440313111546,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009291779473295594,
      "loss": 2.2554,
      "step": 2502
    },
    {
      "epoch": 0.07653498043052838,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009291471818853065,
      "loss": 1.9983,
      "step": 2503
    },
    {
      "epoch": 0.0765655577299413,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009291164164410534,
      "loss": 2.4024,
      "step": 2504
    },
    {
      "epoch": 0.07659613502935421,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009290856509968004,
      "loss": 2.252,
      "step": 2505
    },
    {
      "epoch": 0.07662671232876712,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009290548855525473,
      "loss": 2.1492,
      "step": 2506
    },
    {
      "epoch": 0.07665728962818004,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009290241201082944,
      "loss": 1.9893,
      "step": 2507
    },
    {
      "epoch": 0.07668786692759295,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009289933546640413,
      "loss": 2.5718,
      "step": 2508
    },
    {
      "epoch": 0.07671844422700587,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009289625892197884,
      "loss": 2.1937,
      "step": 2509
    },
    {
      "epoch": 0.07674902152641878,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009289318237755353,
      "loss": 1.9532,
      "step": 2510
    },
    {
      "epoch": 0.0767795988258317,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009289010583312824,
      "loss": 2.4389,
      "step": 2511
    },
    {
      "epoch": 0.07681017612524461,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009288702928870293,
      "loss": 2.1387,
      "step": 2512
    },
    {
      "epoch": 0.07684075342465753,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009288395274427763,
      "loss": 2.2656,
      "step": 2513
    },
    {
      "epoch": 0.07687133072407044,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009288087619985232,
      "loss": 2.2073,
      "step": 2514
    },
    {
      "epoch": 0.07690190802348336,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009287779965542703,
      "loss": 2.5514,
      "step": 2515
    },
    {
      "epoch": 0.07693248532289629,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009287472311100172,
      "loss": 1.927,
      "step": 2516
    },
    {
      "epoch": 0.0769630626223092,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009287164656657643,
      "loss": 2.3855,
      "step": 2517
    },
    {
      "epoch": 0.07699363992172212,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009286857002215113,
      "loss": 2.1396,
      "step": 2518
    },
    {
      "epoch": 0.07702421722113503,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009286549347772582,
      "loss": 2.1075,
      "step": 2519
    },
    {
      "epoch": 0.07705479452054795,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009286241693330052,
      "loss": 2.6998,
      "step": 2520
    },
    {
      "epoch": 0.07708537181996086,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009285934038887521,
      "loss": 2.2187,
      "step": 2521
    },
    {
      "epoch": 0.07711594911937378,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0009285626384444992,
      "loss": 2.4776,
      "step": 2522
    },
    {
      "epoch": 0.07714652641878669,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009285318730002461,
      "loss": 2.0493,
      "step": 2523
    },
    {
      "epoch": 0.07717710371819961,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0009285011075559932,
      "loss": 2.2966,
      "step": 2524
    },
    {
      "epoch": 0.07720768101761252,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009284703421117401,
      "loss": 1.9705,
      "step": 2525
    },
    {
      "epoch": 0.07723825831702544,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009284395766674872,
      "loss": 2.2887,
      "step": 2526
    },
    {
      "epoch": 0.07726883561643835,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000928408811223234,
      "loss": 2.2495,
      "step": 2527
    },
    {
      "epoch": 0.07729941291585127,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009283780457789811,
      "loss": 2.1931,
      "step": 2528
    },
    {
      "epoch": 0.07732999021526418,
      "grad_norm": 0.328125,
      "learning_rate": 0.000928347280334728,
      "loss": 2.2246,
      "step": 2529
    },
    {
      "epoch": 0.0773605675146771,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009283165148904751,
      "loss": 2.1403,
      "step": 2530
    },
    {
      "epoch": 0.07739114481409001,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000928285749446222,
      "loss": 1.9018,
      "step": 2531
    },
    {
      "epoch": 0.07742172211350294,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009282549840019691,
      "loss": 1.5481,
      "step": 2532
    },
    {
      "epoch": 0.07745229941291586,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000928224218557716,
      "loss": 2.3111,
      "step": 2533
    },
    {
      "epoch": 0.07748287671232877,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009281934531134629,
      "loss": 2.1262,
      "step": 2534
    },
    {
      "epoch": 0.07751345401174169,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0009281626876692099,
      "loss": 2.5479,
      "step": 2535
    },
    {
      "epoch": 0.0775440313111546,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009281319222249569,
      "loss": 2.0459,
      "step": 2536
    },
    {
      "epoch": 0.07757460861056752,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000928101156780704,
      "loss": 2.2062,
      "step": 2537
    },
    {
      "epoch": 0.07760518590998043,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009280703913364509,
      "loss": 1.9374,
      "step": 2538
    },
    {
      "epoch": 0.07763576320939335,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000928039625892198,
      "loss": 2.2597,
      "step": 2539
    },
    {
      "epoch": 0.07766634050880626,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009280088604479449,
      "loss": 1.8738,
      "step": 2540
    },
    {
      "epoch": 0.07769691780821918,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009279780950036919,
      "loss": 2.1903,
      "step": 2541
    },
    {
      "epoch": 0.07772749510763209,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009279473295594388,
      "loss": 2.3787,
      "step": 2542
    },
    {
      "epoch": 0.077758072407045,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009279165641151859,
      "loss": 2.0542,
      "step": 2543
    },
    {
      "epoch": 0.07778864970645792,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009278857986709328,
      "loss": 2.065,
      "step": 2544
    },
    {
      "epoch": 0.07781922700587084,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009278550332266799,
      "loss": 2.1115,
      "step": 2545
    },
    {
      "epoch": 0.07784980430528375,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009278242677824268,
      "loss": 1.9513,
      "step": 2546
    },
    {
      "epoch": 0.07788038160469667,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009277935023381739,
      "loss": 2.2256,
      "step": 2547
    },
    {
      "epoch": 0.0779109589041096,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009277627368939207,
      "loss": 2.1796,
      "step": 2548
    },
    {
      "epoch": 0.07794153620352251,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009277319714496677,
      "loss": 1.936,
      "step": 2549
    },
    {
      "epoch": 0.07797211350293543,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009277012060054147,
      "loss": 1.8533,
      "step": 2550
    },
    {
      "epoch": 0.07800269080234834,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009276704405611617,
      "loss": 1.649,
      "step": 2551
    },
    {
      "epoch": 0.07803326810176126,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009276396751169087,
      "loss": 2.4003,
      "step": 2552
    },
    {
      "epoch": 0.07806384540117417,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009276089096726557,
      "loss": 2.2605,
      "step": 2553
    },
    {
      "epoch": 0.07809442270058709,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009275781442284027,
      "loss": 2.0998,
      "step": 2554
    },
    {
      "epoch": 0.078125,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009275473787841496,
      "loss": 2.4359,
      "step": 2555
    },
    {
      "epoch": 0.07815557729941291,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009275166133398966,
      "loss": 1.9618,
      "step": 2556
    },
    {
      "epoch": 0.07818615459882583,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009274858478956436,
      "loss": 1.9583,
      "step": 2557
    },
    {
      "epoch": 0.07821673189823874,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009274550824513906,
      "loss": 2.3836,
      "step": 2558
    },
    {
      "epoch": 0.07824730919765166,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009274243170071376,
      "loss": 2.2648,
      "step": 2559
    },
    {
      "epoch": 0.07827788649706457,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009273935515628847,
      "loss": 2.1277,
      "step": 2560
    },
    {
      "epoch": 0.07830846379647749,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009273627861186316,
      "loss": 2.4428,
      "step": 2561
    },
    {
      "epoch": 0.0783390410958904,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009273320206743786,
      "loss": 1.6403,
      "step": 2562
    },
    {
      "epoch": 0.07836961839530333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009273012552301255,
      "loss": 1.8144,
      "step": 2563
    },
    {
      "epoch": 0.07840019569471625,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009272704897858725,
      "loss": 1.958,
      "step": 2564
    },
    {
      "epoch": 0.07843077299412916,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009272397243416195,
      "loss": 2.4289,
      "step": 2565
    },
    {
      "epoch": 0.07846135029354208,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009272089588973665,
      "loss": 2.2024,
      "step": 2566
    },
    {
      "epoch": 0.078491927592955,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009271781934531135,
      "loss": 1.9236,
      "step": 2567
    },
    {
      "epoch": 0.07852250489236791,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009271474280088605,
      "loss": 2.0286,
      "step": 2568
    },
    {
      "epoch": 0.07855308219178082,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009271166625646074,
      "loss": 2.2166,
      "step": 2569
    },
    {
      "epoch": 0.07858365949119374,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009270858971203544,
      "loss": 1.9854,
      "step": 2570
    },
    {
      "epoch": 0.07861423679060665,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009270551316761014,
      "loss": 1.971,
      "step": 2571
    },
    {
      "epoch": 0.07864481409001957,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009270243662318484,
      "loss": 2.1161,
      "step": 2572
    },
    {
      "epoch": 0.07867539138943248,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009269936007875954,
      "loss": 2.2561,
      "step": 2573
    },
    {
      "epoch": 0.0787059686888454,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009269628353433424,
      "loss": 1.7642,
      "step": 2574
    },
    {
      "epoch": 0.07873654598825831,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009269320698990894,
      "loss": 1.8962,
      "step": 2575
    },
    {
      "epoch": 0.07876712328767123,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009269013044548363,
      "loss": 2.1509,
      "step": 2576
    },
    {
      "epoch": 0.07879770058708414,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009268705390105833,
      "loss": 2.1658,
      "step": 2577
    },
    {
      "epoch": 0.07882827788649706,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009268397735663303,
      "loss": 2.0604,
      "step": 2578
    },
    {
      "epoch": 0.07885885518590999,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009268090081220773,
      "loss": 2.1972,
      "step": 2579
    },
    {
      "epoch": 0.0788894324853229,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009267782426778243,
      "loss": 1.9959,
      "step": 2580
    },
    {
      "epoch": 0.07892000978473582,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009267474772335712,
      "loss": 2.1416,
      "step": 2581
    },
    {
      "epoch": 0.07895058708414873,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009267167117893183,
      "loss": 1.9029,
      "step": 2582
    },
    {
      "epoch": 0.07898116438356165,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009266859463450653,
      "loss": 2.0168,
      "step": 2583
    },
    {
      "epoch": 0.07901174168297456,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009266551809008122,
      "loss": 2.3985,
      "step": 2584
    },
    {
      "epoch": 0.07904231898238748,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009266244154565592,
      "loss": 2.2805,
      "step": 2585
    },
    {
      "epoch": 0.07907289628180039,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009265936500123062,
      "loss": 1.8335,
      "step": 2586
    },
    {
      "epoch": 0.07910347358121331,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009265628845680532,
      "loss": 2.023,
      "step": 2587
    },
    {
      "epoch": 0.07913405088062622,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009265321191238002,
      "loss": 2.2699,
      "step": 2588
    },
    {
      "epoch": 0.07916462818003914,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009265013536795472,
      "loss": 2.113,
      "step": 2589
    },
    {
      "epoch": 0.07919520547945205,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009264705882352942,
      "loss": 2.3431,
      "step": 2590
    },
    {
      "epoch": 0.07922578277886497,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009264398227910411,
      "loss": 2.2838,
      "step": 2591
    },
    {
      "epoch": 0.07925636007827788,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009264090573467881,
      "loss": 2.1562,
      "step": 2592
    },
    {
      "epoch": 0.0792869373776908,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009263782919025351,
      "loss": 2.2071,
      "step": 2593
    },
    {
      "epoch": 0.07931751467710371,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009263475264582821,
      "loss": 2.183,
      "step": 2594
    },
    {
      "epoch": 0.07934809197651664,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009263167610140291,
      "loss": 1.9598,
      "step": 2595
    },
    {
      "epoch": 0.07937866927592956,
      "grad_norm": 0.296875,
      "learning_rate": 0.000926285995569776,
      "loss": 1.8156,
      "step": 2596
    },
    {
      "epoch": 0.07940924657534247,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009262552301255231,
      "loss": 2.1525,
      "step": 2597
    },
    {
      "epoch": 0.07943982387475539,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009262244646812699,
      "loss": 2.4244,
      "step": 2598
    },
    {
      "epoch": 0.0794704011741683,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000926193699237017,
      "loss": 2.1777,
      "step": 2599
    },
    {
      "epoch": 0.07950097847358122,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009261629337927639,
      "loss": 1.9741,
      "step": 2600
    },
    {
      "epoch": 0.07953155577299413,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000926132168348511,
      "loss": 2.2112,
      "step": 2601
    },
    {
      "epoch": 0.07956213307240705,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000926101402904258,
      "loss": 2.1917,
      "step": 2602
    },
    {
      "epoch": 0.07959271037181996,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000926070637460005,
      "loss": 2.3217,
      "step": 2603
    },
    {
      "epoch": 0.07962328767123288,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000926039872015752,
      "loss": 2.3012,
      "step": 2604
    },
    {
      "epoch": 0.07965386497064579,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009260091065714989,
      "loss": 2.0036,
      "step": 2605
    },
    {
      "epoch": 0.0796844422700587,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009259783411272459,
      "loss": 2.2745,
      "step": 2606
    },
    {
      "epoch": 0.07971501956947162,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009259475756829929,
      "loss": 2.0674,
      "step": 2607
    },
    {
      "epoch": 0.07974559686888454,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009259168102387399,
      "loss": 2.1058,
      "step": 2608
    },
    {
      "epoch": 0.07977617416829745,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009258860447944869,
      "loss": 2.1728,
      "step": 2609
    },
    {
      "epoch": 0.07980675146771037,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009258552793502339,
      "loss": 2.3209,
      "step": 2610
    },
    {
      "epoch": 0.0798373287671233,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009258245139059808,
      "loss": 2.134,
      "step": 2611
    },
    {
      "epoch": 0.07986790606653621,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009257937484617278,
      "loss": 2.0632,
      "step": 2612
    },
    {
      "epoch": 0.07989848336594912,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009257629830174747,
      "loss": 2.3367,
      "step": 2613
    },
    {
      "epoch": 0.07992906066536204,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009257322175732218,
      "loss": 1.791,
      "step": 2614
    },
    {
      "epoch": 0.07995963796477495,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009257014521289687,
      "loss": 2.2441,
      "step": 2615
    },
    {
      "epoch": 0.07999021526418787,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009256706866847158,
      "loss": 2.5864,
      "step": 2616
    },
    {
      "epoch": 0.08002079256360078,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009256399212404627,
      "loss": 2.0553,
      "step": 2617
    },
    {
      "epoch": 0.0800513698630137,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009256091557962098,
      "loss": 2.2082,
      "step": 2618
    },
    {
      "epoch": 0.08008194716242661,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009255783903519566,
      "loss": 1.734,
      "step": 2619
    },
    {
      "epoch": 0.08011252446183953,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009255476249077037,
      "loss": 2.3311,
      "step": 2620
    },
    {
      "epoch": 0.08014310176125244,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009255168594634506,
      "loss": 2.295,
      "step": 2621
    },
    {
      "epoch": 0.08017367906066536,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009254860940191977,
      "loss": 1.7753,
      "step": 2622
    },
    {
      "epoch": 0.08020425636007827,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009254553285749446,
      "loss": 2.1209,
      "step": 2623
    },
    {
      "epoch": 0.08023483365949119,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009254245631306917,
      "loss": 2.1985,
      "step": 2624
    },
    {
      "epoch": 0.0802654109589041,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009253937976864387,
      "loss": 2.448,
      "step": 2625
    },
    {
      "epoch": 0.08029598825831702,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009253630322421855,
      "loss": 2.0776,
      "step": 2626
    },
    {
      "epoch": 0.08032656555772995,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009253322667979326,
      "loss": 1.8248,
      "step": 2627
    },
    {
      "epoch": 0.08035714285714286,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009253015013536795,
      "loss": 1.9195,
      "step": 2628
    },
    {
      "epoch": 0.08038772015655578,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009252707359094266,
      "loss": 2.018,
      "step": 2629
    },
    {
      "epoch": 0.08041829745596869,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009252399704651735,
      "loss": 1.726,
      "step": 2630
    },
    {
      "epoch": 0.08044887475538161,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009252092050209206,
      "loss": 1.7692,
      "step": 2631
    },
    {
      "epoch": 0.08047945205479452,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009251784395766675,
      "loss": 2.086,
      "step": 2632
    },
    {
      "epoch": 0.08051002935420744,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009251476741324145,
      "loss": 1.9446,
      "step": 2633
    },
    {
      "epoch": 0.08054060665362035,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009251169086881614,
      "loss": 2.0899,
      "step": 2634
    },
    {
      "epoch": 0.08057118395303327,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009250861432439085,
      "loss": 2.1033,
      "step": 2635
    },
    {
      "epoch": 0.08060176125244618,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009250553777996554,
      "loss": 2.0668,
      "step": 2636
    },
    {
      "epoch": 0.0806323385518591,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009250246123554025,
      "loss": 2.1563,
      "step": 2637
    },
    {
      "epoch": 0.08066291585127201,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009249938469111494,
      "loss": 2.5463,
      "step": 2638
    },
    {
      "epoch": 0.08069349315068493,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009249630814668965,
      "loss": 1.5772,
      "step": 2639
    },
    {
      "epoch": 0.08072407045009784,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009249323160226433,
      "loss": 2.3128,
      "step": 2640
    },
    {
      "epoch": 0.08075464774951076,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009249015505783903,
      "loss": 2.3514,
      "step": 2641
    },
    {
      "epoch": 0.08078522504892367,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009248707851341373,
      "loss": 2.082,
      "step": 2642
    },
    {
      "epoch": 0.0808158023483366,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0009248400196898843,
      "loss": 2.6625,
      "step": 2643
    },
    {
      "epoch": 0.08084637964774952,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009248092542456313,
      "loss": 1.9658,
      "step": 2644
    },
    {
      "epoch": 0.08087695694716243,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009247784888013783,
      "loss": 2.0294,
      "step": 2645
    },
    {
      "epoch": 0.08090753424657535,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009247477233571254,
      "loss": 2.2107,
      "step": 2646
    },
    {
      "epoch": 0.08093811154598826,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009247169579128722,
      "loss": 2.3961,
      "step": 2647
    },
    {
      "epoch": 0.08096868884540118,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009246861924686193,
      "loss": 2.1977,
      "step": 2648
    },
    {
      "epoch": 0.08099926614481409,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009246554270243662,
      "loss": 2.1928,
      "step": 2649
    },
    {
      "epoch": 0.081029843444227,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009246246615801133,
      "loss": 2.0605,
      "step": 2650
    },
    {
      "epoch": 0.08106042074363992,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009245938961358602,
      "loss": 1.9571,
      "step": 2651
    },
    {
      "epoch": 0.08109099804305284,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009245631306916073,
      "loss": 2.1313,
      "step": 2652
    },
    {
      "epoch": 0.08112157534246575,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009245323652473542,
      "loss": 1.7935,
      "step": 2653
    },
    {
      "epoch": 0.08115215264187867,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009245015998031013,
      "loss": 1.747,
      "step": 2654
    },
    {
      "epoch": 0.08118272994129158,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009244708343588481,
      "loss": 2.2488,
      "step": 2655
    },
    {
      "epoch": 0.0812133072407045,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009244400689145952,
      "loss": 1.9994,
      "step": 2656
    },
    {
      "epoch": 0.08124388454011741,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009244093034703421,
      "loss": 2.3092,
      "step": 2657
    },
    {
      "epoch": 0.08127446183953033,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009243785380260891,
      "loss": 2.2058,
      "step": 2658
    },
    {
      "epoch": 0.08130503913894326,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009243477725818361,
      "loss": 2.453,
      "step": 2659
    },
    {
      "epoch": 0.08133561643835617,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009243170071375831,
      "loss": 2.4621,
      "step": 2660
    },
    {
      "epoch": 0.08136619373776909,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009242862416933301,
      "loss": 2.0847,
      "step": 2661
    },
    {
      "epoch": 0.081396771037182,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000924255476249077,
      "loss": 2.2127,
      "step": 2662
    },
    {
      "epoch": 0.08142734833659492,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000924224710804824,
      "loss": 1.9152,
      "step": 2663
    },
    {
      "epoch": 0.08145792563600783,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000924193945360571,
      "loss": 2.1229,
      "step": 2664
    },
    {
      "epoch": 0.08148850293542075,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000924163179916318,
      "loss": 1.9871,
      "step": 2665
    },
    {
      "epoch": 0.08151908023483366,
      "grad_norm": 0.3125,
      "learning_rate": 0.000924132414472065,
      "loss": 2.2626,
      "step": 2666
    },
    {
      "epoch": 0.08154965753424658,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000924101649027812,
      "loss": 2.0541,
      "step": 2667
    },
    {
      "epoch": 0.08158023483365949,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000924070883583559,
      "loss": 1.8727,
      "step": 2668
    },
    {
      "epoch": 0.0816108121330724,
      "grad_norm": 0.259765625,
      "learning_rate": 0.000924040118139306,
      "loss": 1.5197,
      "step": 2669
    },
    {
      "epoch": 0.08164138943248532,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009240093526950529,
      "loss": 1.7204,
      "step": 2670
    },
    {
      "epoch": 0.08167196673189824,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009239785872508,
      "loss": 2.1985,
      "step": 2671
    },
    {
      "epoch": 0.08170254403131115,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009239478218065469,
      "loss": 2.1315,
      "step": 2672
    },
    {
      "epoch": 0.08173312133072407,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009239170563622939,
      "loss": 2.1905,
      "step": 2673
    },
    {
      "epoch": 0.08176369863013698,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009238862909180409,
      "loss": 2.5693,
      "step": 2674
    },
    {
      "epoch": 0.08179427592954991,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009238555254737879,
      "loss": 2.2312,
      "step": 2675
    },
    {
      "epoch": 0.08182485322896282,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009238247600295348,
      "loss": 2.314,
      "step": 2676
    },
    {
      "epoch": 0.08185543052837574,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009237939945852818,
      "loss": 1.7742,
      "step": 2677
    },
    {
      "epoch": 0.08188600782778865,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009237632291410288,
      "loss": 2.2413,
      "step": 2678
    },
    {
      "epoch": 0.08191658512720157,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009237324636967758,
      "loss": 2.1432,
      "step": 2679
    },
    {
      "epoch": 0.08194716242661448,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009237016982525228,
      "loss": 2.2134,
      "step": 2680
    },
    {
      "epoch": 0.0819777397260274,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009236709328082698,
      "loss": 1.9424,
      "step": 2681
    },
    {
      "epoch": 0.08200831702544031,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009236401673640168,
      "loss": 1.7605,
      "step": 2682
    },
    {
      "epoch": 0.08203889432485323,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009236094019197637,
      "loss": 2.0975,
      "step": 2683
    },
    {
      "epoch": 0.08206947162426614,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009235786364755107,
      "loss": 2.2718,
      "step": 2684
    },
    {
      "epoch": 0.08210004892367906,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009235478710312577,
      "loss": 2.2721,
      "step": 2685
    },
    {
      "epoch": 0.08213062622309197,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009235171055870047,
      "loss": 2.378,
      "step": 2686
    },
    {
      "epoch": 0.08216120352250489,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009234863401427517,
      "loss": 2.4059,
      "step": 2687
    },
    {
      "epoch": 0.0821917808219178,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009234555746984986,
      "loss": 2.3392,
      "step": 2688
    },
    {
      "epoch": 0.08222235812133072,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009234248092542457,
      "loss": 1.7444,
      "step": 2689
    },
    {
      "epoch": 0.08225293542074363,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009233940438099925,
      "loss": 2.3558,
      "step": 2690
    },
    {
      "epoch": 0.08228351272015656,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009233632783657396,
      "loss": 2.4825,
      "step": 2691
    },
    {
      "epoch": 0.08231409001956948,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009233325129214865,
      "loss": 2.0166,
      "step": 2692
    },
    {
      "epoch": 0.08234466731898239,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009233017474772336,
      "loss": 2.3353,
      "step": 2693
    },
    {
      "epoch": 0.08237524461839531,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009232709820329806,
      "loss": 1.5778,
      "step": 2694
    },
    {
      "epoch": 0.08240582191780822,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009232402165887276,
      "loss": 2.3232,
      "step": 2695
    },
    {
      "epoch": 0.08243639921722114,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009232094511444746,
      "loss": 2.1837,
      "step": 2696
    },
    {
      "epoch": 0.08246697651663405,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009231786857002215,
      "loss": 2.4387,
      "step": 2697
    },
    {
      "epoch": 0.08249755381604697,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009231479202559685,
      "loss": 1.9965,
      "step": 2698
    },
    {
      "epoch": 0.08252813111545988,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009231171548117155,
      "loss": 2.0197,
      "step": 2699
    },
    {
      "epoch": 0.0825587084148728,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009230863893674625,
      "loss": 1.8121,
      "step": 2700
    },
    {
      "epoch": 0.08258928571428571,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009230556239232095,
      "loss": 1.7634,
      "step": 2701
    },
    {
      "epoch": 0.08261986301369863,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009230248584789565,
      "loss": 1.8441,
      "step": 2702
    },
    {
      "epoch": 0.08265044031311154,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009229940930347034,
      "loss": 2.1316,
      "step": 2703
    },
    {
      "epoch": 0.08268101761252446,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009229633275904504,
      "loss": 2.2859,
      "step": 2704
    },
    {
      "epoch": 0.08271159491193737,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009229325621461973,
      "loss": 2.1922,
      "step": 2705
    },
    {
      "epoch": 0.08274217221135029,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009229017967019444,
      "loss": 2.2499,
      "step": 2706
    },
    {
      "epoch": 0.08277274951076322,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009228710312576913,
      "loss": 2.2493,
      "step": 2707
    },
    {
      "epoch": 0.08280332681017613,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009228402658134384,
      "loss": 2.7041,
      "step": 2708
    },
    {
      "epoch": 0.08283390410958905,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009228095003691853,
      "loss": 2.1535,
      "step": 2709
    },
    {
      "epoch": 0.08286448140900196,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009227787349249324,
      "loss": 2.337,
      "step": 2710
    },
    {
      "epoch": 0.08289505870841488,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009227479694806792,
      "loss": 2.2288,
      "step": 2711
    },
    {
      "epoch": 0.08292563600782779,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009227172040364263,
      "loss": 2.265,
      "step": 2712
    },
    {
      "epoch": 0.0829562133072407,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009226864385921732,
      "loss": 2.0479,
      "step": 2713
    },
    {
      "epoch": 0.08298679060665362,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009226556731479203,
      "loss": 2.0401,
      "step": 2714
    },
    {
      "epoch": 0.08301736790606654,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009226249077036673,
      "loss": 2.3471,
      "step": 2715
    },
    {
      "epoch": 0.08304794520547945,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009225941422594143,
      "loss": 2.0346,
      "step": 2716
    },
    {
      "epoch": 0.08307852250489237,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009225633768151613,
      "loss": 2.2045,
      "step": 2717
    },
    {
      "epoch": 0.08310909980430528,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009225326113709083,
      "loss": 2.1401,
      "step": 2718
    },
    {
      "epoch": 0.0831396771037182,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009225018459266552,
      "loss": 2.2967,
      "step": 2719
    },
    {
      "epoch": 0.08317025440313111,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009224710804824021,
      "loss": 2.0566,
      "step": 2720
    },
    {
      "epoch": 0.08320083170254403,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009224403150381492,
      "loss": 2.2545,
      "step": 2721
    },
    {
      "epoch": 0.08323140900195694,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009224095495938961,
      "loss": 1.8852,
      "step": 2722
    },
    {
      "epoch": 0.08326198630136987,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009223787841496432,
      "loss": 2.1757,
      "step": 2723
    },
    {
      "epoch": 0.08329256360078278,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009223480187053901,
      "loss": 2.5864,
      "step": 2724
    },
    {
      "epoch": 0.0833231409001957,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009223172532611372,
      "loss": 2.1264,
      "step": 2725
    },
    {
      "epoch": 0.08335371819960861,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000922286487816884,
      "loss": 2.564,
      "step": 2726
    },
    {
      "epoch": 0.08338429549902153,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009222557223726311,
      "loss": 2.4277,
      "step": 2727
    },
    {
      "epoch": 0.08341487279843444,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000922224956928378,
      "loss": 1.6753,
      "step": 2728
    },
    {
      "epoch": 0.08344545009784736,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009221941914841251,
      "loss": 2.3817,
      "step": 2729
    },
    {
      "epoch": 0.08347602739726027,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000922163426039872,
      "loss": 2.064,
      "step": 2730
    },
    {
      "epoch": 0.08350660469667319,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009221326605956191,
      "loss": 2.2316,
      "step": 2731
    },
    {
      "epoch": 0.0835371819960861,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000922101895151366,
      "loss": 1.8989,
      "step": 2732
    },
    {
      "epoch": 0.08356775929549902,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000922071129707113,
      "loss": 2.5135,
      "step": 2733
    },
    {
      "epoch": 0.08359833659491193,
      "grad_norm": 0.291015625,
      "learning_rate": 0.00092204036426286,
      "loss": 1.9341,
      "step": 2734
    },
    {
      "epoch": 0.08362891389432485,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009220095988186069,
      "loss": 2.0068,
      "step": 2735
    },
    {
      "epoch": 0.08365949119373776,
      "grad_norm": 0.296875,
      "learning_rate": 0.000921978833374354,
      "loss": 2.2843,
      "step": 2736
    },
    {
      "epoch": 0.08369006849315068,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009219480679301009,
      "loss": 2.2586,
      "step": 2737
    },
    {
      "epoch": 0.0837206457925636,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000921917302485848,
      "loss": 2.0386,
      "step": 2738
    },
    {
      "epoch": 0.08375122309197652,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009218865370415949,
      "loss": 2.4982,
      "step": 2739
    },
    {
      "epoch": 0.08378180039138944,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009218557715973419,
      "loss": 2.006,
      "step": 2740
    },
    {
      "epoch": 0.08381237769080235,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009218250061530888,
      "loss": 2.3705,
      "step": 2741
    },
    {
      "epoch": 0.08384295499021527,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009217942407088359,
      "loss": 1.9356,
      "step": 2742
    },
    {
      "epoch": 0.08387353228962818,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009217634752645828,
      "loss": 1.8762,
      "step": 2743
    },
    {
      "epoch": 0.0839041095890411,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009217327098203299,
      "loss": 1.5686,
      "step": 2744
    },
    {
      "epoch": 0.08393468688845401,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009217019443760768,
      "loss": 1.8887,
      "step": 2745
    },
    {
      "epoch": 0.08396526418786693,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009216711789318239,
      "loss": 1.9122,
      "step": 2746
    },
    {
      "epoch": 0.08399584148727984,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009216404134875707,
      "loss": 2.0021,
      "step": 2747
    },
    {
      "epoch": 0.08402641878669276,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009216096480433178,
      "loss": 1.6856,
      "step": 2748
    },
    {
      "epoch": 0.08405699608610567,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009215788825990647,
      "loss": 2.1216,
      "step": 2749
    },
    {
      "epoch": 0.08408757338551859,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009215481171548117,
      "loss": 2.3502,
      "step": 2750
    },
    {
      "epoch": 0.0841181506849315,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009215173517105587,
      "loss": 2.2114,
      "step": 2751
    },
    {
      "epoch": 0.08414872798434442,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009214865862663057,
      "loss": 2.5671,
      "step": 2752
    },
    {
      "epoch": 0.08417930528375733,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009214558208220527,
      "loss": 2.254,
      "step": 2753
    },
    {
      "epoch": 0.08420988258317025,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009214250553777996,
      "loss": 1.8323,
      "step": 2754
    },
    {
      "epoch": 0.08424045988258318,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009213942899335466,
      "loss": 2.2989,
      "step": 2755
    },
    {
      "epoch": 0.08427103718199609,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009213635244892936,
      "loss": 2.5581,
      "step": 2756
    },
    {
      "epoch": 0.084301614481409,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009213327590450407,
      "loss": 2.1892,
      "step": 2757
    },
    {
      "epoch": 0.08433219178082192,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009213019936007876,
      "loss": 2.3317,
      "step": 2758
    },
    {
      "epoch": 0.08436276908023484,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009212712281565347,
      "loss": 2.6355,
      "step": 2759
    },
    {
      "epoch": 0.08439334637964775,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009212404627122816,
      "loss": 2.0771,
      "step": 2760
    },
    {
      "epoch": 0.08442392367906067,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009212096972680286,
      "loss": 2.2136,
      "step": 2761
    },
    {
      "epoch": 0.08445450097847358,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009211789318237755,
      "loss": 2.1861,
      "step": 2762
    },
    {
      "epoch": 0.0844850782778865,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009211481663795226,
      "loss": 2.4144,
      "step": 2763
    },
    {
      "epoch": 0.08451565557729941,
      "grad_norm": 0.34375,
      "learning_rate": 0.0009211174009352695,
      "loss": 2.4932,
      "step": 2764
    },
    {
      "epoch": 0.08454623287671233,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009210866354910165,
      "loss": 1.7858,
      "step": 2765
    },
    {
      "epoch": 0.08457681017612524,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009210558700467635,
      "loss": 2.2603,
      "step": 2766
    },
    {
      "epoch": 0.08460738747553816,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009210251046025105,
      "loss": 2.1092,
      "step": 2767
    },
    {
      "epoch": 0.08463796477495107,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009209943391582574,
      "loss": 2.3384,
      "step": 2768
    },
    {
      "epoch": 0.08466854207436399,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009209635737140044,
      "loss": 1.9466,
      "step": 2769
    },
    {
      "epoch": 0.0846991193737769,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009209328082697514,
      "loss": 1.9432,
      "step": 2770
    },
    {
      "epoch": 0.08472969667318983,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009209020428254984,
      "loss": 2.427,
      "step": 2771
    },
    {
      "epoch": 0.08476027397260275,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009208712773812454,
      "loss": 2.1499,
      "step": 2772
    },
    {
      "epoch": 0.08479085127201566,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009208405119369924,
      "loss": 2.0604,
      "step": 2773
    },
    {
      "epoch": 0.08482142857142858,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009208097464927394,
      "loss": 2.3404,
      "step": 2774
    },
    {
      "epoch": 0.08485200587084149,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009207789810484863,
      "loss": 1.8514,
      "step": 2775
    },
    {
      "epoch": 0.0848825831702544,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009207482156042333,
      "loss": 2.2509,
      "step": 2776
    },
    {
      "epoch": 0.08491316046966732,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009207174501599803,
      "loss": 2.3304,
      "step": 2777
    },
    {
      "epoch": 0.08494373776908024,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009206866847157274,
      "loss": 2.0447,
      "step": 2778
    },
    {
      "epoch": 0.08497431506849315,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009206559192714743,
      "loss": 2.4519,
      "step": 2779
    },
    {
      "epoch": 0.08500489236790607,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009206251538272213,
      "loss": 1.9811,
      "step": 2780
    },
    {
      "epoch": 0.08503546966731898,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009205943883829683,
      "loss": 2.0509,
      "step": 2781
    },
    {
      "epoch": 0.0850660469667319,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009205636229387152,
      "loss": 2.0578,
      "step": 2782
    },
    {
      "epoch": 0.08509662426614481,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009205328574944622,
      "loss": 2.2005,
      "step": 2783
    },
    {
      "epoch": 0.08512720156555773,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009205020920502092,
      "loss": 2.4662,
      "step": 2784
    },
    {
      "epoch": 0.08515777886497064,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009204713266059562,
      "loss": 2.1562,
      "step": 2785
    },
    {
      "epoch": 0.08518835616438356,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009204405611617032,
      "loss": 2.3163,
      "step": 2786
    },
    {
      "epoch": 0.08521893346379648,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009204097957174502,
      "loss": 1.9355,
      "step": 2787
    },
    {
      "epoch": 0.0852495107632094,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009203790302731972,
      "loss": 2.1427,
      "step": 2788
    },
    {
      "epoch": 0.08528008806262231,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009203482648289442,
      "loss": 2.2876,
      "step": 2789
    },
    {
      "epoch": 0.08531066536203523,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009203174993846911,
      "loss": 2.2641,
      "step": 2790
    },
    {
      "epoch": 0.08534124266144814,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009202867339404381,
      "loss": 2.0996,
      "step": 2791
    },
    {
      "epoch": 0.08537181996086106,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009202559684961851,
      "loss": 2.1999,
      "step": 2792
    },
    {
      "epoch": 0.08540239726027397,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009202252030519321,
      "loss": 1.6451,
      "step": 2793
    },
    {
      "epoch": 0.08543297455968689,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009201944376076791,
      "loss": 1.8348,
      "step": 2794
    },
    {
      "epoch": 0.0854635518590998,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009201636721634261,
      "loss": 2.2948,
      "step": 2795
    },
    {
      "epoch": 0.08549412915851272,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009201329067191731,
      "loss": 2.0972,
      "step": 2796
    },
    {
      "epoch": 0.08552470645792563,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009201021412749199,
      "loss": 2.1648,
      "step": 2797
    },
    {
      "epoch": 0.08555528375733855,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000920071375830667,
      "loss": 2.0331,
      "step": 2798
    },
    {
      "epoch": 0.08558586105675146,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000920040610386414,
      "loss": 2.2286,
      "step": 2799
    },
    {
      "epoch": 0.08561643835616438,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000920009844942161,
      "loss": 2.5059,
      "step": 2800
    },
    {
      "epoch": 0.0856470156555773,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000919979079497908,
      "loss": 2.1561,
      "step": 2801
    },
    {
      "epoch": 0.08567759295499021,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000919948314053655,
      "loss": 1.7558,
      "step": 2802
    },
    {
      "epoch": 0.08570817025440314,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000919917548609402,
      "loss": 2.359,
      "step": 2803
    },
    {
      "epoch": 0.08573874755381605,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009198867831651489,
      "loss": 1.8899,
      "step": 2804
    },
    {
      "epoch": 0.08576932485322897,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009198560177208959,
      "loss": 2.2794,
      "step": 2805
    },
    {
      "epoch": 0.08579990215264188,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009198252522766429,
      "loss": 2.1225,
      "step": 2806
    },
    {
      "epoch": 0.0858304794520548,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009197944868323899,
      "loss": 2.0972,
      "step": 2807
    },
    {
      "epoch": 0.08586105675146771,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009197637213881369,
      "loss": 2.4591,
      "step": 2808
    },
    {
      "epoch": 0.08589163405088063,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009197329559438839,
      "loss": 2.5407,
      "step": 2809
    },
    {
      "epoch": 0.08592221135029354,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009197021904996309,
      "loss": 1.8376,
      "step": 2810
    },
    {
      "epoch": 0.08595278864970646,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009196714250553778,
      "loss": 2.1214,
      "step": 2811
    },
    {
      "epoch": 0.08598336594911937,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009196406596111247,
      "loss": 2.3018,
      "step": 2812
    },
    {
      "epoch": 0.08601394324853229,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009196098941668718,
      "loss": 2.2122,
      "step": 2813
    },
    {
      "epoch": 0.0860445205479452,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009195791287226187,
      "loss": 1.8082,
      "step": 2814
    },
    {
      "epoch": 0.08607509784735812,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009195483632783658,
      "loss": 2.5236,
      "step": 2815
    },
    {
      "epoch": 0.08610567514677103,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009195175978341127,
      "loss": 1.9525,
      "step": 2816
    },
    {
      "epoch": 0.08613625244618395,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009194868323898598,
      "loss": 1.9518,
      "step": 2817
    },
    {
      "epoch": 0.08616682974559686,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009194560669456066,
      "loss": 2.2765,
      "step": 2818
    },
    {
      "epoch": 0.08619740704500979,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009194253015013537,
      "loss": 2.4111,
      "step": 2819
    },
    {
      "epoch": 0.0862279843444227,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009193945360571006,
      "loss": 2.3695,
      "step": 2820
    },
    {
      "epoch": 0.08625856164383562,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009193637706128477,
      "loss": 2.019,
      "step": 2821
    },
    {
      "epoch": 0.08628913894324854,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009193330051685947,
      "loss": 2.1522,
      "step": 2822
    },
    {
      "epoch": 0.08631971624266145,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009193022397243417,
      "loss": 2.2548,
      "step": 2823
    },
    {
      "epoch": 0.08635029354207437,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009192714742800887,
      "loss": 2.0537,
      "step": 2824
    },
    {
      "epoch": 0.08638087084148728,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009192407088358356,
      "loss": 2.2669,
      "step": 2825
    },
    {
      "epoch": 0.0864114481409002,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009192099433915826,
      "loss": 1.904,
      "step": 2826
    },
    {
      "epoch": 0.08644202544031311,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009191791779473295,
      "loss": 2.2188,
      "step": 2827
    },
    {
      "epoch": 0.08647260273972603,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009191484125030766,
      "loss": 1.5067,
      "step": 2828
    },
    {
      "epoch": 0.08650318003913894,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009191176470588235,
      "loss": 2.2291,
      "step": 2829
    },
    {
      "epoch": 0.08653375733855186,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009190868816145706,
      "loss": 2.2773,
      "step": 2830
    },
    {
      "epoch": 0.08656433463796477,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009190561161703175,
      "loss": 2.2066,
      "step": 2831
    },
    {
      "epoch": 0.08659491193737769,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009190253507260645,
      "loss": 1.8351,
      "step": 2832
    },
    {
      "epoch": 0.0866254892367906,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009189945852818114,
      "loss": 2.2274,
      "step": 2833
    },
    {
      "epoch": 0.08665606653620352,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009189638198375585,
      "loss": 1.7665,
      "step": 2834
    },
    {
      "epoch": 0.08668664383561644,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009189330543933054,
      "loss": 2.1093,
      "step": 2835
    },
    {
      "epoch": 0.08671722113502936,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009189022889490525,
      "loss": 2.4307,
      "step": 2836
    },
    {
      "epoch": 0.08674779843444227,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009188715235047994,
      "loss": 2.1045,
      "step": 2837
    },
    {
      "epoch": 0.08677837573385519,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009188407580605465,
      "loss": 2.0739,
      "step": 2838
    },
    {
      "epoch": 0.0868089530332681,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009188099926162933,
      "loss": 1.7039,
      "step": 2839
    },
    {
      "epoch": 0.08683953033268102,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009187792271720404,
      "loss": 2.138,
      "step": 2840
    },
    {
      "epoch": 0.08687010763209393,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009187484617277873,
      "loss": 2.4226,
      "step": 2841
    },
    {
      "epoch": 0.08690068493150685,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009187176962835343,
      "loss": 2.0082,
      "step": 2842
    },
    {
      "epoch": 0.08693126223091976,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009186869308392814,
      "loss": 2.0684,
      "step": 2843
    },
    {
      "epoch": 0.08696183953033268,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009186561653950283,
      "loss": 2.1507,
      "step": 2844
    },
    {
      "epoch": 0.0869924168297456,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009186253999507754,
      "loss": 2.045,
      "step": 2845
    },
    {
      "epoch": 0.08702299412915851,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009185946345065222,
      "loss": 1.9427,
      "step": 2846
    },
    {
      "epoch": 0.08705357142857142,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009185638690622693,
      "loss": 2.2701,
      "step": 2847
    },
    {
      "epoch": 0.08708414872798434,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009185331036180162,
      "loss": 1.646,
      "step": 2848
    },
    {
      "epoch": 0.08711472602739725,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009185023381737633,
      "loss": 2.1899,
      "step": 2849
    },
    {
      "epoch": 0.08714530332681017,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009184715727295102,
      "loss": 1.9312,
      "step": 2850
    },
    {
      "epoch": 0.0871758806262231,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009184408072852573,
      "loss": 1.788,
      "step": 2851
    },
    {
      "epoch": 0.08720645792563601,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009184100418410042,
      "loss": 2.3721,
      "step": 2852
    },
    {
      "epoch": 0.08723703522504893,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009183792763967513,
      "loss": 2.358,
      "step": 2853
    },
    {
      "epoch": 0.08726761252446184,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009183485109524981,
      "loss": 1.9907,
      "step": 2854
    },
    {
      "epoch": 0.08729818982387476,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009183177455082452,
      "loss": 2.0162,
      "step": 2855
    },
    {
      "epoch": 0.08732876712328767,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009182869800639921,
      "loss": 1.9716,
      "step": 2856
    },
    {
      "epoch": 0.08735934442270059,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009182562146197392,
      "loss": 1.9585,
      "step": 2857
    },
    {
      "epoch": 0.0873899217221135,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009182254491754861,
      "loss": 2.3974,
      "step": 2858
    },
    {
      "epoch": 0.08742049902152642,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009181946837312331,
      "loss": 2.124,
      "step": 2859
    },
    {
      "epoch": 0.08745107632093933,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009181639182869801,
      "loss": 1.7889,
      "step": 2860
    },
    {
      "epoch": 0.08748165362035225,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000918133152842727,
      "loss": 2.0608,
      "step": 2861
    },
    {
      "epoch": 0.08751223091976516,
      "grad_norm": 0.3125,
      "learning_rate": 0.000918102387398474,
      "loss": 2.2672,
      "step": 2862
    },
    {
      "epoch": 0.08754280821917808,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000918071621954221,
      "loss": 2.2481,
      "step": 2863
    },
    {
      "epoch": 0.087573385518591,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000918040856509968,
      "loss": 2.0607,
      "step": 2864
    },
    {
      "epoch": 0.08760396281800391,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000918010091065715,
      "loss": 2.3862,
      "step": 2865
    },
    {
      "epoch": 0.08763454011741682,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009179793256214621,
      "loss": 2.317,
      "step": 2866
    },
    {
      "epoch": 0.08766511741682975,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000917948560177209,
      "loss": 1.984,
      "step": 2867
    },
    {
      "epoch": 0.08769569471624267,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000917917794732956,
      "loss": 2.2242,
      "step": 2868
    },
    {
      "epoch": 0.08772627201565558,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009178870292887029,
      "loss": 2.0187,
      "step": 2869
    },
    {
      "epoch": 0.0877568493150685,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00091785626384445,
      "loss": 1.5531,
      "step": 2870
    },
    {
      "epoch": 0.08778742661448141,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009178254984001969,
      "loss": 2.5679,
      "step": 2871
    },
    {
      "epoch": 0.08781800391389433,
      "grad_norm": 0.361328125,
      "learning_rate": 0.000917794732955944,
      "loss": 2.3248,
      "step": 2872
    },
    {
      "epoch": 0.08784858121330724,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009177639675116909,
      "loss": 2.1809,
      "step": 2873
    },
    {
      "epoch": 0.08787915851272016,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009177332020674379,
      "loss": 2.16,
      "step": 2874
    },
    {
      "epoch": 0.08790973581213307,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009177024366231848,
      "loss": 2.2812,
      "step": 2875
    },
    {
      "epoch": 0.08794031311154599,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009176716711789318,
      "loss": 2.2554,
      "step": 2876
    },
    {
      "epoch": 0.0879708904109589,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009176409057346788,
      "loss": 1.759,
      "step": 2877
    },
    {
      "epoch": 0.08800146771037182,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009176101402904258,
      "loss": 2.0876,
      "step": 2878
    },
    {
      "epoch": 0.08803204500978473,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009175793748461728,
      "loss": 2.1331,
      "step": 2879
    },
    {
      "epoch": 0.08806262230919765,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009175486094019198,
      "loss": 2.4804,
      "step": 2880
    },
    {
      "epoch": 0.08809319960861056,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009175178439576668,
      "loss": 2.2347,
      "step": 2881
    },
    {
      "epoch": 0.08812377690802348,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009174870785134137,
      "loss": 2.2664,
      "step": 2882
    },
    {
      "epoch": 0.0881543542074364,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009174563130691607,
      "loss": 2.2718,
      "step": 2883
    },
    {
      "epoch": 0.08818493150684932,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009174255476249077,
      "loss": 2.2036,
      "step": 2884
    },
    {
      "epoch": 0.08821550880626224,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009173947821806548,
      "loss": 2.5664,
      "step": 2885
    },
    {
      "epoch": 0.08824608610567515,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0009173640167364017,
      "loss": 2.4138,
      "step": 2886
    },
    {
      "epoch": 0.08827666340508807,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009173332512921488,
      "loss": 2.2669,
      "step": 2887
    },
    {
      "epoch": 0.08830724070450098,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009173024858478957,
      "loss": 2.116,
      "step": 2888
    },
    {
      "epoch": 0.0883378180039139,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009172717204036425,
      "loss": 2.323,
      "step": 2889
    },
    {
      "epoch": 0.08836839530332681,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009172409549593896,
      "loss": 2.4081,
      "step": 2890
    },
    {
      "epoch": 0.08839897260273973,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009172101895151366,
      "loss": 2.2866,
      "step": 2891
    },
    {
      "epoch": 0.08842954990215264,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009171794240708836,
      "loss": 1.8994,
      "step": 2892
    },
    {
      "epoch": 0.08846012720156556,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009171486586266306,
      "loss": 1.9016,
      "step": 2893
    },
    {
      "epoch": 0.08849070450097847,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009171178931823776,
      "loss": 2.4325,
      "step": 2894
    },
    {
      "epoch": 0.08852128180039139,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009170871277381246,
      "loss": 2.4549,
      "step": 2895
    },
    {
      "epoch": 0.0885518590998043,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009170563622938715,
      "loss": 2.0446,
      "step": 2896
    },
    {
      "epoch": 0.08858243639921722,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009170255968496185,
      "loss": 2.0687,
      "step": 2897
    },
    {
      "epoch": 0.08861301369863013,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009169948314053655,
      "loss": 2.1854,
      "step": 2898
    },
    {
      "epoch": 0.08864359099804306,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009169640659611125,
      "loss": 2.1028,
      "step": 2899
    },
    {
      "epoch": 0.08867416829745597,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009169333005168595,
      "loss": 2.2069,
      "step": 2900
    },
    {
      "epoch": 0.08870474559686889,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009169025350726065,
      "loss": 2.1141,
      "step": 2901
    },
    {
      "epoch": 0.0887353228962818,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009168717696283535,
      "loss": 2.0564,
      "step": 2902
    },
    {
      "epoch": 0.08876590019569472,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009168410041841004,
      "loss": 2.4714,
      "step": 2903
    },
    {
      "epoch": 0.08879647749510763,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009168102387398473,
      "loss": 1.8829,
      "step": 2904
    },
    {
      "epoch": 0.08882705479452055,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009167794732955944,
      "loss": 2.2776,
      "step": 2905
    },
    {
      "epoch": 0.08885763209393346,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009167487078513413,
      "loss": 2.2798,
      "step": 2906
    },
    {
      "epoch": 0.08888820939334638,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009167179424070884,
      "loss": 2.2123,
      "step": 2907
    },
    {
      "epoch": 0.0889187866927593,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009166871769628353,
      "loss": 2.4464,
      "step": 2908
    },
    {
      "epoch": 0.08894936399217221,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009166564115185824,
      "loss": 2.1771,
      "step": 2909
    },
    {
      "epoch": 0.08897994129158512,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009166256460743292,
      "loss": 1.9165,
      "step": 2910
    },
    {
      "epoch": 0.08901051859099804,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009165948806300763,
      "loss": 2.1799,
      "step": 2911
    },
    {
      "epoch": 0.08904109589041095,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009165641151858233,
      "loss": 2.1583,
      "step": 2912
    },
    {
      "epoch": 0.08907167318982387,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009165333497415703,
      "loss": 2.1369,
      "step": 2913
    },
    {
      "epoch": 0.08910225048923678,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009165025842973173,
      "loss": 2.3052,
      "step": 2914
    },
    {
      "epoch": 0.08913282778864971,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009164718188530643,
      "loss": 2.2358,
      "step": 2915
    },
    {
      "epoch": 0.08916340508806263,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009164410534088113,
      "loss": 1.8622,
      "step": 2916
    },
    {
      "epoch": 0.08919398238747554,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009164102879645583,
      "loss": 2.433,
      "step": 2917
    },
    {
      "epoch": 0.08922455968688846,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009163795225203052,
      "loss": 2.3125,
      "step": 2918
    },
    {
      "epoch": 0.08925513698630137,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009163487570760521,
      "loss": 2.5665,
      "step": 2919
    },
    {
      "epoch": 0.08928571428571429,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009163179916317992,
      "loss": 2.2826,
      "step": 2920
    },
    {
      "epoch": 0.0893162915851272,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009162872261875461,
      "loss": 2.2024,
      "step": 2921
    },
    {
      "epoch": 0.08934686888454012,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009162564607432932,
      "loss": 2.2822,
      "step": 2922
    },
    {
      "epoch": 0.08937744618395303,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009162256952990401,
      "loss": 2.0702,
      "step": 2923
    },
    {
      "epoch": 0.08940802348336595,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009161949298547872,
      "loss": 1.6941,
      "step": 2924
    },
    {
      "epoch": 0.08943860078277886,
      "grad_norm": 0.2734375,
      "learning_rate": 0.000916164164410534,
      "loss": 1.5734,
      "step": 2925
    },
    {
      "epoch": 0.08946917808219178,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009161333989662811,
      "loss": 2.2555,
      "step": 2926
    },
    {
      "epoch": 0.08949975538160469,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000916102633522028,
      "loss": 2.2325,
      "step": 2927
    },
    {
      "epoch": 0.08953033268101761,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009160718680777751,
      "loss": 2.2896,
      "step": 2928
    },
    {
      "epoch": 0.08956090998043052,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000916041102633522,
      "loss": 1.96,
      "step": 2929
    },
    {
      "epoch": 0.08959148727984344,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009160103371892691,
      "loss": 2.2136,
      "step": 2930
    },
    {
      "epoch": 0.08962206457925637,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009159795717450161,
      "loss": 2.028,
      "step": 2931
    },
    {
      "epoch": 0.08965264187866928,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000915948806300763,
      "loss": 2.2965,
      "step": 2932
    },
    {
      "epoch": 0.0896832191780822,
      "grad_norm": 0.296875,
      "learning_rate": 0.00091591804085651,
      "loss": 2.0814,
      "step": 2933
    },
    {
      "epoch": 0.08971379647749511,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000915887275412257,
      "loss": 2.4904,
      "step": 2934
    },
    {
      "epoch": 0.08974437377690803,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000915856509968004,
      "loss": 2.2733,
      "step": 2935
    },
    {
      "epoch": 0.08977495107632094,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009158257445237509,
      "loss": 2.2324,
      "step": 2936
    },
    {
      "epoch": 0.08980552837573386,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000915794979079498,
      "loss": 2.5061,
      "step": 2937
    },
    {
      "epoch": 0.08983610567514677,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009157642136352449,
      "loss": 2.2273,
      "step": 2938
    },
    {
      "epoch": 0.08986668297455969,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009157334481909919,
      "loss": 1.9791,
      "step": 2939
    },
    {
      "epoch": 0.0898972602739726,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009157026827467388,
      "loss": 2.3598,
      "step": 2940
    },
    {
      "epoch": 0.08992783757338552,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009156719173024859,
      "loss": 2.1956,
      "step": 2941
    },
    {
      "epoch": 0.08995841487279843,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009156411518582328,
      "loss": 2.4435,
      "step": 2942
    },
    {
      "epoch": 0.08998899217221135,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009156103864139799,
      "loss": 2.045,
      "step": 2943
    },
    {
      "epoch": 0.09001956947162426,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009155796209697268,
      "loss": 1.9579,
      "step": 2944
    },
    {
      "epoch": 0.09005014677103718,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009155488555254739,
      "loss": 2.0318,
      "step": 2945
    },
    {
      "epoch": 0.09008072407045009,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009155180900812207,
      "loss": 2.3685,
      "step": 2946
    },
    {
      "epoch": 0.09011130136986302,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009154873246369678,
      "loss": 1.6905,
      "step": 2947
    },
    {
      "epoch": 0.09014187866927593,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009154565591927147,
      "loss": 1.8027,
      "step": 2948
    },
    {
      "epoch": 0.09017245596868885,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009154257937484618,
      "loss": 2.3657,
      "step": 2949
    },
    {
      "epoch": 0.09020303326810176,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009153950283042087,
      "loss": 2.24,
      "step": 2950
    },
    {
      "epoch": 0.09023361056751468,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009153642628599557,
      "loss": 1.9846,
      "step": 2951
    },
    {
      "epoch": 0.0902641878669276,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009153334974157028,
      "loss": 1.978,
      "step": 2952
    },
    {
      "epoch": 0.09029476516634051,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009153027319714496,
      "loss": 2.2869,
      "step": 2953
    },
    {
      "epoch": 0.09032534246575342,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009152719665271967,
      "loss": 2.0229,
      "step": 2954
    },
    {
      "epoch": 0.09035591976516634,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009152412010829436,
      "loss": 2.2853,
      "step": 2955
    },
    {
      "epoch": 0.09038649706457925,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009152104356386907,
      "loss": 1.8105,
      "step": 2956
    },
    {
      "epoch": 0.09041707436399217,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009151796701944376,
      "loss": 2.2326,
      "step": 2957
    },
    {
      "epoch": 0.09044765166340508,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009151489047501847,
      "loss": 1.9216,
      "step": 2958
    },
    {
      "epoch": 0.090478228962818,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009151181393059316,
      "loss": 1.8483,
      "step": 2959
    },
    {
      "epoch": 0.09050880626223091,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009150873738616786,
      "loss": 1.9925,
      "step": 2960
    },
    {
      "epoch": 0.09053938356164383,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009150566084174255,
      "loss": 2.3241,
      "step": 2961
    },
    {
      "epoch": 0.09056996086105674,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009150258429731726,
      "loss": 1.8119,
      "step": 2962
    },
    {
      "epoch": 0.09060053816046967,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009149950775289195,
      "loss": 1.9134,
      "step": 2963
    },
    {
      "epoch": 0.09063111545988259,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009149643120846666,
      "loss": 2.3135,
      "step": 2964
    },
    {
      "epoch": 0.0906616927592955,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009149335466404135,
      "loss": 1.9986,
      "step": 2965
    },
    {
      "epoch": 0.09069227005870842,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009149027811961605,
      "loss": 2.4486,
      "step": 2966
    },
    {
      "epoch": 0.09072284735812133,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009148720157519074,
      "loss": 2.0002,
      "step": 2967
    },
    {
      "epoch": 0.09075342465753425,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009148412503076544,
      "loss": 1.8457,
      "step": 2968
    },
    {
      "epoch": 0.09078400195694716,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009148104848634014,
      "loss": 2.3156,
      "step": 2969
    },
    {
      "epoch": 0.09081457925636008,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009147797194191484,
      "loss": 1.8188,
      "step": 2970
    },
    {
      "epoch": 0.090845156555773,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009147489539748954,
      "loss": 1.834,
      "step": 2971
    },
    {
      "epoch": 0.09087573385518591,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009147181885306424,
      "loss": 2.2086,
      "step": 2972
    },
    {
      "epoch": 0.09090631115459882,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009146874230863895,
      "loss": 2.4463,
      "step": 2973
    },
    {
      "epoch": 0.09093688845401174,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009146566576421363,
      "loss": 2.1551,
      "step": 2974
    },
    {
      "epoch": 0.09096746575342465,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009146258921978834,
      "loss": 2.3389,
      "step": 2975
    },
    {
      "epoch": 0.09099804305283757,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009145951267536303,
      "loss": 1.8725,
      "step": 2976
    },
    {
      "epoch": 0.09102862035225048,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009145643613093774,
      "loss": 2.0405,
      "step": 2977
    },
    {
      "epoch": 0.0910591976516634,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009145335958651243,
      "loss": 2.0648,
      "step": 2978
    },
    {
      "epoch": 0.09108977495107633,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009145028304208714,
      "loss": 1.616,
      "step": 2979
    },
    {
      "epoch": 0.09112035225048924,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009144720649766183,
      "loss": 1.9721,
      "step": 2980
    },
    {
      "epoch": 0.09115092954990216,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009144412995323652,
      "loss": 1.987,
      "step": 2981
    },
    {
      "epoch": 0.09118150684931507,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009144105340881122,
      "loss": 2.3439,
      "step": 2982
    },
    {
      "epoch": 0.09121208414872799,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009143797686438592,
      "loss": 2.0935,
      "step": 2983
    },
    {
      "epoch": 0.0912426614481409,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009143490031996062,
      "loss": 2.0585,
      "step": 2984
    },
    {
      "epoch": 0.09127323874755382,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009143182377553532,
      "loss": 2.1395,
      "step": 2985
    },
    {
      "epoch": 0.09130381604696673,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009142874723111002,
      "loss": 2.2459,
      "step": 2986
    },
    {
      "epoch": 0.09133439334637965,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009142567068668472,
      "loss": 2.2778,
      "step": 2987
    },
    {
      "epoch": 0.09136497064579256,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0009142259414225942,
      "loss": 2.1739,
      "step": 2988
    },
    {
      "epoch": 0.09139554794520548,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009141951759783411,
      "loss": 2.587,
      "step": 2989
    },
    {
      "epoch": 0.09142612524461839,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009141644105340881,
      "loss": 1.8243,
      "step": 2990
    },
    {
      "epoch": 0.09145670254403131,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009141336450898351,
      "loss": 1.8468,
      "step": 2991
    },
    {
      "epoch": 0.09148727984344422,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009141028796455821,
      "loss": 2.197,
      "step": 2992
    },
    {
      "epoch": 0.09151785714285714,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009140721142013291,
      "loss": 1.917,
      "step": 2993
    },
    {
      "epoch": 0.09154843444227005,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009140413487570762,
      "loss": 1.7854,
      "step": 2994
    },
    {
      "epoch": 0.09157901174168298,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009140105833128231,
      "loss": 2.1594,
      "step": 2995
    },
    {
      "epoch": 0.0916095890410959,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009139798178685701,
      "loss": 1.9861,
      "step": 2996
    },
    {
      "epoch": 0.09164016634050881,
      "grad_norm": 0.279296875,
      "learning_rate": 0.000913949052424317,
      "loss": 1.8341,
      "step": 2997
    },
    {
      "epoch": 0.09167074363992173,
      "grad_norm": 0.26953125,
      "learning_rate": 0.000913918286980064,
      "loss": 1.7367,
      "step": 2998
    },
    {
      "epoch": 0.09170132093933464,
      "grad_norm": 0.3125,
      "learning_rate": 0.000913887521535811,
      "loss": 2.3482,
      "step": 2999
    },
    {
      "epoch": 0.09173189823874756,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000913856756091558,
      "loss": 2.0188,
      "step": 3000
    },
    {
      "epoch": 0.09173189823874756,
      "eval_loss": 1.696686863899231,
      "eval_runtime": 68.082,
      "eval_samples_per_second": 13.161,
      "eval_steps_per_second": 0.411,
      "step": 3000
    },
    {
      "epoch": 0.09173189823874756,
      "eval/hellaswag_acc": 0.3752240589523999,
      "eval/hellaswag_acc_norm": 0.46992630950009956,
      "eval_hellaswag_elapsed_time": 353.93033242225647,
      "step": 3000
    },
    {
      "epoch": 0.09176247553816047,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000913825990647305,
      "loss": 2.2816,
      "step": 3001
    },
    {
      "epoch": 0.09179305283757339,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000913795225203052,
      "loss": 2.2917,
      "step": 3002
    },
    {
      "epoch": 0.0918236301369863,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009137644597587989,
      "loss": 2.5467,
      "step": 3003
    },
    {
      "epoch": 0.09185420743639922,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009137336943145459,
      "loss": 2.1602,
      "step": 3004
    },
    {
      "epoch": 0.09188478473581213,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009137029288702929,
      "loss": 2.1108,
      "step": 3005
    },
    {
      "epoch": 0.09191536203522505,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009136721634260399,
      "loss": 2.1245,
      "step": 3006
    },
    {
      "epoch": 0.09194593933463796,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009136413979817869,
      "loss": 2.2054,
      "step": 3007
    },
    {
      "epoch": 0.09197651663405088,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009136106325375339,
      "loss": 2.1179,
      "step": 3008
    },
    {
      "epoch": 0.09200709393346379,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009135798670932809,
      "loss": 2.3268,
      "step": 3009
    },
    {
      "epoch": 0.0920376712328767,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009135491016490278,
      "loss": 2.0727,
      "step": 3010
    },
    {
      "epoch": 0.09206824853228963,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009135183362047748,
      "loss": 2.1851,
      "step": 3011
    },
    {
      "epoch": 0.09209882583170255,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009134875707605218,
      "loss": 2.0895,
      "step": 3012
    },
    {
      "epoch": 0.09212940313111546,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009134568053162687,
      "loss": 1.9478,
      "step": 3013
    },
    {
      "epoch": 0.09215998043052838,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009134260398720158,
      "loss": 2.3669,
      "step": 3014
    },
    {
      "epoch": 0.0921905577299413,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009133952744277627,
      "loss": 2.3074,
      "step": 3015
    },
    {
      "epoch": 0.09222113502935421,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009133645089835098,
      "loss": 2.0784,
      "step": 3016
    },
    {
      "epoch": 0.09225171232876712,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009133337435392566,
      "loss": 2.077,
      "step": 3017
    },
    {
      "epoch": 0.09228228962818004,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009133029780950037,
      "loss": 1.8295,
      "step": 3018
    },
    {
      "epoch": 0.09231286692759295,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009132722126507507,
      "loss": 1.7471,
      "step": 3019
    },
    {
      "epoch": 0.09234344422700587,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009132414472064977,
      "loss": 1.8864,
      "step": 3020
    },
    {
      "epoch": 0.09237402152641878,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009132106817622447,
      "loss": 2.2579,
      "step": 3021
    },
    {
      "epoch": 0.0924045988258317,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009131799163179917,
      "loss": 2.5996,
      "step": 3022
    },
    {
      "epoch": 0.09243517612524461,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009131491508737387,
      "loss": 2.1735,
      "step": 3023
    },
    {
      "epoch": 0.09246575342465753,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009131183854294856,
      "loss": 1.9322,
      "step": 3024
    },
    {
      "epoch": 0.09249633072407044,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009130876199852326,
      "loss": 2.2172,
      "step": 3025
    },
    {
      "epoch": 0.09252690802348336,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009130568545409796,
      "loss": 2.5455,
      "step": 3026
    },
    {
      "epoch": 0.09255748532289629,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009130260890967266,
      "loss": 2.4875,
      "step": 3027
    },
    {
      "epoch": 0.0925880626223092,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009129953236524735,
      "loss": 2.0048,
      "step": 3028
    },
    {
      "epoch": 0.09261863992172212,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009129645582082206,
      "loss": 2.3094,
      "step": 3029
    },
    {
      "epoch": 0.09264921722113503,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009129337927639675,
      "loss": 2.3795,
      "step": 3030
    },
    {
      "epoch": 0.09267979452054795,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009129030273197145,
      "loss": 2.347,
      "step": 3031
    },
    {
      "epoch": 0.09271037181996086,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009128722618754614,
      "loss": 2.218,
      "step": 3032
    },
    {
      "epoch": 0.09274094911937378,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009128414964312085,
      "loss": 2.1931,
      "step": 3033
    },
    {
      "epoch": 0.09277152641878669,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009128107309869554,
      "loss": 2.1278,
      "step": 3034
    },
    {
      "epoch": 0.09280210371819961,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009127799655427025,
      "loss": 1.9519,
      "step": 3035
    },
    {
      "epoch": 0.09283268101761252,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009127492000984494,
      "loss": 2.3263,
      "step": 3036
    },
    {
      "epoch": 0.09286325831702544,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009127184346541965,
      "loss": 1.6164,
      "step": 3037
    },
    {
      "epoch": 0.09289383561643835,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009126876692099433,
      "loss": 2.3815,
      "step": 3038
    },
    {
      "epoch": 0.09292441291585127,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009126569037656904,
      "loss": 1.8762,
      "step": 3039
    },
    {
      "epoch": 0.09295499021526418,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009126261383214374,
      "loss": 2.1632,
      "step": 3040
    },
    {
      "epoch": 0.0929855675146771,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009125953728771844,
      "loss": 2.4467,
      "step": 3041
    },
    {
      "epoch": 0.09301614481409001,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009125646074329314,
      "loss": 1.7732,
      "step": 3042
    },
    {
      "epoch": 0.09304672211350294,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009125338419886783,
      "loss": 2.1251,
      "step": 3043
    },
    {
      "epoch": 0.09307729941291586,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009125030765444254,
      "loss": 1.9772,
      "step": 3044
    },
    {
      "epoch": 0.09310787671232877,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009124723111001722,
      "loss": 2.2542,
      "step": 3045
    },
    {
      "epoch": 0.09313845401174169,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009124415456559193,
      "loss": 1.8723,
      "step": 3046
    },
    {
      "epoch": 0.0931690313111546,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009124107802116662,
      "loss": 2.0501,
      "step": 3047
    },
    {
      "epoch": 0.09319960861056752,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009123800147674133,
      "loss": 2.0312,
      "step": 3048
    },
    {
      "epoch": 0.09323018590998043,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009123492493231602,
      "loss": 2.6317,
      "step": 3049
    },
    {
      "epoch": 0.09326076320939335,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009123184838789073,
      "loss": 1.9095,
      "step": 3050
    },
    {
      "epoch": 0.09329134050880626,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009122877184346542,
      "loss": 2.3181,
      "step": 3051
    },
    {
      "epoch": 0.09332191780821918,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009122569529904012,
      "loss": 2.2309,
      "step": 3052
    },
    {
      "epoch": 0.09335249510763209,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009122261875461481,
      "loss": 2.3216,
      "step": 3053
    },
    {
      "epoch": 0.093383072407045,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009121954221018952,
      "loss": 2.0003,
      "step": 3054
    },
    {
      "epoch": 0.09341364970645792,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009121646566576421,
      "loss": 2.1356,
      "step": 3055
    },
    {
      "epoch": 0.09344422700587084,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009121338912133892,
      "loss": 1.8571,
      "step": 3056
    },
    {
      "epoch": 0.09347480430528375,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009121031257691361,
      "loss": 2.3802,
      "step": 3057
    },
    {
      "epoch": 0.09350538160469667,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009120723603248832,
      "loss": 2.4352,
      "step": 3058
    },
    {
      "epoch": 0.0935359589041096,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009120415948806302,
      "loss": 2.4501,
      "step": 3059
    },
    {
      "epoch": 0.09356653620352251,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000912010829436377,
      "loss": 1.8374,
      "step": 3060
    },
    {
      "epoch": 0.09359711350293543,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000911980063992124,
      "loss": 1.9296,
      "step": 3061
    },
    {
      "epoch": 0.09362769080234834,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000911949298547871,
      "loss": 1.9011,
      "step": 3062
    },
    {
      "epoch": 0.09365826810176126,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0009119185331036181,
      "loss": 2.5279,
      "step": 3063
    },
    {
      "epoch": 0.09368884540117417,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000911887767659365,
      "loss": 2.0369,
      "step": 3064
    },
    {
      "epoch": 0.09371942270058709,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009118570022151121,
      "loss": 2.0725,
      "step": 3065
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000911826236770859,
      "loss": 2.0373,
      "step": 3066
    },
    {
      "epoch": 0.09378057729941291,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000911795471326606,
      "loss": 2.137,
      "step": 3067
    },
    {
      "epoch": 0.09381115459882583,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009117647058823529,
      "loss": 2.3597,
      "step": 3068
    },
    {
      "epoch": 0.09384173189823874,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009117339404381,
      "loss": 1.9781,
      "step": 3069
    },
    {
      "epoch": 0.09387230919765166,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009117031749938469,
      "loss": 1.8639,
      "step": 3070
    },
    {
      "epoch": 0.09390288649706457,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000911672409549594,
      "loss": 2.1783,
      "step": 3071
    },
    {
      "epoch": 0.09393346379647749,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009116416441053409,
      "loss": 1.9403,
      "step": 3072
    },
    {
      "epoch": 0.0939640410958904,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000911610878661088,
      "loss": 2.0923,
      "step": 3073
    },
    {
      "epoch": 0.09399461839530333,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009115801132168348,
      "loss": 1.7524,
      "step": 3074
    },
    {
      "epoch": 0.09402519569471625,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009115493477725818,
      "loss": 2.1765,
      "step": 3075
    },
    {
      "epoch": 0.09405577299412916,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009115185823283288,
      "loss": 1.9744,
      "step": 3076
    },
    {
      "epoch": 0.09408635029354208,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009114878168840758,
      "loss": 2.4489,
      "step": 3077
    },
    {
      "epoch": 0.094116927592955,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009114570514398228,
      "loss": 2.2795,
      "step": 3078
    },
    {
      "epoch": 0.09414750489236791,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009114262859955698,
      "loss": 2.0055,
      "step": 3079
    },
    {
      "epoch": 0.09417808219178082,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009113955205513169,
      "loss": 2.6629,
      "step": 3080
    },
    {
      "epoch": 0.09420865949119374,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009113647551070637,
      "loss": 2.0098,
      "step": 3081
    },
    {
      "epoch": 0.09423923679060665,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009113339896628108,
      "loss": 1.9793,
      "step": 3082
    },
    {
      "epoch": 0.09426981409001957,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009113032242185577,
      "loss": 1.9181,
      "step": 3083
    },
    {
      "epoch": 0.09430039138943248,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009112724587743048,
      "loss": 1.61,
      "step": 3084
    },
    {
      "epoch": 0.0943309686888454,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009112416933300517,
      "loss": 2.0856,
      "step": 3085
    },
    {
      "epoch": 0.09436154598825831,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009112109278857988,
      "loss": 2.3653,
      "step": 3086
    },
    {
      "epoch": 0.09439212328767123,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009111801624415457,
      "loss": 2.4951,
      "step": 3087
    },
    {
      "epoch": 0.09442270058708414,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009111493969972927,
      "loss": 2.0957,
      "step": 3088
    },
    {
      "epoch": 0.09445327788649706,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009111186315530396,
      "loss": 2.0005,
      "step": 3089
    },
    {
      "epoch": 0.09448385518590999,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009110878661087866,
      "loss": 1.9282,
      "step": 3090
    },
    {
      "epoch": 0.0945144324853229,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009110571006645336,
      "loss": 1.6632,
      "step": 3091
    },
    {
      "epoch": 0.09454500978473582,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009110263352202806,
      "loss": 2.3704,
      "step": 3092
    },
    {
      "epoch": 0.09457558708414873,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009109955697760276,
      "loss": 2.3946,
      "step": 3093
    },
    {
      "epoch": 0.09460616438356165,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009109648043317746,
      "loss": 1.6987,
      "step": 3094
    },
    {
      "epoch": 0.09463674168297456,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009109340388875215,
      "loss": 2.2529,
      "step": 3095
    },
    {
      "epoch": 0.09466731898238748,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009109032734432685,
      "loss": 2.2537,
      "step": 3096
    },
    {
      "epoch": 0.09469789628180039,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009108725079990155,
      "loss": 2.1529,
      "step": 3097
    },
    {
      "epoch": 0.09472847358121331,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009108417425547625,
      "loss": 2.4192,
      "step": 3098
    },
    {
      "epoch": 0.09475905088062622,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009108109771105095,
      "loss": 1.9589,
      "step": 3099
    },
    {
      "epoch": 0.09478962818003914,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009107802116662565,
      "loss": 2.244,
      "step": 3100
    },
    {
      "epoch": 0.09482020547945205,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009107494462220036,
      "loss": 1.5407,
      "step": 3101
    },
    {
      "epoch": 0.09485078277886497,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009107186807777504,
      "loss": 2.3961,
      "step": 3102
    },
    {
      "epoch": 0.09488136007827788,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009106879153334975,
      "loss": 2.0633,
      "step": 3103
    },
    {
      "epoch": 0.0949119373776908,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009106571498892444,
      "loss": 1.6617,
      "step": 3104
    },
    {
      "epoch": 0.09494251467710371,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009106263844449913,
      "loss": 1.8587,
      "step": 3105
    },
    {
      "epoch": 0.09497309197651664,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009105956190007384,
      "loss": 2.2548,
      "step": 3106
    },
    {
      "epoch": 0.09500366927592956,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009105648535564854,
      "loss": 2.2658,
      "step": 3107
    },
    {
      "epoch": 0.09503424657534247,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009105340881122324,
      "loss": 2.2954,
      "step": 3108
    },
    {
      "epoch": 0.09506482387475539,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009105033226679793,
      "loss": 2.2226,
      "step": 3109
    },
    {
      "epoch": 0.0950954011741683,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009104725572237263,
      "loss": 2.3088,
      "step": 3110
    },
    {
      "epoch": 0.09512597847358122,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009104417917794733,
      "loss": 2.5078,
      "step": 3111
    },
    {
      "epoch": 0.09515655577299413,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009104110263352203,
      "loss": 1.8983,
      "step": 3112
    },
    {
      "epoch": 0.09518713307240705,
      "grad_norm": 0.26171875,
      "learning_rate": 0.0009103802608909673,
      "loss": 1.6521,
      "step": 3113
    },
    {
      "epoch": 0.09521771037181996,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009103494954467143,
      "loss": 2.0181,
      "step": 3114
    },
    {
      "epoch": 0.09524828767123288,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009103187300024613,
      "loss": 2.2662,
      "step": 3115
    },
    {
      "epoch": 0.09527886497064579,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009102879645582082,
      "loss": 1.8735,
      "step": 3116
    },
    {
      "epoch": 0.0953094422700587,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009102571991139552,
      "loss": 2.2564,
      "step": 3117
    },
    {
      "epoch": 0.09534001956947162,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009102264336697022,
      "loss": 2.1737,
      "step": 3118
    },
    {
      "epoch": 0.09537059686888454,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009101956682254492,
      "loss": 2.5505,
      "step": 3119
    },
    {
      "epoch": 0.09540117416829745,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0009101649027811961,
      "loss": 2.464,
      "step": 3120
    },
    {
      "epoch": 0.09543175146771037,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009101341373369432,
      "loss": 2.3488,
      "step": 3121
    },
    {
      "epoch": 0.0954623287671233,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009101033718926901,
      "loss": 2.0402,
      "step": 3122
    },
    {
      "epoch": 0.09549290606653621,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009100726064484371,
      "loss": 2.0157,
      "step": 3123
    },
    {
      "epoch": 0.09552348336594912,
      "grad_norm": 0.330078125,
      "learning_rate": 0.000910041841004184,
      "loss": 2.4002,
      "step": 3124
    },
    {
      "epoch": 0.09555406066536204,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009100110755599311,
      "loss": 1.9433,
      "step": 3125
    },
    {
      "epoch": 0.09558463796477495,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000909980310115678,
      "loss": 2.2286,
      "step": 3126
    },
    {
      "epoch": 0.09561521526418787,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009099495446714251,
      "loss": 1.8851,
      "step": 3127
    },
    {
      "epoch": 0.09564579256360078,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009099187792271721,
      "loss": 2.164,
      "step": 3128
    },
    {
      "epoch": 0.0956763698630137,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009098880137829191,
      "loss": 2.1451,
      "step": 3129
    },
    {
      "epoch": 0.09570694716242661,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0009098572483386661,
      "loss": 2.3594,
      "step": 3130
    },
    {
      "epoch": 0.09573752446183953,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000909826482894413,
      "loss": 2.2903,
      "step": 3131
    },
    {
      "epoch": 0.09576810176125244,
      "grad_norm": 0.29296875,
      "learning_rate": 0.00090979571745016,
      "loss": 2.0749,
      "step": 3132
    },
    {
      "epoch": 0.09579867906066536,
      "grad_norm": 0.349609375,
      "learning_rate": 0.000909764952005907,
      "loss": 2.5624,
      "step": 3133
    },
    {
      "epoch": 0.09582925636007827,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000909734186561654,
      "loss": 1.9404,
      "step": 3134
    },
    {
      "epoch": 0.09585983365949119,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000909703421117401,
      "loss": 2.2739,
      "step": 3135
    },
    {
      "epoch": 0.0958904109589041,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000909672655673148,
      "loss": 1.9694,
      "step": 3136
    },
    {
      "epoch": 0.09592098825831702,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009096418902288949,
      "loss": 1.8919,
      "step": 3137
    },
    {
      "epoch": 0.09595156555772995,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009096111247846419,
      "loss": 2.07,
      "step": 3138
    },
    {
      "epoch": 0.09598214285714286,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009095803593403888,
      "loss": 2.1207,
      "step": 3139
    },
    {
      "epoch": 0.09601272015655578,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009095495938961359,
      "loss": 1.9836,
      "step": 3140
    },
    {
      "epoch": 0.09604329745596869,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009095188284518828,
      "loss": 2.7889,
      "step": 3141
    },
    {
      "epoch": 0.09607387475538161,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009094880630076299,
      "loss": 2.0242,
      "step": 3142
    },
    {
      "epoch": 0.09610445205479452,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009094572975633768,
      "loss": 2.4095,
      "step": 3143
    },
    {
      "epoch": 0.09613502935420744,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009094265321191239,
      "loss": 1.7428,
      "step": 3144
    },
    {
      "epoch": 0.09616560665362035,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009093957666748707,
      "loss": 1.598,
      "step": 3145
    },
    {
      "epoch": 0.09619618395303327,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009093650012306178,
      "loss": 1.8274,
      "step": 3146
    },
    {
      "epoch": 0.09622676125244618,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009093342357863647,
      "loss": 2.0717,
      "step": 3147
    },
    {
      "epoch": 0.0962573385518591,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009093034703421118,
      "loss": 2.1335,
      "step": 3148
    },
    {
      "epoch": 0.09628791585127201,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009092727048978588,
      "loss": 1.8541,
      "step": 3149
    },
    {
      "epoch": 0.09631849315068493,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009092419394536058,
      "loss": 2.2084,
      "step": 3150
    },
    {
      "epoch": 0.09634907045009784,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009092111740093528,
      "loss": 2.1761,
      "step": 3151
    },
    {
      "epoch": 0.09637964774951076,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009091804085650996,
      "loss": 1.964,
      "step": 3152
    },
    {
      "epoch": 0.09641022504892367,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009091496431208467,
      "loss": 2.5439,
      "step": 3153
    },
    {
      "epoch": 0.0964408023483366,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009091188776765936,
      "loss": 2.025,
      "step": 3154
    },
    {
      "epoch": 0.09647137964774952,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009090881122323407,
      "loss": 2.2243,
      "step": 3155
    },
    {
      "epoch": 0.09650195694716243,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009090573467880876,
      "loss": 2.3101,
      "step": 3156
    },
    {
      "epoch": 0.09653253424657535,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009090265813438347,
      "loss": 1.8955,
      "step": 3157
    },
    {
      "epoch": 0.09656311154598826,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009089958158995816,
      "loss": 2.2905,
      "step": 3158
    },
    {
      "epoch": 0.09659368884540118,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009089650504553286,
      "loss": 2.5151,
      "step": 3159
    },
    {
      "epoch": 0.09662426614481409,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009089342850110755,
      "loss": 2.1473,
      "step": 3160
    },
    {
      "epoch": 0.096654843444227,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009089035195668226,
      "loss": 2.1257,
      "step": 3161
    },
    {
      "epoch": 0.09668542074363992,
      "grad_norm": 0.251953125,
      "learning_rate": 0.0009088727541225695,
      "loss": 1.4334,
      "step": 3162
    },
    {
      "epoch": 0.09671599804305284,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009088419886783166,
      "loss": 1.7638,
      "step": 3163
    },
    {
      "epoch": 0.09674657534246575,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009088112232340635,
      "loss": 1.8234,
      "step": 3164
    },
    {
      "epoch": 0.09677715264187867,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009087804577898106,
      "loss": 2.3206,
      "step": 3165
    },
    {
      "epoch": 0.09680772994129158,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009087496923455574,
      "loss": 2.1587,
      "step": 3166
    },
    {
      "epoch": 0.0968383072407045,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009087189269013044,
      "loss": 2.3271,
      "step": 3167
    },
    {
      "epoch": 0.09686888454011741,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009086881614570514,
      "loss": 2.1917,
      "step": 3168
    },
    {
      "epoch": 0.09689946183953033,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009086573960127984,
      "loss": 2.1894,
      "step": 3169
    },
    {
      "epoch": 0.09693003913894326,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009086266305685455,
      "loss": 2.1424,
      "step": 3170
    },
    {
      "epoch": 0.09696061643835617,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009085958651242924,
      "loss": 2.5517,
      "step": 3171
    },
    {
      "epoch": 0.09699119373776909,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009085650996800395,
      "loss": 2.0541,
      "step": 3172
    },
    {
      "epoch": 0.097021771037182,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009085343342357863,
      "loss": 1.9257,
      "step": 3173
    },
    {
      "epoch": 0.09705234833659492,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009085035687915334,
      "loss": 2.2613,
      "step": 3174
    },
    {
      "epoch": 0.09708292563600783,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009084728033472803,
      "loss": 2.3452,
      "step": 3175
    },
    {
      "epoch": 0.09711350293542075,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009084420379030274,
      "loss": 1.9567,
      "step": 3176
    },
    {
      "epoch": 0.09714408023483366,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009084112724587743,
      "loss": 2.1333,
      "step": 3177
    },
    {
      "epoch": 0.09717465753424658,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009083805070145214,
      "loss": 2.4447,
      "step": 3178
    },
    {
      "epoch": 0.09720523483365949,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009083497415702683,
      "loss": 2.4398,
      "step": 3179
    },
    {
      "epoch": 0.0972358121330724,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009083189761260153,
      "loss": 2.3473,
      "step": 3180
    },
    {
      "epoch": 0.09726638943248532,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009082882106817622,
      "loss": 2.1317,
      "step": 3181
    },
    {
      "epoch": 0.09729696673189824,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009082574452375092,
      "loss": 2.1717,
      "step": 3182
    },
    {
      "epoch": 0.09732754403131115,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009082266797932562,
      "loss": 2.3855,
      "step": 3183
    },
    {
      "epoch": 0.09735812133072407,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009081959143490032,
      "loss": 1.5539,
      "step": 3184
    },
    {
      "epoch": 0.09738869863013698,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009081651489047502,
      "loss": 1.9252,
      "step": 3185
    },
    {
      "epoch": 0.09741927592954991,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009081343834604972,
      "loss": 1.9187,
      "step": 3186
    },
    {
      "epoch": 0.09744985322896282,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009081036180162441,
      "loss": 2.447,
      "step": 3187
    },
    {
      "epoch": 0.09748043052837574,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009080728525719911,
      "loss": 1.7832,
      "step": 3188
    },
    {
      "epoch": 0.09751100782778865,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009080420871277381,
      "loss": 2.279,
      "step": 3189
    },
    {
      "epoch": 0.09754158512720157,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009080113216834851,
      "loss": 2.1294,
      "step": 3190
    },
    {
      "epoch": 0.09757216242661448,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009079805562392322,
      "loss": 1.7615,
      "step": 3191
    },
    {
      "epoch": 0.0976027397260274,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009079497907949791,
      "loss": 2.248,
      "step": 3192
    },
    {
      "epoch": 0.09763331702544031,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009079190253507262,
      "loss": 1.5649,
      "step": 3193
    },
    {
      "epoch": 0.09766389432485323,
      "grad_norm": 0.275390625,
      "learning_rate": 0.000907888259906473,
      "loss": 1.5435,
      "step": 3194
    },
    {
      "epoch": 0.09769447162426614,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009078574944622201,
      "loss": 2.168,
      "step": 3195
    },
    {
      "epoch": 0.09772504892367906,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000907826729017967,
      "loss": 2.4182,
      "step": 3196
    },
    {
      "epoch": 0.09775562622309197,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0009077959635737141,
      "loss": 1.6815,
      "step": 3197
    },
    {
      "epoch": 0.09778620352250489,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000907765198129461,
      "loss": 2.0209,
      "step": 3198
    },
    {
      "epoch": 0.0978167808219178,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000907734432685208,
      "loss": 2.3519,
      "step": 3199
    },
    {
      "epoch": 0.09784735812133072,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000907703667240955,
      "loss": 2.2569,
      "step": 3200
    },
    {
      "epoch": 0.09787793542074363,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000907672901796702,
      "loss": 2.0623,
      "step": 3201
    },
    {
      "epoch": 0.09790851272015656,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009076421363524489,
      "loss": 1.9232,
      "step": 3202
    },
    {
      "epoch": 0.09793909001956948,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009076113709081959,
      "loss": 2.2714,
      "step": 3203
    },
    {
      "epoch": 0.09796966731898239,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009075806054639429,
      "loss": 2.1088,
      "step": 3204
    },
    {
      "epoch": 0.09800024461839531,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009075498400196899,
      "loss": 2.3182,
      "step": 3205
    },
    {
      "epoch": 0.09803082191780822,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009075190745754369,
      "loss": 2.207,
      "step": 3206
    },
    {
      "epoch": 0.09806139921722114,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009074883091311839,
      "loss": 1.8849,
      "step": 3207
    },
    {
      "epoch": 0.09809197651663405,
      "grad_norm": 0.3125,
      "learning_rate": 0.000907457543686931,
      "loss": 2.2724,
      "step": 3208
    },
    {
      "epoch": 0.09812255381604697,
      "grad_norm": 0.265625,
      "learning_rate": 0.0009074267782426778,
      "loss": 1.4086,
      "step": 3209
    },
    {
      "epoch": 0.09815313111545988,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009073960127984248,
      "loss": 1.9675,
      "step": 3210
    },
    {
      "epoch": 0.0981837084148728,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009073652473541718,
      "loss": 1.9532,
      "step": 3211
    },
    {
      "epoch": 0.09821428571428571,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009073344819099189,
      "loss": 2.1915,
      "step": 3212
    },
    {
      "epoch": 0.09824486301369863,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009073037164656658,
      "loss": 2.1781,
      "step": 3213
    },
    {
      "epoch": 0.09827544031311154,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009072729510214128,
      "loss": 2.248,
      "step": 3214
    },
    {
      "epoch": 0.09830601761252446,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009072421855771598,
      "loss": 1.8837,
      "step": 3215
    },
    {
      "epoch": 0.09833659491193737,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009072114201329067,
      "loss": 1.9572,
      "step": 3216
    },
    {
      "epoch": 0.09836717221135029,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009071806546886537,
      "loss": 1.8616,
      "step": 3217
    },
    {
      "epoch": 0.09839774951076322,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009071498892444007,
      "loss": 2.097,
      "step": 3218
    },
    {
      "epoch": 0.09842832681017613,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009071191238001477,
      "loss": 1.9421,
      "step": 3219
    },
    {
      "epoch": 0.09845890410958905,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009070883583558947,
      "loss": 2.2977,
      "step": 3220
    },
    {
      "epoch": 0.09848948140900196,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009070575929116417,
      "loss": 2.1506,
      "step": 3221
    },
    {
      "epoch": 0.09852005870841488,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009070268274673887,
      "loss": 1.8312,
      "step": 3222
    },
    {
      "epoch": 0.09855063600782779,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009069960620231356,
      "loss": 2.2268,
      "step": 3223
    },
    {
      "epoch": 0.0985812133072407,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009069652965788826,
      "loss": 2.0321,
      "step": 3224
    },
    {
      "epoch": 0.09861179060665362,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009069345311346296,
      "loss": 2.2088,
      "step": 3225
    },
    {
      "epoch": 0.09864236790606654,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009069037656903766,
      "loss": 2.2314,
      "step": 3226
    },
    {
      "epoch": 0.09867294520547945,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009068730002461236,
      "loss": 1.9866,
      "step": 3227
    },
    {
      "epoch": 0.09870352250489237,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0009068422348018706,
      "loss": 2.5809,
      "step": 3228
    },
    {
      "epoch": 0.09873409980430528,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009068114693576175,
      "loss": 2.257,
      "step": 3229
    },
    {
      "epoch": 0.0987646771037182,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009067807039133645,
      "loss": 2.3627,
      "step": 3230
    },
    {
      "epoch": 0.09879525440313111,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009067499384691114,
      "loss": 2.1901,
      "step": 3231
    },
    {
      "epoch": 0.09882583170254403,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009067191730248585,
      "loss": 2.2608,
      "step": 3232
    },
    {
      "epoch": 0.09885640900195694,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009066884075806054,
      "loss": 2.2129,
      "step": 3233
    },
    {
      "epoch": 0.09888698630136987,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009066576421363525,
      "loss": 1.9752,
      "step": 3234
    },
    {
      "epoch": 0.09891756360078278,
      "grad_norm": 0.421875,
      "learning_rate": 0.0009066268766920995,
      "loss": 2.5485,
      "step": 3235
    },
    {
      "epoch": 0.0989481409001957,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009065961112478465,
      "loss": 1.7176,
      "step": 3236
    },
    {
      "epoch": 0.09897871819960861,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009065653458035934,
      "loss": 1.75,
      "step": 3237
    },
    {
      "epoch": 0.09900929549902153,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009065345803593404,
      "loss": 2.3777,
      "step": 3238
    },
    {
      "epoch": 0.09903987279843444,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009065038149150874,
      "loss": 2.442,
      "step": 3239
    },
    {
      "epoch": 0.09907045009784736,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009064730494708344,
      "loss": 2.2974,
      "step": 3240
    },
    {
      "epoch": 0.09910102739726027,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0009064422840265814,
      "loss": 2.415,
      "step": 3241
    },
    {
      "epoch": 0.09913160469667319,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009064115185823284,
      "loss": 2.0722,
      "step": 3242
    },
    {
      "epoch": 0.0991621819960861,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009063807531380754,
      "loss": 2.0965,
      "step": 3243
    },
    {
      "epoch": 0.09919275929549902,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009063499876938222,
      "loss": 2.3118,
      "step": 3244
    },
    {
      "epoch": 0.09922333659491193,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009063192222495693,
      "loss": 2.4118,
      "step": 3245
    },
    {
      "epoch": 0.09925391389432485,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009062884568053162,
      "loss": 2.1506,
      "step": 3246
    },
    {
      "epoch": 0.09928449119373776,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009062576913610633,
      "loss": 2.4404,
      "step": 3247
    },
    {
      "epoch": 0.09931506849315068,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009062269259168102,
      "loss": 2.0941,
      "step": 3248
    },
    {
      "epoch": 0.0993456457925636,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009061961604725573,
      "loss": 2.1025,
      "step": 3249
    },
    {
      "epoch": 0.09937622309197652,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009061653950283042,
      "loss": 2.2645,
      "step": 3250
    },
    {
      "epoch": 0.09940680039138944,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009061346295840512,
      "loss": 2.0167,
      "step": 3251
    },
    {
      "epoch": 0.09943737769080235,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009061038641397981,
      "loss": 2.2706,
      "step": 3252
    },
    {
      "epoch": 0.09946795499021527,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009060730986955452,
      "loss": 2.2426,
      "step": 3253
    },
    {
      "epoch": 0.09949853228962818,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009060423332512921,
      "loss": 2.099,
      "step": 3254
    },
    {
      "epoch": 0.0995291095890411,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009060115678070392,
      "loss": 2.0678,
      "step": 3255
    },
    {
      "epoch": 0.09955968688845401,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009059808023627862,
      "loss": 1.7586,
      "step": 3256
    },
    {
      "epoch": 0.09959026418786693,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0009059500369185332,
      "loss": 2.5535,
      "step": 3257
    },
    {
      "epoch": 0.09962084148727984,
      "grad_norm": 0.31640625,
      "learning_rate": 0.00090591927147428,
      "loss": 2.2959,
      "step": 3258
    },
    {
      "epoch": 0.09965141878669276,
      "grad_norm": 0.283203125,
      "learning_rate": 0.000905888506030027,
      "loss": 1.8079,
      "step": 3259
    },
    {
      "epoch": 0.09968199608610567,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009058577405857741,
      "loss": 1.827,
      "step": 3260
    },
    {
      "epoch": 0.09971257338551859,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000905826975141521,
      "loss": 2.1845,
      "step": 3261
    },
    {
      "epoch": 0.0997431506849315,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009057962096972681,
      "loss": 2.3757,
      "step": 3262
    },
    {
      "epoch": 0.09977372798434442,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000905765444253015,
      "loss": 2.2768,
      "step": 3263
    },
    {
      "epoch": 0.09980430528375733,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009057346788087621,
      "loss": 2.2324,
      "step": 3264
    },
    {
      "epoch": 0.09983488258317025,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009057039133645089,
      "loss": 2.1747,
      "step": 3265
    },
    {
      "epoch": 0.09986545988258318,
      "grad_norm": 0.287109375,
      "learning_rate": 0.000905673147920256,
      "loss": 1.8575,
      "step": 3266
    },
    {
      "epoch": 0.09989603718199609,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009056423824760029,
      "loss": 2.198,
      "step": 3267
    },
    {
      "epoch": 0.099926614481409,
      "grad_norm": 0.296875,
      "learning_rate": 0.00090561161703175,
      "loss": 2.0015,
      "step": 3268
    },
    {
      "epoch": 0.09995719178082192,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009055808515874969,
      "loss": 2.0911,
      "step": 3269
    },
    {
      "epoch": 0.09998776908023484,
      "grad_norm": 0.28125,
      "learning_rate": 0.000905550086143244,
      "loss": 1.79,
      "step": 3270
    },
    {
      "epoch": 0.10001834637964775,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0009055193206989909,
      "loss": 2.3011,
      "step": 3271
    },
    {
      "epoch": 0.10004892367906067,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000905488555254738,
      "loss": 2.1313,
      "step": 3272
    },
    {
      "epoch": 0.10007950097847358,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009054577898104848,
      "loss": 1.7877,
      "step": 3273
    },
    {
      "epoch": 0.1001100782778865,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0009054270243662319,
      "loss": 2.1811,
      "step": 3274
    },
    {
      "epoch": 0.10014065557729941,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009053962589219788,
      "loss": 2.0946,
      "step": 3275
    },
    {
      "epoch": 0.10017123287671233,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009053654934777258,
      "loss": 2.0903,
      "step": 3276
    },
    {
      "epoch": 0.10020181017612524,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009053347280334729,
      "loss": 2.1904,
      "step": 3277
    },
    {
      "epoch": 0.10023238747553816,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009053039625892198,
      "loss": 2.3113,
      "step": 3278
    },
    {
      "epoch": 0.10026296477495107,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009052731971449669,
      "loss": 1.7639,
      "step": 3279
    },
    {
      "epoch": 0.10029354207436399,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009052424317007137,
      "loss": 2.3086,
      "step": 3280
    },
    {
      "epoch": 0.1003241193737769,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009052116662564608,
      "loss": 2.1,
      "step": 3281
    },
    {
      "epoch": 0.10035469667318983,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009051809008122077,
      "loss": 1.6632,
      "step": 3282
    },
    {
      "epoch": 0.10038527397260275,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009051501353679548,
      "loss": 1.9368,
      "step": 3283
    },
    {
      "epoch": 0.10041585127201566,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009051193699237017,
      "loss": 2.0153,
      "step": 3284
    },
    {
      "epoch": 0.10044642857142858,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009050886044794488,
      "loss": 2.1642,
      "step": 3285
    },
    {
      "epoch": 0.10047700587084149,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009050578390351957,
      "loss": 2.1409,
      "step": 3286
    },
    {
      "epoch": 0.1005075831702544,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009050270735909427,
      "loss": 2.3822,
      "step": 3287
    },
    {
      "epoch": 0.10053816046966732,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009049963081466896,
      "loss": 1.9976,
      "step": 3288
    },
    {
      "epoch": 0.10056873776908024,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009049655427024367,
      "loss": 2.4584,
      "step": 3289
    },
    {
      "epoch": 0.10059931506849315,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009049347772581836,
      "loss": 2.439,
      "step": 3290
    },
    {
      "epoch": 0.10062989236790607,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009049040118139306,
      "loss": 2.3348,
      "step": 3291
    },
    {
      "epoch": 0.10066046966731898,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009048732463696776,
      "loss": 2.2928,
      "step": 3292
    },
    {
      "epoch": 0.1006910469667319,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009048424809254246,
      "loss": 2.1941,
      "step": 3293
    },
    {
      "epoch": 0.10072162426614481,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009048117154811715,
      "loss": 2.5566,
      "step": 3294
    },
    {
      "epoch": 0.10075220156555773,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009047809500369185,
      "loss": 2.2838,
      "step": 3295
    },
    {
      "epoch": 0.10078277886497064,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009047501845926655,
      "loss": 2.0813,
      "step": 3296
    },
    {
      "epoch": 0.10081335616438356,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009047194191484125,
      "loss": 1.5309,
      "step": 3297
    },
    {
      "epoch": 0.10084393346379648,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009046886537041596,
      "loss": 2.1827,
      "step": 3298
    },
    {
      "epoch": 0.1008745107632094,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009046578882599065,
      "loss": 2.0429,
      "step": 3299
    },
    {
      "epoch": 0.10090508806262231,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009046271228156536,
      "loss": 1.9241,
      "step": 3300
    },
    {
      "epoch": 0.10093566536203523,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009045963573714004,
      "loss": 1.8756,
      "step": 3301
    },
    {
      "epoch": 0.10096624266144814,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009045655919271475,
      "loss": 2.0273,
      "step": 3302
    },
    {
      "epoch": 0.10099681996086106,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009045348264828944,
      "loss": 1.9542,
      "step": 3303
    },
    {
      "epoch": 0.10102739726027397,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009045040610386415,
      "loss": 2.106,
      "step": 3304
    },
    {
      "epoch": 0.10105797455968689,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009044732955943884,
      "loss": 2.2853,
      "step": 3305
    },
    {
      "epoch": 0.1010885518590998,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009044425301501354,
      "loss": 2.1021,
      "step": 3306
    },
    {
      "epoch": 0.10111912915851272,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009044117647058824,
      "loss": 2.0175,
      "step": 3307
    },
    {
      "epoch": 0.10114970645792563,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009043809992616293,
      "loss": 2.1713,
      "step": 3308
    },
    {
      "epoch": 0.10118028375733855,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009043502338173763,
      "loss": 2.3778,
      "step": 3309
    },
    {
      "epoch": 0.10121086105675146,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009043194683731233,
      "loss": 2.0657,
      "step": 3310
    },
    {
      "epoch": 0.10124143835616438,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009042887029288703,
      "loss": 2.3603,
      "step": 3311
    },
    {
      "epoch": 0.1012720156555773,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0009042579374846173,
      "loss": 2.2896,
      "step": 3312
    },
    {
      "epoch": 0.10130259295499021,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009042271720403643,
      "loss": 2.2852,
      "step": 3313
    },
    {
      "epoch": 0.10133317025440314,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009041964065961113,
      "loss": 2.0978,
      "step": 3314
    },
    {
      "epoch": 0.10136374755381605,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009041656411518582,
      "loss": 2.3115,
      "step": 3315
    },
    {
      "epoch": 0.10139432485322897,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009041348757076052,
      "loss": 1.9642,
      "step": 3316
    },
    {
      "epoch": 0.10142490215264188,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009041041102633522,
      "loss": 2.6628,
      "step": 3317
    },
    {
      "epoch": 0.1014554794520548,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009040733448190992,
      "loss": 1.9003,
      "step": 3318
    },
    {
      "epoch": 0.10148605675146771,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009040425793748463,
      "loss": 2.3489,
      "step": 3319
    },
    {
      "epoch": 0.10151663405088063,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009040118139305932,
      "loss": 2.2196,
      "step": 3320
    },
    {
      "epoch": 0.10154721135029354,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009039810484863402,
      "loss": 1.9049,
      "step": 3321
    },
    {
      "epoch": 0.10157778864970646,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009039502830420871,
      "loss": 1.9463,
      "step": 3322
    },
    {
      "epoch": 0.10160836594911937,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000903919517597834,
      "loss": 2.7221,
      "step": 3323
    },
    {
      "epoch": 0.10163894324853229,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009038887521535811,
      "loss": 2.1463,
      "step": 3324
    },
    {
      "epoch": 0.1016695205479452,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009038579867093281,
      "loss": 2.218,
      "step": 3325
    },
    {
      "epoch": 0.10170009784735812,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009038272212650751,
      "loss": 2.1973,
      "step": 3326
    },
    {
      "epoch": 0.10173067514677103,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0009037964558208221,
      "loss": 1.9609,
      "step": 3327
    },
    {
      "epoch": 0.10176125244618395,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009037656903765691,
      "loss": 1.6317,
      "step": 3328
    },
    {
      "epoch": 0.10179182974559686,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000903734924932316,
      "loss": 2.1854,
      "step": 3329
    },
    {
      "epoch": 0.10182240704500979,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000903704159488063,
      "loss": 2.2636,
      "step": 3330
    },
    {
      "epoch": 0.1018529843444227,
      "grad_norm": 0.296875,
      "learning_rate": 0.00090367339404381,
      "loss": 1.9074,
      "step": 3331
    },
    {
      "epoch": 0.10188356164383562,
      "grad_norm": 0.322265625,
      "learning_rate": 0.000903642628599557,
      "loss": 1.4132,
      "step": 3332
    },
    {
      "epoch": 0.10191413894324854,
      "grad_norm": 0.35546875,
      "learning_rate": 0.000903611863155304,
      "loss": 2.2288,
      "step": 3333
    },
    {
      "epoch": 0.10194471624266145,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000903581097711051,
      "loss": 2.3017,
      "step": 3334
    },
    {
      "epoch": 0.10197529354207437,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000903550332266798,
      "loss": 2.1519,
      "step": 3335
    },
    {
      "epoch": 0.10200587084148728,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000903519566822545,
      "loss": 2.2283,
      "step": 3336
    },
    {
      "epoch": 0.1020364481409002,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0009034888013782919,
      "loss": 1.708,
      "step": 3337
    },
    {
      "epoch": 0.10206702544031311,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009034580359340388,
      "loss": 2.2973,
      "step": 3338
    },
    {
      "epoch": 0.10209760273972603,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009034272704897859,
      "loss": 2.1051,
      "step": 3339
    },
    {
      "epoch": 0.10212818003913894,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009033965050455328,
      "loss": 2.2054,
      "step": 3340
    },
    {
      "epoch": 0.10215875733855186,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009033657396012799,
      "loss": 2.0743,
      "step": 3341
    },
    {
      "epoch": 0.10218933463796477,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009033349741570268,
      "loss": 2.4242,
      "step": 3342
    },
    {
      "epoch": 0.10221991193737769,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009033042087127739,
      "loss": 2.1531,
      "step": 3343
    },
    {
      "epoch": 0.1022504892367906,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009032734432685207,
      "loss": 2.0615,
      "step": 3344
    },
    {
      "epoch": 0.10228106653620352,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009032426778242678,
      "loss": 2.0314,
      "step": 3345
    },
    {
      "epoch": 0.10231164383561644,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009032119123800148,
      "loss": 2.1589,
      "step": 3346
    },
    {
      "epoch": 0.10234222113502936,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0009031811469357618,
      "loss": 2.2051,
      "step": 3347
    },
    {
      "epoch": 0.10237279843444227,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009031503814915088,
      "loss": 2.2512,
      "step": 3348
    },
    {
      "epoch": 0.10240337573385519,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009031196160472558,
      "loss": 2.0562,
      "step": 3349
    },
    {
      "epoch": 0.1024339530332681,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0009030888506030028,
      "loss": 1.7339,
      "step": 3350
    },
    {
      "epoch": 0.10246453033268102,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009030580851587497,
      "loss": 1.9269,
      "step": 3351
    },
    {
      "epoch": 0.10249510763209393,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0009030273197144967,
      "loss": 2.1162,
      "step": 3352
    },
    {
      "epoch": 0.10252568493150685,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009029965542702436,
      "loss": 1.8745,
      "step": 3353
    },
    {
      "epoch": 0.10255626223091976,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009029657888259907,
      "loss": 2.3873,
      "step": 3354
    },
    {
      "epoch": 0.10258683953033268,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009029350233817376,
      "loss": 2.3007,
      "step": 3355
    },
    {
      "epoch": 0.1026174168297456,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009029042579374847,
      "loss": 1.9092,
      "step": 3356
    },
    {
      "epoch": 0.10264799412915851,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009028734924932316,
      "loss": 2.272,
      "step": 3357
    },
    {
      "epoch": 0.10267857142857142,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0009028427270489786,
      "loss": 1.7312,
      "step": 3358
    },
    {
      "epoch": 0.10270914872798434,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009028119616047255,
      "loss": 1.9358,
      "step": 3359
    },
    {
      "epoch": 0.10273972602739725,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009027811961604726,
      "loss": 1.936,
      "step": 3360
    },
    {
      "epoch": 0.10277030332681017,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0009027504307162195,
      "loss": 2.2559,
      "step": 3361
    },
    {
      "epoch": 0.1028008806262231,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009027196652719666,
      "loss": 2.2639,
      "step": 3362
    },
    {
      "epoch": 0.10283145792563601,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009026888998277135,
      "loss": 2.4636,
      "step": 3363
    },
    {
      "epoch": 0.10286203522504893,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0009026581343834606,
      "loss": 1.6871,
      "step": 3364
    },
    {
      "epoch": 0.10289261252446184,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009026273689392074,
      "loss": 2.0115,
      "step": 3365
    },
    {
      "epoch": 0.10292318982387476,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009025966034949545,
      "loss": 2.5843,
      "step": 3366
    },
    {
      "epoch": 0.10295376712328767,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0009025658380507015,
      "loss": 1.6141,
      "step": 3367
    },
    {
      "epoch": 0.10298434442270059,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009025350726064484,
      "loss": 1.9173,
      "step": 3368
    },
    {
      "epoch": 0.1030149217221135,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009025043071621955,
      "loss": 1.8203,
      "step": 3369
    },
    {
      "epoch": 0.10304549902152642,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009024735417179424,
      "loss": 1.7924,
      "step": 3370
    },
    {
      "epoch": 0.10307607632093933,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009024427762736895,
      "loss": 1.9887,
      "step": 3371
    },
    {
      "epoch": 0.10310665362035225,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0009024120108294363,
      "loss": 2.3261,
      "step": 3372
    },
    {
      "epoch": 0.10313723091976516,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009023812453851834,
      "loss": 2.1175,
      "step": 3373
    },
    {
      "epoch": 0.10316780821917808,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009023504799409303,
      "loss": 2.0282,
      "step": 3374
    },
    {
      "epoch": 0.103198385518591,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009023197144966774,
      "loss": 1.8675,
      "step": 3375
    },
    {
      "epoch": 0.10322896281800391,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009022889490524243,
      "loss": 2.0136,
      "step": 3376
    },
    {
      "epoch": 0.10325954011741682,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0009022581836081714,
      "loss": 1.8257,
      "step": 3377
    },
    {
      "epoch": 0.10329011741682975,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009022274181639183,
      "loss": 2.0298,
      "step": 3378
    },
    {
      "epoch": 0.10332069471624267,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0009021966527196653,
      "loss": 1.9323,
      "step": 3379
    },
    {
      "epoch": 0.10335127201565558,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009021658872754122,
      "loss": 2.2212,
      "step": 3380
    },
    {
      "epoch": 0.1033818493150685,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009021351218311593,
      "loss": 2.1945,
      "step": 3381
    },
    {
      "epoch": 0.10341242661448141,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009021043563869062,
      "loss": 2.5747,
      "step": 3382
    },
    {
      "epoch": 0.10344300391389433,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009020735909426532,
      "loss": 2.4795,
      "step": 3383
    },
    {
      "epoch": 0.10347358121330724,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009020428254984002,
      "loss": 2.2259,
      "step": 3384
    },
    {
      "epoch": 0.10350415851272016,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009020120600541472,
      "loss": 1.8676,
      "step": 3385
    },
    {
      "epoch": 0.10353473581213307,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009019812946098941,
      "loss": 1.6555,
      "step": 3386
    },
    {
      "epoch": 0.10356531311154599,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009019505291656411,
      "loss": 2.0376,
      "step": 3387
    },
    {
      "epoch": 0.1035958904109589,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009019197637213882,
      "loss": 1.8661,
      "step": 3388
    },
    {
      "epoch": 0.10362646771037182,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009018889982771351,
      "loss": 1.8112,
      "step": 3389
    },
    {
      "epoch": 0.10365704500978473,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009018582328328822,
      "loss": 2.3509,
      "step": 3390
    },
    {
      "epoch": 0.10368762230919765,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009018274673886291,
      "loss": 2.1728,
      "step": 3391
    },
    {
      "epoch": 0.10371819960861056,
      "grad_norm": 0.328125,
      "learning_rate": 0.0009017967019443762,
      "loss": 2.6835,
      "step": 3392
    },
    {
      "epoch": 0.10374877690802348,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000901765936500123,
      "loss": 1.9238,
      "step": 3393
    },
    {
      "epoch": 0.1037793542074364,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009017351710558701,
      "loss": 2.0248,
      "step": 3394
    },
    {
      "epoch": 0.10380993150684932,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000901704405611617,
      "loss": 2.0428,
      "step": 3395
    },
    {
      "epoch": 0.10384050880626224,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0009016736401673641,
      "loss": 1.9315,
      "step": 3396
    },
    {
      "epoch": 0.10387108610567515,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000901642874723111,
      "loss": 2.5084,
      "step": 3397
    },
    {
      "epoch": 0.10390166340508807,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000901612109278858,
      "loss": 2.0953,
      "step": 3398
    },
    {
      "epoch": 0.10393224070450098,
      "grad_norm": 0.296875,
      "learning_rate": 0.000901581343834605,
      "loss": 1.8324,
      "step": 3399
    },
    {
      "epoch": 0.1039628180039139,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009015505783903519,
      "loss": 2.0303,
      "step": 3400
    },
    {
      "epoch": 0.10399339530332681,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009015198129460989,
      "loss": 2.3419,
      "step": 3401
    },
    {
      "epoch": 0.10402397260273973,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009014890475018459,
      "loss": 1.9525,
      "step": 3402
    },
    {
      "epoch": 0.10405454990215264,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009014582820575929,
      "loss": 2.4574,
      "step": 3403
    },
    {
      "epoch": 0.10408512720156556,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009014275166133399,
      "loss": 2.4372,
      "step": 3404
    },
    {
      "epoch": 0.10411570450097847,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000901396751169087,
      "loss": 1.848,
      "step": 3405
    },
    {
      "epoch": 0.10414628180039139,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009013659857248339,
      "loss": 2.249,
      "step": 3406
    },
    {
      "epoch": 0.1041768590998043,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000901335220280581,
      "loss": 2.0915,
      "step": 3407
    },
    {
      "epoch": 0.10420743639921722,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009013044548363278,
      "loss": 2.0903,
      "step": 3408
    },
    {
      "epoch": 0.10423801369863013,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009012736893920749,
      "loss": 2.0472,
      "step": 3409
    },
    {
      "epoch": 0.10426859099804306,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0009012429239478218,
      "loss": 1.5512,
      "step": 3410
    },
    {
      "epoch": 0.10429916829745597,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009012121585035689,
      "loss": 2.0942,
      "step": 3411
    },
    {
      "epoch": 0.10432974559686889,
      "grad_norm": 0.296875,
      "learning_rate": 0.0009011813930593158,
      "loss": 2.1274,
      "step": 3412
    },
    {
      "epoch": 0.1043603228962818,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009011506276150629,
      "loss": 2.0234,
      "step": 3413
    },
    {
      "epoch": 0.10439090019569472,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0009011198621708098,
      "loss": 2.3734,
      "step": 3414
    },
    {
      "epoch": 0.10442147749510763,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009010890967265567,
      "loss": 1.9787,
      "step": 3415
    },
    {
      "epoch": 0.10445205479452055,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0009010583312823037,
      "loss": 1.8046,
      "step": 3416
    },
    {
      "epoch": 0.10448263209393346,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009010275658380507,
      "loss": 1.8552,
      "step": 3417
    },
    {
      "epoch": 0.10451320939334638,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0009009968003937977,
      "loss": 2.2464,
      "step": 3418
    },
    {
      "epoch": 0.1045437866927593,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009009660349495447,
      "loss": 1.746,
      "step": 3419
    },
    {
      "epoch": 0.10457436399217221,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009009352695052917,
      "loss": 2.071,
      "step": 3420
    },
    {
      "epoch": 0.10460494129158512,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009009045040610387,
      "loss": 1.9499,
      "step": 3421
    },
    {
      "epoch": 0.10463551859099804,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009008737386167856,
      "loss": 1.6428,
      "step": 3422
    },
    {
      "epoch": 0.10466609589041095,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009008429731725326,
      "loss": 2.0805,
      "step": 3423
    },
    {
      "epoch": 0.10469667318982387,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009008122077282796,
      "loss": 2.0949,
      "step": 3424
    },
    {
      "epoch": 0.10472725048923678,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0009007814422840266,
      "loss": 2.0871,
      "step": 3425
    },
    {
      "epoch": 0.10475782778864971,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0009007506768397736,
      "loss": 2.577,
      "step": 3426
    },
    {
      "epoch": 0.10478840508806263,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009007199113955206,
      "loss": 1.9912,
      "step": 3427
    },
    {
      "epoch": 0.10481898238747554,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0009006891459512677,
      "loss": 2.4385,
      "step": 3428
    },
    {
      "epoch": 0.10484955968688846,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0009006583805070145,
      "loss": 2.0237,
      "step": 3429
    },
    {
      "epoch": 0.10488013698630137,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009006276150627614,
      "loss": 2.0465,
      "step": 3430
    },
    {
      "epoch": 0.10491071428571429,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009005968496185085,
      "loss": 2.6123,
      "step": 3431
    },
    {
      "epoch": 0.1049412915851272,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0009005660841742555,
      "loss": 2.3126,
      "step": 3432
    },
    {
      "epoch": 0.10497186888454012,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009005353187300025,
      "loss": 2.2294,
      "step": 3433
    },
    {
      "epoch": 0.10500244618395303,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0009005045532857495,
      "loss": 1.9866,
      "step": 3434
    },
    {
      "epoch": 0.10503302348336595,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009004737878414965,
      "loss": 2.2575,
      "step": 3435
    },
    {
      "epoch": 0.10506360078277886,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0009004430223972434,
      "loss": 2.3292,
      "step": 3436
    },
    {
      "epoch": 0.10509417808219178,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009004122569529904,
      "loss": 2.2572,
      "step": 3437
    },
    {
      "epoch": 0.10512475538160469,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009003814915087374,
      "loss": 1.8311,
      "step": 3438
    },
    {
      "epoch": 0.10515533268101761,
      "grad_norm": 0.28125,
      "learning_rate": 0.0009003507260644844,
      "loss": 1.7721,
      "step": 3439
    },
    {
      "epoch": 0.10518590998043052,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0009003199606202314,
      "loss": 2.1026,
      "step": 3440
    },
    {
      "epoch": 0.10521648727984344,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0009002891951759784,
      "loss": 2.0161,
      "step": 3441
    },
    {
      "epoch": 0.10524706457925637,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0009002584297317254,
      "loss": 1.8129,
      "step": 3442
    },
    {
      "epoch": 0.10527764187866928,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0009002276642874723,
      "loss": 2.5056,
      "step": 3443
    },
    {
      "epoch": 0.1053082191780822,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009001968988432193,
      "loss": 2.1069,
      "step": 3444
    },
    {
      "epoch": 0.10533879647749511,
      "grad_norm": 0.3125,
      "learning_rate": 0.0009001661333989662,
      "loss": 2.3513,
      "step": 3445
    },
    {
      "epoch": 0.10536937377690803,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0009001353679547133,
      "loss": 1.981,
      "step": 3446
    },
    {
      "epoch": 0.10539995107632094,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0009001046025104602,
      "loss": 2.2144,
      "step": 3447
    },
    {
      "epoch": 0.10543052837573386,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0009000738370662073,
      "loss": 1.9678,
      "step": 3448
    },
    {
      "epoch": 0.10546110567514677,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0009000430716219542,
      "loss": 2.1009,
      "step": 3449
    },
    {
      "epoch": 0.10549168297455969,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0009000123061777012,
      "loss": 2.3957,
      "step": 3450
    },
    {
      "epoch": 0.1055222602739726,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008999815407334481,
      "loss": 2.2283,
      "step": 3451
    },
    {
      "epoch": 0.10555283757338552,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008999507752891952,
      "loss": 2.1419,
      "step": 3452
    },
    {
      "epoch": 0.10558341487279843,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008999200098449422,
      "loss": 1.7804,
      "step": 3453
    },
    {
      "epoch": 0.10561399217221135,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008998892444006892,
      "loss": 2.1649,
      "step": 3454
    },
    {
      "epoch": 0.10564456947162426,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008998584789564362,
      "loss": 2.032,
      "step": 3455
    },
    {
      "epoch": 0.10567514677103718,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008998277135121832,
      "loss": 1.8463,
      "step": 3456
    },
    {
      "epoch": 0.10570572407045009,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008997969480679301,
      "loss": 1.812,
      "step": 3457
    },
    {
      "epoch": 0.10573630136986302,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0008997661826236771,
      "loss": 2.42,
      "step": 3458
    },
    {
      "epoch": 0.10576687866927593,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008997354171794241,
      "loss": 1.8788,
      "step": 3459
    },
    {
      "epoch": 0.10579745596868885,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000899704651735171,
      "loss": 1.8595,
      "step": 3460
    },
    {
      "epoch": 0.10582803326810176,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008996738862909181,
      "loss": 2.089,
      "step": 3461
    },
    {
      "epoch": 0.10585861056751468,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000899643120846665,
      "loss": 1.7204,
      "step": 3462
    },
    {
      "epoch": 0.1058891878669276,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008996123554024121,
      "loss": 2.2524,
      "step": 3463
    },
    {
      "epoch": 0.10591976516634051,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008995815899581589,
      "loss": 1.9466,
      "step": 3464
    },
    {
      "epoch": 0.10595034246575342,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000899550824513906,
      "loss": 2.0893,
      "step": 3465
    },
    {
      "epoch": 0.10598091976516634,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008995200590696529,
      "loss": 2.4565,
      "step": 3466
    },
    {
      "epoch": 0.10601149706457925,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008994892936254,
      "loss": 2.1746,
      "step": 3467
    },
    {
      "epoch": 0.10604207436399217,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0008994585281811469,
      "loss": 2.4531,
      "step": 3468
    },
    {
      "epoch": 0.10607265166340508,
      "grad_norm": 0.3046875,
      "learning_rate": 0.000899427762736894,
      "loss": 2.3079,
      "step": 3469
    },
    {
      "epoch": 0.106103228962818,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008993969972926409,
      "loss": 2.2149,
      "step": 3470
    },
    {
      "epoch": 0.10613380626223091,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000899366231848388,
      "loss": 2.0949,
      "step": 3471
    },
    {
      "epoch": 0.10616438356164383,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008993354664041348,
      "loss": 2.147,
      "step": 3472
    },
    {
      "epoch": 0.10619496086105674,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008993047009598819,
      "loss": 1.96,
      "step": 3473
    },
    {
      "epoch": 0.10622553816046967,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008992739355156289,
      "loss": 1.9982,
      "step": 3474
    },
    {
      "epoch": 0.10625611545988259,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008992431700713759,
      "loss": 2.4489,
      "step": 3475
    },
    {
      "epoch": 0.1062866927592955,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008992124046271229,
      "loss": 2.1033,
      "step": 3476
    },
    {
      "epoch": 0.10631727005870842,
      "grad_norm": 0.28125,
      "learning_rate": 0.0008991816391828698,
      "loss": 1.8569,
      "step": 3477
    },
    {
      "epoch": 0.10634784735812133,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008991508737386169,
      "loss": 1.9165,
      "step": 3478
    },
    {
      "epoch": 0.10637842465753425,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008991201082943637,
      "loss": 2.0873,
      "step": 3479
    },
    {
      "epoch": 0.10640900195694716,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008990893428501108,
      "loss": 1.9815,
      "step": 3480
    },
    {
      "epoch": 0.10643957925636008,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008990585774058577,
      "loss": 2.229,
      "step": 3481
    },
    {
      "epoch": 0.106470156555773,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008990278119616048,
      "loss": 1.923,
      "step": 3482
    },
    {
      "epoch": 0.10650073385518591,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008989970465173517,
      "loss": 2.0787,
      "step": 3483
    },
    {
      "epoch": 0.10653131115459882,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008989662810730988,
      "loss": 2.4291,
      "step": 3484
    },
    {
      "epoch": 0.10656188845401174,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008989355156288457,
      "loss": 2.1349,
      "step": 3485
    },
    {
      "epoch": 0.10659246575342465,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008989047501845927,
      "loss": 2.2732,
      "step": 3486
    },
    {
      "epoch": 0.10662304305283757,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008988739847403396,
      "loss": 2.2556,
      "step": 3487
    },
    {
      "epoch": 0.10665362035225048,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0008988432192960867,
      "loss": 1.7622,
      "step": 3488
    },
    {
      "epoch": 0.1066841976516634,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008988124538518336,
      "loss": 2.2127,
      "step": 3489
    },
    {
      "epoch": 0.10671477495107633,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008987816884075807,
      "loss": 2.1523,
      "step": 3490
    },
    {
      "epoch": 0.10674535225048924,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008987509229633276,
      "loss": 1.7341,
      "step": 3491
    },
    {
      "epoch": 0.10677592954990216,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008987201575190746,
      "loss": 2.1935,
      "step": 3492
    },
    {
      "epoch": 0.10680650684931507,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008986893920748215,
      "loss": 2.0942,
      "step": 3493
    },
    {
      "epoch": 0.10683708414872799,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008986586266305685,
      "loss": 1.925,
      "step": 3494
    },
    {
      "epoch": 0.1068676614481409,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0008986278611863156,
      "loss": 2.4272,
      "step": 3495
    },
    {
      "epoch": 0.10689823874755382,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0008985970957420625,
      "loss": 2.5668,
      "step": 3496
    },
    {
      "epoch": 0.10692881604696673,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008985663302978096,
      "loss": 1.6725,
      "step": 3497
    },
    {
      "epoch": 0.10695939334637965,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008985355648535565,
      "loss": 2.2189,
      "step": 3498
    },
    {
      "epoch": 0.10698997064579256,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008985047994093036,
      "loss": 2.004,
      "step": 3499
    },
    {
      "epoch": 0.10702054794520548,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008984740339650504,
      "loss": 2.4153,
      "step": 3500
    },
    {
      "epoch": 0.10702054794520548,
      "eval_loss": 1.6947754621505737,
      "eval_runtime": 77.8312,
      "eval_samples_per_second": 11.512,
      "eval_steps_per_second": 0.36,
      "step": 3500
    },
    {
      "epoch": 0.10702054794520548,
      "eval/hellaswag_acc": 0.374726150169289,
      "eval/hellaswag_acc_norm": 0.46683927504481176,
      "eval_hellaswag_elapsed_time": 351.4379663467407,
      "step": 3500
    },
    {
      "epoch": 0.10705112524461839,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0008984432685207975,
      "loss": 1.5382,
      "step": 3501
    },
    {
      "epoch": 0.10708170254403131,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0008984125030765444,
      "loss": 1.8141,
      "step": 3502
    },
    {
      "epoch": 0.10711227984344422,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008983817376322915,
      "loss": 2.0656,
      "step": 3503
    },
    {
      "epoch": 0.10714285714285714,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0008983509721880384,
      "loss": 1.932,
      "step": 3504
    },
    {
      "epoch": 0.10717343444227005,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008983202067437855,
      "loss": 2.2588,
      "step": 3505
    },
    {
      "epoch": 0.10720401174168298,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008982894412995324,
      "loss": 2.1749,
      "step": 3506
    },
    {
      "epoch": 0.1072345890410959,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008982586758552793,
      "loss": 1.9733,
      "step": 3507
    },
    {
      "epoch": 0.10726516634050881,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008982279104110263,
      "loss": 2.3929,
      "step": 3508
    },
    {
      "epoch": 0.10729574363992173,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008981971449667733,
      "loss": 1.9837,
      "step": 3509
    },
    {
      "epoch": 0.10732632093933464,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0008981663795225203,
      "loss": 1.4155,
      "step": 3510
    },
    {
      "epoch": 0.10735689823874756,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008981356140782673,
      "loss": 2.1514,
      "step": 3511
    },
    {
      "epoch": 0.10738747553816047,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008981048486340143,
      "loss": 2.3225,
      "step": 3512
    },
    {
      "epoch": 0.10741805283757339,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008980740831897613,
      "loss": 2.2394,
      "step": 3513
    },
    {
      "epoch": 0.1074486301369863,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008980433177455082,
      "loss": 2.1388,
      "step": 3514
    },
    {
      "epoch": 0.10747920743639922,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008980125523012552,
      "loss": 2.4503,
      "step": 3515
    },
    {
      "epoch": 0.10750978473581213,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008979817868570023,
      "loss": 2.3164,
      "step": 3516
    },
    {
      "epoch": 0.10754036203522505,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008979510214127492,
      "loss": 2.5674,
      "step": 3517
    },
    {
      "epoch": 0.10757093933463796,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008979202559684963,
      "loss": 2.0093,
      "step": 3518
    },
    {
      "epoch": 0.10760151663405088,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008978894905242432,
      "loss": 1.9634,
      "step": 3519
    },
    {
      "epoch": 0.10763209393346379,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008978587250799903,
      "loss": 1.9119,
      "step": 3520
    },
    {
      "epoch": 0.1076626712328767,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008978279596357371,
      "loss": 2.1029,
      "step": 3521
    },
    {
      "epoch": 0.10769324853228963,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008977971941914841,
      "loss": 2.0298,
      "step": 3522
    },
    {
      "epoch": 0.10772382583170255,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008977664287472311,
      "loss": 2.0578,
      "step": 3523
    },
    {
      "epoch": 0.10775440313111546,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008977356633029781,
      "loss": 2.0489,
      "step": 3524
    },
    {
      "epoch": 0.10778498043052838,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008977048978587251,
      "loss": 2.5388,
      "step": 3525
    },
    {
      "epoch": 0.1078155577299413,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008976741324144721,
      "loss": 2.3054,
      "step": 3526
    },
    {
      "epoch": 0.10784613502935421,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008976433669702191,
      "loss": 2.0348,
      "step": 3527
    },
    {
      "epoch": 0.10787671232876712,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000897612601525966,
      "loss": 2.0673,
      "step": 3528
    },
    {
      "epoch": 0.10790728962818004,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000897581836081713,
      "loss": 2.2766,
      "step": 3529
    },
    {
      "epoch": 0.10793786692759295,
      "grad_norm": 0.28515625,
      "learning_rate": 0.00089755107063746,
      "loss": 1.9163,
      "step": 3530
    },
    {
      "epoch": 0.10796844422700587,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000897520305193207,
      "loss": 2.2569,
      "step": 3531
    },
    {
      "epoch": 0.10799902152641878,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000897489539748954,
      "loss": 2.4105,
      "step": 3532
    },
    {
      "epoch": 0.1080295988258317,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000897458774304701,
      "loss": 2.7072,
      "step": 3533
    },
    {
      "epoch": 0.10806017612524461,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000897428008860448,
      "loss": 2.1314,
      "step": 3534
    },
    {
      "epoch": 0.10809075342465753,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000897397243416195,
      "loss": 2.3308,
      "step": 3535
    },
    {
      "epoch": 0.10812133072407044,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008973664779719419,
      "loss": 2.1654,
      "step": 3536
    },
    {
      "epoch": 0.10815190802348336,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008973357125276888,
      "loss": 2.2758,
      "step": 3537
    },
    {
      "epoch": 0.10818248532289629,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008973049470834359,
      "loss": 1.8649,
      "step": 3538
    },
    {
      "epoch": 0.1082130626223092,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008972741816391828,
      "loss": 2.3339,
      "step": 3539
    },
    {
      "epoch": 0.10824363992172212,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008972434161949299,
      "loss": 2.261,
      "step": 3540
    },
    {
      "epoch": 0.10827421722113503,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008972126507506769,
      "loss": 2.1308,
      "step": 3541
    },
    {
      "epoch": 0.10830479452054795,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008971818853064239,
      "loss": 2.0915,
      "step": 3542
    },
    {
      "epoch": 0.10833537181996086,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0008971511198621708,
      "loss": 1.7819,
      "step": 3543
    },
    {
      "epoch": 0.10836594911937378,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008971203544179178,
      "loss": 2.0601,
      "step": 3544
    },
    {
      "epoch": 0.10839652641878669,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008970895889736648,
      "loss": 2.0836,
      "step": 3545
    },
    {
      "epoch": 0.10842710371819961,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008970588235294118,
      "loss": 2.0468,
      "step": 3546
    },
    {
      "epoch": 0.10845768101761252,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0008970280580851588,
      "loss": 2.6943,
      "step": 3547
    },
    {
      "epoch": 0.10848825831702544,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008969972926409058,
      "loss": 2.0479,
      "step": 3548
    },
    {
      "epoch": 0.10851883561643835,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0008969665271966528,
      "loss": 1.7074,
      "step": 3549
    },
    {
      "epoch": 0.10854941291585127,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008969357617523997,
      "loss": 2.0412,
      "step": 3550
    },
    {
      "epoch": 0.10857999021526418,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008969049963081467,
      "loss": 1.9256,
      "step": 3551
    },
    {
      "epoch": 0.1086105675146771,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008968742308638937,
      "loss": 2.0376,
      "step": 3552
    },
    {
      "epoch": 0.10864114481409001,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0008968434654196407,
      "loss": 1.6382,
      "step": 3553
    },
    {
      "epoch": 0.10867172211350294,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008968126999753876,
      "loss": 2.102,
      "step": 3554
    },
    {
      "epoch": 0.10870229941291586,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008967819345311347,
      "loss": 2.1922,
      "step": 3555
    },
    {
      "epoch": 0.10873287671232877,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008967511690868816,
      "loss": 1.9049,
      "step": 3556
    },
    {
      "epoch": 0.10876345401174169,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008967204036426286,
      "loss": 2.2799,
      "step": 3557
    },
    {
      "epoch": 0.1087940313111546,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008966896381983755,
      "loss": 2.3106,
      "step": 3558
    },
    {
      "epoch": 0.10882460861056752,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008966588727541226,
      "loss": 2.3825,
      "step": 3559
    },
    {
      "epoch": 0.10885518590998043,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0008966281073098695,
      "loss": 2.2923,
      "step": 3560
    },
    {
      "epoch": 0.10888576320939335,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008965973418656166,
      "loss": 1.9813,
      "step": 3561
    },
    {
      "epoch": 0.10891634050880626,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008965665764213636,
      "loss": 2.188,
      "step": 3562
    },
    {
      "epoch": 0.10894691780821918,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008965358109771106,
      "loss": 2.303,
      "step": 3563
    },
    {
      "epoch": 0.10897749510763209,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008965050455328575,
      "loss": 2.5291,
      "step": 3564
    },
    {
      "epoch": 0.109008072407045,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008964742800886045,
      "loss": 2.0021,
      "step": 3565
    },
    {
      "epoch": 0.10903864970645792,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008964435146443515,
      "loss": 2.0701,
      "step": 3566
    },
    {
      "epoch": 0.10906922700587084,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008964127492000985,
      "loss": 1.9759,
      "step": 3567
    },
    {
      "epoch": 0.10909980430528375,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0008963819837558455,
      "loss": 2.0312,
      "step": 3568
    },
    {
      "epoch": 0.10913038160469667,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008963512183115924,
      "loss": 2.0685,
      "step": 3569
    },
    {
      "epoch": 0.1091609589041096,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008963204528673395,
      "loss": 2.127,
      "step": 3570
    },
    {
      "epoch": 0.10919153620352251,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0008962896874230863,
      "loss": 1.7219,
      "step": 3571
    },
    {
      "epoch": 0.10922211350293543,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008962589219788334,
      "loss": 1.995,
      "step": 3572
    },
    {
      "epoch": 0.10925269080234834,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0008962281565345803,
      "loss": 1.7283,
      "step": 3573
    },
    {
      "epoch": 0.10928326810176126,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008961973910903274,
      "loss": 2.0605,
      "step": 3574
    },
    {
      "epoch": 0.10931384540117417,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008961666256460743,
      "loss": 2.1097,
      "step": 3575
    },
    {
      "epoch": 0.10934442270058709,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008961358602018214,
      "loss": 1.8673,
      "step": 3576
    },
    {
      "epoch": 0.109375,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008961050947575683,
      "loss": 1.8634,
      "step": 3577
    },
    {
      "epoch": 0.10940557729941291,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008960743293133153,
      "loss": 2.459,
      "step": 3578
    },
    {
      "epoch": 0.10943615459882583,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008960435638690622,
      "loss": 2.1748,
      "step": 3579
    },
    {
      "epoch": 0.10946673189823874,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008960127984248093,
      "loss": 2.1495,
      "step": 3580
    },
    {
      "epoch": 0.10949730919765166,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008959820329805562,
      "loss": 2.1443,
      "step": 3581
    },
    {
      "epoch": 0.10952788649706457,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008959512675363033,
      "loss": 2.1102,
      "step": 3582
    },
    {
      "epoch": 0.10955846379647749,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008959205020920503,
      "loss": 1.9725,
      "step": 3583
    },
    {
      "epoch": 0.1095890410958904,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008958897366477972,
      "loss": 2.0219,
      "step": 3584
    },
    {
      "epoch": 0.10961961839530333,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008958589712035442,
      "loss": 2.203,
      "step": 3585
    },
    {
      "epoch": 0.10965019569471625,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008958282057592911,
      "loss": 1.8893,
      "step": 3586
    },
    {
      "epoch": 0.10968077299412916,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008957974403150382,
      "loss": 2.4017,
      "step": 3587
    },
    {
      "epoch": 0.10971135029354208,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008957666748707851,
      "loss": 2.3869,
      "step": 3588
    },
    {
      "epoch": 0.109741927592955,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008957359094265322,
      "loss": 1.8562,
      "step": 3589
    },
    {
      "epoch": 0.10977250489236791,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008957051439822791,
      "loss": 2.4611,
      "step": 3590
    },
    {
      "epoch": 0.10980308219178082,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0008956743785380262,
      "loss": 2.3031,
      "step": 3591
    },
    {
      "epoch": 0.10983365949119374,
      "grad_norm": 0.29296875,
      "learning_rate": 0.000895643613093773,
      "loss": 1.8505,
      "step": 3592
    },
    {
      "epoch": 0.10986423679060665,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008956128476495201,
      "loss": 2.1162,
      "step": 3593
    },
    {
      "epoch": 0.10989481409001957,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000895582082205267,
      "loss": 2.0591,
      "step": 3594
    },
    {
      "epoch": 0.10992539138943248,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008955513167610141,
      "loss": 2.4787,
      "step": 3595
    },
    {
      "epoch": 0.1099559686888454,
      "grad_norm": 0.48828125,
      "learning_rate": 0.000895520551316761,
      "loss": 2.0528,
      "step": 3596
    },
    {
      "epoch": 0.10998654598825831,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008954897858725081,
      "loss": 2.0844,
      "step": 3597
    },
    {
      "epoch": 0.11001712328767123,
      "grad_norm": 0.302734375,
      "learning_rate": 0.000895459020428255,
      "loss": 2.1358,
      "step": 3598
    },
    {
      "epoch": 0.11004770058708414,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008954282549840019,
      "loss": 2.125,
      "step": 3599
    },
    {
      "epoch": 0.11007827788649706,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008953974895397489,
      "loss": 1.9328,
      "step": 3600
    },
    {
      "epoch": 0.11010885518590999,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008953667240954959,
      "loss": 2.1587,
      "step": 3601
    },
    {
      "epoch": 0.1101394324853229,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000895335958651243,
      "loss": 2.0261,
      "step": 3602
    },
    {
      "epoch": 0.11017000978473582,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008953051932069899,
      "loss": 2.0993,
      "step": 3603
    },
    {
      "epoch": 0.11020058708414873,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000895274427762737,
      "loss": 2.0522,
      "step": 3604
    },
    {
      "epoch": 0.11023116438356165,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008952436623184839,
      "loss": 2.0975,
      "step": 3605
    },
    {
      "epoch": 0.11026174168297456,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008952128968742309,
      "loss": 1.9967,
      "step": 3606
    },
    {
      "epoch": 0.11029231898238748,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008951821314299778,
      "loss": 2.3145,
      "step": 3607
    },
    {
      "epoch": 0.11032289628180039,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008951513659857249,
      "loss": 2.0608,
      "step": 3608
    },
    {
      "epoch": 0.11035347358121331,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008951206005414718,
      "loss": 1.9598,
      "step": 3609
    },
    {
      "epoch": 0.11038405088062622,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008950898350972189,
      "loss": 2.1883,
      "step": 3610
    },
    {
      "epoch": 0.11041462818003914,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008950590696529658,
      "loss": 2.2079,
      "step": 3611
    },
    {
      "epoch": 0.11044520547945205,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008950283042087129,
      "loss": 2.2701,
      "step": 3612
    },
    {
      "epoch": 0.11047578277886497,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008949975387644598,
      "loss": 2.1214,
      "step": 3613
    },
    {
      "epoch": 0.11050636007827788,
      "grad_norm": 0.28125,
      "learning_rate": 0.0008949667733202068,
      "loss": 1.8603,
      "step": 3614
    },
    {
      "epoch": 0.1105369373776908,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008949360078759537,
      "loss": 2.5439,
      "step": 3615
    },
    {
      "epoch": 0.11056751467710371,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008949052424317007,
      "loss": 2.1885,
      "step": 3616
    },
    {
      "epoch": 0.11059809197651664,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008948744769874477,
      "loss": 1.9704,
      "step": 3617
    },
    {
      "epoch": 0.11062866927592956,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008948437115431947,
      "loss": 2.1132,
      "step": 3618
    },
    {
      "epoch": 0.11065924657534247,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008948129460989417,
      "loss": 2.3181,
      "step": 3619
    },
    {
      "epoch": 0.11068982387475539,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008947821806546887,
      "loss": 2.2383,
      "step": 3620
    },
    {
      "epoch": 0.1107204011741683,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008947514152104356,
      "loss": 2.3715,
      "step": 3621
    },
    {
      "epoch": 0.11075097847358122,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0008947206497661826,
      "loss": 2.3975,
      "step": 3622
    },
    {
      "epoch": 0.11078155577299413,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008946898843219296,
      "loss": 1.989,
      "step": 3623
    },
    {
      "epoch": 0.11081213307240705,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0008946591188776766,
      "loss": 2.5837,
      "step": 3624
    },
    {
      "epoch": 0.11084271037181996,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008946283534334237,
      "loss": 1.9612,
      "step": 3625
    },
    {
      "epoch": 0.11087328767123288,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008945975879891706,
      "loss": 2.2944,
      "step": 3626
    },
    {
      "epoch": 0.11090386497064579,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008945668225449177,
      "loss": 2.1587,
      "step": 3627
    },
    {
      "epoch": 0.1109344422700587,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0008945360571006645,
      "loss": 2.441,
      "step": 3628
    },
    {
      "epoch": 0.11096501956947162,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0008945052916564116,
      "loss": 2.0368,
      "step": 3629
    },
    {
      "epoch": 0.11099559686888454,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008944745262121585,
      "loss": 2.1704,
      "step": 3630
    },
    {
      "epoch": 0.11102617416829745,
      "grad_norm": 0.28125,
      "learning_rate": 0.0008944437607679055,
      "loss": 2.0126,
      "step": 3631
    },
    {
      "epoch": 0.11105675146771037,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0008944129953236525,
      "loss": 2.2073,
      "step": 3632
    },
    {
      "epoch": 0.1110873287671233,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008943822298793995,
      "loss": 2.0912,
      "step": 3633
    },
    {
      "epoch": 0.11111790606653621,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008943514644351465,
      "loss": 1.9064,
      "step": 3634
    },
    {
      "epoch": 0.11114848336594912,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008943206989908934,
      "loss": 1.9673,
      "step": 3635
    },
    {
      "epoch": 0.11117906066536204,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008942899335466404,
      "loss": 2.2427,
      "step": 3636
    },
    {
      "epoch": 0.11120963796477495,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008942591681023874,
      "loss": 1.8375,
      "step": 3637
    },
    {
      "epoch": 0.11124021526418787,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008942284026581344,
      "loss": 2.2202,
      "step": 3638
    },
    {
      "epoch": 0.11127079256360078,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008941976372138814,
      "loss": 2.4043,
      "step": 3639
    },
    {
      "epoch": 0.1113013698630137,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008941668717696284,
      "loss": 2.1322,
      "step": 3640
    },
    {
      "epoch": 0.11133194716242661,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008941361063253754,
      "loss": 1.9719,
      "step": 3641
    },
    {
      "epoch": 0.11136252446183953,
      "grad_norm": 0.28125,
      "learning_rate": 0.0008941053408811223,
      "loss": 1.8056,
      "step": 3642
    },
    {
      "epoch": 0.11139310176125244,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008940745754368693,
      "loss": 1.9483,
      "step": 3643
    },
    {
      "epoch": 0.11142367906066536,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008940438099926163,
      "loss": 1.7658,
      "step": 3644
    },
    {
      "epoch": 0.11145425636007827,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008940130445483633,
      "loss": 2.4201,
      "step": 3645
    },
    {
      "epoch": 0.11148483365949119,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008939822791041102,
      "loss": 2.259,
      "step": 3646
    },
    {
      "epoch": 0.1115154109589041,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008939515136598573,
      "loss": 2.2236,
      "step": 3647
    },
    {
      "epoch": 0.11154598825831702,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008939207482156043,
      "loss": 2.117,
      "step": 3648
    },
    {
      "epoch": 0.11157656555772995,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008938899827713512,
      "loss": 2.3891,
      "step": 3649
    },
    {
      "epoch": 0.11160714285714286,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008938592173270982,
      "loss": 2.2777,
      "step": 3650
    },
    {
      "epoch": 0.11163772015655578,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0008938284518828452,
      "loss": 1.5511,
      "step": 3651
    },
    {
      "epoch": 0.11166829745596869,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008937976864385922,
      "loss": 2.1772,
      "step": 3652
    },
    {
      "epoch": 0.11169887475538161,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008937669209943392,
      "loss": 2.4409,
      "step": 3653
    },
    {
      "epoch": 0.11172945205479452,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008937361555500862,
      "loss": 1.9975,
      "step": 3654
    },
    {
      "epoch": 0.11176002935420744,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008937053901058332,
      "loss": 1.9614,
      "step": 3655
    },
    {
      "epoch": 0.11179060665362035,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0008936746246615801,
      "loss": 2.0121,
      "step": 3656
    },
    {
      "epoch": 0.11182118395303327,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008936438592173271,
      "loss": 1.8332,
      "step": 3657
    },
    {
      "epoch": 0.11185176125244618,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008936130937730741,
      "loss": 2.4163,
      "step": 3658
    },
    {
      "epoch": 0.1118823385518591,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008935823283288211,
      "loss": 1.8499,
      "step": 3659
    },
    {
      "epoch": 0.11191291585127201,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008935515628845681,
      "loss": 2.2107,
      "step": 3660
    },
    {
      "epoch": 0.11194349315068493,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000893520797440315,
      "loss": 2.1058,
      "step": 3661
    },
    {
      "epoch": 0.11197407045009784,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008934900319960621,
      "loss": 1.8977,
      "step": 3662
    },
    {
      "epoch": 0.11200464774951076,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008934592665518089,
      "loss": 1.8416,
      "step": 3663
    },
    {
      "epoch": 0.11203522504892367,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000893428501107556,
      "loss": 2.2191,
      "step": 3664
    },
    {
      "epoch": 0.1120658023483366,
      "grad_norm": 0.359375,
      "learning_rate": 0.0008933977356633029,
      "loss": 2.6204,
      "step": 3665
    },
    {
      "epoch": 0.11209637964774952,
      "grad_norm": 0.3046875,
      "learning_rate": 0.00089336697021905,
      "loss": 2.0771,
      "step": 3666
    },
    {
      "epoch": 0.11212695694716243,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008933362047747969,
      "loss": 2.3244,
      "step": 3667
    },
    {
      "epoch": 0.11215753424657535,
      "grad_norm": 0.33203125,
      "learning_rate": 0.000893305439330544,
      "loss": 2.3489,
      "step": 3668
    },
    {
      "epoch": 0.11218811154598826,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000893274673886291,
      "loss": 2.3629,
      "step": 3669
    },
    {
      "epoch": 0.11221868884540118,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008932439084420379,
      "loss": 2.338,
      "step": 3670
    },
    {
      "epoch": 0.11224926614481409,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008932131429977849,
      "loss": 2.1916,
      "step": 3671
    },
    {
      "epoch": 0.112279843444227,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008931823775535319,
      "loss": 2.1159,
      "step": 3672
    },
    {
      "epoch": 0.11231042074363992,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008931516121092789,
      "loss": 2.2363,
      "step": 3673
    },
    {
      "epoch": 0.11234099804305284,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008931208466650259,
      "loss": 1.9298,
      "step": 3674
    },
    {
      "epoch": 0.11237157534246575,
      "grad_norm": 0.267578125,
      "learning_rate": 0.0008930900812207729,
      "loss": 1.6213,
      "step": 3675
    },
    {
      "epoch": 0.11240215264187867,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008930593157765198,
      "loss": 2.2379,
      "step": 3676
    },
    {
      "epoch": 0.11243272994129158,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008930285503322668,
      "loss": 2.0027,
      "step": 3677
    },
    {
      "epoch": 0.1124633072407045,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008929977848880137,
      "loss": 2.1616,
      "step": 3678
    },
    {
      "epoch": 0.11249388454011741,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008929670194437608,
      "loss": 2.4524,
      "step": 3679
    },
    {
      "epoch": 0.11252446183953033,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008929362539995077,
      "loss": 2.2573,
      "step": 3680
    },
    {
      "epoch": 0.11255503913894326,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008929054885552548,
      "loss": 1.9269,
      "step": 3681
    },
    {
      "epoch": 0.11258561643835617,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008928747231110017,
      "loss": 2.4289,
      "step": 3682
    },
    {
      "epoch": 0.11261619373776909,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008928439576667488,
      "loss": 2.273,
      "step": 3683
    },
    {
      "epoch": 0.112646771037182,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008928131922224957,
      "loss": 2.0017,
      "step": 3684
    },
    {
      "epoch": 0.11267734833659492,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008927824267782427,
      "loss": 2.1169,
      "step": 3685
    },
    {
      "epoch": 0.11270792563600783,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008927516613339896,
      "loss": 2.425,
      "step": 3686
    },
    {
      "epoch": 0.11273850293542075,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0008927208958897367,
      "loss": 1.9225,
      "step": 3687
    },
    {
      "epoch": 0.11276908023483366,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008926901304454836,
      "loss": 2.0303,
      "step": 3688
    },
    {
      "epoch": 0.11279965753424658,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008926593650012307,
      "loss": 2.2271,
      "step": 3689
    },
    {
      "epoch": 0.11283023483365949,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008926285995569777,
      "loss": 2.0523,
      "step": 3690
    },
    {
      "epoch": 0.1128608121330724,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008925978341127247,
      "loss": 1.8607,
      "step": 3691
    },
    {
      "epoch": 0.11289138943248532,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008925670686684716,
      "loss": 2.2413,
      "step": 3692
    },
    {
      "epoch": 0.11292196673189824,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008925363032242185,
      "loss": 2.5055,
      "step": 3693
    },
    {
      "epoch": 0.11295254403131115,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008925055377799656,
      "loss": 2.117,
      "step": 3694
    },
    {
      "epoch": 0.11298312133072407,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008924747723357125,
      "loss": 2.0332,
      "step": 3695
    },
    {
      "epoch": 0.11301369863013698,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008924440068914596,
      "loss": 2.2667,
      "step": 3696
    },
    {
      "epoch": 0.11304427592954991,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0008924132414472065,
      "loss": 2.3592,
      "step": 3697
    },
    {
      "epoch": 0.11307485322896282,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0008923824760029536,
      "loss": 2.4213,
      "step": 3698
    },
    {
      "epoch": 0.11310543052837574,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008923517105587004,
      "loss": 2.377,
      "step": 3699
    },
    {
      "epoch": 0.11313600782778865,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008923209451144475,
      "loss": 2.3443,
      "step": 3700
    },
    {
      "epoch": 0.11316658512720157,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008922901796701944,
      "loss": 1.837,
      "step": 3701
    },
    {
      "epoch": 0.11319716242661448,
      "grad_norm": 0.26953125,
      "learning_rate": 0.0008922594142259415,
      "loss": 1.5273,
      "step": 3702
    },
    {
      "epoch": 0.1132277397260274,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008922286487816884,
      "loss": 2.1591,
      "step": 3703
    },
    {
      "epoch": 0.11325831702544031,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0008921978833374355,
      "loss": 2.6421,
      "step": 3704
    },
    {
      "epoch": 0.11328889432485323,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008921671178931824,
      "loss": 1.909,
      "step": 3705
    },
    {
      "epoch": 0.11331947162426614,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0008921363524489294,
      "loss": 2.3077,
      "step": 3706
    },
    {
      "epoch": 0.11335004892367906,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008921055870046763,
      "loss": 2.0697,
      "step": 3707
    },
    {
      "epoch": 0.11338062622309197,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008920748215604233,
      "loss": 2.028,
      "step": 3708
    },
    {
      "epoch": 0.11341120352250489,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008920440561161703,
      "loss": 2.2531,
      "step": 3709
    },
    {
      "epoch": 0.1134417808219178,
      "grad_norm": 0.34375,
      "learning_rate": 0.0008920132906719173,
      "loss": 2.1355,
      "step": 3710
    },
    {
      "epoch": 0.11347235812133072,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008919825252276644,
      "loss": 2.2398,
      "step": 3711
    },
    {
      "epoch": 0.11350293542074363,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008919517597834113,
      "loss": 2.3125,
      "step": 3712
    },
    {
      "epoch": 0.11353351272015656,
      "grad_norm": 0.255859375,
      "learning_rate": 0.0008919209943391583,
      "loss": 1.5609,
      "step": 3713
    },
    {
      "epoch": 0.11356409001956948,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008918902288949052,
      "loss": 1.9741,
      "step": 3714
    },
    {
      "epoch": 0.11359466731898239,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008918594634506523,
      "loss": 2.3535,
      "step": 3715
    },
    {
      "epoch": 0.11362524461839531,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008918286980063992,
      "loss": 2.2006,
      "step": 3716
    },
    {
      "epoch": 0.11365582191780822,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008917979325621463,
      "loss": 2.4404,
      "step": 3717
    },
    {
      "epoch": 0.11368639921722114,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008917671671178932,
      "loss": 2.4439,
      "step": 3718
    },
    {
      "epoch": 0.11371697651663405,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008917364016736403,
      "loss": 1.8032,
      "step": 3719
    },
    {
      "epoch": 0.11374755381604697,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0008917056362293871,
      "loss": 1.5918,
      "step": 3720
    },
    {
      "epoch": 0.11377813111545988,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008916748707851342,
      "loss": 1.937,
      "step": 3721
    },
    {
      "epoch": 0.1138087084148728,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008916441053408811,
      "loss": 2.2074,
      "step": 3722
    },
    {
      "epoch": 0.11383928571428571,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008916133398966281,
      "loss": 2.2362,
      "step": 3723
    },
    {
      "epoch": 0.11386986301369863,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008915825744523751,
      "loss": 1.8036,
      "step": 3724
    },
    {
      "epoch": 0.11390044031311154,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0008915518090081221,
      "loss": 2.5919,
      "step": 3725
    },
    {
      "epoch": 0.11393101761252446,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008915210435638691,
      "loss": 2.1238,
      "step": 3726
    },
    {
      "epoch": 0.11396159491193737,
      "grad_norm": 0.291015625,
      "learning_rate": 0.000891490278119616,
      "loss": 2.1162,
      "step": 3727
    },
    {
      "epoch": 0.11399217221135029,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000891459512675363,
      "loss": 2.3594,
      "step": 3728
    },
    {
      "epoch": 0.11402274951076322,
      "grad_norm": 0.296875,
      "learning_rate": 0.00089142874723111,
      "loss": 1.9654,
      "step": 3729
    },
    {
      "epoch": 0.11405332681017613,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000891397981786857,
      "loss": 2.209,
      "step": 3730
    },
    {
      "epoch": 0.11408390410958905,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000891367216342604,
      "loss": 2.4481,
      "step": 3731
    },
    {
      "epoch": 0.11411448140900196,
      "grad_norm": 0.3125,
      "learning_rate": 0.000891336450898351,
      "loss": 2.2885,
      "step": 3732
    },
    {
      "epoch": 0.11414505870841488,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000891305685454098,
      "loss": 2.2651,
      "step": 3733
    },
    {
      "epoch": 0.11417563600782779,
      "grad_norm": 0.27734375,
      "learning_rate": 0.000891274920009845,
      "loss": 1.7607,
      "step": 3734
    },
    {
      "epoch": 0.1142062133072407,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008912441545655919,
      "loss": 1.9033,
      "step": 3735
    },
    {
      "epoch": 0.11423679060665362,
      "grad_norm": 0.31640625,
      "learning_rate": 0.000891213389121339,
      "loss": 2.3424,
      "step": 3736
    },
    {
      "epoch": 0.11426736790606654,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008911826236770859,
      "loss": 2.087,
      "step": 3737
    },
    {
      "epoch": 0.11429794520547945,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008911518582328329,
      "loss": 2.0368,
      "step": 3738
    },
    {
      "epoch": 0.11432852250489237,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008911210927885799,
      "loss": 2.0352,
      "step": 3739
    },
    {
      "epoch": 0.11435909980430528,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008910903273443269,
      "loss": 1.9233,
      "step": 3740
    },
    {
      "epoch": 0.1143896771037182,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0008910595619000738,
      "loss": 2.2702,
      "step": 3741
    },
    {
      "epoch": 0.11442025440313111,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008910287964558208,
      "loss": 2.1076,
      "step": 3742
    },
    {
      "epoch": 0.11445083170254403,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008909980310115678,
      "loss": 2.0847,
      "step": 3743
    },
    {
      "epoch": 0.11448140900195694,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008909672655673148,
      "loss": 2.2083,
      "step": 3744
    },
    {
      "epoch": 0.11451198630136987,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008909365001230618,
      "loss": 2.4894,
      "step": 3745
    },
    {
      "epoch": 0.11454256360078278,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008909057346788088,
      "loss": 1.9778,
      "step": 3746
    },
    {
      "epoch": 0.1145731409001957,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008908749692345558,
      "loss": 1.991,
      "step": 3747
    },
    {
      "epoch": 0.11460371819960861,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008908442037903027,
      "loss": 2.3115,
      "step": 3748
    },
    {
      "epoch": 0.11463429549902153,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008908134383460497,
      "loss": 1.9638,
      "step": 3749
    },
    {
      "epoch": 0.11466487279843444,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008907826729017967,
      "loss": 1.7713,
      "step": 3750
    },
    {
      "epoch": 0.11469545009784736,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0008907519074575437,
      "loss": 1.7547,
      "step": 3751
    },
    {
      "epoch": 0.11472602739726027,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008907211420132907,
      "loss": 2.091,
      "step": 3752
    },
    {
      "epoch": 0.11475660469667319,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008906903765690378,
      "loss": 2.3376,
      "step": 3753
    },
    {
      "epoch": 0.1147871819960861,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008906596111247847,
      "loss": 2.2103,
      "step": 3754
    },
    {
      "epoch": 0.11481775929549902,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008906288456805316,
      "loss": 2.3734,
      "step": 3755
    },
    {
      "epoch": 0.11484833659491193,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008905980802362786,
      "loss": 2.2377,
      "step": 3756
    },
    {
      "epoch": 0.11487891389432485,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008905673147920255,
      "loss": 2.3594,
      "step": 3757
    },
    {
      "epoch": 0.11490949119373776,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008905365493477726,
      "loss": 2.0139,
      "step": 3758
    },
    {
      "epoch": 0.11494006849315068,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008905057839035196,
      "loss": 2.3834,
      "step": 3759
    },
    {
      "epoch": 0.1149706457925636,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008904750184592666,
      "loss": 2.4086,
      "step": 3760
    },
    {
      "epoch": 0.11500122309197652,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008904442530150136,
      "loss": 2.2754,
      "step": 3761
    },
    {
      "epoch": 0.11503180039138944,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008904134875707606,
      "loss": 2.0156,
      "step": 3762
    },
    {
      "epoch": 0.11506237769080235,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008903827221265075,
      "loss": 2.1835,
      "step": 3763
    },
    {
      "epoch": 0.11509295499021527,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008903519566822545,
      "loss": 1.9074,
      "step": 3764
    },
    {
      "epoch": 0.11512353228962818,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008903211912380015,
      "loss": 2.422,
      "step": 3765
    },
    {
      "epoch": 0.1151541095890411,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0008902904257937485,
      "loss": 2.2291,
      "step": 3766
    },
    {
      "epoch": 0.11518468688845401,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008902596603494955,
      "loss": 2.0332,
      "step": 3767
    },
    {
      "epoch": 0.11521526418786693,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008902288949052425,
      "loss": 2.4084,
      "step": 3768
    },
    {
      "epoch": 0.11524584148727984,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008901981294609895,
      "loss": 2.1565,
      "step": 3769
    },
    {
      "epoch": 0.11527641878669276,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008901673640167363,
      "loss": 2.36,
      "step": 3770
    },
    {
      "epoch": 0.11530699608610567,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008901365985724834,
      "loss": 2.2507,
      "step": 3771
    },
    {
      "epoch": 0.11533757338551859,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008901058331282303,
      "loss": 2.3491,
      "step": 3772
    },
    {
      "epoch": 0.1153681506849315,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008900750676839774,
      "loss": 2.0012,
      "step": 3773
    },
    {
      "epoch": 0.11539872798434442,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008900443022397243,
      "loss": 2.0954,
      "step": 3774
    },
    {
      "epoch": 0.11542930528375733,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008900135367954714,
      "loss": 2.2939,
      "step": 3775
    },
    {
      "epoch": 0.11545988258317025,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0008899827713512183,
      "loss": 1.6799,
      "step": 3776
    },
    {
      "epoch": 0.11549045988258318,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008899520059069653,
      "loss": 1.7374,
      "step": 3777
    },
    {
      "epoch": 0.11552103718199609,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008899212404627122,
      "loss": 2.1242,
      "step": 3778
    },
    {
      "epoch": 0.115551614481409,
      "grad_norm": 0.263671875,
      "learning_rate": 0.0008898904750184593,
      "loss": 1.766,
      "step": 3779
    },
    {
      "epoch": 0.11558219178082192,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008898597095742063,
      "loss": 1.9031,
      "step": 3780
    },
    {
      "epoch": 0.11561276908023484,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008898289441299533,
      "loss": 2.0419,
      "step": 3781
    },
    {
      "epoch": 0.11564334637964775,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008897981786857003,
      "loss": 2.1311,
      "step": 3782
    },
    {
      "epoch": 0.11567392367906067,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0008897674132414473,
      "loss": 2.39,
      "step": 3783
    },
    {
      "epoch": 0.11570450097847358,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008897366477971942,
      "loss": 1.8989,
      "step": 3784
    },
    {
      "epoch": 0.1157350782778865,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008897058823529411,
      "loss": 1.9721,
      "step": 3785
    },
    {
      "epoch": 0.11576565557729941,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0008896751169086882,
      "loss": 2.4931,
      "step": 3786
    },
    {
      "epoch": 0.11579623287671233,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008896443514644351,
      "loss": 2.2361,
      "step": 3787
    },
    {
      "epoch": 0.11582681017612524,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008896135860201822,
      "loss": 1.9894,
      "step": 3788
    },
    {
      "epoch": 0.11585738747553816,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008895828205759291,
      "loss": 2.0317,
      "step": 3789
    },
    {
      "epoch": 0.11588796477495107,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008895520551316762,
      "loss": 2.2038,
      "step": 3790
    },
    {
      "epoch": 0.11591854207436399,
      "grad_norm": 0.33984375,
      "learning_rate": 0.000889521289687423,
      "loss": 2.4954,
      "step": 3791
    },
    {
      "epoch": 0.1159491193737769,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008894905242431701,
      "loss": 2.6238,
      "step": 3792
    },
    {
      "epoch": 0.11597969667318983,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000889459758798917,
      "loss": 2.3042,
      "step": 3793
    },
    {
      "epoch": 0.11601027397260275,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008894289933546641,
      "loss": 2.2881,
      "step": 3794
    },
    {
      "epoch": 0.11604085127201566,
      "grad_norm": 0.3359375,
      "learning_rate": 0.000889398227910411,
      "loss": 2.4638,
      "step": 3795
    },
    {
      "epoch": 0.11607142857142858,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008893674624661581,
      "loss": 2.053,
      "step": 3796
    },
    {
      "epoch": 0.11610200587084149,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000889336697021905,
      "loss": 2.1328,
      "step": 3797
    },
    {
      "epoch": 0.1161325831702544,
      "grad_norm": 0.2890625,
      "learning_rate": 0.000889305931577652,
      "loss": 1.9074,
      "step": 3798
    },
    {
      "epoch": 0.11616316046966732,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000889275166133399,
      "loss": 2.0224,
      "step": 3799
    },
    {
      "epoch": 0.11619373776908024,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008892444006891459,
      "loss": 2.1919,
      "step": 3800
    },
    {
      "epoch": 0.11622431506849315,
      "grad_norm": 0.310546875,
      "learning_rate": 0.000889213635244893,
      "loss": 2.1889,
      "step": 3801
    },
    {
      "epoch": 0.11625489236790607,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008891828698006399,
      "loss": 2.0844,
      "step": 3802
    },
    {
      "epoch": 0.11628546966731898,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000889152104356387,
      "loss": 2.1358,
      "step": 3803
    },
    {
      "epoch": 0.1163160469667319,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008891213389121339,
      "loss": 1.9603,
      "step": 3804
    },
    {
      "epoch": 0.11634662426614481,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008890905734678809,
      "loss": 2.2622,
      "step": 3805
    },
    {
      "epoch": 0.11637720156555773,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008890598080236278,
      "loss": 2.1798,
      "step": 3806
    },
    {
      "epoch": 0.11640777886497064,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008890290425793749,
      "loss": 2.099,
      "step": 3807
    },
    {
      "epoch": 0.11643835616438356,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008889982771351218,
      "loss": 2.211,
      "step": 3808
    },
    {
      "epoch": 0.11646893346379648,
      "grad_norm": 0.333984375,
      "learning_rate": 0.0008889675116908689,
      "loss": 2.1674,
      "step": 3809
    },
    {
      "epoch": 0.1164995107632094,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008889367462466158,
      "loss": 1.9393,
      "step": 3810
    },
    {
      "epoch": 0.11653008806262231,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008889059808023629,
      "loss": 2.0781,
      "step": 3811
    },
    {
      "epoch": 0.11656066536203523,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008888752153581097,
      "loss": 2.2614,
      "step": 3812
    },
    {
      "epoch": 0.11659124266144814,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008888444499138568,
      "loss": 1.8098,
      "step": 3813
    },
    {
      "epoch": 0.11662181996086106,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0008888136844696037,
      "loss": 2.4505,
      "step": 3814
    },
    {
      "epoch": 0.11665239726027397,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008887829190253507,
      "loss": 2.1462,
      "step": 3815
    },
    {
      "epoch": 0.11668297455968689,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008887521535810977,
      "loss": 2.2718,
      "step": 3816
    },
    {
      "epoch": 0.1167135518590998,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008887213881368447,
      "loss": 2.245,
      "step": 3817
    },
    {
      "epoch": 0.11674412915851272,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008886906226925917,
      "loss": 2.2299,
      "step": 3818
    },
    {
      "epoch": 0.11677470645792563,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008886598572483386,
      "loss": 2.4805,
      "step": 3819
    },
    {
      "epoch": 0.11680528375733855,
      "grad_norm": 0.2734375,
      "learning_rate": 0.0008886290918040856,
      "loss": 1.7455,
      "step": 3820
    },
    {
      "epoch": 0.11683586105675146,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008885983263598326,
      "loss": 2.5121,
      "step": 3821
    },
    {
      "epoch": 0.11686643835616438,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008885675609155797,
      "loss": 2.1195,
      "step": 3822
    },
    {
      "epoch": 0.1168970156555773,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008885367954713266,
      "loss": 2.2673,
      "step": 3823
    },
    {
      "epoch": 0.11692759295499021,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008885060300270737,
      "loss": 2.2435,
      "step": 3824
    },
    {
      "epoch": 0.11695817025440314,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0008884752645828206,
      "loss": 2.4755,
      "step": 3825
    },
    {
      "epoch": 0.11698874755381605,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008884444991385677,
      "loss": 2.1717,
      "step": 3826
    },
    {
      "epoch": 0.11701932485322897,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008884137336943145,
      "loss": 2.2026,
      "step": 3827
    },
    {
      "epoch": 0.11704990215264188,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008883829682500616,
      "loss": 2.0226,
      "step": 3828
    },
    {
      "epoch": 0.1170804794520548,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008883522028058085,
      "loss": 2.3258,
      "step": 3829
    },
    {
      "epoch": 0.11711105675146771,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008883214373615556,
      "loss": 2.2041,
      "step": 3830
    },
    {
      "epoch": 0.11714163405088063,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008882906719173025,
      "loss": 2.1992,
      "step": 3831
    },
    {
      "epoch": 0.11717221135029354,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008882599064730495,
      "loss": 2.3506,
      "step": 3832
    },
    {
      "epoch": 0.11720278864970646,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008882291410287965,
      "loss": 2.2384,
      "step": 3833
    },
    {
      "epoch": 0.11723336594911937,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008881983755845434,
      "loss": 2.1965,
      "step": 3834
    },
    {
      "epoch": 0.11726394324853229,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008881676101402904,
      "loss": 2.1114,
      "step": 3835
    },
    {
      "epoch": 0.1172945205479452,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008881368446960374,
      "loss": 2.3162,
      "step": 3836
    },
    {
      "epoch": 0.11732509784735812,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0008881060792517844,
      "loss": 1.6988,
      "step": 3837
    },
    {
      "epoch": 0.11735567514677103,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008880753138075314,
      "loss": 2.0075,
      "step": 3838
    },
    {
      "epoch": 0.11738625244618395,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008880445483632784,
      "loss": 1.9575,
      "step": 3839
    },
    {
      "epoch": 0.11741682974559686,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008880137829190254,
      "loss": 2.3379,
      "step": 3840
    },
    {
      "epoch": 0.11744740704500979,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008879830174747723,
      "loss": 2.5506,
      "step": 3841
    },
    {
      "epoch": 0.1174779843444227,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008879522520305193,
      "loss": 2.2116,
      "step": 3842
    },
    {
      "epoch": 0.11750856164383562,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008879214865862664,
      "loss": 2.0971,
      "step": 3843
    },
    {
      "epoch": 0.11753913894324854,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008878907211420133,
      "loss": 1.9171,
      "step": 3844
    },
    {
      "epoch": 0.11756971624266145,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008878599556977604,
      "loss": 2.2291,
      "step": 3845
    },
    {
      "epoch": 0.11760029354207437,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008878291902535073,
      "loss": 2.1929,
      "step": 3846
    },
    {
      "epoch": 0.11763087084148728,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008877984248092543,
      "loss": 2.2679,
      "step": 3847
    },
    {
      "epoch": 0.1176614481409002,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008877676593650012,
      "loss": 2.0541,
      "step": 3848
    },
    {
      "epoch": 0.11769202544031311,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008877368939207482,
      "loss": 2.0405,
      "step": 3849
    },
    {
      "epoch": 0.11772260273972603,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008877061284764952,
      "loss": 2.1875,
      "step": 3850
    },
    {
      "epoch": 0.11775318003913894,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008876753630322422,
      "loss": 2.2083,
      "step": 3851
    },
    {
      "epoch": 0.11778375733855186,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008876445975879892,
      "loss": 2.0747,
      "step": 3852
    },
    {
      "epoch": 0.11781433463796477,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008876138321437362,
      "loss": 1.9583,
      "step": 3853
    },
    {
      "epoch": 0.11784491193737769,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008875830666994832,
      "loss": 2.1927,
      "step": 3854
    },
    {
      "epoch": 0.1178754892367906,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0008875523012552301,
      "loss": 1.6679,
      "step": 3855
    },
    {
      "epoch": 0.11790606653620352,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008875215358109771,
      "loss": 2.0945,
      "step": 3856
    },
    {
      "epoch": 0.11793664383561644,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008874907703667241,
      "loss": 2.3324,
      "step": 3857
    },
    {
      "epoch": 0.11796722113502936,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008874600049224711,
      "loss": 2.2251,
      "step": 3858
    },
    {
      "epoch": 0.11799779843444227,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008874292394782181,
      "loss": 2.1191,
      "step": 3859
    },
    {
      "epoch": 0.11802837573385519,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008873984740339651,
      "loss": 1.8274,
      "step": 3860
    },
    {
      "epoch": 0.1180589530332681,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008873677085897121,
      "loss": 1.8657,
      "step": 3861
    },
    {
      "epoch": 0.11808953033268102,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008873369431454589,
      "loss": 2.082,
      "step": 3862
    },
    {
      "epoch": 0.11812010763209393,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000887306177701206,
      "loss": 2.0668,
      "step": 3863
    },
    {
      "epoch": 0.11815068493150685,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008872754122569529,
      "loss": 2.3189,
      "step": 3864
    },
    {
      "epoch": 0.11818126223091976,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008872446468127,
      "loss": 1.9214,
      "step": 3865
    },
    {
      "epoch": 0.11821183953033268,
      "grad_norm": 0.333984375,
      "learning_rate": 0.000887213881368447,
      "loss": 2.2875,
      "step": 3866
    },
    {
      "epoch": 0.1182424168297456,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000887183115924194,
      "loss": 2.374,
      "step": 3867
    },
    {
      "epoch": 0.11827299412915851,
      "grad_norm": 0.32421875,
      "learning_rate": 0.000887152350479941,
      "loss": 2.2095,
      "step": 3868
    },
    {
      "epoch": 0.11830357142857142,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008871215850356879,
      "loss": 2.091,
      "step": 3869
    },
    {
      "epoch": 0.11833414872798434,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008870908195914349,
      "loss": 2.4788,
      "step": 3870
    },
    {
      "epoch": 0.11836472602739725,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008870600541471819,
      "loss": 2.0048,
      "step": 3871
    },
    {
      "epoch": 0.11839530332681017,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0008870292887029289,
      "loss": 1.5343,
      "step": 3872
    },
    {
      "epoch": 0.1184258806262231,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008869985232586759,
      "loss": 2.2124,
      "step": 3873
    },
    {
      "epoch": 0.11845645792563601,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008869677578144229,
      "loss": 2.2979,
      "step": 3874
    },
    {
      "epoch": 0.11848703522504893,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008869369923701699,
      "loss": 2.2456,
      "step": 3875
    },
    {
      "epoch": 0.11851761252446184,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008869062269259168,
      "loss": 2.1037,
      "step": 3876
    },
    {
      "epoch": 0.11854818982387476,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008868754614816637,
      "loss": 2.4911,
      "step": 3877
    },
    {
      "epoch": 0.11857876712328767,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008868446960374108,
      "loss": 2.1815,
      "step": 3878
    },
    {
      "epoch": 0.11860934442270059,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008868139305931577,
      "loss": 2.1534,
      "step": 3879
    },
    {
      "epoch": 0.1186399217221135,
      "grad_norm": 0.271484375,
      "learning_rate": 0.0008867831651489048,
      "loss": 1.5515,
      "step": 3880
    },
    {
      "epoch": 0.11867049902152642,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008867523997046517,
      "loss": 2.3824,
      "step": 3881
    },
    {
      "epoch": 0.11870107632093933,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008867216342603988,
      "loss": 1.839,
      "step": 3882
    },
    {
      "epoch": 0.11873165362035225,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008866908688161456,
      "loss": 2.2906,
      "step": 3883
    },
    {
      "epoch": 0.11876223091976516,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008866601033718927,
      "loss": 2.2043,
      "step": 3884
    },
    {
      "epoch": 0.11879280821917808,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008866293379276396,
      "loss": 1.695,
      "step": 3885
    },
    {
      "epoch": 0.118823385518591,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008865985724833867,
      "loss": 1.8504,
      "step": 3886
    },
    {
      "epoch": 0.11885396281800391,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008865678070391337,
      "loss": 2.384,
      "step": 3887
    },
    {
      "epoch": 0.11888454011741682,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008865370415948807,
      "loss": 1.8654,
      "step": 3888
    },
    {
      "epoch": 0.11891511741682975,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008865062761506277,
      "loss": 1.9423,
      "step": 3889
    },
    {
      "epoch": 0.11894569471624267,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008864755107063747,
      "loss": 2.1233,
      "step": 3890
    },
    {
      "epoch": 0.11897627201565558,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008864447452621216,
      "loss": 2.2344,
      "step": 3891
    },
    {
      "epoch": 0.1190068493150685,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008864139798178686,
      "loss": 1.958,
      "step": 3892
    },
    {
      "epoch": 0.11903742661448141,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008863832143736156,
      "loss": 2.0535,
      "step": 3893
    },
    {
      "epoch": 0.11906800391389433,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008863524489293625,
      "loss": 2.0681,
      "step": 3894
    },
    {
      "epoch": 0.11909858121330724,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008863216834851096,
      "loss": 2.0523,
      "step": 3895
    },
    {
      "epoch": 0.11912915851272016,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008862909180408565,
      "loss": 2.5257,
      "step": 3896
    },
    {
      "epoch": 0.11915973581213307,
      "grad_norm": 0.2890625,
      "learning_rate": 0.0008862601525966036,
      "loss": 1.9942,
      "step": 3897
    },
    {
      "epoch": 0.11919031311154599,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008862293871523504,
      "loss": 2.0416,
      "step": 3898
    },
    {
      "epoch": 0.1192208904109589,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008861986217080975,
      "loss": 2.0306,
      "step": 3899
    },
    {
      "epoch": 0.11925146771037182,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008861678562638444,
      "loss": 2.4075,
      "step": 3900
    },
    {
      "epoch": 0.11928204500978473,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008861370908195915,
      "loss": 1.8281,
      "step": 3901
    },
    {
      "epoch": 0.11931262230919765,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008861063253753384,
      "loss": 2.285,
      "step": 3902
    },
    {
      "epoch": 0.11934319960861056,
      "grad_norm": 0.287109375,
      "learning_rate": 0.0008860755599310855,
      "loss": 1.8363,
      "step": 3903
    },
    {
      "epoch": 0.11937377690802348,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008860447944868324,
      "loss": 2.2134,
      "step": 3904
    },
    {
      "epoch": 0.1194043542074364,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008860140290425794,
      "loss": 2.2245,
      "step": 3905
    },
    {
      "epoch": 0.11943493150684932,
      "grad_norm": 0.279296875,
      "learning_rate": 0.0008859832635983263,
      "loss": 1.7072,
      "step": 3906
    },
    {
      "epoch": 0.11946550880626224,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008859524981540734,
      "loss": 2.5778,
      "step": 3907
    },
    {
      "epoch": 0.11949608610567515,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008859217327098204,
      "loss": 2.373,
      "step": 3908
    },
    {
      "epoch": 0.11952666340508807,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008858909672655673,
      "loss": 1.7707,
      "step": 3909
    },
    {
      "epoch": 0.11955724070450098,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008858602018213144,
      "loss": 2.0861,
      "step": 3910
    },
    {
      "epoch": 0.1195878180039139,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008858294363770613,
      "loss": 2.2666,
      "step": 3911
    },
    {
      "epoch": 0.11961839530332681,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008857986709328083,
      "loss": 2.2214,
      "step": 3912
    },
    {
      "epoch": 0.11964897260273973,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0008857679054885552,
      "loss": 1.5732,
      "step": 3913
    },
    {
      "epoch": 0.11967954990215264,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008857371400443023,
      "loss": 2.1924,
      "step": 3914
    },
    {
      "epoch": 0.11971012720156556,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008857063746000492,
      "loss": 2.0306,
      "step": 3915
    },
    {
      "epoch": 0.11974070450097847,
      "grad_norm": 0.298828125,
      "learning_rate": 0.0008856756091557963,
      "loss": 1.9299,
      "step": 3916
    },
    {
      "epoch": 0.11977128180039139,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008856448437115432,
      "loss": 2.2414,
      "step": 3917
    },
    {
      "epoch": 0.1198018590998043,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008856140782672903,
      "loss": 2.124,
      "step": 3918
    },
    {
      "epoch": 0.11983243639921722,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008855833128230371,
      "loss": 2.626,
      "step": 3919
    },
    {
      "epoch": 0.11986301369863013,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008855525473787842,
      "loss": 2.2819,
      "step": 3920
    },
    {
      "epoch": 0.11989359099804306,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008855217819345311,
      "loss": 2.2413,
      "step": 3921
    },
    {
      "epoch": 0.11992416829745597,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0008854910164902782,
      "loss": 2.4383,
      "step": 3922
    },
    {
      "epoch": 0.11995474559686889,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008854602510460251,
      "loss": 2.4208,
      "step": 3923
    },
    {
      "epoch": 0.1199853228962818,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008854294856017721,
      "loss": 2.0026,
      "step": 3924
    },
    {
      "epoch": 0.12001590019569472,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008853987201575191,
      "loss": 2.2008,
      "step": 3925
    },
    {
      "epoch": 0.12004647749510763,
      "grad_norm": 0.30859375,
      "learning_rate": 0.000885367954713266,
      "loss": 2.2233,
      "step": 3926
    },
    {
      "epoch": 0.12007705479452055,
      "grad_norm": 0.30078125,
      "learning_rate": 0.000885337189269013,
      "loss": 2.1575,
      "step": 3927
    },
    {
      "epoch": 0.12010763209393346,
      "grad_norm": 0.306640625,
      "learning_rate": 0.00088530642382476,
      "loss": 2.1771,
      "step": 3928
    },
    {
      "epoch": 0.12013820939334638,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000885275658380507,
      "loss": 2.3489,
      "step": 3929
    },
    {
      "epoch": 0.1201687866927593,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000885244892936254,
      "loss": 2.1375,
      "step": 3930
    },
    {
      "epoch": 0.12019936399217221,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008852141274920011,
      "loss": 1.9156,
      "step": 3931
    },
    {
      "epoch": 0.12022994129158512,
      "grad_norm": 0.28515625,
      "learning_rate": 0.000885183362047748,
      "loss": 1.9732,
      "step": 3932
    },
    {
      "epoch": 0.12026051859099804,
      "grad_norm": 0.306640625,
      "learning_rate": 0.000885152596603495,
      "loss": 2.1837,
      "step": 3933
    },
    {
      "epoch": 0.12029109589041095,
      "grad_norm": 0.28125,
      "learning_rate": 0.0008851218311592419,
      "loss": 1.7684,
      "step": 3934
    },
    {
      "epoch": 0.12032167318982387,
      "grad_norm": 0.3203125,
      "learning_rate": 0.000885091065714989,
      "loss": 2.2305,
      "step": 3935
    },
    {
      "epoch": 0.12035225048923678,
      "grad_norm": 0.30078125,
      "learning_rate": 0.0008850603002707359,
      "loss": 2.1024,
      "step": 3936
    },
    {
      "epoch": 0.12038282778864971,
      "grad_norm": 0.294921875,
      "learning_rate": 0.000885029534826483,
      "loss": 2.1778,
      "step": 3937
    },
    {
      "epoch": 0.12041340508806263,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0008849987693822299,
      "loss": 1.8247,
      "step": 3938
    },
    {
      "epoch": 0.12044398238747554,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008849680039379769,
      "loss": 2.4146,
      "step": 3939
    },
    {
      "epoch": 0.12047455968688846,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008849372384937238,
      "loss": 2.3135,
      "step": 3940
    },
    {
      "epoch": 0.12050513698630137,
      "grad_norm": 0.27734375,
      "learning_rate": 0.0008849064730494708,
      "loss": 1.8117,
      "step": 3941
    },
    {
      "epoch": 0.12053571428571429,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0008848757076052178,
      "loss": 2.4308,
      "step": 3942
    },
    {
      "epoch": 0.1205662915851272,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008848449421609648,
      "loss": 2.3113,
      "step": 3943
    },
    {
      "epoch": 0.12059686888454012,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008848141767167118,
      "loss": 1.9371,
      "step": 3944
    },
    {
      "epoch": 0.12062744618395303,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0008847834112724588,
      "loss": 2.477,
      "step": 3945
    },
    {
      "epoch": 0.12065802348336595,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008847526458282058,
      "loss": 2.2288,
      "step": 3946
    },
    {
      "epoch": 0.12068860078277886,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008847218803839527,
      "loss": 2.0868,
      "step": 3947
    },
    {
      "epoch": 0.12071917808219178,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008846911149396997,
      "loss": 1.9924,
      "step": 3948
    },
    {
      "epoch": 0.12074975538160469,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008846603494954467,
      "loss": 2.0339,
      "step": 3949
    },
    {
      "epoch": 0.12078033268101761,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008846295840511938,
      "loss": 2.2237,
      "step": 3950
    },
    {
      "epoch": 0.12081090998043052,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008845988186069407,
      "loss": 2.0787,
      "step": 3951
    },
    {
      "epoch": 0.12084148727984344,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008845680531626878,
      "loss": 2.4172,
      "step": 3952
    },
    {
      "epoch": 0.12087206457925637,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008845372877184347,
      "loss": 2.3013,
      "step": 3953
    },
    {
      "epoch": 0.12090264187866928,
      "grad_norm": 0.283203125,
      "learning_rate": 0.0008845065222741818,
      "loss": 1.8504,
      "step": 3954
    },
    {
      "epoch": 0.1209332191780822,
      "grad_norm": 0.296875,
      "learning_rate": 0.0008844757568299286,
      "loss": 1.999,
      "step": 3955
    },
    {
      "epoch": 0.12096379647749511,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008844449913856756,
      "loss": 2.3438,
      "step": 3956
    },
    {
      "epoch": 0.12099437377690803,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008844142259414226,
      "loss": 2.3576,
      "step": 3957
    },
    {
      "epoch": 0.12102495107632094,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008843834604971696,
      "loss": 2.2018,
      "step": 3958
    },
    {
      "epoch": 0.12105552837573386,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008843526950529166,
      "loss": 2.3691,
      "step": 3959
    },
    {
      "epoch": 0.12108610567514677,
      "grad_norm": 0.314453125,
      "learning_rate": 0.0008843219296086636,
      "loss": 2.1692,
      "step": 3960
    },
    {
      "epoch": 0.12111668297455969,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0008842911641644106,
      "loss": 2.5338,
      "step": 3961
    },
    {
      "epoch": 0.1211472602739726,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0008842603987201575,
      "loss": 2.4502,
      "step": 3962
    },
    {
      "epoch": 0.12117783757338552,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008842296332759045,
      "loss": 2.3103,
      "step": 3963
    },
    {
      "epoch": 0.12120841487279843,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008841988678316515,
      "loss": 2.0996,
      "step": 3964
    },
    {
      "epoch": 0.12123899217221135,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008841681023873985,
      "loss": 2.1703,
      "step": 3965
    },
    {
      "epoch": 0.12126956947162426,
      "grad_norm": 0.30859375,
      "learning_rate": 0.0008841373369431455,
      "loss": 2.1331,
      "step": 3966
    },
    {
      "epoch": 0.12130014677103718,
      "grad_norm": 0.318359375,
      "learning_rate": 0.0008841065714988925,
      "loss": 2.2022,
      "step": 3967
    },
    {
      "epoch": 0.12133072407045009,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008840758060546395,
      "loss": 2.194,
      "step": 3968
    },
    {
      "epoch": 0.12136130136986302,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008840450406103864,
      "loss": 2.039,
      "step": 3969
    },
    {
      "epoch": 0.12139187866927593,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008840142751661334,
      "loss": 1.9788,
      "step": 3970
    },
    {
      "epoch": 0.12142245596868885,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008839835097218803,
      "loss": 2.0101,
      "step": 3971
    },
    {
      "epoch": 0.12145303326810176,
      "grad_norm": 0.302734375,
      "learning_rate": 0.0008839527442776274,
      "loss": 2.1996,
      "step": 3972
    },
    {
      "epoch": 0.12148361056751468,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008839219788333743,
      "loss": 2.0883,
      "step": 3973
    },
    {
      "epoch": 0.1215141878669276,
      "grad_norm": 0.310546875,
      "learning_rate": 0.0008838912133891214,
      "loss": 2.263,
      "step": 3974
    },
    {
      "epoch": 0.12154476516634051,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0008838604479448684,
      "loss": 2.3993,
      "step": 3975
    },
    {
      "epoch": 0.12157534246575342,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008838296825006153,
      "loss": 2.2634,
      "step": 3976
    },
    {
      "epoch": 0.12160591976516634,
      "grad_norm": 0.306640625,
      "learning_rate": 0.0008837989170563623,
      "loss": 2.2918,
      "step": 3977
    },
    {
      "epoch": 0.12163649706457925,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0008837681516121093,
      "loss": 2.1559,
      "step": 3978
    },
    {
      "epoch": 0.12166707436399217,
      "grad_norm": 0.31640625,
      "learning_rate": 0.0008837373861678563,
      "loss": 2.3582,
      "step": 3979
    },
    {
      "epoch": 0.12169765166340508,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0008837066207236033,
      "loss": 2.429,
      "step": 3980
    },
    {
      "epoch": 0.121728228962818,
      "grad_norm": 0.3125,
      "learning_rate": 0.0008836758552793503,
      "loss": 2.1885,
      "step": 3981
    },
    {
      "epoch": 0.12175880626223091,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008836450898350973,
      "loss": 2.1815,
      "step": 3982
    },
    {
      "epoch": 0.12178938356164383,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008836143243908442,
      "loss": 1.873,
      "step": 3983
    },
    {
      "epoch": 0.12181996086105674,
      "grad_norm": 0.328125,
      "learning_rate": 0.0008835835589465912,
      "loss": 2.5885,
      "step": 3984
    },
    {
      "epoch": 0.12185053816046967,
      "grad_norm": 0.275390625,
      "learning_rate": 0.0008835527935023382,
      "loss": 1.7535,
      "step": 3985
    },
    {
      "epoch": 0.12188111545988259,
      "grad_norm": 0.28515625,
      "learning_rate": 0.0008835220280580851,
      "loss": 1.8106,
      "step": 3986
    },
    {
      "epoch": 0.1219116927592955,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0008834912626138322,
      "loss": 2.4255,
      "step": 3987
    },
    {
      "epoch": 0.12194227005870842,
      "grad_norm": 0.291015625,
      "learning_rate": 0.0008834604971695791,
      "loss": 1.9467,
      "step": 3988
    },
    {
      "epoch": 0.12197284735812133,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0008834297317253262,
      "loss": 2.3549,
      "step": 3989
    },
    {
      "epoch": 0.12200342465753425,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000883398966281073,
      "loss": 2.3521,
      "step": 3990
    },
    {
      "epoch": 0.12203400195694716,
      "grad_norm": 0.29296875,
      "learning_rate": 0.0008833682008368201,
      "loss": 1.9542,
      "step": 3991
    },
    {
      "epoch": 0.12206457925636008,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000883337435392567,
      "loss": 2.2421,
      "step": 3992
    },
    {
      "epoch": 0.122095156555773,
      "grad_norm": 0.28125,
      "learning_rate": 0.0008833066699483141,
      "loss": 1.8455,
      "step": 3993
    },
    {
      "epoch": 0.12212573385518591,
      "grad_norm": 0.298828125,
      "learning_rate": 0.000883275904504061,
      "loss": 1.8466,
      "step": 3994
    },
    {
      "epoch": 0.12215631115459882,
      "grad_norm": 0.294921875,
      "learning_rate": 0.0008832451390598081,
      "loss": 2.0362,
      "step": 3995
    },
    {
      "epoch": 0.12218688845401174,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0008832143736155551,
      "loss": 2.3504,
      "step": 3996
    },
    {
      "epoch": 0.12221746575342465,
      "grad_norm": 0.337890625,
      "learning_rate": 0.000883183608171302,
      "loss": 2.3709,
      "step": 3997
    },
    {
      "epoch": 0.12224804305283757,
      "grad_norm": 0.296875,
      "learning_rate": 0.000883152842727049,
      "loss": 1.8802,
      "step": 3998
    },
    {
      "epoch": 0.12227862035225048,
      "grad_norm": 0.314453125,
      "learning_rate": 0.000883122077282796,
      "loss": 2.2276,
      "step": 3999
    },
    {
      "epoch": 0.1223091976516634,
      "grad_norm": 0.318359375,
      "learning_rate": 0.000883091311838543,
      "loss": 2.3157,
      "step": 4000
    },
    {
      "epoch": 0.1223091976516634,
      "eval_loss": 1.6930969953536987,
      "eval_runtime": 70.5984,
      "eval_samples_per_second": 12.691,
      "eval_steps_per_second": 0.397,
      "step": 4000
    },
    {
      "epoch": 0.1223091976516634,
      "eval/hellaswag_acc": 0.37532364070902213,
      "eval/hellaswag_acc_norm": 0.47092212706632147,
      "eval_hellaswag_elapsed_time": 325.69583201408386,
      "step": 4000
    }
  ],
  "logging_steps": 1,
  "max_steps": 32704,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.033762523578368e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}