Training in progress, step 600, checkpoint

3ce2c13 verified 11 months ago

106 kB

	{
	"best_metric": 1.5770864486694336,
	"best_model_checkpoint": "miner_id_24/checkpoint-600",
	"epoch": 0.3236573278041873,
	"eval_steps": 200,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005394288796736456,
	"grad_norm": 18.71552085876465,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 57.3329,
	"step": 1
	},
	{
	"epoch": 0.0005394288796736456,
	"eval_loss": 4.576467514038086,
	"eval_runtime": 141.0154,
	"eval_samples_per_second": 2.12,
	"eval_steps_per_second": 2.12,
	"step": 1
	},
	{
	"epoch": 0.0010788577593472911,
	"grad_norm": 40.17718505859375,
	"learning_rate": 4.000000000000001e-06,
	"loss": 111.721,
	"step": 2
	},
	{
	"epoch": 0.0016182866390209367,
	"grad_norm": 55.62163162231445,
	"learning_rate": 6e-06,
	"loss": 145.8098,
	"step": 3
	},
	{
	"epoch": 0.0021577155186945822,
	"grad_norm": 70.09906005859375,
	"learning_rate": 8.000000000000001e-06,
	"loss": 176.5399,
	"step": 4
	},
	{
	"epoch": 0.0026971443983682276,
	"grad_norm": 96.45822143554688,
	"learning_rate": 1e-05,
	"loss": 205.6804,
	"step": 5
	},
	{
	"epoch": 0.0032365732780418733,
	"grad_norm": 96.46897888183594,
	"learning_rate": 1.2e-05,
	"loss": 191.1242,
	"step": 6
	},
	{
	"epoch": 0.0037760021577155187,
	"grad_norm": 123.18101501464844,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 200.1216,
	"step": 7
	},
	{
	"epoch": 0.0043154310373891645,
	"grad_norm": 112.75751495361328,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 199.3468,
	"step": 8
	},
	{
	"epoch": 0.00485485991706281,
	"grad_norm": 105.84030151367188,
	"learning_rate": 1.8e-05,
	"loss": 197.7578,
	"step": 9
	},
	{
	"epoch": 0.005394288796736455,
	"grad_norm": 152.0435333251953,
	"learning_rate": 2e-05,
	"loss": 221.8745,
	"step": 10
	},
	{
	"epoch": 0.0059337176764101005,
	"grad_norm": 140.9628143310547,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 202.1205,
	"step": 11
	},
	{
	"epoch": 0.006473146556083747,
	"grad_norm": 136.8531036376953,
	"learning_rate": 2.4e-05,
	"loss": 192.207,
	"step": 12
	},
	{
	"epoch": 0.007012575435757392,
	"grad_norm": 135.1580352783203,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 188.5981,
	"step": 13
	},
	{
	"epoch": 0.007552004315431037,
	"grad_norm": 135.94815063476562,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 182.9973,
	"step": 14
	},
	{
	"epoch": 0.008091433195104683,
	"grad_norm": 130.7935333251953,
	"learning_rate": 3e-05,
	"loss": 181.9996,
	"step": 15
	},
	{
	"epoch": 0.008630862074778329,
	"grad_norm": 135.71165466308594,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 156.7745,
	"step": 16
	},
	{
	"epoch": 0.009170290954451973,
	"grad_norm": 80.55735778808594,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 105.2249,
	"step": 17
	},
	{
	"epoch": 0.00970971983412562,
	"grad_norm": 78.56623840332031,
	"learning_rate": 3.6e-05,
	"loss": 93.8699,
	"step": 18
	},
	{
	"epoch": 0.010249148713799266,
	"grad_norm": 73.5405502319336,
	"learning_rate": 3.8e-05,
	"loss": 96.5256,
	"step": 19
	},
	{
	"epoch": 0.01078857759347291,
	"grad_norm": 66.16717529296875,
	"learning_rate": 4e-05,
	"loss": 79.6901,
	"step": 20
	},
	{
	"epoch": 0.011328006473146556,
	"grad_norm": 65.6923599243164,
	"learning_rate": 4.2e-05,
	"loss": 90.1881,
	"step": 21
	},
	{
	"epoch": 0.011867435352820201,
	"grad_norm": 77.53053283691406,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 85.8049,
	"step": 22
	},
	{
	"epoch": 0.012406864232493847,
	"grad_norm": 71.17222595214844,
	"learning_rate": 4.600000000000001e-05,
	"loss": 64.6935,
	"step": 23
	},
	{
	"epoch": 0.012946293112167493,
	"grad_norm": 46.50193786621094,
	"learning_rate": 4.8e-05,
	"loss": 72.2138,
	"step": 24
	},
	{
	"epoch": 0.013485721991841138,
	"grad_norm": 45.66022491455078,
	"learning_rate": 5e-05,
	"loss": 71.2709,
	"step": 25
	},
	{
	"epoch": 0.014025150871514784,
	"grad_norm": 46.14365768432617,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 59.7781,
	"step": 26
	},
	{
	"epoch": 0.014564579751188429,
	"grad_norm": 54.284664154052734,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 64.8576,
	"step": 27
	},
	{
	"epoch": 0.015104008630862075,
	"grad_norm": 43.3782958984375,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 68.6312,
	"step": 28
	},
	{
	"epoch": 0.01564343751053572,
	"grad_norm": 35.549217224121094,
	"learning_rate": 5.8e-05,
	"loss": 62.3088,
	"step": 29
	},
	{
	"epoch": 0.016182866390209365,
	"grad_norm": 42.21353530883789,
	"learning_rate": 6e-05,
	"loss": 65.5001,
	"step": 30
	},
	{
	"epoch": 0.01672229526988301,
	"grad_norm": 46.08031463623047,
	"learning_rate": 6.2e-05,
	"loss": 57.0952,
	"step": 31
	},
	{
	"epoch": 0.017261724149556658,
	"grad_norm": 38.45962905883789,
	"learning_rate": 6.400000000000001e-05,
	"loss": 65.1331,
	"step": 32
	},
	{
	"epoch": 0.017801153029230302,
	"grad_norm": 34.330406188964844,
	"learning_rate": 6.6e-05,
	"loss": 56.026,
	"step": 33
	},
	{
	"epoch": 0.018340581908903947,
	"grad_norm": 35.08675003051758,
	"learning_rate": 6.800000000000001e-05,
	"loss": 55.9277,
	"step": 34
	},
	{
	"epoch": 0.018880010788577595,
	"grad_norm": 37.337825775146484,
	"learning_rate": 7e-05,
	"loss": 53.9387,
	"step": 35
	},
	{
	"epoch": 0.01941943966825124,
	"grad_norm": 36.146873474121094,
	"learning_rate": 7.2e-05,
	"loss": 61.2999,
	"step": 36
	},
	{
	"epoch": 0.019958868547924884,
	"grad_norm": 41.229610443115234,
	"learning_rate": 7.4e-05,
	"loss": 70.8618,
	"step": 37
	},
	{
	"epoch": 0.02049829742759853,
	"grad_norm": 42.86275863647461,
	"learning_rate": 7.6e-05,
	"loss": 60.1886,
	"step": 38
	},
	{
	"epoch": 0.021037726307272176,
	"grad_norm": 36.5433235168457,
	"learning_rate": 7.800000000000001e-05,
	"loss": 61.5439,
	"step": 39
	},
	{
	"epoch": 0.02157715518694582,
	"grad_norm": 39.95774841308594,
	"learning_rate": 8e-05,
	"loss": 57.8462,
	"step": 40
	},
	{
	"epoch": 0.022116584066619465,
	"grad_norm": 38.86470413208008,
	"learning_rate": 8.2e-05,
	"loss": 55.4324,
	"step": 41
	},
	{
	"epoch": 0.022656012946293113,
	"grad_norm": 30.977352142333984,
	"learning_rate": 8.4e-05,
	"loss": 57.6402,
	"step": 42
	},
	{
	"epoch": 0.023195441825966757,
	"grad_norm": 38.25783157348633,
	"learning_rate": 8.6e-05,
	"loss": 50.586,
	"step": 43
	},
	{
	"epoch": 0.023734870705640402,
	"grad_norm": 37.11707305908203,
	"learning_rate": 8.800000000000001e-05,
	"loss": 36.7947,
	"step": 44
	},
	{
	"epoch": 0.02427429958531405,
	"grad_norm": 40.3302116394043,
	"learning_rate": 9e-05,
	"loss": 40.2388,
	"step": 45
	},
	{
	"epoch": 0.024813728464987694,
	"grad_norm": 42.60755920410156,
	"learning_rate": 9.200000000000001e-05,
	"loss": 58.9665,
	"step": 46
	},
	{
	"epoch": 0.02535315734466134,
	"grad_norm": 44.4195442199707,
	"learning_rate": 9.4e-05,
	"loss": 50.2349,
	"step": 47
	},
	{
	"epoch": 0.025892586224334987,
	"grad_norm": 37.404727935791016,
	"learning_rate": 9.6e-05,
	"loss": 48.7437,
	"step": 48
	},
	{
	"epoch": 0.02643201510400863,
	"grad_norm": 48.31377410888672,
	"learning_rate": 9.8e-05,
	"loss": 54.4895,
	"step": 49
	},
	{
	"epoch": 0.026971443983682276,
	"grad_norm": 51.360191345214844,
	"learning_rate": 0.0001,
	"loss": 57.4654,
	"step": 50
	},
	{
	"epoch": 0.02751087286335592,
	"grad_norm": 23.211647033691406,
	"learning_rate": 0.00010200000000000001,
	"loss": 36.3068,
	"step": 51
	},
	{
	"epoch": 0.028050301743029568,
	"grad_norm": 34.541805267333984,
	"learning_rate": 0.00010400000000000001,
	"loss": 75.6809,
	"step": 52
	},
	{
	"epoch": 0.028589730622703213,
	"grad_norm": 42.0761833190918,
	"learning_rate": 0.00010600000000000002,
	"loss": 96.818,
	"step": 53
	},
	{
	"epoch": 0.029129159502376857,
	"grad_norm": 43.26933670043945,
	"learning_rate": 0.00010800000000000001,
	"loss": 101.1451,
	"step": 54
	},
	{
	"epoch": 0.029668588382050505,
	"grad_norm": 51.45765686035156,
	"learning_rate": 0.00011000000000000002,
	"loss": 115.0704,
	"step": 55
	},
	{
	"epoch": 0.03020801726172415,
	"grad_norm": 43.3838005065918,
	"learning_rate": 0.00011200000000000001,
	"loss": 112.4747,
	"step": 56
	},
	{
	"epoch": 0.030747446141397794,
	"grad_norm": 59.83226013183594,
	"learning_rate": 0.00011399999999999999,
	"loss": 114.741,
	"step": 57
	},
	{
	"epoch": 0.03128687502107144,
	"grad_norm": 38.54649353027344,
	"learning_rate": 0.000116,
	"loss": 100.9508,
	"step": 58
	},
	{
	"epoch": 0.03182630390074508,
	"grad_norm": 34.7606086730957,
	"learning_rate": 0.000118,
	"loss": 87.4097,
	"step": 59
	},
	{
	"epoch": 0.03236573278041873,
	"grad_norm": 34.808265686035156,
	"learning_rate": 0.00012,
	"loss": 94.2411,
	"step": 60
	},
	{
	"epoch": 0.03290516166009238,
	"grad_norm": 33.40951156616211,
	"learning_rate": 0.000122,
	"loss": 85.6042,
	"step": 61
	},
	{
	"epoch": 0.03344459053976602,
	"grad_norm": 25.83111572265625,
	"learning_rate": 0.000124,
	"loss": 79.6747,
	"step": 62
	},
	{
	"epoch": 0.03398401941943967,
	"grad_norm": 51.73832321166992,
	"learning_rate": 0.000126,
	"loss": 65.953,
	"step": 63
	},
	{
	"epoch": 0.034523448299113316,
	"grad_norm": 38.63320541381836,
	"learning_rate": 0.00012800000000000002,
	"loss": 72.4182,
	"step": 64
	},
	{
	"epoch": 0.03506287717878696,
	"grad_norm": 20.10302734375,
	"learning_rate": 0.00013000000000000002,
	"loss": 61.2385,
	"step": 65
	},
	{
	"epoch": 0.035602306058460605,
	"grad_norm": 27.804248809814453,
	"learning_rate": 0.000132,
	"loss": 59.6029,
	"step": 66
	},
	{
	"epoch": 0.03614173493813425,
	"grad_norm": 30.542932510375977,
	"learning_rate": 0.000134,
	"loss": 51.2451,
	"step": 67
	},
	{
	"epoch": 0.036681163817807894,
	"grad_norm": 70.11331176757812,
	"learning_rate": 0.00013600000000000003,
	"loss": 51.116,
	"step": 68
	},
	{
	"epoch": 0.03722059269748154,
	"grad_norm": 155.8134307861328,
	"learning_rate": 0.000138,
	"loss": 76.3231,
	"step": 69
	},
	{
	"epoch": 0.03776002157715519,
	"grad_norm": 146.5844268798828,
	"learning_rate": 0.00014,
	"loss": 68.6173,
	"step": 70
	},
	{
	"epoch": 0.03829945045682883,
	"grad_norm": 102.16127014160156,
	"learning_rate": 0.000142,
	"loss": 72.0777,
	"step": 71
	},
	{
	"epoch": 0.03883887933650248,
	"grad_norm": 40.04204559326172,
	"learning_rate": 0.000144,
	"loss": 52.744,
	"step": 72
	},
	{
	"epoch": 0.039378308216176126,
	"grad_norm": 75.35163116455078,
	"learning_rate": 0.000146,
	"loss": 59.1683,
	"step": 73
	},
	{
	"epoch": 0.03991773709584977,
	"grad_norm": 77.30841827392578,
	"learning_rate": 0.000148,
	"loss": 51.3059,
	"step": 74
	},
	{
	"epoch": 0.040457165975523415,
	"grad_norm": 52.49984359741211,
	"learning_rate": 0.00015000000000000001,
	"loss": 52.407,
	"step": 75
	},
	{
	"epoch": 0.04099659485519706,
	"grad_norm": 35.61119842529297,
	"learning_rate": 0.000152,
	"loss": 50.8863,
	"step": 76
	},
	{
	"epoch": 0.041536023734870704,
	"grad_norm": 34.10403060913086,
	"learning_rate": 0.000154,
	"loss": 53.6901,
	"step": 77
	},
	{
	"epoch": 0.04207545261454435,
	"grad_norm": 39.79935836791992,
	"learning_rate": 0.00015600000000000002,
	"loss": 49.8857,
	"step": 78
	},
	{
	"epoch": 0.042614881494218,
	"grad_norm": 35.74922561645508,
	"learning_rate": 0.00015800000000000002,
	"loss": 62.577,
	"step": 79
	},
	{
	"epoch": 0.04315431037389164,
	"grad_norm": 31.491291046142578,
	"learning_rate": 0.00016,
	"loss": 52.0815,
	"step": 80
	},
	{
	"epoch": 0.04369373925356529,
	"grad_norm": 23.866592407226562,
	"learning_rate": 0.000162,
	"loss": 64.6077,
	"step": 81
	},
	{
	"epoch": 0.04423316813323893,
	"grad_norm": 28.5296688079834,
	"learning_rate": 0.000164,
	"loss": 59.5244,
	"step": 82
	},
	{
	"epoch": 0.04477259701291258,
	"grad_norm": 33.92407989501953,
	"learning_rate": 0.000166,
	"loss": 62.9956,
	"step": 83
	},
	{
	"epoch": 0.045312025892586226,
	"grad_norm": 27.05453109741211,
	"learning_rate": 0.000168,
	"loss": 52.9777,
	"step": 84
	},
	{
	"epoch": 0.04585145477225987,
	"grad_norm": 23.927709579467773,
	"learning_rate": 0.00017,
	"loss": 56.0232,
	"step": 85
	},
	{
	"epoch": 0.046390883651933515,
	"grad_norm": 31.250370025634766,
	"learning_rate": 0.000172,
	"loss": 55.1487,
	"step": 86
	},
	{
	"epoch": 0.04693031253160716,
	"grad_norm": 32.98558044433594,
	"learning_rate": 0.000174,
	"loss": 54.3132,
	"step": 87
	},
	{
	"epoch": 0.047469741411280804,
	"grad_norm": 39.15415954589844,
	"learning_rate": 0.00017600000000000002,
	"loss": 56.2989,
	"step": 88
	},
	{
	"epoch": 0.04800917029095445,
	"grad_norm": 32.42843246459961,
	"learning_rate": 0.00017800000000000002,
	"loss": 41.7672,
	"step": 89
	},
	{
	"epoch": 0.0485485991706281,
	"grad_norm": 42.03153610229492,
	"learning_rate": 0.00018,
	"loss": 50.3046,
	"step": 90
	},
	{
	"epoch": 0.04908802805030174,
	"grad_norm": 38.14472961425781,
	"learning_rate": 0.000182,
	"loss": 50.2817,
	"step": 91
	},
	{
	"epoch": 0.04962745692997539,
	"grad_norm": 32.74757385253906,
	"learning_rate": 0.00018400000000000003,
	"loss": 47.9721,
	"step": 92
	},
	{
	"epoch": 0.05016688580964904,
	"grad_norm": 41.20277404785156,
	"learning_rate": 0.00018600000000000002,
	"loss": 48.2985,
	"step": 93
	},
	{
	"epoch": 0.05070631468932268,
	"grad_norm": 42.31992721557617,
	"learning_rate": 0.000188,
	"loss": 58.7386,
	"step": 94
	},
	{
	"epoch": 0.051245743568996326,
	"grad_norm": 28.106618881225586,
	"learning_rate": 0.00019,
	"loss": 46.3057,
	"step": 95
	},
	{
	"epoch": 0.051785172448669974,
	"grad_norm": 37.70038604736328,
	"learning_rate": 0.000192,
	"loss": 35.5874,
	"step": 96
	},
	{
	"epoch": 0.052324601328343615,
	"grad_norm": 36.007530212402344,
	"learning_rate": 0.000194,
	"loss": 47.9065,
	"step": 97
	},
	{
	"epoch": 0.05286403020801726,
	"grad_norm": 29.738492965698242,
	"learning_rate": 0.000196,
	"loss": 49.6222,
	"step": 98
	},
	{
	"epoch": 0.05340345908769091,
	"grad_norm": 42.806785583496094,
	"learning_rate": 0.00019800000000000002,
	"loss": 44.6868,
	"step": 99
	},
	{
	"epoch": 0.05394288796736455,
	"grad_norm": 31.359643936157227,
	"learning_rate": 0.0002,
	"loss": 30.5743,
	"step": 100
	},
	{
	"epoch": 0.0544823168470382,
	"grad_norm": 24.176820755004883,
	"learning_rate": 0.00019999998344063995,
	"loss": 41.8829,
	"step": 101
	},
	{
	"epoch": 0.05502174572671184,
	"grad_norm": 43.5556755065918,
	"learning_rate": 0.00019999993376256528,
	"loss": 64.5931,
	"step": 102
	},
	{
	"epoch": 0.05556117460638549,
	"grad_norm": 35.98505401611328,
	"learning_rate": 0.00019999985096579245,
	"loss": 94.4231,
	"step": 103
	},
	{
	"epoch": 0.056100603486059136,
	"grad_norm": 35.83631134033203,
	"learning_rate": 0.00019999973505034887,
	"loss": 113.3877,
	"step": 104
	},
	{
	"epoch": 0.05664003236573278,
	"grad_norm": 30.29425621032715,
	"learning_rate": 0.00019999958601627296,
	"loss": 113.0325,
	"step": 105
	},
	{
	"epoch": 0.057179461245406425,
	"grad_norm": 27.389789581298828,
	"learning_rate": 0.000199999403863614,
	"loss": 111.3191,
	"step": 106
	},
	{
	"epoch": 0.05771889012508007,
	"grad_norm": 27.400251388549805,
	"learning_rate": 0.00019999918859243244,
	"loss": 97.0415,
	"step": 107
	},
	{
	"epoch": 0.058258319004753714,
	"grad_norm": 20.399946212768555,
	"learning_rate": 0.0001999989402027995,
	"loss": 90.2641,
	"step": 108
	},
	{
	"epoch": 0.05879774788442736,
	"grad_norm": 25.029308319091797,
	"learning_rate": 0.0001999986586947974,
	"loss": 94.4251,
	"step": 109
	},
	{
	"epoch": 0.05933717676410101,
	"grad_norm": 29.495418548583984,
	"learning_rate": 0.00019999834406851945,
	"loss": 94.9159,
	"step": 110
	},
	{
	"epoch": 0.05987660564377465,
	"grad_norm": 19.77571678161621,
	"learning_rate": 0.0001999979963240698,
	"loss": 75.4925,
	"step": 111
	},
	{
	"epoch": 0.0604160345234483,
	"grad_norm": 25.004566192626953,
	"learning_rate": 0.00019999761546156365,
	"loss": 71.3454,
	"step": 112
	},
	{
	"epoch": 0.06095546340312195,
	"grad_norm": 34.21379852294922,
	"learning_rate": 0.00019999720148112715,
	"loss": 66.511,
	"step": 113
	},
	{
	"epoch": 0.06149489228279559,
	"grad_norm": 22.71439552307129,
	"learning_rate": 0.00019999675438289738,
	"loss": 52.0498,
	"step": 114
	},
	{
	"epoch": 0.062034321162469236,
	"grad_norm": 24.381750106811523,
	"learning_rate": 0.0001999962741670224,
	"loss": 55.2827,
	"step": 115
	},
	{
	"epoch": 0.06257375004214288,
	"grad_norm": 37.246803283691406,
	"learning_rate": 0.00019999576083366125,
	"loss": 54.9355,
	"step": 116
	},
	{
	"epoch": 0.06311317892181653,
	"grad_norm": 81.53564453125,
	"learning_rate": 0.00019999521438298398,
	"loss": 59.4422,
	"step": 117
	},
	{
	"epoch": 0.06365260780149017,
	"grad_norm": 129.4823760986328,
	"learning_rate": 0.00019999463481517156,
	"loss": 67.393,
	"step": 118
	},
	{
	"epoch": 0.06419203668116381,
	"grad_norm": 77.96698760986328,
	"learning_rate": 0.00019999402213041588,
	"loss": 67.9443,
	"step": 119
	},
	{
	"epoch": 0.06473146556083746,
	"grad_norm": 53.094512939453125,
	"learning_rate": 0.0001999933763289199,
	"loss": 61.054,
	"step": 120
	},
	{
	"epoch": 0.06527089444051111,
	"grad_norm": 52.896366119384766,
	"learning_rate": 0.00019999269741089752,
	"loss": 62.3436,
	"step": 121
	},
	{
	"epoch": 0.06581032332018476,
	"grad_norm": 57.282318115234375,
	"learning_rate": 0.00019999198537657353,
	"loss": 56.6129,
	"step": 122
	},
	{
	"epoch": 0.0663497521998584,
	"grad_norm": 46.553062438964844,
	"learning_rate": 0.0001999912402261838,
	"loss": 55.701,
	"step": 123
	},
	{
	"epoch": 0.06688918107953204,
	"grad_norm": 28.822669982910156,
	"learning_rate": 0.00019999046195997512,
	"loss": 54.2102,
	"step": 124
	},
	{
	"epoch": 0.06742860995920569,
	"grad_norm": 28.726089477539062,
	"learning_rate": 0.00019998965057820516,
	"loss": 56.0332,
	"step": 125
	},
	{
	"epoch": 0.06796803883887934,
	"grad_norm": 26.886003494262695,
	"learning_rate": 0.0001999888060811427,
	"loss": 43.4516,
	"step": 126
	},
	{
	"epoch": 0.06850746771855298,
	"grad_norm": 31.9282169342041,
	"learning_rate": 0.00019998792846906747,
	"loss": 52.2149,
	"step": 127
	},
	{
	"epoch": 0.06904689659822663,
	"grad_norm": 38.317962646484375,
	"learning_rate": 0.00019998701774227005,
	"loss": 54.0044,
	"step": 128
	},
	{
	"epoch": 0.06958632547790028,
	"grad_norm": 31.158544540405273,
	"learning_rate": 0.00019998607390105209,
	"loss": 55.2255,
	"step": 129
	},
	{
	"epoch": 0.07012575435757391,
	"grad_norm": 33.239166259765625,
	"learning_rate": 0.00019998509694572615,
	"loss": 56.3811,
	"step": 130
	},
	{
	"epoch": 0.07066518323724756,
	"grad_norm": 30.34086799621582,
	"learning_rate": 0.00019998408687661582,
	"loss": 52.0529,
	"step": 131
	},
	{
	"epoch": 0.07120461211692121,
	"grad_norm": 24.05341911315918,
	"learning_rate": 0.00019998304369405563,
	"loss": 60.5602,
	"step": 132
	},
	{
	"epoch": 0.07174404099659486,
	"grad_norm": 26.90273094177246,
	"learning_rate": 0.00019998196739839103,
	"loss": 57.3375,
	"step": 133
	},
	{
	"epoch": 0.0722834698762685,
	"grad_norm": 24.157773971557617,
	"learning_rate": 0.0001999808579899785,
	"loss": 47.7251,
	"step": 134
	},
	{
	"epoch": 0.07282289875594215,
	"grad_norm": 28.088014602661133,
	"learning_rate": 0.00019997971546918545,
	"loss": 56.1037,
	"step": 135
	},
	{
	"epoch": 0.07336232763561579,
	"grad_norm": 32.39021682739258,
	"learning_rate": 0.00019997853983639029,
	"loss": 52.0922,
	"step": 136
	},
	{
	"epoch": 0.07390175651528944,
	"grad_norm": 29.597578048706055,
	"learning_rate": 0.0001999773310919824,
	"loss": 46.3537,
	"step": 137
	},
	{
	"epoch": 0.07444118539496308,
	"grad_norm": 38.31181335449219,
	"learning_rate": 0.000199976089236362,
	"loss": 46.8711,
	"step": 138
	},
	{
	"epoch": 0.07498061427463673,
	"grad_norm": 39.67713165283203,
	"learning_rate": 0.00019997481426994044,
	"loss": 45.0961,
	"step": 139
	},
	{
	"epoch": 0.07552004315431038,
	"grad_norm": 48.8436164855957,
	"learning_rate": 0.00019997350619314,
	"loss": 48.7547,
	"step": 140
	},
	{
	"epoch": 0.07605947203398401,
	"grad_norm": 88.95709991455078,
	"learning_rate": 0.00019997216500639383,
	"loss": 50.3681,
	"step": 141
	},
	{
	"epoch": 0.07659890091365766,
	"grad_norm": 34.2819938659668,
	"learning_rate": 0.0001999707907101462,
	"loss": 44.3903,
	"step": 142
	},
	{
	"epoch": 0.07713832979333131,
	"grad_norm": 42.79631042480469,
	"learning_rate": 0.00019996938330485217,
	"loss": 31.0566,
	"step": 143
	},
	{
	"epoch": 0.07767775867300496,
	"grad_norm": 37.28693389892578,
	"learning_rate": 0.00019996794279097791,
	"loss": 34.0999,
	"step": 144
	},
	{
	"epoch": 0.0782171875526786,
	"grad_norm": 43.65718460083008,
	"learning_rate": 0.00019996646916900051,
	"loss": 48.7369,
	"step": 145
	},
	{
	"epoch": 0.07875661643235225,
	"grad_norm": 39.86713409423828,
	"learning_rate": 0.00019996496243940794,
	"loss": 36.6841,
	"step": 146
	},
	{
	"epoch": 0.07929604531202589,
	"grad_norm": 32.35002899169922,
	"learning_rate": 0.0001999634226026993,
	"loss": 43.1344,
	"step": 147
	},
	{
	"epoch": 0.07983547419169953,
	"grad_norm": 36.14616775512695,
	"learning_rate": 0.0001999618496593845,
	"loss": 51.9779,
	"step": 148
	},
	{
	"epoch": 0.08037490307137318,
	"grad_norm": 31.071197509765625,
	"learning_rate": 0.00019996024360998456,
	"loss": 39.5621,
	"step": 149
	},
	{
	"epoch": 0.08091433195104683,
	"grad_norm": 33.61774444580078,
	"learning_rate": 0.00019995860445503127,
	"loss": 37.7614,
	"step": 150
	},
	{
	"epoch": 0.08145376083072048,
	"grad_norm": 22.93950653076172,
	"learning_rate": 0.00019995693219506758,
	"loss": 59.2331,
	"step": 151
	},
	{
	"epoch": 0.08199318971039413,
	"grad_norm": 31.307132720947266,
	"learning_rate": 0.00019995522683064726,
	"loss": 70.8054,
	"step": 152
	},
	{
	"epoch": 0.08253261859006776,
	"grad_norm": 28.894466400146484,
	"learning_rate": 0.00019995348836233516,
	"loss": 84.8097,
	"step": 153
	},
	{
	"epoch": 0.08307204746974141,
	"grad_norm": 26.76435661315918,
	"learning_rate": 0.000199951716790707,
	"loss": 101.4707,
	"step": 154
	},
	{
	"epoch": 0.08361147634941506,
	"grad_norm": 26.842918395996094,
	"learning_rate": 0.00019994991211634954,
	"loss": 107.518,
	"step": 155
	},
	{
	"epoch": 0.0841509052290887,
	"grad_norm": 25.251588821411133,
	"learning_rate": 0.00019994807433986047,
	"loss": 106.076,
	"step": 156
	},
	{
	"epoch": 0.08469033410876235,
	"grad_norm": 28.60271453857422,
	"learning_rate": 0.0001999462034618484,
	"loss": 96.3093,
	"step": 157
	},
	{
	"epoch": 0.085229762988436,
	"grad_norm": 22.537473678588867,
	"learning_rate": 0.00019994429948293291,
	"loss": 88.6475,
	"step": 158
	},
	{
	"epoch": 0.08576919186810963,
	"grad_norm": 18.868396759033203,
	"learning_rate": 0.00019994236240374465,
	"loss": 92.4222,
	"step": 159
	},
	{
	"epoch": 0.08630862074778328,
	"grad_norm": 21.84971046447754,
	"learning_rate": 0.00019994039222492513,
	"loss": 88.0079,
	"step": 160
	},
	{
	"epoch": 0.08684804962745693,
	"grad_norm": 23.634244918823242,
	"learning_rate": 0.00019993838894712682,
	"loss": 77.0574,
	"step": 161
	},
	{
	"epoch": 0.08738747850713058,
	"grad_norm": 18.22877311706543,
	"learning_rate": 0.00019993635257101322,
	"loss": 67.3958,
	"step": 162
	},
	{
	"epoch": 0.08792690738680423,
	"grad_norm": 21.62260627746582,
	"learning_rate": 0.00019993428309725872,
	"loss": 65.1832,
	"step": 163
	},
	{
	"epoch": 0.08846633626647786,
	"grad_norm": 18.148618698120117,
	"learning_rate": 0.0001999321805265487,
	"loss": 63.1231,
	"step": 164
	},
	{
	"epoch": 0.08900576514615151,
	"grad_norm": 20.20022201538086,
	"learning_rate": 0.00019993004485957956,
	"loss": 59.0852,
	"step": 165
	},
	{
	"epoch": 0.08954519402582516,
	"grad_norm": 28.2082576751709,
	"learning_rate": 0.00019992787609705853,
	"loss": 55.8505,
	"step": 166
	},
	{
	"epoch": 0.0900846229054988,
	"grad_norm": 43.48365020751953,
	"learning_rate": 0.00019992567423970394,
	"loss": 40.495,
	"step": 167
	},
	{
	"epoch": 0.09062405178517245,
	"grad_norm": 149.13955688476562,
	"learning_rate": 0.00019992343928824498,
	"loss": 91.8388,
	"step": 168
	},
	{
	"epoch": 0.0911634806648461,
	"grad_norm": 91.07251739501953,
	"learning_rate": 0.00019992117124342183,
	"loss": 61.9425,
	"step": 169
	},
	{
	"epoch": 0.09170290954451973,
	"grad_norm": 65.70806121826172,
	"learning_rate": 0.00019991887010598565,
	"loss": 59.7979,
	"step": 170
	},
	{
	"epoch": 0.09224233842419338,
	"grad_norm": 45.109580993652344,
	"learning_rate": 0.00019991653587669855,
	"loss": 63.235,
	"step": 171
	},
	{
	"epoch": 0.09278176730386703,
	"grad_norm": 49.24695587158203,
	"learning_rate": 0.00019991416855633364,
	"loss": 55.8371,
	"step": 172
	},
	{
	"epoch": 0.09332119618354068,
	"grad_norm": 44.50947952270508,
	"learning_rate": 0.0001999117681456749,
	"loss": 45.3712,
	"step": 173
	},
	{
	"epoch": 0.09386062506321433,
	"grad_norm": 45.105506896972656,
	"learning_rate": 0.00019990933464551728,
	"loss": 59.354,
	"step": 174
	},
	{
	"epoch": 0.09440005394288797,
	"grad_norm": 31.862106323242188,
	"learning_rate": 0.0001999068680566668,
	"loss": 49.2883,
	"step": 175
	},
	{
	"epoch": 0.09493948282256161,
	"grad_norm": 34.86188507080078,
	"learning_rate": 0.00019990436837994028,
	"loss": 40.9445,
	"step": 176
	},
	{
	"epoch": 0.09547891170223526,
	"grad_norm": 52.34774398803711,
	"learning_rate": 0.00019990183561616567,
	"loss": 54.3114,
	"step": 177
	},
	{
	"epoch": 0.0960183405819089,
	"grad_norm": 30.12732696533203,
	"learning_rate": 0.00019989926976618172,
	"loss": 44.8966,
	"step": 178
	},
	{
	"epoch": 0.09655776946158255,
	"grad_norm": 29.296287536621094,
	"learning_rate": 0.00019989667083083825,
	"loss": 47.5101,
	"step": 179
	},
	{
	"epoch": 0.0970971983412562,
	"grad_norm": 42.42873764038086,
	"learning_rate": 0.00019989403881099597,
	"loss": 48.2378,
	"step": 180
	},
	{
	"epoch": 0.09763662722092983,
	"grad_norm": 31.62274742126465,
	"learning_rate": 0.00019989137370752657,
	"loss": 42.1564,
	"step": 181
	},
	{
	"epoch": 0.09817605610060348,
	"grad_norm": 30.754499435424805,
	"learning_rate": 0.00019988867552131275,
	"loss": 52.2929,
	"step": 182
	},
	{
	"epoch": 0.09871548498027713,
	"grad_norm": 31.932157516479492,
	"learning_rate": 0.000199885944253248,
	"loss": 45.6226,
	"step": 183
	},
	{
	"epoch": 0.09925491385995078,
	"grad_norm": 33.754722595214844,
	"learning_rate": 0.00019988317990423703,
	"loss": 39.9572,
	"step": 184
	},
	{
	"epoch": 0.09979434273962443,
	"grad_norm": 33.33165740966797,
	"learning_rate": 0.00019988038247519522,
	"loss": 52.7357,
	"step": 185
	},
	{
	"epoch": 0.10033377161929807,
	"grad_norm": 28.355619430541992,
	"learning_rate": 0.0001998775519670491,
	"loss": 39.8865,
	"step": 186
	},
	{
	"epoch": 0.10087320049897171,
	"grad_norm": 60.16803741455078,
	"learning_rate": 0.00019987468838073613,
	"loss": 48.3595,
	"step": 187
	},
	{
	"epoch": 0.10141262937864536,
	"grad_norm": 33.5135498046875,
	"learning_rate": 0.00019987179171720464,
	"loss": 34.3803,
	"step": 188
	},
	{
	"epoch": 0.101952058258319,
	"grad_norm": 33.8374137878418,
	"learning_rate": 0.00019986886197741403,
	"loss": 46.4517,
	"step": 189
	},
	{
	"epoch": 0.10249148713799265,
	"grad_norm": 26.143709182739258,
	"learning_rate": 0.0001998658991623345,
	"loss": 30.6351,
	"step": 190
	},
	{
	"epoch": 0.1030309160176663,
	"grad_norm": 28.791723251342773,
	"learning_rate": 0.0001998629032729474,
	"loss": 44.2275,
	"step": 191
	},
	{
	"epoch": 0.10357034489733995,
	"grad_norm": 33.818931579589844,
	"learning_rate": 0.00019985987431024485,
	"loss": 43.5677,
	"step": 192
	},
	{
	"epoch": 0.10410977377701358,
	"grad_norm": 40.07392883300781,
	"learning_rate": 0.00019985681227523006,
	"loss": 34.5844,
	"step": 193
	},
	{
	"epoch": 0.10464920265668723,
	"grad_norm": 30.963062286376953,
	"learning_rate": 0.00019985371716891708,
	"loss": 44.1099,
	"step": 194
	},
	{
	"epoch": 0.10518863153636088,
	"grad_norm": 31.774293899536133,
	"learning_rate": 0.000199850588992331,
	"loss": 36.4496,
	"step": 195
	},
	{
	"epoch": 0.10572806041603452,
	"grad_norm": 47.396575927734375,
	"learning_rate": 0.00019984742774650785,
	"loss": 50.9736,
	"step": 196
	},
	{
	"epoch": 0.10626748929570817,
	"grad_norm": 58.573341369628906,
	"learning_rate": 0.00019984423343249457,
	"loss": 44.6643,
	"step": 197
	},
	{
	"epoch": 0.10680691817538182,
	"grad_norm": 33.57207107543945,
	"learning_rate": 0.00019984100605134906,
	"loss": 36.4154,
	"step": 198
	},
	{
	"epoch": 0.10734634705505545,
	"grad_norm": 33.817752838134766,
	"learning_rate": 0.00019983774560414027,
	"loss": 38.8474,
	"step": 199
	},
	{
	"epoch": 0.1078857759347291,
	"grad_norm": 34.572608947753906,
	"learning_rate": 0.00019983445209194791,
	"loss": 30.1009,
	"step": 200
	},
	{
	"epoch": 0.1078857759347291,
	"eval_loss": 1.836081624031067,
	"eval_runtime": 141.0356,
	"eval_samples_per_second": 2.12,
	"eval_steps_per_second": 2.12,
	"step": 200
	},
	{
	"epoch": 0.10842520481440275,
	"grad_norm": 23.590002059936523,
	"learning_rate": 0.0001998311255158628,
	"loss": 53.9458,
	"step": 201
	},
	{
	"epoch": 0.1089646336940764,
	"grad_norm": 39.737159729003906,
	"learning_rate": 0.00019982776587698666,
	"loss": 85.7514,
	"step": 202
	},
	{
	"epoch": 0.10950406257375005,
	"grad_norm": 35.41561508178711,
	"learning_rate": 0.00019982437317643217,
	"loss": 84.9662,
	"step": 203
	},
	{
	"epoch": 0.11004349145342368,
	"grad_norm": 31.39605140686035,
	"learning_rate": 0.0001998209474153229,
	"loss": 110.0561,
	"step": 204
	},
	{
	"epoch": 0.11058292033309733,
	"grad_norm": 30.160261154174805,
	"learning_rate": 0.00019981748859479348,
	"loss": 101.1574,
	"step": 205
	},
	{
	"epoch": 0.11112234921277098,
	"grad_norm": 33.4417724609375,
	"learning_rate": 0.00019981399671598939,
	"loss": 116.0456,
	"step": 206
	},
	{
	"epoch": 0.11166177809244462,
	"grad_norm": 34.16884994506836,
	"learning_rate": 0.0001998104717800671,
	"loss": 103.0287,
	"step": 207
	},
	{
	"epoch": 0.11220120697211827,
	"grad_norm": 33.58393859863281,
	"learning_rate": 0.00019980691378819406,
	"loss": 95.5024,
	"step": 208
	},
	{
	"epoch": 0.11274063585179192,
	"grad_norm": 29.785871505737305,
	"learning_rate": 0.00019980332274154857,
	"loss": 91.5854,
	"step": 209
	},
	{
	"epoch": 0.11328006473146555,
	"grad_norm": 29.184667587280273,
	"learning_rate": 0.00019979969864131997,
	"loss": 86.9138,
	"step": 210
	},
	{
	"epoch": 0.1138194936111392,
	"grad_norm": 25.164024353027344,
	"learning_rate": 0.00019979604148870854,
	"loss": 72.7827,
	"step": 211
	},
	{
	"epoch": 0.11435892249081285,
	"grad_norm": 18.179292678833008,
	"learning_rate": 0.00019979235128492545,
	"loss": 67.364,
	"step": 212
	},
	{
	"epoch": 0.1148983513704865,
	"grad_norm": 20.353260040283203,
	"learning_rate": 0.00019978862803119284,
	"loss": 60.0141,
	"step": 213
	},
	{
	"epoch": 0.11543778025016015,
	"grad_norm": 27.25603485107422,
	"learning_rate": 0.00019978487172874382,
	"loss": 61.8063,
	"step": 214
	},
	{
	"epoch": 0.1159772091298338,
	"grad_norm": 40.56468963623047,
	"learning_rate": 0.00019978108237882244,
	"loss": 51.2483,
	"step": 215
	},
	{
	"epoch": 0.11651663800950743,
	"grad_norm": 64.65696716308594,
	"learning_rate": 0.00019977725998268365,
	"loss": 37.8312,
	"step": 216
	},
	{
	"epoch": 0.11705606688918108,
	"grad_norm": 80.94468688964844,
	"learning_rate": 0.00019977340454159343,
	"loss": 55.2775,
	"step": 217
	},
	{
	"epoch": 0.11759549576885472,
	"grad_norm": 100.61930084228516,
	"learning_rate": 0.00019976951605682862,
	"loss": 65.5767,
	"step": 218
	},
	{
	"epoch": 0.11813492464852837,
	"grad_norm": 71.5768051147461,
	"learning_rate": 0.00019976559452967703,
	"loss": 57.5296,
	"step": 219
	},
	{
	"epoch": 0.11867435352820202,
	"grad_norm": 37.10725021362305,
	"learning_rate": 0.00019976163996143745,
	"loss": 48.8497,
	"step": 220
	},
	{
	"epoch": 0.11921378240787567,
	"grad_norm": 40.85627746582031,
	"learning_rate": 0.00019975765235341955,
	"loss": 47.6466,
	"step": 221
	},
	{
	"epoch": 0.1197532112875493,
	"grad_norm": 55.1395263671875,
	"learning_rate": 0.000199753631706944,
	"loss": 60.2519,
	"step": 222
	},
	{
	"epoch": 0.12029264016722295,
	"grad_norm": 42.060585021972656,
	"learning_rate": 0.00019974957802334234,
	"loss": 48.1031,
	"step": 223
	},
	{
	"epoch": 0.1208320690468966,
	"grad_norm": 36.57340621948242,
	"learning_rate": 0.00019974549130395713,
	"loss": 43.3995,
	"step": 224
	},
	{
	"epoch": 0.12137149792657025,
	"grad_norm": 31.497970581054688,
	"learning_rate": 0.0001997413715501419,
	"loss": 41.1591,
	"step": 225
	},
	{
	"epoch": 0.1219109268062439,
	"grad_norm": 30.481502532958984,
	"learning_rate": 0.00019973721876326094,
	"loss": 38.0712,
	"step": 226
	},
	{
	"epoch": 0.12245035568591753,
	"grad_norm": 38.2381477355957,
	"learning_rate": 0.00019973303294468968,
	"loss": 46.3861,
	"step": 227
	},
	{
	"epoch": 0.12298978456559118,
	"grad_norm": 37.4508171081543,
	"learning_rate": 0.0001997288140958144,
	"loss": 49.3107,
	"step": 228
	},
	{
	"epoch": 0.12352921344526482,
	"grad_norm": 37.3139533996582,
	"learning_rate": 0.0001997245622180323,
	"loss": 43.1914,
	"step": 229
	},
	{
	"epoch": 0.12406864232493847,
	"grad_norm": 35.13384246826172,
	"learning_rate": 0.0001997202773127516,
	"loss": 45.7228,
	"step": 230
	},
	{
	"epoch": 0.12460807120461212,
	"grad_norm": 37.45779037475586,
	"learning_rate": 0.00019971595938139135,
	"loss": 45.0848,
	"step": 231
	},
	{
	"epoch": 0.12514750008428577,
	"grad_norm": 37.03962707519531,
	"learning_rate": 0.00019971160842538162,
	"loss": 46.3705,
	"step": 232
	},
	{
	"epoch": 0.12568692896395942,
	"grad_norm": 30.98250389099121,
	"learning_rate": 0.0001997072244461634,
	"loss": 41.1065,
	"step": 233
	},
	{
	"epoch": 0.12622635784363306,
	"grad_norm": 33.62482833862305,
	"learning_rate": 0.00019970280744518854,
	"loss": 41.8594,
	"step": 234
	},
	{
	"epoch": 0.1267657867233067,
	"grad_norm": 45.488739013671875,
	"learning_rate": 0.00019969835742392,
	"loss": 38.6525,
	"step": 235
	},
	{
	"epoch": 0.12730521560298033,
	"grad_norm": 43.84321594238281,
	"learning_rate": 0.0001996938743838315,
	"loss": 53.2114,
	"step": 236
	},
	{
	"epoch": 0.12784464448265398,
	"grad_norm": 40.51958084106445,
	"learning_rate": 0.00019968935832640782,
	"loss": 50.4725,
	"step": 237
	},
	{
	"epoch": 0.12838407336232763,
	"grad_norm": 35.1596794128418,
	"learning_rate": 0.00019968480925314458,
	"loss": 45.1618,
	"step": 238
	},
	{
	"epoch": 0.12892350224200128,
	"grad_norm": 32.27614974975586,
	"learning_rate": 0.00019968022716554832,
	"loss": 38.2164,
	"step": 239
	},
	{
	"epoch": 0.12946293112167492,
	"grad_norm": 33.67794418334961,
	"learning_rate": 0.00019967561206513668,
	"loss": 43.3203,
	"step": 240
	},
	{
	"epoch": 0.13000236000134857,
	"grad_norm": 26.34979820251465,
	"learning_rate": 0.00019967096395343806,
	"loss": 32.1165,
	"step": 241
	},
	{
	"epoch": 0.13054178888102222,
	"grad_norm": 33.10830307006836,
	"learning_rate": 0.00019966628283199186,
	"loss": 45.5207,
	"step": 242
	},
	{
	"epoch": 0.13108121776069587,
	"grad_norm": 47.04872131347656,
	"learning_rate": 0.00019966156870234844,
	"loss": 44.7497,
	"step": 243
	},
	{
	"epoch": 0.13162064664036952,
	"grad_norm": 38.99346160888672,
	"learning_rate": 0.000199656821566069,
	"loss": 43.9255,
	"step": 244
	},
	{
	"epoch": 0.13216007552004316,
	"grad_norm": 29.892854690551758,
	"learning_rate": 0.00019965204142472574,
	"loss": 48.4896,
	"step": 245
	},
	{
	"epoch": 0.1326995043997168,
	"grad_norm": 37.65726089477539,
	"learning_rate": 0.00019964722827990185,
	"loss": 37.7987,
	"step": 246
	},
	{
	"epoch": 0.13323893327939046,
	"grad_norm": 41.673274993896484,
	"learning_rate": 0.00019964238213319134,
	"loss": 48.4095,
	"step": 247
	},
	{
	"epoch": 0.13377836215906408,
	"grad_norm": 37.152793884277344,
	"learning_rate": 0.00019963750298619917,
	"loss": 33.8212,
	"step": 248
	},
	{
	"epoch": 0.13431779103873773,
	"grad_norm": 43.92071533203125,
	"learning_rate": 0.00019963259084054128,
	"loss": 35.554,
	"step": 249
	},
	{
	"epoch": 0.13485721991841138,
	"grad_norm": 39.161903381347656,
	"learning_rate": 0.0001996276456978445,
	"loss": 33.8096,
	"step": 250
	},
	{
	"epoch": 0.13539664879808502,
	"grad_norm": 24.633363723754883,
	"learning_rate": 0.00019962266755974657,
	"loss": 46.0338,
	"step": 251
	},
	{
	"epoch": 0.13593607767775867,
	"grad_norm": 54.83051300048828,
	"learning_rate": 0.00019961765642789625,
	"loss": 80.4599,
	"step": 252
	},
	{
	"epoch": 0.13647550655743232,
	"grad_norm": 43.1768684387207,
	"learning_rate": 0.0001996126123039531,
	"loss": 84.3379,
	"step": 253
	},
	{
	"epoch": 0.13701493543710597,
	"grad_norm": 24.49346160888672,
	"learning_rate": 0.00019960753518958772,
	"loss": 100.9898,
	"step": 254
	},
	{
	"epoch": 0.13755436431677961,
	"grad_norm": 38.09309768676758,
	"learning_rate": 0.00019960242508648154,
	"loss": 101.0717,
	"step": 255
	},
	{
	"epoch": 0.13809379319645326,
	"grad_norm": 40.072296142578125,
	"learning_rate": 0.00019959728199632699,
	"loss": 108.2131,
	"step": 256
	},
	{
	"epoch": 0.1386332220761269,
	"grad_norm": 43.77210235595703,
	"learning_rate": 0.0001995921059208274,
	"loss": 111.636,
	"step": 257
	},
	{
	"epoch": 0.13917265095580056,
	"grad_norm": 42.023155212402344,
	"learning_rate": 0.00019958689686169697,
	"loss": 90.4911,
	"step": 258
	},
	{
	"epoch": 0.13971207983547418,
	"grad_norm": 27.917343139648438,
	"learning_rate": 0.00019958165482066094,
	"loss": 92.3676,
	"step": 259
	},
	{
	"epoch": 0.14025150871514783,
	"grad_norm": 19.174135208129883,
	"learning_rate": 0.00019957637979945537,
	"loss": 88.4276,
	"step": 260
	},
	{
	"epoch": 0.14079093759482147,
	"grad_norm": 22.779672622680664,
	"learning_rate": 0.0001995710717998273,
	"loss": 88.3991,
	"step": 261
	},
	{
	"epoch": 0.14133036647449512,
	"grad_norm": 17.607568740844727,
	"learning_rate": 0.00019956573082353463,
	"loss": 77.4426,
	"step": 262
	},
	{
	"epoch": 0.14186979535416877,
	"grad_norm": 22.228328704833984,
	"learning_rate": 0.00019956035687234626,
	"loss": 68.3415,
	"step": 263
	},
	{
	"epoch": 0.14240922423384242,
	"grad_norm": 21.00279998779297,
	"learning_rate": 0.00019955494994804198,
	"loss": 70.7203,
	"step": 264
	},
	{
	"epoch": 0.14294865311351607,
	"grad_norm": 27.789443969726562,
	"learning_rate": 0.00019954951005241248,
	"loss": 62.4471,
	"step": 265
	},
	{
	"epoch": 0.14348808199318971,
	"grad_norm": 21.813310623168945,
	"learning_rate": 0.0001995440371872594,
	"loss": 65.5364,
	"step": 266
	},
	{
	"epoch": 0.14402751087286336,
	"grad_norm": 22.338788986206055,
	"learning_rate": 0.00019953853135439522,
	"loss": 53.7872,
	"step": 267
	},
	{
	"epoch": 0.144566939752537,
	"grad_norm": 17.053470611572266,
	"learning_rate": 0.00019953299255564346,
	"loss": 46.6823,
	"step": 268
	},
	{
	"epoch": 0.14510636863221066,
	"grad_norm": 34.75794219970703,
	"learning_rate": 0.0001995274207928385,
	"loss": 32.208,
	"step": 269
	},
	{
	"epoch": 0.1456457975118843,
	"grad_norm": 76.52667236328125,
	"learning_rate": 0.00019952181606782565,
	"loss": 52.4054,
	"step": 270
	},
	{
	"epoch": 0.14618522639155793,
	"grad_norm": 71.48796844482422,
	"learning_rate": 0.00019951617838246107,
	"loss": 48.9668,
	"step": 271
	},
	{
	"epoch": 0.14672465527123157,
	"grad_norm": 79.96577453613281,
	"learning_rate": 0.00019951050773861192,
	"loss": 61.6082,
	"step": 272
	},
	{
	"epoch": 0.14726408415090522,
	"grad_norm": 42.05474090576172,
	"learning_rate": 0.0001995048041381562,
	"loss": 50.8627,
	"step": 273
	},
	{
	"epoch": 0.14780351303057887,
	"grad_norm": 43.19125747680664,
	"learning_rate": 0.00019949906758298295,
	"loss": 45.519,
	"step": 274
	},
	{
	"epoch": 0.14834294191025252,
	"grad_norm": 47.39426040649414,
	"learning_rate": 0.00019949329807499198,
	"loss": 51.654,
	"step": 275
	},
	{
	"epoch": 0.14888237078992617,
	"grad_norm": 36.0722770690918,
	"learning_rate": 0.00019948749561609415,
	"loss": 46.8854,
	"step": 276
	},
	{
	"epoch": 0.14942179966959981,
	"grad_norm": 33.252742767333984,
	"learning_rate": 0.00019948166020821107,
	"loss": 46.7532,
	"step": 277
	},
	{
	"epoch": 0.14996122854927346,
	"grad_norm": 33.89019012451172,
	"learning_rate": 0.0001994757918532754,
	"loss": 49.6403,
	"step": 278
	},
	{
	"epoch": 0.1505006574289471,
	"grad_norm": 37.914676666259766,
	"learning_rate": 0.00019946989055323066,
	"loss": 54.5018,
	"step": 279
	},
	{
	"epoch": 0.15104008630862076,
	"grad_norm": 37.611061096191406,
	"learning_rate": 0.00019946395631003128,
	"loss": 50.6423,
	"step": 280
	},
	{
	"epoch": 0.1515795151882944,
	"grad_norm": 36.489723205566406,
	"learning_rate": 0.00019945798912564264,
	"loss": 45.9299,
	"step": 281
	},
	{
	"epoch": 0.15211894406796803,
	"grad_norm": 31.33220100402832,
	"learning_rate": 0.00019945198900204095,
	"loss": 47.4519,
	"step": 282
	},
	{
	"epoch": 0.15265837294764167,
	"grad_norm": 32.4266242980957,
	"learning_rate": 0.00019944595594121337,
	"loss": 40.0806,
	"step": 283
	},
	{
	"epoch": 0.15319780182731532,
	"grad_norm": 38.17313003540039,
	"learning_rate": 0.00019943988994515797,
	"loss": 39.9765,
	"step": 284
	},
	{
	"epoch": 0.15373723070698897,
	"grad_norm": 40.299354553222656,
	"learning_rate": 0.00019943379101588376,
	"loss": 40.7812,
	"step": 285
	},
	{
	"epoch": 0.15427665958666262,
	"grad_norm": 42.34661102294922,
	"learning_rate": 0.00019942765915541063,
	"loss": 31.2513,
	"step": 286
	},
	{
	"epoch": 0.15481608846633627,
	"grad_norm": 46.61203384399414,
	"learning_rate": 0.00019942149436576938,
	"loss": 41.5619,
	"step": 287
	},
	{
	"epoch": 0.1553555173460099,
	"grad_norm": 39.79526901245117,
	"learning_rate": 0.00019941529664900168,
	"loss": 38.13,
	"step": 288
	},
	{
	"epoch": 0.15589494622568356,
	"grad_norm": 42.995567321777344,
	"learning_rate": 0.0001994090660071601,
	"loss": 41.3515,
	"step": 289
	},
	{
	"epoch": 0.1564343751053572,
	"grad_norm": 34.27892303466797,
	"learning_rate": 0.00019940280244230824,
	"loss": 41.1277,
	"step": 290
	},
	{
	"epoch": 0.15697380398503086,
	"grad_norm": 29.622488021850586,
	"learning_rate": 0.00019939650595652045,
	"loss": 49.2284,
	"step": 291
	},
	{
	"epoch": 0.1575132328647045,
	"grad_norm": 36.693119049072266,
	"learning_rate": 0.00019939017655188206,
	"loss": 35.5444,
	"step": 292
	},
	{
	"epoch": 0.15805266174437815,
	"grad_norm": 30.75679588317871,
	"learning_rate": 0.00019938381423048932,
	"loss": 34.9666,
	"step": 293
	},
	{
	"epoch": 0.15859209062405177,
	"grad_norm": 35.84019088745117,
	"learning_rate": 0.00019937741899444928,
	"loss": 39.4625,
	"step": 294
	},
	{
	"epoch": 0.15913151950372542,
	"grad_norm": 35.854496002197266,
	"learning_rate": 0.00019937099084588002,
	"loss": 37.2887,
	"step": 295
	},
	{
	"epoch": 0.15967094838339907,
	"grad_norm": 33.07613754272461,
	"learning_rate": 0.00019936452978691044,
	"loss": 34.5375,
	"step": 296
	},
	{
	"epoch": 0.16021037726307272,
	"grad_norm": 43.46371078491211,
	"learning_rate": 0.00019935803581968035,
	"loss": 30.3173,
	"step": 297
	},
	{
	"epoch": 0.16074980614274637,
	"grad_norm": 52.03241729736328,
	"learning_rate": 0.00019935150894634046,
	"loss": 42.4725,
	"step": 298
	},
	{
	"epoch": 0.16128923502242,
	"grad_norm": 50.36249542236328,
	"learning_rate": 0.00019934494916905245,
	"loss": 37.3647,
	"step": 299
	},
	{
	"epoch": 0.16182866390209366,
	"grad_norm": 41.50126647949219,
	"learning_rate": 0.00019933835648998875,
	"loss": 24.2931,
	"step": 300
	},
	{
	"epoch": 0.1623680927817673,
	"grad_norm": 31.253141403198242,
	"learning_rate": 0.00019933173091133286,
	"loss": 44.7853,
	"step": 301
	},
	{
	"epoch": 0.16290752166144096,
	"grad_norm": 96.83972930908203,
	"learning_rate": 0.000199325072435279,
	"loss": 84.9808,
	"step": 302
	},
	{
	"epoch": 0.1634469505411146,
	"grad_norm": 91.9966049194336,
	"learning_rate": 0.0001993183810640324,
	"loss": 99.5531,
	"step": 303
	},
	{
	"epoch": 0.16398637942078825,
	"grad_norm": 66.43877410888672,
	"learning_rate": 0.00019931165679980918,
	"loss": 105.7665,
	"step": 304
	},
	{
	"epoch": 0.16452580830046187,
	"grad_norm": 35.26411056518555,
	"learning_rate": 0.00019930489964483633,
	"loss": 109.6819,
	"step": 305
	},
	{
	"epoch": 0.16506523718013552,
	"grad_norm": 47.18457794189453,
	"learning_rate": 0.00019929810960135172,
	"loss": 113.4221,
	"step": 306
	},
	{
	"epoch": 0.16560466605980917,
	"grad_norm": 49.24475860595703,
	"learning_rate": 0.00019929128667160408,
	"loss": 108.0158,
	"step": 307
	},
	{
	"epoch": 0.16614409493948282,
	"grad_norm": 45.63924026489258,
	"learning_rate": 0.00019928443085785318,
	"loss": 94.1414,
	"step": 308
	},
	{
	"epoch": 0.16668352381915646,
	"grad_norm": 46.688350677490234,
	"learning_rate": 0.00019927754216236948,
	"loss": 87.8688,
	"step": 309
	},
	{
	"epoch": 0.1672229526988301,
	"grad_norm": 39.54045486450195,
	"learning_rate": 0.00019927062058743448,
	"loss": 92.6019,
	"step": 310
	},
	{
	"epoch": 0.16776238157850376,
	"grad_norm": 29.866121292114258,
	"learning_rate": 0.0001992636661353405,
	"loss": 81.9024,
	"step": 311
	},
	{
	"epoch": 0.1683018104581774,
	"grad_norm": 22.350112915039062,
	"learning_rate": 0.0001992566788083908,
	"loss": 68.4321,
	"step": 312
	},
	{
	"epoch": 0.16884123933785106,
	"grad_norm": 21.657258987426758,
	"learning_rate": 0.00019924965860889944,
	"loss": 65.7434,
	"step": 313
	},
	{
	"epoch": 0.1693806682175247,
	"grad_norm": 18.347572326660156,
	"learning_rate": 0.00019924260553919146,
	"loss": 62.485,
	"step": 314
	},
	{
	"epoch": 0.16992009709719835,
	"grad_norm": 28.368114471435547,
	"learning_rate": 0.00019923551960160268,
	"loss": 53.7759,
	"step": 315
	},
	{
	"epoch": 0.170459525976872,
	"grad_norm": 35.214988708496094,
	"learning_rate": 0.00019922840079848,
	"loss": 45.4414,
	"step": 316
	},
	{
	"epoch": 0.17099895485654562,
	"grad_norm": 38.698760986328125,
	"learning_rate": 0.00019922124913218094,
	"loss": 37.665,
	"step": 317
	},
	{
	"epoch": 0.17153838373621927,
	"grad_norm": 43.39471435546875,
	"learning_rate": 0.0001992140646050741,
	"loss": 51.4899,
	"step": 318
	},
	{
	"epoch": 0.17207781261589292,
	"grad_norm": 43.52251434326172,
	"learning_rate": 0.00019920684721953894,
	"loss": 48.5712,
	"step": 319
	},
	{
	"epoch": 0.17261724149556656,
	"grad_norm": 60.897579193115234,
	"learning_rate": 0.00019919959697796568,
	"loss": 59.9231,
	"step": 320
	},
	{
	"epoch": 0.1731566703752402,
	"grad_norm": 37.93972396850586,
	"learning_rate": 0.0001991923138827556,
	"loss": 47.906,
	"step": 321
	},
	{
	"epoch": 0.17369609925491386,
	"grad_norm": 44.32222366333008,
	"learning_rate": 0.0001991849979363207,
	"loss": 54.5404,
	"step": 322
	},
	{
	"epoch": 0.1742355281345875,
	"grad_norm": 37.367671966552734,
	"learning_rate": 0.00019917764914108394,
	"loss": 49.3113,
	"step": 323
	},
	{
	"epoch": 0.17477495701426116,
	"grad_norm": 43.20479965209961,
	"learning_rate": 0.00019917026749947917,
	"loss": 41.9015,
	"step": 324
	},
	{
	"epoch": 0.1753143858939348,
	"grad_norm": 36.7598991394043,
	"learning_rate": 0.0001991628530139511,
	"loss": 43.7222,
	"step": 325
	},
	{
	"epoch": 0.17585381477360845,
	"grad_norm": 33.30655288696289,
	"learning_rate": 0.0001991554056869553,
	"loss": 48.4387,
	"step": 326
	},
	{
	"epoch": 0.1763932436532821,
	"grad_norm": 32.89339828491211,
	"learning_rate": 0.00019914792552095818,
	"loss": 51.108,
	"step": 327
	},
	{
	"epoch": 0.17693267253295572,
	"grad_norm": 31.422489166259766,
	"learning_rate": 0.00019914041251843716,
	"loss": 42.9287,
	"step": 328
	},
	{
	"epoch": 0.17747210141262937,
	"grad_norm": 33.38264465332031,
	"learning_rate": 0.00019913286668188037,
	"loss": 47.0867,
	"step": 329
	},
	{
	"epoch": 0.17801153029230302,
	"grad_norm": 37.976837158203125,
	"learning_rate": 0.00019912528801378698,
	"loss": 38.2593,
	"step": 330
	},
	{
	"epoch": 0.17855095917197666,
	"grad_norm": 35.707054138183594,
	"learning_rate": 0.0001991176765166669,
	"loss": 44.5348,
	"step": 331
	},
	{
	"epoch": 0.1790903880516503,
	"grad_norm": 43.86237335205078,
	"learning_rate": 0.00019911003219304094,
	"loss": 40.4868,
	"step": 332
	},
	{
	"epoch": 0.17962981693132396,
	"grad_norm": 54.88194274902344,
	"learning_rate": 0.00019910235504544082,
	"loss": 38.935,
	"step": 333
	},
	{
	"epoch": 0.1801692458109976,
	"grad_norm": 43.87349319458008,
	"learning_rate": 0.00019909464507640915,
	"loss": 43.0978,
	"step": 334
	},
	{
	"epoch": 0.18070867469067126,
	"grad_norm": 43.421932220458984,
	"learning_rate": 0.0001990869022884993,
	"loss": 39.2888,
	"step": 335
	},
	{
	"epoch": 0.1812481035703449,
	"grad_norm": 41.14269256591797,
	"learning_rate": 0.00019907912668427566,
	"loss": 42.6139,
	"step": 336
	},
	{
	"epoch": 0.18178753245001855,
	"grad_norm": 38.619380950927734,
	"learning_rate": 0.00019907131826631336,
	"loss": 40.0248,
	"step": 337
	},
	{
	"epoch": 0.1823269613296922,
	"grad_norm": 33.65724563598633,
	"learning_rate": 0.00019906347703719845,
	"loss": 38.7406,
	"step": 338
	},
	{
	"epoch": 0.18286639020936585,
	"grad_norm": 35.25956344604492,
	"learning_rate": 0.0001990556029995279,
	"loss": 39.2734,
	"step": 339
	},
	{
	"epoch": 0.18340581908903947,
	"grad_norm": 36.87468719482422,
	"learning_rate": 0.00019904769615590942,
	"loss": 40.6619,
	"step": 340
	},
	{
	"epoch": 0.18394524796871312,
	"grad_norm": 32.0380973815918,
	"learning_rate": 0.00019903975650896168,
	"loss": 39.8376,
	"step": 341
	},
	{
	"epoch": 0.18448467684838676,
	"grad_norm": 33.44660949707031,
	"learning_rate": 0.0001990317840613142,
	"loss": 33.338,
	"step": 342
	},
	{
	"epoch": 0.1850241057280604,
	"grad_norm": 36.242523193359375,
	"learning_rate": 0.00019902377881560735,
	"loss": 35.0493,
	"step": 343
	},
	{
	"epoch": 0.18556353460773406,
	"grad_norm": 37.39813232421875,
	"learning_rate": 0.00019901574077449232,
	"loss": 26.9563,
	"step": 344
	},
	{
	"epoch": 0.1861029634874077,
	"grad_norm": 35.84196472167969,
	"learning_rate": 0.0001990076699406313,
	"loss": 33.7825,
	"step": 345
	},
	{
	"epoch": 0.18664239236708136,
	"grad_norm": 38.69563293457031,
	"learning_rate": 0.00019899956631669717,
	"loss": 29.9582,
	"step": 346
	},
	{
	"epoch": 0.187181821246755,
	"grad_norm": 47.82805633544922,
	"learning_rate": 0.00019899142990537376,
	"loss": 33.9471,
	"step": 347
	},
	{
	"epoch": 0.18772125012642865,
	"grad_norm": 36.29233169555664,
	"learning_rate": 0.00019898326070935579,
	"loss": 28.1711,
	"step": 348
	},
	{
	"epoch": 0.1882606790061023,
	"grad_norm": 45.26416015625,
	"learning_rate": 0.00019897505873134872,
	"loss": 33.76,
	"step": 349
	},
	{
	"epoch": 0.18880010788577595,
	"grad_norm": 39.766441345214844,
	"learning_rate": 0.000198966823974069,
	"loss": 25.629,
	"step": 350
	},
	{
	"epoch": 0.18933953676544957,
	"grad_norm": 30.092906951904297,
	"learning_rate": 0.00019895855644024387,
	"loss": 45.1687,
	"step": 351
	},
	{
	"epoch": 0.18987896564512322,
	"grad_norm": 61.02379608154297,
	"learning_rate": 0.00019895025613261136,
	"loss": 77.4727,
	"step": 352
	},
	{
	"epoch": 0.19041839452479686,
	"grad_norm": 51.788063049316406,
	"learning_rate": 0.00019894192305392055,
	"loss": 82.3816,
	"step": 353
	},
	{
	"epoch": 0.1909578234044705,
	"grad_norm": 72.1239242553711,
	"learning_rate": 0.0001989335572069311,
	"loss": 103.2545,
	"step": 354
	},
	{
	"epoch": 0.19149725228414416,
	"grad_norm": 29.279748916625977,
	"learning_rate": 0.00019892515859441383,
	"loss": 113.7908,
	"step": 355
	},
	{
	"epoch": 0.1920366811638178,
	"grad_norm": 43.08776092529297,
	"learning_rate": 0.00019891672721915015,
	"loss": 107.6541,
	"step": 356
	},
	{
	"epoch": 0.19257611004349146,
	"grad_norm": 54.121192932128906,
	"learning_rate": 0.00019890826308393243,
	"loss": 102.3774,
	"step": 357
	},
	{
	"epoch": 0.1931155389231651,
	"grad_norm": 52.771793365478516,
	"learning_rate": 0.0001988997661915639,
	"loss": 87.3872,
	"step": 358
	},
	{
	"epoch": 0.19365496780283875,
	"grad_norm": 58.10847854614258,
	"learning_rate": 0.00019889123654485866,
	"loss": 97.106,
	"step": 359
	},
	{
	"epoch": 0.1941943966825124,
	"grad_norm": 52.38351058959961,
	"learning_rate": 0.00019888267414664156,
	"loss": 91.256,
	"step": 360
	},
	{
	"epoch": 0.19473382556218605,
	"grad_norm": 48.153804779052734,
	"learning_rate": 0.0001988740789997484,
	"loss": 81.894,
	"step": 361
	},
	{
	"epoch": 0.19527325444185967,
	"grad_norm": 25.811304092407227,
	"learning_rate": 0.00019886545110702576,
	"loss": 69.6325,
	"step": 362
	},
	{
	"epoch": 0.19581268332153332,
	"grad_norm": 22.911964416503906,
	"learning_rate": 0.00019885679047133107,
	"loss": 65.5302,
	"step": 363
	},
	{
	"epoch": 0.19635211220120696,
	"grad_norm": 37.54278564453125,
	"learning_rate": 0.00019884809709553265,
	"loss": 60.65,
	"step": 364
	},
	{
	"epoch": 0.1968915410808806,
	"grad_norm": 20.303857803344727,
	"learning_rate": 0.00019883937098250963,
	"loss": 44.1299,
	"step": 365
	},
	{
	"epoch": 0.19743096996055426,
	"grad_norm": 31.87704849243164,
	"learning_rate": 0.00019883061213515197,
	"loss": 34.1489,
	"step": 366
	},
	{
	"epoch": 0.1979703988402279,
	"grad_norm": 39.10615539550781,
	"learning_rate": 0.00019882182055636053,
	"loss": 37.5989,
	"step": 367
	},
	{
	"epoch": 0.19850982771990155,
	"grad_norm": 41.10018539428711,
	"learning_rate": 0.00019881299624904692,
	"loss": 48.6169,
	"step": 368
	},
	{
	"epoch": 0.1990492565995752,
	"grad_norm": 34.8628044128418,
	"learning_rate": 0.00019880413921613367,
	"loss": 51.3889,
	"step": 369
	},
	{
	"epoch": 0.19958868547924885,
	"grad_norm": 41.81850051879883,
	"learning_rate": 0.0001987952494605541,
	"loss": 46.2857,
	"step": 370
	},
	{
	"epoch": 0.2001281143589225,
	"grad_norm": 46.00803756713867,
	"learning_rate": 0.00019878632698525238,
	"loss": 42.1201,
	"step": 371
	},
	{
	"epoch": 0.20066754323859615,
	"grad_norm": 37.3172492980957,
	"learning_rate": 0.00019877737179318353,
	"loss": 44.8517,
	"step": 372
	},
	{
	"epoch": 0.2012069721182698,
	"grad_norm": 30.38181495666504,
	"learning_rate": 0.0001987683838873134,
	"loss": 30.3321,
	"step": 373
	},
	{
	"epoch": 0.20174640099794341,
	"grad_norm": 36.00757598876953,
	"learning_rate": 0.00019875936327061865,
	"loss": 41.3805,
	"step": 374
	},
	{
	"epoch": 0.20228582987761706,
	"grad_norm": 36.742733001708984,
	"learning_rate": 0.00019875030994608684,
	"loss": 48.6651,
	"step": 375
	},
	{
	"epoch": 0.2028252587572907,
	"grad_norm": 42.53518295288086,
	"learning_rate": 0.00019874122391671622,
	"loss": 32.5649,
	"step": 376
	},
	{
	"epoch": 0.20336468763696436,
	"grad_norm": 35.77900314331055,
	"learning_rate": 0.00019873210518551608,
	"loss": 46.6955,
	"step": 377
	},
	{
	"epoch": 0.203904116516638,
	"grad_norm": 44.95616149902344,
	"learning_rate": 0.00019872295375550635,
	"loss": 41.271,
	"step": 378
	},
	{
	"epoch": 0.20444354539631165,
	"grad_norm": 34.28546142578125,
	"learning_rate": 0.00019871376962971789,
	"loss": 41.4059,
	"step": 379
	},
	{
	"epoch": 0.2049829742759853,
	"grad_norm": 35.807682037353516,
	"learning_rate": 0.00019870455281119237,
	"loss": 45.8892,
	"step": 380
	},
	{
	"epoch": 0.20552240315565895,
	"grad_norm": 30.27015495300293,
	"learning_rate": 0.00019869530330298227,
	"loss": 34.013,
	"step": 381
	},
	{
	"epoch": 0.2060618320353326,
	"grad_norm": 38.26789093017578,
	"learning_rate": 0.00019868602110815093,
	"loss": 42.6953,
	"step": 382
	},
	{
	"epoch": 0.20660126091500625,
	"grad_norm": 39.61716079711914,
	"learning_rate": 0.00019867670622977248,
	"loss": 40.4979,
	"step": 383
	},
	{
	"epoch": 0.2071406897946799,
	"grad_norm": 35.717227935791016,
	"learning_rate": 0.00019866735867093188,
	"loss": 31.5146,
	"step": 384
	},
	{
	"epoch": 0.20768011867435351,
	"grad_norm": 43.41541290283203,
	"learning_rate": 0.0001986579784347249,
	"loss": 37.5416,
	"step": 385
	},
	{
	"epoch": 0.20821954755402716,
	"grad_norm": 40.18928146362305,
	"learning_rate": 0.0001986485655242582,
	"loss": 39.0367,
	"step": 386
	},
	{
	"epoch": 0.2087589764337008,
	"grad_norm": 35.295291900634766,
	"learning_rate": 0.00019863911994264926,
	"loss": 36.8243,
	"step": 387
	},
	{
	"epoch": 0.20929840531337446,
	"grad_norm": 52.24161148071289,
	"learning_rate": 0.00019862964169302621,
	"loss": 41.7241,
	"step": 388
	},
	{
	"epoch": 0.2098378341930481,
	"grad_norm": 53.32133483886719,
	"learning_rate": 0.00019862013077852822,
	"loss": 38.7999,
	"step": 389
	},
	{
	"epoch": 0.21037726307272175,
	"grad_norm": 42.945804595947266,
	"learning_rate": 0.00019861058720230514,
	"loss": 34.0199,
	"step": 390
	},
	{
	"epoch": 0.2109166919523954,
	"grad_norm": 38.77582931518555,
	"learning_rate": 0.00019860101096751768,
	"loss": 33.4203,
	"step": 391
	},
	{
	"epoch": 0.21145612083206905,
	"grad_norm": 30.80617332458496,
	"learning_rate": 0.0001985914020773374,
	"loss": 27.0483,
	"step": 392
	},
	{
	"epoch": 0.2119955497117427,
	"grad_norm": 43.676090240478516,
	"learning_rate": 0.00019858176053494663,
	"loss": 33.954,
	"step": 393
	},
	{
	"epoch": 0.21253497859141635,
	"grad_norm": 38.32650375366211,
	"learning_rate": 0.00019857208634353852,
	"loss": 29.378,
	"step": 394
	},
	{
	"epoch": 0.21307440747109,
	"grad_norm": 39.12830352783203,
	"learning_rate": 0.000198562379506317,
	"loss": 27.9634,
	"step": 395
	},
	{
	"epoch": 0.21361383635076364,
	"grad_norm": 47.39609909057617,
	"learning_rate": 0.00019855264002649692,
	"loss": 34.1847,
	"step": 396
	},
	{
	"epoch": 0.21415326523043726,
	"grad_norm": 38.62258529663086,
	"learning_rate": 0.00019854286790730384,
	"loss": 26.0765,
	"step": 397
	},
	{
	"epoch": 0.2146926941101109,
	"grad_norm": 42.81424331665039,
	"learning_rate": 0.00019853306315197413,
	"loss": 34.1509,
	"step": 398
	},
	{
	"epoch": 0.21523212298978456,
	"grad_norm": 45.57196807861328,
	"learning_rate": 0.00019852322576375503,
	"loss": 32.0371,
	"step": 399
	},
	{
	"epoch": 0.2157715518694582,
	"grad_norm": 35.20758819580078,
	"learning_rate": 0.0001985133557459046,
	"loss": 20.3634,
	"step": 400
	},
	{
	"epoch": 0.2157715518694582,
	"eval_loss": 1.6627388000488281,
	"eval_runtime": 141.0153,
	"eval_samples_per_second": 2.12,
	"eval_steps_per_second": 2.12,
	"step": 400
	},
	{
	"epoch": 0.21631098074913185,
	"grad_norm": 24.1074161529541,
	"learning_rate": 0.00019850345310169155,
	"loss": 37.3797,
	"step": 401
	},
	{
	"epoch": 0.2168504096288055,
	"grad_norm": 62.604949951171875,
	"learning_rate": 0.00019849351783439561,
	"loss": 78.7953,
	"step": 402
	},
	{
	"epoch": 0.21738983850847915,
	"grad_norm": 43.36476135253906,
	"learning_rate": 0.0001984835499473072,
	"loss": 82.645,
	"step": 403
	},
	{
	"epoch": 0.2179292673881528,
	"grad_norm": 52.12046432495117,
	"learning_rate": 0.0001984735494437275,
	"loss": 87.0839,
	"step": 404
	},
	{
	"epoch": 0.21846869626782645,
	"grad_norm": 34.333431243896484,
	"learning_rate": 0.00019846351632696863,
	"loss": 105.6289,
	"step": 405
	},
	{
	"epoch": 0.2190081251475001,
	"grad_norm": 41.665771484375,
	"learning_rate": 0.00019845345060035335,
	"loss": 112.3874,
	"step": 406
	},
	{
	"epoch": 0.21954755402717374,
	"grad_norm": 58.79914093017578,
	"learning_rate": 0.00019844335226721537,
	"loss": 114.2657,
	"step": 407
	},
	{
	"epoch": 0.22008698290684736,
	"grad_norm": 52.85742950439453,
	"learning_rate": 0.00019843322133089906,
	"loss": 98.4778,
	"step": 408
	},
	{
	"epoch": 0.220626411786521,
	"grad_norm": 53.792476654052734,
	"learning_rate": 0.00019842305779475968,
	"loss": 94.7811,
	"step": 409
	},
	{
	"epoch": 0.22116584066619466,
	"grad_norm": 49.56667709350586,
	"learning_rate": 0.0001984128616621633,
	"loss": 92.4516,
	"step": 410
	},
	{
	"epoch": 0.2217052695458683,
	"grad_norm": 38.96401596069336,
	"learning_rate": 0.0001984026329364867,
	"loss": 78.0561,
	"step": 411
	},
	{
	"epoch": 0.22224469842554195,
	"grad_norm": 35.649200439453125,
	"learning_rate": 0.00019839237162111757,
	"loss": 66.0612,
	"step": 412
	},
	{
	"epoch": 0.2227841273052156,
	"grad_norm": 22.54837989807129,
	"learning_rate": 0.00019838207771945426,
	"loss": 59.3091,
	"step": 413
	},
	{
	"epoch": 0.22332355618488925,
	"grad_norm": 16.843589782714844,
	"learning_rate": 0.00019837175123490596,
	"loss": 62.8711,
	"step": 414
	},
	{
	"epoch": 0.2238629850645629,
	"grad_norm": 18.909435272216797,
	"learning_rate": 0.00019836139217089275,
	"loss": 55.3784,
	"step": 415
	},
	{
	"epoch": 0.22440241394423655,
	"grad_norm": 25.120887756347656,
	"learning_rate": 0.0001983510005308454,
	"loss": 51.9063,
	"step": 416
	},
	{
	"epoch": 0.2249418428239102,
	"grad_norm": 30.78650665283203,
	"learning_rate": 0.00019834057631820543,
	"loss": 32.4726,
	"step": 417
	},
	{
	"epoch": 0.22548127170358384,
	"grad_norm": 72.46208953857422,
	"learning_rate": 0.00019833011953642525,
	"loss": 44.1452,
	"step": 418
	},
	{
	"epoch": 0.2260207005832575,
	"grad_norm": 45.94267654418945,
	"learning_rate": 0.000198319630188968,
	"loss": 50.9596,
	"step": 419
	},
	{
	"epoch": 0.2265601294629311,
	"grad_norm": 47.52016067504883,
	"learning_rate": 0.00019830910827930764,
	"loss": 44.8286,
	"step": 420
	},
	{
	"epoch": 0.22709955834260476,
	"grad_norm": 40.93891525268555,
	"learning_rate": 0.00019829855381092886,
	"loss": 56.7985,
	"step": 421
	},
	{
	"epoch": 0.2276389872222784,
	"grad_norm": 36.567108154296875,
	"learning_rate": 0.0001982879667873272,
	"loss": 35.7161,
	"step": 422
	},
	{
	"epoch": 0.22817841610195205,
	"grad_norm": 31.908977508544922,
	"learning_rate": 0.0001982773472120089,
	"loss": 42.8407,
	"step": 423
	},
	{
	"epoch": 0.2287178449816257,
	"grad_norm": 37.47427749633789,
	"learning_rate": 0.00019826669508849108,
	"loss": 39.5264,
	"step": 424
	},
	{
	"epoch": 0.22925727386129935,
	"grad_norm": 43.83090591430664,
	"learning_rate": 0.00019825601042030156,
	"loss": 48.5415,
	"step": 425
	},
	{
	"epoch": 0.229796702740973,
	"grad_norm": 42.004425048828125,
	"learning_rate": 0.00019824529321097893,
	"loss": 39.4127,
	"step": 426
	},
	{
	"epoch": 0.23033613162064664,
	"grad_norm": 38.282066345214844,
	"learning_rate": 0.00019823454346407267,
	"loss": 40.8499,
	"step": 427
	},
	{
	"epoch": 0.2308755605003203,
	"grad_norm": 33.92627716064453,
	"learning_rate": 0.0001982237611831429,
	"loss": 35.4472,
	"step": 428
	},
	{
	"epoch": 0.23141498937999394,
	"grad_norm": 53.361106872558594,
	"learning_rate": 0.00019821294637176057,
	"loss": 43.1921,
	"step": 429
	},
	{
	"epoch": 0.2319544182596676,
	"grad_norm": 40.92842102050781,
	"learning_rate": 0.00019820209903350744,
	"loss": 36.5019,
	"step": 430
	},
	{
	"epoch": 0.2324938471393412,
	"grad_norm": 35.71042251586914,
	"learning_rate": 0.00019819121917197602,
	"loss": 36.598,
	"step": 431
	},
	{
	"epoch": 0.23303327601901486,
	"grad_norm": 35.10508728027344,
	"learning_rate": 0.00019818030679076952,
	"loss": 31.6675,
	"step": 432
	},
	{
	"epoch": 0.2335727048986885,
	"grad_norm": 31.885364532470703,
	"learning_rate": 0.00019816936189350206,
	"loss": 34.3554,
	"step": 433
	},
	{
	"epoch": 0.23411213377836215,
	"grad_norm": 42.998878479003906,
	"learning_rate": 0.0001981583844837984,
	"loss": 28.1099,
	"step": 434
	},
	{
	"epoch": 0.2346515626580358,
	"grad_norm": 38.70567321777344,
	"learning_rate": 0.00019814737456529412,
	"loss": 42.3567,
	"step": 435
	},
	{
	"epoch": 0.23519099153770945,
	"grad_norm": 34.43855285644531,
	"learning_rate": 0.00019813633214163555,
	"loss": 22.8285,
	"step": 436
	},
	{
	"epoch": 0.2357304204173831,
	"grad_norm": 33.38055419921875,
	"learning_rate": 0.00019812525721647986,
	"loss": 36.1465,
	"step": 437
	},
	{
	"epoch": 0.23626984929705674,
	"grad_norm": 42.98970413208008,
	"learning_rate": 0.00019811414979349485,
	"loss": 34.8416,
	"step": 438
	},
	{
	"epoch": 0.2368092781767304,
	"grad_norm": 37.12187957763672,
	"learning_rate": 0.0001981030098763592,
	"loss": 34.276,
	"step": 439
	},
	{
	"epoch": 0.23734870705640404,
	"grad_norm": 44.36403274536133,
	"learning_rate": 0.00019809183746876232,
	"loss": 30.3544,
	"step": 440
	},
	{
	"epoch": 0.2378881359360777,
	"grad_norm": 46.281654357910156,
	"learning_rate": 0.00019808063257440432,
	"loss": 27.8803,
	"step": 441
	},
	{
	"epoch": 0.23842756481575134,
	"grad_norm": 49.94664001464844,
	"learning_rate": 0.00019806939519699613,
	"loss": 31.0358,
	"step": 442
	},
	{
	"epoch": 0.23896699369542496,
	"grad_norm": 42.308616638183594,
	"learning_rate": 0.0001980581253402595,
	"loss": 29.4053,
	"step": 443
	},
	{
	"epoch": 0.2395064225750986,
	"grad_norm": 51.36742401123047,
	"learning_rate": 0.00019804682300792674,
	"loss": 31.0947,
	"step": 444
	},
	{
	"epoch": 0.24004585145477225,
	"grad_norm": 40.25013732910156,
	"learning_rate": 0.00019803548820374113,
	"loss": 26.6703,
	"step": 445
	},
	{
	"epoch": 0.2405852803344459,
	"grad_norm": 53.013710021972656,
	"learning_rate": 0.00019802412093145657,
	"loss": 35.5286,
	"step": 446
	},
	{
	"epoch": 0.24112470921411955,
	"grad_norm": 41.21833038330078,
	"learning_rate": 0.00019801272119483775,
	"loss": 25.3315,
	"step": 447
	},
	{
	"epoch": 0.2416641380937932,
	"grad_norm": 61.56970977783203,
	"learning_rate": 0.00019800128899766017,
	"loss": 27.589,
	"step": 448
	},
	{
	"epoch": 0.24220356697346684,
	"grad_norm": 58.22453308105469,
	"learning_rate": 0.00019798982434371,
	"loss": 37.2235,
	"step": 449
	},
	{
	"epoch": 0.2427429958531405,
	"grad_norm": 36.04716110229492,
	"learning_rate": 0.00019797832723678413,
	"loss": 28.1485,
	"step": 450
	},
	{
	"epoch": 0.24328242473281414,
	"grad_norm": 50.804813385009766,
	"learning_rate": 0.00019796679768069032,
	"loss": 49.1471,
	"step": 451
	},
	{
	"epoch": 0.2438218536124878,
	"grad_norm": 91.2785873413086,
	"learning_rate": 0.00019795523567924702,
	"loss": 72.8998,
	"step": 452
	},
	{
	"epoch": 0.24436128249216144,
	"grad_norm": 110.37539672851562,
	"learning_rate": 0.00019794364123628335,
	"loss": 98.2308,
	"step": 453
	},
	{
	"epoch": 0.24490071137183506,
	"grad_norm": 79.3825912475586,
	"learning_rate": 0.00019793201435563932,
	"loss": 109.7274,
	"step": 454
	},
	{
	"epoch": 0.2454401402515087,
	"grad_norm": 36.62171173095703,
	"learning_rate": 0.00019792035504116555,
	"loss": 107.5116,
	"step": 455
	},
	{
	"epoch": 0.24597956913118235,
	"grad_norm": 57.664146423339844,
	"learning_rate": 0.00019790866329672346,
	"loss": 113.5622,
	"step": 456
	},
	{
	"epoch": 0.246518998010856,
	"grad_norm": 57.12027359008789,
	"learning_rate": 0.00019789693912618524,
	"loss": 102.4627,
	"step": 457
	},
	{
	"epoch": 0.24705842689052965,
	"grad_norm": 67.92241668701172,
	"learning_rate": 0.00019788518253343376,
	"loss": 90.2483,
	"step": 458
	},
	{
	"epoch": 0.2475978557702033,
	"grad_norm": 63.95331573486328,
	"learning_rate": 0.00019787339352236264,
	"loss": 94.7671,
	"step": 459
	},
	{
	"epoch": 0.24813728464987694,
	"grad_norm": 55.70960235595703,
	"learning_rate": 0.00019786157209687627,
	"loss": 92.1523,
	"step": 460
	},
	{
	"epoch": 0.2486767135295506,
	"grad_norm": 44.270233154296875,
	"learning_rate": 0.00019784971826088973,
	"loss": 82.3084,
	"step": 461
	},
	{
	"epoch": 0.24921614240922424,
	"grad_norm": 35.74955749511719,
	"learning_rate": 0.0001978378320183289,
	"loss": 71.401,
	"step": 462
	},
	{
	"epoch": 0.2497555712888979,
	"grad_norm": 26.20838165283203,
	"learning_rate": 0.00019782591337313035,
	"loss": 68.6018,
	"step": 463
	},
	{
	"epoch": 0.25029500016857154,
	"grad_norm": 20.70208740234375,
	"learning_rate": 0.00019781396232924133,
	"loss": 62.6257,
	"step": 464
	},
	{
	"epoch": 0.25083442904824516,
	"grad_norm": 17.804771423339844,
	"learning_rate": 0.00019780197889061993,
	"loss": 54.6564,
	"step": 465
	},
	{
	"epoch": 0.25137385792791883,
	"grad_norm": 24.327360153198242,
	"learning_rate": 0.0001977899630612349,
	"loss": 50.7451,
	"step": 466
	},
	{
	"epoch": 0.25191328680759245,
	"grad_norm": 29.580142974853516,
	"learning_rate": 0.00019777791484506567,
	"loss": 34.4045,
	"step": 467
	},
	{
	"epoch": 0.2524527156872661,
	"grad_norm": 30.99888801574707,
	"learning_rate": 0.00019776583424610254,
	"loss": 41.2975,
	"step": 468
	},
	{
	"epoch": 0.25299214456693975,
	"grad_norm": 40.59465408325195,
	"learning_rate": 0.0001977537212683464,
	"loss": 56.0607,
	"step": 469
	},
	{
	"epoch": 0.2535315734466134,
	"grad_norm": 42.85790252685547,
	"learning_rate": 0.00019774157591580894,
	"loss": 40.9168,
	"step": 470
	},
	{
	"epoch": 0.25407100232628704,
	"grad_norm": 38.090885162353516,
	"learning_rate": 0.0001977293981925125,
	"loss": 49.6262,
	"step": 471
	},
	{
	"epoch": 0.25461043120596066,
	"grad_norm": 33.007991790771484,
	"learning_rate": 0.0001977171881024902,
	"loss": 44.5241,
	"step": 472
	},
	{
	"epoch": 0.25514986008563434,
	"grad_norm": 39.41592025756836,
	"learning_rate": 0.00019770494564978595,
	"loss": 38.185,
	"step": 473
	},
	{
	"epoch": 0.25568928896530796,
	"grad_norm": 33.008148193359375,
	"learning_rate": 0.00019769267083845417,
	"loss": 42.3843,
	"step": 474
	},
	{
	"epoch": 0.25622871784498163,
	"grad_norm": 27.917991638183594,
	"learning_rate": 0.0001976803636725602,
	"loss": 33.7216,
	"step": 475
	},
	{
	"epoch": 0.25676814672465526,
	"grad_norm": 29.870256423950195,
	"learning_rate": 0.00019766802415617998,
	"loss": 35.7963,
	"step": 476
	},
	{
	"epoch": 0.25730757560432893,
	"grad_norm": 44.98633575439453,
	"learning_rate": 0.0001976556522934002,
	"loss": 35.8127,
	"step": 477
	},
	{
	"epoch": 0.25784700448400255,
	"grad_norm": 43.03909683227539,
	"learning_rate": 0.0001976432480883183,
	"loss": 35.4111,
	"step": 478
	},
	{
	"epoch": 0.2583864333636762,
	"grad_norm": 47.32424545288086,
	"learning_rate": 0.00019763081154504234,
	"loss": 41.8895,
	"step": 479
	},
	{
	"epoch": 0.25892586224334985,
	"grad_norm": 49.7735595703125,
	"learning_rate": 0.0001976183426676912,
	"loss": 32.9801,
	"step": 480
	},
	{
	"epoch": 0.2594652911230235,
	"grad_norm": 44.57673645019531,
	"learning_rate": 0.0001976058414603944,
	"loss": 36.089,
	"step": 481
	},
	{
	"epoch": 0.26000472000269714,
	"grad_norm": 36.22349548339844,
	"learning_rate": 0.00019759330792729212,
	"loss": 47.0487,
	"step": 482
	},
	{
	"epoch": 0.26054414888237076,
	"grad_norm": 38.58706283569336,
	"learning_rate": 0.00019758074207253535,
	"loss": 34.3672,
	"step": 483
	},
	{
	"epoch": 0.26108357776204444,
	"grad_norm": 40.61176300048828,
	"learning_rate": 0.00019756814390028575,
	"loss": 39.7468,
	"step": 484
	},
	{
	"epoch": 0.26162300664171806,
	"grad_norm": 29.439836502075195,
	"learning_rate": 0.00019755551341471566,
	"loss": 34.1449,
	"step": 485
	},
	{
	"epoch": 0.26216243552139173,
	"grad_norm": 35.68241882324219,
	"learning_rate": 0.00019754285062000815,
	"loss": 31.6102,
	"step": 486
	},
	{
	"epoch": 0.26270186440106535,
	"grad_norm": 44.2021598815918,
	"learning_rate": 0.000197530155520357,
	"loss": 31.8889,
	"step": 487
	},
	{
	"epoch": 0.26324129328073903,
	"grad_norm": 53.82715606689453,
	"learning_rate": 0.00019751742811996656,
	"loss": 31.6853,
	"step": 488
	},
	{
	"epoch": 0.26378072216041265,
	"grad_norm": 41.77256774902344,
	"learning_rate": 0.00019750466842305208,
	"loss": 39.1939,
	"step": 489
	},
	{
	"epoch": 0.2643201510400863,
	"grad_norm": 36.42414093017578,
	"learning_rate": 0.00019749187643383937,
	"loss": 26.3978,
	"step": 490
	},
	{
	"epoch": 0.26485957991975995,
	"grad_norm": 49.238014221191406,
	"learning_rate": 0.00019747905215656498,
	"loss": 33.8181,
	"step": 491
	},
	{
	"epoch": 0.2653990087994336,
	"grad_norm": 37.46484375,
	"learning_rate": 0.00019746619559547619,
	"loss": 32.0879,
	"step": 492
	},
	{
	"epoch": 0.26593843767910724,
	"grad_norm": 29.428075790405273,
	"learning_rate": 0.00019745330675483084,
	"loss": 22.5194,
	"step": 493
	},
	{
	"epoch": 0.2664778665587809,
	"grad_norm": 42.24260330200195,
	"learning_rate": 0.00019744038563889764,
	"loss": 34.5577,
	"step": 494
	},
	{
	"epoch": 0.26701729543845454,
	"grad_norm": 43.271976470947266,
	"learning_rate": 0.00019742743225195582,
	"loss": 25.107,
	"step": 495
	},
	{
	"epoch": 0.26755672431812816,
	"grad_norm": 41.1341667175293,
	"learning_rate": 0.00019741444659829543,
	"loss": 24.4596,
	"step": 496
	},
	{
	"epoch": 0.26809615319780183,
	"grad_norm": 35.3587760925293,
	"learning_rate": 0.00019740142868221713,
	"loss": 21.1434,
	"step": 497
	},
	{
	"epoch": 0.26863558207747545,
	"grad_norm": 47.48214340209961,
	"learning_rate": 0.00019738837850803226,
	"loss": 23.4752,
	"step": 498
	},
	{
	"epoch": 0.26917501095714913,
	"grad_norm": 44.637882232666016,
	"learning_rate": 0.00019737529608006293,
	"loss": 21.9525,
	"step": 499
	},
	{
	"epoch": 0.26971443983682275,
	"grad_norm": 31.005287170410156,
	"learning_rate": 0.00019736218140264185,
	"loss": 19.1622,
	"step": 500
	},
	{
	"epoch": 0.2702538687164964,
	"grad_norm": 32.10681915283203,
	"learning_rate": 0.0001973490344801124,
	"loss": 44.8021,
	"step": 501
	},
	{
	"epoch": 0.27079329759617005,
	"grad_norm": 67.818603515625,
	"learning_rate": 0.0001973358553168287,
	"loss": 90.5945,
	"step": 502
	},
	{
	"epoch": 0.2713327264758437,
	"grad_norm": 78.30387115478516,
	"learning_rate": 0.00019732264391715556,
	"loss": 101.037,
	"step": 503
	},
	{
	"epoch": 0.27187215535551734,
	"grad_norm": 92.50519561767578,
	"learning_rate": 0.00019730940028546835,
	"loss": 124.3723,
	"step": 504
	},
	{
	"epoch": 0.272411584235191,
	"grad_norm": 38.794246673583984,
	"learning_rate": 0.0001972961244261532,
	"loss": 105.1317,
	"step": 505
	},
	{
	"epoch": 0.27295101311486464,
	"grad_norm": 34.56374740600586,
	"learning_rate": 0.00019728281634360698,
	"loss": 101.3536,
	"step": 506
	},
	{
	"epoch": 0.27349044199453826,
	"grad_norm": 33.79701614379883,
	"learning_rate": 0.00019726947604223712,
	"loss": 105.4946,
	"step": 507
	},
	{
	"epoch": 0.27402987087421193,
	"grad_norm": 39.242740631103516,
	"learning_rate": 0.00019725610352646172,
	"loss": 82.6645,
	"step": 508
	},
	{
	"epoch": 0.27456929975388555,
	"grad_norm": 41.144683837890625,
	"learning_rate": 0.0001972426988007096,
	"loss": 99.5104,
	"step": 509
	},
	{
	"epoch": 0.27510872863355923,
	"grad_norm": 43.32292175292969,
	"learning_rate": 0.00019722926186942026,
	"loss": 90.6068,
	"step": 510
	},
	{
	"epoch": 0.27564815751323285,
	"grad_norm": 40.97383117675781,
	"learning_rate": 0.0001972157927370438,
	"loss": 71.8933,
	"step": 511
	},
	{
	"epoch": 0.2761875863929065,
	"grad_norm": 27.89875602722168,
	"learning_rate": 0.0001972022914080411,
	"loss": 66.0499,
	"step": 512
	},
	{
	"epoch": 0.27672701527258015,
	"grad_norm": 23.75403594970703,
	"learning_rate": 0.00019718875788688354,
	"loss": 59.9798,
	"step": 513
	},
	{
	"epoch": 0.2772664441522538,
	"grad_norm": 18.101530075073242,
	"learning_rate": 0.0001971751921780533,
	"loss": 55.1379,
	"step": 514
	},
	{
	"epoch": 0.27780587303192744,
	"grad_norm": 24.123146057128906,
	"learning_rate": 0.00019716159428604315,
	"loss": 51.0036,
	"step": 515
	},
	{
	"epoch": 0.2783453019116011,
	"grad_norm": 29.12915802001953,
	"learning_rate": 0.00019714796421535654,
	"loss": 35.74,
	"step": 516
	},
	{
	"epoch": 0.27888473079127474,
	"grad_norm": 41.40327072143555,
	"learning_rate": 0.00019713430197050756,
	"loss": 34.8342,
	"step": 517
	},
	{
	"epoch": 0.27942415967094836,
	"grad_norm": 65.70941162109375,
	"learning_rate": 0.00019712060755602102,
	"loss": 45.6267,
	"step": 518
	},
	{
	"epoch": 0.27996358855062203,
	"grad_norm": 37.733158111572266,
	"learning_rate": 0.00019710688097643227,
	"loss": 40.7,
	"step": 519
	},
	{
	"epoch": 0.28050301743029565,
	"grad_norm": 39.90540313720703,
	"learning_rate": 0.0001970931222362874,
	"loss": 52.105,
	"step": 520
	},
	{
	"epoch": 0.28104244630996933,
	"grad_norm": 41.023155212402344,
	"learning_rate": 0.0001970793313401432,
	"loss": 47.4019,
	"step": 521
	},
	{
	"epoch": 0.28158187518964295,
	"grad_norm": 39.340972900390625,
	"learning_rate": 0.00019706550829256693,
	"loss": 36.3784,
	"step": 522
	},
	{
	"epoch": 0.2821213040693166,
	"grad_norm": 31.36964988708496,
	"learning_rate": 0.0001970516530981367,
	"loss": 32.5883,
	"step": 523
	},
	{
	"epoch": 0.28266073294899025,
	"grad_norm": 31.426342010498047,
	"learning_rate": 0.00019703776576144105,
	"loss": 37.0281,
	"step": 524
	},
	{
	"epoch": 0.2832001618286639,
	"grad_norm": 48.170589447021484,
	"learning_rate": 0.00019702384628707945,
	"loss": 50.0541,
	"step": 525
	},
	{
	"epoch": 0.28373959070833754,
	"grad_norm": 58.017845153808594,
	"learning_rate": 0.0001970098946796617,
	"loss": 35.1185,
	"step": 526
	},
	{
	"epoch": 0.2842790195880112,
	"grad_norm": 44.51712417602539,
	"learning_rate": 0.0001969959109438085,
	"loss": 30.6861,
	"step": 527
	},
	{
	"epoch": 0.28481844846768484,
	"grad_norm": 38.26441955566406,
	"learning_rate": 0.00019698189508415102,
	"loss": 42.7979,
	"step": 528
	},
	{
	"epoch": 0.28535787734735846,
	"grad_norm": 33.41388702392578,
	"learning_rate": 0.00019696784710533115,
	"loss": 31.6934,
	"step": 529
	},
	{
	"epoch": 0.28589730622703213,
	"grad_norm": 39.14249038696289,
	"learning_rate": 0.00019695376701200145,
	"loss": 31.4034,
	"step": 530
	},
	{
	"epoch": 0.28643673510670575,
	"grad_norm": 38.64737319946289,
	"learning_rate": 0.000196939654808825,
	"loss": 35.3318,
	"step": 531
	},
	{
	"epoch": 0.28697616398637943,
	"grad_norm": 32.65852355957031,
	"learning_rate": 0.0001969255105004756,
	"loss": 33.1427,
	"step": 532
	},
	{
	"epoch": 0.28751559286605305,
	"grad_norm": 33.65852355957031,
	"learning_rate": 0.0001969113340916377,
	"loss": 31.0407,
	"step": 533
	},
	{
	"epoch": 0.2880550217457267,
	"grad_norm": 31.496322631835938,
	"learning_rate": 0.00019689712558700628,
	"loss": 32.1776,
	"step": 534
	},
	{
	"epoch": 0.28859445062540034,
	"grad_norm": 37.255680084228516,
	"learning_rate": 0.00019688288499128707,
	"loss": 32.4352,
	"step": 535
	},
	{
	"epoch": 0.289133879505074,
	"grad_norm": 35.74131774902344,
	"learning_rate": 0.00019686861230919635,
	"loss": 39.0239,
	"step": 536
	},
	{
	"epoch": 0.28967330838474764,
	"grad_norm": 62.805694580078125,
	"learning_rate": 0.00019685430754546107,
	"loss": 39.168,
	"step": 537
	},
	{
	"epoch": 0.2902127372644213,
	"grad_norm": 32.74406814575195,
	"learning_rate": 0.00019683997070481875,
	"loss": 27.3064,
	"step": 538
	},
	{
	"epoch": 0.29075216614409494,
	"grad_norm": 60.63595199584961,
	"learning_rate": 0.00019682560179201759,
	"loss": 37.3217,
	"step": 539
	},
	{
	"epoch": 0.2912915950237686,
	"grad_norm": 49.350975036621094,
	"learning_rate": 0.00019681120081181636,
	"loss": 32.6254,
	"step": 540
	},
	{
	"epoch": 0.29183102390344223,
	"grad_norm": 33.03507614135742,
	"learning_rate": 0.00019679676776898454,
	"loss": 23.6142,
	"step": 541
	},
	{
	"epoch": 0.29237045278311585,
	"grad_norm": 46.380985260009766,
	"learning_rate": 0.00019678230266830212,
	"loss": 26.1048,
	"step": 542
	},
	{
	"epoch": 0.29290988166278953,
	"grad_norm": 44.384132385253906,
	"learning_rate": 0.00019676780551455977,
	"loss": 19.0745,
	"step": 543
	},
	{
	"epoch": 0.29344931054246315,
	"grad_norm": 32.757320404052734,
	"learning_rate": 0.0001967532763125588,
	"loss": 33.5921,
	"step": 544
	},
	{
	"epoch": 0.2939887394221368,
	"grad_norm": 40.512939453125,
	"learning_rate": 0.000196738715067111,
	"loss": 23.9648,
	"step": 545
	},
	{
	"epoch": 0.29452816830181044,
	"grad_norm": 36.085330963134766,
	"learning_rate": 0.00019672412178303898,
	"loss": 25.8736,
	"step": 546
	},
	{
	"epoch": 0.2950675971814841,
	"grad_norm": 39.4991340637207,
	"learning_rate": 0.00019670949646517576,
	"loss": 35.8085,
	"step": 547
	},
	{
	"epoch": 0.29560702606115774,
	"grad_norm": 56.80205535888672,
	"learning_rate": 0.0001966948391183651,
	"loss": 21.2566,
	"step": 548
	},
	{
	"epoch": 0.2961464549408314,
	"grad_norm": 51.80792999267578,
	"learning_rate": 0.00019668014974746133,
	"loss": 19.3891,
	"step": 549
	},
	{
	"epoch": 0.29668588382050504,
	"grad_norm": 40.740726470947266,
	"learning_rate": 0.00019666542835732937,
	"loss": 17.442,
	"step": 550
	},
	{
	"epoch": 0.2972253127001787,
	"grad_norm": 43.78228759765625,
	"learning_rate": 0.00019665067495284476,
	"loss": 53.1444,
	"step": 551
	},
	{
	"epoch": 0.29776474157985233,
	"grad_norm": 68.15139770507812,
	"learning_rate": 0.00019663588953889363,
	"loss": 83.8455,
	"step": 552
	},
	{
	"epoch": 0.29830417045952595,
	"grad_norm": 57.72416305541992,
	"learning_rate": 0.00019662107212037273,
	"loss": 91.3314,
	"step": 553
	},
	{
	"epoch": 0.29884359933919963,
	"grad_norm": 70.40361785888672,
	"learning_rate": 0.0001966062227021894,
	"loss": 115.1381,
	"step": 554
	},
	{
	"epoch": 0.29938302821887325,
	"grad_norm": 33.6906623840332,
	"learning_rate": 0.00019659134128926156,
	"loss": 96.5649,
	"step": 555
	},
	{
	"epoch": 0.2999224570985469,
	"grad_norm": 41.24090576171875,
	"learning_rate": 0.00019657642788651776,
	"loss": 104.8012,
	"step": 556
	},
	{
	"epoch": 0.30046188597822054,
	"grad_norm": 62.62508773803711,
	"learning_rate": 0.00019656148249889714,
	"loss": 89.1584,
	"step": 557
	},
	{
	"epoch": 0.3010013148578942,
	"grad_norm": 54.20726013183594,
	"learning_rate": 0.00019654650513134937,
	"loss": 102.4601,
	"step": 558
	},
	{
	"epoch": 0.30154074373756784,
	"grad_norm": 51.19554138183594,
	"learning_rate": 0.00019653149578883482,
	"loss": 94.7273,
	"step": 559
	},
	{
	"epoch": 0.3020801726172415,
	"grad_norm": 50.297447204589844,
	"learning_rate": 0.00019651645447632437,
	"loss": 85.4999,
	"step": 560
	},
	{
	"epoch": 0.30261960149691514,
	"grad_norm": 43.541648864746094,
	"learning_rate": 0.00019650138119879952,
	"loss": 84.9936,
	"step": 561
	},
	{
	"epoch": 0.3031590303765888,
	"grad_norm": 30.611860275268555,
	"learning_rate": 0.00019648627596125233,
	"loss": 68.3871,
	"step": 562
	},
	{
	"epoch": 0.30369845925626243,
	"grad_norm": 18.373859405517578,
	"learning_rate": 0.00019647113876868546,
	"loss": 64.1806,
	"step": 563
	},
	{
	"epoch": 0.30423788813593605,
	"grad_norm": 17.967041015625,
	"learning_rate": 0.00019645596962611218,
	"loss": 58.1967,
	"step": 564
	},
	{
	"epoch": 0.30477731701560973,
	"grad_norm": 17.57683563232422,
	"learning_rate": 0.00019644076853855626,
	"loss": 48.7426,
	"step": 565
	},
	{
	"epoch": 0.30531674589528335,
	"grad_norm": 24.4635066986084,
	"learning_rate": 0.00019642553551105219,
	"loss": 45.5702,
	"step": 566
	},
	{
	"epoch": 0.305856174774957,
	"grad_norm": 44.31038284301758,
	"learning_rate": 0.0001964102705486449,
	"loss": 36.4538,
	"step": 567
	},
	{
	"epoch": 0.30639560365463064,
	"grad_norm": 45.66762924194336,
	"learning_rate": 0.00019639497365638993,
	"loss": 37.6228,
	"step": 568
	},
	{
	"epoch": 0.3069350325343043,
	"grad_norm": 45.2806282043457,
	"learning_rate": 0.00019637964483935346,
	"loss": 47.7514,
	"step": 569
	},
	{
	"epoch": 0.30747446141397794,
	"grad_norm": 44.627296447753906,
	"learning_rate": 0.00019636428410261218,
	"loss": 50.5934,
	"step": 570
	},
	{
	"epoch": 0.3080138902936516,
	"grad_norm": 39.8631706237793,
	"learning_rate": 0.00019634889145125336,
	"loss": 33.2035,
	"step": 571
	},
	{
	"epoch": 0.30855331917332524,
	"grad_norm": 43.88326644897461,
	"learning_rate": 0.00019633346689037486,
	"loss": 44.4418,
	"step": 572
	},
	{
	"epoch": 0.3090927480529989,
	"grad_norm": 31.599515914916992,
	"learning_rate": 0.0001963180104250851,
	"loss": 29.8656,
	"step": 573
	},
	{
	"epoch": 0.30963217693267253,
	"grad_norm": 29.062061309814453,
	"learning_rate": 0.00019630252206050307,
	"loss": 29.4416,
	"step": 574
	},
	{
	"epoch": 0.31017160581234615,
	"grad_norm": 35.07856750488281,
	"learning_rate": 0.00019628700180175833,
	"loss": 33.663,
	"step": 575
	},
	{
	"epoch": 0.3107110346920198,
	"grad_norm": 38.65933609008789,
	"learning_rate": 0.00019627144965399094,
	"loss": 43.6982,
	"step": 576
	},
	{
	"epoch": 0.31125046357169345,
	"grad_norm": 36.53346252441406,
	"learning_rate": 0.0001962558656223516,
	"loss": 41.9741,
	"step": 577
	},
	{
	"epoch": 0.3117898924513671,
	"grad_norm": 50.61214065551758,
	"learning_rate": 0.00019624024971200154,
	"loss": 31.3103,
	"step": 578
	},
	{
	"epoch": 0.31232932133104074,
	"grad_norm": 39.70477294921875,
	"learning_rate": 0.00019622460192811255,
	"loss": 40.1001,
	"step": 579
	},
	{
	"epoch": 0.3128687502107144,
	"grad_norm": 43.24115753173828,
	"learning_rate": 0.000196208922275867,
	"loss": 38.9648,
	"step": 580
	},
	{
	"epoch": 0.31340817909038804,
	"grad_norm": 49.614410400390625,
	"learning_rate": 0.00019619321076045778,
	"loss": 38.396,
	"step": 581
	},
	{
	"epoch": 0.3139476079700617,
	"grad_norm": 38.65335464477539,
	"learning_rate": 0.0001961774673870883,
	"loss": 33.8401,
	"step": 582
	},
	{
	"epoch": 0.31448703684973534,
	"grad_norm": 36.919837951660156,
	"learning_rate": 0.00019616169216097262,
	"loss": 40.8598,
	"step": 583
	},
	{
	"epoch": 0.315026465729409,
	"grad_norm": 34.90658187866211,
	"learning_rate": 0.00019614588508733524,
	"loss": 26.7875,
	"step": 584
	},
	{
	"epoch": 0.31556589460908263,
	"grad_norm": 36.6773796081543,
	"learning_rate": 0.00019613004617141132,
	"loss": 38.7512,
	"step": 585
	},
	{
	"epoch": 0.3161053234887563,
	"grad_norm": 38.80603790283203,
	"learning_rate": 0.00019611417541844645,
	"loss": 22.4567,
	"step": 586
	},
	{
	"epoch": 0.3166447523684299,
	"grad_norm": 39.85905838012695,
	"learning_rate": 0.00019609827283369687,
	"loss": 34.7722,
	"step": 587
	},
	{
	"epoch": 0.31718418124810355,
	"grad_norm": 42.714210510253906,
	"learning_rate": 0.00019608233842242925,
	"loss": 29.6514,
	"step": 588
	},
	{
	"epoch": 0.3177236101277772,
	"grad_norm": 28.49331283569336,
	"learning_rate": 0.00019606637218992092,
	"loss": 32.2811,
	"step": 589
	},
	{
	"epoch": 0.31826303900745084,
	"grad_norm": 38.48284912109375,
	"learning_rate": 0.0001960503741414597,
	"loss": 19.4347,
	"step": 590
	},
	{
	"epoch": 0.3188024678871245,
	"grad_norm": 40.46686553955078,
	"learning_rate": 0.00019603434428234389,
	"loss": 36.0755,
	"step": 591
	},
	{
	"epoch": 0.31934189676679814,
	"grad_norm": 33.52849578857422,
	"learning_rate": 0.00019601828261788236,
	"loss": 23.4967,
	"step": 592
	},
	{
	"epoch": 0.3198813256464718,
	"grad_norm": 36.89003372192383,
	"learning_rate": 0.0001960021891533946,
	"loss": 17.4822,
	"step": 593
	},
	{
	"epoch": 0.32042075452614543,
	"grad_norm": 47.023624420166016,
	"learning_rate": 0.00019598606389421055,
	"loss": 26.3533,
	"step": 594
	},
	{
	"epoch": 0.3209601834058191,
	"grad_norm": 53.969627380371094,
	"learning_rate": 0.00019596990684567063,
	"loss": 36.3338,
	"step": 595
	},
	{
	"epoch": 0.32149961228549273,
	"grad_norm": 31.71206283569336,
	"learning_rate": 0.00019595371801312588,
	"loss": 23.1099,
	"step": 596
	},
	{
	"epoch": 0.3220390411651664,
	"grad_norm": 34.602901458740234,
	"learning_rate": 0.00019593749740193784,
	"loss": 20.7281,
	"step": 597
	},
	{
	"epoch": 0.32257847004484,
	"grad_norm": 32.23836135864258,
	"learning_rate": 0.00019592124501747855,
	"loss": 19.1565,
	"step": 598
	},
	{
	"epoch": 0.32311789892451365,
	"grad_norm": 31.762807846069336,
	"learning_rate": 0.00019590496086513063,
	"loss": 20.822,
	"step": 599
	},
	{
	"epoch": 0.3236573278041873,
	"grad_norm": 38.77958297729492,
	"learning_rate": 0.00019588864495028712,
	"loss": 20.7172,
	"step": 600
	},
	{
	"epoch": 0.3236573278041873,
	"eval_loss": 1.5770864486694336,
	"eval_runtime": 140.3936,
	"eval_samples_per_second": 2.13,
	"eval_steps_per_second": 2.13,
	"step": 600
	}
	],
	"logging_steps": 1,
	"max_steps": 5559,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 200,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.0696873835715625e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}