nemo_nano_science_300k / trainer_state.json

Upload model

ec24875 verified 11 months ago

63.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.987012987012987,
	"eval_steps": 500,
	"global_step": 360,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013852813852813853,
	"grad_norm": 10.690503047217376,
	"learning_rate": 2.222222222222222e-06,
	"loss": 1.664,
	"step": 1
	},
	{
	"epoch": 0.027705627705627706,
	"grad_norm": 10.549038500876918,
	"learning_rate": 4.444444444444444e-06,
	"loss": 1.6687,
	"step": 2
	},
	{
	"epoch": 0.04155844155844156,
	"grad_norm": 9.952372502868275,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.6436,
	"step": 3
	},
	{
	"epoch": 0.05541125541125541,
	"grad_norm": 7.525381680312214,
	"learning_rate": 8.888888888888888e-06,
	"loss": 1.5751,
	"step": 4
	},
	{
	"epoch": 0.06926406926406926,
	"grad_norm": 3.6488707097222806,
	"learning_rate": 1.1111111111111113e-05,
	"loss": 1.4732,
	"step": 5
	},
	{
	"epoch": 0.08311688311688312,
	"grad_norm": 5.9440833747387405,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 1.4929,
	"step": 6
	},
	{
	"epoch": 0.09696969696969697,
	"grad_norm": 7.008224469434576,
	"learning_rate": 1.555555555555556e-05,
	"loss": 1.4342,
	"step": 7
	},
	{
	"epoch": 0.11082251082251082,
	"grad_norm": 9.129791969259458,
	"learning_rate": 1.7777777777777777e-05,
	"loss": 1.4508,
	"step": 8
	},
	{
	"epoch": 0.12467532467532468,
	"grad_norm": 7.157661170613076,
	"learning_rate": 2e-05,
	"loss": 1.3993,
	"step": 9
	},
	{
	"epoch": 0.13852813852813853,
	"grad_norm": 5.878397281654449,
	"learning_rate": 2.2222222222222227e-05,
	"loss": 1.3716,
	"step": 10
	},
	{
	"epoch": 0.1523809523809524,
	"grad_norm": 4.04814199716087,
	"learning_rate": 2.444444444444445e-05,
	"loss": 1.3279,
	"step": 11
	},
	{
	"epoch": 0.16623376623376623,
	"grad_norm": 4.367325147342624,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 1.2918,
	"step": 12
	},
	{
	"epoch": 0.1800865800865801,
	"grad_norm": 3.013051181093589,
	"learning_rate": 2.888888888888889e-05,
	"loss": 1.2683,
	"step": 13
	},
	{
	"epoch": 0.19393939393939394,
	"grad_norm": 2.7017616202077597,
	"learning_rate": 3.111111111111112e-05,
	"loss": 1.2741,
	"step": 14
	},
	{
	"epoch": 0.2077922077922078,
	"grad_norm": 2.4447347796035936,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 1.2498,
	"step": 15
	},
	{
	"epoch": 0.22164502164502164,
	"grad_norm": 2.3013073090511016,
	"learning_rate": 3.555555555555555e-05,
	"loss": 1.2356,
	"step": 16
	},
	{
	"epoch": 0.2354978354978355,
	"grad_norm": 2.676331737240606,
	"learning_rate": 3.777777777777778e-05,
	"loss": 1.2226,
	"step": 17
	},
	{
	"epoch": 0.24935064935064935,
	"grad_norm": 1.8653678395700215,
	"learning_rate": 4e-05,
	"loss": 1.1883,
	"step": 18
	},
	{
	"epoch": 0.2632034632034632,
	"grad_norm": 2.489502341694411,
	"learning_rate": 4.222222222222223e-05,
	"loss": 1.1903,
	"step": 19
	},
	{
	"epoch": 0.27705627705627706,
	"grad_norm": 2.2381168497877746,
	"learning_rate": 4.444444444444445e-05,
	"loss": 1.1823,
	"step": 20
	},
	{
	"epoch": 0.2909090909090909,
	"grad_norm": 1.0658561341621282,
	"learning_rate": 4.666666666666667e-05,
	"loss": 1.1644,
	"step": 21
	},
	{
	"epoch": 0.3047619047619048,
	"grad_norm": 3.3353632520282024,
	"learning_rate": 4.88888888888889e-05,
	"loss": 1.1866,
	"step": 22
	},
	{
	"epoch": 0.31861471861471863,
	"grad_norm": 2.0828413940584256,
	"learning_rate": 5.111111111111111e-05,
	"loss": 1.1606,
	"step": 23
	},
	{
	"epoch": 0.33246753246753247,
	"grad_norm": 2.0722285174850334,
	"learning_rate": 5.333333333333333e-05,
	"loss": 1.1689,
	"step": 24
	},
	{
	"epoch": 0.3463203463203463,
	"grad_norm": 2.6579102865439035,
	"learning_rate": 5.555555555555556e-05,
	"loss": 1.1555,
	"step": 25
	},
	{
	"epoch": 0.3601731601731602,
	"grad_norm": 1.9616156182284334,
	"learning_rate": 5.777777777777778e-05,
	"loss": 1.1683,
	"step": 26
	},
	{
	"epoch": 0.37402597402597404,
	"grad_norm": 3.2895161663522225,
	"learning_rate": 6.000000000000001e-05,
	"loss": 1.162,
	"step": 27
	},
	{
	"epoch": 0.3878787878787879,
	"grad_norm": 2.2524763564895447,
	"learning_rate": 6.222222222222223e-05,
	"loss": 1.1588,
	"step": 28
	},
	{
	"epoch": 0.4017316017316017,
	"grad_norm": 2.9587565231476036,
	"learning_rate": 6.444444444444446e-05,
	"loss": 1.1477,
	"step": 29
	},
	{
	"epoch": 0.4155844155844156,
	"grad_norm": 2.0001168739095387,
	"learning_rate": 6.666666666666667e-05,
	"loss": 1.1463,
	"step": 30
	},
	{
	"epoch": 0.42943722943722945,
	"grad_norm": 3.0781839410346756,
	"learning_rate": 6.88888888888889e-05,
	"loss": 1.1273,
	"step": 31
	},
	{
	"epoch": 0.4432900432900433,
	"grad_norm": 2.155490334097704,
	"learning_rate": 7.11111111111111e-05,
	"loss": 1.1468,
	"step": 32
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 2.3875247457053566,
	"learning_rate": 7.333333333333333e-05,
	"loss": 1.1379,
	"step": 33
	},
	{
	"epoch": 0.470995670995671,
	"grad_norm": 1.71586428053475,
	"learning_rate": 7.555555555555556e-05,
	"loss": 1.1309,
	"step": 34
	},
	{
	"epoch": 0.48484848484848486,
	"grad_norm": 2.6858291279872,
	"learning_rate": 7.777777777777778e-05,
	"loss": 1.1318,
	"step": 35
	},
	{
	"epoch": 0.4987012987012987,
	"grad_norm": 1.997759995167864,
	"learning_rate": 8e-05,
	"loss": 1.1323,
	"step": 36
	},
	{
	"epoch": 0.5125541125541125,
	"grad_norm": 2.629649063991005,
	"learning_rate": 7.999811966028904e-05,
	"loss": 1.1398,
	"step": 37
	},
	{
	"epoch": 0.5264069264069264,
	"grad_norm": 2.6927398202491544,
	"learning_rate": 7.999247881794007e-05,
	"loss": 1.1272,
	"step": 38
	},
	{
	"epoch": 0.5402597402597402,
	"grad_norm": 1.0260444389642347,
	"learning_rate": 7.998307800328803e-05,
	"loss": 1.1148,
	"step": 39
	},
	{
	"epoch": 0.5541125541125541,
	"grad_norm": 3.1260836757156496,
	"learning_rate": 7.996991810016922e-05,
	"loss": 1.1581,
	"step": 40
	},
	{
	"epoch": 0.567965367965368,
	"grad_norm": 2.408162449515958,
	"learning_rate": 7.995300034583802e-05,
	"loss": 1.1579,
	"step": 41
	},
	{
	"epoch": 0.5818181818181818,
	"grad_norm": 1.7233621870783713,
	"learning_rate": 7.993232633085074e-05,
	"loss": 1.1154,
	"step": 42
	},
	{
	"epoch": 0.5956709956709957,
	"grad_norm": 3.2143011392314524,
	"learning_rate": 7.990789799891592e-05,
	"loss": 1.1361,
	"step": 43
	},
	{
	"epoch": 0.6095238095238096,
	"grad_norm": 2.541057275107033,
	"learning_rate": 7.987971764671168e-05,
	"loss": 1.1437,
	"step": 44
	},
	{
	"epoch": 0.6233766233766234,
	"grad_norm": 2.554077948353239,
	"learning_rate": 7.984778792366983e-05,
	"loss": 1.1278,
	"step": 45
	},
	{
	"epoch": 0.6372294372294373,
	"grad_norm": 1.9556507030666455,
	"learning_rate": 7.981211183172663e-05,
	"loss": 1.125,
	"step": 46
	},
	{
	"epoch": 0.651082251082251,
	"grad_norm": 2.4591106418916024,
	"learning_rate": 7.977269272504075e-05,
	"loss": 1.1113,
	"step": 47
	},
	{
	"epoch": 0.6649350649350649,
	"grad_norm": 1.7374508763969678,
	"learning_rate": 7.972953430967773e-05,
	"loss": 1.1119,
	"step": 48
	},
	{
	"epoch": 0.6787878787878788,
	"grad_norm": 2.271122042411741,
	"learning_rate": 7.96826406432617e-05,
	"loss": 1.1047,
	"step": 49
	},
	{
	"epoch": 0.6926406926406926,
	"grad_norm": 1.385329225067948,
	"learning_rate": 7.963201613459381e-05,
	"loss": 1.1104,
	"step": 50
	},
	{
	"epoch": 0.7064935064935065,
	"grad_norm": 2.0797667060906853,
	"learning_rate": 7.957766554323778e-05,
	"loss": 1.1008,
	"step": 51
	},
	{
	"epoch": 0.7203463203463204,
	"grad_norm": 1.4769275764871517,
	"learning_rate": 7.951959397907237e-05,
	"loss": 1.1063,
	"step": 52
	},
	{
	"epoch": 0.7341991341991342,
	"grad_norm": 1.5969040026842134,
	"learning_rate": 7.945780690181096e-05,
	"loss": 1.0958,
	"step": 53
	},
	{
	"epoch": 0.7480519480519481,
	"grad_norm": 1.5076777523334957,
	"learning_rate": 7.939231012048833e-05,
	"loss": 1.1038,
	"step": 54
	},
	{
	"epoch": 0.7619047619047619,
	"grad_norm": 1.5353741235556218,
	"learning_rate": 7.932310979291441e-05,
	"loss": 1.088,
	"step": 55
	},
	{
	"epoch": 0.7757575757575758,
	"grad_norm": 1.6688683700597435,
	"learning_rate": 7.925021242509539e-05,
	"loss": 1.1005,
	"step": 56
	},
	{
	"epoch": 0.7896103896103897,
	"grad_norm": 1.5907176050250653,
	"learning_rate": 7.917362487062207e-05,
	"loss": 1.0885,
	"step": 57
	},
	{
	"epoch": 0.8034632034632034,
	"grad_norm": 1.5886283739500444,
	"learning_rate": 7.909335433002543e-05,
	"loss": 1.0889,
	"step": 58
	},
	{
	"epoch": 0.8173160173160173,
	"grad_norm": 1.1345065452265992,
	"learning_rate": 7.900940835009974e-05,
	"loss": 1.0809,
	"step": 59
	},
	{
	"epoch": 0.8311688311688312,
	"grad_norm": 1.6727620200346303,
	"learning_rate": 7.892179482319297e-05,
	"loss": 1.0844,
	"step": 60
	},
	{
	"epoch": 0.845021645021645,
	"grad_norm": 1.726654683160669,
	"learning_rate": 7.883052198646481e-05,
	"loss": 1.0868,
	"step": 61
	},
	{
	"epoch": 0.8588744588744589,
	"grad_norm": 0.7828989407478679,
	"learning_rate": 7.873559842111225e-05,
	"loss": 1.0711,
	"step": 62
	},
	{
	"epoch": 0.8727272727272727,
	"grad_norm": 1.3882694170960725,
	"learning_rate": 7.863703305156273e-05,
	"loss": 1.0752,
	"step": 63
	},
	{
	"epoch": 0.8865800865800866,
	"grad_norm": 1.5779873659792967,
	"learning_rate": 7.853483514463521e-05,
	"loss": 1.0766,
	"step": 64
	},
	{
	"epoch": 0.9004329004329005,
	"grad_norm": 1.4180034460400448,
	"learning_rate": 7.842901430866882e-05,
	"loss": 1.0725,
	"step": 65
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 0.9127219395084748,
	"learning_rate": 7.831958049261956e-05,
	"loss": 1.0612,
	"step": 66
	},
	{
	"epoch": 0.9281385281385282,
	"grad_norm": 1.0847846746337275,
	"learning_rate": 7.820654398512492e-05,
	"loss": 1.074,
	"step": 67
	},
	{
	"epoch": 0.941991341991342,
	"grad_norm": 1.8013647852774308,
	"learning_rate": 7.808991541353662e-05,
	"loss": 1.0954,
	"step": 68
	},
	{
	"epoch": 0.9558441558441558,
	"grad_norm": 1.377128616335908,
	"learning_rate": 7.796970574292136e-05,
	"loss": 1.0752,
	"step": 69
	},
	{
	"epoch": 0.9696969696969697,
	"grad_norm": 1.6958522149590192,
	"learning_rate": 7.784592627503004e-05,
	"loss": 1.0821,
	"step": 70
	},
	{
	"epoch": 0.9835497835497835,
	"grad_norm": 1.0049024746726356,
	"learning_rate": 7.771858864723504e-05,
	"loss": 1.068,
	"step": 71
	},
	{
	"epoch": 0.9974025974025974,
	"grad_norm": 2.6484071234844953,
	"learning_rate": 7.758770483143634e-05,
	"loss": 1.0771,
	"step": 72
	},
	{
	"epoch": 1.0112554112554113,
	"grad_norm": 4.246067022400895,
	"learning_rate": 7.745328713293573e-05,
	"loss": 1.948,
	"step": 73
	},
	{
	"epoch": 1.025108225108225,
	"grad_norm": 1.7220828208048158,
	"learning_rate": 7.731534818928004e-05,
	"loss": 1.0427,
	"step": 74
	},
	{
	"epoch": 1.0389610389610389,
	"grad_norm": 1.8447923963725428,
	"learning_rate": 7.71739009690729e-05,
	"loss": 1.0479,
	"step": 75
	},
	{
	"epoch": 1.0528138528138529,
	"grad_norm": 0.9341938628888585,
	"learning_rate": 7.702895877075563e-05,
	"loss": 1.0333,
	"step": 76
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 2.424773237088678,
	"learning_rate": 7.688053522135675e-05,
	"loss": 1.0579,
	"step": 77
	},
	{
	"epoch": 1.0805194805194804,
	"grad_norm": 1.6058600540175567,
	"learning_rate": 7.672864427521097e-05,
	"loss": 1.0636,
	"step": 78
	},
	{
	"epoch": 1.0943722943722944,
	"grad_norm": 2.091045151793165,
	"learning_rate": 7.657330021264718e-05,
	"loss": 1.0442,
	"step": 79
	},
	{
	"epoch": 1.1082251082251082,
	"grad_norm": 1.318962052033536,
	"learning_rate": 7.641451763864587e-05,
	"loss": 1.045,
	"step": 80
	},
	{
	"epoch": 1.122077922077922,
	"grad_norm": 2.317561720529343,
	"learning_rate": 7.625231148146601e-05,
	"loss": 1.0484,
	"step": 81
	},
	{
	"epoch": 1.135930735930736,
	"grad_norm": 1.4987484149413424,
	"learning_rate": 7.608669699124153e-05,
	"loss": 1.0484,
	"step": 82
	},
	{
	"epoch": 1.1497835497835498,
	"grad_norm": 2.3968225100015816,
	"learning_rate": 7.591768973854753e-05,
	"loss": 1.0453,
	"step": 83
	},
	{
	"epoch": 1.1636363636363636,
	"grad_norm": 2.0769969941809454,
	"learning_rate": 7.57453056129365e-05,
	"loss": 1.0473,
	"step": 84
	},
	{
	"epoch": 1.1774891774891776,
	"grad_norm": 1.5328425512954666,
	"learning_rate": 7.556956082144425e-05,
	"loss": 1.0432,
	"step": 85
	},
	{
	"epoch": 1.1913419913419914,
	"grad_norm": 1.5329379349699184,
	"learning_rate": 7.539047188706631e-05,
	"loss": 1.0502,
	"step": 86
	},
	{
	"epoch": 1.2051948051948052,
	"grad_norm": 1.2635424997786673,
	"learning_rate": 7.520805564720444e-05,
	"loss": 1.0389,
	"step": 87
	},
	{
	"epoch": 1.2190476190476192,
	"grad_norm": 0.9180899722416639,
	"learning_rate": 7.502232925208365e-05,
	"loss": 1.0297,
	"step": 88
	},
	{
	"epoch": 1.232900432900433,
	"grad_norm": 0.9088421536152287,
	"learning_rate": 7.483331016313969e-05,
	"loss": 1.026,
	"step": 89
	},
	{
	"epoch": 1.2467532467532467,
	"grad_norm": 0.9759584263195824,
	"learning_rate": 7.464101615137756e-05,
	"loss": 1.042,
	"step": 90
	},
	{
	"epoch": 1.2606060606060607,
	"grad_norm": 1.7816477052359974,
	"learning_rate": 7.444546529570055e-05,
	"loss": 1.0375,
	"step": 91
	},
	{
	"epoch": 1.2744588744588745,
	"grad_norm": 1.0505006199756568,
	"learning_rate": 7.424667598121067e-05,
	"loss": 1.0232,
	"step": 92
	},
	{
	"epoch": 1.2883116883116883,
	"grad_norm": 1.1076363899720796,
	"learning_rate": 7.404466689747999e-05,
	"loss": 1.0358,
	"step": 93
	},
	{
	"epoch": 1.3021645021645023,
	"grad_norm": 1.766746417129588,
	"learning_rate": 7.383945703679365e-05,
	"loss": 1.041,
	"step": 94
	},
	{
	"epoch": 1.316017316017316,
	"grad_norm": 1.1727210609875833,
	"learning_rate": 7.363106569236413e-05,
	"loss": 1.0373,
	"step": 95
	},
	{
	"epoch": 1.3298701298701299,
	"grad_norm": 1.3811377730593195,
	"learning_rate": 7.341951245651747e-05,
	"loss": 1.0232,
	"step": 96
	},
	{
	"epoch": 1.3437229437229437,
	"grad_norm": 1.8848088994220173,
	"learning_rate": 7.320481721885116e-05,
	"loss": 1.0331,
	"step": 97
	},
	{
	"epoch": 1.3575757575757577,
	"grad_norm": 1.5407669706222948,
	"learning_rate": 7.298700016436427e-05,
	"loss": 1.0392,
	"step": 98
	},
	{
	"epoch": 1.3714285714285714,
	"grad_norm": 1.6439258533934764,
	"learning_rate": 7.276608177155968e-05,
	"loss": 1.0302,
	"step": 99
	},
	{
	"epoch": 1.3852813852813852,
	"grad_norm": 1.6555083210158104,
	"learning_rate": 7.254208281051871e-05,
	"loss": 1.0359,
	"step": 100
	},
	{
	"epoch": 1.399134199134199,
	"grad_norm": 1.2444215446875204,
	"learning_rate": 7.231502434094845e-05,
	"loss": 1.0203,
	"step": 101
	},
	{
	"epoch": 1.412987012987013,
	"grad_norm": 1.4648122676877777,
	"learning_rate": 7.208492771020176e-05,
	"loss": 1.0198,
	"step": 102
	},
	{
	"epoch": 1.4268398268398268,
	"grad_norm": 0.9173692823505156,
	"learning_rate": 7.185181455127023e-05,
	"loss": 1.0217,
	"step": 103
	},
	{
	"epoch": 1.4406926406926406,
	"grad_norm": 1.1009749853774418,
	"learning_rate": 7.161570678075038e-05,
	"loss": 1.0128,
	"step": 104
	},
	{
	"epoch": 1.4545454545454546,
	"grad_norm": 1.0933932370696173,
	"learning_rate": 7.137662659678303e-05,
	"loss": 1.0238,
	"step": 105
	},
	{
	"epoch": 1.4683982683982684,
	"grad_norm": 1.1757437604660779,
	"learning_rate": 7.113459647696641e-05,
	"loss": 1.0182,
	"step": 106
	},
	{
	"epoch": 1.4822510822510822,
	"grad_norm": 0.7527900271083177,
	"learning_rate": 7.088963917624277e-05,
	"loss": 1.012,
	"step": 107
	},
	{
	"epoch": 1.4961038961038962,
	"grad_norm": 1.1702807594476543,
	"learning_rate": 7.064177772475912e-05,
	"loss": 1.0264,
	"step": 108
	},
	{
	"epoch": 1.50995670995671,
	"grad_norm": 0.6981814585755302,
	"learning_rate": 7.039103542570199e-05,
	"loss": 1.0151,
	"step": 109
	},
	{
	"epoch": 1.5238095238095237,
	"grad_norm": 1.1192032445094018,
	"learning_rate": 7.013743585310642e-05,
	"loss": 1.0162,
	"step": 110
	},
	{
	"epoch": 1.5376623376623377,
	"grad_norm": 1.0770568024481744,
	"learning_rate": 6.988100284963985e-05,
	"loss": 1.0199,
	"step": 111
	},
	{
	"epoch": 1.5515151515151515,
	"grad_norm": 1.2005325967972154,
	"learning_rate": 6.96217605243602e-05,
	"loss": 1.0242,
	"step": 112
	},
	{
	"epoch": 1.5653679653679653,
	"grad_norm": 0.7699858239179544,
	"learning_rate": 6.935973325044941e-05,
	"loss": 1.0241,
	"step": 113
	},
	{
	"epoch": 1.5792207792207793,
	"grad_norm": 1.1064626845196381,
	"learning_rate": 6.909494566292195e-05,
	"loss": 1.0082,
	"step": 114
	},
	{
	"epoch": 1.593073593073593,
	"grad_norm": 1.4162206055932687,
	"learning_rate": 6.882742265630859e-05,
	"loss": 1.0161,
	"step": 115
	},
	{
	"epoch": 1.6069264069264069,
	"grad_norm": 0.9857373401383442,
	"learning_rate": 6.855718938231597e-05,
	"loss": 1.0223,
	"step": 116
	},
	{
	"epoch": 1.6207792207792209,
	"grad_norm": 1.4328471449116547,
	"learning_rate": 6.828427124746191e-05,
	"loss": 1.0059,
	"step": 117
	},
	{
	"epoch": 1.6346320346320347,
	"grad_norm": 0.929598786782075,
	"learning_rate": 6.800869391068674e-05,
	"loss": 1.0161,
	"step": 118
	},
	{
	"epoch": 1.6484848484848484,
	"grad_norm": 1.5271277070860276,
	"learning_rate": 6.773048328094097e-05,
	"loss": 1.0109,
	"step": 119
	},
	{
	"epoch": 1.6623376623376624,
	"grad_norm": 0.7369342923177392,
	"learning_rate": 6.744966551474936e-05,
	"loss": 1.0187,
	"step": 120
	},
	{
	"epoch": 1.6761904761904762,
	"grad_norm": 1.1411511227164497,
	"learning_rate": 6.716626701375174e-05,
	"loss": 1.0131,
	"step": 121
	},
	{
	"epoch": 1.69004329004329,
	"grad_norm": 1.2904195611318852,
	"learning_rate": 6.688031442222091e-05,
	"loss": 1.0084,
	"step": 122
	},
	{
	"epoch": 1.703896103896104,
	"grad_norm": 0.5757097623806057,
	"learning_rate": 6.659183462455751e-05,
	"loss": 1.0095,
	"step": 123
	},
	{
	"epoch": 1.7177489177489178,
	"grad_norm": 0.9291802416250161,
	"learning_rate": 6.630085474276256e-05,
	"loss": 1.0117,
	"step": 124
	},
	{
	"epoch": 1.7316017316017316,
	"grad_norm": 1.0033464839111939,
	"learning_rate": 6.600740213388735e-05,
	"loss": 1.0055,
	"step": 125
	},
	{
	"epoch": 1.7454545454545456,
	"grad_norm": 1.0577865447630987,
	"learning_rate": 6.571150438746157e-05,
	"loss": 0.9998,
	"step": 126
	},
	{
	"epoch": 1.7593073593073592,
	"grad_norm": 0.9644457639091424,
	"learning_rate": 6.54131893228994e-05,
	"loss": 1.003,
	"step": 127
	},
	{
	"epoch": 1.7731601731601732,
	"grad_norm": 0.80334378142282,
	"learning_rate": 6.511248498688396e-05,
	"loss": 1.0044,
	"step": 128
	},
	{
	"epoch": 1.7870129870129872,
	"grad_norm": 0.823547694775696,
	"learning_rate": 6.480941965073041e-05,
	"loss": 1.0109,
	"step": 129
	},
	{
	"epoch": 1.8008658008658007,
	"grad_norm": 0.7273863270792912,
	"learning_rate": 6.450402180772811e-05,
	"loss": 1.0017,
	"step": 130
	},
	{
	"epoch": 1.8147186147186147,
	"grad_norm": 0.762963999004941,
	"learning_rate": 6.419632017046167e-05,
	"loss": 1.0018,
	"step": 131
	},
	{
	"epoch": 1.8285714285714287,
	"grad_norm": 0.8148201089426899,
	"learning_rate": 6.388634366811146e-05,
	"loss": 0.9993,
	"step": 132
	},
	{
	"epoch": 1.8424242424242423,
	"grad_norm": 0.8416363889161061,
	"learning_rate": 6.35741214437338e-05,
	"loss": 1.0095,
	"step": 133
	},
	{
	"epoch": 1.8562770562770563,
	"grad_norm": 1.142390867021583,
	"learning_rate": 6.325968285152107e-05,
	"loss": 1.0062,
	"step": 134
	},
	{
	"epoch": 1.87012987012987,
	"grad_norm": 0.7962536559784616,
	"learning_rate": 6.294305745404185e-05,
	"loss": 1.0052,
	"step": 135
	},
	{
	"epoch": 1.8839826839826839,
	"grad_norm": 0.5650336880636371,
	"learning_rate": 6.262427501946155e-05,
	"loss": 1.0067,
	"step": 136
	},
	{
	"epoch": 1.8978354978354979,
	"grad_norm": 0.5818038902731943,
	"learning_rate": 6.230336551874372e-05,
	"loss": 1.0063,
	"step": 137
	},
	{
	"epoch": 1.9116883116883117,
	"grad_norm": 0.9977727916003996,
	"learning_rate": 6.198035912283225e-05,
	"loss": 1.0011,
	"step": 138
	},
	{
	"epoch": 1.9255411255411254,
	"grad_norm": 0.9993134068472553,
	"learning_rate": 6.165528619981479e-05,
	"loss": 0.9934,
	"step": 139
	},
	{
	"epoch": 1.9393939393939394,
	"grad_norm": 0.6309774026937955,
	"learning_rate": 6.132817731206766e-05,
	"loss": 1.0023,
	"step": 140
	},
	{
	"epoch": 1.9532467532467532,
	"grad_norm": 0.5631788726393073,
	"learning_rate": 6.099906321338241e-05,
	"loss": 0.9875,
	"step": 141
	},
	{
	"epoch": 1.967099567099567,
	"grad_norm": 0.6994904876843244,
	"learning_rate": 6.0667974846074524e-05,
	"loss": 0.9969,
	"step": 142
	},
	{
	"epoch": 1.980952380952381,
	"grad_norm": 0.6611818685825782,
	"learning_rate": 6.033494333807422e-05,
	"loss": 1.0052,
	"step": 143
	},
	{
	"epoch": 1.9948051948051948,
	"grad_norm": 0.5004771960590909,
	"learning_rate": 6.000000000000001e-05,
	"loss": 0.9857,
	"step": 144
	},
	{
	"epoch": 2.0086580086580086,
	"grad_norm": 1.0514858543746186,
	"learning_rate": 5.9663176322214826e-05,
	"loss": 1.8002,
	"step": 145
	},
	{
	"epoch": 2.0225108225108226,
	"grad_norm": 1.5590490021626622,
	"learning_rate": 5.9324503971865545e-05,
	"loss": 0.9591,
	"step": 146
	},
	{
	"epoch": 2.036363636363636,
	"grad_norm": 0.613252686965761,
	"learning_rate": 5.8984014789905625e-05,
	"loss": 0.9555,
	"step": 147
	},
	{
	"epoch": 2.05021645021645,
	"grad_norm": 1.5183857859367584,
	"learning_rate": 5.8641740788101566e-05,
	"loss": 0.9637,
	"step": 148
	},
	{
	"epoch": 2.064069264069264,
	"grad_norm": 0.599406946967003,
	"learning_rate": 5.8297714146023236e-05,
	"loss": 0.9396,
	"step": 149
	},
	{
	"epoch": 2.0779220779220777,
	"grad_norm": 1.171195638149606,
	"learning_rate": 5.79519672080185e-05,
	"loss": 0.9523,
	"step": 150
	},
	{
	"epoch": 2.0917748917748917,
	"grad_norm": 0.6714077570634802,
	"learning_rate": 5.76045324801722e-05,
	"loss": 0.9595,
	"step": 151
	},
	{
	"epoch": 2.1056277056277057,
	"grad_norm": 1.2318697934613918,
	"learning_rate": 5.7255442627250146e-05,
	"loss": 0.9514,
	"step": 152
	},
	{
	"epoch": 2.1194805194805193,
	"grad_norm": 0.746989496141657,
	"learning_rate": 5.6904730469627985e-05,
	"loss": 0.9482,
	"step": 153
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 0.901261215101538,
	"learning_rate": 5.6552428980205575e-05,
	"loss": 0.9587,
	"step": 154
	},
	{
	"epoch": 2.1471861471861473,
	"grad_norm": 0.674529916922478,
	"learning_rate": 5.619857128130695e-05,
	"loss": 0.9562,
	"step": 155
	},
	{
	"epoch": 2.161038961038961,
	"grad_norm": 0.8844375890562896,
	"learning_rate": 5.584319064156628e-05,
	"loss": 0.9459,
	"step": 156
	},
	{
	"epoch": 2.174891774891775,
	"grad_norm": 0.5176842951829833,
	"learning_rate": 5.548632047280003e-05,
	"loss": 0.9528,
	"step": 157
	},
	{
	"epoch": 2.188744588744589,
	"grad_norm": 0.6248120662111469,
	"learning_rate": 5.5127994326865706e-05,
	"loss": 0.9482,
	"step": 158
	},
	{
	"epoch": 2.2025974025974024,
	"grad_norm": 0.6093640758186603,
	"learning_rate": 5.476824589250738e-05,
	"loss": 0.9429,
	"step": 159
	},
	{
	"epoch": 2.2164502164502164,
	"grad_norm": 0.5492958980107647,
	"learning_rate": 5.440710899218842e-05,
	"loss": 0.9674,
	"step": 160
	},
	{
	"epoch": 2.2303030303030305,
	"grad_norm": 0.5903789766574798,
	"learning_rate": 5.404461757891156e-05,
	"loss": 0.9667,
	"step": 161
	},
	{
	"epoch": 2.244155844155844,
	"grad_norm": 0.5486871479315714,
	"learning_rate": 5.368080573302676e-05,
	"loss": 0.9478,
	"step": 162
	},
	{
	"epoch": 2.258008658008658,
	"grad_norm": 0.45428134417688254,
	"learning_rate": 5.331570765902706e-05,
	"loss": 0.9409,
	"step": 163
	},
	{
	"epoch": 2.271861471861472,
	"grad_norm": 0.42847012632012216,
	"learning_rate": 5.294935768233285e-05,
	"loss": 0.9416,
	"step": 164
	},
	{
	"epoch": 2.2857142857142856,
	"grad_norm": 0.4848698252601225,
	"learning_rate": 5.258179024606455e-05,
	"loss": 0.9463,
	"step": 165
	},
	{
	"epoch": 2.2995670995670996,
	"grad_norm": 0.3534788789389581,
	"learning_rate": 5.2213039907804535e-05,
	"loss": 0.9491,
	"step": 166
	},
	{
	"epoch": 2.3134199134199136,
	"grad_norm": 0.5082308518432114,
	"learning_rate": 5.1843141336348e-05,
	"loss": 0.95,
	"step": 167
	},
	{
	"epoch": 2.327272727272727,
	"grad_norm": 0.33208032748656197,
	"learning_rate": 5.1472129308443616e-05,
	"loss": 0.953,
	"step": 168
	},
	{
	"epoch": 2.341125541125541,
	"grad_norm": 0.35843782187780426,
	"learning_rate": 5.1100038705523834e-05,
	"loss": 0.957,
	"step": 169
	},
	{
	"epoch": 2.354978354978355,
	"grad_norm": 0.33243645634228375,
	"learning_rate": 5.07269045104255e-05,
	"loss": 0.9348,
	"step": 170
	},
	{
	"epoch": 2.3688311688311687,
	"grad_norm": 0.37544932004082693,
	"learning_rate": 5.0352761804100835e-05,
	"loss": 0.9501,
	"step": 171
	},
	{
	"epoch": 2.3826839826839827,
	"grad_norm": 0.3396549463565156,
	"learning_rate": 4.9977645762319255e-05,
	"loss": 0.9548,
	"step": 172
	},
	{
	"epoch": 2.3965367965367967,
	"grad_norm": 0.27413219762637864,
	"learning_rate": 4.9601591652360244e-05,
	"loss": 0.9516,
	"step": 173
	},
	{
	"epoch": 2.4103896103896103,
	"grad_norm": 0.2935194857656813,
	"learning_rate": 4.922463482969761e-05,
	"loss": 0.9537,
	"step": 174
	},
	{
	"epoch": 2.4242424242424243,
	"grad_norm": 0.31679378581933954,
	"learning_rate": 4.884681073467551e-05,
	"loss": 0.9566,
	"step": 175
	},
	{
	"epoch": 2.4380952380952383,
	"grad_norm": 0.2917510642085385,
	"learning_rate": 4.846815488917644e-05,
	"loss": 0.9602,
	"step": 176
	},
	{
	"epoch": 2.451948051948052,
	"grad_norm": 0.29512012950255556,
	"learning_rate": 4.808870289328153e-05,
	"loss": 0.9513,
	"step": 177
	},
	{
	"epoch": 2.465800865800866,
	"grad_norm": 0.24808203045159094,
	"learning_rate": 4.7708490421923596e-05,
	"loss": 0.9453,
	"step": 178
	},
	{
	"epoch": 2.47965367965368,
	"grad_norm": 0.21937289844225158,
	"learning_rate": 4.7327553221533074e-05,
	"loss": 0.9581,
	"step": 179
	},
	{
	"epoch": 2.4935064935064934,
	"grad_norm": 0.20437241337234358,
	"learning_rate": 4.694592710667723e-05,
	"loss": 0.948,
	"step": 180
	},
	{
	"epoch": 2.5073593073593075,
	"grad_norm": 0.20182625174185811,
	"learning_rate": 4.656364795669297e-05,
	"loss": 0.9505,
	"step": 181
	},
	{
	"epoch": 2.5212121212121215,
	"grad_norm": 0.2157700828054003,
	"learning_rate": 4.618075171231363e-05,
	"loss": 0.955,
	"step": 182
	},
	{
	"epoch": 2.535064935064935,
	"grad_norm": 0.20198999241369922,
	"learning_rate": 4.579727437228987e-05,
	"loss": 0.9479,
	"step": 183
	},
	{
	"epoch": 2.548917748917749,
	"grad_norm": 0.19349997377276865,
	"learning_rate": 4.541325199000525e-05,
	"loss": 0.9444,
	"step": 184
	},
	{
	"epoch": 2.562770562770563,
	"grad_norm": 0.20821593855670595,
	"learning_rate": 4.502872067008652e-05,
	"loss": 0.9484,
	"step": 185
	},
	{
	"epoch": 2.5766233766233766,
	"grad_norm": 0.22714292711765166,
	"learning_rate": 4.464371656500921e-05,
	"loss": 0.9478,
	"step": 186
	},
	{
	"epoch": 2.5904761904761906,
	"grad_norm": 0.22439821970405607,
	"learning_rate": 4.425827587169873e-05,
	"loss": 0.9642,
	"step": 187
	},
	{
	"epoch": 2.6043290043290046,
	"grad_norm": 0.19017166723603593,
	"learning_rate": 4.387243482812717e-05,
	"loss": 0.9354,
	"step": 188
	},
	{
	"epoch": 2.618181818181818,
	"grad_norm": 0.2338760203213592,
	"learning_rate": 4.348622970990634e-05,
	"loss": 0.9608,
	"step": 189
	},
	{
	"epoch": 2.632034632034632,
	"grad_norm": 0.19433184424361064,
	"learning_rate": 4.309969682687724e-05,
	"loss": 0.9365,
	"step": 190
	},
	{
	"epoch": 2.6458874458874457,
	"grad_norm": 0.2006639594796061,
	"learning_rate": 4.271287251969637e-05,
	"loss": 0.943,
	"step": 191
	},
	{
	"epoch": 2.6597402597402597,
	"grad_norm": 0.19675542180216962,
	"learning_rate": 4.2325793156419035e-05,
	"loss": 0.9629,
	"step": 192
	},
	{
	"epoch": 2.6735930735930737,
	"grad_norm": 0.22882862992661218,
	"learning_rate": 4.193849512908013e-05,
	"loss": 0.9399,
	"step": 193
	},
	{
	"epoch": 2.6874458874458873,
	"grad_norm": 0.27628995792251587,
	"learning_rate": 4.155101485027268e-05,
	"loss": 0.9517,
	"step": 194
	},
	{
	"epoch": 2.7012987012987013,
	"grad_norm": 0.25152494788624064,
	"learning_rate": 4.116338874972446e-05,
	"loss": 0.9532,
	"step": 195
	},
	{
	"epoch": 2.7151515151515153,
	"grad_norm": 0.17237631990944813,
	"learning_rate": 4.077565327087298e-05,
	"loss": 0.9443,
	"step": 196
	},
	{
	"epoch": 2.729004329004329,
	"grad_norm": 0.22052058799944804,
	"learning_rate": 4.0387844867439143e-05,
	"loss": 0.9384,
	"step": 197
	},
	{
	"epoch": 2.742857142857143,
	"grad_norm": 0.2821185693525401,
	"learning_rate": 4e-05,
	"loss": 0.9506,
	"step": 198
	},
	{
	"epoch": 2.7567099567099564,
	"grad_norm": 0.23974193332071514,
	"learning_rate": 3.961215513256086e-05,
	"loss": 0.944,
	"step": 199
	},
	{
	"epoch": 2.7705627705627704,
	"grad_norm": 0.23881720962641614,
	"learning_rate": 3.9224346729127034e-05,
	"loss": 0.9423,
	"step": 200
	},
	{
	"epoch": 2.7844155844155845,
	"grad_norm": 0.1774343946075327,
	"learning_rate": 3.8836611250275546e-05,
	"loss": 0.9355,
	"step": 201
	},
	{
	"epoch": 2.798268398268398,
	"grad_norm": 0.23570113544248983,
	"learning_rate": 3.844898514972733e-05,
	"loss": 0.9519,
	"step": 202
	},
	{
	"epoch": 2.812121212121212,
	"grad_norm": 0.21653970566029948,
	"learning_rate": 3.806150487091989e-05,
	"loss": 0.951,
	"step": 203
	},
	{
	"epoch": 2.825974025974026,
	"grad_norm": 0.1881655573837289,
	"learning_rate": 3.767420684358097e-05,
	"loss": 0.9425,
	"step": 204
	},
	{
	"epoch": 2.8398268398268396,
	"grad_norm": 0.19487964543004402,
	"learning_rate": 3.7287127480303634e-05,
	"loss": 0.9496,
	"step": 205
	},
	{
	"epoch": 2.8536796536796536,
	"grad_norm": 0.21940934921746677,
	"learning_rate": 3.690030317312277e-05,
	"loss": 0.9326,
	"step": 206
	},
	{
	"epoch": 2.8675324675324676,
	"grad_norm": 0.22419835861035028,
	"learning_rate": 3.6513770290093674e-05,
	"loss": 0.958,
	"step": 207
	},
	{
	"epoch": 2.881385281385281,
	"grad_norm": 0.20379473922199545,
	"learning_rate": 3.612756517187284e-05,
	"loss": 0.9475,
	"step": 208
	},
	{
	"epoch": 2.895238095238095,
	"grad_norm": 0.15734328009114276,
	"learning_rate": 3.574172412830127e-05,
	"loss": 0.9446,
	"step": 209
	},
	{
	"epoch": 2.909090909090909,
	"grad_norm": 0.2577374514137676,
	"learning_rate": 3.535628343499079e-05,
	"loss": 0.9518,
	"step": 210
	},
	{
	"epoch": 2.9229437229437227,
	"grad_norm": 0.21560632289046236,
	"learning_rate": 3.49712793299135e-05,
	"loss": 0.9321,
	"step": 211
	},
	{
	"epoch": 2.9367965367965367,
	"grad_norm": 0.19086166501572058,
	"learning_rate": 3.458674800999477e-05,
	"loss": 0.939,
	"step": 212
	},
	{
	"epoch": 2.9506493506493507,
	"grad_norm": 0.1635737725085455,
	"learning_rate": 3.4202725627710136e-05,
	"loss": 0.9519,
	"step": 213
	},
	{
	"epoch": 2.9645021645021643,
	"grad_norm": 0.2063878664719065,
	"learning_rate": 3.3819248287686386e-05,
	"loss": 0.9408,
	"step": 214
	},
	{
	"epoch": 2.9783549783549783,
	"grad_norm": 0.21758034147643424,
	"learning_rate": 3.343635204330704e-05,
	"loss": 0.9366,
	"step": 215
	},
	{
	"epoch": 2.9922077922077923,
	"grad_norm": 0.1756516719858461,
	"learning_rate": 3.305407289332279e-05,
	"loss": 0.9261,
	"step": 216
	},
	{
	"epoch": 3.006060606060606,
	"grad_norm": 0.44437950709772883,
	"learning_rate": 3.267244677846693e-05,
	"loss": 1.6737,
	"step": 217
	},
	{
	"epoch": 3.01991341991342,
	"grad_norm": 0.5202547459859553,
	"learning_rate": 3.229150957807641e-05,
	"loss": 0.9065,
	"step": 218
	},
	{
	"epoch": 3.033766233766234,
	"grad_norm": 0.4201768177217496,
	"learning_rate": 3.191129710671849e-05,
	"loss": 0.8993,
	"step": 219
	},
	{
	"epoch": 3.0476190476190474,
	"grad_norm": 0.3469006955241282,
	"learning_rate": 3.153184511082359e-05,
	"loss": 0.8924,
	"step": 220
	},
	{
	"epoch": 3.0614718614718615,
	"grad_norm": 0.34894763894121467,
	"learning_rate": 3.1153189265324494e-05,
	"loss": 0.9091,
	"step": 221
	},
	{
	"epoch": 3.0753246753246755,
	"grad_norm": 0.3951659967368868,
	"learning_rate": 3.07753651703024e-05,
	"loss": 0.9103,
	"step": 222
	},
	{
	"epoch": 3.089177489177489,
	"grad_norm": 0.33506373060928457,
	"learning_rate": 3.0398408347639773e-05,
	"loss": 0.8895,
	"step": 223
	},
	{
	"epoch": 3.103030303030303,
	"grad_norm": 0.2808678451376146,
	"learning_rate": 3.0022354237680752e-05,
	"loss": 0.8954,
	"step": 224
	},
	{
	"epoch": 3.116883116883117,
	"grad_norm": 0.3452617358086684,
	"learning_rate": 2.9647238195899168e-05,
	"loss": 0.8954,
	"step": 225
	},
	{
	"epoch": 3.1307359307359306,
	"grad_norm": 0.32553230647238945,
	"learning_rate": 2.9273095489574502e-05,
	"loss": 0.897,
	"step": 226
	},
	{
	"epoch": 3.1445887445887446,
	"grad_norm": 0.2604914839354281,
	"learning_rate": 2.889996129447618e-05,
	"loss": 0.907,
	"step": 227
	},
	{
	"epoch": 3.1584415584415586,
	"grad_norm": 0.34111866816202957,
	"learning_rate": 2.8527870691556404e-05,
	"loss": 0.8981,
	"step": 228
	},
	{
	"epoch": 3.172294372294372,
	"grad_norm": 0.28026302405180475,
	"learning_rate": 2.8156858663652015e-05,
	"loss": 0.9033,
	"step": 229
	},
	{
	"epoch": 3.186147186147186,
	"grad_norm": 0.26870372034953893,
	"learning_rate": 2.778696009219548e-05,
	"loss": 0.9059,
	"step": 230
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.3798626491614641,
	"learning_rate": 2.7418209753935464e-05,
	"loss": 0.8894,
	"step": 231
	},
	{
	"epoch": 3.2138528138528137,
	"grad_norm": 0.21379716918544014,
	"learning_rate": 2.7050642317667164e-05,
	"loss": 0.8937,
	"step": 232
	},
	{
	"epoch": 3.2277056277056277,
	"grad_norm": 0.31956814421124774,
	"learning_rate": 2.6684292340972936e-05,
	"loss": 0.9068,
	"step": 233
	},
	{
	"epoch": 3.2415584415584417,
	"grad_norm": 0.194502129845176,
	"learning_rate": 2.6319194266973256e-05,
	"loss": 0.8999,
	"step": 234
	},
	{
	"epoch": 3.2554112554112553,
	"grad_norm": 0.25288436825501515,
	"learning_rate": 2.5955382421088457e-05,
	"loss": 0.8876,
	"step": 235
	},
	{
	"epoch": 3.2692640692640693,
	"grad_norm": 0.2045328796636946,
	"learning_rate": 2.5592891007811594e-05,
	"loss": 0.9056,
	"step": 236
	},
	{
	"epoch": 3.2831168831168833,
	"grad_norm": 0.17690924985251477,
	"learning_rate": 2.523175410749263e-05,
	"loss": 0.9068,
	"step": 237
	},
	{
	"epoch": 3.296969696969697,
	"grad_norm": 0.20432688291964138,
	"learning_rate": 2.4872005673134307e-05,
	"loss": 0.8916,
	"step": 238
	},
	{
	"epoch": 3.310822510822511,
	"grad_norm": 0.17738981903795317,
	"learning_rate": 2.4513679527199986e-05,
	"loss": 0.9115,
	"step": 239
	},
	{
	"epoch": 3.324675324675325,
	"grad_norm": 0.16833331057473214,
	"learning_rate": 2.4156809358433728e-05,
	"loss": 0.8891,
	"step": 240
	},
	{
	"epoch": 3.3385281385281385,
	"grad_norm": 0.17407822439034182,
	"learning_rate": 2.3801428718693055e-05,
	"loss": 0.8936,
	"step": 241
	},
	{
	"epoch": 3.3523809523809525,
	"grad_norm": 0.16434385080662373,
	"learning_rate": 2.3447571019794438e-05,
	"loss": 0.9079,
	"step": 242
	},
	{
	"epoch": 3.3662337662337665,
	"grad_norm": 0.1647420511208294,
	"learning_rate": 2.3095269530372032e-05,
	"loss": 0.8904,
	"step": 243
	},
	{
	"epoch": 3.38008658008658,
	"grad_norm": 0.16465200281562736,
	"learning_rate": 2.274455737274987e-05,
	"loss": 0.8965,
	"step": 244
	},
	{
	"epoch": 3.393939393939394,
	"grad_norm": 0.1942259697042446,
	"learning_rate": 2.239546751982782e-05,
	"loss": 0.9039,
	"step": 245
	},
	{
	"epoch": 3.407792207792208,
	"grad_norm": 0.15418958599426286,
	"learning_rate": 2.2048032791981515e-05,
	"loss": 0.8921,
	"step": 246
	},
	{
	"epoch": 3.4216450216450216,
	"grad_norm": 0.15256309020808106,
	"learning_rate": 2.1702285853976774e-05,
	"loss": 0.8972,
	"step": 247
	},
	{
	"epoch": 3.4354978354978356,
	"grad_norm": 0.14590845303296213,
	"learning_rate": 2.135825921189846e-05,
	"loss": 0.8967,
	"step": 248
	},
	{
	"epoch": 3.449350649350649,
	"grad_norm": 0.1756342017642444,
	"learning_rate": 2.1015985210094385e-05,
	"loss": 0.9089,
	"step": 249
	},
	{
	"epoch": 3.463203463203463,
	"grad_norm": 0.14928130402546771,
	"learning_rate": 2.067549602813446e-05,
	"loss": 0.9116,
	"step": 250
	},
	{
	"epoch": 3.477056277056277,
	"grad_norm": 0.19622196885081308,
	"learning_rate": 2.033682367778518e-05,
	"loss": 0.9035,
	"step": 251
	},
	{
	"epoch": 3.4909090909090907,
	"grad_norm": 0.16833682605095,
	"learning_rate": 2.0000000000000012e-05,
	"loss": 0.9049,
	"step": 252
	},
	{
	"epoch": 3.5047619047619047,
	"grad_norm": 0.1700606136967009,
	"learning_rate": 1.966505666192579e-05,
	"loss": 0.9013,
	"step": 253
	},
	{
	"epoch": 3.5186147186147188,
	"grad_norm": 0.1795362591013133,
	"learning_rate": 1.9332025153925486e-05,
	"loss": 0.887,
	"step": 254
	},
	{
	"epoch": 3.5324675324675323,
	"grad_norm": 0.16623457555792936,
	"learning_rate": 1.90009367866176e-05,
	"loss": 0.9025,
	"step": 255
	},
	{
	"epoch": 3.5463203463203463,
	"grad_norm": 0.1724331408670692,
	"learning_rate": 1.867182268793236e-05,
	"loss": 0.902,
	"step": 256
	},
	{
	"epoch": 3.5601731601731603,
	"grad_norm": 0.156738658049747,
	"learning_rate": 1.8344713800185215e-05,
	"loss": 0.8935,
	"step": 257
	},
	{
	"epoch": 3.574025974025974,
	"grad_norm": 0.16288790800709219,
	"learning_rate": 1.8019640877167763e-05,
	"loss": 0.898,
	"step": 258
	},
	{
	"epoch": 3.587878787878788,
	"grad_norm": 0.15690946638171066,
	"learning_rate": 1.7696634481256293e-05,
	"loss": 0.8959,
	"step": 259
	},
	{
	"epoch": 3.601731601731602,
	"grad_norm": 0.16001262583220252,
	"learning_rate": 1.7375724980538465e-05,
	"loss": 0.8888,
	"step": 260
	},
	{
	"epoch": 3.6155844155844155,
	"grad_norm": 0.15064377615121663,
	"learning_rate": 1.7056942545958167e-05,
	"loss": 0.9089,
	"step": 261
	},
	{
	"epoch": 3.6294372294372295,
	"grad_norm": 0.13096790236650285,
	"learning_rate": 1.6740317148478932e-05,
	"loss": 0.9055,
	"step": 262
	},
	{
	"epoch": 3.643290043290043,
	"grad_norm": 0.14921599598853594,
	"learning_rate": 1.642587855626621e-05,
	"loss": 0.9154,
	"step": 263
	},
	{
	"epoch": 3.657142857142857,
	"grad_norm": 0.13367750739235254,
	"learning_rate": 1.6113656331888563e-05,
	"loss": 0.8954,
	"step": 264
	},
	{
	"epoch": 3.670995670995671,
	"grad_norm": 0.14168194296838715,
	"learning_rate": 1.580367982953833e-05,
	"loss": 0.8939,
	"step": 265
	},
	{
	"epoch": 3.6848484848484846,
	"grad_norm": 0.14492593957298525,
	"learning_rate": 1.5495978192271887e-05,
	"loss": 0.91,
	"step": 266
	},
	{
	"epoch": 3.6987012987012986,
	"grad_norm": 0.1316497818256666,
	"learning_rate": 1.5190580349269604e-05,
	"loss": 0.9027,
	"step": 267
	},
	{
	"epoch": 3.7125541125541126,
	"grad_norm": 0.15841380793742146,
	"learning_rate": 1.4887515013116067e-05,
	"loss": 0.9106,
	"step": 268
	},
	{
	"epoch": 3.726406926406926,
	"grad_norm": 0.13126491215447147,
	"learning_rate": 1.4586810677100608e-05,
	"loss": 0.8937,
	"step": 269
	},
	{
	"epoch": 3.74025974025974,
	"grad_norm": 0.1495403663254427,
	"learning_rate": 1.4288495612538427e-05,
	"loss": 0.9034,
	"step": 270
	},
	{
	"epoch": 3.754112554112554,
	"grad_norm": 0.12429246476808327,
	"learning_rate": 1.3992597866112667e-05,
	"loss": 0.8975,
	"step": 271
	},
	{
	"epoch": 3.7679653679653677,
	"grad_norm": 0.13097022929593902,
	"learning_rate": 1.369914525723746e-05,
	"loss": 0.8882,
	"step": 272
	},
	{
	"epoch": 3.7818181818181817,
	"grad_norm": 0.13482171999455558,
	"learning_rate": 1.3408165375442486e-05,
	"loss": 0.8906,
	"step": 273
	},
	{
	"epoch": 3.7956709956709958,
	"grad_norm": 0.12515899928871424,
	"learning_rate": 1.3119685577779105e-05,
	"loss": 0.9008,
	"step": 274
	},
	{
	"epoch": 3.8095238095238093,
	"grad_norm": 0.13069692054136395,
	"learning_rate": 1.2833732986248277e-05,
	"loss": 0.8853,
	"step": 275
	},
	{
	"epoch": 3.8233766233766233,
	"grad_norm": 0.13447223817691295,
	"learning_rate": 1.2550334485250661e-05,
	"loss": 0.9051,
	"step": 276
	},
	{
	"epoch": 3.8372294372294373,
	"grad_norm": 0.12306949358534137,
	"learning_rate": 1.2269516719059041e-05,
	"loss": 0.8979,
	"step": 277
	},
	{
	"epoch": 3.851082251082251,
	"grad_norm": 0.13274764900634733,
	"learning_rate": 1.1991306089313261e-05,
	"loss": 0.901,
	"step": 278
	},
	{
	"epoch": 3.864935064935065,
	"grad_norm": 0.12496506975650054,
	"learning_rate": 1.1715728752538103e-05,
	"loss": 0.8851,
	"step": 279
	},
	{
	"epoch": 3.878787878787879,
	"grad_norm": 0.12342700776133213,
	"learning_rate": 1.1442810617684046e-05,
	"loss": 0.8906,
	"step": 280
	},
	{
	"epoch": 3.8926406926406925,
	"grad_norm": 0.11718555769651504,
	"learning_rate": 1.1172577343691415e-05,
	"loss": 0.8945,
	"step": 281
	},
	{
	"epoch": 3.9064935064935065,
	"grad_norm": 0.11900571530829156,
	"learning_rate": 1.0905054337078051e-05,
	"loss": 0.8939,
	"step": 282
	},
	{
	"epoch": 3.9203463203463205,
	"grad_norm": 0.11761709393948508,
	"learning_rate": 1.0640266749550593e-05,
	"loss": 0.8987,
	"step": 283
	},
	{
	"epoch": 3.934199134199134,
	"grad_norm": 0.12426098474964,
	"learning_rate": 1.0378239475639823e-05,
	"loss": 0.8954,
	"step": 284
	},
	{
	"epoch": 3.948051948051948,
	"grad_norm": 0.11342564958505907,
	"learning_rate": 1.0118997150360169e-05,
	"loss": 0.8967,
	"step": 285
	},
	{
	"epoch": 3.961904761904762,
	"grad_norm": 0.12414751882404233,
	"learning_rate": 9.862564146893571e-06,
	"loss": 0.8942,
	"step": 286
	},
	{
	"epoch": 3.9757575757575756,
	"grad_norm": 0.11821007668599343,
	"learning_rate": 9.60896457429803e-06,
	"loss": 0.8981,
	"step": 287
	},
	{
	"epoch": 3.9896103896103896,
	"grad_norm": 0.11207748566968422,
	"learning_rate": 9.358222275240884e-06,
	"loss": 0.8969,
	"step": 288
	},
	{
	"epoch": 4.003463203463204,
	"grad_norm": 0.24776696231966608,
	"learning_rate": 9.110360823757235e-06,
	"loss": 1.6175,
	"step": 289
	},
	{
	"epoch": 4.017316017316017,
	"grad_norm": 0.1639268139321257,
	"learning_rate": 8.8654035230336e-06,
	"loss": 0.8757,
	"step": 290
	},
	{
	"epoch": 4.031168831168831,
	"grad_norm": 0.1430026414045171,
	"learning_rate": 8.623373403216972e-06,
	"loss": 0.8619,
	"step": 291
	},
	{
	"epoch": 4.045021645021645,
	"grad_norm": 0.13983259059672157,
	"learning_rate": 8.384293219249633e-06,
	"loss": 0.875,
	"step": 292
	},
	{
	"epoch": 4.058874458874459,
	"grad_norm": 0.14776698103121835,
	"learning_rate": 8.148185448729778e-06,
	"loss": 0.8712,
	"step": 293
	},
	{
	"epoch": 4.072727272727272,
	"grad_norm": 0.1453264011082169,
	"learning_rate": 7.915072289798247e-06,
	"loss": 0.8859,
	"step": 294
	},
	{
	"epoch": 4.086580086580087,
	"grad_norm": 0.15943779551259862,
	"learning_rate": 7.684975659051557e-06,
	"loss": 0.8662,
	"step": 295
	},
	{
	"epoch": 4.1004329004329,
	"grad_norm": 0.1456231807293276,
	"learning_rate": 7.457917189481301e-06,
	"loss": 0.8774,
	"step": 296
	},
	{
	"epoch": 4.114285714285714,
	"grad_norm": 0.14340143561096827,
	"learning_rate": 7.233918228440324e-06,
	"loss": 0.8774,
	"step": 297
	},
	{
	"epoch": 4.128138528138528,
	"grad_norm": 0.14023071744580373,
	"learning_rate": 7.0129998356357295e-06,
	"loss": 0.863,
	"step": 298
	},
	{
	"epoch": 4.141991341991342,
	"grad_norm": 0.14172173606520722,
	"learning_rate": 6.795182781148848e-06,
	"loss": 0.8767,
	"step": 299
	},
	{
	"epoch": 4.1558441558441555,
	"grad_norm": 0.1318876467621652,
	"learning_rate": 6.58048754348255e-06,
	"loss": 0.8709,
	"step": 300
	},
	{
	"epoch": 4.16969696969697,
	"grad_norm": 0.1517460979685681,
	"learning_rate": 6.368934307635881e-06,
	"loss": 0.8716,
	"step": 301
	},
	{
	"epoch": 4.1835497835497835,
	"grad_norm": 0.15120519716651545,
	"learning_rate": 6.160542963206357e-06,
	"loss": 0.8697,
	"step": 302
	},
	{
	"epoch": 4.197402597402597,
	"grad_norm": 0.12276533641084203,
	"learning_rate": 5.955333102520011e-06,
	"loss": 0.8628,
	"step": 303
	},
	{
	"epoch": 4.2112554112554115,
	"grad_norm": 0.1303847318332295,
	"learning_rate": 5.753324018789346e-06,
	"loss": 0.8708,
	"step": 304
	},
	{
	"epoch": 4.225108225108225,
	"grad_norm": 0.13706452110864129,
	"learning_rate": 5.554534704299448e-06,
	"loss": 0.8566,
	"step": 305
	},
	{
	"epoch": 4.238961038961039,
	"grad_norm": 0.15781002543920747,
	"learning_rate": 5.358983848622452e-06,
	"loss": 0.8764,
	"step": 306
	},
	{
	"epoch": 4.252813852813853,
	"grad_norm": 0.11520912795530423,
	"learning_rate": 5.1666898368603195e-06,
	"loss": 0.8749,
	"step": 307
	},
	{
	"epoch": 4.266666666666667,
	"grad_norm": 0.11508546810833122,
	"learning_rate": 4.97767074791637e-06,
	"loss": 0.8657,
	"step": 308
	},
	{
	"epoch": 4.28051948051948,
	"grad_norm": 0.14352142083453215,
	"learning_rate": 4.791944352795561e-06,
	"loss": 0.8919,
	"step": 309
	},
	{
	"epoch": 4.294372294372295,
	"grad_norm": 0.13642778141475553,
	"learning_rate": 4.609528112933688e-06,
	"loss": 0.8575,
	"step": 310
	},
	{
	"epoch": 4.308225108225108,
	"grad_norm": 0.11645525287361383,
	"learning_rate": 4.430439178555759e-06,
	"loss": 0.874,
	"step": 311
	},
	{
	"epoch": 4.322077922077922,
	"grad_norm": 0.11198885083380229,
	"learning_rate": 4.254694387063514e-06,
	"loss": 0.866,
	"step": 312
	},
	{
	"epoch": 4.335930735930736,
	"grad_norm": 0.11999719505276203,
	"learning_rate": 4.082310261452471e-06,
	"loss": 0.8809,
	"step": 313
	},
	{
	"epoch": 4.34978354978355,
	"grad_norm": 0.11431861199461578,
	"learning_rate": 3.913303008758491e-06,
	"loss": 0.8739,
	"step": 314
	},
	{
	"epoch": 4.363636363636363,
	"grad_norm": 0.1089763284328194,
	"learning_rate": 3.747688518534003e-06,
	"loss": 0.8764,
	"step": 315
	},
	{
	"epoch": 4.377489177489178,
	"grad_norm": 0.11083535668146678,
	"learning_rate": 3.585482361354138e-06,
	"loss": 0.874,
	"step": 316
	},
	{
	"epoch": 4.391341991341991,
	"grad_norm": 0.10462111723473196,
	"learning_rate": 3.42669978735283e-06,
	"loss": 0.8712,
	"step": 317
	},
	{
	"epoch": 4.405194805194805,
	"grad_norm": 0.11192874060919457,
	"learning_rate": 3.2713557247890447e-06,
	"loss": 0.865,
	"step": 318
	},
	{
	"epoch": 4.419047619047619,
	"grad_norm": 0.0998639300176411,
	"learning_rate": 3.1194647786432663e-06,
	"loss": 0.8628,
	"step": 319
	},
	{
	"epoch": 4.432900432900433,
	"grad_norm": 0.1037388404966585,
	"learning_rate": 2.9710412292443868e-06,
	"loss": 0.8744,
	"step": 320
	},
	{
	"epoch": 4.4467532467532465,
	"grad_norm": 0.10341839983438926,
	"learning_rate": 2.8260990309270987e-06,
	"loss": 0.8707,
	"step": 321
	},
	{
	"epoch": 4.460606060606061,
	"grad_norm": 0.10245055505097513,
	"learning_rate": 2.6846518107199782e-06,
	"loss": 0.869,
	"step": 322
	},
	{
	"epoch": 4.4744588744588745,
	"grad_norm": 0.10245685258161713,
	"learning_rate": 2.546712867064276e-06,
	"loss": 0.866,
	"step": 323
	},
	{
	"epoch": 4.488311688311688,
	"grad_norm": 0.10246348212442796,
	"learning_rate": 2.4122951685636674e-06,
	"loss": 0.869,
	"step": 324
	},
	{
	"epoch": 4.5021645021645025,
	"grad_norm": 0.10133630585516906,
	"learning_rate": 2.281411352764966e-06,
	"loss": 0.8661,
	"step": 325
	},
	{
	"epoch": 4.516017316017316,
	"grad_norm": 0.10385457357599492,
	"learning_rate": 2.1540737249699893e-06,
	"loss": 0.8665,
	"step": 326
	},
	{
	"epoch": 4.52987012987013,
	"grad_norm": 0.09787930849328196,
	"learning_rate": 2.0302942570786446e-06,
	"loss": 0.8587,
	"step": 327
	},
	{
	"epoch": 4.543722943722944,
	"grad_norm": 0.09875061097653641,
	"learning_rate": 1.9100845864633875e-06,
	"loss": 0.862,
	"step": 328
	},
	{
	"epoch": 4.557575757575758,
	"grad_norm": 0.10019109859451927,
	"learning_rate": 1.793456014875079e-06,
	"loss": 0.8667,
	"step": 329
	},
	{
	"epoch": 4.571428571428571,
	"grad_norm": 0.09607007590769094,
	"learning_rate": 1.6804195073804442e-06,
	"loss": 0.8609,
	"step": 330
	},
	{
	"epoch": 4.585281385281386,
	"grad_norm": 0.0995091150688806,
	"learning_rate": 1.5709856913311795e-06,
	"loss": 0.8631,
	"step": 331
	},
	{
	"epoch": 4.599134199134199,
	"grad_norm": 0.10237535339157534,
	"learning_rate": 1.4651648553647869e-06,
	"loss": 0.874,
	"step": 332
	},
	{
	"epoch": 4.612987012987013,
	"grad_norm": 0.09685943360360758,
	"learning_rate": 1.3629669484372722e-06,
	"loss": 0.8608,
	"step": 333
	},
	{
	"epoch": 4.626839826839827,
	"grad_norm": 0.10088872360008577,
	"learning_rate": 1.2644015788877684e-06,
	"loss": 0.8776,
	"step": 334
	},
	{
	"epoch": 4.640692640692641,
	"grad_norm": 0.09659731541025765,
	"learning_rate": 1.1694780135352013e-06,
	"loss": 0.8659,
	"step": 335
	},
	{
	"epoch": 4.654545454545454,
	"grad_norm": 0.09754069143347813,
	"learning_rate": 1.0782051768070477e-06,
	"loss": 0.8822,
	"step": 336
	},
	{
	"epoch": 4.668398268398269,
	"grad_norm": 0.09529068088084004,
	"learning_rate": 9.905916499002787e-07,
	"loss": 0.8632,
	"step": 337
	},
	{
	"epoch": 4.682251082251082,
	"grad_norm": 0.09443098915190634,
	"learning_rate": 9.066456699745774e-07,
	"loss": 0.8686,
	"step": 338
	},
	{
	"epoch": 4.696103896103896,
	"grad_norm": 0.09719204747726426,
	"learning_rate": 8.263751293779409e-07,
	"loss": 0.8709,
	"step": 339
	},
	{
	"epoch": 4.70995670995671,
	"grad_norm": 0.0989300648418707,
	"learning_rate": 7.497875749046124e-07,
	"loss": 0.8706,
	"step": 340
	},
	{
	"epoch": 4.723809523809524,
	"grad_norm": 0.09639393839499397,
	"learning_rate": 6.768902070856031e-07,
	"loss": 0.8661,
	"step": 341
	},
	{
	"epoch": 4.7376623376623375,
	"grad_norm": 0.09557188345066484,
	"learning_rate": 6.076898795116792e-07,
	"loss": 0.8662,
	"step": 342
	},
	{
	"epoch": 4.751515151515152,
	"grad_norm": 0.09944408893779064,
	"learning_rate": 5.421930981890455e-07,
	"loss": 0.877,
	"step": 343
	},
	{
	"epoch": 4.7653679653679655,
	"grad_norm": 0.0977504011176678,
	"learning_rate": 4.804060209276396e-07,
	"loss": 0.8658,
	"step": 344
	},
	{
	"epoch": 4.779220779220779,
	"grad_norm": 0.09464762553229625,
	"learning_rate": 4.223344567622212e-07,
	"loss": 0.8718,
	"step": 345
	},
	{
	"epoch": 4.7930735930735935,
	"grad_norm": 0.09515637845594775,
	"learning_rate": 3.679838654061874e-07,
	"loss": 0.8672,
	"step": 346
	},
	{
	"epoch": 4.806926406926407,
	"grad_norm": 0.09692757545190614,
	"learning_rate": 3.173593567383071e-07,
	"loss": 0.8762,
	"step": 347
	},
	{
	"epoch": 4.820779220779221,
	"grad_norm": 0.09525175615621749,
	"learning_rate": 2.704656903222791e-07,
	"loss": 0.8792,
	"step": 348
	},
	{
	"epoch": 4.834632034632035,
	"grad_norm": 0.09621257866702408,
	"learning_rate": 2.273072749592631e-07,
	"loss": 0.864,
	"step": 349
	},
	{
	"epoch": 4.848484848484849,
	"grad_norm": 0.09435391607466348,
	"learning_rate": 1.8788816827336686e-07,
	"loss": 0.8827,
	"step": 350
	},
	{
	"epoch": 4.862337662337662,
	"grad_norm": 0.09330676760639534,
	"learning_rate": 1.522120763301782e-07,
	"loss": 0.8634,
	"step": 351
	},
	{
	"epoch": 4.876190476190477,
	"grad_norm": 0.09377768092440732,
	"learning_rate": 1.2028235328831906e-07,
	"loss": 0.8782,
	"step": 352
	},
	{
	"epoch": 4.89004329004329,
	"grad_norm": 0.09540719747182097,
	"learning_rate": 9.21020010840934e-08,
	"loss": 0.8721,
	"step": 353
	},
	{
	"epoch": 4.903896103896104,
	"grad_norm": 0.09356725286148478,
	"learning_rate": 6.767366914927298e-08,
	"loss": 0.8784,
	"step": 354
	},
	{
	"epoch": 4.917748917748918,
	"grad_norm": 0.09257225973193513,
	"learning_rate": 4.699965416198549e-08,
	"loss": 0.8794,
	"step": 355
	},
	{
	"epoch": 4.931601731601732,
	"grad_norm": 0.09315617718680014,
	"learning_rate": 3.0081899830798345e-08,
	"loss": 0.8658,
	"step": 356
	},
	{
	"epoch": 4.945454545454545,
	"grad_norm": 0.09320193350709476,
	"learning_rate": 1.6921996711976028e-08,
	"loss": 0.8666,
	"step": 357
	},
	{
	"epoch": 4.95930735930736,
	"grad_norm": 0.09451963386678745,
	"learning_rate": 7.521182059946342e-09,
	"loss": 0.866,
	"step": 358
	},
	{
	"epoch": 4.973160173160173,
	"grad_norm": 0.09250072566157394,
	"learning_rate": 1.8803397109534715e-09,
	"loss": 0.8639,
	"step": 359
	},
	{
	"epoch": 4.987012987012987,
	"grad_norm": 0.09138839375450408,
	"learning_rate": 0.0,
	"loss": 0.8814,
	"step": 360
	},
	{
	"epoch": 4.987012987012987,
	"step": 360,
	"total_flos": 9.572466247992345e+18,
	"train_loss": 0.0,
	"train_runtime": 2.6399,
	"train_samples_per_second": 69987.374,
	"train_steps_per_second": 136.369
	}
	],
	"logging_steps": 1,
	"max_steps": 360,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.572466247992345e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}