KE-SemanticVAD / trainer_state.json

add pretained model weights

b2ed5e9 verified about 1 year ago

174 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0661333333333334,
	"eval_steps": 50,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0010666666666666667,
	"grad_norm": 7.340938305754196,
	"learning_rate": 7.092198581560283e-09,
	"loss": 0.1541,
	"step": 1
	},
	{
	"epoch": 0.0021333333333333334,
	"grad_norm": 10.456284265762507,
	"learning_rate": 1.4184397163120567e-08,
	"loss": 0.2166,
	"step": 2
	},
	{
	"epoch": 0.0032,
	"grad_norm": 3.3262532882195073,
	"learning_rate": 2.127659574468085e-08,
	"loss": 0.125,
	"step": 3
	},
	{
	"epoch": 0.004266666666666667,
	"grad_norm": 11.460851747410167,
	"learning_rate": 2.8368794326241133e-08,
	"loss": 0.2258,
	"step": 4
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 8.441501897479922,
	"learning_rate": 3.546099290780142e-08,
	"loss": 0.153,
	"step": 5
	},
	{
	"epoch": 0.0064,
	"grad_norm": 5.414631894804662,
	"learning_rate": 4.25531914893617e-08,
	"loss": 0.1217,
	"step": 6
	},
	{
	"epoch": 0.007466666666666667,
	"grad_norm": 6.8055262034936135,
	"learning_rate": 4.964539007092199e-08,
	"loss": 0.2203,
	"step": 7
	},
	{
	"epoch": 0.008533333333333334,
	"grad_norm": 6.03157130162322,
	"learning_rate": 5.673758865248227e-08,
	"loss": 0.1271,
	"step": 8
	},
	{
	"epoch": 0.0096,
	"grad_norm": 15.918639711164598,
	"learning_rate": 6.382978723404254e-08,
	"loss": 0.2446,
	"step": 9
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 5.407971560881396,
	"learning_rate": 7.092198581560284e-08,
	"loss": 0.0969,
	"step": 10
	},
	{
	"epoch": 0.011733333333333333,
	"grad_norm": 6.038181425779358,
	"learning_rate": 7.801418439716311e-08,
	"loss": 0.1582,
	"step": 11
	},
	{
	"epoch": 0.0128,
	"grad_norm": 6.82290309727894,
	"learning_rate": 8.51063829787234e-08,
	"loss": 0.1788,
	"step": 12
	},
	{
	"epoch": 0.013866666666666666,
	"grad_norm": 10.744951629042818,
	"learning_rate": 9.219858156028367e-08,
	"loss": 0.2034,
	"step": 13
	},
	{
	"epoch": 0.014933333333333333,
	"grad_norm": 5.776379057599028,
	"learning_rate": 9.929078014184397e-08,
	"loss": 0.1466,
	"step": 14
	},
	{
	"epoch": 0.016,
	"grad_norm": 6.451686862431702,
	"learning_rate": 1.0638297872340425e-07,
	"loss": 0.2048,
	"step": 15
	},
	{
	"epoch": 0.017066666666666667,
	"grad_norm": 8.87773427933643,
	"learning_rate": 1.1347517730496453e-07,
	"loss": 0.1916,
	"step": 16
	},
	{
	"epoch": 0.018133333333333335,
	"grad_norm": 3.3723817508202414,
	"learning_rate": 1.205673758865248e-07,
	"loss": 0.102,
	"step": 17
	},
	{
	"epoch": 0.0192,
	"grad_norm": 5.582474730267361,
	"learning_rate": 1.2765957446808508e-07,
	"loss": 0.1072,
	"step": 18
	},
	{
	"epoch": 0.020266666666666665,
	"grad_norm": 9.981766121447329,
	"learning_rate": 1.3475177304964538e-07,
	"loss": 0.2441,
	"step": 19
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 6.916457694714178,
	"learning_rate": 1.4184397163120568e-07,
	"loss": 0.155,
	"step": 20
	},
	{
	"epoch": 0.0224,
	"grad_norm": 15.903970541009066,
	"learning_rate": 1.4893617021276595e-07,
	"loss": 0.1844,
	"step": 21
	},
	{
	"epoch": 0.023466666666666667,
	"grad_norm": 3.435640900507597,
	"learning_rate": 1.5602836879432623e-07,
	"loss": 0.1177,
	"step": 22
	},
	{
	"epoch": 0.024533333333333334,
	"grad_norm": 5.983239337047582,
	"learning_rate": 1.6312056737588653e-07,
	"loss": 0.1839,
	"step": 23
	},
	{
	"epoch": 0.0256,
	"grad_norm": 3.4918264067734004,
	"learning_rate": 1.702127659574468e-07,
	"loss": 0.0885,
	"step": 24
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 2.159145413848388,
	"learning_rate": 1.773049645390071e-07,
	"loss": 0.0758,
	"step": 25
	},
	{
	"epoch": 0.027733333333333332,
	"grad_norm": 7.402773228692812,
	"learning_rate": 1.8439716312056735e-07,
	"loss": 0.1488,
	"step": 26
	},
	{
	"epoch": 0.0288,
	"grad_norm": 15.895667142159159,
	"learning_rate": 1.9148936170212765e-07,
	"loss": 0.2433,
	"step": 27
	},
	{
	"epoch": 0.029866666666666666,
	"grad_norm": 4.312780260039735,
	"learning_rate": 1.9858156028368795e-07,
	"loss": 0.106,
	"step": 28
	},
	{
	"epoch": 0.030933333333333334,
	"grad_norm": 3.1997236304738403,
	"learning_rate": 2.0567375886524822e-07,
	"loss": 0.1183,
	"step": 29
	},
	{
	"epoch": 0.032,
	"grad_norm": 6.243317780451787,
	"learning_rate": 2.127659574468085e-07,
	"loss": 0.1075,
	"step": 30
	},
	{
	"epoch": 0.03306666666666667,
	"grad_norm": 6.347714245131809,
	"learning_rate": 2.198581560283688e-07,
	"loss": 0.1556,
	"step": 31
	},
	{
	"epoch": 0.034133333333333335,
	"grad_norm": 4.243462801533408,
	"learning_rate": 2.2695035460992907e-07,
	"loss": 0.0963,
	"step": 32
	},
	{
	"epoch": 0.0352,
	"grad_norm": 6.623461538070349,
	"learning_rate": 2.3404255319148937e-07,
	"loss": 0.135,
	"step": 33
	},
	{
	"epoch": 0.03626666666666667,
	"grad_norm": 6.484847083021655,
	"learning_rate": 2.411347517730496e-07,
	"loss": 0.1279,
	"step": 34
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 3.2077021923002986,
	"learning_rate": 2.482269503546099e-07,
	"loss": 0.0771,
	"step": 35
	},
	{
	"epoch": 0.0384,
	"grad_norm": 4.116737651211225,
	"learning_rate": 2.5531914893617016e-07,
	"loss": 0.1264,
	"step": 36
	},
	{
	"epoch": 0.039466666666666664,
	"grad_norm": 4.345662195274936,
	"learning_rate": 2.6241134751773046e-07,
	"loss": 0.1542,
	"step": 37
	},
	{
	"epoch": 0.04053333333333333,
	"grad_norm": 7.406376789679956,
	"learning_rate": 2.6950354609929076e-07,
	"loss": 0.1548,
	"step": 38
	},
	{
	"epoch": 0.0416,
	"grad_norm": 3.0054390693138946,
	"learning_rate": 2.7659574468085106e-07,
	"loss": 0.1181,
	"step": 39
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 5.020408793541103,
	"learning_rate": 2.8368794326241136e-07,
	"loss": 0.1504,
	"step": 40
	},
	{
	"epoch": 0.04373333333333333,
	"grad_norm": 3.246192355933568,
	"learning_rate": 2.907801418439716e-07,
	"loss": 0.1346,
	"step": 41
	},
	{
	"epoch": 0.0448,
	"grad_norm": 2.6805112095912067,
	"learning_rate": 2.978723404255319e-07,
	"loss": 0.1224,
	"step": 42
	},
	{
	"epoch": 0.04586666666666667,
	"grad_norm": 5.576722725427941,
	"learning_rate": 3.049645390070922e-07,
	"loss": 0.0652,
	"step": 43
	},
	{
	"epoch": 0.046933333333333334,
	"grad_norm": 3.841014006155635,
	"learning_rate": 3.1205673758865245e-07,
	"loss": 0.0845,
	"step": 44
	},
	{
	"epoch": 0.048,
	"grad_norm": 3.3854913012232064,
	"learning_rate": 3.1914893617021275e-07,
	"loss": 0.0733,
	"step": 45
	},
	{
	"epoch": 0.04906666666666667,
	"grad_norm": 9.677172849129757,
	"learning_rate": 3.2624113475177305e-07,
	"loss": 0.1341,
	"step": 46
	},
	{
	"epoch": 0.050133333333333335,
	"grad_norm": 3.8894108779685492,
	"learning_rate": 3.333333333333333e-07,
	"loss": 0.0818,
	"step": 47
	},
	{
	"epoch": 0.0512,
	"grad_norm": 6.158435704247057,
	"learning_rate": 3.404255319148936e-07,
	"loss": 0.1103,
	"step": 48
	},
	{
	"epoch": 0.05226666666666667,
	"grad_norm": 4.194471824532617,
	"learning_rate": 3.475177304964539e-07,
	"loss": 0.1676,
	"step": 49
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 6.6972614887244335,
	"learning_rate": 3.546099290780142e-07,
	"loss": 0.0954,
	"step": 50
	},
	{
	"epoch": 0.05333333333333334,
	"eval_loss": 0.08882835507392883,
	"eval_runtime": 9.0554,
	"eval_samples_per_second": 11.043,
	"eval_steps_per_second": 5.522,
	"step": 50
	},
	{
	"epoch": 0.0544,
	"grad_norm": 4.889268413654233,
	"learning_rate": 3.617021276595745e-07,
	"loss": 0.111,
	"step": 51
	},
	{
	"epoch": 0.055466666666666664,
	"grad_norm": 5.574322058931982,
	"learning_rate": 3.687943262411347e-07,
	"loss": 0.1313,
	"step": 52
	},
	{
	"epoch": 0.05653333333333333,
	"grad_norm": 1.674771584469475,
	"learning_rate": 3.75886524822695e-07,
	"loss": 0.0604,
	"step": 53
	},
	{
	"epoch": 0.0576,
	"grad_norm": 5.566372795256964,
	"learning_rate": 3.829787234042553e-07,
	"loss": 0.1418,
	"step": 54
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 3.749599784286942,
	"learning_rate": 3.900709219858156e-07,
	"loss": 0.1704,
	"step": 55
	},
	{
	"epoch": 0.05973333333333333,
	"grad_norm": 3.5747273894868847,
	"learning_rate": 3.971631205673759e-07,
	"loss": 0.079,
	"step": 56
	},
	{
	"epoch": 0.0608,
	"grad_norm": 5.499639290770769,
	"learning_rate": 4.0425531914893614e-07,
	"loss": 0.0561,
	"step": 57
	},
	{
	"epoch": 0.06186666666666667,
	"grad_norm": 5.886058851630259,
	"learning_rate": 4.1134751773049644e-07,
	"loss": 0.1697,
	"step": 58
	},
	{
	"epoch": 0.06293333333333333,
	"grad_norm": 4.675421646825889,
	"learning_rate": 4.184397163120567e-07,
	"loss": 0.0879,
	"step": 59
	},
	{
	"epoch": 0.064,
	"grad_norm": 2.9609033041262407,
	"learning_rate": 4.25531914893617e-07,
	"loss": 0.0599,
	"step": 60
	},
	{
	"epoch": 0.06506666666666666,
	"grad_norm": 4.8304638212349165,
	"learning_rate": 4.326241134751773e-07,
	"loss": 0.0717,
	"step": 61
	},
	{
	"epoch": 0.06613333333333334,
	"grad_norm": 6.6163194002583845,
	"learning_rate": 4.397163120567376e-07,
	"loss": 0.0819,
	"step": 62
	},
	{
	"epoch": 0.0672,
	"grad_norm": 6.790998305599636,
	"learning_rate": 4.4680851063829783e-07,
	"loss": 0.1505,
	"step": 63
	},
	{
	"epoch": 0.06826666666666667,
	"grad_norm": 2.650894150253927,
	"learning_rate": 4.5390070921985813e-07,
	"loss": 0.0607,
	"step": 64
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 4.408808753479698,
	"learning_rate": 4.6099290780141843e-07,
	"loss": 0.065,
	"step": 65
	},
	{
	"epoch": 0.0704,
	"grad_norm": 2.951479505537457,
	"learning_rate": 4.6808510638297873e-07,
	"loss": 0.0691,
	"step": 66
	},
	{
	"epoch": 0.07146666666666666,
	"grad_norm": 2.2831307650993438,
	"learning_rate": 4.75177304964539e-07,
	"loss": 0.0597,
	"step": 67
	},
	{
	"epoch": 0.07253333333333334,
	"grad_norm": 4.755633341091047,
	"learning_rate": 4.822695035460992e-07,
	"loss": 0.0864,
	"step": 68
	},
	{
	"epoch": 0.0736,
	"grad_norm": 4.554930100975794,
	"learning_rate": 4.893617021276595e-07,
	"loss": 0.0763,
	"step": 69
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 2.6442276802850855,
	"learning_rate": 4.964539007092198e-07,
	"loss": 0.0824,
	"step": 70
	},
	{
	"epoch": 0.07573333333333333,
	"grad_norm": 2.5741437746448783,
	"learning_rate": 5.0354609929078e-07,
	"loss": 0.0579,
	"step": 71
	},
	{
	"epoch": 0.0768,
	"grad_norm": 3.595530272135639,
	"learning_rate": 5.106382978723403e-07,
	"loss": 0.0643,
	"step": 72
	},
	{
	"epoch": 0.07786666666666667,
	"grad_norm": 5.477870680617374,
	"learning_rate": 5.177304964539006e-07,
	"loss": 0.0869,
	"step": 73
	},
	{
	"epoch": 0.07893333333333333,
	"grad_norm": 7.221540857358708,
	"learning_rate": 5.248226950354609e-07,
	"loss": 0.1179,
	"step": 74
	},
	{
	"epoch": 0.08,
	"grad_norm": 3.113022269373061,
	"learning_rate": 5.319148936170212e-07,
	"loss": 0.079,
	"step": 75
	},
	{
	"epoch": 0.08106666666666666,
	"grad_norm": 2.41642137337109,
	"learning_rate": 5.390070921985815e-07,
	"loss": 0.0647,
	"step": 76
	},
	{
	"epoch": 0.08213333333333334,
	"grad_norm": 4.730547946277124,
	"learning_rate": 5.460992907801418e-07,
	"loss": 0.0656,
	"step": 77
	},
	{
	"epoch": 0.0832,
	"grad_norm": 2.703988101964762,
	"learning_rate": 5.531914893617021e-07,
	"loss": 0.0707,
	"step": 78
	},
	{
	"epoch": 0.08426666666666667,
	"grad_norm": 4.7268623347309235,
	"learning_rate": 5.602836879432624e-07,
	"loss": 0.1377,
	"step": 79
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 1.2076954307731242,
	"learning_rate": 5.673758865248227e-07,
	"loss": 0.0274,
	"step": 80
	},
	{
	"epoch": 0.0864,
	"grad_norm": 4.6689012165897825,
	"learning_rate": 5.74468085106383e-07,
	"loss": 0.0487,
	"step": 81
	},
	{
	"epoch": 0.08746666666666666,
	"grad_norm": 2.770738253589274,
	"learning_rate": 5.815602836879432e-07,
	"loss": 0.0512,
	"step": 82
	},
	{
	"epoch": 0.08853333333333334,
	"grad_norm": 3.6483172234190966,
	"learning_rate": 5.886524822695035e-07,
	"loss": 0.0995,
	"step": 83
	},
	{
	"epoch": 0.0896,
	"grad_norm": 3.739966939654011,
	"learning_rate": 5.957446808510638e-07,
	"loss": 0.0934,
	"step": 84
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 1.608577977472446,
	"learning_rate": 6.028368794326241e-07,
	"loss": 0.0385,
	"step": 85
	},
	{
	"epoch": 0.09173333333333333,
	"grad_norm": 3.8617195954418406,
	"learning_rate": 6.099290780141844e-07,
	"loss": 0.0569,
	"step": 86
	},
	{
	"epoch": 0.0928,
	"grad_norm": 2.081952515100534,
	"learning_rate": 6.170212765957446e-07,
	"loss": 0.0482,
	"step": 87
	},
	{
	"epoch": 0.09386666666666667,
	"grad_norm": 2.388775033154843,
	"learning_rate": 6.241134751773049e-07,
	"loss": 0.0524,
	"step": 88
	},
	{
	"epoch": 0.09493333333333333,
	"grad_norm": 3.007951500761127,
	"learning_rate": 6.312056737588652e-07,
	"loss": 0.0203,
	"step": 89
	},
	{
	"epoch": 0.096,
	"grad_norm": 6.522690069132942,
	"learning_rate": 6.382978723404255e-07,
	"loss": 0.0809,
	"step": 90
	},
	{
	"epoch": 0.09706666666666666,
	"grad_norm": 3.471639318133103,
	"learning_rate": 6.453900709219858e-07,
	"loss": 0.046,
	"step": 91
	},
	{
	"epoch": 0.09813333333333334,
	"grad_norm": 3.5195736847771695,
	"learning_rate": 6.524822695035461e-07,
	"loss": 0.0408,
	"step": 92
	},
	{
	"epoch": 0.0992,
	"grad_norm": 1.6266036572427804,
	"learning_rate": 6.595744680851063e-07,
	"loss": 0.0458,
	"step": 93
	},
	{
	"epoch": 0.10026666666666667,
	"grad_norm": 2.913848756075948,
	"learning_rate": 6.666666666666666e-07,
	"loss": 0.0609,
	"step": 94
	},
	{
	"epoch": 0.10133333333333333,
	"grad_norm": 3.639917136914541,
	"learning_rate": 6.737588652482269e-07,
	"loss": 0.0649,
	"step": 95
	},
	{
	"epoch": 0.1024,
	"grad_norm": 2.731695042035598,
	"learning_rate": 6.808510638297872e-07,
	"loss": 0.033,
	"step": 96
	},
	{
	"epoch": 0.10346666666666667,
	"grad_norm": 9.817120143278682,
	"learning_rate": 6.879432624113475e-07,
	"loss": 0.0736,
	"step": 97
	},
	{
	"epoch": 0.10453333333333334,
	"grad_norm": 8.957707046031748,
	"learning_rate": 6.950354609929078e-07,
	"loss": 0.1436,
	"step": 98
	},
	{
	"epoch": 0.1056,
	"grad_norm": 3.7249541410034217,
	"learning_rate": 7.021276595744681e-07,
	"loss": 0.1571,
	"step": 99
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 2.1810107595999826,
	"learning_rate": 7.092198581560284e-07,
	"loss": 0.0234,
	"step": 100
	},
	{
	"epoch": 0.10666666666666667,
	"eval_loss": 0.06481269001960754,
	"eval_runtime": 8.2247,
	"eval_samples_per_second": 12.158,
	"eval_steps_per_second": 6.079,
	"step": 100
	},
	{
	"epoch": 0.10773333333333333,
	"grad_norm": 1.1960831433119428,
	"learning_rate": 7.163120567375887e-07,
	"loss": 0.0091,
	"step": 101
	},
	{
	"epoch": 0.1088,
	"grad_norm": 7.88812174005162,
	"learning_rate": 7.23404255319149e-07,
	"loss": 0.0639,
	"step": 102
	},
	{
	"epoch": 0.10986666666666667,
	"grad_norm": 1.7897229106298904,
	"learning_rate": 7.304964539007092e-07,
	"loss": 0.0272,
	"step": 103
	},
	{
	"epoch": 0.11093333333333333,
	"grad_norm": 2.740100759064914,
	"learning_rate": 7.375886524822694e-07,
	"loss": 0.044,
	"step": 104
	},
	{
	"epoch": 0.112,
	"grad_norm": 5.0893894072651324,
	"learning_rate": 7.446808510638297e-07,
	"loss": 0.0409,
	"step": 105
	},
	{
	"epoch": 0.11306666666666666,
	"grad_norm": 2.568188070153663,
	"learning_rate": 7.5177304964539e-07,
	"loss": 0.0485,
	"step": 106
	},
	{
	"epoch": 0.11413333333333334,
	"grad_norm": 8.001505274552581,
	"learning_rate": 7.588652482269503e-07,
	"loss": 0.1164,
	"step": 107
	},
	{
	"epoch": 0.1152,
	"grad_norm": 9.975541818451585,
	"learning_rate": 7.659574468085106e-07,
	"loss": 0.1097,
	"step": 108
	},
	{
	"epoch": 0.11626666666666667,
	"grad_norm": 6.831232611992033,
	"learning_rate": 7.730496453900709e-07,
	"loss": 0.0999,
	"step": 109
	},
	{
	"epoch": 0.11733333333333333,
	"grad_norm": 4.659876893891191,
	"learning_rate": 7.801418439716312e-07,
	"loss": 0.0495,
	"step": 110
	},
	{
	"epoch": 0.1184,
	"grad_norm": 3.2805986727535767,
	"learning_rate": 7.872340425531915e-07,
	"loss": 0.0549,
	"step": 111
	},
	{
	"epoch": 0.11946666666666667,
	"grad_norm": 2.9331360611303827,
	"learning_rate": 7.943262411347518e-07,
	"loss": 0.0259,
	"step": 112
	},
	{
	"epoch": 0.12053333333333334,
	"grad_norm": 5.955971751835239,
	"learning_rate": 8.014184397163121e-07,
	"loss": 0.0543,
	"step": 113
	},
	{
	"epoch": 0.1216,
	"grad_norm": 4.113357400085846,
	"learning_rate": 8.085106382978723e-07,
	"loss": 0.0886,
	"step": 114
	},
	{
	"epoch": 0.12266666666666666,
	"grad_norm": 4.2115598224554915,
	"learning_rate": 8.156028368794326e-07,
	"loss": 0.0447,
	"step": 115
	},
	{
	"epoch": 0.12373333333333333,
	"grad_norm": 5.438624632240716,
	"learning_rate": 8.226950354609929e-07,
	"loss": 0.0402,
	"step": 116
	},
	{
	"epoch": 0.1248,
	"grad_norm": 4.86723071794748,
	"learning_rate": 8.297872340425532e-07,
	"loss": 0.0717,
	"step": 117
	},
	{
	"epoch": 0.12586666666666665,
	"grad_norm": 2.467742405372819,
	"learning_rate": 8.368794326241134e-07,
	"loss": 0.0416,
	"step": 118
	},
	{
	"epoch": 0.12693333333333334,
	"grad_norm": 7.610907063462189,
	"learning_rate": 8.439716312056737e-07,
	"loss": 0.0901,
	"step": 119
	},
	{
	"epoch": 0.128,
	"grad_norm": 4.686021668274038,
	"learning_rate": 8.51063829787234e-07,
	"loss": 0.1223,
	"step": 120
	},
	{
	"epoch": 0.12906666666666666,
	"grad_norm": 2.0727614732992907,
	"learning_rate": 8.581560283687943e-07,
	"loss": 0.0174,
	"step": 121
	},
	{
	"epoch": 0.13013333333333332,
	"grad_norm": 5.32405840348475,
	"learning_rate": 8.652482269503546e-07,
	"loss": 0.0808,
	"step": 122
	},
	{
	"epoch": 0.1312,
	"grad_norm": 2.426088323541015,
	"learning_rate": 8.723404255319149e-07,
	"loss": 0.0619,
	"step": 123
	},
	{
	"epoch": 0.13226666666666667,
	"grad_norm": 3.233558168729233,
	"learning_rate": 8.794326241134752e-07,
	"loss": 0.0301,
	"step": 124
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 4.0896756561304315,
	"learning_rate": 8.865248226950354e-07,
	"loss": 0.065,
	"step": 125
	},
	{
	"epoch": 0.1344,
	"grad_norm": 1.6818444665396033,
	"learning_rate": 8.936170212765957e-07,
	"loss": 0.0333,
	"step": 126
	},
	{
	"epoch": 0.13546666666666668,
	"grad_norm": 2.728458267778592,
	"learning_rate": 9.00709219858156e-07,
	"loss": 0.0363,
	"step": 127
	},
	{
	"epoch": 0.13653333333333334,
	"grad_norm": 6.345498454995162,
	"learning_rate": 9.078014184397163e-07,
	"loss": 0.1187,
	"step": 128
	},
	{
	"epoch": 0.1376,
	"grad_norm": 4.328408872797893,
	"learning_rate": 9.148936170212766e-07,
	"loss": 0.0419,
	"step": 129
	},
	{
	"epoch": 0.13866666666666666,
	"grad_norm": 10.015435899692932,
	"learning_rate": 9.219858156028369e-07,
	"loss": 0.0964,
	"step": 130
	},
	{
	"epoch": 0.13973333333333332,
	"grad_norm": 1.6723221742745367,
	"learning_rate": 9.290780141843972e-07,
	"loss": 0.035,
	"step": 131
	},
	{
	"epoch": 0.1408,
	"grad_norm": 3.5841880533579973,
	"learning_rate": 9.361702127659575e-07,
	"loss": 0.0394,
	"step": 132
	},
	{
	"epoch": 0.14186666666666667,
	"grad_norm": 4.261342222841079,
	"learning_rate": 9.432624113475178e-07,
	"loss": 0.0669,
	"step": 133
	},
	{
	"epoch": 0.14293333333333333,
	"grad_norm": 6.098751164731887,
	"learning_rate": 9.50354609929078e-07,
	"loss": 0.1115,
	"step": 134
	},
	{
	"epoch": 0.144,
	"grad_norm": 1.2897369793688551,
	"learning_rate": 9.574468085106384e-07,
	"loss": 0.0097,
	"step": 135
	},
	{
	"epoch": 0.14506666666666668,
	"grad_norm": 4.544123029340591,
	"learning_rate": 9.645390070921985e-07,
	"loss": 0.0969,
	"step": 136
	},
	{
	"epoch": 0.14613333333333334,
	"grad_norm": 1.5628401890628374,
	"learning_rate": 9.716312056737588e-07,
	"loss": 0.0403,
	"step": 137
	},
	{
	"epoch": 0.1472,
	"grad_norm": 1.7549153917413034,
	"learning_rate": 9.78723404255319e-07,
	"loss": 0.0467,
	"step": 138
	},
	{
	"epoch": 0.14826666666666666,
	"grad_norm": 2.320989852451606,
	"learning_rate": 9.858156028368794e-07,
	"loss": 0.0193,
	"step": 139
	},
	{
	"epoch": 0.14933333333333335,
	"grad_norm": 2.346049286050555,
	"learning_rate": 9.929078014184397e-07,
	"loss": 0.0372,
	"step": 140
	},
	{
	"epoch": 0.1504,
	"grad_norm": 1.5488644076712703,
	"learning_rate": 1e-06,
	"loss": 0.0221,
	"step": 141
	},
	{
	"epoch": 0.15146666666666667,
	"grad_norm": 4.969297825110415,
	"learning_rate": 1.00709219858156e-06,
	"loss": 0.0628,
	"step": 142
	},
	{
	"epoch": 0.15253333333333333,
	"grad_norm": 7.149276868869306,
	"learning_rate": 1.0141843971631206e-06,
	"loss": 0.1116,
	"step": 143
	},
	{
	"epoch": 0.1536,
	"grad_norm": 0.2675005720455285,
	"learning_rate": 1.0212765957446806e-06,
	"loss": 0.0037,
	"step": 144
	},
	{
	"epoch": 0.15466666666666667,
	"grad_norm": 5.3616860538847,
	"learning_rate": 1.0283687943262412e-06,
	"loss": 0.0766,
	"step": 145
	},
	{
	"epoch": 0.15573333333333333,
	"grad_norm": 6.013894600480369,
	"learning_rate": 1.0354609929078012e-06,
	"loss": 0.0593,
	"step": 146
	},
	{
	"epoch": 0.1568,
	"grad_norm": 1.4495595799620324,
	"learning_rate": 1.0425531914893618e-06,
	"loss": 0.012,
	"step": 147
	},
	{
	"epoch": 0.15786666666666666,
	"grad_norm": 4.233815449703168,
	"learning_rate": 1.0496453900709218e-06,
	"loss": 0.0294,
	"step": 148
	},
	{
	"epoch": 0.15893333333333334,
	"grad_norm": 2.451426369798809,
	"learning_rate": 1.0567375886524824e-06,
	"loss": 0.0173,
	"step": 149
	},
	{
	"epoch": 0.16,
	"grad_norm": 4.632800200399283,
	"learning_rate": 1.0638297872340424e-06,
	"loss": 0.0968,
	"step": 150
	},
	{
	"epoch": 0.16,
	"eval_loss": 0.06421443819999695,
	"eval_runtime": 8.2805,
	"eval_samples_per_second": 12.077,
	"eval_steps_per_second": 6.038,
	"step": 150
	},
	{
	"epoch": 0.16106666666666666,
	"grad_norm": 2.856107152285347,
	"learning_rate": 1.070921985815603e-06,
	"loss": 0.0483,
	"step": 151
	},
	{
	"epoch": 0.16213333333333332,
	"grad_norm": 0.08185139161633281,
	"learning_rate": 1.078014184397163e-06,
	"loss": 0.0008,
	"step": 152
	},
	{
	"epoch": 0.1632,
	"grad_norm": 5.278258913229691,
	"learning_rate": 1.0851063829787233e-06,
	"loss": 0.1142,
	"step": 153
	},
	{
	"epoch": 0.16426666666666667,
	"grad_norm": 7.501273081001087,
	"learning_rate": 1.0921985815602836e-06,
	"loss": 0.097,
	"step": 154
	},
	{
	"epoch": 0.16533333333333333,
	"grad_norm": 2.004995420525806,
	"learning_rate": 1.099290780141844e-06,
	"loss": 0.0186,
	"step": 155
	},
	{
	"epoch": 0.1664,
	"grad_norm": 4.220058789565755,
	"learning_rate": 1.1063829787234042e-06,
	"loss": 0.0803,
	"step": 156
	},
	{
	"epoch": 0.16746666666666668,
	"grad_norm": 2.249509514015917,
	"learning_rate": 1.1134751773049643e-06,
	"loss": 0.0225,
	"step": 157
	},
	{
	"epoch": 0.16853333333333334,
	"grad_norm": 3.8638590825276617,
	"learning_rate": 1.1205673758865248e-06,
	"loss": 0.0911,
	"step": 158
	},
	{
	"epoch": 0.1696,
	"grad_norm": 1.412533711588782,
	"learning_rate": 1.127659574468085e-06,
	"loss": 0.0139,
	"step": 159
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 2.82343360057798,
	"learning_rate": 1.1347517730496454e-06,
	"loss": 0.0851,
	"step": 160
	},
	{
	"epoch": 0.17173333333333332,
	"grad_norm": 1.7495393166443622,
	"learning_rate": 1.1418439716312055e-06,
	"loss": 0.0308,
	"step": 161
	},
	{
	"epoch": 0.1728,
	"grad_norm": 3.6302290317483297,
	"learning_rate": 1.148936170212766e-06,
	"loss": 0.0736,
	"step": 162
	},
	{
	"epoch": 0.17386666666666667,
	"grad_norm": 4.896254754620509,
	"learning_rate": 1.1560283687943261e-06,
	"loss": 0.0554,
	"step": 163
	},
	{
	"epoch": 0.17493333333333333,
	"grad_norm": 4.111273140347231,
	"learning_rate": 1.1631205673758864e-06,
	"loss": 0.0741,
	"step": 164
	},
	{
	"epoch": 0.176,
	"grad_norm": 3.1818646079754496,
	"learning_rate": 1.1702127659574467e-06,
	"loss": 0.0934,
	"step": 165
	},
	{
	"epoch": 0.17706666666666668,
	"grad_norm": 4.419859251526752,
	"learning_rate": 1.177304964539007e-06,
	"loss": 0.0778,
	"step": 166
	},
	{
	"epoch": 0.17813333333333334,
	"grad_norm": 4.56044687337971,
	"learning_rate": 1.1843971631205673e-06,
	"loss": 0.0706,
	"step": 167
	},
	{
	"epoch": 0.1792,
	"grad_norm": 1.2936041090561832,
	"learning_rate": 1.1914893617021276e-06,
	"loss": 0.012,
	"step": 168
	},
	{
	"epoch": 0.18026666666666666,
	"grad_norm": 6.909726597822846,
	"learning_rate": 1.198581560283688e-06,
	"loss": 0.1474,
	"step": 169
	},
	{
	"epoch": 0.18133333333333335,
	"grad_norm": 0.8563591336490418,
	"learning_rate": 1.2056737588652482e-06,
	"loss": 0.0135,
	"step": 170
	},
	{
	"epoch": 0.1824,
	"grad_norm": 3.3164997831647023,
	"learning_rate": 1.2127659574468085e-06,
	"loss": 0.0786,
	"step": 171
	},
	{
	"epoch": 0.18346666666666667,
	"grad_norm": 2.8146626483351707,
	"learning_rate": 1.2198581560283688e-06,
	"loss": 0.0521,
	"step": 172
	},
	{
	"epoch": 0.18453333333333333,
	"grad_norm": 2.8830483742154582,
	"learning_rate": 1.2269503546099291e-06,
	"loss": 0.0286,
	"step": 173
	},
	{
	"epoch": 0.1856,
	"grad_norm": 1.9820766581104607,
	"learning_rate": 1.2340425531914892e-06,
	"loss": 0.0337,
	"step": 174
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 1.2778034782738863,
	"learning_rate": 1.2411347517730495e-06,
	"loss": 0.0308,
	"step": 175
	},
	{
	"epoch": 0.18773333333333334,
	"grad_norm": 1.462555534851203,
	"learning_rate": 1.2482269503546098e-06,
	"loss": 0.0454,
	"step": 176
	},
	{
	"epoch": 0.1888,
	"grad_norm": 4.565414819418628,
	"learning_rate": 1.2553191489361701e-06,
	"loss": 0.1228,
	"step": 177
	},
	{
	"epoch": 0.18986666666666666,
	"grad_norm": 2.3313756348264234,
	"learning_rate": 1.2624113475177304e-06,
	"loss": 0.0318,
	"step": 178
	},
	{
	"epoch": 0.19093333333333334,
	"grad_norm": 3.7670309246458347,
	"learning_rate": 1.2695035460992907e-06,
	"loss": 0.0699,
	"step": 179
	},
	{
	"epoch": 0.192,
	"grad_norm": 1.7487010839053967,
	"learning_rate": 1.276595744680851e-06,
	"loss": 0.0486,
	"step": 180
	},
	{
	"epoch": 0.19306666666666666,
	"grad_norm": 1.1340373154975194,
	"learning_rate": 1.2836879432624113e-06,
	"loss": 0.0177,
	"step": 181
	},
	{
	"epoch": 0.19413333333333332,
	"grad_norm": 1.6584782594569225,
	"learning_rate": 1.2907801418439716e-06,
	"loss": 0.0208,
	"step": 182
	},
	{
	"epoch": 0.1952,
	"grad_norm": 1.134470635269048,
	"learning_rate": 1.297872340425532e-06,
	"loss": 0.0161,
	"step": 183
	},
	{
	"epoch": 0.19626666666666667,
	"grad_norm": 1.5565427530107756,
	"learning_rate": 1.3049645390070922e-06,
	"loss": 0.0264,
	"step": 184
	},
	{
	"epoch": 0.19733333333333333,
	"grad_norm": 3.349937714357119,
	"learning_rate": 1.3120567375886525e-06,
	"loss": 0.0426,
	"step": 185
	},
	{
	"epoch": 0.1984,
	"grad_norm": 3.437101265121438,
	"learning_rate": 1.3191489361702126e-06,
	"loss": 0.0512,
	"step": 186
	},
	{
	"epoch": 0.19946666666666665,
	"grad_norm": 1.5534578823823257,
	"learning_rate": 1.3262411347517731e-06,
	"loss": 0.0512,
	"step": 187
	},
	{
	"epoch": 0.20053333333333334,
	"grad_norm": 3.577731738050452,
	"learning_rate": 1.3333333333333332e-06,
	"loss": 0.0509,
	"step": 188
	},
	{
	"epoch": 0.2016,
	"grad_norm": 0.8955687373362503,
	"learning_rate": 1.3404255319148935e-06,
	"loss": 0.0148,
	"step": 189
	},
	{
	"epoch": 0.20266666666666666,
	"grad_norm": 2.2424497514910415,
	"learning_rate": 1.3475177304964538e-06,
	"loss": 0.0458,
	"step": 190
	},
	{
	"epoch": 0.20373333333333332,
	"grad_norm": 3.0547659131465204,
	"learning_rate": 1.354609929078014e-06,
	"loss": 0.0414,
	"step": 191
	},
	{
	"epoch": 0.2048,
	"grad_norm": 2.7613386920774126,
	"learning_rate": 1.3617021276595744e-06,
	"loss": 0.0254,
	"step": 192
	},
	{
	"epoch": 0.20586666666666667,
	"grad_norm": 1.8247270325842186,
	"learning_rate": 1.3687943262411347e-06,
	"loss": 0.0219,
	"step": 193
	},
	{
	"epoch": 0.20693333333333333,
	"grad_norm": 0.9745378819375361,
	"learning_rate": 1.375886524822695e-06,
	"loss": 0.006,
	"step": 194
	},
	{
	"epoch": 0.208,
	"grad_norm": 2.2394688913221863,
	"learning_rate": 1.3829787234042553e-06,
	"loss": 0.0103,
	"step": 195
	},
	{
	"epoch": 0.20906666666666668,
	"grad_norm": 2.745981240625009,
	"learning_rate": 1.3900709219858156e-06,
	"loss": 0.0324,
	"step": 196
	},
	{
	"epoch": 0.21013333333333334,
	"grad_norm": 1.819255867549425,
	"learning_rate": 1.3971631205673757e-06,
	"loss": 0.0499,
	"step": 197
	},
	{
	"epoch": 0.2112,
	"grad_norm": 2.244330878993336,
	"learning_rate": 1.4042553191489362e-06,
	"loss": 0.0525,
	"step": 198
	},
	{
	"epoch": 0.21226666666666666,
	"grad_norm": 2.4420486660479517,
	"learning_rate": 1.4113475177304963e-06,
	"loss": 0.0456,
	"step": 199
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 3.0961362752080106,
	"learning_rate": 1.4184397163120568e-06,
	"loss": 0.0819,
	"step": 200
	},
	{
	"epoch": 0.21333333333333335,
	"eval_loss": 0.04034098610281944,
	"eval_runtime": 8.5631,
	"eval_samples_per_second": 11.678,
	"eval_steps_per_second": 5.839,
	"step": 200
	},
	{
	"epoch": 0.2144,
	"grad_norm": 0.44759408047365645,
	"learning_rate": 1.4255319148936169e-06,
	"loss": 0.0054,
	"step": 201
	},
	{
	"epoch": 0.21546666666666667,
	"grad_norm": 0.42272894381608905,
	"learning_rate": 1.4326241134751774e-06,
	"loss": 0.0058,
	"step": 202
	},
	{
	"epoch": 0.21653333333333333,
	"grad_norm": 0.3201232486606026,
	"learning_rate": 1.4397163120567375e-06,
	"loss": 0.0027,
	"step": 203
	},
	{
	"epoch": 0.2176,
	"grad_norm": 1.8690764660164247,
	"learning_rate": 1.446808510638298e-06,
	"loss": 0.0656,
	"step": 204
	},
	{
	"epoch": 0.21866666666666668,
	"grad_norm": 3.2454931850225903,
	"learning_rate": 1.453900709219858e-06,
	"loss": 0.0371,
	"step": 205
	},
	{
	"epoch": 0.21973333333333334,
	"grad_norm": 1.3719630571760064,
	"learning_rate": 1.4609929078014184e-06,
	"loss": 0.0195,
	"step": 206
	},
	{
	"epoch": 0.2208,
	"grad_norm": 4.690223152603984,
	"learning_rate": 1.4680851063829787e-06,
	"loss": 0.1838,
	"step": 207
	},
	{
	"epoch": 0.22186666666666666,
	"grad_norm": 0.7280526453294364,
	"learning_rate": 1.4751773049645388e-06,
	"loss": 0.0113,
	"step": 208
	},
	{
	"epoch": 0.22293333333333334,
	"grad_norm": 2.1942258546982,
	"learning_rate": 1.4822695035460993e-06,
	"loss": 0.0375,
	"step": 209
	},
	{
	"epoch": 0.224,
	"grad_norm": 2.2700526093435385,
	"learning_rate": 1.4893617021276594e-06,
	"loss": 0.0225,
	"step": 210
	},
	{
	"epoch": 0.22506666666666666,
	"grad_norm": 3.4887713183278706,
	"learning_rate": 1.4964539007092199e-06,
	"loss": 0.0354,
	"step": 211
	},
	{
	"epoch": 0.22613333333333333,
	"grad_norm": 1.3287581441040275,
	"learning_rate": 1.50354609929078e-06,
	"loss": 0.0478,
	"step": 212
	},
	{
	"epoch": 0.2272,
	"grad_norm": 0.706172015872483,
	"learning_rate": 1.5106382978723405e-06,
	"loss": 0.0071,
	"step": 213
	},
	{
	"epoch": 0.22826666666666667,
	"grad_norm": 3.3176110506984555,
	"learning_rate": 1.5177304964539006e-06,
	"loss": 0.0872,
	"step": 214
	},
	{
	"epoch": 0.22933333333333333,
	"grad_norm": 1.2584019241467503,
	"learning_rate": 1.524822695035461e-06,
	"loss": 0.0141,
	"step": 215
	},
	{
	"epoch": 0.2304,
	"grad_norm": 3.3428962741186514,
	"learning_rate": 1.5319148936170212e-06,
	"loss": 0.0469,
	"step": 216
	},
	{
	"epoch": 0.23146666666666665,
	"grad_norm": 5.630841551653268,
	"learning_rate": 1.5390070921985815e-06,
	"loss": 0.1787,
	"step": 217
	},
	{
	"epoch": 0.23253333333333334,
	"grad_norm": 3.1064693364930704,
	"learning_rate": 1.5460992907801418e-06,
	"loss": 0.0461,
	"step": 218
	},
	{
	"epoch": 0.2336,
	"grad_norm": 6.955897478479723,
	"learning_rate": 1.5531914893617019e-06,
	"loss": 0.1266,
	"step": 219
	},
	{
	"epoch": 0.23466666666666666,
	"grad_norm": 6.6141804145859675,
	"learning_rate": 1.5602836879432624e-06,
	"loss": 0.1013,
	"step": 220
	},
	{
	"epoch": 0.23573333333333332,
	"grad_norm": 1.5187752417644704,
	"learning_rate": 1.5673758865248225e-06,
	"loss": 0.0219,
	"step": 221
	},
	{
	"epoch": 0.2368,
	"grad_norm": 0.7602007659688867,
	"learning_rate": 1.574468085106383e-06,
	"loss": 0.0163,
	"step": 222
	},
	{
	"epoch": 0.23786666666666667,
	"grad_norm": 1.2922825373649611,
	"learning_rate": 1.581560283687943e-06,
	"loss": 0.0126,
	"step": 223
	},
	{
	"epoch": 0.23893333333333333,
	"grad_norm": 1.564285880714171,
	"learning_rate": 1.5886524822695036e-06,
	"loss": 0.0274,
	"step": 224
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.8256861393160675,
	"learning_rate": 1.5957446808510637e-06,
	"loss": 0.0801,
	"step": 225
	},
	{
	"epoch": 0.24106666666666668,
	"grad_norm": 5.626390458824275,
	"learning_rate": 1.6028368794326242e-06,
	"loss": 0.1175,
	"step": 226
	},
	{
	"epoch": 0.24213333333333334,
	"grad_norm": 0.3639992497542339,
	"learning_rate": 1.6099290780141843e-06,
	"loss": 0.0042,
	"step": 227
	},
	{
	"epoch": 0.2432,
	"grad_norm": 0.9623642386925754,
	"learning_rate": 1.6170212765957446e-06,
	"loss": 0.0303,
	"step": 228
	},
	{
	"epoch": 0.24426666666666666,
	"grad_norm": 4.786039455247629,
	"learning_rate": 1.6241134751773049e-06,
	"loss": 0.1451,
	"step": 229
	},
	{
	"epoch": 0.24533333333333332,
	"grad_norm": 1.7940933903892,
	"learning_rate": 1.6312056737588652e-06,
	"loss": 0.0242,
	"step": 230
	},
	{
	"epoch": 0.2464,
	"grad_norm": 1.1872990094484728,
	"learning_rate": 1.6382978723404255e-06,
	"loss": 0.0142,
	"step": 231
	},
	{
	"epoch": 0.24746666666666667,
	"grad_norm": 3.6465271365421694,
	"learning_rate": 1.6453900709219858e-06,
	"loss": 0.1327,
	"step": 232
	},
	{
	"epoch": 0.24853333333333333,
	"grad_norm": 3.4606007899724736,
	"learning_rate": 1.652482269503546e-06,
	"loss": 0.0752,
	"step": 233
	},
	{
	"epoch": 0.2496,
	"grad_norm": 1.7829502544111206,
	"learning_rate": 1.6595744680851064e-06,
	"loss": 0.0551,
	"step": 234
	},
	{
	"epoch": 0.25066666666666665,
	"grad_norm": 0.4291699362420302,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.0119,
	"step": 235
	},
	{
	"epoch": 0.2517333333333333,
	"grad_norm": 1.536096095556399,
	"learning_rate": 1.6737588652482267e-06,
	"loss": 0.0207,
	"step": 236
	},
	{
	"epoch": 0.2528,
	"grad_norm": 1.4834886851834983,
	"learning_rate": 1.6808510638297873e-06,
	"loss": 0.024,
	"step": 237
	},
	{
	"epoch": 0.2538666666666667,
	"grad_norm": 0.5910974696060286,
	"learning_rate": 1.6879432624113473e-06,
	"loss": 0.0103,
	"step": 238
	},
	{
	"epoch": 0.25493333333333335,
	"grad_norm": 1.0554413983828212,
	"learning_rate": 1.6950354609929076e-06,
	"loss": 0.0132,
	"step": 239
	},
	{
	"epoch": 0.256,
	"grad_norm": 1.724598949331031,
	"learning_rate": 1.702127659574468e-06,
	"loss": 0.0934,
	"step": 240
	},
	{
	"epoch": 0.25706666666666667,
	"grad_norm": 1.7576821288165476,
	"learning_rate": 1.7092198581560282e-06,
	"loss": 0.0391,
	"step": 241
	},
	{
	"epoch": 0.2581333333333333,
	"grad_norm": 1.035363958245626,
	"learning_rate": 1.7163120567375885e-06,
	"loss": 0.0141,
	"step": 242
	},
	{
	"epoch": 0.2592,
	"grad_norm": 0.2419170209059454,
	"learning_rate": 1.7234042553191488e-06,
	"loss": 0.0029,
	"step": 243
	},
	{
	"epoch": 0.26026666666666665,
	"grad_norm": 1.458905410047098,
	"learning_rate": 1.7304964539007091e-06,
	"loss": 0.0254,
	"step": 244
	},
	{
	"epoch": 0.2613333333333333,
	"grad_norm": 0.2573364956038529,
	"learning_rate": 1.7375886524822694e-06,
	"loss": 0.0041,
	"step": 245
	},
	{
	"epoch": 0.2624,
	"grad_norm": 2.339489703214308,
	"learning_rate": 1.7446808510638297e-06,
	"loss": 0.0455,
	"step": 246
	},
	{
	"epoch": 0.2634666666666667,
	"grad_norm": 2.252526531061772,
	"learning_rate": 1.75177304964539e-06,
	"loss": 0.0456,
	"step": 247
	},
	{
	"epoch": 0.26453333333333334,
	"grad_norm": 0.4833353487456936,
	"learning_rate": 1.7588652482269503e-06,
	"loss": 0.0049,
	"step": 248
	},
	{
	"epoch": 0.2656,
	"grad_norm": 1.537116413342212,
	"learning_rate": 1.7659574468085106e-06,
	"loss": 0.0164,
	"step": 249
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 3.76154579366514,
	"learning_rate": 1.7730496453900707e-06,
	"loss": 0.1398,
	"step": 250
	},
	{
	"epoch": 0.26666666666666666,
	"eval_loss": 0.06543993949890137,
	"eval_runtime": 9.6094,
	"eval_samples_per_second": 10.406,
	"eval_steps_per_second": 5.203,
	"step": 250
	},
	{
	"epoch": 0.2677333333333333,
	"grad_norm": 4.958054469705704,
	"learning_rate": 1.780141843971631e-06,
	"loss": 0.1019,
	"step": 251
	},
	{
	"epoch": 0.2688,
	"grad_norm": 1.6609198738553164,
	"learning_rate": 1.7872340425531913e-06,
	"loss": 0.0499,
	"step": 252
	},
	{
	"epoch": 0.26986666666666664,
	"grad_norm": 1.6026871476203264,
	"learning_rate": 1.7943262411347516e-06,
	"loss": 0.0324,
	"step": 253
	},
	{
	"epoch": 0.27093333333333336,
	"grad_norm": 0.814342996956287,
	"learning_rate": 1.801418439716312e-06,
	"loss": 0.0158,
	"step": 254
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.21604099963633955,
	"learning_rate": 1.8085106382978722e-06,
	"loss": 0.0042,
	"step": 255
	},
	{
	"epoch": 0.2730666666666667,
	"grad_norm": 0.6624516019158352,
	"learning_rate": 1.8156028368794325e-06,
	"loss": 0.0088,
	"step": 256
	},
	{
	"epoch": 0.27413333333333334,
	"grad_norm": 1.694938724635794,
	"learning_rate": 1.8226950354609928e-06,
	"loss": 0.023,
	"step": 257
	},
	{
	"epoch": 0.2752,
	"grad_norm": 0.4835610610426178,
	"learning_rate": 1.8297872340425531e-06,
	"loss": 0.0064,
	"step": 258
	},
	{
	"epoch": 0.27626666666666666,
	"grad_norm": 1.6087706175732222,
	"learning_rate": 1.8368794326241134e-06,
	"loss": 0.024,
	"step": 259
	},
	{
	"epoch": 0.2773333333333333,
	"grad_norm": 1.174005945770529,
	"learning_rate": 1.8439716312056737e-06,
	"loss": 0.0416,
	"step": 260
	},
	{
	"epoch": 0.2784,
	"grad_norm": 2.0036309118637416,
	"learning_rate": 1.8510638297872338e-06,
	"loss": 0.0148,
	"step": 261
	},
	{
	"epoch": 0.27946666666666664,
	"grad_norm": 0.27542881905219085,
	"learning_rate": 1.8581560283687943e-06,
	"loss": 0.0037,
	"step": 262
	},
	{
	"epoch": 0.28053333333333336,
	"grad_norm": 0.10627036820200016,
	"learning_rate": 1.8652482269503544e-06,
	"loss": 0.0016,
	"step": 263
	},
	{
	"epoch": 0.2816,
	"grad_norm": 1.0016746248189468,
	"learning_rate": 1.872340425531915e-06,
	"loss": 0.0128,
	"step": 264
	},
	{
	"epoch": 0.2826666666666667,
	"grad_norm": 0.982894777786423,
	"learning_rate": 1.879432624113475e-06,
	"loss": 0.0173,
	"step": 265
	},
	{
	"epoch": 0.28373333333333334,
	"grad_norm": 2.235584985951457,
	"learning_rate": 1.8865248226950355e-06,
	"loss": 0.0273,
	"step": 266
	},
	{
	"epoch": 0.2848,
	"grad_norm": 1.9321006724531127,
	"learning_rate": 1.8936170212765956e-06,
	"loss": 0.0575,
	"step": 267
	},
	{
	"epoch": 0.28586666666666666,
	"grad_norm": 2.446015384106489,
	"learning_rate": 1.900709219858156e-06,
	"loss": 0.0695,
	"step": 268
	},
	{
	"epoch": 0.2869333333333333,
	"grad_norm": 1.0664504757410167,
	"learning_rate": 1.907801418439716e-06,
	"loss": 0.0103,
	"step": 269
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.6720506342995207,
	"learning_rate": 1.9148936170212767e-06,
	"loss": 0.0052,
	"step": 270
	},
	{
	"epoch": 0.2890666666666667,
	"grad_norm": 1.9536878981901187,
	"learning_rate": 1.9219858156028366e-06,
	"loss": 0.0357,
	"step": 271
	},
	{
	"epoch": 0.29013333333333335,
	"grad_norm": 0.07505605660652574,
	"learning_rate": 1.929078014184397e-06,
	"loss": 0.0015,
	"step": 272
	},
	{
	"epoch": 0.2912,
	"grad_norm": 0.22146530578795007,
	"learning_rate": 1.936170212765957e-06,
	"loss": 0.0018,
	"step": 273
	},
	{
	"epoch": 0.2922666666666667,
	"grad_norm": 4.705908517665693,
	"learning_rate": 1.9432624113475175e-06,
	"loss": 0.1119,
	"step": 274
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 4.923995204775593,
	"learning_rate": 1.950354609929078e-06,
	"loss": 0.136,
	"step": 275
	},
	{
	"epoch": 0.2944,
	"grad_norm": 3.900812289245892,
	"learning_rate": 1.957446808510638e-06,
	"loss": 0.1045,
	"step": 276
	},
	{
	"epoch": 0.29546666666666666,
	"grad_norm": 1.785174875347817,
	"learning_rate": 1.9645390070921984e-06,
	"loss": 0.0623,
	"step": 277
	},
	{
	"epoch": 0.2965333333333333,
	"grad_norm": 1.2213002904218435,
	"learning_rate": 1.9716312056737587e-06,
	"loss": 0.0377,
	"step": 278
	},
	{
	"epoch": 0.2976,
	"grad_norm": 0.2923059693481855,
	"learning_rate": 1.978723404255319e-06,
	"loss": 0.003,
	"step": 279
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 3.1731457409440336,
	"learning_rate": 1.9858156028368793e-06,
	"loss": 0.088,
	"step": 280
	},
	{
	"epoch": 0.29973333333333335,
	"grad_norm": 2.7525901886363915,
	"learning_rate": 1.9929078014184396e-06,
	"loss": 0.0582,
	"step": 281
	},
	{
	"epoch": 0.3008,
	"grad_norm": 1.8230031551732802,
	"learning_rate": 2e-06,
	"loss": 0.0199,
	"step": 282
	},
	{
	"epoch": 0.30186666666666667,
	"grad_norm": 1.3865631804560594,
	"learning_rate": 1.999999228435859e-06,
	"loss": 0.031,
	"step": 283
	},
	{
	"epoch": 0.30293333333333333,
	"grad_norm": 4.165055076177555,
	"learning_rate": 1.999996913744627e-06,
	"loss": 0.0733,
	"step": 284
	},
	{
	"epoch": 0.304,
	"grad_norm": 1.9754801877369055,
	"learning_rate": 1.9999930559298764e-06,
	"loss": 0.0301,
	"step": 285
	},
	{
	"epoch": 0.30506666666666665,
	"grad_norm": 0.7925560455697181,
	"learning_rate": 1.999987654997559e-06,
	"loss": 0.0283,
	"step": 286
	},
	{
	"epoch": 0.3061333333333333,
	"grad_norm": 0.5194694957615784,
	"learning_rate": 1.9999807109560105e-06,
	"loss": 0.0091,
	"step": 287
	},
	{
	"epoch": 0.3072,
	"grad_norm": 3.345098829097061,
	"learning_rate": 1.9999722238159456e-06,
	"loss": 0.0856,
	"step": 288
	},
	{
	"epoch": 0.3082666666666667,
	"grad_norm": 0.3547716864050005,
	"learning_rate": 1.9999621935904615e-06,
	"loss": 0.0069,
	"step": 289
	},
	{
	"epoch": 0.30933333333333335,
	"grad_norm": 4.251478368782789,
	"learning_rate": 1.9999506202950355e-06,
	"loss": 0.0626,
	"step": 290
	},
	{
	"epoch": 0.3104,
	"grad_norm": 0.854574365002302,
	"learning_rate": 1.9999375039475274e-06,
	"loss": 0.0289,
	"step": 291
	},
	{
	"epoch": 0.31146666666666667,
	"grad_norm": 1.8930472157492912,
	"learning_rate": 1.999922844568177e-06,
	"loss": 0.0288,
	"step": 292
	},
	{
	"epoch": 0.31253333333333333,
	"grad_norm": 0.6582644815371133,
	"learning_rate": 1.9999066421796056e-06,
	"loss": 0.0112,
	"step": 293
	},
	{
	"epoch": 0.3136,
	"grad_norm": 0.41981956976674956,
	"learning_rate": 1.999888896806816e-06,
	"loss": 0.0101,
	"step": 294
	},
	{
	"epoch": 0.31466666666666665,
	"grad_norm": 0.9804299420337502,
	"learning_rate": 1.999869608477191e-06,
	"loss": 0.0166,
	"step": 295
	},
	{
	"epoch": 0.3157333333333333,
	"grad_norm": 2.238920439094032,
	"learning_rate": 1.999848777220495e-06,
	"loss": 0.1084,
	"step": 296
	},
	{
	"epoch": 0.3168,
	"grad_norm": 2.546894901254014,
	"learning_rate": 1.999826403068874e-06,
	"loss": 0.0631,
	"step": 297
	},
	{
	"epoch": 0.3178666666666667,
	"grad_norm": 3.102610204113791,
	"learning_rate": 1.999802486056853e-06,
	"loss": 0.1098,
	"step": 298
	},
	{
	"epoch": 0.31893333333333335,
	"grad_norm": 0.6112172433808437,
	"learning_rate": 1.9997770262213405e-06,
	"loss": 0.0077,
	"step": 299
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.6002667369893008,
	"learning_rate": 1.999750023601623e-06,
	"loss": 0.0054,
	"step": 300
	},
	{
	"epoch": 0.32,
	"eval_loss": 0.04478977993130684,
	"eval_runtime": 8.2194,
	"eval_samples_per_second": 12.166,
	"eval_steps_per_second": 6.083,
	"step": 300
	},
	{
	"epoch": 0.32106666666666667,
	"grad_norm": 0.6384928870379522,
	"learning_rate": 1.9997214782393697e-06,
	"loss": 0.0064,
	"step": 301
	},
	{
	"epoch": 0.3221333333333333,
	"grad_norm": 4.121954582585253,
	"learning_rate": 1.9996913901786295e-06,
	"loss": 0.0282,
	"step": 302
	},
	{
	"epoch": 0.3232,
	"grad_norm": 2.170473758627147,
	"learning_rate": 1.9996597594658325e-06,
	"loss": 0.0371,
	"step": 303
	},
	{
	"epoch": 0.32426666666666665,
	"grad_norm": 3.277640099123368,
	"learning_rate": 1.9996265861497884e-06,
	"loss": 0.0826,
	"step": 304
	},
	{
	"epoch": 0.3253333333333333,
	"grad_norm": 1.223126645672684,
	"learning_rate": 1.9995918702816883e-06,
	"loss": 0.0029,
	"step": 305
	},
	{
	"epoch": 0.3264,
	"grad_norm": 3.2655619174791357,
	"learning_rate": 1.999555611915103e-06,
	"loss": 0.0666,
	"step": 306
	},
	{
	"epoch": 0.3274666666666667,
	"grad_norm": 3.4156903549207605,
	"learning_rate": 1.9995178111059837e-06,
	"loss": 0.104,
	"step": 307
	},
	{
	"epoch": 0.32853333333333334,
	"grad_norm": 2.658454045776883,
	"learning_rate": 1.9994784679126623e-06,
	"loss": 0.0456,
	"step": 308
	},
	{
	"epoch": 0.3296,
	"grad_norm": 0.19585429109140384,
	"learning_rate": 1.99943758239585e-06,
	"loss": 0.0016,
	"step": 309
	},
	{
	"epoch": 0.33066666666666666,
	"grad_norm": 1.679735095539774,
	"learning_rate": 1.999395154618639e-06,
	"loss": 0.0609,
	"step": 310
	},
	{
	"epoch": 0.3317333333333333,
	"grad_norm": 2.1430824974971925,
	"learning_rate": 1.9993511846465e-06,
	"loss": 0.078,
	"step": 311
	},
	{
	"epoch": 0.3328,
	"grad_norm": 2.696363876494053,
	"learning_rate": 1.9993056725472844e-06,
	"loss": 0.0453,
	"step": 312
	},
	{
	"epoch": 0.33386666666666664,
	"grad_norm": 0.09424756079491534,
	"learning_rate": 1.9992586183912243e-06,
	"loss": 0.0012,
	"step": 313
	},
	{
	"epoch": 0.33493333333333336,
	"grad_norm": 0.3035530404585692,
	"learning_rate": 1.999210022250929e-06,
	"loss": 0.0032,
	"step": 314
	},
	{
	"epoch": 0.336,
	"grad_norm": 1.578602700124216,
	"learning_rate": 1.999159884201389e-06,
	"loss": 0.0679,
	"step": 315
	},
	{
	"epoch": 0.3370666666666667,
	"grad_norm": 2.017282984994957,
	"learning_rate": 1.9991082043199736e-06,
	"loss": 0.0559,
	"step": 316
	},
	{
	"epoch": 0.33813333333333334,
	"grad_norm": 0.2549750442731066,
	"learning_rate": 1.999054982686432e-06,
	"loss": 0.004,
	"step": 317
	},
	{
	"epoch": 0.3392,
	"grad_norm": 0.4719506296789255,
	"learning_rate": 1.9990002193828922e-06,
	"loss": 0.0067,
	"step": 318
	},
	{
	"epoch": 0.34026666666666666,
	"grad_norm": 1.2214945707365839,
	"learning_rate": 1.99894391449386e-06,
	"loss": 0.023,
	"step": 319
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 0.7302116345834218,
	"learning_rate": 1.9988860681062216e-06,
	"loss": 0.0098,
	"step": 320
	},
	{
	"epoch": 0.3424,
	"grad_norm": 0.13466607550767162,
	"learning_rate": 1.9988266803092416e-06,
	"loss": 0.0031,
	"step": 321
	},
	{
	"epoch": 0.34346666666666664,
	"grad_norm": 1.0469671642701126,
	"learning_rate": 1.9987657511945624e-06,
	"loss": 0.0165,
	"step": 322
	},
	{
	"epoch": 0.34453333333333336,
	"grad_norm": 2.2440378487977406,
	"learning_rate": 1.998703280856206e-06,
	"loss": 0.0466,
	"step": 323
	},
	{
	"epoch": 0.3456,
	"grad_norm": 2.1387794205897053,
	"learning_rate": 1.9986392693905722e-06,
	"loss": 0.0777,
	"step": 324
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 1.2931875478250596,
	"learning_rate": 1.9985737168964384e-06,
	"loss": 0.0327,
	"step": 325
	},
	{
	"epoch": 0.34773333333333334,
	"grad_norm": 0.7580208065267147,
	"learning_rate": 1.9985066234749606e-06,
	"loss": 0.0177,
	"step": 326
	},
	{
	"epoch": 0.3488,
	"grad_norm": 0.0888189129076451,
	"learning_rate": 1.998437989229673e-06,
	"loss": 0.002,
	"step": 327
	},
	{
	"epoch": 0.34986666666666666,
	"grad_norm": 1.2397194295081706,
	"learning_rate": 1.9983678142664864e-06,
	"loss": 0.0378,
	"step": 328
	},
	{
	"epoch": 0.3509333333333333,
	"grad_norm": 1.202705168617386,
	"learning_rate": 1.9982960986936908e-06,
	"loss": 0.0895,
	"step": 329
	},
	{
	"epoch": 0.352,
	"grad_norm": 0.14800273449305595,
	"learning_rate": 1.9982228426219516e-06,
	"loss": 0.0023,
	"step": 330
	},
	{
	"epoch": 0.35306666666666664,
	"grad_norm": 1.0116996136565781,
	"learning_rate": 1.9981480461643125e-06,
	"loss": 0.0202,
	"step": 331
	},
	{
	"epoch": 0.35413333333333336,
	"grad_norm": 1.1189127410717563,
	"learning_rate": 1.9980717094361938e-06,
	"loss": 0.0132,
	"step": 332
	},
	{
	"epoch": 0.3552,
	"grad_norm": 2.750035640024511,
	"learning_rate": 1.9979938325553934e-06,
	"loss": 0.0557,
	"step": 333
	},
	{
	"epoch": 0.3562666666666667,
	"grad_norm": 0.5674290503062867,
	"learning_rate": 1.997914415642085e-06,
	"loss": 0.016,
	"step": 334
	},
	{
	"epoch": 0.35733333333333334,
	"grad_norm": 1.9870605095700231,
	"learning_rate": 1.9978334588188193e-06,
	"loss": 0.0617,
	"step": 335
	},
	{
	"epoch": 0.3584,
	"grad_norm": 1.7840308480554663,
	"learning_rate": 1.997750962210523e-06,
	"loss": 0.0266,
	"step": 336
	},
	{
	"epoch": 0.35946666666666666,
	"grad_norm": 1.2398964245336912,
	"learning_rate": 1.997666925944499e-06,
	"loss": 0.0165,
	"step": 337
	},
	{
	"epoch": 0.3605333333333333,
	"grad_norm": 0.6167879821088218,
	"learning_rate": 1.997581350150426e-06,
	"loss": 0.0078,
	"step": 338
	},
	{
	"epoch": 0.3616,
	"grad_norm": 1.3178080807296553,
	"learning_rate": 1.997494234960358e-06,
	"loss": 0.0221,
	"step": 339
	},
	{
	"epoch": 0.3626666666666667,
	"grad_norm": 0.2936607290692452,
	"learning_rate": 1.997405580508725e-06,
	"loss": 0.0033,
	"step": 340
	},
	{
	"epoch": 0.36373333333333335,
	"grad_norm": 2.463257834805897,
	"learning_rate": 1.997315386932333e-06,
	"loss": 0.0674,
	"step": 341
	},
	{
	"epoch": 0.3648,
	"grad_norm": 0.6291180686569299,
	"learning_rate": 1.9972236543703615e-06,
	"loss": 0.0068,
	"step": 342
	},
	{
	"epoch": 0.3658666666666667,
	"grad_norm": 1.9765666525777088,
	"learning_rate": 1.997130382964366e-06,
	"loss": 0.0353,
	"step": 343
	},
	{
	"epoch": 0.36693333333333333,
	"grad_norm": 1.140272021599622,
	"learning_rate": 1.997035572858276e-06,
	"loss": 0.0095,
	"step": 344
	},
	{
	"epoch": 0.368,
	"grad_norm": 0.7125188701024316,
	"learning_rate": 1.9969392241983957e-06,
	"loss": 0.0088,
	"step": 345
	},
	{
	"epoch": 0.36906666666666665,
	"grad_norm": 0.4454568829686679,
	"learning_rate": 1.9968413371334035e-06,
	"loss": 0.0031,
	"step": 346
	},
	{
	"epoch": 0.3701333333333333,
	"grad_norm": 2.8279184660148524,
	"learning_rate": 1.9967419118143514e-06,
	"loss": 0.0873,
	"step": 347
	},
	{
	"epoch": 0.3712,
	"grad_norm": 0.31255079659825663,
	"learning_rate": 1.996640948394666e-06,
	"loss": 0.0051,
	"step": 348
	},
	{
	"epoch": 0.3722666666666667,
	"grad_norm": 1.2215171116516321,
	"learning_rate": 1.9965384470301464e-06,
	"loss": 0.0265,
	"step": 349
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 1.7159754593735572,
	"learning_rate": 1.9964344078789653e-06,
	"loss": 0.1093,
	"step": 350
	},
	{
	"epoch": 0.37333333333333335,
	"eval_loss": 0.1534903347492218,
	"eval_runtime": 8.3094,
	"eval_samples_per_second": 12.035,
	"eval_steps_per_second": 6.017,
	"step": 350
	},
	{
	"epoch": 0.3744,
	"grad_norm": 2.0559468510888554,
	"learning_rate": 1.996328831101669e-06,
	"loss": 0.0241,
	"step": 351
	},
	{
	"epoch": 0.37546666666666667,
	"grad_norm": 0.5971180546425459,
	"learning_rate": 1.9962217168611755e-06,
	"loss": 0.0049,
	"step": 352
	},
	{
	"epoch": 0.37653333333333333,
	"grad_norm": 4.688206875294817,
	"learning_rate": 1.996113065322776e-06,
	"loss": 0.1433,
	"step": 353
	},
	{
	"epoch": 0.3776,
	"grad_norm": 0.2870089749889556,
	"learning_rate": 1.9960028766541334e-06,
	"loss": 0.0034,
	"step": 354
	},
	{
	"epoch": 0.37866666666666665,
	"grad_norm": 1.6375079216434894,
	"learning_rate": 1.9958911510252835e-06,
	"loss": 0.0232,
	"step": 355
	},
	{
	"epoch": 0.3797333333333333,
	"grad_norm": 4.593636878430014,
	"learning_rate": 1.995777888608633e-06,
	"loss": 0.093,
	"step": 356
	},
	{
	"epoch": 0.3808,
	"grad_norm": 2.8184656478976904,
	"learning_rate": 1.99566308957896e-06,
	"loss": 0.0779,
	"step": 357
	},
	{
	"epoch": 0.3818666666666667,
	"grad_norm": 0.2485439291403493,
	"learning_rate": 1.995546754113415e-06,
	"loss": 0.003,
	"step": 358
	},
	{
	"epoch": 0.38293333333333335,
	"grad_norm": 2.2437059110982585,
	"learning_rate": 1.9954288823915176e-06,
	"loss": 0.0414,
	"step": 359
	},
	{
	"epoch": 0.384,
	"grad_norm": 2.001140187003796,
	"learning_rate": 1.9953094745951597e-06,
	"loss": 0.035,
	"step": 360
	},
	{
	"epoch": 0.38506666666666667,
	"grad_norm": 1.4093011606412311,
	"learning_rate": 1.9951885309086026e-06,
	"loss": 0.0184,
	"step": 361
	},
	{
	"epoch": 0.38613333333333333,
	"grad_norm": 2.1138012491304408,
	"learning_rate": 1.9950660515184777e-06,
	"loss": 0.0315,
	"step": 362
	},
	{
	"epoch": 0.3872,
	"grad_norm": 0.11796660855631759,
	"learning_rate": 1.994942036613787e-06,
	"loss": 0.0018,
	"step": 363
	},
	{
	"epoch": 0.38826666666666665,
	"grad_norm": 0.7892341561868786,
	"learning_rate": 1.9948164863859004e-06,
	"loss": 0.0146,
	"step": 364
	},
	{
	"epoch": 0.3893333333333333,
	"grad_norm": 0.6568964569346487,
	"learning_rate": 1.994689401028559e-06,
	"loss": 0.0131,
	"step": 365
	},
	{
	"epoch": 0.3904,
	"grad_norm": 1.633661113619997,
	"learning_rate": 1.9945607807378715e-06,
	"loss": 0.0329,
	"step": 366
	},
	{
	"epoch": 0.3914666666666667,
	"grad_norm": 1.126467308042084,
	"learning_rate": 1.9944306257123157e-06,
	"loss": 0.0446,
	"step": 367
	},
	{
	"epoch": 0.39253333333333335,
	"grad_norm": 2.0843407882687908,
	"learning_rate": 1.9942989361527366e-06,
	"loss": 0.0428,
	"step": 368
	},
	{
	"epoch": 0.3936,
	"grad_norm": 2.2219389663095814,
	"learning_rate": 1.994165712262349e-06,
	"loss": 0.0564,
	"step": 369
	},
	{
	"epoch": 0.39466666666666667,
	"grad_norm": 2.7775942987619797,
	"learning_rate": 1.9940309542467345e-06,
	"loss": 0.0689,
	"step": 370
	},
	{
	"epoch": 0.3957333333333333,
	"grad_norm": 1.8350062571764503,
	"learning_rate": 1.993894662313841e-06,
	"loss": 0.0694,
	"step": 371
	},
	{
	"epoch": 0.3968,
	"grad_norm": 1.029665838458409,
	"learning_rate": 1.993756836673986e-06,
	"loss": 0.0173,
	"step": 372
	},
	{
	"epoch": 0.39786666666666665,
	"grad_norm": 0.571214571115293,
	"learning_rate": 1.9936174775398506e-06,
	"loss": 0.0053,
	"step": 373
	},
	{
	"epoch": 0.3989333333333333,
	"grad_norm": 1.3213872708985888,
	"learning_rate": 1.9934765851264846e-06,
	"loss": 0.0695,
	"step": 374
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.23510781603507086,
	"learning_rate": 1.993334159651303e-06,
	"loss": 0.0054,
	"step": 375
	},
	{
	"epoch": 0.4010666666666667,
	"grad_norm": 1.1060879217421968,
	"learning_rate": 1.9931902013340865e-06,
	"loss": 0.0189,
	"step": 376
	},
	{
	"epoch": 0.40213333333333334,
	"grad_norm": 0.3710399547602498,
	"learning_rate": 1.9930447103969815e-06,
	"loss": 0.0046,
	"step": 377
	},
	{
	"epoch": 0.4032,
	"grad_norm": 1.622717686078824,
	"learning_rate": 1.992897687064499e-06,
	"loss": 0.0247,
	"step": 378
	},
	{
	"epoch": 0.40426666666666666,
	"grad_norm": 2.2476983489121847,
	"learning_rate": 1.992749131563514e-06,
	"loss": 0.0818,
	"step": 379
	},
	{
	"epoch": 0.4053333333333333,
	"grad_norm": 1.315470500355049,
	"learning_rate": 1.9925990441232684e-06,
	"loss": 0.0322,
	"step": 380
	},
	{
	"epoch": 0.4064,
	"grad_norm": 2.5737294966668522,
	"learning_rate": 1.9924474249753655e-06,
	"loss": 0.0836,
	"step": 381
	},
	{
	"epoch": 0.40746666666666664,
	"grad_norm": 0.9394492979525191,
	"learning_rate": 1.9922942743537724e-06,
	"loss": 0.0297,
	"step": 382
	},
	{
	"epoch": 0.40853333333333336,
	"grad_norm": 0.8069382855063404,
	"learning_rate": 1.9921395924948214e-06,
	"loss": 0.0166,
	"step": 383
	},
	{
	"epoch": 0.4096,
	"grad_norm": 1.4306192080840419,
	"learning_rate": 1.991983379637206e-06,
	"loss": 0.0296,
	"step": 384
	},
	{
	"epoch": 0.4106666666666667,
	"grad_norm": 1.3969683122099108,
	"learning_rate": 1.991825636021982e-06,
	"loss": 0.0203,
	"step": 385
	},
	{
	"epoch": 0.41173333333333334,
	"grad_norm": 1.825285692623069,
	"learning_rate": 1.991666361892569e-06,
	"loss": 0.0872,
	"step": 386
	},
	{
	"epoch": 0.4128,
	"grad_norm": 0.8975216401244392,
	"learning_rate": 1.991505557494747e-06,
	"loss": 0.0316,
	"step": 387
	},
	{
	"epoch": 0.41386666666666666,
	"grad_norm": 1.921594655691583,
	"learning_rate": 1.9913432230766574e-06,
	"loss": 0.0398,
	"step": 388
	},
	{
	"epoch": 0.4149333333333333,
	"grad_norm": 1.8453404863459837,
	"learning_rate": 1.9911793588888043e-06,
	"loss": 0.0538,
	"step": 389
	},
	{
	"epoch": 0.416,
	"grad_norm": 1.0578785118600522,
	"learning_rate": 1.9910139651840495e-06,
	"loss": 0.0152,
	"step": 390
	},
	{
	"epoch": 0.41706666666666664,
	"grad_norm": 0.1293043522954174,
	"learning_rate": 1.9908470422176183e-06,
	"loss": 0.0032,
	"step": 391
	},
	{
	"epoch": 0.41813333333333336,
	"grad_norm": 0.8193852729764006,
	"learning_rate": 1.990678590247093e-06,
	"loss": 0.0252,
	"step": 392
	},
	{
	"epoch": 0.4192,
	"grad_norm": 0.8114012251103345,
	"learning_rate": 1.990508609532417e-06,
	"loss": 0.0125,
	"step": 393
	},
	{
	"epoch": 0.4202666666666667,
	"grad_norm": 2.818291734468121,
	"learning_rate": 1.9903371003358928e-06,
	"loss": 0.0189,
	"step": 394
	},
	{
	"epoch": 0.42133333333333334,
	"grad_norm": 0.9204435003254485,
	"learning_rate": 1.9901640629221803e-06,
	"loss": 0.0329,
	"step": 395
	},
	{
	"epoch": 0.4224,
	"grad_norm": 0.08712425359694305,
	"learning_rate": 1.9899894975582992e-06,
	"loss": 0.0011,
	"step": 396
	},
	{
	"epoch": 0.42346666666666666,
	"grad_norm": 0.03241923575638935,
	"learning_rate": 1.989813404513626e-06,
	"loss": 0.0006,
	"step": 397
	},
	{
	"epoch": 0.4245333333333333,
	"grad_norm": 1.6779979572184394,
	"learning_rate": 1.9896357840598943e-06,
	"loss": 0.0961,
	"step": 398
	},
	{
	"epoch": 0.4256,
	"grad_norm": 0.050696178342396175,
	"learning_rate": 1.9894566364711964e-06,
	"loss": 0.001,
	"step": 399
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 1.4891393117145435,
	"learning_rate": 1.9892759620239787e-06,
	"loss": 0.0906,
	"step": 400
	},
	{
	"epoch": 0.4266666666666667,
	"eval_loss": 0.07928112149238586,
	"eval_runtime": 8.2676,
	"eval_samples_per_second": 12.095,
	"eval_steps_per_second": 6.048,
	"step": 400
	},
	{
	"epoch": 0.42773333333333335,
	"grad_norm": 0.2825199528851997,
	"learning_rate": 1.989093760997046e-06,
	"loss": 0.0034,
	"step": 401
	},
	{
	"epoch": 0.4288,
	"grad_norm": 0.06701874009051513,
	"learning_rate": 1.9889100336715574e-06,
	"loss": 0.0014,
	"step": 402
	},
	{
	"epoch": 0.4298666666666667,
	"grad_norm": 1.1540056838329342,
	"learning_rate": 1.9887247803310275e-06,
	"loss": 0.0344,
	"step": 403
	},
	{
	"epoch": 0.43093333333333333,
	"grad_norm": 0.17492470261185009,
	"learning_rate": 1.988538001261327e-06,
	"loss": 0.0023,
	"step": 404
	},
	{
	"epoch": 0.432,
	"grad_norm": 1.842060768202244,
	"learning_rate": 1.9883496967506787e-06,
	"loss": 0.0277,
	"step": 405
	},
	{
	"epoch": 0.43306666666666666,
	"grad_norm": 1.5947437342416269,
	"learning_rate": 1.9881598670896615e-06,
	"loss": 0.042,
	"step": 406
	},
	{
	"epoch": 0.4341333333333333,
	"grad_norm": 0.9161274283634603,
	"learning_rate": 1.9879685125712064e-06,
	"loss": 0.0367,
	"step": 407
	},
	{
	"epoch": 0.4352,
	"grad_norm": 2.360301377480192,
	"learning_rate": 1.9877756334905984e-06,
	"loss": 0.0682,
	"step": 408
	},
	{
	"epoch": 0.4362666666666667,
	"grad_norm": 2.8033256381176845,
	"learning_rate": 1.9875812301454742e-06,
	"loss": 0.0215,
	"step": 409
	},
	{
	"epoch": 0.43733333333333335,
	"grad_norm": 1.5583202561269525,
	"learning_rate": 1.987385302835824e-06,
	"loss": 0.0363,
	"step": 410
	},
	{
	"epoch": 0.4384,
	"grad_norm": 2.781896561969346,
	"learning_rate": 1.9871878518639875e-06,
	"loss": 0.068,
	"step": 411
	},
	{
	"epoch": 0.43946666666666667,
	"grad_norm": 0.21642280193886335,
	"learning_rate": 1.9869888775346573e-06,
	"loss": 0.0036,
	"step": 412
	},
	{
	"epoch": 0.44053333333333333,
	"grad_norm": 1.6029255115528245,
	"learning_rate": 1.986788380154877e-06,
	"loss": 0.0647,
	"step": 413
	},
	{
	"epoch": 0.4416,
	"grad_norm": 0.5806042371514701,
	"learning_rate": 1.986586360034039e-06,
	"loss": 0.0132,
	"step": 414
	},
	{
	"epoch": 0.44266666666666665,
	"grad_norm": 0.9908273749386388,
	"learning_rate": 1.9863828174838866e-06,
	"loss": 0.0415,
	"step": 415
	},
	{
	"epoch": 0.4437333333333333,
	"grad_norm": 0.6290093251213951,
	"learning_rate": 1.9861777528185124e-06,
	"loss": 0.0105,
	"step": 416
	},
	{
	"epoch": 0.4448,
	"grad_norm": 0.14553068803017533,
	"learning_rate": 1.985971166354357e-06,
	"loss": 0.004,
	"step": 417
	},
	{
	"epoch": 0.4458666666666667,
	"grad_norm": 1.3506786155965647,
	"learning_rate": 1.9857630584102097e-06,
	"loss": 0.0751,
	"step": 418
	},
	{
	"epoch": 0.44693333333333335,
	"grad_norm": 0.5584989326737009,
	"learning_rate": 1.985553429307208e-06,
	"loss": 0.014,
	"step": 419
	},
	{
	"epoch": 0.448,
	"grad_norm": 1.6294250896843834,
	"learning_rate": 1.9853422793688367e-06,
	"loss": 0.0636,
	"step": 420
	},
	{
	"epoch": 0.44906666666666667,
	"grad_norm": 0.5596353903671426,
	"learning_rate": 1.985129608920927e-06,
	"loss": 0.0098,
	"step": 421
	},
	{
	"epoch": 0.45013333333333333,
	"grad_norm": 1.3728856599421018,
	"learning_rate": 1.9849154182916564e-06,
	"loss": 0.0406,
	"step": 422
	},
	{
	"epoch": 0.4512,
	"grad_norm": 1.4539828782817406,
	"learning_rate": 1.984699707811549e-06,
	"loss": 0.0425,
	"step": 423
	},
	{
	"epoch": 0.45226666666666665,
	"grad_norm": 1.1916004180696034,
	"learning_rate": 1.9844824778134736e-06,
	"loss": 0.0306,
	"step": 424
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 1.419985849067304,
	"learning_rate": 1.9842637286326438e-06,
	"loss": 0.0551,
	"step": 425
	},
	{
	"epoch": 0.4544,
	"grad_norm": 1.3883049129527003,
	"learning_rate": 1.984043460606618e-06,
	"loss": 0.0513,
	"step": 426
	},
	{
	"epoch": 0.4554666666666667,
	"grad_norm": 0.1278745223052872,
	"learning_rate": 1.9838216740752974e-06,
	"loss": 0.0052,
	"step": 427
	},
	{
	"epoch": 0.45653333333333335,
	"grad_norm": 0.6233977796404779,
	"learning_rate": 1.983598369380928e-06,
	"loss": 0.0342,
	"step": 428
	},
	{
	"epoch": 0.4576,
	"grad_norm": 0.39517621879791065,
	"learning_rate": 1.9833735468680964e-06,
	"loss": 0.01,
	"step": 429
	},
	{
	"epoch": 0.45866666666666667,
	"grad_norm": 0.4211386313113123,
	"learning_rate": 1.9831472068837337e-06,
	"loss": 0.0135,
	"step": 430
	},
	{
	"epoch": 0.4597333333333333,
	"grad_norm": 1.8464041929380612,
	"learning_rate": 1.9829193497771107e-06,
	"loss": 0.0597,
	"step": 431
	},
	{
	"epoch": 0.4608,
	"grad_norm": 1.3803065563385135,
	"learning_rate": 1.9826899758998406e-06,
	"loss": 0.0403,
	"step": 432
	},
	{
	"epoch": 0.46186666666666665,
	"grad_norm": 0.7417135247038509,
	"learning_rate": 1.982459085605877e-06,
	"loss": 0.016,
	"step": 433
	},
	{
	"epoch": 0.4629333333333333,
	"grad_norm": 1.39451525357249,
	"learning_rate": 1.9822266792515126e-06,
	"loss": 0.0182,
	"step": 434
	},
	{
	"epoch": 0.464,
	"grad_norm": 2.8641679197940273,
	"learning_rate": 1.98199275719538e-06,
	"loss": 0.1259,
	"step": 435
	},
	{
	"epoch": 0.4650666666666667,
	"grad_norm": 0.5715361958864581,
	"learning_rate": 1.981757319798452e-06,
	"loss": 0.0088,
	"step": 436
	},
	{
	"epoch": 0.46613333333333334,
	"grad_norm": 2.4227706234953055,
	"learning_rate": 1.981520367424038e-06,
	"loss": 0.0455,
	"step": 437
	},
	{
	"epoch": 0.4672,
	"grad_norm": 2.930333077963303,
	"learning_rate": 1.981281900437786e-06,
	"loss": 0.1153,
	"step": 438
	},
	{
	"epoch": 0.46826666666666666,
	"grad_norm": 2.8810723377913883,
	"learning_rate": 1.9810419192076813e-06,
	"loss": 0.1719,
	"step": 439
	},
	{
	"epoch": 0.4693333333333333,
	"grad_norm": 1.2033125300206557,
	"learning_rate": 1.9808004241040453e-06,
	"loss": 0.0335,
	"step": 440
	},
	{
	"epoch": 0.4704,
	"grad_norm": 1.5784293247380277,
	"learning_rate": 1.9805574154995368e-06,
	"loss": 0.0241,
	"step": 441
	},
	{
	"epoch": 0.47146666666666665,
	"grad_norm": 0.331053930672315,
	"learning_rate": 1.980312893769148e-06,
	"loss": 0.0059,
	"step": 442
	},
	{
	"epoch": 0.47253333333333336,
	"grad_norm": 0.3750843000391053,
	"learning_rate": 1.9800668592902084e-06,
	"loss": 0.0116,
	"step": 443
	},
	{
	"epoch": 0.4736,
	"grad_norm": 1.7511119092314256,
	"learning_rate": 1.97981931244238e-06,
	"loss": 0.0325,
	"step": 444
	},
	{
	"epoch": 0.4746666666666667,
	"grad_norm": 0.8672178018929745,
	"learning_rate": 1.97957025360766e-06,
	"loss": 0.015,
	"step": 445
	},
	{
	"epoch": 0.47573333333333334,
	"grad_norm": 1.1316891807624356,
	"learning_rate": 1.979319683170378e-06,
	"loss": 0.0247,
	"step": 446
	},
	{
	"epoch": 0.4768,
	"grad_norm": 1.7458341470636687,
	"learning_rate": 1.9790676015171957e-06,
	"loss": 0.0645,
	"step": 447
	},
	{
	"epoch": 0.47786666666666666,
	"grad_norm": 2.1936196357092346,
	"learning_rate": 1.978814009037108e-06,
	"loss": 0.0451,
	"step": 448
	},
	{
	"epoch": 0.4789333333333333,
	"grad_norm": 0.8697055179908226,
	"learning_rate": 1.9785589061214406e-06,
	"loss": 0.0213,
	"step": 449
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.22437585040149477,
	"learning_rate": 1.97830229316385e-06,
	"loss": 0.0054,
	"step": 450
	},
	{
	"epoch": 0.48,
	"eval_loss": 0.059111062437295914,
	"eval_runtime": 8.3864,
	"eval_samples_per_second": 11.924,
	"eval_steps_per_second": 5.962,
	"step": 450
	},
	{
	"epoch": 0.48106666666666664,
	"grad_norm": 0.10636278575330274,
	"learning_rate": 1.9780441705603223e-06,
	"loss": 0.0021,
	"step": 451
	},
	{
	"epoch": 0.48213333333333336,
	"grad_norm": 2.5573873105038434,
	"learning_rate": 1.977784538709175e-06,
	"loss": 0.1313,
	"step": 452
	},
	{
	"epoch": 0.4832,
	"grad_norm": 1.663012931362963,
	"learning_rate": 1.977523398011052e-06,
	"loss": 0.0691,
	"step": 453
	},
	{
	"epoch": 0.4842666666666667,
	"grad_norm": 0.7219317225159716,
	"learning_rate": 1.977260748868928e-06,
	"loss": 0.0096,
	"step": 454
	},
	{
	"epoch": 0.48533333333333334,
	"grad_norm": 0.7982966573390478,
	"learning_rate": 1.976996591688104e-06,
	"loss": 0.0137,
	"step": 455
	},
	{
	"epoch": 0.4864,
	"grad_norm": 0.20970702399928798,
	"learning_rate": 1.976730926876208e-06,
	"loss": 0.0046,
	"step": 456
	},
	{
	"epoch": 0.48746666666666666,
	"grad_norm": 0.28803719058990657,
	"learning_rate": 1.976463754843195e-06,
	"loss": 0.005,
	"step": 457
	},
	{
	"epoch": 0.4885333333333333,
	"grad_norm": 0.7919194276555528,
	"learning_rate": 1.9761950760013465e-06,
	"loss": 0.0282,
	"step": 458
	},
	{
	"epoch": 0.4896,
	"grad_norm": 1.4705813607789455,
	"learning_rate": 1.975924890765268e-06,
	"loss": 0.0579,
	"step": 459
	},
	{
	"epoch": 0.49066666666666664,
	"grad_norm": 0.0892978502279876,
	"learning_rate": 1.975653199551889e-06,
	"loss": 0.002,
	"step": 460
	},
	{
	"epoch": 0.49173333333333336,
	"grad_norm": 0.2924517573264484,
	"learning_rate": 1.975380002780465e-06,
	"loss": 0.0054,
	"step": 461
	},
	{
	"epoch": 0.4928,
	"grad_norm": 0.13984323661447734,
	"learning_rate": 1.9751053008725736e-06,
	"loss": 0.0048,
	"step": 462
	},
	{
	"epoch": 0.4938666666666667,
	"grad_norm": 0.9708483997669436,
	"learning_rate": 1.9748290942521147e-06,
	"loss": 0.0206,
	"step": 463
	},
	{
	"epoch": 0.49493333333333334,
	"grad_norm": 1.2833574509895846,
	"learning_rate": 1.974551383345311e-06,
	"loss": 0.0296,
	"step": 464
	},
	{
	"epoch": 0.496,
	"grad_norm": 0.8281324977406651,
	"learning_rate": 1.974272168580705e-06,
	"loss": 0.0278,
	"step": 465
	},
	{
	"epoch": 0.49706666666666666,
	"grad_norm": 0.044148734591724956,
	"learning_rate": 1.9739914503891623e-06,
	"loss": 0.0015,
	"step": 466
	},
	{
	"epoch": 0.4981333333333333,
	"grad_norm": 0.12615582529209052,
	"learning_rate": 1.9737092292038666e-06,
	"loss": 0.0029,
	"step": 467
	},
	{
	"epoch": 0.4992,
	"grad_norm": 0.2572697580666658,
	"learning_rate": 1.973425505460321e-06,
	"loss": 0.0083,
	"step": 468
	},
	{
	"epoch": 0.5002666666666666,
	"grad_norm": 0.1241476180135192,
	"learning_rate": 1.9731402795963475e-06,
	"loss": 0.0029,
	"step": 469
	},
	{
	"epoch": 0.5013333333333333,
	"grad_norm": 0.2062065751894674,
	"learning_rate": 1.972853552052087e-06,
	"loss": 0.0042,
	"step": 470
	},
	{
	"epoch": 0.5024,
	"grad_norm": 0.2666525204106077,
	"learning_rate": 1.972565323269996e-06,
	"loss": 0.0065,
	"step": 471
	},
	{
	"epoch": 0.5034666666666666,
	"grad_norm": 0.81144616074266,
	"learning_rate": 1.9722755936948495e-06,
	"loss": 0.025,
	"step": 472
	},
	{
	"epoch": 0.5045333333333333,
	"grad_norm": 1.444231248641308,
	"learning_rate": 1.9719843637737363e-06,
	"loss": 0.0291,
	"step": 473
	},
	{
	"epoch": 0.5056,
	"grad_norm": 0.4874177855432997,
	"learning_rate": 1.9716916339560623e-06,
	"loss": 0.0074,
	"step": 474
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 0.07849556590261975,
	"learning_rate": 1.971397404693547e-06,
	"loss": 0.002,
	"step": 475
	},
	{
	"epoch": 0.5077333333333334,
	"grad_norm": 0.5517723930132947,
	"learning_rate": 1.9711016764402236e-06,
	"loss": 0.0097,
	"step": 476
	},
	{
	"epoch": 0.5088,
	"grad_norm": 0.7299515657510972,
	"learning_rate": 1.970804449652439e-06,
	"loss": 0.0209,
	"step": 477
	},
	{
	"epoch": 0.5098666666666667,
	"grad_norm": 0.870187254255976,
	"learning_rate": 1.9705057247888524e-06,
	"loss": 0.0274,
	"step": 478
	},
	{
	"epoch": 0.5109333333333334,
	"grad_norm": 0.4378815653508658,
	"learning_rate": 1.9702055023104342e-06,
	"loss": 0.0067,
	"step": 479
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.19791484072606055,
	"learning_rate": 1.9699037826804664e-06,
	"loss": 0.0028,
	"step": 480
	},
	{
	"epoch": 0.5130666666666667,
	"grad_norm": 0.33265027100392863,
	"learning_rate": 1.9696005663645413e-06,
	"loss": 0.0046,
	"step": 481
	},
	{
	"epoch": 0.5141333333333333,
	"grad_norm": 0.5850664754775464,
	"learning_rate": 1.9692958538305603e-06,
	"loss": 0.0074,
	"step": 482
	},
	{
	"epoch": 0.5152,
	"grad_norm": 1.424929398925143,
	"learning_rate": 1.9689896455487335e-06,
	"loss": 0.1158,
	"step": 483
	},
	{
	"epoch": 0.5162666666666667,
	"grad_norm": 0.13577194866828218,
	"learning_rate": 1.9686819419915807e-06,
	"loss": 0.0015,
	"step": 484
	},
	{
	"epoch": 0.5173333333333333,
	"grad_norm": 0.41803441824249704,
	"learning_rate": 1.968372743633927e-06,
	"loss": 0.008,
	"step": 485
	},
	{
	"epoch": 0.5184,
	"grad_norm": 4.12682235282853,
	"learning_rate": 1.9680620509529057e-06,
	"loss": 0.0162,
	"step": 486
	},
	{
	"epoch": 0.5194666666666666,
	"grad_norm": 1.503044654721969,
	"learning_rate": 1.9677498644279548e-06,
	"loss": 0.0422,
	"step": 487
	},
	{
	"epoch": 0.5205333333333333,
	"grad_norm": 0.7689074004737195,
	"learning_rate": 1.9674361845408186e-06,
	"loss": 0.0094,
	"step": 488
	},
	{
	"epoch": 0.5216,
	"grad_norm": 0.06909875982015076,
	"learning_rate": 1.9671210117755453e-06,
	"loss": 0.0007,
	"step": 489
	},
	{
	"epoch": 0.5226666666666666,
	"grad_norm": 1.2206766665571167,
	"learning_rate": 1.966804346618487e-06,
	"loss": 0.1015,
	"step": 490
	},
	{
	"epoch": 0.5237333333333334,
	"grad_norm": 1.1789396464075375,
	"learning_rate": 1.9664861895582992e-06,
	"loss": 0.0854,
	"step": 491
	},
	{
	"epoch": 0.5248,
	"grad_norm": 0.21039611614928425,
	"learning_rate": 1.9661665410859383e-06,
	"loss": 0.0026,
	"step": 492
	},
	{
	"epoch": 0.5258666666666667,
	"grad_norm": 0.054725892737321646,
	"learning_rate": 1.9658454016946625e-06,
	"loss": 0.0013,
	"step": 493
	},
	{
	"epoch": 0.5269333333333334,
	"grad_norm": 1.1777205041840952,
	"learning_rate": 1.9655227718800323e-06,
	"loss": 0.0185,
	"step": 494
	},
	{
	"epoch": 0.528,
	"grad_norm": 1.0317741265994544,
	"learning_rate": 1.965198652139906e-06,
	"loss": 0.0587,
	"step": 495
	},
	{
	"epoch": 0.5290666666666667,
	"grad_norm": 0.891353426464908,
	"learning_rate": 1.964873042974442e-06,
	"loss": 0.0401,
	"step": 496
	},
	{
	"epoch": 0.5301333333333333,
	"grad_norm": 1.30587203863953,
	"learning_rate": 1.9645459448860975e-06,
	"loss": 0.0309,
	"step": 497
	},
	{
	"epoch": 0.5312,
	"grad_norm": 1.3596410335486893,
	"learning_rate": 1.9642173583796264e-06,
	"loss": 0.0413,
	"step": 498
	},
	{
	"epoch": 0.5322666666666667,
	"grad_norm": 1.895269444451895,
	"learning_rate": 1.96388728396208e-06,
	"loss": 0.0832,
	"step": 499
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.8616463910896954,
	"learning_rate": 1.9635557221428053e-06,
	"loss": 0.0282,
	"step": 500
	},
	{
	"epoch": 0.5333333333333333,
	"eval_loss": 0.0750061422586441,
	"eval_runtime": 8.263,
	"eval_samples_per_second": 12.102,
	"eval_steps_per_second": 6.051,
	"step": 500
	},
	{
	"epoch": 0.5344,
	"grad_norm": 1.0484027260920663,
	"learning_rate": 1.963222673433445e-06,
	"loss": 0.0384,
	"step": 501
	},
	{
	"epoch": 0.5354666666666666,
	"grad_norm": 0.7655681891587585,
	"learning_rate": 1.9628881383479356e-06,
	"loss": 0.0143,
	"step": 502
	},
	{
	"epoch": 0.5365333333333333,
	"grad_norm": 1.0787203352903525,
	"learning_rate": 1.962552117402508e-06,
	"loss": 0.0252,
	"step": 503
	},
	{
	"epoch": 0.5376,
	"grad_norm": 0.4951788218638876,
	"learning_rate": 1.9622146111156854e-06,
	"loss": 0.0167,
	"step": 504
	},
	{
	"epoch": 0.5386666666666666,
	"grad_norm": 1.0190831345745026,
	"learning_rate": 1.9618756200082834e-06,
	"loss": 0.0209,
	"step": 505
	},
	{
	"epoch": 0.5397333333333333,
	"grad_norm": 1.5762111962709655,
	"learning_rate": 1.9615351446034087e-06,
	"loss": 0.0548,
	"step": 506
	},
	{
	"epoch": 0.5408,
	"grad_norm": 0.4583231105242901,
	"learning_rate": 1.9611931854264588e-06,
	"loss": 0.011,
	"step": 507
	},
	{
	"epoch": 0.5418666666666667,
	"grad_norm": 0.5862500686640746,
	"learning_rate": 1.96084974300512e-06,
	"loss": 0.0077,
	"step": 508
	},
	{
	"epoch": 0.5429333333333334,
	"grad_norm": 0.8574568627565791,
	"learning_rate": 1.960504817869369e-06,
	"loss": 0.0373,
	"step": 509
	},
	{
	"epoch": 0.544,
	"grad_norm": 1.2010733201915198,
	"learning_rate": 1.960158410551468e-06,
	"loss": 0.0447,
	"step": 510
	},
	{
	"epoch": 0.5450666666666667,
	"grad_norm": 0.8555492767495577,
	"learning_rate": 1.9598105215859696e-06,
	"loss": 0.0466,
	"step": 511
	},
	{
	"epoch": 0.5461333333333334,
	"grad_norm": 0.10178459528093674,
	"learning_rate": 1.95946115150971e-06,
	"loss": 0.0021,
	"step": 512
	},
	{
	"epoch": 0.5472,
	"grad_norm": 0.800504235107064,
	"learning_rate": 1.9591103008618125e-06,
	"loss": 0.0274,
	"step": 513
	},
	{
	"epoch": 0.5482666666666667,
	"grad_norm": 0.5316447147161468,
	"learning_rate": 1.9587579701836846e-06,
	"loss": 0.0079,
	"step": 514
	},
	{
	"epoch": 0.5493333333333333,
	"grad_norm": 1.736227171167706,
	"learning_rate": 1.9584041600190176e-06,
	"loss": 0.0368,
	"step": 515
	},
	{
	"epoch": 0.5504,
	"grad_norm": 0.733523786009821,
	"learning_rate": 1.958048870913786e-06,
	"loss": 0.0135,
	"step": 516
	},
	{
	"epoch": 0.5514666666666667,
	"grad_norm": 0.5321584802143156,
	"learning_rate": 1.9576921034162466e-06,
	"loss": 0.0211,
	"step": 517
	},
	{
	"epoch": 0.5525333333333333,
	"grad_norm": 0.9700623063668581,
	"learning_rate": 1.9573338580769374e-06,
	"loss": 0.0213,
	"step": 518
	},
	{
	"epoch": 0.5536,
	"grad_norm": 1.5444464892245888,
	"learning_rate": 1.9569741354486763e-06,
	"loss": 0.064,
	"step": 519
	},
	{
	"epoch": 0.5546666666666666,
	"grad_norm": 0.9917141522432631,
	"learning_rate": 1.9566129360865625e-06,
	"loss": 0.0233,
	"step": 520
	},
	{
	"epoch": 0.5557333333333333,
	"grad_norm": 0.1624747704143236,
	"learning_rate": 1.956250260547972e-06,
	"loss": 0.0054,
	"step": 521
	},
	{
	"epoch": 0.5568,
	"grad_norm": 0.020676204559768888,
	"learning_rate": 1.955886109392561e-06,
	"loss": 0.0006,
	"step": 522
	},
	{
	"epoch": 0.5578666666666666,
	"grad_norm": 2.9044828339315623,
	"learning_rate": 1.95552048318226e-06,
	"loss": 0.0408,
	"step": 523
	},
	{
	"epoch": 0.5589333333333333,
	"grad_norm": 0.5831891601240735,
	"learning_rate": 1.9551533824812774e-06,
	"loss": 0.0097,
	"step": 524
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.5857357629454975,
	"learning_rate": 1.9547848078560974e-06,
	"loss": 0.0139,
	"step": 525
	},
	{
	"epoch": 0.5610666666666667,
	"grad_norm": 0.21217825118743366,
	"learning_rate": 1.9544147598754773e-06,
	"loss": 0.0032,
	"step": 526
	},
	{
	"epoch": 0.5621333333333334,
	"grad_norm": 2.4670392982236082,
	"learning_rate": 1.954043239110449e-06,
	"loss": 0.0316,
	"step": 527
	},
	{
	"epoch": 0.5632,
	"grad_norm": 0.5406170478676595,
	"learning_rate": 1.9536702461343164e-06,
	"loss": 0.0224,
	"step": 528
	},
	{
	"epoch": 0.5642666666666667,
	"grad_norm": 0.055518527171553374,
	"learning_rate": 1.953295781522656e-06,
	"loss": 0.002,
	"step": 529
	},
	{
	"epoch": 0.5653333333333334,
	"grad_norm": 1.3934912347870063,
	"learning_rate": 1.9529198458533144e-06,
	"loss": 0.0398,
	"step": 530
	},
	{
	"epoch": 0.5664,
	"grad_norm": 0.4045943505474674,
	"learning_rate": 1.952542439706408e-06,
	"loss": 0.0058,
	"step": 531
	},
	{
	"epoch": 0.5674666666666667,
	"grad_norm": 1.7864041111845064,
	"learning_rate": 1.9521635636643235e-06,
	"loss": 0.0444,
	"step": 532
	},
	{
	"epoch": 0.5685333333333333,
	"grad_norm": 1.2920646109126186,
	"learning_rate": 1.9517832183117157e-06,
	"loss": 0.0388,
	"step": 533
	},
	{
	"epoch": 0.5696,
	"grad_norm": 0.7948792055347192,
	"learning_rate": 1.9514014042355057e-06,
	"loss": 0.0168,
	"step": 534
	},
	{
	"epoch": 0.5706666666666667,
	"grad_norm": 1.6705131453586166,
	"learning_rate": 1.951018122024881e-06,
	"loss": 0.1448,
	"step": 535
	},
	{
	"epoch": 0.5717333333333333,
	"grad_norm": 1.1168431435244262,
	"learning_rate": 1.950633372271296e-06,
	"loss": 0.0415,
	"step": 536
	},
	{
	"epoch": 0.5728,
	"grad_norm": 0.6514860220679357,
	"learning_rate": 1.9502471555684693e-06,
	"loss": 0.0099,
	"step": 537
	},
	{
	"epoch": 0.5738666666666666,
	"grad_norm": 1.2822333127340622,
	"learning_rate": 1.949859472512382e-06,
	"loss": 0.0334,
	"step": 538
	},
	{
	"epoch": 0.5749333333333333,
	"grad_norm": 0.05784985500576959,
	"learning_rate": 1.9494703237012795e-06,
	"loss": 0.002,
	"step": 539
	},
	{
	"epoch": 0.576,
	"grad_norm": 0.9322715943880168,
	"learning_rate": 1.9490797097356673e-06,
	"loss": 0.0382,
	"step": 540
	},
	{
	"epoch": 0.5770666666666666,
	"grad_norm": 1.195879018881952,
	"learning_rate": 1.9486876312183136e-06,
	"loss": 0.0307,
	"step": 541
	},
	{
	"epoch": 0.5781333333333334,
	"grad_norm": 0.508657257504912,
	"learning_rate": 1.9482940887542458e-06,
	"loss": 0.0095,
	"step": 542
	},
	{
	"epoch": 0.5792,
	"grad_norm": 0.06695661372207187,
	"learning_rate": 1.9478990829507503e-06,
	"loss": 0.0016,
	"step": 543
	},
	{
	"epoch": 0.5802666666666667,
	"grad_norm": 0.6717175414997428,
	"learning_rate": 1.947502614417372e-06,
	"loss": 0.0143,
	"step": 544
	},
	{
	"epoch": 0.5813333333333334,
	"grad_norm": 0.3243179957792768,
	"learning_rate": 1.9471046837659123e-06,
	"loss": 0.0112,
	"step": 545
	},
	{
	"epoch": 0.5824,
	"grad_norm": 0.7631675841259196,
	"learning_rate": 1.9467052916104297e-06,
	"loss": 0.0276,
	"step": 546
	},
	{
	"epoch": 0.5834666666666667,
	"grad_norm": 2.0144599920001727,
	"learning_rate": 1.946304438567237e-06,
	"loss": 0.0921,
	"step": 547
	},
	{
	"epoch": 0.5845333333333333,
	"grad_norm": 1.0636321610949848,
	"learning_rate": 1.945902125254902e-06,
	"loss": 0.0187,
	"step": 548
	},
	{
	"epoch": 0.5856,
	"grad_norm": 0.35874953906327267,
	"learning_rate": 1.945498352294246e-06,
	"loss": 0.0073,
	"step": 549
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 0.11859155797457026,
	"learning_rate": 1.9450931203083423e-06,
	"loss": 0.004,
	"step": 550
	},
	{
	"epoch": 0.5866666666666667,
	"eval_loss": 0.0564335361123085,
	"eval_runtime": 8.2114,
	"eval_samples_per_second": 12.178,
	"eval_steps_per_second": 6.089,
	"step": 550
	},
	{
	"epoch": 0.5877333333333333,
	"grad_norm": 0.9039799412688934,
	"learning_rate": 1.9446864299225154e-06,
	"loss": 0.0333,
	"step": 551
	},
	{
	"epoch": 0.5888,
	"grad_norm": 0.7538502138841161,
	"learning_rate": 1.9442782817643423e-06,
	"loss": 0.0563,
	"step": 552
	},
	{
	"epoch": 0.5898666666666667,
	"grad_norm": 0.1358781642223268,
	"learning_rate": 1.943868676463646e-06,
	"loss": 0.0025,
	"step": 553
	},
	{
	"epoch": 0.5909333333333333,
	"grad_norm": 1.48617799274998,
	"learning_rate": 1.943457614652501e-06,
	"loss": 0.047,
	"step": 554
	},
	{
	"epoch": 0.592,
	"grad_norm": 1.1293466674581456,
	"learning_rate": 1.9430450969652287e-06,
	"loss": 0.0385,
	"step": 555
	},
	{
	"epoch": 0.5930666666666666,
	"grad_norm": 0.8012169267070843,
	"learning_rate": 1.9426311240383965e-06,
	"loss": 0.013,
	"step": 556
	},
	{
	"epoch": 0.5941333333333333,
	"grad_norm": 0.6572329690288506,
	"learning_rate": 1.9422156965108168e-06,
	"loss": 0.0306,
	"step": 557
	},
	{
	"epoch": 0.5952,
	"grad_norm": 0.19306800078152603,
	"learning_rate": 1.9417988150235494e-06,
	"loss": 0.0038,
	"step": 558
	},
	{
	"epoch": 0.5962666666666666,
	"grad_norm": 1.3017265451514113,
	"learning_rate": 1.9413804802198945e-06,
	"loss": 0.0476,
	"step": 559
	},
	{
	"epoch": 0.5973333333333334,
	"grad_norm": 0.8375105380873863,
	"learning_rate": 1.9409606927453965e-06,
	"loss": 0.014,
	"step": 560
	},
	{
	"epoch": 0.5984,
	"grad_norm": 0.8885298874629408,
	"learning_rate": 1.940539453247842e-06,
	"loss": 0.0151,
	"step": 561
	},
	{
	"epoch": 0.5994666666666667,
	"grad_norm": 1.5102673561210778,
	"learning_rate": 1.9401167623772573e-06,
	"loss": 0.0374,
	"step": 562
	},
	{
	"epoch": 0.6005333333333334,
	"grad_norm": 1.987721672034343,
	"learning_rate": 1.9396926207859082e-06,
	"loss": 0.0953,
	"step": 563
	},
	{
	"epoch": 0.6016,
	"grad_norm": 0.22000547641573698,
	"learning_rate": 1.9392670291283e-06,
	"loss": 0.0046,
	"step": 564
	},
	{
	"epoch": 0.6026666666666667,
	"grad_norm": 0.8882455389638617,
	"learning_rate": 1.9388399880611754e-06,
	"loss": 0.0229,
	"step": 565
	},
	{
	"epoch": 0.6037333333333333,
	"grad_norm": 0.5255035590758061,
	"learning_rate": 1.938411498243513e-06,
	"loss": 0.0228,
	"step": 566
	},
	{
	"epoch": 0.6048,
	"grad_norm": 0.343214637954108,
	"learning_rate": 1.9379815603365282e-06,
	"loss": 0.012,
	"step": 567
	},
	{
	"epoch": 0.6058666666666667,
	"grad_norm": 0.6053924697986651,
	"learning_rate": 1.93755017500367e-06,
	"loss": 0.0145,
	"step": 568
	},
	{
	"epoch": 0.6069333333333333,
	"grad_norm": 0.9254674234883058,
	"learning_rate": 1.937117342910621e-06,
	"loss": 0.0216,
	"step": 569
	},
	{
	"epoch": 0.608,
	"grad_norm": 0.8523880140703605,
	"learning_rate": 1.936683064725297e-06,
	"loss": 0.0221,
	"step": 570
	},
	{
	"epoch": 0.6090666666666666,
	"grad_norm": 0.9347656082249436,
	"learning_rate": 1.936247341117845e-06,
	"loss": 0.0188,
	"step": 571
	},
	{
	"epoch": 0.6101333333333333,
	"grad_norm": 0.8541104243225714,
	"learning_rate": 1.935810172760642e-06,
	"loss": 0.0473,
	"step": 572
	},
	{
	"epoch": 0.6112,
	"grad_norm": 0.8791764463094474,
	"learning_rate": 1.9353715603282955e-06,
	"loss": 0.0532,
	"step": 573
	},
	{
	"epoch": 0.6122666666666666,
	"grad_norm": 2.699319257248717,
	"learning_rate": 1.93493150449764e-06,
	"loss": 0.0537,
	"step": 574
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 0.1353088356819775,
	"learning_rate": 1.9344900059477396e-06,
	"loss": 0.0037,
	"step": 575
	},
	{
	"epoch": 0.6144,
	"grad_norm": 0.34618338498092704,
	"learning_rate": 1.934047065359881e-06,
	"loss": 0.0062,
	"step": 576
	},
	{
	"epoch": 0.6154666666666667,
	"grad_norm": 1.7078634001380137,
	"learning_rate": 1.9336026834175797e-06,
	"loss": 0.0771,
	"step": 577
	},
	{
	"epoch": 0.6165333333333334,
	"grad_norm": 0.14844162026860286,
	"learning_rate": 1.933156860806574e-06,
	"loss": 0.0031,
	"step": 578
	},
	{
	"epoch": 0.6176,
	"grad_norm": 1.2154534323817083,
	"learning_rate": 1.9327095982148254e-06,
	"loss": 0.0239,
	"step": 579
	},
	{
	"epoch": 0.6186666666666667,
	"grad_norm": 0.3272739540580518,
	"learning_rate": 1.932260896332517e-06,
	"loss": 0.007,
	"step": 580
	},
	{
	"epoch": 0.6197333333333334,
	"grad_norm": 0.10198673028774524,
	"learning_rate": 1.9318107558520538e-06,
	"loss": 0.0019,
	"step": 581
	},
	{
	"epoch": 0.6208,
	"grad_norm": 0.16913851829841492,
	"learning_rate": 1.9313591774680597e-06,
	"loss": 0.0038,
	"step": 582
	},
	{
	"epoch": 0.6218666666666667,
	"grad_norm": 0.07959301608009922,
	"learning_rate": 1.9309061618773786e-06,
	"loss": 0.0024,
	"step": 583
	},
	{
	"epoch": 0.6229333333333333,
	"grad_norm": 1.0893009664541993,
	"learning_rate": 1.9304517097790717e-06,
	"loss": 0.0407,
	"step": 584
	},
	{
	"epoch": 0.624,
	"grad_norm": 1.2631392794129843,
	"learning_rate": 1.929995821874417e-06,
	"loss": 0.0352,
	"step": 585
	},
	{
	"epoch": 0.6250666666666667,
	"grad_norm": 1.3997694152883324,
	"learning_rate": 1.9295384988669073e-06,
	"loss": 0.0393,
	"step": 586
	},
	{
	"epoch": 0.6261333333333333,
	"grad_norm": 1.6978660405005055,
	"learning_rate": 1.9290797414622513e-06,
	"loss": 0.0352,
	"step": 587
	},
	{
	"epoch": 0.6272,
	"grad_norm": 0.6308822438288059,
	"learning_rate": 1.928619550368371e-06,
	"loss": 0.0132,
	"step": 588
	},
	{
	"epoch": 0.6282666666666666,
	"grad_norm": 0.1371164881678459,
	"learning_rate": 1.9281579262953986e-06,
	"loss": 0.0025,
	"step": 589
	},
	{
	"epoch": 0.6293333333333333,
	"grad_norm": 0.6370240527064276,
	"learning_rate": 1.9276948699556807e-06,
	"loss": 0.0112,
	"step": 590
	},
	{
	"epoch": 0.6304,
	"grad_norm": 0.3056363205998125,
	"learning_rate": 1.9272303820637725e-06,
	"loss": 0.0058,
	"step": 591
	},
	{
	"epoch": 0.6314666666666666,
	"grad_norm": 0.55831070154103,
	"learning_rate": 1.926764463336438e-06,
	"loss": 0.01,
	"step": 592
	},
	{
	"epoch": 0.6325333333333333,
	"grad_norm": 0.8262080377150349,
	"learning_rate": 1.9262971144926496e-06,
	"loss": 0.0245,
	"step": 593
	},
	{
	"epoch": 0.6336,
	"grad_norm": 0.7226875150679721,
	"learning_rate": 1.9258283362535866e-06,
	"loss": 0.0097,
	"step": 594
	},
	{
	"epoch": 0.6346666666666667,
	"grad_norm": 0.042475954479241414,
	"learning_rate": 1.925358129342634e-06,
	"loss": 0.0006,
	"step": 595
	},
	{
	"epoch": 0.6357333333333334,
	"grad_norm": 0.859032501597276,
	"learning_rate": 1.9248864944853816e-06,
	"loss": 0.0378,
	"step": 596
	},
	{
	"epoch": 0.6368,
	"grad_norm": 1.3244307530631885,
	"learning_rate": 1.9244134324096223e-06,
	"loss": 0.0517,
	"step": 597
	},
	{
	"epoch": 0.6378666666666667,
	"grad_norm": 0.5857618506011136,
	"learning_rate": 1.9239389438453514e-06,
	"loss": 0.003,
	"step": 598
	},
	{
	"epoch": 0.6389333333333334,
	"grad_norm": 1.575917222926197,
	"learning_rate": 1.9234630295247656e-06,
	"loss": 0.0524,
	"step": 599
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.03170525562888107,
	"learning_rate": 1.922985690182262e-06,
	"loss": 0.0008,
	"step": 600
	},
	{
	"epoch": 0.64,
	"eval_loss": 0.08799741417169571,
	"eval_runtime": 8.2278,
	"eval_samples_per_second": 12.154,
	"eval_steps_per_second": 6.077,
	"step": 600
	},
	{
	"epoch": 0.6410666666666667,
	"grad_norm": 0.009690918488452322,
	"learning_rate": 1.922506926554436e-06,
	"loss": 0.0003,
	"step": 601
	},
	{
	"epoch": 0.6421333333333333,
	"grad_norm": 1.7933818506504124,
	"learning_rate": 1.922026739380082e-06,
	"loss": 0.0453,
	"step": 602
	},
	{
	"epoch": 0.6432,
	"grad_norm": 0.6728832662063972,
	"learning_rate": 1.92154512940019e-06,
	"loss": 0.0127,
	"step": 603
	},
	{
	"epoch": 0.6442666666666667,
	"grad_norm": 2.0454536910248007,
	"learning_rate": 1.921062097357946e-06,
	"loss": 0.0386,
	"step": 604
	},
	{
	"epoch": 0.6453333333333333,
	"grad_norm": 0.5798489601175519,
	"learning_rate": 1.920577643998731e-06,
	"loss": 0.0071,
	"step": 605
	},
	{
	"epoch": 0.6464,
	"grad_norm": 0.2394641534653747,
	"learning_rate": 1.9200917700701174e-06,
	"loss": 0.0036,
	"step": 606
	},
	{
	"epoch": 0.6474666666666666,
	"grad_norm": 0.9346485691984059,
	"learning_rate": 1.9196044763218716e-06,
	"loss": 0.0109,
	"step": 607
	},
	{
	"epoch": 0.6485333333333333,
	"grad_norm": 0.20767795476182135,
	"learning_rate": 1.919115763505951e-06,
	"loss": 0.0032,
	"step": 608
	},
	{
	"epoch": 0.6496,
	"grad_norm": 0.9746443826052226,
	"learning_rate": 1.9186256323765014e-06,
	"loss": 0.044,
	"step": 609
	},
	{
	"epoch": 0.6506666666666666,
	"grad_norm": 0.03632552447261078,
	"learning_rate": 1.9181340836898583e-06,
	"loss": 0.0008,
	"step": 610
	},
	{
	"epoch": 0.6517333333333334,
	"grad_norm": 0.016034323467636072,
	"learning_rate": 1.9176411182045444e-06,
	"loss": 0.0005,
	"step": 611
	},
	{
	"epoch": 0.6528,
	"grad_norm": 1.2072262713544197,
	"learning_rate": 1.9171467366812685e-06,
	"loss": 0.0396,
	"step": 612
	},
	{
	"epoch": 0.6538666666666667,
	"grad_norm": 0.06082727387699129,
	"learning_rate": 1.9166509398829245e-06,
	"loss": 0.0012,
	"step": 613
	},
	{
	"epoch": 0.6549333333333334,
	"grad_norm": 0.3879482512495693,
	"learning_rate": 1.9161537285745914e-06,
	"loss": 0.0039,
	"step": 614
	},
	{
	"epoch": 0.656,
	"grad_norm": 0.638808482088454,
	"learning_rate": 1.915655103523529e-06,
	"loss": 0.0074,
	"step": 615
	},
	{
	"epoch": 0.6570666666666667,
	"grad_norm": 0.8138491050409327,
	"learning_rate": 1.91515506549918e-06,
	"loss": 0.0132,
	"step": 616
	},
	{
	"epoch": 0.6581333333333333,
	"grad_norm": 0.540067462167089,
	"learning_rate": 1.9146536152731677e-06,
	"loss": 0.0172,
	"step": 617
	},
	{
	"epoch": 0.6592,
	"grad_norm": 0.6745443836623596,
	"learning_rate": 1.914150753619294e-06,
	"loss": 0.0127,
	"step": 618
	},
	{
	"epoch": 0.6602666666666667,
	"grad_norm": 0.0571756718504632,
	"learning_rate": 1.9136464813135383e-06,
	"loss": 0.0013,
	"step": 619
	},
	{
	"epoch": 0.6613333333333333,
	"grad_norm": 1.0696688251669149,
	"learning_rate": 1.9131407991340576e-06,
	"loss": 0.0191,
	"step": 620
	},
	{
	"epoch": 0.6624,
	"grad_norm": 0.9286743366557831,
	"learning_rate": 1.9126337078611853e-06,
	"loss": 0.0155,
	"step": 621
	},
	{
	"epoch": 0.6634666666666666,
	"grad_norm": 0.7214214892481057,
	"learning_rate": 1.9121252082774273e-06,
	"loss": 0.0122,
	"step": 622
	},
	{
	"epoch": 0.6645333333333333,
	"grad_norm": 1.0342887383390953,
	"learning_rate": 1.911615301167464e-06,
	"loss": 0.0183,
	"step": 623
	},
	{
	"epoch": 0.6656,
	"grad_norm": 1.158658852177621,
	"learning_rate": 1.9111039873181477e-06,
	"loss": 0.0208,
	"step": 624
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.933991719728494,
	"learning_rate": 1.910591267518501e-06,
	"loss": 0.0447,
	"step": 625
	},
	{
	"epoch": 0.6677333333333333,
	"grad_norm": 2.6089665241843285,
	"learning_rate": 1.910077142559716e-06,
	"loss": 0.0638,
	"step": 626
	},
	{
	"epoch": 0.6688,
	"grad_norm": 2.250722631227982,
	"learning_rate": 1.909561613235154e-06,
	"loss": 0.0592,
	"step": 627
	},
	{
	"epoch": 0.6698666666666667,
	"grad_norm": 0.08631342544886995,
	"learning_rate": 1.909044680340343e-06,
	"loss": 0.0031,
	"step": 628
	},
	{
	"epoch": 0.6709333333333334,
	"grad_norm": 0.15542900973082988,
	"learning_rate": 1.9085263446729764e-06,
	"loss": 0.0028,
	"step": 629
	},
	{
	"epoch": 0.672,
	"grad_norm": 1.022068539031681,
	"learning_rate": 1.908006607032913e-06,
	"loss": 0.0189,
	"step": 630
	},
	{
	"epoch": 0.6730666666666667,
	"grad_norm": 0.15157861026738817,
	"learning_rate": 1.907485468222174e-06,
	"loss": 0.0033,
	"step": 631
	},
	{
	"epoch": 0.6741333333333334,
	"grad_norm": 0.7061085215681796,
	"learning_rate": 1.906962929044944e-06,
	"loss": 0.0353,
	"step": 632
	},
	{
	"epoch": 0.6752,
	"grad_norm": 1.7929133283068759,
	"learning_rate": 1.9064389903075675e-06,
	"loss": 0.097,
	"step": 633
	},
	{
	"epoch": 0.6762666666666667,
	"grad_norm": 0.8589919170763982,
	"learning_rate": 1.9059136528185498e-06,
	"loss": 0.0157,
	"step": 634
	},
	{
	"epoch": 0.6773333333333333,
	"grad_norm": 0.36494696901420853,
	"learning_rate": 1.9053869173885536e-06,
	"loss": 0.0067,
	"step": 635
	},
	{
	"epoch": 0.6784,
	"grad_norm": 0.6532318752374391,
	"learning_rate": 1.9048587848303995e-06,
	"loss": 0.0202,
	"step": 636
	},
	{
	"epoch": 0.6794666666666667,
	"grad_norm": 0.8657373525057245,
	"learning_rate": 1.9043292559590633e-06,
	"loss": 0.027,
	"step": 637
	},
	{
	"epoch": 0.6805333333333333,
	"grad_norm": 0.5189799148758188,
	"learning_rate": 1.9037983315916765e-06,
	"loss": 0.0137,
	"step": 638
	},
	{
	"epoch": 0.6816,
	"grad_norm": 0.04327467414717054,
	"learning_rate": 1.9032660125475236e-06,
	"loss": 0.0008,
	"step": 639
	},
	{
	"epoch": 0.6826666666666666,
	"grad_norm": 0.28806340514043643,
	"learning_rate": 1.9027322996480405e-06,
	"loss": 0.0057,
	"step": 640
	},
	{
	"epoch": 0.6837333333333333,
	"grad_norm": 0.7926939670917631,
	"learning_rate": 1.9021971937168152e-06,
	"loss": 0.0159,
	"step": 641
	},
	{
	"epoch": 0.6848,
	"grad_norm": 0.10089339697782138,
	"learning_rate": 1.9016606955795846e-06,
	"loss": 0.0022,
	"step": 642
	},
	{
	"epoch": 0.6858666666666666,
	"grad_norm": 1.4015949919911506,
	"learning_rate": 1.9011228060642346e-06,
	"loss": 0.0423,
	"step": 643
	},
	{
	"epoch": 0.6869333333333333,
	"grad_norm": 0.2377784994817877,
	"learning_rate": 1.9005835260007969e-06,
	"loss": 0.0037,
	"step": 644
	},
	{
	"epoch": 0.688,
	"grad_norm": 0.41763550718320475,
	"learning_rate": 1.9000428562214505e-06,
	"loss": 0.0066,
	"step": 645
	},
	{
	"epoch": 0.6890666666666667,
	"grad_norm": 0.16240431871680872,
	"learning_rate": 1.899500797560518e-06,
	"loss": 0.0048,
	"step": 646
	},
	{
	"epoch": 0.6901333333333334,
	"grad_norm": 0.36944281047610233,
	"learning_rate": 1.8989573508544653e-06,
	"loss": 0.0044,
	"step": 647
	},
	{
	"epoch": 0.6912,
	"grad_norm": 0.048698287672728456,
	"learning_rate": 1.8984125169419006e-06,
	"loss": 0.001,
	"step": 648
	},
	{
	"epoch": 0.6922666666666667,
	"grad_norm": 1.1741308042050045,
	"learning_rate": 1.8978662966635724e-06,
	"loss": 0.0275,
	"step": 649
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 1.3558362474002168,
	"learning_rate": 1.8973186908623685e-06,
	"loss": 0.0205,
	"step": 650
	},
	{
	"epoch": 0.6933333333333334,
	"eval_loss": 0.07789424806833267,
	"eval_runtime": 8.3568,
	"eval_samples_per_second": 11.966,
	"eval_steps_per_second": 5.983,
	"step": 650
	},
	{
	"epoch": 0.6944,
	"grad_norm": 1.7482459975039009,
	"learning_rate": 1.8967697003833154e-06,
	"loss": 0.0648,
	"step": 651
	},
	{
	"epoch": 0.6954666666666667,
	"grad_norm": 0.9838146620076734,
	"learning_rate": 1.8962193260735756e-06,
	"loss": 0.0363,
	"step": 652
	},
	{
	"epoch": 0.6965333333333333,
	"grad_norm": 0.21390240495670962,
	"learning_rate": 1.895667568782447e-06,
	"loss": 0.0024,
	"step": 653
	},
	{
	"epoch": 0.6976,
	"grad_norm": 0.8151337293902924,
	"learning_rate": 1.8951144293613618e-06,
	"loss": 0.0148,
	"step": 654
	},
	{
	"epoch": 0.6986666666666667,
	"grad_norm": 0.5162306807123138,
	"learning_rate": 1.8945599086638854e-06,
	"loss": 0.0171,
	"step": 655
	},
	{
	"epoch": 0.6997333333333333,
	"grad_norm": 0.38429318683486613,
	"learning_rate": 1.894004007545715e-06,
	"loss": 0.0079,
	"step": 656
	},
	{
	"epoch": 0.7008,
	"grad_norm": 0.2911510256599981,
	"learning_rate": 1.8934467268646758e-06,
	"loss": 0.0072,
	"step": 657
	},
	{
	"epoch": 0.7018666666666666,
	"grad_norm": 0.6637191436854831,
	"learning_rate": 1.892888067480725e-06,
	"loss": 0.0258,
	"step": 658
	},
	{
	"epoch": 0.7029333333333333,
	"grad_norm": 0.8101059665578735,
	"learning_rate": 1.8923280302559442e-06,
	"loss": 0.015,
	"step": 659
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.09007455887002334,
	"learning_rate": 1.8917666160545443e-06,
	"loss": 0.0015,
	"step": 660
	},
	{
	"epoch": 0.7050666666666666,
	"grad_norm": 0.4166713394320213,
	"learning_rate": 1.891203825742858e-06,
	"loss": 0.0066,
	"step": 661
	},
	{
	"epoch": 0.7061333333333333,
	"grad_norm": 1.140005754244955,
	"learning_rate": 1.8906396601893432e-06,
	"loss": 0.0296,
	"step": 662
	},
	{
	"epoch": 0.7072,
	"grad_norm": 0.7125664873819846,
	"learning_rate": 1.8900741202645807e-06,
	"loss": 0.0105,
	"step": 663
	},
	{
	"epoch": 0.7082666666666667,
	"grad_norm": 1.162278687098443,
	"learning_rate": 1.8895072068412701e-06,
	"loss": 0.0136,
	"step": 664
	},
	{
	"epoch": 0.7093333333333334,
	"grad_norm": 0.12850306398178354,
	"learning_rate": 1.8889389207942319e-06,
	"loss": 0.0019,
	"step": 665
	},
	{
	"epoch": 0.7104,
	"grad_norm": 0.9709033474128045,
	"learning_rate": 1.8883692630004044e-06,
	"loss": 0.0346,
	"step": 666
	},
	{
	"epoch": 0.7114666666666667,
	"grad_norm": 0.1236617961891707,
	"learning_rate": 1.8877982343388427e-06,
	"loss": 0.0019,
	"step": 667
	},
	{
	"epoch": 0.7125333333333334,
	"grad_norm": 0.4869541092375322,
	"learning_rate": 1.8872258356907174e-06,
	"loss": 0.0161,
	"step": 668
	},
	{
	"epoch": 0.7136,
	"grad_norm": 0.050618181244294486,
	"learning_rate": 1.8866520679393125e-06,
	"loss": 0.0006,
	"step": 669
	},
	{
	"epoch": 0.7146666666666667,
	"grad_norm": 1.4761081938136003,
	"learning_rate": 1.8860769319700258e-06,
	"loss": 0.1135,
	"step": 670
	},
	{
	"epoch": 0.7157333333333333,
	"grad_norm": 0.6252382856366319,
	"learning_rate": 1.8855004286703657e-06,
	"loss": 0.0104,
	"step": 671
	},
	{
	"epoch": 0.7168,
	"grad_norm": 0.6439559554870532,
	"learning_rate": 1.8849225589299507e-06,
	"loss": 0.0094,
	"step": 672
	},
	{
	"epoch": 0.7178666666666667,
	"grad_norm": 0.28214655901364616,
	"learning_rate": 1.8843433236405077e-06,
	"loss": 0.0061,
	"step": 673
	},
	{
	"epoch": 0.7189333333333333,
	"grad_norm": 0.5128291981023604,
	"learning_rate": 1.8837627236958715e-06,
	"loss": 0.033,
	"step": 674
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.7869181765904392,
	"learning_rate": 1.8831807599919823e-06,
	"loss": 0.0308,
	"step": 675
	},
	{
	"epoch": 0.7210666666666666,
	"grad_norm": 0.006353292310558568,
	"learning_rate": 1.8825974334268842e-06,
	"loss": 0.0002,
	"step": 676
	},
	{
	"epoch": 0.7221333333333333,
	"grad_norm": 0.014967788496948244,
	"learning_rate": 1.8820127449007255e-06,
	"loss": 0.0004,
	"step": 677
	},
	{
	"epoch": 0.7232,
	"grad_norm": 0.21859308512940928,
	"learning_rate": 1.8814266953157553e-06,
	"loss": 0.0055,
	"step": 678
	},
	{
	"epoch": 0.7242666666666666,
	"grad_norm": 1.2461213147088943,
	"learning_rate": 1.8808392855763235e-06,
	"loss": 0.0371,
	"step": 679
	},
	{
	"epoch": 0.7253333333333334,
	"grad_norm": 0.10500248158730184,
	"learning_rate": 1.8802505165888784e-06,
	"loss": 0.0017,
	"step": 680
	},
	{
	"epoch": 0.7264,
	"grad_norm": 1.8198780794585319,
	"learning_rate": 1.8796603892619665e-06,
	"loss": 0.0656,
	"step": 681
	},
	{
	"epoch": 0.7274666666666667,
	"grad_norm": 0.6129129603289553,
	"learning_rate": 1.8790689045062297e-06,
	"loss": 0.0097,
	"step": 682
	},
	{
	"epoch": 0.7285333333333334,
	"grad_norm": 2.0670625892250705,
	"learning_rate": 1.8784760632344043e-06,
	"loss": 0.0618,
	"step": 683
	},
	{
	"epoch": 0.7296,
	"grad_norm": 0.040040852797923,
	"learning_rate": 1.8778818663613215e-06,
	"loss": 0.0006,
	"step": 684
	},
	{
	"epoch": 0.7306666666666667,
	"grad_norm": 0.3734802415610818,
	"learning_rate": 1.8772863148039026e-06,
	"loss": 0.0086,
	"step": 685
	},
	{
	"epoch": 0.7317333333333333,
	"grad_norm": 2.3829205537157403,
	"learning_rate": 1.8766894094811602e-06,
	"loss": 0.0727,
	"step": 686
	},
	{
	"epoch": 0.7328,
	"grad_norm": 0.07598476564118967,
	"learning_rate": 1.876091151314196e-06,
	"loss": 0.0015,
	"step": 687
	},
	{
	"epoch": 0.7338666666666667,
	"grad_norm": 0.8020548938183406,
	"learning_rate": 1.8754915412261989e-06,
	"loss": 0.0464,
	"step": 688
	},
	{
	"epoch": 0.7349333333333333,
	"grad_norm": 0.9189831756888492,
	"learning_rate": 1.8748905801424442e-06,
	"loss": 0.0097,
	"step": 689
	},
	{
	"epoch": 0.736,
	"grad_norm": 0.8698201134779201,
	"learning_rate": 1.8742882689902916e-06,
	"loss": 0.0387,
	"step": 690
	},
	{
	"epoch": 0.7370666666666666,
	"grad_norm": 0.3837850280105085,
	"learning_rate": 1.8736846086991853e-06,
	"loss": 0.0041,
	"step": 691
	},
	{
	"epoch": 0.7381333333333333,
	"grad_norm": 0.08376766362596819,
	"learning_rate": 1.8730796002006498e-06,
	"loss": 0.0013,
	"step": 692
	},
	{
	"epoch": 0.7392,
	"grad_norm": 0.8243964566185918,
	"learning_rate": 1.8724732444282914e-06,
	"loss": 0.0272,
	"step": 693
	},
	{
	"epoch": 0.7402666666666666,
	"grad_norm": 0.06561835665780034,
	"learning_rate": 1.8718655423177942e-06,
	"loss": 0.0012,
	"step": 694
	},
	{
	"epoch": 0.7413333333333333,
	"grad_norm": 1.9770659144069223,
	"learning_rate": 1.8712564948069212e-06,
	"loss": 0.1281,
	"step": 695
	},
	{
	"epoch": 0.7424,
	"grad_norm": 0.6808221729580057,
	"learning_rate": 1.8706461028355102e-06,
	"loss": 0.0278,
	"step": 696
	},
	{
	"epoch": 0.7434666666666667,
	"grad_norm": 0.2805141264349283,
	"learning_rate": 1.8700343673454748e-06,
	"loss": 0.0057,
	"step": 697
	},
	{
	"epoch": 0.7445333333333334,
	"grad_norm": 1.3630696487065848,
	"learning_rate": 1.869421289280801e-06,
	"loss": 0.0482,
	"step": 698
	},
	{
	"epoch": 0.7456,
	"grad_norm": 0.45934846960562553,
	"learning_rate": 1.8688068695875474e-06,
	"loss": 0.0195,
	"step": 699
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 0.8478316453189086,
	"learning_rate": 1.8681911092138417e-06,
	"loss": 0.022,
	"step": 700
	},
	{
	"epoch": 0.7466666666666667,
	"eval_loss": 0.14599137008190155,
	"eval_runtime": 8.3463,
	"eval_samples_per_second": 11.981,
	"eval_steps_per_second": 5.991,
	"step": 700
	},
	{
	"epoch": 0.7477333333333334,
	"grad_norm": 1.6537827342230196,
	"learning_rate": 1.8675740091098817e-06,
	"loss": 0.0361,
	"step": 701
	},
	{
	"epoch": 0.7488,
	"grad_norm": 1.3526954464708587,
	"learning_rate": 1.8669555702279318e-06,
	"loss": 0.0278,
	"step": 702
	},
	{
	"epoch": 0.7498666666666667,
	"grad_norm": 1.15397568692622,
	"learning_rate": 1.8663357935223228e-06,
	"loss": 0.0287,
	"step": 703
	},
	{
	"epoch": 0.7509333333333333,
	"grad_norm": 0.4320899696852264,
	"learning_rate": 1.865714679949449e-06,
	"loss": 0.0265,
	"step": 704
	},
	{
	"epoch": 0.752,
	"grad_norm": 0.21985410834860744,
	"learning_rate": 1.865092230467769e-06,
	"loss": 0.0081,
	"step": 705
	},
	{
	"epoch": 0.7530666666666667,
	"grad_norm": 0.64197353580112,
	"learning_rate": 1.8644684460378018e-06,
	"loss": 0.0168,
	"step": 706
	},
	{
	"epoch": 0.7541333333333333,
	"grad_norm": 0.49761728799072774,
	"learning_rate": 1.863843327622127e-06,
	"loss": 0.0396,
	"step": 707
	},
	{
	"epoch": 0.7552,
	"grad_norm": 1.283299911113395,
	"learning_rate": 1.8632168761853823e-06,
	"loss": 0.0178,
	"step": 708
	},
	{
	"epoch": 0.7562666666666666,
	"grad_norm": 2.118132944346098,
	"learning_rate": 1.8625890926942631e-06,
	"loss": 0.1543,
	"step": 709
	},
	{
	"epoch": 0.7573333333333333,
	"grad_norm": 0.2694109746423913,
	"learning_rate": 1.8619599781175195e-06,
	"loss": 0.0049,
	"step": 710
	},
	{
	"epoch": 0.7584,
	"grad_norm": 0.7318430595449652,
	"learning_rate": 1.8613295334259559e-06,
	"loss": 0.0307,
	"step": 711
	},
	{
	"epoch": 0.7594666666666666,
	"grad_norm": 0.1500358076950247,
	"learning_rate": 1.8606977595924293e-06,
	"loss": 0.0027,
	"step": 712
	},
	{
	"epoch": 0.7605333333333333,
	"grad_norm": 0.4718961665735485,
	"learning_rate": 1.8600646575918484e-06,
	"loss": 0.0138,
	"step": 713
	},
	{
	"epoch": 0.7616,
	"grad_norm": 0.8864599535171884,
	"learning_rate": 1.85943022840117e-06,
	"loss": 0.0442,
	"step": 714
	},
	{
	"epoch": 0.7626666666666667,
	"grad_norm": 0.2217109209467052,
	"learning_rate": 1.8587944729994002e-06,
	"loss": 0.0045,
	"step": 715
	},
	{
	"epoch": 0.7637333333333334,
	"grad_norm": 0.1856112558053254,
	"learning_rate": 1.8581573923675906e-06,
	"loss": 0.0035,
	"step": 716
	},
	{
	"epoch": 0.7648,
	"grad_norm": 0.5109471217029353,
	"learning_rate": 1.8575189874888392e-06,
	"loss": 0.0099,
	"step": 717
	},
	{
	"epoch": 0.7658666666666667,
	"grad_norm": 1.774273478868457,
	"learning_rate": 1.856879259348286e-06,
	"loss": 0.0653,
	"step": 718
	},
	{
	"epoch": 0.7669333333333334,
	"grad_norm": 0.6357577238575974,
	"learning_rate": 1.856238208933114e-06,
	"loss": 0.0194,
	"step": 719
	},
	{
	"epoch": 0.768,
	"grad_norm": 1.2519081954903675,
	"learning_rate": 1.8555958372325456e-06,
	"loss": 0.0445,
	"step": 720
	},
	{
	"epoch": 0.7690666666666667,
	"grad_norm": 0.13216131308199502,
	"learning_rate": 1.8549521452378434e-06,
	"loss": 0.0027,
	"step": 721
	},
	{
	"epoch": 0.7701333333333333,
	"grad_norm": 2.2932859639163157,
	"learning_rate": 1.8543071339423063e-06,
	"loss": 0.1572,
	"step": 722
	},
	{
	"epoch": 0.7712,
	"grad_norm": 0.8892398942439078,
	"learning_rate": 1.8536608043412696e-06,
	"loss": 0.0215,
	"step": 723
	},
	{
	"epoch": 0.7722666666666667,
	"grad_norm": 1.1044212758824195,
	"learning_rate": 1.853013157432103e-06,
	"loss": 0.0206,
	"step": 724
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 0.04737647613454427,
	"learning_rate": 1.8523641942142082e-06,
	"loss": 0.0014,
	"step": 725
	},
	{
	"epoch": 0.7744,
	"grad_norm": 1.8740445566312973,
	"learning_rate": 1.8517139156890193e-06,
	"loss": 0.057,
	"step": 726
	},
	{
	"epoch": 0.7754666666666666,
	"grad_norm": 0.5827727755530225,
	"learning_rate": 1.8510623228599994e-06,
	"loss": 0.0112,
	"step": 727
	},
	{
	"epoch": 0.7765333333333333,
	"grad_norm": 0.9932722718227635,
	"learning_rate": 1.8504094167326394e-06,
	"loss": 0.0462,
	"step": 728
	},
	{
	"epoch": 0.7776,
	"grad_norm": 0.2981346688194257,
	"learning_rate": 1.8497551983144576e-06,
	"loss": 0.0054,
	"step": 729
	},
	{
	"epoch": 0.7786666666666666,
	"grad_norm": 0.48501496823240203,
	"learning_rate": 1.8490996686149966e-06,
	"loss": 0.0145,
	"step": 730
	},
	{
	"epoch": 0.7797333333333333,
	"grad_norm": 0.785772938987278,
	"learning_rate": 1.8484428286458233e-06,
	"loss": 0.0135,
	"step": 731
	},
	{
	"epoch": 0.7808,
	"grad_norm": 0.23910637165939902,
	"learning_rate": 1.8477846794205257e-06,
	"loss": 0.0049,
	"step": 732
	},
	{
	"epoch": 0.7818666666666667,
	"grad_norm": 0.2177932327400783,
	"learning_rate": 1.8471252219547124e-06,
	"loss": 0.0088,
	"step": 733
	},
	{
	"epoch": 0.7829333333333334,
	"grad_norm": 1.1800699679193265,
	"learning_rate": 1.8464644572660113e-06,
	"loss": 0.0452,
	"step": 734
	},
	{
	"epoch": 0.784,
	"grad_norm": 2.025992908145484,
	"learning_rate": 1.8458023863740666e-06,
	"loss": 0.0565,
	"step": 735
	},
	{
	"epoch": 0.7850666666666667,
	"grad_norm": 0.3597458532138365,
	"learning_rate": 1.845139010300539e-06,
	"loss": 0.0052,
	"step": 736
	},
	{
	"epoch": 0.7861333333333334,
	"grad_norm": 0.23447688879389122,
	"learning_rate": 1.8444743300691026e-06,
	"loss": 0.0041,
	"step": 737
	},
	{
	"epoch": 0.7872,
	"grad_norm": 1.0217974031018804,
	"learning_rate": 1.8438083467054442e-06,
	"loss": 0.0174,
	"step": 738
	},
	{
	"epoch": 0.7882666666666667,
	"grad_norm": 0.4407473823580305,
	"learning_rate": 1.8431410612372617e-06,
	"loss": 0.0065,
	"step": 739
	},
	{
	"epoch": 0.7893333333333333,
	"grad_norm": 0.32606365652237235,
	"learning_rate": 1.8424724746942623e-06,
	"loss": 0.0072,
	"step": 740
	},
	{
	"epoch": 0.7904,
	"grad_norm": 1.3835298162527605,
	"learning_rate": 1.841802588108161e-06,
	"loss": 0.012,
	"step": 741
	},
	{
	"epoch": 0.7914666666666667,
	"grad_norm": 0.27234435434149745,
	"learning_rate": 1.8411314025126782e-06,
	"loss": 0.0043,
	"step": 742
	},
	{
	"epoch": 0.7925333333333333,
	"grad_norm": 0.9264895282601704,
	"learning_rate": 1.8404589189435393e-06,
	"loss": 0.0177,
	"step": 743
	},
	{
	"epoch": 0.7936,
	"grad_norm": 0.8074935065238816,
	"learning_rate": 1.8397851384384734e-06,
	"loss": 0.0196,
	"step": 744
	},
	{
	"epoch": 0.7946666666666666,
	"grad_norm": 0.1043654508508842,
	"learning_rate": 1.8391100620372097e-06,
	"loss": 0.0016,
	"step": 745
	},
	{
	"epoch": 0.7957333333333333,
	"grad_norm": 0.294338685689348,
	"learning_rate": 1.8384336907814782e-06,
	"loss": 0.0038,
	"step": 746
	},
	{
	"epoch": 0.7968,
	"grad_norm": 1.877458111911435,
	"learning_rate": 1.8377560257150058e-06,
	"loss": 0.1197,
	"step": 747
	},
	{
	"epoch": 0.7978666666666666,
	"grad_norm": 0.28728205490269343,
	"learning_rate": 1.8370770678835173e-06,
	"loss": 0.0032,
	"step": 748
	},
	{
	"epoch": 0.7989333333333334,
	"grad_norm": 0.13587158370211505,
	"learning_rate": 1.8363968183347311e-06,
	"loss": 0.0018,
	"step": 749
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.012187216319295395,
	"learning_rate": 1.8357152781183601e-06,
	"loss": 0.0004,
	"step": 750
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.12575645744800568,
	"eval_runtime": 8.3279,
	"eval_samples_per_second": 12.008,
	"eval_steps_per_second": 6.004,
	"step": 750
	},
	{
	"epoch": 0.8010666666666667,
	"grad_norm": 0.5959272862031918,
	"learning_rate": 1.8350324482861082e-06,
	"loss": 0.0089,
	"step": 751
	},
	{
	"epoch": 0.8021333333333334,
	"grad_norm": 0.8599561461029128,
	"learning_rate": 1.834348329891669e-06,
	"loss": 0.0735,
	"step": 752
	},
	{
	"epoch": 0.8032,
	"grad_norm": 0.3736642755602307,
	"learning_rate": 1.8336629239907253e-06,
	"loss": 0.0051,
	"step": 753
	},
	{
	"epoch": 0.8042666666666667,
	"grad_norm": 2.1960910655785706,
	"learning_rate": 1.8329762316409464e-06,
	"loss": 0.0474,
	"step": 754
	},
	{
	"epoch": 0.8053333333333333,
	"grad_norm": 0.23486155369972542,
	"learning_rate": 1.8322882539019862e-06,
	"loss": 0.0026,
	"step": 755
	},
	{
	"epoch": 0.8064,
	"grad_norm": 0.4135277646156687,
	"learning_rate": 1.831598991835483e-06,
	"loss": 0.0038,
	"step": 756
	},
	{
	"epoch": 0.8074666666666667,
	"grad_norm": 1.165467690491739,
	"learning_rate": 1.8309084465050568e-06,
	"loss": 0.0176,
	"step": 757
	},
	{
	"epoch": 0.8085333333333333,
	"grad_norm": 2.02646027680192,
	"learning_rate": 1.8302166189763071e-06,
	"loss": 0.0831,
	"step": 758
	},
	{
	"epoch": 0.8096,
	"grad_norm": 1.6085867863054608,
	"learning_rate": 1.829523510316813e-06,
	"loss": 0.0424,
	"step": 759
	},
	{
	"epoch": 0.8106666666666666,
	"grad_norm": 0.08394023384907391,
	"learning_rate": 1.8288291215961298e-06,
	"loss": 0.0011,
	"step": 760
	},
	{
	"epoch": 0.8117333333333333,
	"grad_norm": 1.5549433129437507,
	"learning_rate": 1.8281334538857881e-06,
	"loss": 0.0543,
	"step": 761
	},
	{
	"epoch": 0.8128,
	"grad_norm": 1.1958564233447515,
	"learning_rate": 1.827436508259293e-06,
	"loss": 0.1382,
	"step": 762
	},
	{
	"epoch": 0.8138666666666666,
	"grad_norm": 1.8875089670264504,
	"learning_rate": 1.8267382857921207e-06,
	"loss": 0.1114,
	"step": 763
	},
	{
	"epoch": 0.8149333333333333,
	"grad_norm": 0.8482532923040282,
	"learning_rate": 1.8260387875617183e-06,
	"loss": 0.0223,
	"step": 764
	},
	{
	"epoch": 0.816,
	"grad_norm": 0.33106328286533665,
	"learning_rate": 1.8253380146475007e-06,
	"loss": 0.0047,
	"step": 765
	},
	{
	"epoch": 0.8170666666666667,
	"grad_norm": 0.7790924737666333,
	"learning_rate": 1.8246359681308512e-06,
	"loss": 0.0542,
	"step": 766
	},
	{
	"epoch": 0.8181333333333334,
	"grad_norm": 1.2138816360719327,
	"learning_rate": 1.8239326490951171e-06,
	"loss": 0.0637,
	"step": 767
	},
	{
	"epoch": 0.8192,
	"grad_norm": 0.7481846968226915,
	"learning_rate": 1.82322805862561e-06,
	"loss": 0.0241,
	"step": 768
	},
	{
	"epoch": 0.8202666666666667,
	"grad_norm": 0.49646729395998357,
	"learning_rate": 1.822522197809603e-06,
	"loss": 0.0119,
	"step": 769
	},
	{
	"epoch": 0.8213333333333334,
	"grad_norm": 0.6802325293844261,
	"learning_rate": 1.8218150677363308e-06,
	"loss": 0.0157,
	"step": 770
	},
	{
	"epoch": 0.8224,
	"grad_norm": 0.3203206951174304,
	"learning_rate": 1.8211066694969851e-06,
	"loss": 0.0053,
	"step": 771
	},
	{
	"epoch": 0.8234666666666667,
	"grad_norm": 0.7237727939102068,
	"learning_rate": 1.8203970041847156e-06,
	"loss": 0.0196,
	"step": 772
	},
	{
	"epoch": 0.8245333333333333,
	"grad_norm": 0.5815456038630266,
	"learning_rate": 1.8196860728946267e-06,
	"loss": 0.0192,
	"step": 773
	},
	{
	"epoch": 0.8256,
	"grad_norm": 0.7384144199958987,
	"learning_rate": 1.8189738767237765e-06,
	"loss": 0.0167,
	"step": 774
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 0.8452498499854597,
	"learning_rate": 1.8182604167711754e-06,
	"loss": 0.0321,
	"step": 775
	},
	{
	"epoch": 0.8277333333333333,
	"grad_norm": 1.1155855351659207,
	"learning_rate": 1.8175456941377836e-06,
	"loss": 0.0908,
	"step": 776
	},
	{
	"epoch": 0.8288,
	"grad_norm": 0.5831585770270585,
	"learning_rate": 1.8168297099265092e-06,
	"loss": 0.0178,
	"step": 777
	},
	{
	"epoch": 0.8298666666666666,
	"grad_norm": 0.5159803955898651,
	"learning_rate": 1.8161124652422087e-06,
	"loss": 0.0509,
	"step": 778
	},
	{
	"epoch": 0.8309333333333333,
	"grad_norm": 0.39455087113487614,
	"learning_rate": 1.8153939611916815e-06,
	"loss": 0.0202,
	"step": 779
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.4893148909516496,
	"learning_rate": 1.8146741988836724e-06,
	"loss": 0.0126,
	"step": 780
	},
	{
	"epoch": 0.8330666666666666,
	"grad_norm": 0.3944238669973449,
	"learning_rate": 1.8139531794288668e-06,
	"loss": 0.0089,
	"step": 781
	},
	{
	"epoch": 0.8341333333333333,
	"grad_norm": 1.3203783416668555,
	"learning_rate": 1.8132309039398898e-06,
	"loss": 0.044,
	"step": 782
	},
	{
	"epoch": 0.8352,
	"grad_norm": 0.3733033862606873,
	"learning_rate": 1.8125073735313056e-06,
	"loss": 0.0119,
	"step": 783
	},
	{
	"epoch": 0.8362666666666667,
	"grad_norm": 0.4157990871864292,
	"learning_rate": 1.8117825893196143e-06,
	"loss": 0.0171,
	"step": 784
	},
	{
	"epoch": 0.8373333333333334,
	"grad_norm": 0.9873948651016035,
	"learning_rate": 1.8110565524232508e-06,
	"loss": 0.0418,
	"step": 785
	},
	{
	"epoch": 0.8384,
	"grad_norm": 0.373128353176687,
	"learning_rate": 1.8103292639625835e-06,
	"loss": 0.0082,
	"step": 786
	},
	{
	"epoch": 0.8394666666666667,
	"grad_norm": 0.4700397236766773,
	"learning_rate": 1.8096007250599113e-06,
	"loss": 0.0094,
	"step": 787
	},
	{
	"epoch": 0.8405333333333334,
	"grad_norm": 1.1544212720503313,
	"learning_rate": 1.8088709368394634e-06,
	"loss": 0.0306,
	"step": 788
	},
	{
	"epoch": 0.8416,
	"grad_norm": 0.31405851779047433,
	"learning_rate": 1.808139900427397e-06,
	"loss": 0.0078,
	"step": 789
	},
	{
	"epoch": 0.8426666666666667,
	"grad_norm": 1.7290262085984993,
	"learning_rate": 1.8074076169517943e-06,
	"loss": 0.055,
	"step": 790
	},
	{
	"epoch": 0.8437333333333333,
	"grad_norm": 1.4623456102740366,
	"learning_rate": 1.8066740875426634e-06,
	"loss": 0.0607,
	"step": 791
	},
	{
	"epoch": 0.8448,
	"grad_norm": 0.4213527888839155,
	"learning_rate": 1.805939313331934e-06,
	"loss": 0.0078,
	"step": 792
	},
	{
	"epoch": 0.8458666666666667,
	"grad_norm": 0.8697053625190254,
	"learning_rate": 1.8052032954534564e-06,
	"loss": 0.0447,
	"step": 793
	},
	{
	"epoch": 0.8469333333333333,
	"grad_norm": 0.07002893438915347,
	"learning_rate": 1.8044660350430017e-06,
	"loss": 0.0017,
	"step": 794
	},
	{
	"epoch": 0.848,
	"grad_norm": 0.4633257884238649,
	"learning_rate": 1.8037275332382564e-06,
	"loss": 0.0084,
	"step": 795
	},
	{
	"epoch": 0.8490666666666666,
	"grad_norm": 1.3124423563701477,
	"learning_rate": 1.8029877911788241e-06,
	"loss": 0.0251,
	"step": 796
	},
	{
	"epoch": 0.8501333333333333,
	"grad_norm": 1.1207872973331625,
	"learning_rate": 1.802246810006221e-06,
	"loss": 0.0292,
	"step": 797
	},
	{
	"epoch": 0.8512,
	"grad_norm": 0.49388843139638594,
	"learning_rate": 1.8015045908638768e-06,
	"loss": 0.0416,
	"step": 798
	},
	{
	"epoch": 0.8522666666666666,
	"grad_norm": 0.35403955364230993,
	"learning_rate": 1.8007611348971307e-06,
	"loss": 0.0127,
	"step": 799
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 0.5034914729242231,
	"learning_rate": 1.8000164432532304e-06,
	"loss": 0.012,
	"step": 800
	},
	{
	"epoch": 0.8533333333333334,
	"eval_loss": 0.053370095789432526,
	"eval_runtime": 8.3092,
	"eval_samples_per_second": 12.035,
	"eval_steps_per_second": 6.017,
	"step": 800
	},
	{
	"epoch": 0.8544,
	"grad_norm": 0.36895224014402334,
	"learning_rate": 1.7992705170813306e-06,
	"loss": 0.0078,
	"step": 801
	},
	{
	"epoch": 0.8554666666666667,
	"grad_norm": 0.8252968745608963,
	"learning_rate": 1.7985233575324914e-06,
	"loss": 0.0272,
	"step": 802
	},
	{
	"epoch": 0.8565333333333334,
	"grad_norm": 1.1763097545031713,
	"learning_rate": 1.7977749657596758e-06,
	"loss": 0.0344,
	"step": 803
	},
	{
	"epoch": 0.8576,
	"grad_norm": 0.5414117222730287,
	"learning_rate": 1.7970253429177476e-06,
	"loss": 0.0099,
	"step": 804
	},
	{
	"epoch": 0.8586666666666667,
	"grad_norm": 1.2355141437660309,
	"learning_rate": 1.796274490163472e-06,
	"loss": 0.0879,
	"step": 805
	},
	{
	"epoch": 0.8597333333333333,
	"grad_norm": 0.5127741675009583,
	"learning_rate": 1.7955224086555105e-06,
	"loss": 0.0078,
	"step": 806
	},
	{
	"epoch": 0.8608,
	"grad_norm": 1.8632872491399184,
	"learning_rate": 1.7947690995544216e-06,
	"loss": 0.1231,
	"step": 807
	},
	{
	"epoch": 0.8618666666666667,
	"grad_norm": 0.3007814403727227,
	"learning_rate": 1.7940145640226581e-06,
	"loss": 0.0044,
	"step": 808
	},
	{
	"epoch": 0.8629333333333333,
	"grad_norm": 0.10168799783835121,
	"learning_rate": 1.7932588032245643e-06,
	"loss": 0.0017,
	"step": 809
	},
	{
	"epoch": 0.864,
	"grad_norm": 0.307820320152951,
	"learning_rate": 1.7925018183263769e-06,
	"loss": 0.0074,
	"step": 810
	},
	{
	"epoch": 0.8650666666666667,
	"grad_norm": 0.5182017885407396,
	"learning_rate": 1.7917436104962204e-06,
	"loss": 0.01,
	"step": 811
	},
	{
	"epoch": 0.8661333333333333,
	"grad_norm": 0.32253536427501683,
	"learning_rate": 1.7909841809041065e-06,
	"loss": 0.0187,
	"step": 812
	},
	{
	"epoch": 0.8672,
	"grad_norm": 0.34005533079953526,
	"learning_rate": 1.790223530721933e-06,
	"loss": 0.0057,
	"step": 813
	},
	{
	"epoch": 0.8682666666666666,
	"grad_norm": 0.1909316693569716,
	"learning_rate": 1.7894616611234806e-06,
	"loss": 0.0043,
	"step": 814
	},
	{
	"epoch": 0.8693333333333333,
	"grad_norm": 1.478335175372691,
	"learning_rate": 1.7886985732844114e-06,
	"loss": 0.0501,
	"step": 815
	},
	{
	"epoch": 0.8704,
	"grad_norm": 1.1716937815295259,
	"learning_rate": 1.787934268382268e-06,
	"loss": 0.0335,
	"step": 816
	},
	{
	"epoch": 0.8714666666666666,
	"grad_norm": 0.05439033142980008,
	"learning_rate": 1.7871687475964711e-06,
	"loss": 0.0013,
	"step": 817
	},
	{
	"epoch": 0.8725333333333334,
	"grad_norm": 0.536222083547284,
	"learning_rate": 1.7864020121083171e-06,
	"loss": 0.0138,
	"step": 818
	},
	{
	"epoch": 0.8736,
	"grad_norm": 1.3458359629286443,
	"learning_rate": 1.785634063100978e-06,
	"loss": 0.0385,
	"step": 819
	},
	{
	"epoch": 0.8746666666666667,
	"grad_norm": 1.3649235702755,
	"learning_rate": 1.784864901759497e-06,
	"loss": 0.0339,
	"step": 820
	},
	{
	"epoch": 0.8757333333333334,
	"grad_norm": 0.30027259568249803,
	"learning_rate": 1.7840945292707885e-06,
	"loss": 0.0072,
	"step": 821
	},
	{
	"epoch": 0.8768,
	"grad_norm": 1.3243107032449952,
	"learning_rate": 1.7833229468236366e-06,
	"loss": 0.1008,
	"step": 822
	},
	{
	"epoch": 0.8778666666666667,
	"grad_norm": 0.13681447172171157,
	"learning_rate": 1.7825501556086917e-06,
	"loss": 0.0036,
	"step": 823
	},
	{
	"epoch": 0.8789333333333333,
	"grad_norm": 0.5040166624199399,
	"learning_rate": 1.78177615681847e-06,
	"loss": 0.0099,
	"step": 824
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.8191446395314659,
	"learning_rate": 1.7810009516473508e-06,
	"loss": 0.0528,
	"step": 825
	},
	{
	"epoch": 0.8810666666666667,
	"grad_norm": 0.6656923642458409,
	"learning_rate": 1.780224541291575e-06,
	"loss": 0.0058,
	"step": 826
	},
	{
	"epoch": 0.8821333333333333,
	"grad_norm": 0.07523140261740402,
	"learning_rate": 1.779446926949244e-06,
	"loss": 0.0028,
	"step": 827
	},
	{
	"epoch": 0.8832,
	"grad_norm": 0.7327408060072352,
	"learning_rate": 1.7786681098203155e-06,
	"loss": 0.0243,
	"step": 828
	},
	{
	"epoch": 0.8842666666666666,
	"grad_norm": 0.5688924217563622,
	"learning_rate": 1.7778880911066047e-06,
	"loss": 0.0283,
	"step": 829
	},
	{
	"epoch": 0.8853333333333333,
	"grad_norm": 0.20295904776689908,
	"learning_rate": 1.7771068720117808e-06,
	"loss": 0.0038,
	"step": 830
	},
	{
	"epoch": 0.8864,
	"grad_norm": 0.15585420550276582,
	"learning_rate": 1.7763244537413649e-06,
	"loss": 0.0028,
	"step": 831
	},
	{
	"epoch": 0.8874666666666666,
	"grad_norm": 0.9312786557049378,
	"learning_rate": 1.7755408375027284e-06,
	"loss": 0.0131,
	"step": 832
	},
	{
	"epoch": 0.8885333333333333,
	"grad_norm": 1.292940050593777,
	"learning_rate": 1.7747560245050926e-06,
	"loss": 0.0547,
	"step": 833
	},
	{
	"epoch": 0.8896,
	"grad_norm": 0.47924657994827013,
	"learning_rate": 1.7739700159595234e-06,
	"loss": 0.0109,
	"step": 834
	},
	{
	"epoch": 0.8906666666666667,
	"grad_norm": 0.6959830731874318,
	"learning_rate": 1.7731828130789338e-06,
	"loss": 0.0117,
	"step": 835
	},
	{
	"epoch": 0.8917333333333334,
	"grad_norm": 0.08123142159922864,
	"learning_rate": 1.772394417078078e-06,
	"loss": 0.003,
	"step": 836
	},
	{
	"epoch": 0.8928,
	"grad_norm": 0.07894197690380898,
	"learning_rate": 1.7716048291735532e-06,
	"loss": 0.0029,
	"step": 837
	},
	{
	"epoch": 0.8938666666666667,
	"grad_norm": 0.26682915515866196,
	"learning_rate": 1.7708140505837942e-06,
	"loss": 0.0041,
	"step": 838
	},
	{
	"epoch": 0.8949333333333334,
	"grad_norm": 0.7307717914383901,
	"learning_rate": 1.7700220825290733e-06,
	"loss": 0.0593,
	"step": 839
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.5459164968650944,
	"learning_rate": 1.7692289262314999e-06,
	"loss": 0.0078,
	"step": 840
	},
	{
	"epoch": 0.8970666666666667,
	"grad_norm": 0.6136665907387636,
	"learning_rate": 1.7684345829150151e-06,
	"loss": 0.0143,
	"step": 841
	},
	{
	"epoch": 0.8981333333333333,
	"grad_norm": 0.029118313370510067,
	"learning_rate": 1.767639053805393e-06,
	"loss": 0.0008,
	"step": 842
	},
	{
	"epoch": 0.8992,
	"grad_norm": 0.13813382275007977,
	"learning_rate": 1.7668423401302369e-06,
	"loss": 0.003,
	"step": 843
	},
	{
	"epoch": 0.9002666666666667,
	"grad_norm": 0.6157084116148966,
	"learning_rate": 1.766044443118978e-06,
	"loss": 0.044,
	"step": 844
	},
	{
	"epoch": 0.9013333333333333,
	"grad_norm": 2.062922045507839,
	"learning_rate": 1.765245364002874e-06,
	"loss": 0.0558,
	"step": 845
	},
	{
	"epoch": 0.9024,
	"grad_norm": 0.7371080849477383,
	"learning_rate": 1.7644451040150066e-06,
	"loss": 0.0132,
	"step": 846
	},
	{
	"epoch": 0.9034666666666666,
	"grad_norm": 0.7773691013862728,
	"learning_rate": 1.7636436643902793e-06,
	"loss": 0.0205,
	"step": 847
	},
	{
	"epoch": 0.9045333333333333,
	"grad_norm": 1.6905175037093625,
	"learning_rate": 1.7628410463654163e-06,
	"loss": 0.0389,
	"step": 848
	},
	{
	"epoch": 0.9056,
	"grad_norm": 0.06391501037524207,
	"learning_rate": 1.7620372511789604e-06,
	"loss": 0.0016,
	"step": 849
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 0.23754507243207357,
	"learning_rate": 1.7612322800712704e-06,
	"loss": 0.0043,
	"step": 850
	},
	{
	"epoch": 0.9066666666666666,
	"eval_loss": 0.06493183970451355,
	"eval_runtime": 9.2558,
	"eval_samples_per_second": 10.804,
	"eval_steps_per_second": 5.402,
	"step": 850
	},
	{
	"epoch": 0.9077333333333333,
	"grad_norm": 0.11522491154504028,
	"learning_rate": 1.7604261342845205e-06,
	"loss": 0.0033,
	"step": 851
	},
	{
	"epoch": 0.9088,
	"grad_norm": 0.10544553514498471,
	"learning_rate": 1.7596188150626963e-06,
	"loss": 0.0031,
	"step": 852
	},
	{
	"epoch": 0.9098666666666667,
	"grad_norm": 0.7103429756853613,
	"learning_rate": 1.7588103236515954e-06,
	"loss": 0.0361,
	"step": 853
	},
	{
	"epoch": 0.9109333333333334,
	"grad_norm": 0.7428779821661828,
	"learning_rate": 1.7580006612988238e-06,
	"loss": 0.0604,
	"step": 854
	},
	{
	"epoch": 0.912,
	"grad_norm": 1.3285680107698499,
	"learning_rate": 1.7571898292537943e-06,
	"loss": 0.0248,
	"step": 855
	},
	{
	"epoch": 0.9130666666666667,
	"grad_norm": 0.2700284204147992,
	"learning_rate": 1.7563778287677247e-06,
	"loss": 0.0047,
	"step": 856
	},
	{
	"epoch": 0.9141333333333334,
	"grad_norm": 0.4285906295736961,
	"learning_rate": 1.7555646610936357e-06,
	"loss": 0.0132,
	"step": 857
	},
	{
	"epoch": 0.9152,
	"grad_norm": 0.817481863958403,
	"learning_rate": 1.7547503274863496e-06,
	"loss": 0.0393,
	"step": 858
	},
	{
	"epoch": 0.9162666666666667,
	"grad_norm": 0.8000548344661702,
	"learning_rate": 1.7539348292024878e-06,
	"loss": 0.0146,
	"step": 859
	},
	{
	"epoch": 0.9173333333333333,
	"grad_norm": 0.5004377055556393,
	"learning_rate": 1.7531181675004683e-06,
	"loss": 0.0094,
	"step": 860
	},
	{
	"epoch": 0.9184,
	"grad_norm": 0.4818274803342577,
	"learning_rate": 1.7523003436405054e-06,
	"loss": 0.0088,
	"step": 861
	},
	{
	"epoch": 0.9194666666666667,
	"grad_norm": 0.07482480348938156,
	"learning_rate": 1.7514813588846059e-06,
	"loss": 0.0032,
	"step": 862
	},
	{
	"epoch": 0.9205333333333333,
	"grad_norm": 0.481044423432111,
	"learning_rate": 1.750661214496568e-06,
	"loss": 0.0144,
	"step": 863
	},
	{
	"epoch": 0.9216,
	"grad_norm": 0.4984826627914621,
	"learning_rate": 1.7498399117419807e-06,
	"loss": 0.0224,
	"step": 864
	},
	{
	"epoch": 0.9226666666666666,
	"grad_norm": 1.1474206429314626,
	"learning_rate": 1.7490174518882186e-06,
	"loss": 0.0526,
	"step": 865
	},
	{
	"epoch": 0.9237333333333333,
	"grad_norm": 0.9434708879125293,
	"learning_rate": 1.7481938362044428e-06,
	"loss": 0.0311,
	"step": 866
	},
	{
	"epoch": 0.9248,
	"grad_norm": 0.3535353322476962,
	"learning_rate": 1.7473690659615985e-06,
	"loss": 0.0083,
	"step": 867
	},
	{
	"epoch": 0.9258666666666666,
	"grad_norm": 0.9233610937074402,
	"learning_rate": 1.7465431424324115e-06,
	"loss": 0.021,
	"step": 868
	},
	{
	"epoch": 0.9269333333333334,
	"grad_norm": 0.0381949887798563,
	"learning_rate": 1.7457160668913882e-06,
	"loss": 0.0008,
	"step": 869
	},
	{
	"epoch": 0.928,
	"grad_norm": 0.10475509463522734,
	"learning_rate": 1.744887840614812e-06,
	"loss": 0.0042,
	"step": 870
	},
	{
	"epoch": 0.9290666666666667,
	"grad_norm": 1.097369465053356,
	"learning_rate": 1.7440584648807422e-06,
	"loss": 0.0226,
	"step": 871
	},
	{
	"epoch": 0.9301333333333334,
	"grad_norm": 0.8034539747593563,
	"learning_rate": 1.743227940969012e-06,
	"loss": 0.0139,
	"step": 872
	},
	{
	"epoch": 0.9312,
	"grad_norm": 1.5098893310606223,
	"learning_rate": 1.7423962701612264e-06,
	"loss": 0.0494,
	"step": 873
	},
	{
	"epoch": 0.9322666666666667,
	"grad_norm": 1.183787985459629,
	"learning_rate": 1.7415634537407602e-06,
	"loss": 0.0324,
	"step": 874
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.9869556179312732,
	"learning_rate": 1.7407294929927558e-06,
	"loss": 0.0293,
	"step": 875
	},
	{
	"epoch": 0.9344,
	"grad_norm": 1.307413794562261,
	"learning_rate": 1.739894389204122e-06,
	"loss": 0.0174,
	"step": 876
	},
	{
	"epoch": 0.9354666666666667,
	"grad_norm": 0.6586306424965217,
	"learning_rate": 1.7390581436635308e-06,
	"loss": 0.0197,
	"step": 877
	},
	{
	"epoch": 0.9365333333333333,
	"grad_norm": 0.4043924214860192,
	"learning_rate": 1.738220757661416e-06,
	"loss": 0.0054,
	"step": 878
	},
	{
	"epoch": 0.9376,
	"grad_norm": 0.5088216345136679,
	"learning_rate": 1.7373822324899724e-06,
	"loss": 0.0155,
	"step": 879
	},
	{
	"epoch": 0.9386666666666666,
	"grad_norm": 2.1231817727610176,
	"learning_rate": 1.736542569443151e-06,
	"loss": 0.0648,
	"step": 880
	},
	{
	"epoch": 0.9397333333333333,
	"grad_norm": 0.844118384711583,
	"learning_rate": 1.7357017698166604e-06,
	"loss": 0.0302,
	"step": 881
	},
	{
	"epoch": 0.9408,
	"grad_norm": 0.06773963213315144,
	"learning_rate": 1.7348598349079616e-06,
	"loss": 0.0026,
	"step": 882
	},
	{
	"epoch": 0.9418666666666666,
	"grad_norm": 0.520985003208029,
	"learning_rate": 1.734016766016269e-06,
	"loss": 0.01,
	"step": 883
	},
	{
	"epoch": 0.9429333333333333,
	"grad_norm": 0.6766732414862024,
	"learning_rate": 1.7331725644425453e-06,
	"loss": 0.0227,
	"step": 884
	},
	{
	"epoch": 0.944,
	"grad_norm": 0.19169654682905016,
	"learning_rate": 1.732327231489502e-06,
	"loss": 0.0069,
	"step": 885
	},
	{
	"epoch": 0.9450666666666667,
	"grad_norm": 0.5739250700621576,
	"learning_rate": 1.7314807684615965e-06,
	"loss": 0.0113,
	"step": 886
	},
	{
	"epoch": 0.9461333333333334,
	"grad_norm": 2.589012811817353,
	"learning_rate": 1.7306331766650298e-06,
	"loss": 0.0453,
	"step": 887
	},
	{
	"epoch": 0.9472,
	"grad_norm": 2.3283272194877607,
	"learning_rate": 1.7297844574077445e-06,
	"loss": 0.0512,
	"step": 888
	},
	{
	"epoch": 0.9482666666666667,
	"grad_norm": 0.08031806368889559,
	"learning_rate": 1.7289346119994234e-06,
	"loss": 0.0021,
	"step": 889
	},
	{
	"epoch": 0.9493333333333334,
	"grad_norm": 0.8282674805029137,
	"learning_rate": 1.7280836417514873e-06,
	"loss": 0.0229,
	"step": 890
	},
	{
	"epoch": 0.9504,
	"grad_norm": 0.5500672651045168,
	"learning_rate": 1.7272315479770923e-06,
	"loss": 0.015,
	"step": 891
	},
	{
	"epoch": 0.9514666666666667,
	"grad_norm": 0.7803183849599556,
	"learning_rate": 1.7263783319911282e-06,
	"loss": 0.0176,
	"step": 892
	},
	{
	"epoch": 0.9525333333333333,
	"grad_norm": 0.8919164411124452,
	"learning_rate": 1.7255239951102167e-06,
	"loss": 0.09,
	"step": 893
	},
	{
	"epoch": 0.9536,
	"grad_norm": 0.8799607735287165,
	"learning_rate": 1.7246685386527096e-06,
	"loss": 0.0235,
	"step": 894
	},
	{
	"epoch": 0.9546666666666667,
	"grad_norm": 0.5384817024411757,
	"learning_rate": 1.7238119639386855e-06,
	"loss": 0.0121,
	"step": 895
	},
	{
	"epoch": 0.9557333333333333,
	"grad_norm": 0.12014693936874205,
	"learning_rate": 1.7229542722899493e-06,
	"loss": 0.0024,
	"step": 896
	},
	{
	"epoch": 0.9568,
	"grad_norm": 0.827858735368603,
	"learning_rate": 1.7220954650300292e-06,
	"loss": 0.0617,
	"step": 897
	},
	{
	"epoch": 0.9578666666666666,
	"grad_norm": 0.6525540756770545,
	"learning_rate": 1.721235543484175e-06,
	"loss": 0.0242,
	"step": 898
	},
	{
	"epoch": 0.9589333333333333,
	"grad_norm": 0.44614571143621745,
	"learning_rate": 1.720374508979356e-06,
	"loss": 0.0112,
	"step": 899
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.7043329837387845,
	"learning_rate": 1.7195123628442587e-06,
	"loss": 0.0198,
	"step": 900
	},
	{
	"epoch": 0.96,
	"eval_loss": 0.06702824681997299,
	"eval_runtime": 8.4156,
	"eval_samples_per_second": 11.883,
	"eval_steps_per_second": 5.941,
	"step": 900
	},
	{
	"epoch": 0.9610666666666666,
	"grad_norm": 0.7201943038229085,
	"learning_rate": 1.7186491064092855e-06,
	"loss": 0.0453,
	"step": 901
	},
	{
	"epoch": 0.9621333333333333,
	"grad_norm": 1.6075880142157002,
	"learning_rate": 1.7177847410065513e-06,
	"loss": 0.0521,
	"step": 902
	},
	{
	"epoch": 0.9632,
	"grad_norm": 0.4452359083266732,
	"learning_rate": 1.7169192679698834e-06,
	"loss": 0.0125,
	"step": 903
	},
	{
	"epoch": 0.9642666666666667,
	"grad_norm": 0.44141821014464877,
	"learning_rate": 1.7160526886348174e-06,
	"loss": 0.0168,
	"step": 904
	},
	{
	"epoch": 0.9653333333333334,
	"grad_norm": 0.3041218639469686,
	"learning_rate": 1.7151850043385965e-06,
	"loss": 0.0092,
	"step": 905
	},
	{
	"epoch": 0.9664,
	"grad_norm": 0.847915323435404,
	"learning_rate": 1.7143162164201686e-06,
	"loss": 0.0368,
	"step": 906
	},
	{
	"epoch": 0.9674666666666667,
	"grad_norm": 1.6488620050289835,
	"learning_rate": 1.7134463262201853e-06,
	"loss": 0.0506,
	"step": 907
	},
	{
	"epoch": 0.9685333333333334,
	"grad_norm": 1.4437731473777529,
	"learning_rate": 1.7125753350809987e-06,
	"loss": 0.0512,
	"step": 908
	},
	{
	"epoch": 0.9696,
	"grad_norm": 3.4417556394185813,
	"learning_rate": 1.7117032443466592e-06,
	"loss": 0.1375,
	"step": 909
	},
	{
	"epoch": 0.9706666666666667,
	"grad_norm": 1.393607964551126,
	"learning_rate": 1.7108300553629156e-06,
	"loss": 0.0404,
	"step": 910
	},
	{
	"epoch": 0.9717333333333333,
	"grad_norm": 0.21196540619952392,
	"learning_rate": 1.7099557694772102e-06,
	"loss": 0.0061,
	"step": 911
	},
	{
	"epoch": 0.9728,
	"grad_norm": 0.6223387116095862,
	"learning_rate": 1.7090803880386782e-06,
	"loss": 0.0252,
	"step": 912
	},
	{
	"epoch": 0.9738666666666667,
	"grad_norm": 0.07423684189600925,
	"learning_rate": 1.7082039123981453e-06,
	"loss": 0.0033,
	"step": 913
	},
	{
	"epoch": 0.9749333333333333,
	"grad_norm": 0.05354461119851362,
	"learning_rate": 1.707326343908126e-06,
	"loss": 0.0014,
	"step": 914
	},
	{
	"epoch": 0.976,
	"grad_norm": 0.17654795092403208,
	"learning_rate": 1.7064476839228212e-06,
	"loss": 0.0079,
	"step": 915
	},
	{
	"epoch": 0.9770666666666666,
	"grad_norm": 1.1560415348836615,
	"learning_rate": 1.705567933798116e-06,
	"loss": 0.0709,
	"step": 916
	},
	{
	"epoch": 0.9781333333333333,
	"grad_norm": 0.6343824883733383,
	"learning_rate": 1.7046870948915775e-06,
	"loss": 0.0127,
	"step": 917
	},
	{
	"epoch": 0.9792,
	"grad_norm": 0.1494249398692408,
	"learning_rate": 1.7038051685624527e-06,
	"loss": 0.005,
	"step": 918
	},
	{
	"epoch": 0.9802666666666666,
	"grad_norm": 0.6696530221859195,
	"learning_rate": 1.702922156171668e-06,
	"loss": 0.0106,
	"step": 919
	},
	{
	"epoch": 0.9813333333333333,
	"grad_norm": 0.14314344177076077,
	"learning_rate": 1.702038059081824e-06,
	"loss": 0.0032,
	"step": 920
	},
	{
	"epoch": 0.9824,
	"grad_norm": 0.32484865198159396,
	"learning_rate": 1.7011528786571966e-06,
	"loss": 0.0086,
	"step": 921
	},
	{
	"epoch": 0.9834666666666667,
	"grad_norm": 0.8822743257829567,
	"learning_rate": 1.7002666162637325e-06,
	"loss": 0.0313,
	"step": 922
	},
	{
	"epoch": 0.9845333333333334,
	"grad_norm": 0.7756855471213663,
	"learning_rate": 1.6993792732690478e-06,
	"loss": 0.018,
	"step": 923
	},
	{
	"epoch": 0.9856,
	"grad_norm": 0.7609762590097283,
	"learning_rate": 1.698490851042427e-06,
	"loss": 0.0671,
	"step": 924
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 1.2735635481734564,
	"learning_rate": 1.6976013509548195e-06,
	"loss": 0.0286,
	"step": 925
	},
	{
	"epoch": 0.9877333333333334,
	"grad_norm": 1.4346762691717854,
	"learning_rate": 1.6967107743788384e-06,
	"loss": 0.1199,
	"step": 926
	},
	{
	"epoch": 0.9888,
	"grad_norm": 0.790669534924756,
	"learning_rate": 1.6958191226887566e-06,
	"loss": 0.0269,
	"step": 927
	},
	{
	"epoch": 0.9898666666666667,
	"grad_norm": 0.06747991177904396,
	"learning_rate": 1.6949263972605082e-06,
	"loss": 0.0017,
	"step": 928
	},
	{
	"epoch": 0.9909333333333333,
	"grad_norm": 0.20496814720380593,
	"learning_rate": 1.694032599471682e-06,
	"loss": 0.0049,
	"step": 929
	},
	{
	"epoch": 0.992,
	"grad_norm": 1.276497227455641,
	"learning_rate": 1.6931377307015237e-06,
	"loss": 0.0543,
	"step": 930
	},
	{
	"epoch": 0.9930666666666667,
	"grad_norm": 0.5302394338714648,
	"learning_rate": 1.6922417923309297e-06,
	"loss": 0.0265,
	"step": 931
	},
	{
	"epoch": 0.9941333333333333,
	"grad_norm": 0.22701284188681078,
	"learning_rate": 1.6913447857424485e-06,
	"loss": 0.008,
	"step": 932
	},
	{
	"epoch": 0.9952,
	"grad_norm": 0.5967580489510217,
	"learning_rate": 1.690446712320276e-06,
	"loss": 0.0104,
	"step": 933
	},
	{
	"epoch": 0.9962666666666666,
	"grad_norm": 0.3878277040856282,
	"learning_rate": 1.689547573450255e-06,
	"loss": 0.0103,
	"step": 934
	},
	{
	"epoch": 0.9973333333333333,
	"grad_norm": 0.32365680427814997,
	"learning_rate": 1.6886473705198715e-06,
	"loss": 0.0058,
	"step": 935
	},
	{
	"epoch": 0.9984,
	"grad_norm": 1.3705000469682167,
	"learning_rate": 1.6877461049182546e-06,
	"loss": 0.0396,
	"step": 936
	},
	{
	"epoch": 0.9994666666666666,
	"grad_norm": 0.5429930585759183,
	"learning_rate": 1.6868437780361726e-06,
	"loss": 0.028,
	"step": 937
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5429930585759183,
	"learning_rate": 1.6859403912660318e-06,
	"loss": 0.0096,
	"step": 938
	},
	{
	"epoch": 1.0010666666666668,
	"grad_norm": 0.4916829789703387,
	"learning_rate": 1.6850359460018735e-06,
	"loss": 0.0044,
	"step": 939
	},
	{
	"epoch": 1.0021333333333333,
	"grad_norm": 0.2979310166282705,
	"learning_rate": 1.6841304436393732e-06,
	"loss": 0.0165,
	"step": 940
	},
	{
	"epoch": 1.0032,
	"grad_norm": 0.8370743670659195,
	"learning_rate": 1.6832238855758367e-06,
	"loss": 0.0339,
	"step": 941
	},
	{
	"epoch": 1.0042666666666666,
	"grad_norm": 0.16192307827765665,
	"learning_rate": 1.6823162732102e-06,
	"loss": 0.0037,
	"step": 942
	},
	{
	"epoch": 1.0053333333333334,
	"grad_norm": 0.25394307806042143,
	"learning_rate": 1.681407607943025e-06,
	"loss": 0.0057,
	"step": 943
	},
	{
	"epoch": 1.0064,
	"grad_norm": 0.5039087022497899,
	"learning_rate": 1.6804978911764987e-06,
	"loss": 0.0247,
	"step": 944
	},
	{
	"epoch": 1.0074666666666667,
	"grad_norm": 0.04841683509251501,
	"learning_rate": 1.679587124314431e-06,
	"loss": 0.0168,
	"step": 945
	},
	{
	"epoch": 1.0085333333333333,
	"grad_norm": 0.7702555161572083,
	"learning_rate": 1.678675308762252e-06,
	"loss": 0.0078,
	"step": 946
	},
	{
	"epoch": 1.0096,
	"grad_norm": 0.5228406163032586,
	"learning_rate": 1.6777624459270099e-06,
	"loss": 0.0096,
	"step": 947
	},
	{
	"epoch": 1.0106666666666666,
	"grad_norm": 0.07932404354364939,
	"learning_rate": 1.6768485372173696e-06,
	"loss": 0.001,
	"step": 948
	},
	{
	"epoch": 1.0117333333333334,
	"grad_norm": 0.7272162639399672,
	"learning_rate": 1.6759335840436088e-06,
	"loss": 0.0338,
	"step": 949
	},
	{
	"epoch": 1.0128,
	"grad_norm": 0.1325222502866181,
	"learning_rate": 1.675017587817618e-06,
	"loss": 0.006,
	"step": 950
	},
	{
	"epoch": 1.0128,
	"eval_loss": 0.05511786788702011,
	"eval_runtime": 8.3359,
	"eval_samples_per_second": 11.996,
	"eval_steps_per_second": 5.998,
	"step": 950
	},
	{
	"epoch": 1.0138666666666667,
	"grad_norm": 0.2851585922035912,
	"learning_rate": 1.674100549952897e-06,
	"loss": 0.003,
	"step": 951
	},
	{
	"epoch": 1.0149333333333332,
	"grad_norm": 0.1635246987897608,
	"learning_rate": 1.6731824718645523e-06,
	"loss": 0.0123,
	"step": 952
	},
	{
	"epoch": 1.016,
	"grad_norm": 0.9554459164625243,
	"learning_rate": 1.672263354969297e-06,
	"loss": 0.0239,
	"step": 953
	},
	{
	"epoch": 1.0170666666666666,
	"grad_norm": 0.6049818674300176,
	"learning_rate": 1.671343200685446e-06,
	"loss": 0.0368,
	"step": 954
	},
	{
	"epoch": 1.0181333333333333,
	"grad_norm": 1.2174111129081242,
	"learning_rate": 1.6704220104329153e-06,
	"loss": 0.0089,
	"step": 955
	},
	{
	"epoch": 1.0192,
	"grad_norm": 0.09893112075059436,
	"learning_rate": 1.6694997856332194e-06,
	"loss": 0.0023,
	"step": 956
	},
	{
	"epoch": 1.0202666666666667,
	"grad_norm": 0.09001324637021094,
	"learning_rate": 1.6685765277094698e-06,
	"loss": 0.014,
	"step": 957
	},
	{
	"epoch": 1.0213333333333334,
	"grad_norm": 0.6901973285139684,
	"learning_rate": 1.6676522380863718e-06,
	"loss": 0.0026,
	"step": 958
	},
	{
	"epoch": 1.0224,
	"grad_norm": 0.059717251369744574,
	"learning_rate": 1.6667269181902234e-06,
	"loss": 0.0059,
	"step": 959
	},
	{
	"epoch": 1.0234666666666667,
	"grad_norm": 0.3083472218723695,
	"learning_rate": 1.6658005694489108e-06,
	"loss": 0.0044,
	"step": 960
	},
	{
	"epoch": 1.0245333333333333,
	"grad_norm": 1.2387887367525359,
	"learning_rate": 1.66487319329191e-06,
	"loss": 0.067,
	"step": 961
	},
	{
	"epoch": 1.0256,
	"grad_norm": 0.05958218523488344,
	"learning_rate": 1.6639447911502806e-06,
	"loss": 0.0038,
	"step": 962
	},
	{
	"epoch": 1.0266666666666666,
	"grad_norm": 0.25803312922414584,
	"learning_rate": 1.6630153644566666e-06,
	"loss": 0.0022,
	"step": 963
	},
	{
	"epoch": 1.0277333333333334,
	"grad_norm": 0.13407512286627216,
	"learning_rate": 1.6620849146452928e-06,
	"loss": 0.0014,
	"step": 964
	},
	{
	"epoch": 1.0288,
	"grad_norm": 0.9967498197509435,
	"learning_rate": 1.6611534431519622e-06,
	"loss": 0.0098,
	"step": 965
	},
	{
	"epoch": 1.0298666666666667,
	"grad_norm": 0.04855423463199995,
	"learning_rate": 1.6602209514140548e-06,
	"loss": 0.0021,
	"step": 966
	},
	{
	"epoch": 1.0309333333333333,
	"grad_norm": 0.9190388514477494,
	"learning_rate": 1.6592874408705253e-06,
	"loss": 0.0249,
	"step": 967
	},
	{
	"epoch": 1.032,
	"grad_norm": 0.15521259953012823,
	"learning_rate": 1.6583529129619003e-06,
	"loss": 0.0035,
	"step": 968
	},
	{
	"epoch": 1.0330666666666666,
	"grad_norm": 0.0739501147905464,
	"learning_rate": 1.6574173691302758e-06,
	"loss": 0.0207,
	"step": 969
	},
	{
	"epoch": 1.0341333333333333,
	"grad_norm": 0.48810685041497015,
	"learning_rate": 1.6564808108193163e-06,
	"loss": 0.0007,
	"step": 970
	},
	{
	"epoch": 1.0352,
	"grad_norm": 0.07637320025474216,
	"learning_rate": 1.6555432394742511e-06,
	"loss": 0.0064,
	"step": 971
	},
	{
	"epoch": 1.0362666666666667,
	"grad_norm": 0.39526147128400013,
	"learning_rate": 1.6546046565418732e-06,
	"loss": 0.0022,
	"step": 972
	},
	{
	"epoch": 1.0373333333333334,
	"grad_norm": 0.33979283542891386,
	"learning_rate": 1.6536650634705365e-06,
	"loss": 0.0076,
	"step": 973
	},
	{
	"epoch": 1.0384,
	"grad_norm": 1.8339909658885087,
	"learning_rate": 1.6527244617101537e-06,
	"loss": 0.0351,
	"step": 974
	},
	{
	"epoch": 1.0394666666666668,
	"grad_norm": 0.32217927046265177,
	"learning_rate": 1.651782852712194e-06,
	"loss": 0.0006,
	"step": 975
	},
	{
	"epoch": 1.0405333333333333,
	"grad_norm": 0.28508392541225847,
	"learning_rate": 1.6508402379296808e-06,
	"loss": 0.0043,
	"step": 976
	},
	{
	"epoch": 1.0416,
	"grad_norm": 0.037354972250637136,
	"learning_rate": 1.6498966188171895e-06,
	"loss": 0.0031,
	"step": 977
	},
	{
	"epoch": 1.0426666666666666,
	"grad_norm": 0.7166489206167719,
	"learning_rate": 1.6489519968308457e-06,
	"loss": 0.0641,
	"step": 978
	},
	{
	"epoch": 1.0437333333333334,
	"grad_norm": 1.0515466328685,
	"learning_rate": 1.648006373428322e-06,
	"loss": 0.01,
	"step": 979
	},
	{
	"epoch": 1.0448,
	"grad_norm": 0.936126382450395,
	"learning_rate": 1.6470597500688369e-06,
	"loss": 0.0066,
	"step": 980
	},
	{
	"epoch": 1.0458666666666667,
	"grad_norm": 0.06579766473780263,
	"learning_rate": 1.6461121282131516e-06,
	"loss": 0.0022,
	"step": 981
	},
	{
	"epoch": 1.0469333333333333,
	"grad_norm": 0.09021244626430282,
	"learning_rate": 1.6451635093235683e-06,
	"loss": 0.0011,
	"step": 982
	},
	{
	"epoch": 1.048,
	"grad_norm": 0.01025702341477458,
	"learning_rate": 1.644213894863927e-06,
	"loss": 0.0003,
	"step": 983
	},
	{
	"epoch": 1.0490666666666666,
	"grad_norm": 1.3151879642844628,
	"learning_rate": 1.6432632862996055e-06,
	"loss": 0.0263,
	"step": 984
	},
	{
	"epoch": 1.0501333333333334,
	"grad_norm": 0.9276898564205044,
	"learning_rate": 1.6423116850975145e-06,
	"loss": 0.0079,
	"step": 985
	},
	{
	"epoch": 1.0512,
	"grad_norm": 0.02947729014406564,
	"learning_rate": 1.641359092726096e-06,
	"loss": 0.0018,
	"step": 986
	},
	{
	"epoch": 1.0522666666666667,
	"grad_norm": 0.19598979775248843,
	"learning_rate": 1.6404055106553234e-06,
	"loss": 0.0009,
	"step": 987
	},
	{
	"epoch": 1.0533333333333332,
	"grad_norm": 1.8171369166805973,
	"learning_rate": 1.6394509403566952e-06,
	"loss": 0.0308,
	"step": 988
	},
	{
	"epoch": 1.0544,
	"grad_norm": 0.7848075693667415,
	"learning_rate": 1.6384953833032367e-06,
	"loss": 0.0279,
	"step": 989
	},
	{
	"epoch": 1.0554666666666668,
	"grad_norm": 0.04284710379550343,
	"learning_rate": 1.637538840969494e-06,
	"loss": 0.0005,
	"step": 990
	},
	{
	"epoch": 1.0565333333333333,
	"grad_norm": 0.03007223360486748,
	"learning_rate": 1.6365813148315355e-06,
	"loss": 0.0007,
	"step": 991
	},
	{
	"epoch": 1.0576,
	"grad_norm": 0.01899139669637451,
	"learning_rate": 1.6356228063669465e-06,
	"loss": 0.0005,
	"step": 992
	},
	{
	"epoch": 1.0586666666666666,
	"grad_norm": 0.11346226457614883,
	"learning_rate": 1.6346633170548287e-06,
	"loss": 0.0014,
	"step": 993
	},
	{
	"epoch": 1.0597333333333334,
	"grad_norm": 0.04943624657920941,
	"learning_rate": 1.6337028483757966e-06,
	"loss": 0.0009,
	"step": 994
	},
	{
	"epoch": 1.0608,
	"grad_norm": 0.015138645630175255,
	"learning_rate": 1.6327414018119774e-06,
	"loss": 0.0009,
	"step": 995
	},
	{
	"epoch": 1.0618666666666667,
	"grad_norm": 1.4799218601071658,
	"learning_rate": 1.631778978847006e-06,
	"loss": 0.014,
	"step": 996
	},
	{
	"epoch": 1.0629333333333333,
	"grad_norm": 1.2249010640123865,
	"learning_rate": 1.6308155809660247e-06,
	"loss": 0.0121,
	"step": 997
	},
	{
	"epoch": 1.064,
	"grad_norm": 1.021197338464407,
	"learning_rate": 1.6298512096556795e-06,
	"loss": 0.0632,
	"step": 998
	},
	{
	"epoch": 1.0650666666666666,
	"grad_norm": 0.4954690700310796,
	"learning_rate": 1.6288858664041198e-06,
	"loss": 0.0003,
	"step": 999
	},
	{
	"epoch": 1.0661333333333334,
	"grad_norm": 0.20535195318024518,
	"learning_rate": 1.6279195527009938e-06,
	"loss": 0.0203,
	"step": 1000
	},
	{
	"epoch": 1.0661333333333334,
	"eval_loss": 0.09908830374479294,
	"eval_runtime": 8.2885,
	"eval_samples_per_second": 12.065,
	"eval_steps_per_second": 6.032,
	"step": 1000
	}
	],
	"logging_steps": 1,
	"max_steps": 2811,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 250,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2259115302912.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}