ziyang / trainer_state.json

Upload folder using huggingface_hub

e2ad9bf verified 25 days ago

52.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.989937106918239,
	"eval_steps": 50000,
	"global_step": 594,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.010062893081761006,
	"grad_norm": 1.6687748432159424,
	"learning_rate": 6.666666666666667e-08,
	"loss": 0.369,
	"step": 2
	},
	{
	"epoch": 0.02012578616352201,
	"grad_norm": 1.5292283296585083,
	"learning_rate": 1.3333333333333334e-07,
	"loss": 0.3732,
	"step": 4
	},
	{
	"epoch": 0.03018867924528302,
	"grad_norm": 1.5824713706970215,
	"learning_rate": 2e-07,
	"loss": -0.1619,
	"step": 6
	},
	{
	"epoch": 0.04025157232704402,
	"grad_norm": 4.105996608734131,
	"learning_rate": 2.6666666666666667e-07,
	"loss": 0.2398,
	"step": 8
	},
	{
	"epoch": 0.050314465408805034,
	"grad_norm": 1.4400302171707153,
	"learning_rate": 3.333333333333333e-07,
	"loss": -0.5621,
	"step": 10
	},
	{
	"epoch": 0.06037735849056604,
	"grad_norm": 2.3048486709594727,
	"learning_rate": 4e-07,
	"loss": -0.6602,
	"step": 12
	},
	{
	"epoch": 0.07044025157232704,
	"grad_norm": 2.4866607189178467,
	"learning_rate": 4.6666666666666666e-07,
	"loss": -1.24,
	"step": 14
	},
	{
	"epoch": 0.08050314465408805,
	"grad_norm": 3.4124677181243896,
	"learning_rate": 5.333333333333333e-07,
	"loss": 0.462,
	"step": 16
	},
	{
	"epoch": 0.09056603773584905,
	"grad_norm": 1.5936415195465088,
	"learning_rate": 6e-07,
	"loss": -0.0692,
	"step": 18
	},
	{
	"epoch": 0.10062893081761007,
	"grad_norm": 1.9987062215805054,
	"learning_rate": 6.666666666666666e-07,
	"loss": 0.5051,
	"step": 20
	},
	{
	"epoch": 0.11069182389937107,
	"grad_norm": 2.565603017807007,
	"learning_rate": 7.333333333333332e-07,
	"loss": -0.0248,
	"step": 22
	},
	{
	"epoch": 0.12075471698113208,
	"grad_norm": 3.2282676696777344,
	"learning_rate": 8e-07,
	"loss": -0.6335,
	"step": 24
	},
	{
	"epoch": 0.13081761006289308,
	"grad_norm": 1.868457555770874,
	"learning_rate": 8.666666666666667e-07,
	"loss": -0.8462,
	"step": 26
	},
	{
	"epoch": 0.14088050314465408,
	"grad_norm": 2.7205371856689453,
	"learning_rate": 9.333333333333333e-07,
	"loss": 2.6132,
	"step": 28
	},
	{
	"epoch": 0.1509433962264151,
	"grad_norm": 3.2904088497161865,
	"learning_rate": 1e-06,
	"loss": 0.4139,
	"step": 30
	},
	{
	"epoch": 0.1610062893081761,
	"grad_norm": 1.7929654121398926,
	"learning_rate": 1.0666666666666667e-06,
	"loss": 1.9297,
	"step": 32
	},
	{
	"epoch": 0.1710691823899371,
	"grad_norm": 2.788813591003418,
	"learning_rate": 1.1333333333333332e-06,
	"loss": -1.4279,
	"step": 34
	},
	{
	"epoch": 0.1811320754716981,
	"grad_norm": 1.792971134185791,
	"learning_rate": 1.2e-06,
	"loss": 0.1433,
	"step": 36
	},
	{
	"epoch": 0.19119496855345913,
	"grad_norm": 2.238489866256714,
	"learning_rate": 1.2666666666666665e-06,
	"loss": 0.3927,
	"step": 38
	},
	{
	"epoch": 0.20125786163522014,
	"grad_norm": 2.905518054962158,
	"learning_rate": 1.3333333333333332e-06,
	"loss": 1.079,
	"step": 40
	},
	{
	"epoch": 0.21132075471698114,
	"grad_norm": 1.6354607343673706,
	"learning_rate": 1.4e-06,
	"loss": 0.1258,
	"step": 42
	},
	{
	"epoch": 0.22138364779874214,
	"grad_norm": 2.0974748134613037,
	"learning_rate": 1.4666666666666665e-06,
	"loss": 0.0546,
	"step": 44
	},
	{
	"epoch": 0.23144654088050315,
	"grad_norm": 1.619780421257019,
	"learning_rate": 1.5333333333333334e-06,
	"loss": -1.0396,
	"step": 46
	},
	{
	"epoch": 0.24150943396226415,
	"grad_norm": 1.9667820930480957,
	"learning_rate": 1.6e-06,
	"loss": -0.4011,
	"step": 48
	},
	{
	"epoch": 0.25157232704402516,
	"grad_norm": 1.9112639427185059,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.8607,
	"step": 50
	},
	{
	"epoch": 0.26163522012578616,
	"grad_norm": 2.6148829460144043,
	"learning_rate": 1.7333333333333334e-06,
	"loss": 0.6988,
	"step": 52
	},
	{
	"epoch": 0.27169811320754716,
	"grad_norm": 2.6693756580352783,
	"learning_rate": 1.8e-06,
	"loss": -1.0175,
	"step": 54
	},
	{
	"epoch": 0.28176100628930817,
	"grad_norm": 2.0184097290039062,
	"learning_rate": 1.8666666666666667e-06,
	"loss": -0.1263,
	"step": 56
	},
	{
	"epoch": 0.2918238993710692,
	"grad_norm": 1.4805622100830078,
	"learning_rate": 1.933333333333333e-06,
	"loss": -0.4554,
	"step": 58
	},
	{
	"epoch": 0.3018867924528302,
	"grad_norm": 1.6097267866134644,
	"learning_rate": 2e-06,
	"loss": 0.5408,
	"step": 60
	},
	{
	"epoch": 0.3119496855345912,
	"grad_norm": 1.720683217048645,
	"learning_rate": 1.9999307783070657e-06,
	"loss": 1.3892,
	"step": 62
	},
	{
	"epoch": 0.3220125786163522,
	"grad_norm": 2.825670003890991,
	"learning_rate": 1.999723122811548e-06,
	"loss": 0.9162,
	"step": 64
	},
	{
	"epoch": 0.3320754716981132,
	"grad_norm": 2.550844430923462,
	"learning_rate": 1.9993770622619783e-06,
	"loss": -0.1783,
	"step": 66
	},
	{
	"epoch": 0.3421383647798742,
	"grad_norm": 2.4842543601989746,
	"learning_rate": 1.998892644568149e-06,
	"loss": -1.0679,
	"step": 68
	},
	{
	"epoch": 0.3522012578616352,
	"grad_norm": 1.9450500011444092,
	"learning_rate": 1.9982699367944866e-06,
	"loss": 1.4075,
	"step": 70
	},
	{
	"epoch": 0.3622641509433962,
	"grad_norm": 2.419877052307129,
	"learning_rate": 1.9975090251507638e-06,
	"loss": -0.5993,
	"step": 72
	},
	{
	"epoch": 0.3723270440251572,
	"grad_norm": 1.7247552871704102,
	"learning_rate": 1.9966100149801647e-06,
	"loss": 1.2249,
	"step": 74
	},
	{
	"epoch": 0.38238993710691827,
	"grad_norm": 2.8694651126861572,
	"learning_rate": 1.995573030744701e-06,
	"loss": 0.279,
	"step": 76
	},
	{
	"epoch": 0.39245283018867927,
	"grad_norm": 3.444533586502075,
	"learning_rate": 1.994398216007982e-06,
	"loss": 2.4944,
	"step": 78
	},
	{
	"epoch": 0.4025157232704403,
	"grad_norm": 1.145507574081421,
	"learning_rate": 1.993085733415337e-06,
	"loss": -0.0775,
	"step": 80
	},
	{
	"epoch": 0.4125786163522013,
	"grad_norm": 2.018376111984253,
	"learning_rate": 1.9916357646713006e-06,
	"loss": -0.1244,
	"step": 82
	},
	{
	"epoch": 0.4226415094339623,
	"grad_norm": 3.317014694213867,
	"learning_rate": 1.9900485105144544e-06,
	"loss": -0.5761,
	"step": 84
	},
	{
	"epoch": 0.4327044025157233,
	"grad_norm": 1.426088809967041,
	"learning_rate": 1.9883241906896385e-06,
	"loss": 1.364,
	"step": 86
	},
	{
	"epoch": 0.4427672955974843,
	"grad_norm": 2.031130790710449,
	"learning_rate": 1.986463043917528e-06,
	"loss": 0.9214,
	"step": 88
	},
	{
	"epoch": 0.4528301886792453,
	"grad_norm": 2.133758068084717,
	"learning_rate": 1.984465327861583e-06,
	"loss": -1.4531,
	"step": 90
	},
	{
	"epoch": 0.4628930817610063,
	"grad_norm": 2.5162205696105957,
	"learning_rate": 1.9823313190923794e-06,
	"loss": -0.7078,
	"step": 92
	},
	{
	"epoch": 0.4729559748427673,
	"grad_norm": 1.5902796983718872,
	"learning_rate": 1.980061313049315e-06,
	"loss": -1.3553,
	"step": 94
	},
	{
	"epoch": 0.4830188679245283,
	"grad_norm": 2.366024971008301,
	"learning_rate": 1.9776556239997142e-06,
	"loss": 0.4744,
	"step": 96
	},
	{
	"epoch": 0.4930817610062893,
	"grad_norm": 2.211918354034424,
	"learning_rate": 1.975114584995313e-06,
	"loss": 0.532,
	"step": 98
	},
	{
	"epoch": 0.5031446540880503,
	"grad_norm": 1.664931058883667,
	"learning_rate": 1.972438547826156e-06,
	"loss": -0.5974,
	"step": 100
	},
	{
	"epoch": 0.5132075471698113,
	"grad_norm": 2.5771172046661377,
	"learning_rate": 1.969627882971888e-06,
	"loss": -0.4213,
	"step": 102
	},
	{
	"epoch": 0.5232704402515723,
	"grad_norm": 3.083601236343384,
	"learning_rate": 1.9666829795504693e-06,
	"loss": -1.491,
	"step": 104
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 3.069186210632324,
	"learning_rate": 1.9636042452643e-06,
	"loss": -0.6719,
	"step": 106
	},
	{
	"epoch": 0.5433962264150943,
	"grad_norm": 1.642295479774475,
	"learning_rate": 1.960392106343779e-06,
	"loss": -0.8876,
	"step": 108
	},
	{
	"epoch": 0.5534591194968553,
	"grad_norm": 2.7487986087799072,
	"learning_rate": 1.9570470074882946e-06,
	"loss": -0.8838,
	"step": 110
	},
	{
	"epoch": 0.5635220125786163,
	"grad_norm": 4.342981338500977,
	"learning_rate": 1.9535694118046583e-06,
	"loss": 0.6486,
	"step": 112
	},
	{
	"epoch": 0.5735849056603773,
	"grad_norm": 2.6165924072265625,
	"learning_rate": 1.949959800742991e-06,
	"loss": 0.901,
	"step": 114
	},
	{
	"epoch": 0.5836477987421383,
	"grad_norm": 3.7529544830322266,
	"learning_rate": 1.9462186740300695e-06,
	"loss": -1.5828,
	"step": 116
	},
	{
	"epoch": 0.5937106918238994,
	"grad_norm": 0.95662921667099,
	"learning_rate": 1.942346549600144e-06,
	"loss": -1.2115,
	"step": 118
	},
	{
	"epoch": 0.6037735849056604,
	"grad_norm": 3.2608375549316406,
	"learning_rate": 1.9383439635232293e-06,
	"loss": 1.1846,
	"step": 120
	},
	{
	"epoch": 0.6138364779874214,
	"grad_norm": 2.937685966491699,
	"learning_rate": 1.9342114699308956e-06,
	"loss": 0.5849,
	"step": 122
	},
	{
	"epoch": 0.6238993710691824,
	"grad_norm": 3.030308485031128,
	"learning_rate": 1.929949640939548e-06,
	"loss": 1.0768,
	"step": 124
	},
	{
	"epoch": 0.6339622641509434,
	"grad_norm": 1.6450515985488892,
	"learning_rate": 1.925559066571221e-06,
	"loss": -0.815,
	"step": 126
	},
	{
	"epoch": 0.6440251572327044,
	"grad_norm": 4.359044075012207,
	"learning_rate": 1.9210403546718966e-06,
	"loss": 1.4768,
	"step": 128
	},
	{
	"epoch": 0.6540880503144654,
	"grad_norm": 2.591158628463745,
	"learning_rate": 1.91639413082735e-06,
	"loss": 0.4688,
	"step": 130
	},
	{
	"epoch": 0.6641509433962264,
	"grad_norm": 3.594324827194214,
	"learning_rate": 1.9116210382765418e-06,
	"loss": -0.4207,
	"step": 132
	},
	{
	"epoch": 0.6742138364779874,
	"grad_norm": 4.136204242706299,
	"learning_rate": 1.9067217378225652e-06,
	"loss": -1.2546,
	"step": 134
	},
	{
	"epoch": 0.6842767295597484,
	"grad_norm": 3.1914331912994385,
	"learning_rate": 1.9016969077411645e-06,
	"loss": -1.6023,
	"step": 136
	},
	{
	"epoch": 0.6943396226415094,
	"grad_norm": 2.6611359119415283,
	"learning_rate": 1.8965472436868284e-06,
	"loss": 0.0919,
	"step": 138
	},
	{
	"epoch": 0.7044025157232704,
	"grad_norm": 3.068580150604248,
	"learning_rate": 1.8912734585964855e-06,
	"loss": 0.3057,
	"step": 140
	},
	{
	"epoch": 0.7144654088050314,
	"grad_norm": 7.307640552520752,
	"learning_rate": 1.8858762825907997e-06,
	"loss": 1.6571,
	"step": 142
	},
	{
	"epoch": 0.7245283018867924,
	"grad_norm": 2.129241943359375,
	"learning_rate": 1.8803564628730913e-06,
	"loss": 0.5422,
	"step": 144
	},
	{
	"epoch": 0.7345911949685534,
	"grad_norm": 3.773325204849243,
	"learning_rate": 1.8747147636258916e-06,
	"loss": 0.7144,
	"step": 146
	},
	{
	"epoch": 0.7446540880503144,
	"grad_norm": 1.3420393466949463,
	"learning_rate": 1.8689519659051466e-06,
	"loss": -1.1075,
	"step": 148
	},
	{
	"epoch": 0.7547169811320755,
	"grad_norm": 6.70538854598999,
	"learning_rate": 1.8630688675320841e-06,
	"loss": -1.9595,
	"step": 150
	},
	{
	"epoch": 0.7647798742138365,
	"grad_norm": 4.187305927276611,
	"learning_rate": 1.857066282982763e-06,
	"loss": -0.5234,
	"step": 152
	},
	{
	"epoch": 0.7748427672955975,
	"grad_norm": 2.975940465927124,
	"learning_rate": 1.850945043275312e-06,
	"loss": -0.3984,
	"step": 154
	},
	{
	"epoch": 0.7849056603773585,
	"grad_norm": 2.44286847114563,
	"learning_rate": 1.844705995854882e-06,
	"loss": 1.109,
	"step": 156
	},
	{
	"epoch": 0.7949685534591195,
	"grad_norm": 12.523564338684082,
	"learning_rate": 1.8383500044763226e-06,
	"loss": -2.0379,
	"step": 158
	},
	{
	"epoch": 0.8050314465408805,
	"grad_norm": 4.5152716636657715,
	"learning_rate": 1.8318779490846e-06,
	"loss": -0.6498,
	"step": 160
	},
	{
	"epoch": 0.8150943396226416,
	"grad_norm": 2.565892457962036,
	"learning_rate": 1.8252907256929774e-06,
	"loss": 0.039,
	"step": 162
	},
	{
	"epoch": 0.8251572327044026,
	"grad_norm": 3.789813756942749,
	"learning_rate": 1.8185892462589636e-06,
	"loss": -0.0521,
	"step": 164
	},
	{
	"epoch": 0.8352201257861636,
	"grad_norm": 4.709334373474121,
	"learning_rate": 1.8117744385580623e-06,
	"loss": -0.7899,
	"step": 166
	},
	{
	"epoch": 0.8452830188679246,
	"grad_norm": 2.444716453552246,
	"learning_rate": 1.8048472460553256e-06,
	"loss": 0.2275,
	"step": 168
	},
	{
	"epoch": 0.8553459119496856,
	"grad_norm": 2.314274549484253,
	"learning_rate": 1.7978086277747379e-06,
	"loss": -0.9168,
	"step": 170
	},
	{
	"epoch": 0.8654088050314466,
	"grad_norm": 3.4260716438293457,
	"learning_rate": 1.7906595581664461e-06,
	"loss": -0.6274,
	"step": 172
	},
	{
	"epoch": 0.8754716981132076,
	"grad_norm": 2.7144453525543213,
	"learning_rate": 1.7834010269718524e-06,
	"loss": -0.9649,
	"step": 174
	},
	{
	"epoch": 0.8855345911949686,
	"grad_norm": 3.8050897121429443,
	"learning_rate": 1.7760340390865917e-06,
	"loss": -0.262,
	"step": 176
	},
	{
	"epoch": 0.8955974842767296,
	"grad_norm": 2.8164639472961426,
	"learning_rate": 1.7685596144214107e-06,
	"loss": -1.1909,
	"step": 178
	},
	{
	"epoch": 0.9056603773584906,
	"grad_norm": 4.633458614349365,
	"learning_rate": 1.7609787877609676e-06,
	"loss": 0.4428,
	"step": 180
	},
	{
	"epoch": 0.9157232704402516,
	"grad_norm": 2.8389792442321777,
	"learning_rate": 1.7532926086205726e-06,
	"loss": -0.5821,
	"step": 182
	},
	{
	"epoch": 0.9257861635220126,
	"grad_norm": 2.226238965988159,
	"learning_rate": 1.7455021411008906e-06,
	"loss": 0.3515,
	"step": 184
	},
	{
	"epoch": 0.9358490566037736,
	"grad_norm": 2.591329336166382,
	"learning_rate": 1.737608463740622e-06,
	"loss": -0.306,
	"step": 186
	},
	{
	"epoch": 0.9459119496855346,
	"grad_norm": 3.7576334476470947,
	"learning_rate": 1.7296126693671882e-06,
	"loss": 0.1704,
	"step": 188
	},
	{
	"epoch": 0.9559748427672956,
	"grad_norm": 2.887920618057251,
	"learning_rate": 1.7215158649454346e-06,
	"loss": -0.2494,
	"step": 190
	},
	{
	"epoch": 0.9660377358490566,
	"grad_norm": 4.349538326263428,
	"learning_rate": 1.7133191714243802e-06,
	"loss": 2.3405,
	"step": 192
	},
	{
	"epoch": 0.9761006289308176,
	"grad_norm": 4.317368984222412,
	"learning_rate": 1.7050237235820287e-06,
	"loss": 0.4566,
	"step": 194
	},
	{
	"epoch": 0.9861635220125786,
	"grad_norm": 5.087897300720215,
	"learning_rate": 1.696630669868267e-06,
	"loss": 0.1502,
	"step": 196
	},
	{
	"epoch": 0.9962264150943396,
	"grad_norm": 4.70991325378418,
	"learning_rate": 1.6881411722458687e-06,
	"loss": -0.3574,
	"step": 198
	},
	{
	"epoch": 1.0069182389937108,
	"grad_norm": 2.966017007827759,
	"learning_rate": 1.6795564060296292e-06,
	"loss": 0.9311,
	"step": 200
	},
	{
	"epoch": 1.0169811320754718,
	"grad_norm": 2.300924777984619,
	"learning_rate": 1.6708775597236505e-06,
	"loss": 0.2717,
	"step": 202
	},
	{
	"epoch": 1.0270440251572328,
	"grad_norm": 6.384905815124512,
	"learning_rate": 1.6621058348568004e-06,
	"loss": -0.0504,
	"step": 204
	},
	{
	"epoch": 1.0371069182389938,
	"grad_norm": 4.002950668334961,
	"learning_rate": 1.6532424458163691e-06,
	"loss": -0.2334,
	"step": 206
	},
	{
	"epoch": 1.0471698113207548,
	"grad_norm": 12.800736427307129,
	"learning_rate": 1.6442886196799464e-06,
	"loss": -1.2455,
	"step": 208
	},
	{
	"epoch": 1.0572327044025158,
	"grad_norm": 5.464755535125732,
	"learning_rate": 1.6352455960455384e-06,
	"loss": 1.8264,
	"step": 210
	},
	{
	"epoch": 1.0672955974842768,
	"grad_norm": 5.672085762023926,
	"learning_rate": 1.6261146268599562e-06,
	"loss": -1.0013,
	"step": 212
	},
	{
	"epoch": 1.0773584905660378,
	"grad_norm": 4.908372402191162,
	"learning_rate": 1.6168969762454894e-06,
	"loss": -1.0382,
	"step": 214
	},
	{
	"epoch": 1.0874213836477988,
	"grad_norm": 7.087652683258057,
	"learning_rate": 1.607593920324899e-06,
	"loss": -0.4295,
	"step": 216
	},
	{
	"epoch": 1.0974842767295598,
	"grad_norm": 3.5187363624572754,
	"learning_rate": 1.5982067470447458e-06,
	"loss": -0.0398,
	"step": 218
	},
	{
	"epoch": 1.1075471698113208,
	"grad_norm": 2.593596935272217,
	"learning_rate": 1.5887367559970822e-06,
	"loss": 0.7915,
	"step": 220
	},
	{
	"epoch": 1.1176100628930818,
	"grad_norm": 6.099729061126709,
	"learning_rate": 1.5791852582395332e-06,
	"loss": -1.0834,
	"step": 222
	},
	{
	"epoch": 1.1276729559748428,
	"grad_norm": 6.590648174285889,
	"learning_rate": 1.5695535761137888e-06,
	"loss": 0.9158,
	"step": 224
	},
	{
	"epoch": 1.1377358490566039,
	"grad_norm": 5.639819145202637,
	"learning_rate": 1.5598430430625333e-06,
	"loss": -1.5288,
	"step": 226
	},
	{
	"epoch": 1.1477987421383649,
	"grad_norm": 3.02219820022583,
	"learning_rate": 1.550055003444841e-06,
	"loss": -0.0297,
	"step": 228
	},
	{
	"epoch": 1.1578616352201259,
	"grad_norm": 6.338824272155762,
	"learning_rate": 1.5401908123500586e-06,
	"loss": -0.7611,
	"step": 230
	},
	{
	"epoch": 1.1679245283018869,
	"grad_norm": 3.917799949645996,
	"learning_rate": 1.530251835410199e-06,
	"loss": 0.4777,
	"step": 232
	},
	{
	"epoch": 1.1779874213836479,
	"grad_norm": 6.309770584106445,
	"learning_rate": 1.520239448610882e-06,
	"loss": 1.729,
	"step": 234
	},
	{
	"epoch": 1.1880503144654089,
	"grad_norm": 1.9973816871643066,
	"learning_rate": 1.5101550381008375e-06,
	"loss": -1.5997,
	"step": 236
	},
	{
	"epoch": 1.1981132075471699,
	"grad_norm": 6.434890270233154,
	"learning_rate": 1.5e-06,
	"loss": -1.5788,
	"step": 238
	},
	{
	"epoch": 1.2081761006289309,
	"grad_norm": 2.8913328647613525,
	"learning_rate": 1.4897757402062284e-06,
	"loss": 0.2666,
	"step": 240
	},
	{
	"epoch": 1.2182389937106919,
	"grad_norm": 5.833925724029541,
	"learning_rate": 1.4794836742006664e-06,
	"loss": 0.969,
	"step": 242
	},
	{
	"epoch": 1.228301886792453,
	"grad_norm": 3.047639846801758,
	"learning_rate": 1.4691252268517794e-06,
	"loss": -0.7864,
	"step": 244
	},
	{
	"epoch": 1.238364779874214,
	"grad_norm": 11.185049057006836,
	"learning_rate": 1.4587018322180904e-06,
	"loss": -1.8447,
	"step": 246
	},
	{
	"epoch": 1.248427672955975,
	"grad_norm": 3.9488909244537354,
	"learning_rate": 1.4482149333496455e-06,
	"loss": 1.3762,
	"step": 248
	},
	{
	"epoch": 1.258490566037736,
	"grad_norm": 8.695211410522461,
	"learning_rate": 1.4376659820882306e-06,
	"loss": 2.1336,
	"step": 250
	},
	{
	"epoch": 1.268553459119497,
	"grad_norm": 6.01567268371582,
	"learning_rate": 1.427056438866376e-06,
	"loss": -0.8317,
	"step": 252
	},
	{
	"epoch": 1.278616352201258,
	"grad_norm": 4.584295272827148,
	"learning_rate": 1.4163877725051677e-06,
	"loss": 0.409,
	"step": 254
	},
	{
	"epoch": 1.288679245283019,
	"grad_norm": 5.3349480628967285,
	"learning_rate": 1.4056614600108995e-06,
	"loss": 0.106,
	"step": 256
	},
	{
	"epoch": 1.29874213836478,
	"grad_norm": 2.8550000190734863,
	"learning_rate": 1.3948789863705913e-06,
	"loss": 0.6895,
	"step": 258
	},
	{
	"epoch": 1.308805031446541,
	"grad_norm": 6.208876132965088,
	"learning_rate": 1.3840418443464013e-06,
	"loss": -0.5366,
	"step": 260
	},
	{
	"epoch": 1.318867924528302,
	"grad_norm": 4.392048358917236,
	"learning_rate": 1.3731515342689651e-06,
	"loss": 0.9175,
	"step": 262
	},
	{
	"epoch": 1.328930817610063,
	"grad_norm": 5.677616596221924,
	"learning_rate": 1.3622095638296825e-06,
	"loss": -0.8256,
	"step": 264
	},
	{
	"epoch": 1.338993710691824,
	"grad_norm": 3.6334376335144043,
	"learning_rate": 1.3512174478719892e-06,
	"loss": -1.949,
	"step": 266
	},
	{
	"epoch": 1.349056603773585,
	"grad_norm": 4.466569423675537,
	"learning_rate": 1.3401767081816368e-06,
	"loss": 1.0635,
	"step": 268
	},
	{
	"epoch": 1.359119496855346,
	"grad_norm": 6.331056594848633,
	"learning_rate": 1.32908887327601e-06,
	"loss": -0.801,
	"step": 270
	},
	{
	"epoch": 1.369182389937107,
	"grad_norm": 5.03653621673584,
	"learning_rate": 1.317955478192515e-06,
	"loss": -0.2086,
	"step": 272
	},
	{
	"epoch": 1.379245283018868,
	"grad_norm": 2.39367413520813,
	"learning_rate": 1.3067780642760637e-06,
	"loss": -1.0548,
	"step": 274
	},
	{
	"epoch": 1.389308176100629,
	"grad_norm": 6.588123321533203,
	"learning_rate": 1.295558178965684e-06,
	"loss": 1.0341,
	"step": 276
	},
	{
	"epoch": 1.39937106918239,
	"grad_norm": 3.3789021968841553,
	"learning_rate": 1.284297375580287e-06,
	"loss": -0.1079,
	"step": 278
	},
	{
	"epoch": 1.409433962264151,
	"grad_norm": 4.275945663452148,
	"learning_rate": 1.272997213103621e-06,
	"loss": 1.3644,
	"step": 280
	},
	{
	"epoch": 1.419496855345912,
	"grad_norm": 5.876030921936035,
	"learning_rate": 1.2616592559684408e-06,
	"loss": -1.5156,
	"step": 282
	},
	{
	"epoch": 1.429559748427673,
	"grad_norm": 3.4462649822235107,
	"learning_rate": 1.2502850738399199e-06,
	"loss": 0.2908,
	"step": 284
	},
	{
	"epoch": 1.439622641509434,
	"grad_norm": 3.7064943313598633,
	"learning_rate": 1.2388762413983444e-06,
	"loss": -1.058,
	"step": 286
	},
	{
	"epoch": 1.449685534591195,
	"grad_norm": 4.951382637023926,
	"learning_rate": 1.2274343381211066e-06,
	"loss": 0.4712,
	"step": 288
	},
	{
	"epoch": 1.459748427672956,
	"grad_norm": 4.248599052429199,
	"learning_rate": 1.215960948064036e-06,
	"loss": 0.1037,
	"step": 290
	},
	{
	"epoch": 1.469811320754717,
	"grad_norm": 4.509840488433838,
	"learning_rate": 1.2044576596421002e-06,
	"loss": 0.6964,
	"step": 292
	},
	{
	"epoch": 1.479874213836478,
	"grad_norm": 1.8829210996627808,
	"learning_rate": 1.1929260654094969e-06,
	"loss": -0.0571,
	"step": 294
	},
	{
	"epoch": 1.489937106918239,
	"grad_norm": 6.426050662994385,
	"learning_rate": 1.1813677618391757e-06,
	"loss": 0.5038,
	"step": 296
	},
	{
	"epoch": 1.5,
	"grad_norm": 3.1166653633117676,
	"learning_rate": 1.1697843491018187e-06,
	"loss": -1.3007,
	"step": 298
	},
	{
	"epoch": 1.510062893081761,
	"grad_norm": 2.824904680252075,
	"learning_rate": 1.1581774308443039e-06,
	"loss": 0.6687,
	"step": 300
	},
	{
	"epoch": 1.520125786163522,
	"grad_norm": 1.3138232231140137,
	"learning_rate": 1.1465486139676953e-06,
	"loss": 0.8043,
	"step": 302
	},
	{
	"epoch": 1.530188679245283,
	"grad_norm": 3.3225157260894775,
	"learning_rate": 1.1348995084047749e-06,
	"loss": 0.5529,
	"step": 304
	},
	{
	"epoch": 1.540251572327044,
	"grad_norm": 5.321311950683594,
	"learning_rate": 1.1232317268971584e-06,
	"loss": 0.1101,
	"step": 306
	},
	{
	"epoch": 1.550314465408805,
	"grad_norm": 10.030771255493164,
	"learning_rate": 1.1115468847720245e-06,
	"loss": -0.9142,
	"step": 308
	},
	{
	"epoch": 1.560377358490566,
	"grad_norm": 2.3845436573028564,
	"learning_rate": 1.0998465997184796e-06,
	"loss": 0.6053,
	"step": 310
	},
	{
	"epoch": 1.570440251572327,
	"grad_norm": 3.853327512741089,
	"learning_rate": 1.0881324915636018e-06,
	"loss": 0.1398,
	"step": 312
	},
	{
	"epoch": 1.580503144654088,
	"grad_norm": 2.7320926189422607,
	"learning_rate": 1.076406182048187e-06,
	"loss": -1.7586,
	"step": 314
	},
	{
	"epoch": 1.590566037735849,
	"grad_norm": 2.23327374458313,
	"learning_rate": 1.0646692946022285e-06,
	"loss": -0.8936,
	"step": 316
	},
	{
	"epoch": 1.60062893081761,
	"grad_norm": 6.662895679473877,
	"learning_rate": 1.0529234541201631e-06,
	"loss": 1.1678,
	"step": 318
	},
	{
	"epoch": 1.610691823899371,
	"grad_norm": 2.96289324760437,
	"learning_rate": 1.0411702867359178e-06,
	"loss": -0.3086,
	"step": 320
	},
	{
	"epoch": 1.620754716981132,
	"grad_norm": 2.9261276721954346,
	"learning_rate": 1.0294114195977794e-06,
	"loss": 0.7558,
	"step": 322
	},
	{
	"epoch": 1.630817610062893,
	"grad_norm": 3.917189598083496,
	"learning_rate": 1.0176484806431287e-06,
	"loss": 0.1406,
	"step": 324
	},
	{
	"epoch": 1.640880503144654,
	"grad_norm": 8.924764633178711,
	"learning_rate": 1.0058830983730622e-06,
	"loss": -3.2015,
	"step": 326
	},
	{
	"epoch": 1.650943396226415,
	"grad_norm": 3.501892328262329,
	"learning_rate": 9.94116901626938e-07,
	"loss": -1.6323,
	"step": 328
	},
	{
	"epoch": 1.661006289308176,
	"grad_norm": 2.972134828567505,
	"learning_rate": 9.823515193568714e-07,
	"loss": -1.4688,
	"step": 330
	},
	{
	"epoch": 1.671069182389937,
	"grad_norm": 6.309866428375244,
	"learning_rate": 9.705885804022205e-07,
	"loss": 0.4812,
	"step": 332
	},
	{
	"epoch": 1.681132075471698,
	"grad_norm": 4.435581207275391,
	"learning_rate": 9.588297132640824e-07,
	"loss": 0.0122,
	"step": 334
	},
	{
	"epoch": 1.691194968553459,
	"grad_norm": 4.168426513671875,
	"learning_rate": 9.470765458798368e-07,
	"loss": -0.787,
	"step": 336
	},
	{
	"epoch": 1.70125786163522,
	"grad_norm": 3.8862287998199463,
	"learning_rate": 9.353307053977715e-07,
	"loss": -0.3479,
	"step": 338
	},
	{
	"epoch": 1.711320754716981,
	"grad_norm": 4.058013439178467,
	"learning_rate": 9.23593817951813e-07,
	"loss": 0.7891,
	"step": 340
	},
	{
	"epoch": 1.721383647798742,
	"grad_norm": 9.581009864807129,
	"learning_rate": 9.118675084363985e-07,
	"loss": -0.5769,
	"step": 342
	},
	{
	"epoch": 1.731446540880503,
	"grad_norm": 4.200214862823486,
	"learning_rate": 9.001534002815207e-07,
	"loss": -1.3016,
	"step": 344
	},
	{
	"epoch": 1.741509433962264,
	"grad_norm": 2.9621429443359375,
	"learning_rate": 8.884531152279755e-07,
	"loss": -1.772,
	"step": 346
	},
	{
	"epoch": 1.751572327044025,
	"grad_norm": 3.36149001121521,
	"learning_rate": 8.767682731028414e-07,
	"loss": -0.7338,
	"step": 348
	},
	{
	"epoch": 1.761635220125786,
	"grad_norm": 3.888066053390503,
	"learning_rate": 8.651004915952252e-07,
	"loss": -0.5376,
	"step": 350
	},
	{
	"epoch": 1.771698113207547,
	"grad_norm": 2.9135375022888184,
	"learning_rate": 8.534513860323045e-07,
	"loss": -0.2755,
	"step": 352
	},
	{
	"epoch": 1.7817610062893081,
	"grad_norm": 2.2403316497802734,
	"learning_rate": 8.41822569155696e-07,
	"loss": -0.5882,
	"step": 354
	},
	{
	"epoch": 1.7918238993710691,
	"grad_norm": 6.112231731414795,
	"learning_rate": 8.302156508981815e-07,
	"loss": 0.1197,
	"step": 356
	},
	{
	"epoch": 1.8018867924528301,
	"grad_norm": 6.92394495010376,
	"learning_rate": 8.18632238160824e-07,
	"loss": 0.122,
	"step": 358
	},
	{
	"epoch": 1.8119496855345911,
	"grad_norm": 8.573149681091309,
	"learning_rate": 8.070739345905031e-07,
	"loss": -1.2034,
	"step": 360
	},
	{
	"epoch": 1.8220125786163521,
	"grad_norm": 3.436896562576294,
	"learning_rate": 7.955423403578997e-07,
	"loss": -0.336,
	"step": 362
	},
	{
	"epoch": 1.8320754716981131,
	"grad_norm": 3.0969924926757812,
	"learning_rate": 7.840390519359643e-07,
	"loss": -0.6976,
	"step": 364
	},
	{
	"epoch": 1.8421383647798741,
	"grad_norm": 3.821650266647339,
	"learning_rate": 7.725656618788937e-07,
	"loss": -1.231,
	"step": 366
	},
	{
	"epoch": 1.8522012578616351,
	"grad_norm": 3.3464226722717285,
	"learning_rate": 7.611237586016557e-07,
	"loss": 0.8503,
	"step": 368
	},
	{
	"epoch": 1.8622641509433961,
	"grad_norm": 3.881531238555908,
	"learning_rate": 7.497149261600802e-07,
	"loss": 0.3178,
	"step": 370
	},
	{
	"epoch": 1.8723270440251572,
	"grad_norm": 1.9269695281982422,
	"learning_rate": 7.383407440315595e-07,
	"loss": -0.2027,
	"step": 372
	},
	{
	"epoch": 1.8823899371069182,
	"grad_norm": 11.40230941772461,
	"learning_rate": 7.27002786896379e-07,
	"loss": -0.1666,
	"step": 374
	},
	{
	"epoch": 1.8924528301886792,
	"grad_norm": 2.309051752090454,
	"learning_rate": 7.157026244197131e-07,
	"loss": -0.0113,
	"step": 376
	},
	{
	"epoch": 1.9025157232704402,
	"grad_norm": 13.750130653381348,
	"learning_rate": 7.044418210343159e-07,
	"loss": -0.5592,
	"step": 378
	},
	{
	"epoch": 1.9125786163522012,
	"grad_norm": 2.372840166091919,
	"learning_rate": 6.932219357239361e-07,
	"loss": -0.173,
	"step": 380
	},
	{
	"epoch": 1.9226415094339622,
	"grad_norm": 11.330310821533203,
	"learning_rate": 6.820445218074848e-07,
	"loss": -1.36,
	"step": 382
	},
	{
	"epoch": 1.9327044025157232,
	"grad_norm": 7.450850009918213,
	"learning_rate": 6.7091112672399e-07,
	"loss": -1.447,
	"step": 384
	},
	{
	"epoch": 1.9427672955974842,
	"grad_norm": 12.863826751708984,
	"learning_rate": 6.598232918183631e-07,
	"loss": 1.0882,
	"step": 386
	},
	{
	"epoch": 1.9528301886792452,
	"grad_norm": 5.197085380554199,
	"learning_rate": 6.487825521280108e-07,
	"loss": -0.2821,
	"step": 388
	},
	{
	"epoch": 1.9628930817610062,
	"grad_norm": 2.8584909439086914,
	"learning_rate": 6.377904361703177e-07,
	"loss": 0.6447,
	"step": 390
	},
	{
	"epoch": 1.9729559748427672,
	"grad_norm": 9.712791442871094,
	"learning_rate": 6.26848465731035e-07,
	"loss": 1.5534,
	"step": 392
	},
	{
	"epoch": 1.9830188679245282,
	"grad_norm": 8.965962409973145,
	"learning_rate": 6.159581556535987e-07,
	"loss": 1.1777,
	"step": 394
	},
	{
	"epoch": 1.9930817610062892,
	"grad_norm": 2.6333396434783936,
	"learning_rate": 6.051210136294088e-07,
	"loss": 0.6377,
	"step": 396
	},
	{
	"epoch": 2.0037735849056606,
	"grad_norm": 4.632491588592529,
	"learning_rate": 5.943385399891003e-07,
	"loss": 0.7307,
	"step": 398
	},
	{
	"epoch": 2.0138364779874216,
	"grad_norm": 4.375370979309082,
	"learning_rate": 5.836122274948324e-07,
	"loss": 1.2132,
	"step": 400
	},
	{
	"epoch": 2.0238993710691826,
	"grad_norm": 3.335942268371582,
	"learning_rate": 5.729435611336239e-07,
	"loss": -0.5918,
	"step": 402
	},
	{
	"epoch": 2.0339622641509436,
	"grad_norm": 6.7062506675720215,
	"learning_rate": 5.623340179117694e-07,
	"loss": -0.9562,
	"step": 404
	},
	{
	"epoch": 2.0440251572327046,
	"grad_norm": 3.223489761352539,
	"learning_rate": 5.517850666503546e-07,
	"loss": 0.6964,
	"step": 406
	},
	{
	"epoch": 2.0540880503144656,
	"grad_norm": 7.602553367614746,
	"learning_rate": 5.412981677819093e-07,
	"loss": -2.6532,
	"step": 408
	},
	{
	"epoch": 2.0641509433962266,
	"grad_norm": 2.123918056488037,
	"learning_rate": 5.308747731482206e-07,
	"loss": -1.1065,
	"step": 410
	},
	{
	"epoch": 2.0742138364779876,
	"grad_norm": 5.430229187011719,
	"learning_rate": 5.20516325799334e-07,
	"loss": -0.7525,
	"step": 412
	},
	{
	"epoch": 2.0842767295597486,
	"grad_norm": 5.109172344207764,
	"learning_rate": 5.102242597937717e-07,
	"loss": -1.5795,
	"step": 414
	},
	{
	"epoch": 2.0943396226415096,
	"grad_norm": 3.5902011394500732,
	"learning_rate": 5.000000000000002e-07,
	"loss": -0.4448,
	"step": 416
	},
	{
	"epoch": 2.1044025157232706,
	"grad_norm": 3.8342630863189697,
	"learning_rate": 4.89844961899163e-07,
	"loss": -1.3424,
	"step": 418
	},
	{
	"epoch": 2.1144654088050316,
	"grad_norm": 5.093093395233154,
	"learning_rate": 4.797605513891178e-07,
	"loss": 0.6365,
	"step": 420
	},
	{
	"epoch": 2.1245283018867926,
	"grad_norm": 6.690524578094482,
	"learning_rate": 4.6974816458980116e-07,
	"loss": 0.0718,
	"step": 422
	},
	{
	"epoch": 2.1345911949685537,
	"grad_norm": 3.328261375427246,
	"learning_rate": 4.598091876499417e-07,
	"loss": -1.2867,
	"step": 424
	},
	{
	"epoch": 2.1446540880503147,
	"grad_norm": 2.5299105644226074,
	"learning_rate": 4.499449965551586e-07,
	"loss": -0.0399,
	"step": 426
	},
	{
	"epoch": 2.1547169811320757,
	"grad_norm": 7.731986045837402,
	"learning_rate": 4.401569569374668e-07,
	"loss": 0.4734,
	"step": 428
	},
	{
	"epoch": 2.1647798742138367,
	"grad_norm": 6.546573162078857,
	"learning_rate": 4.3044642388621144e-07,
	"loss": -0.9198,
	"step": 430
	},
	{
	"epoch": 2.1748427672955977,
	"grad_norm": 5.20041561126709,
	"learning_rate": 4.208147417604664e-07,
	"loss": 0.1999,
	"step": 432
	},
	{
	"epoch": 2.1849056603773587,
	"grad_norm": 7.04267692565918,
	"learning_rate": 4.1126324400291756e-07,
	"loss": -0.0014,
	"step": 434
	},
	{
	"epoch": 2.1949685534591197,
	"grad_norm": 1.8967030048370361,
	"learning_rate": 4.0179325295525426e-07,
	"loss": -0.4547,
	"step": 436
	},
	{
	"epoch": 2.2050314465408807,
	"grad_norm": 7.423833847045898,
	"learning_rate": 3.924060796751012e-07,
	"loss": 1.2133,
	"step": 438
	},
	{
	"epoch": 2.2150943396226417,
	"grad_norm": 5.08156156539917,
	"learning_rate": 3.83103023754511e-07,
	"loss": -0.5562,
	"step": 440
	},
	{
	"epoch": 2.2251572327044027,
	"grad_norm": 2.8167994022369385,
	"learning_rate": 3.738853731400439e-07,
	"loss": 0.1852,
	"step": 442
	},
	{
	"epoch": 2.2352201257861637,
	"grad_norm": 3.1104578971862793,
	"learning_rate": 3.6475440395446147e-07,
	"loss": -0.9611,
	"step": 444
	},
	{
	"epoch": 2.2452830188679247,
	"grad_norm": 2.3350167274475098,
	"learning_rate": 3.5571138032005365e-07,
	"loss": 0.3598,
	"step": 446
	},
	{
	"epoch": 2.2553459119496857,
	"grad_norm": 3.4781851768493652,
	"learning_rate": 3.4675755418363053e-07,
	"loss": 0.1132,
	"step": 448
	},
	{
	"epoch": 2.2654088050314467,
	"grad_norm": 5.0868706703186035,
	"learning_rate": 3.378941651431996e-07,
	"loss": 0.7901,
	"step": 450
	},
	{
	"epoch": 2.2754716981132077,
	"grad_norm": 4.737022876739502,
	"learning_rate": 3.291224402763495e-07,
	"loss": -0.5819,
	"step": 452
	},
	{
	"epoch": 2.2855345911949687,
	"grad_norm": 3.6209828853607178,
	"learning_rate": 3.2044359397037046e-07,
	"loss": -0.2148,
	"step": 454
	},
	{
	"epoch": 2.2955974842767297,
	"grad_norm": 6.26187801361084,
	"learning_rate": 3.118588277541312e-07,
	"loss": -0.7123,
	"step": 456
	},
	{
	"epoch": 2.3056603773584907,
	"grad_norm": 3.300475597381592,
	"learning_rate": 3.0336933013173305e-07,
	"loss": 0.3813,
	"step": 458
	},
	{
	"epoch": 2.3157232704402517,
	"grad_norm": 4.379162311553955,
	"learning_rate": 2.9497627641797106e-07,
	"loss": -0.9063,
	"step": 460
	},
	{
	"epoch": 2.3257861635220127,
	"grad_norm": 4.494270324707031,
	"learning_rate": 2.8668082857562004e-07,
	"loss": 0.7504,
	"step": 462
	},
	{
	"epoch": 2.3358490566037737,
	"grad_norm": 4.654480457305908,
	"learning_rate": 2.784841350545656e-07,
	"loss": -0.4204,
	"step": 464
	},
	{
	"epoch": 2.3459119496855347,
	"grad_norm": 3.090691089630127,
	"learning_rate": 2.7038733063281173e-07,
	"loss": 0.6562,
	"step": 466
	},
	{
	"epoch": 2.3559748427672957,
	"grad_norm": 3.110882520675659,
	"learning_rate": 2.623915362593778e-07,
	"loss": -0.6948,
	"step": 468
	},
	{
	"epoch": 2.3660377358490567,
	"grad_norm": 8.367574691772461,
	"learning_rate": 2.5449785889910956e-07,
	"loss": -1.445,
	"step": 470
	},
	{
	"epoch": 2.3761006289308177,
	"grad_norm": 1.8932026624679565,
	"learning_rate": 2.467073913794272e-07,
	"loss": 0.3359,
	"step": 472
	},
	{
	"epoch": 2.3861635220125788,
	"grad_norm": 4.765536785125732,
	"learning_rate": 2.3902121223903226e-07,
	"loss": -0.9514,
	"step": 474
	},
	{
	"epoch": 2.3962264150943398,
	"grad_norm": 4.574184894561768,
	"learning_rate": 2.3144038557858913e-07,
	"loss": 0.6839,
	"step": 476
	},
	{
	"epoch": 2.4062893081761008,
	"grad_norm": 6.006104469299316,
	"learning_rate": 2.2396596091340803e-07,
	"loss": 0.0796,
	"step": 478
	},
	{
	"epoch": 2.4163522012578618,
	"grad_norm": 4.098776340484619,
	"learning_rate": 2.1659897302814744e-07,
	"loss": -0.9333,
	"step": 480
	},
	{
	"epoch": 2.4264150943396228,
	"grad_norm": 4.418032646179199,
	"learning_rate": 2.0934044183355383e-07,
	"loss": -1.8508,
	"step": 482
	},
	{
	"epoch": 2.4364779874213838,
	"grad_norm": 11.399324417114258,
	"learning_rate": 2.0219137222526183e-07,
	"loss": 1.1837,
	"step": 484
	},
	{
	"epoch": 2.4465408805031448,
	"grad_norm": 5.924710273742676,
	"learning_rate": 1.9515275394467446e-07,
	"loss": -0.0577,
	"step": 486
	},
	{
	"epoch": 2.456603773584906,
	"grad_norm": 7.316831111907959,
	"learning_rate": 1.8822556144193756e-07,
	"loss": 0.1237,
	"step": 488
	},
	{
	"epoch": 2.466666666666667,
	"grad_norm": 6.5416765213012695,
	"learning_rate": 1.8141075374103632e-07,
	"loss": -1.9742,
	"step": 490
	},
	{
	"epoch": 2.476729559748428,
	"grad_norm": 5.302765369415283,
	"learning_rate": 1.7470927430702276e-07,
	"loss": 1.6366,
	"step": 492
	},
	{
	"epoch": 2.486792452830189,
	"grad_norm": 6.104937553405762,
	"learning_rate": 1.6812205091539978e-07,
	"loss": -0.9508,
	"step": 494
	},
	{
	"epoch": 2.49685534591195,
	"grad_norm": 3.6209168434143066,
	"learning_rate": 1.6164999552367765e-07,
	"loss": -0.6157,
	"step": 496
	},
	{
	"epoch": 2.506918238993711,
	"grad_norm": 11.832756996154785,
	"learning_rate": 1.5529400414511805e-07,
	"loss": -1.168,
	"step": 498
	},
	{
	"epoch": 2.516981132075472,
	"grad_norm": 9.809549331665039,
	"learning_rate": 1.4905495672468783e-07,
	"loss": 0.3619,
	"step": 500
	},
	{
	"epoch": 2.527044025157233,
	"grad_norm": 5.026820182800293,
	"learning_rate": 1.42933717017237e-07,
	"loss": -0.3516,
	"step": 502
	},
	{
	"epoch": 2.537106918238994,
	"grad_norm": 4.968526363372803,
	"learning_rate": 1.3693113246791588e-07,
	"loss": -0.383,
	"step": 504
	},
	{
	"epoch": 2.547169811320755,
	"grad_norm": 5.452160835266113,
	"learning_rate": 1.3104803409485354e-07,
	"loss": -0.3609,
	"step": 506
	},
	{
	"epoch": 2.557232704402516,
	"grad_norm": 6.929769992828369,
	"learning_rate": 1.2528523637410836e-07,
	"loss": -0.109,
	"step": 508
	},
	{
	"epoch": 2.567295597484277,
	"grad_norm": 5.186896800994873,
	"learning_rate": 1.1964353712690888e-07,
	"loss": 0.3748,
	"step": 510
	},
	{
	"epoch": 2.577358490566038,
	"grad_norm": 2.7618138790130615,
	"learning_rate": 1.1412371740920035e-07,
	"loss": 0.6345,
	"step": 512
	},
	{
	"epoch": 2.587421383647799,
	"grad_norm": 9.840655326843262,
	"learning_rate": 1.0872654140351457e-07,
	"loss": -0.4424,
	"step": 514
	},
	{
	"epoch": 2.59748427672956,
	"grad_norm": 5.229491233825684,
	"learning_rate": 1.0345275631317163e-07,
	"loss": 0.1269,
	"step": 516
	},
	{
	"epoch": 2.607547169811321,
	"grad_norm": 3.292207956314087,
	"learning_rate": 9.830309225883559e-08,
	"loss": -0.8045,
	"step": 518
	},
	{
	"epoch": 2.617610062893082,
	"grad_norm": 2.8611297607421875,
	"learning_rate": 9.327826217743451e-08,
	"loss": 0.6012,
	"step": 520
	},
	{
	"epoch": 2.627672955974843,
	"grad_norm": 6.323940277099609,
	"learning_rate": 8.837896172345827e-08,
	"loss": -0.5895,
	"step": 522
	},
	{
	"epoch": 2.637735849056604,
	"grad_norm": 7.645895957946777,
	"learning_rate": 8.360586917264977e-08,
	"loss": 0.5182,
	"step": 524
	},
	{
	"epoch": 2.647798742138365,
	"grad_norm": 6.323966979980469,
	"learning_rate": 7.895964532810317e-08,
	"loss": -0.3837,
	"step": 526
	},
	{
	"epoch": 2.657861635220126,
	"grad_norm": 7.799415588378906,
	"learning_rate": 7.444093342877899e-08,
	"loss": -0.7239,
	"step": 528
	},
	{
	"epoch": 2.667924528301887,
	"grad_norm": 6.719019889831543,
	"learning_rate": 7.005035906045197e-08,
	"loss": 0.2248,
	"step": 530
	},
	{
	"epoch": 2.677987421383648,
	"grad_norm": 5.086057186126709,
	"learning_rate": 6.578853006910402e-08,
	"loss": 0.5775,
	"step": 532
	},
	{
	"epoch": 2.688050314465409,
	"grad_norm": 3.6781728267669678,
	"learning_rate": 6.165603647677054e-08,
	"loss": 0.0562,
	"step": 534
	},
	{
	"epoch": 2.69811320754717,
	"grad_norm": 9.493392944335938,
	"learning_rate": 5.765345039985647e-08,
	"loss": 0.205,
	"step": 536
	},
	{
	"epoch": 2.708176100628931,
	"grad_norm": 4.998286247253418,
	"learning_rate": 5.378132596993046e-08,
	"loss": 0.9461,
	"step": 538
	},
	{
	"epoch": 2.718238993710692,
	"grad_norm": 4.373546600341797,
	"learning_rate": 5.0040199257009196e-08,
	"loss": -0.7566,
	"step": 540
	},
	{
	"epoch": 2.728301886792453,
	"grad_norm": 8.538968086242676,
	"learning_rate": 4.6430588195341847e-08,
	"loss": 0.9457,
	"step": 542
	},
	{
	"epoch": 2.738364779874214,
	"grad_norm": 8.773660659790039,
	"learning_rate": 4.295299251170537e-08,
	"loss": -0.2537,
	"step": 544
	},
	{
	"epoch": 2.748427672955975,
	"grad_norm": 5.2722978591918945,
	"learning_rate": 3.9607893656220745e-08,
	"loss": 0.8571,
	"step": 546
	},
	{
	"epoch": 2.758490566037736,
	"grad_norm": 7.540788650512695,
	"learning_rate": 3.639575473569989e-08,
	"loss": -2.1415,
	"step": 548
	},
	{
	"epoch": 2.768553459119497,
	"grad_norm": 3.7448925971984863,
	"learning_rate": 3.331702044953066e-08,
	"loss": -1.1784,
	"step": 550
	},
	{
	"epoch": 2.778616352201258,
	"grad_norm": 3.103691577911377,
	"learning_rate": 3.037211702811182e-08,
	"loss": -0.3766,
	"step": 552
	},
	{
	"epoch": 2.788679245283019,
	"grad_norm": 4.002925872802734,
	"learning_rate": 2.75614521738442e-08,
	"loss": -1.5215,
	"step": 554
	},
	{
	"epoch": 2.79874213836478,
	"grad_norm": 6.615825176239014,
	"learning_rate": 2.488541500468666e-08,
	"loss": 0.4594,
	"step": 556
	},
	{
	"epoch": 2.808805031446541,
	"grad_norm": 4.420342922210693,
	"learning_rate": 2.2344376000285604e-08,
	"loss": 0.0622,
	"step": 558
	},
	{
	"epoch": 2.818867924528302,
	"grad_norm": 5.796300888061523,
	"learning_rate": 1.9938686950684567e-08,
	"loss": -0.9306,
	"step": 560
	},
	{
	"epoch": 2.828930817610063,
	"grad_norm": 4.024370193481445,
	"learning_rate": 1.766868090762075e-08,
	"loss": -0.4119,
	"step": 562
	},
	{
	"epoch": 2.838993710691824,
	"grad_norm": 9.87598705291748,
	"learning_rate": 1.553467213841664e-08,
	"loss": -0.1066,
	"step": 564
	},
	{
	"epoch": 2.849056603773585,
	"grad_norm": 6.048956871032715,
	"learning_rate": 1.3536956082472073e-08,
	"loss": -0.7316,
	"step": 566
	},
	{
	"epoch": 2.859119496855346,
	"grad_norm": 5.084702968597412,
	"learning_rate": 1.1675809310361495e-08,
	"loss": -1.3274,
	"step": 568
	},
	{
	"epoch": 2.869182389937107,
	"grad_norm": 4.490642070770264,
	"learning_rate": 9.951489485545694e-09,
	"loss": 0.1211,
	"step": 570
	},
	{
	"epoch": 2.879245283018868,
	"grad_norm": 9.895052909851074,
	"learning_rate": 8.364235328699564e-09,
	"loss": 1.1259,
	"step": 572
	},
	{
	"epoch": 2.889308176100629,
	"grad_norm": 4.905172348022461,
	"learning_rate": 6.914266584662987e-09,
	"loss": -0.1241,
	"step": 574
	},
	{
	"epoch": 2.89937106918239,
	"grad_norm": 3.0340776443481445,
	"learning_rate": 5.60178399201805e-09,
	"loss": -0.6671,
	"step": 576
	},
	{
	"epoch": 2.909433962264151,
	"grad_norm": 3.124040126800537,
	"learning_rate": 4.42696925529884e-09,
	"loss": -1.8007,
	"step": 578
	},
	{
	"epoch": 2.919496855345912,
	"grad_norm": 5.664621353149414,
	"learning_rate": 3.3899850198353397e-09,
	"loss": 0.1159,
	"step": 580
	},
	{
	"epoch": 2.929559748427673,
	"grad_norm": 4.976583957672119,
	"learning_rate": 2.4909748492362158e-09,
	"loss": -1.2106,
	"step": 582
	},
	{
	"epoch": 2.939622641509434,
	"grad_norm": 5.037308216094971,
	"learning_rate": 1.730063205513277e-09,
	"loss": 0.8336,
	"step": 584
	},
	{
	"epoch": 2.949685534591195,
	"grad_norm": 4.580456733703613,
	"learning_rate": 1.1073554318509203e-09,
	"loss": 0.378,
	"step": 586
	},
	{
	"epoch": 2.959748427672956,
	"grad_norm": 4.7945990562438965,
	"learning_rate": 6.229377380218003e-10,
	"loss": -0.0708,
	"step": 588
	},
	{
	"epoch": 2.969811320754717,
	"grad_norm": 14.472588539123535,
	"learning_rate": 2.7687718845148535e-10,
	"loss": -0.0673,
	"step": 590
	},
	{
	"epoch": 2.979874213836478,
	"grad_norm": 9.063091278076172,
	"learning_rate": 6.92216929342182e-11,
	"loss": -0.5115,
	"step": 592
	},
	{
	"epoch": 2.989937106918239,
	"grad_norm": 5.872649192810059,
	"learning_rate": 0.0,
	"loss": 0.3585,
	"step": 594
	},
	{
	"epoch": 2.989937106918239,
	"step": 594,
	"total_flos": 5.151263974762742e+17,
	"train_loss": -0.14183720302852718,
	"train_runtime": 1424.6739,
	"train_samples_per_second": 13.386,
	"train_steps_per_second": 0.417
	}
	],
	"logging_steps": 2,
	"max_steps": 594,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.151263974762742e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}