embodied_reasoner_qwen2vl / trainer_state.json

Upload folder using huggingface_hub

169dc79 verified 10 months ago

51.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9987217724755006,
	"eval_steps": 500,
	"global_step": 586,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0034086067319982955,
	"grad_norm": 7.117070422384071,
	"learning_rate": 3.3898305084745766e-07,
	"loss": 1.5934,
	"step": 2
	},
	{
	"epoch": 0.006817213463996591,
	"grad_norm": 7.58934528658197,
	"learning_rate": 6.779661016949153e-07,
	"loss": 1.6231,
	"step": 4
	},
	{
	"epoch": 0.010225820195994887,
	"grad_norm": 6.51402630995005,
	"learning_rate": 1.016949152542373e-06,
	"loss": 1.5692,
	"step": 6
	},
	{
	"epoch": 0.013634426927993182,
	"grad_norm": 5.957629945500037,
	"learning_rate": 1.3559322033898307e-06,
	"loss": 1.5249,
	"step": 8
	},
	{
	"epoch": 0.017043033659991477,
	"grad_norm": 4.594385046827305,
	"learning_rate": 1.6949152542372882e-06,
	"loss": 1.5132,
	"step": 10
	},
	{
	"epoch": 0.020451640391989774,
	"grad_norm": 3.4805968864154875,
	"learning_rate": 2.033898305084746e-06,
	"loss": 1.4339,
	"step": 12
	},
	{
	"epoch": 0.02386024712398807,
	"grad_norm": 3.672492727269049,
	"learning_rate": 2.372881355932204e-06,
	"loss": 1.3733,
	"step": 14
	},
	{
	"epoch": 0.027268853855986364,
	"grad_norm": 3.5696770668674653,
	"learning_rate": 2.7118644067796613e-06,
	"loss": 1.2981,
	"step": 16
	},
	{
	"epoch": 0.03067746058798466,
	"grad_norm": 3.721066217222145,
	"learning_rate": 3.0508474576271192e-06,
	"loss": 1.2152,
	"step": 18
	},
	{
	"epoch": 0.034086067319982954,
	"grad_norm": 3.3165399160593765,
	"learning_rate": 3.3898305084745763e-06,
	"loss": 1.1972,
	"step": 20
	},
	{
	"epoch": 0.03749467405198125,
	"grad_norm": 3.0704960315045087,
	"learning_rate": 3.7288135593220342e-06,
	"loss": 1.1098,
	"step": 22
	},
	{
	"epoch": 0.04090328078397955,
	"grad_norm": 3.0249632466321708,
	"learning_rate": 4.067796610169492e-06,
	"loss": 1.1101,
	"step": 24
	},
	{
	"epoch": 0.044311887515977845,
	"grad_norm": 2.51223844701648,
	"learning_rate": 4.40677966101695e-06,
	"loss": 1.0707,
	"step": 26
	},
	{
	"epoch": 0.04772049424797614,
	"grad_norm": 2.337756418129475,
	"learning_rate": 4.745762711864408e-06,
	"loss": 1.0054,
	"step": 28
	},
	{
	"epoch": 0.05112910097997444,
	"grad_norm": 2.507569726418487,
	"learning_rate": 5.084745762711865e-06,
	"loss": 0.9751,
	"step": 30
	},
	{
	"epoch": 0.05453770771197273,
	"grad_norm": 2.8133808280998664,
	"learning_rate": 5.423728813559323e-06,
	"loss": 1.0073,
	"step": 32
	},
	{
	"epoch": 0.057946314443971025,
	"grad_norm": 2.259104843714805,
	"learning_rate": 5.7627118644067805e-06,
	"loss": 0.9816,
	"step": 34
	},
	{
	"epoch": 0.06135492117596932,
	"grad_norm": 2.489954458392594,
	"learning_rate": 6.1016949152542385e-06,
	"loss": 0.9969,
	"step": 36
	},
	{
	"epoch": 0.06476352790796762,
	"grad_norm": 2.489196411046845,
	"learning_rate": 6.440677966101695e-06,
	"loss": 0.9751,
	"step": 38
	},
	{
	"epoch": 0.06817213463996591,
	"grad_norm": 2.328531532406521,
	"learning_rate": 6.779661016949153e-06,
	"loss": 0.9063,
	"step": 40
	},
	{
	"epoch": 0.07158074137196421,
	"grad_norm": 1.8777822207540218,
	"learning_rate": 7.1186440677966106e-06,
	"loss": 0.9076,
	"step": 42
	},
	{
	"epoch": 0.0749893481039625,
	"grad_norm": 2.3564822959993403,
	"learning_rate": 7.4576271186440685e-06,
	"loss": 0.9544,
	"step": 44
	},
	{
	"epoch": 0.0783979548359608,
	"grad_norm": 2.0258103744170604,
	"learning_rate": 7.796610169491526e-06,
	"loss": 0.9056,
	"step": 46
	},
	{
	"epoch": 0.0818065615679591,
	"grad_norm": 2.156862728985429,
	"learning_rate": 8.135593220338983e-06,
	"loss": 0.853,
	"step": 48
	},
	{
	"epoch": 0.08521516829995739,
	"grad_norm": 2.34893762869447,
	"learning_rate": 8.47457627118644e-06,
	"loss": 0.8894,
	"step": 50
	},
	{
	"epoch": 0.08862377503195569,
	"grad_norm": 2.315393254315105,
	"learning_rate": 8.8135593220339e-06,
	"loss": 0.9133,
	"step": 52
	},
	{
	"epoch": 0.09203238176395398,
	"grad_norm": 2.301164621363547,
	"learning_rate": 9.152542372881356e-06,
	"loss": 0.8895,
	"step": 54
	},
	{
	"epoch": 0.09544098849595228,
	"grad_norm": 2.2398380284062425,
	"learning_rate": 9.491525423728815e-06,
	"loss": 0.8563,
	"step": 56
	},
	{
	"epoch": 0.09884959522795057,
	"grad_norm": 2.029764049433947,
	"learning_rate": 9.830508474576272e-06,
	"loss": 0.8813,
	"step": 58
	},
	{
	"epoch": 0.10225820195994888,
	"grad_norm": 2.0880574238328387,
	"learning_rate": 9.999911158222826e-06,
	"loss": 0.9337,
	"step": 60
	},
	{
	"epoch": 0.10566680869194717,
	"grad_norm": 2.3366310826461993,
	"learning_rate": 9.999200442948178e-06,
	"loss": 0.924,
	"step": 62
	},
	{
	"epoch": 0.10907541542394546,
	"grad_norm": 2.344634528525901,
	"learning_rate": 9.997779113423916e-06,
	"loss": 0.9312,
	"step": 64
	},
	{
	"epoch": 0.11248402215594376,
	"grad_norm": 2.551521533584163,
	"learning_rate": 9.99564737168575e-06,
	"loss": 0.9062,
	"step": 66
	},
	{
	"epoch": 0.11589262888794205,
	"grad_norm": 2.2111244932074,
	"learning_rate": 9.992805520751352e-06,
	"loss": 0.9032,
	"step": 68
	},
	{
	"epoch": 0.11930123561994035,
	"grad_norm": 2.2310561621390463,
	"learning_rate": 9.989253964577267e-06,
	"loss": 0.8851,
	"step": 70
	},
	{
	"epoch": 0.12270984235193864,
	"grad_norm": 2.1278482556209153,
	"learning_rate": 9.984993208001513e-06,
	"loss": 0.8663,
	"step": 72
	},
	{
	"epoch": 0.12611844908393693,
	"grad_norm": 2.173728187499986,
	"learning_rate": 9.980023856671805e-06,
	"loss": 0.889,
	"step": 74
	},
	{
	"epoch": 0.12952705581593524,
	"grad_norm": 2.0928351193635026,
	"learning_rate": 9.974346616959476e-06,
	"loss": 0.8293,
	"step": 76
	},
	{
	"epoch": 0.13293566254793354,
	"grad_norm": 2.8128383896971902,
	"learning_rate": 9.96796229585906e-06,
	"loss": 0.8746,
	"step": 78
	},
	{
	"epoch": 0.13634426927993182,
	"grad_norm": 2.0208631286469254,
	"learning_rate": 9.960871800873586e-06,
	"loss": 0.9004,
	"step": 80
	},
	{
	"epoch": 0.13975287601193012,
	"grad_norm": 2.1974668712171157,
	"learning_rate": 9.953076139885581e-06,
	"loss": 0.9384,
	"step": 82
	},
	{
	"epoch": 0.14316148274392843,
	"grad_norm": 2.3881999042131516,
	"learning_rate": 9.944576421013804e-06,
	"loss": 0.8679,
	"step": 84
	},
	{
	"epoch": 0.1465700894759267,
	"grad_norm": 1.9809033021368312,
	"learning_rate": 9.935373852455724e-06,
	"loss": 0.855,
	"step": 86
	},
	{
	"epoch": 0.149978696207925,
	"grad_norm": 2.063145920288984,
	"learning_rate": 9.925469742315799e-06,
	"loss": 0.8509,
	"step": 88
	},
	{
	"epoch": 0.1533873029399233,
	"grad_norm": 2.1854349522591248,
	"learning_rate": 9.91486549841951e-06,
	"loss": 0.8774,
	"step": 90
	},
	{
	"epoch": 0.1567959096719216,
	"grad_norm": 1.9442802721360337,
	"learning_rate": 9.903562628113266e-06,
	"loss": 0.9293,
	"step": 92
	},
	{
	"epoch": 0.1602045164039199,
	"grad_norm": 1.9595403019093638,
	"learning_rate": 9.891562738050127e-06,
	"loss": 0.835,
	"step": 94
	},
	{
	"epoch": 0.1636131231359182,
	"grad_norm": 2.001941381433757,
	"learning_rate": 9.878867533961434e-06,
	"loss": 0.8594,
	"step": 96
	},
	{
	"epoch": 0.1670217298679165,
	"grad_norm": 2.24822151912714,
	"learning_rate": 9.865478820414344e-06,
	"loss": 0.85,
	"step": 98
	},
	{
	"epoch": 0.17043033659991477,
	"grad_norm": 1.8987704947701014,
	"learning_rate": 9.851398500555321e-06,
	"loss": 0.8647,
	"step": 100
	},
	{
	"epoch": 0.17383894333191308,
	"grad_norm": 1.9294894488605314,
	"learning_rate": 9.8366285758396e-06,
	"loss": 0.8374,
	"step": 102
	},
	{
	"epoch": 0.17724755006391138,
	"grad_norm": 2.0659769053985455,
	"learning_rate": 9.82117114574671e-06,
	"loss": 0.8625,
	"step": 104
	},
	{
	"epoch": 0.18065615679590968,
	"grad_norm": 2.1086334049039044,
	"learning_rate": 9.805028407482027e-06,
	"loss": 0.8418,
	"step": 106
	},
	{
	"epoch": 0.18406476352790796,
	"grad_norm": 1.9093180149494513,
	"learning_rate": 9.78820265566445e-06,
	"loss": 0.8378,
	"step": 108
	},
	{
	"epoch": 0.18747337025990626,
	"grad_norm": 2.108586166296398,
	"learning_rate": 9.770696282000245e-06,
	"loss": 0.8717,
	"step": 110
	},
	{
	"epoch": 0.19088197699190457,
	"grad_norm": 1.9600773842942703,
	"learning_rate": 9.75251177494306e-06,
	"loss": 0.8626,
	"step": 112
	},
	{
	"epoch": 0.19429058372390284,
	"grad_norm": 2.2720190152376425,
	"learning_rate": 9.733651719340207e-06,
	"loss": 0.8714,
	"step": 114
	},
	{
	"epoch": 0.19769919045590115,
	"grad_norm": 1.9850702888722942,
	"learning_rate": 9.714118796065243e-06,
	"loss": 0.8529,
	"step": 116
	},
	{
	"epoch": 0.20110779718789945,
	"grad_norm": 2.0995202528398234,
	"learning_rate": 9.693915781636887e-06,
	"loss": 0.8508,
	"step": 118
	},
	{
	"epoch": 0.20451640391989775,
	"grad_norm": 2.191390132974462,
	"learning_rate": 9.673045547824356e-06,
	"loss": 0.8699,
	"step": 120
	},
	{
	"epoch": 0.20792501065189603,
	"grad_norm": 1.92525268724109,
	"learning_rate": 9.651511061239151e-06,
	"loss": 0.8746,
	"step": 122
	},
	{
	"epoch": 0.21133361738389433,
	"grad_norm": 2.1743856429859765,
	"learning_rate": 9.62931538291337e-06,
	"loss": 0.8643,
	"step": 124
	},
	{
	"epoch": 0.21474222411589264,
	"grad_norm": 2.2545723733622642,
	"learning_rate": 9.606461667864603e-06,
	"loss": 0.8518,
	"step": 126
	},
	{
	"epoch": 0.21815083084789091,
	"grad_norm": 2.088328769098791,
	"learning_rate": 9.582953164647438e-06,
	"loss": 0.8036,
	"step": 128
	},
	{
	"epoch": 0.22155943757988922,
	"grad_norm": 1.7154521796104316,
	"learning_rate": 9.558793214891716e-06,
	"loss": 0.8749,
	"step": 130
	},
	{
	"epoch": 0.22496804431188752,
	"grad_norm": 1.9971816903951989,
	"learning_rate": 9.533985252827525e-06,
	"loss": 0.8442,
	"step": 132
	},
	{
	"epoch": 0.22837665104388583,
	"grad_norm": 2.0452202203810246,
	"learning_rate": 9.508532804797035e-06,
	"loss": 0.8331,
	"step": 134
	},
	{
	"epoch": 0.2317852577758841,
	"grad_norm": 1.8873007094774574,
	"learning_rate": 9.482439488753248e-06,
	"loss": 0.8404,
	"step": 136
	},
	{
	"epoch": 0.2351938645078824,
	"grad_norm": 1.8694505860373616,
	"learning_rate": 9.455709013745726e-06,
	"loss": 0.8518,
	"step": 138
	},
	{
	"epoch": 0.2386024712398807,
	"grad_norm": 1.8826067133760322,
	"learning_rate": 9.42834517939336e-06,
	"loss": 0.8224,
	"step": 140
	},
	{
	"epoch": 0.24201107797187899,
	"grad_norm": 1.783995366074571,
	"learning_rate": 9.400351875344268e-06,
	"loss": 0.8368,
	"step": 142
	},
	{
	"epoch": 0.2454196847038773,
	"grad_norm": 1.9541798533923145,
	"learning_rate": 9.371733080722911e-06,
	"loss": 0.8753,
	"step": 144
	},
	{
	"epoch": 0.2488282914358756,
	"grad_norm": 1.8725559407975727,
	"learning_rate": 9.342492863564468e-06,
	"loss": 0.8382,
	"step": 146
	},
	{
	"epoch": 0.25223689816787387,
	"grad_norm": 2.166287610640464,
	"learning_rate": 9.312635380236582e-06,
	"loss": 0.8311,
	"step": 148
	},
	{
	"epoch": 0.2556455048998722,
	"grad_norm": 2.100500640351814,
	"learning_rate": 9.282164874848554e-06,
	"loss": 0.8731,
	"step": 150
	},
	{
	"epoch": 0.2590541116318705,
	"grad_norm": 2.269255130053819,
	"learning_rate": 9.251085678648072e-06,
	"loss": 0.832,
	"step": 152
	},
	{
	"epoch": 0.26246271836386875,
	"grad_norm": 2.019471552415879,
	"learning_rate": 9.219402209405519e-06,
	"loss": 0.8715,
	"step": 154
	},
	{
	"epoch": 0.2658713250958671,
	"grad_norm": 2.057431118897924,
	"learning_rate": 9.18711897078603e-06,
	"loss": 0.8809,
	"step": 156
	},
	{
	"epoch": 0.26927993182786536,
	"grad_norm": 1.7964562596950788,
	"learning_rate": 9.154240551709298e-06,
	"loss": 0.8159,
	"step": 158
	},
	{
	"epoch": 0.27268853855986364,
	"grad_norm": 1.77492002243483,
	"learning_rate": 9.1207716256973e-06,
	"loss": 0.8443,
	"step": 160
	},
	{
	"epoch": 0.27609714529186197,
	"grad_norm": 2.042551909185088,
	"learning_rate": 9.08671695020995e-06,
	"loss": 0.8718,
	"step": 162
	},
	{
	"epoch": 0.27950575202386024,
	"grad_norm": 1.9983795965696414,
	"learning_rate": 9.052081365968873e-06,
	"loss": 0.827,
	"step": 164
	},
	{
	"epoch": 0.2829143587558585,
	"grad_norm": 2.052158753663356,
	"learning_rate": 9.016869796269299e-06,
	"loss": 0.8478,
	"step": 166
	},
	{
	"epoch": 0.28632296548785685,
	"grad_norm": 1.8439668797771172,
	"learning_rate": 8.981087246280246e-06,
	"loss": 0.8063,
	"step": 168
	},
	{
	"epoch": 0.2897315722198551,
	"grad_norm": 1.8391702615486196,
	"learning_rate": 8.944738802333062e-06,
	"loss": 0.8345,
	"step": 170
	},
	{
	"epoch": 0.2931401789518534,
	"grad_norm": 1.832576311204302,
	"learning_rate": 8.907829631198412e-06,
	"loss": 0.7921,
	"step": 172
	},
	{
	"epoch": 0.29654878568385173,
	"grad_norm": 1.9349714568402026,
	"learning_rate": 8.870364979351862e-06,
	"loss": 0.8122,
	"step": 174
	},
	{
	"epoch": 0.29995739241585,
	"grad_norm": 2.4339551873431104,
	"learning_rate": 8.832350172228099e-06,
	"loss": 0.82,
	"step": 176
	},
	{
	"epoch": 0.30336599914784834,
	"grad_norm": 1.5892853144502257,
	"learning_rate": 8.793790613463956e-06,
	"loss": 0.8362,
	"step": 178
	},
	{
	"epoch": 0.3067746058798466,
	"grad_norm": 1.7805951409311684,
	"learning_rate": 8.754691784130298e-06,
	"loss": 0.8283,
	"step": 180
	},
	{
	"epoch": 0.3101832126118449,
	"grad_norm": 1.6741127801982758,
	"learning_rate": 8.715059241952925e-06,
	"loss": 0.8055,
	"step": 182
	},
	{
	"epoch": 0.3135918193438432,
	"grad_norm": 1.7776583452428674,
	"learning_rate": 8.674898620522558e-06,
	"loss": 0.8238,
	"step": 184
	},
	{
	"epoch": 0.3170004260758415,
	"grad_norm": 1.7939673520888073,
	"learning_rate": 8.634215628494044e-06,
	"loss": 0.7946,
	"step": 186
	},
	{
	"epoch": 0.3204090328078398,
	"grad_norm": 1.9491996130141838,
	"learning_rate": 8.593016048774911e-06,
	"loss": 0.8269,
	"step": 188
	},
	{
	"epoch": 0.3238176395398381,
	"grad_norm": 2.0260518716817355,
	"learning_rate": 8.551305737703338e-06,
	"loss": 0.8205,
	"step": 190
	},
	{
	"epoch": 0.3272262462718364,
	"grad_norm": 2.0407011387236915,
	"learning_rate": 8.509090624215708e-06,
	"loss": 0.7965,
	"step": 192
	},
	{
	"epoch": 0.33063485300383466,
	"grad_norm": 1.885729706338136,
	"learning_rate": 8.466376709003841e-06,
	"loss": 0.8444,
	"step": 194
	},
	{
	"epoch": 0.334043459735833,
	"grad_norm": 1.8594029276174733,
	"learning_rate": 8.423170063662014e-06,
	"loss": 0.8301,
	"step": 196
	},
	{
	"epoch": 0.33745206646783127,
	"grad_norm": 2.0661661167934775,
	"learning_rate": 8.379476829823919e-06,
	"loss": 0.8194,
	"step": 198
	},
	{
	"epoch": 0.34086067319982954,
	"grad_norm": 1.843312820214377,
	"learning_rate": 8.335303218289645e-06,
	"loss": 0.8223,
	"step": 200
	},
	{
	"epoch": 0.3442692799318279,
	"grad_norm": 1.9237357576874556,
	"learning_rate": 8.290655508142855e-06,
	"loss": 0.8066,
	"step": 202
	},
	{
	"epoch": 0.34767788666382615,
	"grad_norm": 1.8680286378652424,
	"learning_rate": 8.245540045858229e-06,
	"loss": 0.8035,
	"step": 204
	},
	{
	"epoch": 0.3510864933958245,
	"grad_norm": 1.7375474557232102,
	"learning_rate": 8.199963244399351e-06,
	"loss": 0.8115,
	"step": 206
	},
	{
	"epoch": 0.35449510012782276,
	"grad_norm": 1.8317920240540273,
	"learning_rate": 8.153931582307124e-06,
	"loss": 0.8333,
	"step": 208
	},
	{
	"epoch": 0.35790370685982104,
	"grad_norm": 1.8807672342031,
	"learning_rate": 8.107451602778887e-06,
	"loss": 0.8114,
	"step": 210
	},
	{
	"epoch": 0.36131231359181937,
	"grad_norm": 1.8233277253885543,
	"learning_rate": 8.060529912738316e-06,
	"loss": 0.8084,
	"step": 212
	},
	{
	"epoch": 0.36472092032381764,
	"grad_norm": 1.8018328218174473,
	"learning_rate": 8.013173181896283e-06,
	"loss": 0.8036,
	"step": 214
	},
	{
	"epoch": 0.3681295270558159,
	"grad_norm": 1.7500277066768286,
	"learning_rate": 7.965388141802792e-06,
	"loss": 0.8493,
	"step": 216
	},
	{
	"epoch": 0.37153813378781425,
	"grad_norm": 1.8202749968468963,
	"learning_rate": 7.917181584890113e-06,
	"loss": 0.8666,
	"step": 218
	},
	{
	"epoch": 0.3749467405198125,
	"grad_norm": 1.7463930119282958,
	"learning_rate": 7.868560363507268e-06,
	"loss": 0.8104,
	"step": 220
	},
	{
	"epoch": 0.3783553472518108,
	"grad_norm": 1.687535685348095,
	"learning_rate": 7.819531388946e-06,
	"loss": 0.7423,
	"step": 222
	},
	{
	"epoch": 0.38176395398380913,
	"grad_norm": 1.8780292088928865,
	"learning_rate": 7.770101630458364e-06,
	"loss": 0.7817,
	"step": 224
	},
	{
	"epoch": 0.3851725607158074,
	"grad_norm": 1.7870199236678057,
	"learning_rate": 7.720278114266084e-06,
	"loss": 0.8055,
	"step": 226
	},
	{
	"epoch": 0.3885811674478057,
	"grad_norm": 2.1478936673535522,
	"learning_rate": 7.670067922561795e-06,
	"loss": 0.8181,
	"step": 228
	},
	{
	"epoch": 0.391989774179804,
	"grad_norm": 1.996195916952366,
	"learning_rate": 7.619478192502352e-06,
	"loss": 0.786,
	"step": 230
	},
	{
	"epoch": 0.3953983809118023,
	"grad_norm": 1.7607026492930253,
	"learning_rate": 7.5685161151943066e-06,
	"loss": 0.7861,
	"step": 232
	},
	{
	"epoch": 0.39880698764380057,
	"grad_norm": 1.982916095534787,
	"learning_rate": 7.5171889346717264e-06,
	"loss": 0.8314,
	"step": 234
	},
	{
	"epoch": 0.4022155943757989,
	"grad_norm": 1.8475361020735406,
	"learning_rate": 7.465503946866491e-06,
	"loss": 0.8045,
	"step": 236
	},
	{
	"epoch": 0.4056242011077972,
	"grad_norm": 1.6483972591254976,
	"learning_rate": 7.413468498571199e-06,
	"loss": 0.8149,
	"step": 238
	},
	{
	"epoch": 0.4090328078397955,
	"grad_norm": 1.9862409096042428,
	"learning_rate": 7.361089986394863e-06,
	"loss": 0.8038,
	"step": 240
	},
	{
	"epoch": 0.4124414145717938,
	"grad_norm": 1.9381151415852729,
	"learning_rate": 7.308375855711508e-06,
	"loss": 0.8203,
	"step": 242
	},
	{
	"epoch": 0.41585002130379206,
	"grad_norm": 1.8252397931133695,
	"learning_rate": 7.2553335996018485e-06,
	"loss": 0.8096,
	"step": 244
	},
	{
	"epoch": 0.4192586280357904,
	"grad_norm": 1.8096704344426044,
	"learning_rate": 7.201970757788172e-06,
	"loss": 0.7692,
	"step": 246
	},
	{
	"epoch": 0.42266723476778867,
	"grad_norm": 1.7220473220530976,
	"learning_rate": 7.148294915562617e-06,
	"loss": 0.7941,
	"step": 248
	},
	{
	"epoch": 0.42607584149978694,
	"grad_norm": 1.6560074887380722,
	"learning_rate": 7.09431370270894e-06,
	"loss": 0.795,
	"step": 250
	},
	{
	"epoch": 0.4294844482317853,
	"grad_norm": 1.6420030994162023,
	"learning_rate": 7.040034792417986e-06,
	"loss": 0.7854,
	"step": 252
	},
	{
	"epoch": 0.43289305496378355,
	"grad_norm": 1.8777722598215576,
	"learning_rate": 6.985465900196971e-06,
	"loss": 0.8445,
	"step": 254
	},
	{
	"epoch": 0.43630166169578183,
	"grad_norm": 1.8421388677475183,
	"learning_rate": 6.930614782772766e-06,
	"loss": 0.8372,
	"step": 256
	},
	{
	"epoch": 0.43971026842778016,
	"grad_norm": 1.9176127454855982,
	"learning_rate": 6.875489236989306e-06,
	"loss": 0.82,
	"step": 258
	},
	{
	"epoch": 0.44311887515977844,
	"grad_norm": 1.8186020984518791,
	"learning_rate": 6.8200970986993e-06,
	"loss": 0.8208,
	"step": 260
	},
	{
	"epoch": 0.4465274818917767,
	"grad_norm": 1.9882080130853592,
	"learning_rate": 6.764446241650411e-06,
	"loss": 0.8073,
	"step": 262
	},
	{
	"epoch": 0.44993608862377504,
	"grad_norm": 1.5626224821883135,
	"learning_rate": 6.708544576366024e-06,
	"loss": 0.8231,
	"step": 264
	},
	{
	"epoch": 0.4533446953557733,
	"grad_norm": 1.8993741801940567,
	"learning_rate": 6.65240004902081e-06,
	"loss": 0.8065,
	"step": 266
	},
	{
	"epoch": 0.45675330208777165,
	"grad_norm": 1.7550634910546117,
	"learning_rate": 6.5960206403112045e-06,
	"loss": 0.7485,
	"step": 268
	},
	{
	"epoch": 0.4601619088197699,
	"grad_norm": 1.9326203800829964,
	"learning_rate": 6.539414364320997e-06,
	"loss": 0.779,
	"step": 270
	},
	{
	"epoch": 0.4635705155517682,
	"grad_norm": 1.6516836712807916,
	"learning_rate": 6.4825892673821556e-06,
	"loss": 0.794,
	"step": 272
	},
	{
	"epoch": 0.46697912228376653,
	"grad_norm": 2.003145254209738,
	"learning_rate": 6.425553426931075e-06,
	"loss": 0.7618,
	"step": 274
	},
	{
	"epoch": 0.4703877290157648,
	"grad_norm": 1.6246913128967992,
	"learning_rate": 6.368314950360416e-06,
	"loss": 0.7785,
	"step": 276
	},
	{
	"epoch": 0.4737963357477631,
	"grad_norm": 1.8754262243075055,
	"learning_rate": 6.31088197386666e-06,
	"loss": 0.765,
	"step": 278
	},
	{
	"epoch": 0.4772049424797614,
	"grad_norm": 1.6448889983604882,
	"learning_rate": 6.2532626612936035e-06,
	"loss": 0.7977,
	"step": 280
	},
	{
	"epoch": 0.4806135492117597,
	"grad_norm": 1.8537195734950456,
	"learning_rate": 6.195465202971883e-06,
	"loss": 0.7637,
	"step": 282
	},
	{
	"epoch": 0.48402215594375797,
	"grad_norm": 1.7350572092463452,
	"learning_rate": 6.137497814554773e-06,
	"loss": 0.7974,
	"step": 284
	},
	{
	"epoch": 0.4874307626757563,
	"grad_norm": 1.659202469943535,
	"learning_rate": 6.079368735850355e-06,
	"loss": 0.78,
	"step": 286
	},
	{
	"epoch": 0.4908393694077546,
	"grad_norm": 2.0704522103071326,
	"learning_rate": 6.021086229650273e-06,
	"loss": 0.78,
	"step": 288
	},
	{
	"epoch": 0.49424797613975285,
	"grad_norm": 1.7654110381757835,
	"learning_rate": 5.96265858055521e-06,
	"loss": 0.8101,
	"step": 290
	},
	{
	"epoch": 0.4976565828717512,
	"grad_norm": 1.6744010674594727,
	"learning_rate": 5.904094093797274e-06,
	"loss": 0.7854,
	"step": 292
	},
	{
	"epoch": 0.5010651896037495,
	"grad_norm": 1.672935281461675,
	"learning_rate": 5.845401094059439e-06,
	"loss": 0.8233,
	"step": 294
	},
	{
	"epoch": 0.5044737963357477,
	"grad_norm": 1.7571827575826455,
	"learning_rate": 5.786587924292228e-06,
	"loss": 0.8072,
	"step": 296
	},
	{
	"epoch": 0.507882403067746,
	"grad_norm": 1.7879627913914475,
	"learning_rate": 5.727662944527808e-06,
	"loss": 0.8236,
	"step": 298
	},
	{
	"epoch": 0.5112910097997444,
	"grad_norm": 1.6693554243950373,
	"learning_rate": 5.668634530691639e-06,
	"loss": 0.7829,
	"step": 300
	},
	{
	"epoch": 0.5146996165317427,
	"grad_norm": 1.7885967539315661,
	"learning_rate": 5.609511073411881e-06,
	"loss": 0.8069,
	"step": 302
	},
	{
	"epoch": 0.518108223263741,
	"grad_norm": 1.8927285112086825,
	"learning_rate": 5.550300976826697e-06,
	"loss": 0.7978,
	"step": 304
	},
	{
	"epoch": 0.5215168299957392,
	"grad_norm": 1.9422631435450946,
	"learning_rate": 5.491012657389644e-06,
	"loss": 0.8143,
	"step": 306
	},
	{
	"epoch": 0.5249254367277375,
	"grad_norm": 1.8664920158914793,
	"learning_rate": 5.431654542673315e-06,
	"loss": 0.8184,
	"step": 308
	},
	{
	"epoch": 0.5283340434597358,
	"grad_norm": 1.7545208791954934,
	"learning_rate": 5.372235070171387e-06,
	"loss": 0.7976,
	"step": 310
	},
	{
	"epoch": 0.5317426501917342,
	"grad_norm": 1.8345783742469912,
	"learning_rate": 5.312762686099282e-06,
	"loss": 0.7726,
	"step": 312
	},
	{
	"epoch": 0.5351512569237324,
	"grad_norm": 1.777874135882686,
	"learning_rate": 5.253245844193564e-06,
	"loss": 0.791,
	"step": 314
	},
	{
	"epoch": 0.5385598636557307,
	"grad_norm": 1.7559490288145514,
	"learning_rate": 5.193693004510284e-06,
	"loss": 0.7654,
	"step": 316
	},
	{
	"epoch": 0.541968470387729,
	"grad_norm": 1.7582347301570869,
	"learning_rate": 5.1341126322224145e-06,
	"loss": 0.7509,
	"step": 318
	},
	{
	"epoch": 0.5453770771197273,
	"grad_norm": 1.6309306234524417,
	"learning_rate": 5.0745131964165686e-06,
	"loss": 0.7737,
	"step": 320
	},
	{
	"epoch": 0.5487856838517257,
	"grad_norm": 1.6033761601218945,
	"learning_rate": 5.014903168889155e-06,
	"loss": 0.7814,
	"step": 322
	},
	{
	"epoch": 0.5521942905837239,
	"grad_norm": 1.9401976205946008,
	"learning_rate": 4.955291022942146e-06,
	"loss": 0.7782,
	"step": 324
	},
	{
	"epoch": 0.5556028973157222,
	"grad_norm": 1.8683852058875654,
	"learning_rate": 4.8956852321786394e-06,
	"loss": 0.802,
	"step": 326
	},
	{
	"epoch": 0.5590115040477205,
	"grad_norm": 1.859200797460236,
	"learning_rate": 4.836094269298373e-06,
	"loss": 0.7798,
	"step": 328
	},
	{
	"epoch": 0.5624201107797188,
	"grad_norm": 1.803688727471679,
	"learning_rate": 4.7765266048933626e-06,
	"loss": 0.8098,
	"step": 330
	},
	{
	"epoch": 0.565828717511717,
	"grad_norm": 1.7851903640220046,
	"learning_rate": 4.7169907062438556e-06,
	"loss": 0.7728,
	"step": 332
	},
	{
	"epoch": 0.5692373242437154,
	"grad_norm": 1.6343651082668207,
	"learning_rate": 4.657495036114731e-06,
	"loss": 0.7721,
	"step": 334
	},
	{
	"epoch": 0.5726459309757137,
	"grad_norm": 1.6586804458742679,
	"learning_rate": 4.598048051552563e-06,
	"loss": 0.8186,
	"step": 336
	},
	{
	"epoch": 0.576054537707712,
	"grad_norm": 1.750348106992188,
	"learning_rate": 4.53865820268349e-06,
	"loss": 0.7503,
	"step": 338
	},
	{
	"epoch": 0.5794631444397103,
	"grad_norm": 1.7165597335606,
	"learning_rate": 4.479333931512064e-06,
	"loss": 0.7915,
	"step": 340
	},
	{
	"epoch": 0.5828717511717085,
	"grad_norm": 1.7582639909981337,
	"learning_rate": 4.4200836707212525e-06,
	"loss": 0.7754,
	"step": 342
	},
	{
	"epoch": 0.5862803579037068,
	"grad_norm": 1.6838798515151536,
	"learning_rate": 4.360915842473778e-06,
	"loss": 0.7543,
	"step": 344
	},
	{
	"epoch": 0.5896889646357052,
	"grad_norm": 1.4519358598788679,
	"learning_rate": 4.301838857214944e-06,
	"loss": 0.7629,
	"step": 346
	},
	{
	"epoch": 0.5930975713677035,
	"grad_norm": 1.6951153457921704,
	"learning_rate": 4.2428611124771184e-06,
	"loss": 0.7919,
	"step": 348
	},
	{
	"epoch": 0.5965061780997017,
	"grad_norm": 1.716470856323328,
	"learning_rate": 4.183990991686071e-06,
	"loss": 0.7853,
	"step": 350
	},
	{
	"epoch": 0.5999147848317,
	"grad_norm": 1.8973005312026041,
	"learning_rate": 4.125236862969304e-06,
	"loss": 0.7695,
	"step": 352
	},
	{
	"epoch": 0.6033233915636983,
	"grad_norm": 1.4862142786601558,
	"learning_rate": 4.066607077966559e-06,
	"loss": 0.7395,
	"step": 354
	},
	{
	"epoch": 0.6067319982956967,
	"grad_norm": 1.8815334843344234,
	"learning_rate": 4.008109970642665e-06,
	"loss": 0.787,
	"step": 356
	},
	{
	"epoch": 0.610140605027695,
	"grad_norm": 1.6378926667179599,
	"learning_rate": 3.949753856102909e-06,
	"loss": 0.7393,
	"step": 358
	},
	{
	"epoch": 0.6135492117596932,
	"grad_norm": 1.7084737118259692,
	"learning_rate": 3.891547029411074e-06,
	"loss": 0.8053,
	"step": 360
	},
	{
	"epoch": 0.6169578184916915,
	"grad_norm": 1.8544822094338145,
	"learning_rate": 3.833497764410336e-06,
	"loss": 0.7674,
	"step": 362
	},
	{
	"epoch": 0.6203664252236898,
	"grad_norm": 1.7409266320356052,
	"learning_rate": 3.7756143125471745e-06,
	"loss": 0.7489,
	"step": 364
	},
	{
	"epoch": 0.6237750319556881,
	"grad_norm": 1.8302377955954783,
	"learning_rate": 3.7179049016984616e-06,
	"loss": 0.7757,
	"step": 366
	},
	{
	"epoch": 0.6271836386876865,
	"grad_norm": 1.6552784195481047,
	"learning_rate": 3.660377735001911e-06,
	"loss": 0.7656,
	"step": 368
	},
	{
	"epoch": 0.6305922454196847,
	"grad_norm": 1.8034934811229115,
	"learning_rate": 3.6030409896900333e-06,
	"loss": 0.7731,
	"step": 370
	},
	{
	"epoch": 0.634000852151683,
	"grad_norm": 1.656497367167841,
	"learning_rate": 3.545902815927783e-06,
	"loss": 0.7564,
	"step": 372
	},
	{
	"epoch": 0.6374094588836813,
	"grad_norm": 1.6538858927486708,
	"learning_rate": 3.4889713356540435e-06,
	"loss": 0.7556,
	"step": 374
	},
	{
	"epoch": 0.6408180656156796,
	"grad_norm": 1.7721211559316303,
	"learning_rate": 3.432254641427136e-06,
	"loss": 0.7754,
	"step": 376
	},
	{
	"epoch": 0.6442266723476778,
	"grad_norm": 2.0169569259903946,
	"learning_rate": 3.375760795274493e-06,
	"loss": 0.7745,
	"step": 378
	},
	{
	"epoch": 0.6476352790796762,
	"grad_norm": 1.5174685690539855,
	"learning_rate": 3.3194978275466755e-06,
	"loss": 0.7649,
	"step": 380
	},
	{
	"epoch": 0.6510438858116745,
	"grad_norm": 1.5043926003321177,
	"learning_rate": 3.2634737357758994e-06,
	"loss": 0.74,
	"step": 382
	},
	{
	"epoch": 0.6544524925436728,
	"grad_norm": 1.6692309306036763,
	"learning_rate": 3.207696483539219e-06,
	"loss": 0.7611,
	"step": 384
	},
	{
	"epoch": 0.657861099275671,
	"grad_norm": 1.784881350588902,
	"learning_rate": 3.152173999326537e-06,
	"loss": 0.7675,
	"step": 386
	},
	{
	"epoch": 0.6612697060076693,
	"grad_norm": 1.7444177474948184,
	"learning_rate": 3.096914175413611e-06,
	"loss": 0.7685,
	"step": 388
	},
	{
	"epoch": 0.6646783127396677,
	"grad_norm": 1.999124406609706,
	"learning_rate": 3.041924866740197e-06,
	"loss": 0.7505,
	"step": 390
	},
	{
	"epoch": 0.668086919471666,
	"grad_norm": 1.5350179140801363,
	"learning_rate": 2.987213889793502e-06,
	"loss": 0.7792,
	"step": 392
	},
	{
	"epoch": 0.6714955262036643,
	"grad_norm": 1.7053442818016058,
	"learning_rate": 2.9327890214971135e-06,
	"loss": 0.7661,
	"step": 394
	},
	{
	"epoch": 0.6749041329356625,
	"grad_norm": 1.6957720054975949,
	"learning_rate": 2.878657998105533e-06,
	"loss": 0.7587,
	"step": 396
	},
	{
	"epoch": 0.6783127396676608,
	"grad_norm": 1.7615190253028947,
	"learning_rate": 2.824828514104512e-06,
	"loss": 0.8067,
	"step": 398
	},
	{
	"epoch": 0.6817213463996591,
	"grad_norm": 1.5571276091989836,
	"learning_rate": 2.771308221117309e-06,
	"loss": 0.7478,
	"step": 400
	},
	{
	"epoch": 0.6851299531316575,
	"grad_norm": 1.5280419708791328,
	"learning_rate": 2.7181047268170436e-06,
	"loss": 0.8071,
	"step": 402
	},
	{
	"epoch": 0.6885385598636558,
	"grad_norm": 1.6771310372158614,
	"learning_rate": 2.665225593845307e-06,
	"loss": 0.7799,
	"step": 404
	},
	{
	"epoch": 0.691947166595654,
	"grad_norm": 1.7562403180703012,
	"learning_rate": 2.6126783387371545e-06,
	"loss": 0.7471,
	"step": 406
	},
	{
	"epoch": 0.6953557733276523,
	"grad_norm": 1.796003576907647,
	"learning_rate": 2.5604704308526784e-06,
	"loss": 0.7716,
	"step": 408
	},
	{
	"epoch": 0.6987643800596506,
	"grad_norm": 1.6859622044955247,
	"learning_rate": 2.5086092913152533e-06,
	"loss": 0.8003,
	"step": 410
	},
	{
	"epoch": 0.702172986791649,
	"grad_norm": 1.6580555467710547,
	"learning_rate": 2.4571022919566747e-06,
	"loss": 0.7463,
	"step": 412
	},
	{
	"epoch": 0.7055815935236472,
	"grad_norm": 1.5775642264745176,
	"learning_rate": 2.4059567542692688e-06,
	"loss": 0.7329,
	"step": 414
	},
	{
	"epoch": 0.7089902002556455,
	"grad_norm": 1.6145511797148977,
	"learning_rate": 2.3551799483651894e-06,
	"loss": 0.7557,
	"step": 416
	},
	{
	"epoch": 0.7123988069876438,
	"grad_norm": 1.815641939119739,
	"learning_rate": 2.3047790919429895e-06,
	"loss": 0.7618,
	"step": 418
	},
	{
	"epoch": 0.7158074137196421,
	"grad_norm": 1.751085671764699,
	"learning_rate": 2.254761349261676e-06,
	"loss": 0.7307,
	"step": 420
	},
	{
	"epoch": 0.7192160204516403,
	"grad_norm": 1.722113083895161,
	"learning_rate": 2.2051338301223187e-06,
	"loss": 0.7536,
	"step": 422
	},
	{
	"epoch": 0.7226246271836387,
	"grad_norm": 1.5887620089800378,
	"learning_rate": 2.1559035888574433e-06,
	"loss": 0.7139,
	"step": 424
	},
	{
	"epoch": 0.726033233915637,
	"grad_norm": 1.792034913644711,
	"learning_rate": 2.107077623328275e-06,
	"loss": 0.7335,
	"step": 426
	},
	{
	"epoch": 0.7294418406476353,
	"grad_norm": 1.5385202560838132,
	"learning_rate": 2.0586628739300386e-06,
	"loss": 0.7752,
	"step": 428
	},
	{
	"epoch": 0.7328504473796336,
	"grad_norm": 1.554007093824859,
	"learning_rate": 2.0106662226053924e-06,
	"loss": 0.7814,
	"step": 430
	},
	{
	"epoch": 0.7362590541116318,
	"grad_norm": 1.60530576083176,
	"learning_rate": 1.9630944918662122e-06,
	"loss": 0.7552,
	"step": 432
	},
	{
	"epoch": 0.7396676608436301,
	"grad_norm": 1.5045851644291919,
	"learning_rate": 1.9159544438237797e-06,
	"loss": 0.7602,
	"step": 434
	},
	{
	"epoch": 0.7430762675756285,
	"grad_norm": 1.6227515256198517,
	"learning_rate": 1.8692527792276e-06,
	"loss": 0.7695,
	"step": 436
	},
	{
	"epoch": 0.7464848743076268,
	"grad_norm": 1.6302337283434762,
	"learning_rate": 1.8229961365128985e-06,
	"loss": 0.732,
	"step": 438
	},
	{
	"epoch": 0.749893481039625,
	"grad_norm": 1.5834938000524268,
	"learning_rate": 1.7771910908570156e-06,
	"loss": 0.7566,
	"step": 440
	},
	{
	"epoch": 0.7533020877716233,
	"grad_norm": 1.4483744882069087,
	"learning_rate": 1.7318441532447555e-06,
	"loss": 0.8073,
	"step": 442
	},
	{
	"epoch": 0.7567106945036216,
	"grad_norm": 1.6825397102814452,
	"learning_rate": 1.6869617695429024e-06,
	"loss": 0.7579,
	"step": 444
	},
	{
	"epoch": 0.76011930123562,
	"grad_norm": 1.5595787362408242,
	"learning_rate": 1.6425503195839416e-06,
	"loss": 0.8201,
	"step": 446
	},
	{
	"epoch": 0.7635279079676183,
	"grad_norm": 1.6860253511961054,
	"learning_rate": 1.5986161162592173e-06,
	"loss": 0.7515,
	"step": 448
	},
	{
	"epoch": 0.7669365146996165,
	"grad_norm": 1.6217349191290344,
	"learning_rate": 1.555165404621567e-06,
	"loss": 0.7684,
	"step": 450
	},
	{
	"epoch": 0.7703451214316148,
	"grad_norm": 1.7202733697764292,
	"learning_rate": 1.5122043609976282e-06,
	"loss": 0.7335,
	"step": 452
	},
	{
	"epoch": 0.7737537281636131,
	"grad_norm": 1.7746564761962131,
	"learning_rate": 1.4697390921098886e-06,
	"loss": 0.7848,
	"step": 454
	},
	{
	"epoch": 0.7771623348956114,
	"grad_norm": 1.5349803625176617,
	"learning_rate": 1.4277756342086524e-06,
	"loss": 0.7757,
	"step": 456
	},
	{
	"epoch": 0.7805709416276098,
	"grad_norm": 1.6124010704416651,
	"learning_rate": 1.3863199522140053e-06,
	"loss": 0.8031,
	"step": 458
	},
	{
	"epoch": 0.783979548359608,
	"grad_norm": 1.7539891598801893,
	"learning_rate": 1.3453779388679378e-06,
	"loss": 0.7826,
	"step": 460
	},
	{
	"epoch": 0.7873881550916063,
	"grad_norm": 1.6197274527555163,
	"learning_rate": 1.3049554138967052e-06,
	"loss": 0.7706,
	"step": 462
	},
	{
	"epoch": 0.7907967618236046,
	"grad_norm": 1.5679920515099621,
	"learning_rate": 1.2650581231835923e-06,
	"loss": 0.7943,
	"step": 464
	},
	{
	"epoch": 0.7942053685556029,
	"grad_norm": 1.6044331803289653,
	"learning_rate": 1.225691737952152e-06,
	"loss": 0.7558,
	"step": 466
	},
	{
	"epoch": 0.7976139752876011,
	"grad_norm": 1.5903299233431156,
	"learning_rate": 1.1868618539600718e-06,
	"loss": 0.767,
	"step": 468
	},
	{
	"epoch": 0.8010225820195995,
	"grad_norm": 1.5362855174389376,
	"learning_rate": 1.1485739907037546e-06,
	"loss": 0.7838,
	"step": 470
	},
	{
	"epoch": 0.8044311887515978,
	"grad_norm": 1.6430906694597753,
	"learning_rate": 1.1108335906337559e-06,
	"loss": 0.7519,
	"step": 472
	},
	{
	"epoch": 0.8078397954835961,
	"grad_norm": 1.7499785715417322,
	"learning_rate": 1.0736460183811547e-06,
	"loss": 0.7681,
	"step": 474
	},
	{
	"epoch": 0.8112484022155944,
	"grad_norm": 1.7219048713168092,
	"learning_rate": 1.0370165599950026e-06,
	"loss": 0.7552,
	"step": 476
	},
	{
	"epoch": 0.8146570089475926,
	"grad_norm": 1.797003265591149,
	"learning_rate": 1.0009504221909284e-06,
	"loss": 0.7336,
	"step": 478
	},
	{
	"epoch": 0.818065615679591,
	"grad_norm": 1.322267929113636,
	"learning_rate": 9.654527316110323e-07,
	"loss": 0.7478,
	"step": 480
	},
	{
	"epoch": 0.8214742224115893,
	"grad_norm": 1.6060348997953555,
	"learning_rate": 9.305285340951509e-07,
	"loss": 0.7693,
	"step": 482
	},
	{
	"epoch": 0.8248828291435876,
	"grad_norm": 1.589739100394995,
	"learning_rate": 8.961827939636198e-07,
	"loss": 0.762,
	"step": 484
	},
	{
	"epoch": 0.8282914358755858,
	"grad_norm": 1.5977203911776114,
	"learning_rate": 8.624203933116088e-07,
	"loss": 0.7517,
	"step": 486
	},
	{
	"epoch": 0.8317000426075841,
	"grad_norm": 1.4433282291047127,
	"learning_rate": 8.292461313151662e-07,
	"loss": 0.7814,
	"step": 488
	},
	{
	"epoch": 0.8351086493395824,
	"grad_norm": 1.5861673926723674,
	"learning_rate": 7.966647235490222e-07,
	"loss": 0.7988,
	"step": 490
	},
	{
	"epoch": 0.8385172560715808,
	"grad_norm": 1.7785118279929921,
	"learning_rate": 7.646808013163026e-07,
	"loss": 0.7871,
	"step": 492
	},
	{
	"epoch": 0.8419258628035791,
	"grad_norm": 1.4097703537190163,
	"learning_rate": 7.332989109902028e-07,
	"loss": 0.7471,
	"step": 494
	},
	{
	"epoch": 0.8453344695355773,
	"grad_norm": 1.6394050318483955,
	"learning_rate": 7.025235133677455e-07,
	"loss": 0.7793,
	"step": 496
	},
	{
	"epoch": 0.8487430762675756,
	"grad_norm": 1.4882317995688061,
	"learning_rate": 6.723589830356925e-07,
	"loss": 0.7587,
	"step": 498
	},
	{
	"epoch": 0.8521516829995739,
	"grad_norm": 1.5993598547748789,
	"learning_rate": 6.428096077487244e-07,
	"loss": 0.7256,
	"step": 500
	},
	{
	"epoch": 0.8555602897315722,
	"grad_norm": 1.8369103578526638,
	"learning_rate": 6.138795878199467e-07,
	"loss": 0.7346,
	"step": 502
	},
	{
	"epoch": 0.8589688964635706,
	"grad_norm": 1.3809387771101223,
	"learning_rate": 5.855730355238415e-07,
	"loss": 0.7389,
	"step": 504
	},
	{
	"epoch": 0.8623775031955688,
	"grad_norm": 1.606520808055538,
	"learning_rate": 5.578939745117173e-07,
	"loss": 0.7626,
	"step": 506
	},
	{
	"epoch": 0.8657861099275671,
	"grad_norm": 1.4252640716496985,
	"learning_rate": 5.308463392397756e-07,
	"loss": 0.7471,
	"step": 508
	},
	{
	"epoch": 0.8691947166595654,
	"grad_norm": 1.5620326120060357,
	"learning_rate": 5.044339744098348e-07,
	"loss": 0.7919,
	"step": 510
	},
	{
	"epoch": 0.8726033233915637,
	"grad_norm": 1.582860405051893,
	"learning_rate": 4.786606344228317e-07,
	"loss": 0.8001,
	"step": 512
	},
	{
	"epoch": 0.876011930123562,
	"grad_norm": 1.6390377107564265,
	"learning_rate": 4.5352998284514004e-07,
	"loss": 0.7693,
	"step": 514
	},
	{
	"epoch": 0.8794205368555603,
	"grad_norm": 1.5740989498771922,
	"learning_rate": 4.2904559188782334e-07,
	"loss": 0.743,
	"step": 516
	},
	{
	"epoch": 0.8828291435875586,
	"grad_norm": 1.6277724611514495,
	"learning_rate": 4.05210941898847e-07,
	"loss": 0.7204,
	"step": 518
	},
	{
	"epoch": 0.8862377503195569,
	"grad_norm": 1.4964610352537944,
	"learning_rate": 3.82029420868375e-07,
	"loss": 0.7572,
	"step": 520
	},
	{
	"epoch": 0.8896463570515551,
	"grad_norm": 1.5631623729163737,
	"learning_rate": 3.5950432394717296e-07,
	"loss": 0.7451,
	"step": 522
	},
	{
	"epoch": 0.8930549637835534,
	"grad_norm": 1.6364549935760584,
	"learning_rate": 3.3763885297822153e-07,
	"loss": 0.7748,
	"step": 524
	},
	{
	"epoch": 0.8964635705155518,
	"grad_norm": 1.901698775456035,
	"learning_rate": 3.1643611604158687e-07,
	"loss": 0.7467,
	"step": 526
	},
	{
	"epoch": 0.8998721772475501,
	"grad_norm": 1.6649529271504364,
	"learning_rate": 2.958991270126221e-07,
	"loss": 0.7316,
	"step": 528
	},
	{
	"epoch": 0.9032807839795484,
	"grad_norm": 1.7118286972837617,
	"learning_rate": 2.760308051335564e-07,
	"loss": 0.7546,
	"step": 530
	},
	{
	"epoch": 0.9066893907115466,
	"grad_norm": 1.5718606351870987,
	"learning_rate": 2.5683397459854045e-07,
	"loss": 0.7064,
	"step": 532
	},
	{
	"epoch": 0.9100979974435449,
	"grad_norm": 1.3894669570974365,
	"learning_rate": 2.383113641521956e-07,
	"loss": 0.747,
	"step": 534
	},
	{
	"epoch": 0.9135066041755433,
	"grad_norm": 1.4787818567245852,
	"learning_rate": 2.2046560670173912e-07,
	"loss": 0.7447,
	"step": 536
	},
	{
	"epoch": 0.9169152109075416,
	"grad_norm": 1.6746803954544742,
	"learning_rate": 2.0329923894272463e-07,
	"loss": 0.7329,
	"step": 538
	},
	{
	"epoch": 0.9203238176395399,
	"grad_norm": 1.6476225947328762,
	"learning_rate": 1.8681470099846554e-07,
	"loss": 0.7494,
	"step": 540
	},
	{
	"epoch": 0.9237324243715381,
	"grad_norm": 1.4591813987858449,
	"learning_rate": 1.710143360731781e-07,
	"loss": 0.7251,
	"step": 542
	},
	{
	"epoch": 0.9271410311035364,
	"grad_norm": 1.6247674197735347,
	"learning_rate": 1.559003901189099e-07,
	"loss": 0.7689,
	"step": 544
	},
	{
	"epoch": 0.9305496378355347,
	"grad_norm": 1.7245251671767248,
	"learning_rate": 1.4147501151628273e-07,
	"loss": 0.7592,
	"step": 546
	},
	{
	"epoch": 0.9339582445675331,
	"grad_norm": 1.4107246676973044,
	"learning_rate": 1.2774025076911445e-07,
	"loss": 0.7369,
	"step": 548
	},
	{
	"epoch": 0.9373668512995313,
	"grad_norm": 1.6265296555944986,
	"learning_rate": 1.146980602129466e-07,
	"loss": 0.735,
	"step": 550
	},
	{
	"epoch": 0.9407754580315296,
	"grad_norm": 1.7696409777572968,
	"learning_rate": 1.0235029373752758e-07,
	"loss": 0.7895,
	"step": 552
	},
	{
	"epoch": 0.9441840647635279,
	"grad_norm": 1.6245561044198507,
	"learning_rate": 9.069870652329283e-08,
	"loss": 0.8128,
	"step": 554
	},
	{
	"epoch": 0.9475926714955262,
	"grad_norm": 1.5989317111370667,
	"learning_rate": 7.974495479187271e-08,
	"loss": 0.7438,
	"step": 556
	},
	{
	"epoch": 0.9510012782275244,
	"grad_norm": 1.4760047355170607,
	"learning_rate": 6.949059557066596e-08,
	"loss": 0.7748,
	"step": 558
	},
	{
	"epoch": 0.9544098849595228,
	"grad_norm": 1.7501965543108127,
	"learning_rate": 5.993708647151874e-08,
	"loss": 0.775,
	"step": 560
	},
	{
	"epoch": 0.9578184916915211,
	"grad_norm": 1.4579885728200068,
	"learning_rate": 5.108578548352838e-08,
	"loss": 0.7588,
	"step": 562
	},
	{
	"epoch": 0.9612270984235194,
	"grad_norm": 1.5049680408512587,
	"learning_rate": 4.2937950780013174e-08,
	"loss": 0.7671,
	"step": 564
	},
	{
	"epoch": 0.9646357051555177,
	"grad_norm": 1.6438976356754593,
	"learning_rate": 3.549474053966828e-08,
	"loss": 0.7908,
	"step": 566
	},
	{
	"epoch": 0.9680443118875159,
	"grad_norm": 1.4470095982360724,
	"learning_rate": 2.8757212781935218e-08,
	"loss": 0.7466,
	"step": 568
	},
	{
	"epoch": 0.9714529186195143,
	"grad_norm": 1.8960810552290914,
	"learning_rate": 2.2726325216608224e-08,
	"loss": 0.7697,
	"step": 570
	},
	{
	"epoch": 0.9748615253515126,
	"grad_norm": 1.6811694769201933,
	"learning_rate": 1.7402935107702634e-08,
	"loss": 0.7753,
	"step": 572
	},
	{
	"epoch": 0.9782701320835109,
	"grad_norm": 1.487143334303855,
	"learning_rate": 1.2787799151596225e-08,
	"loss": 0.7234,
	"step": 574
	},
	{
	"epoch": 0.9816787388155092,
	"grad_norm": 1.3834640793692283,
	"learning_rate": 8.881573369469153e-09,
	"loss": 0.7403,
	"step": 576
	},
	{
	"epoch": 0.9850873455475074,
	"grad_norm": 1.6803671958080162,
	"learning_rate": 5.684813014052437e-09,
	"loss": 0.7659,
	"step": 578
	},
	{
	"epoch": 0.9884959522795057,
	"grad_norm": 1.556690011938104,
	"learning_rate": 3.197972490704415e-09,
	"loss": 0.7572,
	"step": 580
	},
	{
	"epoch": 0.9919045590115041,
	"grad_norm": 1.7044244176997279,
	"learning_rate": 1.421405292813538e-09,
	"loss": 0.7572,
	"step": 582
	},
	{
	"epoch": 0.9953131657435024,
	"grad_norm": 1.5088989927512526,
	"learning_rate": 3.553639515574414e-10,
	"loss": 0.752,
	"step": 584
	},
	{
	"epoch": 0.9987217724755006,
	"grad_norm": 1.4553290863162762,
	"learning_rate": 0.0,
	"loss": 0.7504,
	"step": 586
	},
	{
	"epoch": 0.9987217724755006,
	"step": 586,
	"total_flos": 6.719053758464e+16,
	"train_loss": 0.8281301904863871,
	"train_runtime": 9052.2037,
	"train_samples_per_second": 1.037,
	"train_steps_per_second": 0.065
	}
	],
	"logging_steps": 2,
	"max_steps": 586,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.719053758464e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}