dataset 0 reward model training

65bb19b verified 12 months ago

110 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.38278977185729596,
	"eval_steps": 10,
	"global_step": 2500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001531159087429184,
	"grad_norm": 270.11077880859375,
	"learning_rate": 4.996172102281427e-06,
	"loss": 1.2137,
	"step": 10
	},
	{
	"epoch": 0.001531159087429184,
	"eval_accuracy": 0.5366216907106497,
	"eval_loss": 1.2146648168563843,
	"eval_runtime": 277.3281,
	"eval_samples_per_second": 162.796,
	"eval_steps_per_second": 20.351,
	"step": 10
	},
	{
	"epoch": 0.003062318174858368,
	"grad_norm": 69.96483612060547,
	"learning_rate": 4.9923442045628545e-06,
	"loss": 0.8743,
	"step": 20
	},
	{
	"epoch": 0.003062318174858368,
	"eval_accuracy": 0.5232508865445948,
	"eval_loss": 1.02613365650177,
	"eval_runtime": 276.3955,
	"eval_samples_per_second": 163.346,
	"eval_steps_per_second": 20.42,
	"step": 20
	},
	{
	"epoch": 0.004593477262287551,
	"grad_norm": 120.09966278076172,
	"learning_rate": 4.988516306844281e-06,
	"loss": 1.0324,
	"step": 30
	},
	{
	"epoch": 0.004593477262287551,
	"eval_accuracy": 0.5467704523151039,
	"eval_loss": 0.9261217713356018,
	"eval_runtime": 277.0496,
	"eval_samples_per_second": 162.96,
	"eval_steps_per_second": 20.372,
	"step": 30
	},
	{
	"epoch": 0.006124636349716736,
	"grad_norm": 76.13516998291016,
	"learning_rate": 4.984688409125709e-06,
	"loss": 0.9529,
	"step": 40
	},
	{
	"epoch": 0.006124636349716736,
	"eval_accuracy": 0.5361401310932641,
	"eval_loss": 0.8699733018875122,
	"eval_runtime": 276.196,
	"eval_samples_per_second": 163.464,
	"eval_steps_per_second": 20.435,
	"step": 40
	},
	{
	"epoch": 0.007655795437145919,
	"grad_norm": 51.14548110961914,
	"learning_rate": 4.980860511407135e-06,
	"loss": 0.8279,
	"step": 50
	},
	{
	"epoch": 0.007655795437145919,
	"eval_accuracy": 0.5364695340501792,
	"eval_loss": 0.8454414010047913,
	"eval_runtime": 277.7047,
	"eval_samples_per_second": 162.576,
	"eval_steps_per_second": 20.324,
	"step": 50
	},
	{
	"epoch": 0.009186954524575103,
	"grad_norm": 29.365215301513672,
	"learning_rate": 4.977032613688563e-06,
	"loss": 0.6843,
	"step": 60
	},
	{
	"epoch": 0.009186954524575103,
	"eval_accuracy": 0.5485189652861546,
	"eval_loss": 0.8400074243545532,
	"eval_runtime": 276.2282,
	"eval_samples_per_second": 163.445,
	"eval_steps_per_second": 20.432,
	"step": 60
	},
	{
	"epoch": 0.010718113612004287,
	"grad_norm": 167.26617431640625,
	"learning_rate": 4.9732047159699895e-06,
	"loss": 0.8245,
	"step": 70
	},
	{
	"epoch": 0.010718113612004287,
	"eval_accuracy": 0.5589761867634938,
	"eval_loss": 1.03753662109375,
	"eval_runtime": 280.6426,
	"eval_samples_per_second": 160.874,
	"eval_steps_per_second": 20.111,
	"step": 70
	},
	{
	"epoch": 0.012249272699433471,
	"grad_norm": 104.5846939086914,
	"learning_rate": 4.969376818251417e-06,
	"loss": 0.8412,
	"step": 80
	},
	{
	"epoch": 0.012249272699433471,
	"eval_accuracy": 0.5760374802939805,
	"eval_loss": 0.7869167923927307,
	"eval_runtime": 281.2402,
	"eval_samples_per_second": 160.532,
	"eval_steps_per_second": 20.068,
	"step": 80
	},
	{
	"epoch": 0.013780431786862656,
	"grad_norm": 35.11406326293945,
	"learning_rate": 4.965548920532844e-06,
	"loss": 0.8279,
	"step": 90
	},
	{
	"epoch": 0.013780431786862656,
	"eval_accuracy": 0.5787423483583751,
	"eval_loss": 0.724981963634491,
	"eval_runtime": 277.5138,
	"eval_samples_per_second": 162.687,
	"eval_steps_per_second": 20.338,
	"step": 90
	},
	{
	"epoch": 0.015311590874291839,
	"grad_norm": 25.292316436767578,
	"learning_rate": 4.961721022814271e-06,
	"loss": 0.6736,
	"step": 100
	},
	{
	"epoch": 0.015311590874291839,
	"eval_accuracy": 0.5338034748948856,
	"eval_loss": 0.8150990009307861,
	"eval_runtime": 278.062,
	"eval_samples_per_second": 162.367,
	"eval_steps_per_second": 20.298,
	"step": 100
	},
	{
	"epoch": 0.016842749961721023,
	"grad_norm": 21.010047912597656,
	"learning_rate": 4.957893125095698e-06,
	"loss": 0.729,
	"step": 110
	},
	{
	"epoch": 0.016842749961721023,
	"eval_accuracy": 0.5677641824249166,
	"eval_loss": 0.833014965057373,
	"eval_runtime": 278.6412,
	"eval_samples_per_second": 162.029,
	"eval_steps_per_second": 20.255,
	"step": 110
	},
	{
	"epoch": 0.018373909049150206,
	"grad_norm": 29.881685256958008,
	"learning_rate": 4.954065227377125e-06,
	"loss": 0.771,
	"step": 120
	},
	{
	"epoch": 0.018373909049150206,
	"eval_accuracy": 0.5731047331765958,
	"eval_loss": 0.7811030745506287,
	"eval_runtime": 276.9087,
	"eval_samples_per_second": 163.043,
	"eval_steps_per_second": 20.382,
	"step": 120
	},
	{
	"epoch": 0.01990506813657939,
	"grad_norm": 15.595231056213379,
	"learning_rate": 4.950237329658552e-06,
	"loss": 0.7783,
	"step": 130
	},
	{
	"epoch": 0.01990506813657939,
	"eval_accuracy": 0.5626015898109594,
	"eval_loss": 0.7167708873748779,
	"eval_runtime": 277.1636,
	"eval_samples_per_second": 162.893,
	"eval_steps_per_second": 20.363,
	"step": 130
	},
	{
	"epoch": 0.021436227224008574,
	"grad_norm": 22.25090789794922,
	"learning_rate": 4.946409431939979e-06,
	"loss": 0.6794,
	"step": 140
	},
	{
	"epoch": 0.021436227224008574,
	"eval_accuracy": 0.5578002997964069,
	"eval_loss": 0.7202938795089722,
	"eval_runtime": 278.0355,
	"eval_samples_per_second": 162.382,
	"eval_steps_per_second": 20.3,
	"step": 140
	},
	{
	"epoch": 0.022967386311437757,
	"grad_norm": 37.13331604003906,
	"learning_rate": 4.942581534221406e-06,
	"loss": 0.7133,
	"step": 150
	},
	{
	"epoch": 0.022967386311437757,
	"eval_accuracy": 0.5772544642857143,
	"eval_loss": 0.7133862972259521,
	"eval_runtime": 277.8264,
	"eval_samples_per_second": 162.504,
	"eval_steps_per_second": 20.315,
	"step": 150
	},
	{
	"epoch": 0.024498545398866943,
	"grad_norm": 28.552654266357422,
	"learning_rate": 4.9387536365028335e-06,
	"loss": 0.7334,
	"step": 160
	},
	{
	"epoch": 0.024498545398866943,
	"eval_accuracy": 0.5714637421665174,
	"eval_loss": 0.7050605416297913,
	"eval_runtime": 277.1231,
	"eval_samples_per_second": 162.917,
	"eval_steps_per_second": 20.366,
	"step": 160
	},
	{
	"epoch": 0.026029704486296126,
	"grad_norm": 18.05495834350586,
	"learning_rate": 4.93492573878426e-06,
	"loss": 0.7056,
	"step": 170
	},
	{
	"epoch": 0.026029704486296126,
	"eval_accuracy": 0.5888312385382655,
	"eval_loss": 0.6785433888435364,
	"eval_runtime": 275.2348,
	"eval_samples_per_second": 164.034,
	"eval_steps_per_second": 20.506,
	"step": 170
	},
	{
	"epoch": 0.02756086357372531,
	"grad_norm": 14.354559898376465,
	"learning_rate": 4.931097841065688e-06,
	"loss": 0.6317,
	"step": 180
	},
	{
	"epoch": 0.02756086357372531,
	"eval_accuracy": 0.5905926454837558,
	"eval_loss": 0.6833683252334595,
	"eval_runtime": 278.3913,
	"eval_samples_per_second": 162.175,
	"eval_steps_per_second": 20.274,
	"step": 180
	},
	{
	"epoch": 0.029092022661154494,
	"grad_norm": 10.222257614135742,
	"learning_rate": 4.927269943347114e-06,
	"loss": 0.6975,
	"step": 190
	},
	{
	"epoch": 0.029092022661154494,
	"eval_accuracy": 0.5688126660860633,
	"eval_loss": 0.6987228989601135,
	"eval_runtime": 278.0516,
	"eval_samples_per_second": 162.373,
	"eval_steps_per_second": 20.298,
	"step": 190
	},
	{
	"epoch": 0.030623181748583677,
	"grad_norm": 19.388473510742188,
	"learning_rate": 4.923442045628542e-06,
	"loss": 0.675,
	"step": 200
	},
	{
	"epoch": 0.030623181748583677,
	"eval_accuracy": 0.5726792755463477,
	"eval_loss": 0.7145602107048035,
	"eval_runtime": 280.8737,
	"eval_samples_per_second": 160.741,
	"eval_steps_per_second": 20.094,
	"step": 200
	},
	{
	"epoch": 0.03215434083601286,
	"grad_norm": 21.06436538696289,
	"learning_rate": 4.919614147909968e-06,
	"loss": 0.6576,
	"step": 210
	},
	{
	"epoch": 0.03215434083601286,
	"eval_accuracy": 0.5798941563639598,
	"eval_loss": 0.7224599123001099,
	"eval_runtime": 276.3195,
	"eval_samples_per_second": 163.391,
	"eval_steps_per_second": 20.426,
	"step": 210
	},
	{
	"epoch": 0.033685499923442046,
	"grad_norm": 14.679203987121582,
	"learning_rate": 4.915786250191396e-06,
	"loss": 0.631,
	"step": 220
	},
	{
	"epoch": 0.033685499923442046,
	"eval_accuracy": 0.5863426131815351,
	"eval_loss": 0.6974319815635681,
	"eval_runtime": 275.464,
	"eval_samples_per_second": 163.898,
	"eval_steps_per_second": 20.489,
	"step": 220
	},
	{
	"epoch": 0.03521665901087123,
	"grad_norm": 22.14579963684082,
	"learning_rate": 4.9119583524728225e-06,
	"loss": 0.7267,
	"step": 230
	},
	{
	"epoch": 0.03521665901087123,
	"eval_accuracy": 0.5820226223144368,
	"eval_loss": 0.7019667625427246,
	"eval_runtime": 276.7093,
	"eval_samples_per_second": 163.16,
	"eval_steps_per_second": 20.397,
	"step": 230
	},
	{
	"epoch": 0.03674781809830041,
	"grad_norm": 7.788635730743408,
	"learning_rate": 4.908130454754249e-06,
	"loss": 0.6079,
	"step": 240
	},
	{
	"epoch": 0.03674781809830041,
	"eval_accuracy": 0.5955016145195412,
	"eval_loss": 0.6954487562179565,
	"eval_runtime": 279.6934,
	"eval_samples_per_second": 161.42,
	"eval_steps_per_second": 20.179,
	"step": 240
	},
	{
	"epoch": 0.0382789771857296,
	"grad_norm": 10.69842529296875,
	"learning_rate": 4.904302557035676e-06,
	"loss": 0.6862,
	"step": 250
	},
	{
	"epoch": 0.0382789771857296,
	"eval_accuracy": 0.5917668001780151,
	"eval_loss": 0.7000778913497925,
	"eval_runtime": 279.4881,
	"eval_samples_per_second": 161.538,
	"eval_steps_per_second": 20.194,
	"step": 250
	},
	{
	"epoch": 0.03981013627315878,
	"grad_norm": 11.247802734375,
	"learning_rate": 4.900474659317103e-06,
	"loss": 0.6138,
	"step": 260
	},
	{
	"epoch": 0.03981013627315878,
	"eval_accuracy": 0.5918217597225002,
	"eval_loss": 0.7174475789070129,
	"eval_runtime": 279.259,
	"eval_samples_per_second": 161.671,
	"eval_steps_per_second": 20.211,
	"step": 260
	},
	{
	"epoch": 0.04134129536058796,
	"grad_norm": 14.550101280212402,
	"learning_rate": 4.89664676159853e-06,
	"loss": 0.7057,
	"step": 270
	},
	{
	"epoch": 0.04134129536058796,
	"eval_accuracy": 0.5835486457590877,
	"eval_loss": 0.7064123749732971,
	"eval_runtime": 279.3626,
	"eval_samples_per_second": 161.611,
	"eval_steps_per_second": 20.203,
	"step": 270
	},
	{
	"epoch": 0.04287245444801715,
	"grad_norm": 10.610974311828613,
	"learning_rate": 4.8928188638799574e-06,
	"loss": 0.6402,
	"step": 280
	},
	{
	"epoch": 0.04287245444801715,
	"eval_accuracy": 0.565008347245409,
	"eval_loss": 0.7342826128005981,
	"eval_runtime": 276.5673,
	"eval_samples_per_second": 163.244,
	"eval_steps_per_second": 20.407,
	"step": 280
	},
	{
	"epoch": 0.044403613535446335,
	"grad_norm": 16.33481216430664,
	"learning_rate": 4.888990966161384e-06,
	"loss": 0.6989,
	"step": 290
	},
	{
	"epoch": 0.044403613535446335,
	"eval_accuracy": 0.5488992095744206,
	"eval_loss": 0.7351524829864502,
	"eval_runtime": 277.0818,
	"eval_samples_per_second": 162.941,
	"eval_steps_per_second": 20.369,
	"step": 290
	},
	{
	"epoch": 0.045934772622875514,
	"grad_norm": 7.8038530349731445,
	"learning_rate": 4.8851630684428116e-06,
	"loss": 0.8763,
	"step": 300
	},
	{
	"epoch": 0.045934772622875514,
	"eval_accuracy": 0.5477137400292102,
	"eval_loss": 0.7000990509986877,
	"eval_runtime": 276.7186,
	"eval_samples_per_second": 163.155,
	"eval_steps_per_second": 20.396,
	"step": 300
	},
	{
	"epoch": 0.0474659317103047,
	"grad_norm": 7.672823429107666,
	"learning_rate": 4.881335170724238e-06,
	"loss": 0.6821,
	"step": 310
	},
	{
	"epoch": 0.0474659317103047,
	"eval_accuracy": 0.5508064880495188,
	"eval_loss": 0.6869771480560303,
	"eval_runtime": 276.0483,
	"eval_samples_per_second": 163.551,
	"eval_steps_per_second": 20.446,
	"step": 310
	},
	{
	"epoch": 0.048997090797733886,
	"grad_norm": 6.58916711807251,
	"learning_rate": 4.877507273005666e-06,
	"loss": 0.6771,
	"step": 320
	},
	{
	"epoch": 0.048997090797733886,
	"eval_accuracy": 0.5899522937439237,
	"eval_loss": 0.6720254421234131,
	"eval_runtime": 276.7493,
	"eval_samples_per_second": 163.137,
	"eval_steps_per_second": 20.394,
	"step": 320
	},
	{
	"epoch": 0.050528249885163065,
	"grad_norm": 5.778668403625488,
	"learning_rate": 4.873679375287092e-06,
	"loss": 0.6747,
	"step": 330
	},
	{
	"epoch": 0.050528249885163065,
	"eval_accuracy": 0.59793675409615,
	"eval_loss": 0.662046492099762,
	"eval_runtime": 275.7574,
	"eval_samples_per_second": 163.724,
	"eval_steps_per_second": 20.467,
	"step": 330
	},
	{
	"epoch": 0.05205940897259225,
	"grad_norm": 6.639097690582275,
	"learning_rate": 4.86985147756852e-06,
	"loss": 0.6283,
	"step": 340
	},
	{
	"epoch": 0.05205940897259225,
	"eval_accuracy": 0.5966143497757848,
	"eval_loss": 0.6647851467132568,
	"eval_runtime": 274.2604,
	"eval_samples_per_second": 164.617,
	"eval_steps_per_second": 20.579,
	"step": 340
	},
	{
	"epoch": 0.05359056806002144,
	"grad_norm": 7.865772724151611,
	"learning_rate": 4.8660235798499465e-06,
	"loss": 0.6396,
	"step": 350
	},
	{
	"epoch": 0.05359056806002144,
	"eval_accuracy": 0.5950059134626113,
	"eval_loss": 0.6750874519348145,
	"eval_runtime": 275.118,
	"eval_samples_per_second": 164.104,
	"eval_steps_per_second": 20.515,
	"step": 350
	},
	{
	"epoch": 0.05512172714745062,
	"grad_norm": 12.208525657653809,
	"learning_rate": 4.862195682131374e-06,
	"loss": 0.6802,
	"step": 360
	},
	{
	"epoch": 0.05512172714745062,
	"eval_accuracy": 0.5931904836228232,
	"eval_loss": 0.6721886992454529,
	"eval_runtime": 276.9399,
	"eval_samples_per_second": 163.025,
	"eval_steps_per_second": 20.38,
	"step": 360
	},
	{
	"epoch": 0.0566528862348798,
	"grad_norm": 21.355411529541016,
	"learning_rate": 4.858367784412801e-06,
	"loss": 0.7074,
	"step": 370
	},
	{
	"epoch": 0.0566528862348798,
	"eval_accuracy": 0.5865997770345597,
	"eval_loss": 0.6712462306022644,
	"eval_runtime": 277.2497,
	"eval_samples_per_second": 162.842,
	"eval_steps_per_second": 20.357,
	"step": 370
	},
	{
	"epoch": 0.05818404532230899,
	"grad_norm": 12.31411075592041,
	"learning_rate": 4.854539886694228e-06,
	"loss": 0.7007,
	"step": 380
	},
	{
	"epoch": 0.05818404532230899,
	"eval_accuracy": 0.5599766601584416,
	"eval_loss": 0.6877785921096802,
	"eval_runtime": 278.0283,
	"eval_samples_per_second": 162.386,
	"eval_steps_per_second": 20.3,
	"step": 380
	},
	{
	"epoch": 0.059715204409738175,
	"grad_norm": 8.385506629943848,
	"learning_rate": 4.850711988975655e-06,
	"loss": 0.6589,
	"step": 390
	},
	{
	"epoch": 0.059715204409738175,
	"eval_accuracy": 0.5800094486063305,
	"eval_loss": 0.6738844513893127,
	"eval_runtime": 279.2165,
	"eval_samples_per_second": 161.695,
	"eval_steps_per_second": 20.214,
	"step": 390
	},
	{
	"epoch": 0.061246363497167354,
	"grad_norm": 9.52385139465332,
	"learning_rate": 4.846884091257082e-06,
	"loss": 0.6144,
	"step": 400
	},
	{
	"epoch": 0.061246363497167354,
	"eval_accuracy": 0.5881171772160372,
	"eval_loss": 0.6737349033355713,
	"eval_runtime": 277.7475,
	"eval_samples_per_second": 162.551,
	"eval_steps_per_second": 20.321,
	"step": 400
	},
	{
	"epoch": 0.06277752258459654,
	"grad_norm": 9.535078048706055,
	"learning_rate": 4.843056193538509e-06,
	"loss": 0.6653,
	"step": 410
	},
	{
	"epoch": 0.06277752258459654,
	"eval_accuracy": 0.5889365121885882,
	"eval_loss": 0.6895773410797119,
	"eval_runtime": 277.0672,
	"eval_samples_per_second": 162.95,
	"eval_steps_per_second": 20.371,
	"step": 410
	},
	{
	"epoch": 0.06430868167202572,
	"grad_norm": 13.276960372924805,
	"learning_rate": 4.839228295819936e-06,
	"loss": 0.6033,
	"step": 420
	},
	{
	"epoch": 0.06430868167202572,
	"eval_accuracy": 0.5839217088211637,
	"eval_loss": 0.7118301391601562,
	"eval_runtime": 277.1875,
	"eval_samples_per_second": 162.879,
	"eval_steps_per_second": 20.362,
	"step": 420
	},
	{
	"epoch": 0.06583984075945491,
	"grad_norm": 11.221186637878418,
	"learning_rate": 4.835400398101363e-06,
	"loss": 0.6102,
	"step": 430
	},
	{
	"epoch": 0.06583984075945491,
	"eval_accuracy": 0.5721997903049502,
	"eval_loss": 0.7291567325592041,
	"eval_runtime": 277.8978,
	"eval_samples_per_second": 162.463,
	"eval_steps_per_second": 20.31,
	"step": 430
	},
	{
	"epoch": 0.06737099984688409,
	"grad_norm": 12.54729175567627,
	"learning_rate": 4.8315725003827905e-06,
	"loss": 0.7269,
	"step": 440
	},
	{
	"epoch": 0.06737099984688409,
	"eval_accuracy": 0.5739306990338918,
	"eval_loss": 0.7139677405357361,
	"eval_runtime": 278.0873,
	"eval_samples_per_second": 162.352,
	"eval_steps_per_second": 20.296,
	"step": 440
	},
	{
	"epoch": 0.06890215893431327,
	"grad_norm": 7.917787075042725,
	"learning_rate": 4.827744602664217e-06,
	"loss": 0.625,
	"step": 450
	},
	{
	"epoch": 0.06890215893431327,
	"eval_accuracy": 0.5735848215281029,
	"eval_loss": 0.7001749873161316,
	"eval_runtime": 274.8459,
	"eval_samples_per_second": 164.267,
	"eval_steps_per_second": 20.535,
	"step": 450
	},
	{
	"epoch": 0.07043331802174246,
	"grad_norm": 9.970056533813477,
	"learning_rate": 4.823916704945645e-06,
	"loss": 0.6168,
	"step": 460
	},
	{
	"epoch": 0.07043331802174246,
	"eval_accuracy": 0.5706444127097465,
	"eval_loss": 0.7068008184432983,
	"eval_runtime": 275.5547,
	"eval_samples_per_second": 163.844,
	"eval_steps_per_second": 20.482,
	"step": 460
	},
	{
	"epoch": 0.07196447710917164,
	"grad_norm": 14.022720336914062,
	"learning_rate": 4.820088807227071e-06,
	"loss": 0.5978,
	"step": 470
	},
	{
	"epoch": 0.07196447710917164,
	"eval_accuracy": 0.5733915328597199,
	"eval_loss": 0.7220426797866821,
	"eval_runtime": 276.0799,
	"eval_samples_per_second": 163.532,
	"eval_steps_per_second": 20.443,
	"step": 470
	},
	{
	"epoch": 0.07349563619660082,
	"grad_norm": 15.758445739746094,
	"learning_rate": 4.816260909508498e-06,
	"loss": 0.6583,
	"step": 480
	},
	{
	"epoch": 0.07349563619660082,
	"eval_accuracy": 0.5795259437643544,
	"eval_loss": 0.7102298736572266,
	"eval_runtime": 277.2435,
	"eval_samples_per_second": 162.846,
	"eval_steps_per_second": 20.358,
	"step": 480
	},
	{
	"epoch": 0.07502679528403002,
	"grad_norm": 9.483732223510742,
	"learning_rate": 4.8124330117899254e-06,
	"loss": 0.6455,
	"step": 490
	},
	{
	"epoch": 0.07502679528403002,
	"eval_accuracy": 0.5872728491919802,
	"eval_loss": 0.6983802318572998,
	"eval_runtime": 277.7989,
	"eval_samples_per_second": 162.52,
	"eval_steps_per_second": 20.317,
	"step": 490
	},
	{
	"epoch": 0.0765579543714592,
	"grad_norm": 11.97518539428711,
	"learning_rate": 4.808605114071352e-06,
	"loss": 0.6796,
	"step": 500
	},
	{
	"epoch": 0.0765579543714592,
	"eval_accuracy": 0.5854998659876709,
	"eval_loss": 0.7021452188491821,
	"eval_runtime": 278.7441,
	"eval_samples_per_second": 161.969,
	"eval_steps_per_second": 20.248,
	"step": 500
	},
	{
	"epoch": 0.07808911345888837,
	"grad_norm": 10.056512832641602,
	"learning_rate": 4.8047772163527796e-06,
	"loss": 0.6509,
	"step": 510
	},
	{
	"epoch": 0.07808911345888837,
	"eval_accuracy": 0.57778125558934,
	"eval_loss": 0.7093414664268494,
	"eval_runtime": 286.7453,
	"eval_samples_per_second": 157.45,
	"eval_steps_per_second": 19.683,
	"step": 510
	},
	{
	"epoch": 0.07962027254631757,
	"grad_norm": 11.229554176330566,
	"learning_rate": 4.800949318634206e-06,
	"loss": 0.5777,
	"step": 520
	},
	{
	"epoch": 0.07962027254631757,
	"eval_accuracy": 0.5840340820377846,
	"eval_loss": 0.7045831084251404,
	"eval_runtime": 284.2635,
	"eval_samples_per_second": 158.824,
	"eval_steps_per_second": 19.855,
	"step": 520
	},
	{
	"epoch": 0.08115143163374675,
	"grad_norm": 16.119789123535156,
	"learning_rate": 4.797121420915634e-06,
	"loss": 0.6145,
	"step": 530
	},
	{
	"epoch": 0.08115143163374675,
	"eval_accuracy": 0.5854364178573018,
	"eval_loss": 0.7088597416877747,
	"eval_runtime": 279.337,
	"eval_samples_per_second": 161.626,
	"eval_steps_per_second": 20.205,
	"step": 530
	},
	{
	"epoch": 0.08268259072117592,
	"grad_norm": 14.363024711608887,
	"learning_rate": 4.79329352319706e-06,
	"loss": 0.6973,
	"step": 540
	},
	{
	"epoch": 0.08268259072117592,
	"eval_accuracy": 0.5904418635696169,
	"eval_loss": 0.6892778277397156,
	"eval_runtime": 279.0651,
	"eval_samples_per_second": 161.783,
	"eval_steps_per_second": 20.225,
	"step": 540
	},
	{
	"epoch": 0.08421374980860512,
	"grad_norm": 12.421643257141113,
	"learning_rate": 4.789465625478488e-06,
	"loss": 0.6444,
	"step": 550
	},
	{
	"epoch": 0.08421374980860512,
	"eval_accuracy": 0.5964966878584449,
	"eval_loss": 0.6805678009986877,
	"eval_runtime": 277.6804,
	"eval_samples_per_second": 162.59,
	"eval_steps_per_second": 20.326,
	"step": 550
	},
	{
	"epoch": 0.0857449088960343,
	"grad_norm": 13.641290664672852,
	"learning_rate": 4.7856377277599145e-06,
	"loss": 0.6197,
	"step": 560
	},
	{
	"epoch": 0.0857449088960343,
	"eval_accuracy": 0.6008450077829665,
	"eval_loss": 0.6836313605308533,
	"eval_runtime": 278.3481,
	"eval_samples_per_second": 162.2,
	"eval_steps_per_second": 20.277,
	"step": 560
	},
	{
	"epoch": 0.08727606798346348,
	"grad_norm": 11.80357837677002,
	"learning_rate": 4.781809830041342e-06,
	"loss": 0.6241,
	"step": 570
	},
	{
	"epoch": 0.08727606798346348,
	"eval_accuracy": 0.601209668453003,
	"eval_loss": 0.6760628819465637,
	"eval_runtime": 279.0499,
	"eval_samples_per_second": 161.792,
	"eval_steps_per_second": 20.226,
	"step": 570
	},
	{
	"epoch": 0.08880722707089267,
	"grad_norm": 10.733393669128418,
	"learning_rate": 4.777981932322769e-06,
	"loss": 0.713,
	"step": 580
	},
	{
	"epoch": 0.08880722707089267,
	"eval_accuracy": 0.5967536955697755,
	"eval_loss": 0.6692460775375366,
	"eval_runtime": 279.8616,
	"eval_samples_per_second": 161.323,
	"eval_steps_per_second": 20.167,
	"step": 580
	},
	{
	"epoch": 0.09033838615832185,
	"grad_norm": 11.116392135620117,
	"learning_rate": 4.774154034604196e-06,
	"loss": 0.6109,
	"step": 590
	},
	{
	"epoch": 0.09033838615832185,
	"eval_accuracy": 0.5920902946621758,
	"eval_loss": 0.674372673034668,
	"eval_runtime": 276.8783,
	"eval_samples_per_second": 163.061,
	"eval_steps_per_second": 20.384,
	"step": 590
	},
	{
	"epoch": 0.09186954524575103,
	"grad_norm": 9.64384937286377,
	"learning_rate": 4.770326136885623e-06,
	"loss": 0.6704,
	"step": 600
	},
	{
	"epoch": 0.09186954524575103,
	"eval_accuracy": 0.586066763425254,
	"eval_loss": 0.6863875389099121,
	"eval_runtime": 279.7067,
	"eval_samples_per_second": 161.412,
	"eval_steps_per_second": 20.178,
	"step": 600
	},
	{
	"epoch": 0.09340070433318022,
	"grad_norm": 13.213354110717773,
	"learning_rate": 4.76649823916705e-06,
	"loss": 0.6605,
	"step": 610
	},
	{
	"epoch": 0.09340070433318022,
	"eval_accuracy": 0.5854859919317092,
	"eval_loss": 0.6997817158699036,
	"eval_runtime": 278.2489,
	"eval_samples_per_second": 162.258,
	"eval_steps_per_second": 20.284,
	"step": 610
	},
	{
	"epoch": 0.0949318634206094,
	"grad_norm": 8.854043006896973,
	"learning_rate": 4.762670341448477e-06,
	"loss": 0.6467,
	"step": 620
	},
	{
	"epoch": 0.0949318634206094,
	"eval_accuracy": 0.5874072750022343,
	"eval_loss": 0.6911128759384155,
	"eval_runtime": 279.0402,
	"eval_samples_per_second": 161.797,
	"eval_steps_per_second": 20.226,
	"step": 620
	},
	{
	"epoch": 0.09646302250803858,
	"grad_norm": 8.668028831481934,
	"learning_rate": 4.758842443729904e-06,
	"loss": 0.653,
	"step": 630
	},
	{
	"epoch": 0.09646302250803858,
	"eval_accuracy": 0.5896617883276816,
	"eval_loss": 0.683178186416626,
	"eval_runtime": 278.9227,
	"eval_samples_per_second": 161.866,
	"eval_steps_per_second": 20.235,
	"step": 630
	},
	{
	"epoch": 0.09799418159546777,
	"grad_norm": 8.654230117797852,
	"learning_rate": 4.755014546011331e-06,
	"loss": 0.6292,
	"step": 640
	},
	{
	"epoch": 0.09799418159546777,
	"eval_accuracy": 0.5951244535641003,
	"eval_loss": 0.6820477843284607,
	"eval_runtime": 279.422,
	"eval_samples_per_second": 161.576,
	"eval_steps_per_second": 20.199,
	"step": 640
	},
	{
	"epoch": 0.09952534068289695,
	"grad_norm": 12.051166534423828,
	"learning_rate": 4.7511866482927585e-06,
	"loss": 0.6319,
	"step": 650
	},
	{
	"epoch": 0.09952534068289695,
	"eval_accuracy": 0.5965489637996976,
	"eval_loss": 0.6887350678443909,
	"eval_runtime": 279.2633,
	"eval_samples_per_second": 161.668,
	"eval_steps_per_second": 20.21,
	"step": 650
	},
	{
	"epoch": 0.10105649977032613,
	"grad_norm": 10.261021614074707,
	"learning_rate": 4.747358750574185e-06,
	"loss": 0.687,
	"step": 660
	},
	{
	"epoch": 0.10105649977032613,
	"eval_accuracy": 0.5923518675154699,
	"eval_loss": 0.6835098266601562,
	"eval_runtime": 279.8292,
	"eval_samples_per_second": 161.341,
	"eval_steps_per_second": 20.169,
	"step": 660
	},
	{
	"epoch": 0.10258765885775532,
	"grad_norm": 9.035223007202148,
	"learning_rate": 4.743530852855613e-06,
	"loss": 0.6705,
	"step": 670
	},
	{
	"epoch": 0.10258765885775532,
	"eval_accuracy": 0.5858986422906305,
	"eval_loss": 0.6886019706726074,
	"eval_runtime": 279.2751,
	"eval_samples_per_second": 161.661,
	"eval_steps_per_second": 20.209,
	"step": 670
	},
	{
	"epoch": 0.1041188179451845,
	"grad_norm": 7.328871726989746,
	"learning_rate": 4.739702955137039e-06,
	"loss": 0.565,
	"step": 680
	},
	{
	"epoch": 0.1041188179451845,
	"eval_accuracy": 0.5869302949061662,
	"eval_loss": 0.7063195109367371,
	"eval_runtime": 279.7163,
	"eval_samples_per_second": 161.406,
	"eval_steps_per_second": 20.178,
	"step": 680
	},
	{
	"epoch": 0.10564997703261368,
	"grad_norm": 21.045848846435547,
	"learning_rate": 4.735875057418467e-06,
	"loss": 0.6541,
	"step": 690
	},
	{
	"epoch": 0.10564997703261368,
	"eval_accuracy": 0.5889380826306538,
	"eval_loss": 0.7606213092803955,
	"eval_runtime": 280.23,
	"eval_samples_per_second": 161.111,
	"eval_steps_per_second": 20.141,
	"step": 690
	},
	{
	"epoch": 0.10718113612004287,
	"grad_norm": 12.267477989196777,
	"learning_rate": 4.732047159699893e-06,
	"loss": 0.7604,
	"step": 700
	},
	{
	"epoch": 0.10718113612004287,
	"eval_accuracy": 0.5878412959789937,
	"eval_loss": 0.7354863882064819,
	"eval_runtime": 280.1519,
	"eval_samples_per_second": 161.155,
	"eval_steps_per_second": 20.146,
	"step": 700
	},
	{
	"epoch": 0.10871229520747205,
	"grad_norm": 8.619697570800781,
	"learning_rate": 4.72821926198132e-06,
	"loss": 0.6401,
	"step": 710
	},
	{
	"epoch": 0.10871229520747205,
	"eval_accuracy": 0.5879179670084708,
	"eval_loss": 0.699480414390564,
	"eval_runtime": 282.5216,
	"eval_samples_per_second": 159.804,
	"eval_steps_per_second": 19.977,
	"step": 710
	},
	{
	"epoch": 0.11024345429490125,
	"grad_norm": 6.322849750518799,
	"learning_rate": 4.724391364262747e-06,
	"loss": 0.6129,
	"step": 720
	},
	{
	"epoch": 0.11024345429490125,
	"eval_accuracy": 0.5929760364139408,
	"eval_loss": 0.688232958316803,
	"eval_runtime": 278.9404,
	"eval_samples_per_second": 161.855,
	"eval_steps_per_second": 20.234,
	"step": 720
	},
	{
	"epoch": 0.11177461338233043,
	"grad_norm": 9.213967323303223,
	"learning_rate": 4.720563466544174e-06,
	"loss": 0.6502,
	"step": 730
	},
	{
	"epoch": 0.11177461338233043,
	"eval_accuracy": 0.5926983206583555,
	"eval_loss": 0.6913579702377319,
	"eval_runtime": 277.6463,
	"eval_samples_per_second": 162.61,
	"eval_steps_per_second": 20.328,
	"step": 730
	},
	{
	"epoch": 0.1133057724697596,
	"grad_norm": 7.4615349769592285,
	"learning_rate": 4.716735568825601e-06,
	"loss": 0.6199,
	"step": 740
	},
	{
	"epoch": 0.1133057724697596,
	"eval_accuracy": 0.5917493589028877,
	"eval_loss": 0.6992406845092773,
	"eval_runtime": 278.7175,
	"eval_samples_per_second": 161.985,
	"eval_steps_per_second": 20.25,
	"step": 740
	},
	{
	"epoch": 0.1148369315571888,
	"grad_norm": 11.835037231445312,
	"learning_rate": 4.712907671107028e-06,
	"loss": 0.5761,
	"step": 750
	},
	{
	"epoch": 0.1148369315571888,
	"eval_accuracy": 0.5893469260561813,
	"eval_loss": 0.7284606099128723,
	"eval_runtime": 279.7689,
	"eval_samples_per_second": 161.376,
	"eval_steps_per_second": 20.174,
	"step": 750
	},
	{
	"epoch": 0.11636809064461798,
	"grad_norm": 9.900166511535645,
	"learning_rate": 4.709079773388455e-06,
	"loss": 0.6017,
	"step": 760
	},
	{
	"epoch": 0.11636809064461798,
	"eval_accuracy": 0.5889316629208483,
	"eval_loss": 0.7434907555580139,
	"eval_runtime": 281.7435,
	"eval_samples_per_second": 160.245,
	"eval_steps_per_second": 20.032,
	"step": 760
	},
	{
	"epoch": 0.11789924973204716,
	"grad_norm": 12.274435997009277,
	"learning_rate": 4.7052518756698825e-06,
	"loss": 0.5757,
	"step": 770
	},
	{
	"epoch": 0.11789924973204716,
	"eval_accuracy": 0.5897960545337277,
	"eval_loss": 0.7581047415733337,
	"eval_runtime": 279.4034,
	"eval_samples_per_second": 161.587,
	"eval_steps_per_second": 20.2,
	"step": 770
	},
	{
	"epoch": 0.11943040881947635,
	"grad_norm": 10.7369384765625,
	"learning_rate": 4.701423977951309e-06,
	"loss": 0.6231,
	"step": 780
	},
	{
	"epoch": 0.11943040881947635,
	"eval_accuracy": 0.5952973044984236,
	"eval_loss": 0.7496009469032288,
	"eval_runtime": 279.5031,
	"eval_samples_per_second": 161.529,
	"eval_steps_per_second": 20.193,
	"step": 780
	},
	{
	"epoch": 0.12096156790690553,
	"grad_norm": 11.4940824508667,
	"learning_rate": 4.697596080232737e-06,
	"loss": 0.6995,
	"step": 790
	},
	{
	"epoch": 0.12096156790690553,
	"eval_accuracy": 0.5959564541213064,
	"eval_loss": 0.7335057258605957,
	"eval_runtime": 279.459,
	"eval_samples_per_second": 161.555,
	"eval_steps_per_second": 20.196,
	"step": 790
	},
	{
	"epoch": 0.12249272699433471,
	"grad_norm": 8.03961181640625,
	"learning_rate": 4.693768182514163e-06,
	"loss": 0.6434,
	"step": 800
	},
	{
	"epoch": 0.12249272699433471,
	"eval_accuracy": 0.5859463796215819,
	"eval_loss": 0.728286623954773,
	"eval_runtime": 280.7002,
	"eval_samples_per_second": 160.841,
	"eval_steps_per_second": 20.107,
	"step": 800
	},
	{
	"epoch": 0.1240238860817639,
	"grad_norm": 8.879143714904785,
	"learning_rate": 4.689940284795591e-06,
	"loss": 0.7005,
	"step": 810
	},
	{
	"epoch": 0.1240238860817639,
	"eval_accuracy": 0.5771607003457121,
	"eval_loss": 0.7147245407104492,
	"eval_runtime": 276.8558,
	"eval_samples_per_second": 163.074,
	"eval_steps_per_second": 20.386,
	"step": 810
	},
	{
	"epoch": 0.12555504516919308,
	"grad_norm": 7.983788967132568,
	"learning_rate": 4.686112387077017e-06,
	"loss": 0.6639,
	"step": 820
	},
	{
	"epoch": 0.12555504516919308,
	"eval_accuracy": 0.5777222309014216,
	"eval_loss": 0.6992844939231873,
	"eval_runtime": 278.3704,
	"eval_samples_per_second": 162.187,
	"eval_steps_per_second": 20.275,
	"step": 820
	},
	{
	"epoch": 0.12708620425662226,
	"grad_norm": 6.068845748901367,
	"learning_rate": 4.682284489358445e-06,
	"loss": 0.6211,
	"step": 830
	},
	{
	"epoch": 0.12708620425662226,
	"eval_accuracy": 0.5828836462560764,
	"eval_loss": 0.689354419708252,
	"eval_runtime": 278.7274,
	"eval_samples_per_second": 161.979,
	"eval_steps_per_second": 20.249,
	"step": 830
	},
	{
	"epoch": 0.12861736334405144,
	"grad_norm": 7.345738887786865,
	"learning_rate": 4.6784565916398715e-06,
	"loss": 0.6456,
	"step": 840
	},
	{
	"epoch": 0.12861736334405144,
	"eval_accuracy": 0.5853175045103236,
	"eval_loss": 0.6859722137451172,
	"eval_runtime": 279.9849,
	"eval_samples_per_second": 161.252,
	"eval_steps_per_second": 20.158,
	"step": 840
	},
	{
	"epoch": 0.13014852243148062,
	"grad_norm": 11.570878028869629,
	"learning_rate": 4.674628693921299e-06,
	"loss": 0.6255,
	"step": 850
	},
	{
	"epoch": 0.13014852243148062,
	"eval_accuracy": 0.5951967978652435,
	"eval_loss": 0.6828535199165344,
	"eval_runtime": 281.2947,
	"eval_samples_per_second": 160.501,
	"eval_steps_per_second": 20.064,
	"step": 850
	},
	{
	"epoch": 0.13167968151890982,
	"grad_norm": 10.029556274414062,
	"learning_rate": 4.670800796202726e-06,
	"loss": 0.5931,
	"step": 860
	},
	{
	"epoch": 0.13167968151890982,
	"eval_accuracy": 0.5980770938804512,
	"eval_loss": 0.6795242428779602,
	"eval_runtime": 280.5479,
	"eval_samples_per_second": 160.928,
	"eval_steps_per_second": 20.118,
	"step": 860
	},
	{
	"epoch": 0.133210840606339,
	"grad_norm": 16.333703994750977,
	"learning_rate": 4.666972898484153e-06,
	"loss": 0.7352,
	"step": 870
	},
	{
	"epoch": 0.133210840606339,
	"eval_accuracy": 0.5991164979577339,
	"eval_loss": 0.6769992709159851,
	"eval_runtime": 280.0752,
	"eval_samples_per_second": 161.2,
	"eval_steps_per_second": 20.152,
	"step": 870
	},
	{
	"epoch": 0.13474199969376818,
	"grad_norm": 6.884426593780518,
	"learning_rate": 4.66314500076558e-06,
	"loss": 0.6425,
	"step": 880
	},
	{
	"epoch": 0.13474199969376818,
	"eval_accuracy": 0.598591236334548,
	"eval_loss": 0.6669920086860657,
	"eval_runtime": 279.9453,
	"eval_samples_per_second": 161.274,
	"eval_steps_per_second": 20.161,
	"step": 880
	},
	{
	"epoch": 0.13627315878119736,
	"grad_norm": 9.960312843322754,
	"learning_rate": 4.659317103047007e-06,
	"loss": 0.6905,
	"step": 890
	},
	{
	"epoch": 0.13627315878119736,
	"eval_accuracy": 0.5981738203145828,
	"eval_loss": 0.6663030385971069,
	"eval_runtime": 279.6741,
	"eval_samples_per_second": 161.431,
	"eval_steps_per_second": 20.181,
	"step": 890
	},
	{
	"epoch": 0.13780431786862654,
	"grad_norm": 7.798278331756592,
	"learning_rate": 4.655489205328434e-06,
	"loss": 0.5681,
	"step": 900
	},
	{
	"epoch": 0.13780431786862654,
	"eval_accuracy": 0.6002266515565629,
	"eval_loss": 0.6640587449073792,
	"eval_runtime": 279.9048,
	"eval_samples_per_second": 161.298,
	"eval_steps_per_second": 20.164,
	"step": 900
	},
	{
	"epoch": 0.13933547695605572,
	"grad_norm": 10.989811897277832,
	"learning_rate": 4.651661307609861e-06,
	"loss": 0.5809,
	"step": 910
	},
	{
	"epoch": 0.13933547695605572,
	"eval_accuracy": 0.599174562318326,
	"eval_loss": 0.6831759810447693,
	"eval_runtime": 278.8518,
	"eval_samples_per_second": 161.907,
	"eval_steps_per_second": 20.24,
	"step": 910
	},
	{
	"epoch": 0.14086663604348493,
	"grad_norm": 13.403684616088867,
	"learning_rate": 4.647833409891288e-06,
	"loss": 0.5984,
	"step": 920
	},
	{
	"epoch": 0.14086663604348493,
	"eval_accuracy": 0.5973414996782282,
	"eval_loss": 0.7047386765480042,
	"eval_runtime": 277.7644,
	"eval_samples_per_second": 162.541,
	"eval_steps_per_second": 20.319,
	"step": 920
	},
	{
	"epoch": 0.1423977951309141,
	"grad_norm": 11.702314376831055,
	"learning_rate": 4.6440055121727155e-06,
	"loss": 0.631,
	"step": 930
	},
	{
	"epoch": 0.1423977951309141,
	"eval_accuracy": 0.5949097681018046,
	"eval_loss": 0.7055184841156006,
	"eval_runtime": 277.5329,
	"eval_samples_per_second": 162.676,
	"eval_steps_per_second": 20.336,
	"step": 930
	},
	{
	"epoch": 0.14392895421834329,
	"grad_norm": 10.92357063293457,
	"learning_rate": 4.640177614454142e-06,
	"loss": 0.6703,
	"step": 940
	},
	{
	"epoch": 0.14392895421834329,
	"eval_accuracy": 0.5971907868459593,
	"eval_loss": 0.684637188911438,
	"eval_runtime": 276.7646,
	"eval_samples_per_second": 163.128,
	"eval_steps_per_second": 20.393,
	"step": 940
	},
	{
	"epoch": 0.14546011330577246,
	"grad_norm": 9.321954727172852,
	"learning_rate": 4.636349716735569e-06,
	"loss": 0.6304,
	"step": 950
	},
	{
	"epoch": 0.14546011330577246,
	"eval_accuracy": 0.5969360568383659,
	"eval_loss": 0.6831667423248291,
	"eval_runtime": 276.3791,
	"eval_samples_per_second": 163.355,
	"eval_steps_per_second": 20.421,
	"step": 950
	},
	{
	"epoch": 0.14699127239320164,
	"grad_norm": 11.221244812011719,
	"learning_rate": 4.632521819016996e-06,
	"loss": 0.6373,
	"step": 960
	},
	{
	"epoch": 0.14699127239320164,
	"eval_accuracy": 0.5956472445145944,
	"eval_loss": 0.6867417097091675,
	"eval_runtime": 275.868,
	"eval_samples_per_second": 163.658,
	"eval_steps_per_second": 20.459,
	"step": 960
	},
	{
	"epoch": 0.14852243148063085,
	"grad_norm": 13.402386665344238,
	"learning_rate": 4.628693921298423e-06,
	"loss": 0.6338,
	"step": 970
	},
	{
	"epoch": 0.14852243148063085,
	"eval_accuracy": 0.595343976519767,
	"eval_loss": 0.6871860027313232,
	"eval_runtime": 276.6694,
	"eval_samples_per_second": 163.184,
	"eval_steps_per_second": 20.4,
	"step": 970
	},
	{
	"epoch": 0.15005359056806003,
	"grad_norm": 6.8687520027160645,
	"learning_rate": 4.6248660235798504e-06,
	"loss": 0.6541,
	"step": 980
	},
	{
	"epoch": 0.15005359056806003,
	"eval_accuracy": 0.5944526067405725,
	"eval_loss": 0.6828967332839966,
	"eval_runtime": 277.3111,
	"eval_samples_per_second": 162.806,
	"eval_steps_per_second": 20.353,
	"step": 980
	},
	{
	"epoch": 0.1515847496554892,
	"grad_norm": 8.383277893066406,
	"learning_rate": 4.621038125861277e-06,
	"loss": 0.6485,
	"step": 990
	},
	{
	"epoch": 0.1515847496554892,
	"eval_accuracy": 0.5881514159035716,
	"eval_loss": 0.6898565292358398,
	"eval_runtime": 278.3748,
	"eval_samples_per_second": 162.184,
	"eval_steps_per_second": 20.275,
	"step": 990
	},
	{
	"epoch": 0.1531159087429184,
	"grad_norm": 8.281054496765137,
	"learning_rate": 4.617210228142705e-06,
	"loss": 0.5877,
	"step": 1000
	},
	{
	"epoch": 0.1531159087429184,
	"eval_accuracy": 0.5914452307829261,
	"eval_loss": 0.6997293829917908,
	"eval_runtime": 277.7962,
	"eval_samples_per_second": 162.522,
	"eval_steps_per_second": 20.317,
	"step": 1000
	},
	{
	"epoch": 0.15464706783034757,
	"grad_norm": 10.8377685546875,
	"learning_rate": 4.613382330424131e-06,
	"loss": 0.6585,
	"step": 1010
	},
	{
	"epoch": 0.15464706783034757,
	"eval_accuracy": 0.5923300819872465,
	"eval_loss": 0.6947582364082336,
	"eval_runtime": 278.9872,
	"eval_samples_per_second": 161.828,
	"eval_steps_per_second": 20.23,
	"step": 1010
	},
	{
	"epoch": 0.15617822691777675,
	"grad_norm": 12.618541717529297,
	"learning_rate": 4.609554432705559e-06,
	"loss": 0.6153,
	"step": 1020
	},
	{
	"epoch": 0.15617822691777675,
	"eval_accuracy": 0.5965337184757249,
	"eval_loss": 0.6904256939888,
	"eval_runtime": 278.6853,
	"eval_samples_per_second": 162.004,
	"eval_steps_per_second": 20.252,
	"step": 1020
	},
	{
	"epoch": 0.15770938600520595,
	"grad_norm": 15.610793113708496,
	"learning_rate": 4.605726534986985e-06,
	"loss": 0.6145,
	"step": 1030
	},
	{
	"epoch": 0.15770938600520595,
	"eval_accuracy": 0.5957805907172996,
	"eval_loss": 0.7072130441665649,
	"eval_runtime": 278.4706,
	"eval_samples_per_second": 162.128,
	"eval_steps_per_second": 20.268,
	"step": 1030
	},
	{
	"epoch": 0.15924054509263513,
	"grad_norm": 10.127962112426758,
	"learning_rate": 4.601898637268413e-06,
	"loss": 0.6019,
	"step": 1040
	},
	{
	"epoch": 0.15924054509263513,
	"eval_accuracy": 0.5954627183733269,
	"eval_loss": 0.6940288543701172,
	"eval_runtime": 278.8001,
	"eval_samples_per_second": 161.937,
	"eval_steps_per_second": 20.244,
	"step": 1040
	},
	{
	"epoch": 0.1607717041800643,
	"grad_norm": 18.335458755493164,
	"learning_rate": 4.5980707395498395e-06,
	"loss": 0.5354,
	"step": 1050
	},
	{
	"epoch": 0.1607717041800643,
	"eval_accuracy": 0.5993520757982559,
	"eval_loss": 0.7147676348686218,
	"eval_runtime": 278.6112,
	"eval_samples_per_second": 162.047,
	"eval_steps_per_second": 20.258,
	"step": 1050
	},
	{
	"epoch": 0.1623028632674935,
	"grad_norm": 13.370587348937988,
	"learning_rate": 4.594242841831267e-06,
	"loss": 0.6977,
	"step": 1060
	},
	{
	"epoch": 0.1623028632674935,
	"eval_accuracy": 0.5989220600629908,
	"eval_loss": 0.7047263979911804,
	"eval_runtime": 279.4512,
	"eval_samples_per_second": 161.56,
	"eval_steps_per_second": 20.197,
	"step": 1060
	},
	{
	"epoch": 0.16383402235492267,
	"grad_norm": 9.09716510772705,
	"learning_rate": 4.590414944112694e-06,
	"loss": 0.6039,
	"step": 1070
	},
	{
	"epoch": 0.16383402235492267,
	"eval_accuracy": 0.5984739258700619,
	"eval_loss": 0.6938444972038269,
	"eval_runtime": 280.6964,
	"eval_samples_per_second": 160.843,
	"eval_steps_per_second": 20.107,
	"step": 1070
	},
	{
	"epoch": 0.16536518144235185,
	"grad_norm": 11.401485443115234,
	"learning_rate": 4.586587046394121e-06,
	"loss": 0.6579,
	"step": 1080
	},
	{
	"epoch": 0.16536518144235185,
	"eval_accuracy": 0.5967512870584059,
	"eval_loss": 0.6896911263465881,
	"eval_runtime": 279.247,
	"eval_samples_per_second": 161.678,
	"eval_steps_per_second": 20.212,
	"step": 1080
	},
	{
	"epoch": 0.16689634052978106,
	"grad_norm": 10.442956924438477,
	"learning_rate": 4.582759148675548e-06,
	"loss": 0.5409,
	"step": 1090
	},
	{
	"epoch": 0.16689634052978106,
	"eval_accuracy": 0.5923961292613636,
	"eval_loss": 0.7205661535263062,
	"eval_runtime": 278.5362,
	"eval_samples_per_second": 162.09,
	"eval_steps_per_second": 20.263,
	"step": 1090
	},
	{
	"epoch": 0.16842749961721024,
	"grad_norm": 24.116500854492188,
	"learning_rate": 4.578931250956975e-06,
	"loss": 0.5717,
	"step": 1100
	},
	{
	"epoch": 0.16842749961721024,
	"eval_accuracy": 0.5918675367336973,
	"eval_loss": 0.7739020586013794,
	"eval_runtime": 277.7642,
	"eval_samples_per_second": 162.541,
	"eval_steps_per_second": 20.319,
	"step": 1100
	},
	{
	"epoch": 0.16995865870463941,
	"grad_norm": 17.19237518310547,
	"learning_rate": 4.575103353238402e-06,
	"loss": 0.7444,
	"step": 1110
	},
	{
	"epoch": 0.16995865870463941,
	"eval_accuracy": 0.5971056953877569,
	"eval_loss": 0.7259252667427063,
	"eval_runtime": 280.0491,
	"eval_samples_per_second": 161.215,
	"eval_steps_per_second": 20.154,
	"step": 1110
	},
	{
	"epoch": 0.1714898177920686,
	"grad_norm": 12.191926002502441,
	"learning_rate": 4.571275455519829e-06,
	"loss": 0.5495,
	"step": 1120
	},
	{
	"epoch": 0.1714898177920686,
	"eval_accuracy": 0.5972413486739816,
	"eval_loss": 0.7175703644752502,
	"eval_runtime": 280.1557,
	"eval_samples_per_second": 161.153,
	"eval_steps_per_second": 20.146,
	"step": 1120
	},
	{
	"epoch": 0.17302097687949777,
	"grad_norm": 18.153154373168945,
	"learning_rate": 4.567447557801256e-06,
	"loss": 0.6002,
	"step": 1130
	},
	{
	"epoch": 0.17302097687949777,
	"eval_accuracy": 0.5982025962498613,
	"eval_loss": 0.7397978901863098,
	"eval_runtime": 280.0206,
	"eval_samples_per_second": 161.231,
	"eval_steps_per_second": 20.156,
	"step": 1130
	},
	{
	"epoch": 0.17455213596692695,
	"grad_norm": 9.707260131835938,
	"learning_rate": 4.5636196600826835e-06,
	"loss": 0.648,
	"step": 1140
	},
	{
	"epoch": 0.17455213596692695,
	"eval_accuracy": 0.5982077501497238,
	"eval_loss": 0.7219535708427429,
	"eval_runtime": 279.1283,
	"eval_samples_per_second": 161.746,
	"eval_steps_per_second": 20.22,
	"step": 1140
	},
	{
	"epoch": 0.17608329505435616,
	"grad_norm": 13.713787078857422,
	"learning_rate": 4.55979176236411e-06,
	"loss": 0.7169,
	"step": 1150
	},
	{
	"epoch": 0.17608329505435616,
	"eval_accuracy": 0.5967283703999645,
	"eval_loss": 0.7080119848251343,
	"eval_runtime": 280.0417,
	"eval_samples_per_second": 161.219,
	"eval_steps_per_second": 20.154,
	"step": 1150
	},
	{
	"epoch": 0.17761445414178534,
	"grad_norm": 12.010796546936035,
	"learning_rate": 4.555963864645538e-06,
	"loss": 0.6007,
	"step": 1160
	},
	{
	"epoch": 0.17761445414178534,
	"eval_accuracy": 0.593027131524565,
	"eval_loss": 0.686759889125824,
	"eval_runtime": 277.4036,
	"eval_samples_per_second": 162.752,
	"eval_steps_per_second": 20.346,
	"step": 1160
	},
	{
	"epoch": 0.17914561322921452,
	"grad_norm": 11.684185028076172,
	"learning_rate": 4.552135966926964e-06,
	"loss": 0.5699,
	"step": 1170
	},
	{
	"epoch": 0.17914561322921452,
	"eval_accuracy": 0.589081225033289,
	"eval_loss": 0.6952749490737915,
	"eval_runtime": 278.728,
	"eval_samples_per_second": 161.979,
	"eval_steps_per_second": 20.249,
	"step": 1170
	},
	{
	"epoch": 0.1806767723166437,
	"grad_norm": 14.61754035949707,
	"learning_rate": 4.548308069208391e-06,
	"loss": 0.6718,
	"step": 1180
	},
	{
	"epoch": 0.1806767723166437,
	"eval_accuracy": 0.5850660157550205,
	"eval_loss": 0.7031010985374451,
	"eval_runtime": 279.3758,
	"eval_samples_per_second": 161.603,
	"eval_steps_per_second": 20.202,
	"step": 1180
	},
	{
	"epoch": 0.18220793140407288,
	"grad_norm": 8.807073593139648,
	"learning_rate": 4.544480171489818e-06,
	"loss": 0.6719,
	"step": 1190
	},
	{
	"epoch": 0.18220793140407288,
	"eval_accuracy": 0.5842983840494343,
	"eval_loss": 0.6897585988044739,
	"eval_runtime": 278.4428,
	"eval_samples_per_second": 162.145,
	"eval_steps_per_second": 20.27,
	"step": 1190
	},
	{
	"epoch": 0.18373909049150206,
	"grad_norm": 8.141523361206055,
	"learning_rate": 4.540652273771245e-06,
	"loss": 0.6139,
	"step": 1200
	},
	{
	"epoch": 0.18373909049150206,
	"eval_accuracy": 0.5901683023224832,
	"eval_loss": 0.6856178045272827,
	"eval_runtime": 278.2363,
	"eval_samples_per_second": 162.265,
	"eval_steps_per_second": 20.285,
	"step": 1200
	},
	{
	"epoch": 0.18527024957893126,
	"grad_norm": 8.22572135925293,
	"learning_rate": 4.536824376052672e-06,
	"loss": 0.6554,
	"step": 1210
	},
	{
	"epoch": 0.18527024957893126,
	"eval_accuracy": 0.5936903334665423,
	"eval_loss": 0.6899842619895935,
	"eval_runtime": 279.6454,
	"eval_samples_per_second": 161.447,
	"eval_steps_per_second": 20.183,
	"step": 1210
	},
	{
	"epoch": 0.18680140866636044,
	"grad_norm": 10.63383674621582,
	"learning_rate": 4.532996478334099e-06,
	"loss": 0.5281,
	"step": 1220
	},
	{
	"epoch": 0.18680140866636044,
	"eval_accuracy": 0.5959264271926515,
	"eval_loss": 0.7073134183883667,
	"eval_runtime": 280.0671,
	"eval_samples_per_second": 161.204,
	"eval_steps_per_second": 20.152,
	"step": 1220
	},
	{
	"epoch": 0.18833256775378962,
	"grad_norm": 17.710468292236328,
	"learning_rate": 4.529168580615526e-06,
	"loss": 0.6106,
	"step": 1230
	},
	{
	"epoch": 0.18833256775378962,
	"eval_accuracy": 0.5961982077899033,
	"eval_loss": 0.7480549812316895,
	"eval_runtime": 279.3117,
	"eval_samples_per_second": 161.64,
	"eval_steps_per_second": 20.207,
	"step": 1230
	},
	{
	"epoch": 0.1898637268412188,
	"grad_norm": 19.713132858276367,
	"learning_rate": 4.525340682896953e-06,
	"loss": 0.6344,
	"step": 1240
	},
	{
	"epoch": 0.1898637268412188,
	"eval_accuracy": 0.5923722417084758,
	"eval_loss": 0.7380005717277527,
	"eval_runtime": 279.4642,
	"eval_samples_per_second": 161.552,
	"eval_steps_per_second": 20.196,
	"step": 1240
	},
	{
	"epoch": 0.19139488592864798,
	"grad_norm": 17.92173957824707,
	"learning_rate": 4.52151278517838e-06,
	"loss": 0.5918,
	"step": 1250
	},
	{
	"epoch": 0.19139488592864798,
	"eval_accuracy": 0.5899982226961699,
	"eval_loss": 0.7242019772529602,
	"eval_runtime": 279.4636,
	"eval_samples_per_second": 161.552,
	"eval_steps_per_second": 20.196,
	"step": 1250
	},
	{
	"epoch": 0.19292604501607716,
	"grad_norm": 12.8328857421875,
	"learning_rate": 4.5176848874598075e-06,
	"loss": 0.6847,
	"step": 1260
	},
	{
	"epoch": 0.19292604501607716,
	"eval_accuracy": 0.5958907152376721,
	"eval_loss": 0.6952394843101501,
	"eval_runtime": 276.2146,
	"eval_samples_per_second": 163.453,
	"eval_steps_per_second": 20.433,
	"step": 1260
	},
	{
	"epoch": 0.19445720410350636,
	"grad_norm": 8.0042142868042,
	"learning_rate": 4.513856989741234e-06,
	"loss": 0.6312,
	"step": 1270
	},
	{
	"epoch": 0.19445720410350636,
	"eval_accuracy": 0.5953926887841323,
	"eval_loss": 0.6836423873901367,
	"eval_runtime": 279.4491,
	"eval_samples_per_second": 161.561,
	"eval_steps_per_second": 20.197,
	"step": 1270
	},
	{
	"epoch": 0.19598836319093554,
	"grad_norm": 10.186333656311035,
	"learning_rate": 4.510029092022662e-06,
	"loss": 0.6135,
	"step": 1280
	},
	{
	"epoch": 0.19598836319093554,
	"eval_accuracy": 0.5948660962329148,
	"eval_loss": 0.6878789067268372,
	"eval_runtime": 276.736,
	"eval_samples_per_second": 163.145,
	"eval_steps_per_second": 20.395,
	"step": 1280
	},
	{
	"epoch": 0.19751952227836472,
	"grad_norm": 9.086492538452148,
	"learning_rate": 4.506201194304088e-06,
	"loss": 0.6481,
	"step": 1290
	},
	{
	"epoch": 0.19751952227836472,
	"eval_accuracy": 0.5944503735325507,
	"eval_loss": 0.6821103692054749,
	"eval_runtime": 274.4173,
	"eval_samples_per_second": 164.523,
	"eval_steps_per_second": 20.567,
	"step": 1290
	},
	{
	"epoch": 0.1990506813657939,
	"grad_norm": 8.008011817932129,
	"learning_rate": 4.502373296585516e-06,
	"loss": 0.6022,
	"step": 1300
	},
	{
	"epoch": 0.1990506813657939,
	"eval_accuracy": 0.5919674427913804,
	"eval_loss": 0.6874357461929321,
	"eval_runtime": 273.5543,
	"eval_samples_per_second": 165.042,
	"eval_steps_per_second": 20.632,
	"step": 1300
	},
	{
	"epoch": 0.20058184045322308,
	"grad_norm": 9.115822792053223,
	"learning_rate": 4.498545398866942e-06,
	"loss": 0.5877,
	"step": 1310
	},
	{
	"epoch": 0.20058184045322308,
	"eval_accuracy": 0.5949752993012595,
	"eval_loss": 0.696998655796051,
	"eval_runtime": 277.1667,
	"eval_samples_per_second": 162.891,
	"eval_steps_per_second": 20.363,
	"step": 1310
	},
	{
	"epoch": 0.20211299954065226,
	"grad_norm": 14.700295448303223,
	"learning_rate": 4.49471750114837e-06,
	"loss": 0.6563,
	"step": 1320
	},
	{
	"epoch": 0.20211299954065226,
	"eval_accuracy": 0.5916631504141775,
	"eval_loss": 0.7209578156471252,
	"eval_runtime": 277.3197,
	"eval_samples_per_second": 162.801,
	"eval_steps_per_second": 20.352,
	"step": 1320
	},
	{
	"epoch": 0.20364415862808147,
	"grad_norm": 12.265641212463379,
	"learning_rate": 4.4908896034297965e-06,
	"loss": 0.6844,
	"step": 1330
	},
	{
	"epoch": 0.20364415862808147,
	"eval_accuracy": 0.5921450151057401,
	"eval_loss": 0.7018990516662598,
	"eval_runtime": 275.9386,
	"eval_samples_per_second": 163.616,
	"eval_steps_per_second": 20.454,
	"step": 1330
	},
	{
	"epoch": 0.20517531771551065,
	"grad_norm": 14.695290565490723,
	"learning_rate": 4.487061705711224e-06,
	"loss": 0.6242,
	"step": 1340
	},
	{
	"epoch": 0.20517531771551065,
	"eval_accuracy": 0.5874938869870626,
	"eval_loss": 0.7059697508811951,
	"eval_runtime": 275.3787,
	"eval_samples_per_second": 163.949,
	"eval_steps_per_second": 20.495,
	"step": 1340
	},
	{
	"epoch": 0.20670647680293983,
	"grad_norm": 17.197837829589844,
	"learning_rate": 4.483233807992651e-06,
	"loss": 0.6532,
	"step": 1350
	},
	{
	"epoch": 0.20670647680293983,
	"eval_accuracy": 0.5832462130480237,
	"eval_loss": 0.7054564952850342,
	"eval_runtime": 278.9798,
	"eval_samples_per_second": 161.833,
	"eval_steps_per_second": 20.231,
	"step": 1350
	},
	{
	"epoch": 0.208237635890369,
	"grad_norm": 10.455153465270996,
	"learning_rate": 4.479405910274078e-06,
	"loss": 0.6235,
	"step": 1360
	},
	{
	"epoch": 0.208237635890369,
	"eval_accuracy": 0.5825216811207472,
	"eval_loss": 0.7006902098655701,
	"eval_runtime": 278.2863,
	"eval_samples_per_second": 162.236,
	"eval_steps_per_second": 20.281,
	"step": 1360
	},
	{
	"epoch": 0.20976879497779818,
	"grad_norm": 11.930909156799316,
	"learning_rate": 4.475578012555505e-06,
	"loss": 0.5851,
	"step": 1370
	},
	{
	"epoch": 0.20976879497779818,
	"eval_accuracy": 0.5853447126283504,
	"eval_loss": 0.7129948139190674,
	"eval_runtime": 277.2023,
	"eval_samples_per_second": 162.87,
	"eval_steps_per_second": 20.361,
	"step": 1370
	},
	{
	"epoch": 0.21129995406522736,
	"grad_norm": 10.416621208190918,
	"learning_rate": 4.471750114836932e-06,
	"loss": 0.6387,
	"step": 1380
	},
	{
	"epoch": 0.21129995406522736,
	"eval_accuracy": 0.5875080603917906,
	"eval_loss": 0.7203475832939148,
	"eval_runtime": 276.7485,
	"eval_samples_per_second": 163.137,
	"eval_steps_per_second": 20.394,
	"step": 1380
	},
	{
	"epoch": 0.21283111315265657,
	"grad_norm": 14.316187858581543,
	"learning_rate": 4.467922217118359e-06,
	"loss": 0.5589,
	"step": 1390
	},
	{
	"epoch": 0.21283111315265657,
	"eval_accuracy": 0.5918902114052229,
	"eval_loss": 0.7276438474655151,
	"eval_runtime": 277.5697,
	"eval_samples_per_second": 162.655,
	"eval_steps_per_second": 20.334,
	"step": 1390
	},
	{
	"epoch": 0.21436227224008575,
	"grad_norm": 11.353260040283203,
	"learning_rate": 4.4640943193997856e-06,
	"loss": 0.5305,
	"step": 1400
	},
	{
	"epoch": 0.21436227224008575,
	"eval_accuracy": 0.5941167335891918,
	"eval_loss": 0.7376775145530701,
	"eval_runtime": 277.7475,
	"eval_samples_per_second": 162.551,
	"eval_steps_per_second": 20.321,
	"step": 1400
	},
	{
	"epoch": 0.21589343132751493,
	"grad_norm": 25.445398330688477,
	"learning_rate": 4.460266421681213e-06,
	"loss": 0.6585,
	"step": 1410
	},
	{
	"epoch": 0.21589343132751493,
	"eval_accuracy": 0.5962537174308669,
	"eval_loss": 0.7421597242355347,
	"eval_runtime": 276.6197,
	"eval_samples_per_second": 163.213,
	"eval_steps_per_second": 20.403,
	"step": 1410
	},
	{
	"epoch": 0.2174245904149441,
	"grad_norm": 12.295394897460938,
	"learning_rate": 4.45643852396264e-06,
	"loss": 0.6483,
	"step": 1420
	},
	{
	"epoch": 0.2174245904149441,
	"eval_accuracy": 0.5987611837577426,
	"eval_loss": 0.6953349709510803,
	"eval_runtime": 278.2037,
	"eval_samples_per_second": 162.284,
	"eval_steps_per_second": 20.287,
	"step": 1420
	},
	{
	"epoch": 0.2189557495023733,
	"grad_norm": 11.241786003112793,
	"learning_rate": 4.452610626244067e-06,
	"loss": 0.5395,
	"step": 1430
	},
	{
	"epoch": 0.2189557495023733,
	"eval_accuracy": 0.5976324790121263,
	"eval_loss": 0.6999543309211731,
	"eval_runtime": 279.3688,
	"eval_samples_per_second": 161.607,
	"eval_steps_per_second": 20.203,
	"step": 1430
	},
	{
	"epoch": 0.2204869085898025,
	"grad_norm": 14.92603874206543,
	"learning_rate": 4.448782728525494e-06,
	"loss": 0.619,
	"step": 1440
	},
	{
	"epoch": 0.2204869085898025,
	"eval_accuracy": 0.5938706670809107,
	"eval_loss": 0.7095398306846619,
	"eval_runtime": 280.0278,
	"eval_samples_per_second": 161.227,
	"eval_steps_per_second": 20.155,
	"step": 1440
	},
	{
	"epoch": 0.22201806767723167,
	"grad_norm": 20.692684173583984,
	"learning_rate": 4.444954830806921e-06,
	"loss": 0.4735,
	"step": 1450
	},
	{
	"epoch": 0.22201806767723167,
	"eval_accuracy": 0.5908092395766303,
	"eval_loss": 0.734937310218811,
	"eval_runtime": 279.9051,
	"eval_samples_per_second": 161.298,
	"eval_steps_per_second": 20.164,
	"step": 1450
	},
	{
	"epoch": 0.22354922676466085,
	"grad_norm": 17.677717208862305,
	"learning_rate": 4.441126933088348e-06,
	"loss": 0.6086,
	"step": 1460
	},
	{
	"epoch": 0.22354922676466085,
	"eval_accuracy": 0.595049395049395,
	"eval_loss": 0.7369093894958496,
	"eval_runtime": 280.5701,
	"eval_samples_per_second": 160.915,
	"eval_steps_per_second": 20.116,
	"step": 1460
	},
	{
	"epoch": 0.22508038585209003,
	"grad_norm": 15.074790954589844,
	"learning_rate": 4.4372990353697755e-06,
	"loss": 0.5995,
	"step": 1470
	},
	{
	"epoch": 0.22508038585209003,
	"eval_accuracy": 0.5964959030044634,
	"eval_loss": 0.71633380651474,
	"eval_runtime": 280.9412,
	"eval_samples_per_second": 160.703,
	"eval_steps_per_second": 20.09,
	"step": 1470
	},
	{
	"epoch": 0.2266115449395192,
	"grad_norm": 14.004373550415039,
	"learning_rate": 4.433471137651202e-06,
	"loss": 0.6036,
	"step": 1480
	},
	{
	"epoch": 0.2266115449395192,
	"eval_accuracy": 0.5984582574310214,
	"eval_loss": 0.7075589895248413,
	"eval_runtime": 279.8252,
	"eval_samples_per_second": 161.344,
	"eval_steps_per_second": 20.17,
	"step": 1480
	},
	{
	"epoch": 0.2281427040269484,
	"grad_norm": 12.327754974365234,
	"learning_rate": 4.42964323993263e-06,
	"loss": 0.6168,
	"step": 1490
	},
	{
	"epoch": 0.2281427040269484,
	"eval_accuracy": 0.5992044974779459,
	"eval_loss": 0.692619800567627,
	"eval_runtime": 280.1157,
	"eval_samples_per_second": 161.176,
	"eval_steps_per_second": 20.149,
	"step": 1490
	},
	{
	"epoch": 0.2296738631143776,
	"grad_norm": 10.927477836608887,
	"learning_rate": 4.425815342214056e-06,
	"loss": 0.5584,
	"step": 1500
	},
	{
	"epoch": 0.2296738631143776,
	"eval_accuracy": 0.5985860696738623,
	"eval_loss": 0.7029620409011841,
	"eval_runtime": 278.9125,
	"eval_samples_per_second": 161.872,
	"eval_steps_per_second": 20.236,
	"step": 1500
	},
	{
	"epoch": 0.23120502220180678,
	"grad_norm": 21.215038299560547,
	"learning_rate": 4.421987444495484e-06,
	"loss": 0.6836,
	"step": 1510
	},
	{
	"epoch": 0.23120502220180678,
	"eval_accuracy": 0.5978149842341343,
	"eval_loss": 0.7012072205543518,
	"eval_runtime": 279.942,
	"eval_samples_per_second": 161.276,
	"eval_steps_per_second": 20.161,
	"step": 1510
	},
	{
	"epoch": 0.23273618128923595,
	"grad_norm": 18.26300621032715,
	"learning_rate": 4.41815954677691e-06,
	"loss": 0.5803,
	"step": 1520
	},
	{
	"epoch": 0.23273618128923595,
	"eval_accuracy": 0.593573744282098,
	"eval_loss": 0.7073465585708618,
	"eval_runtime": 278.8484,
	"eval_samples_per_second": 161.909,
	"eval_steps_per_second": 20.24,
	"step": 1520
	},
	{
	"epoch": 0.23426734037666513,
	"grad_norm": 15.730330467224121,
	"learning_rate": 4.414331649058338e-06,
	"loss": 0.6735,
	"step": 1530
	},
	{
	"epoch": 0.23426734037666513,
	"eval_accuracy": 0.5931864173097022,
	"eval_loss": 0.694299578666687,
	"eval_runtime": 278.339,
	"eval_samples_per_second": 162.205,
	"eval_steps_per_second": 20.277,
	"step": 1530
	},
	{
	"epoch": 0.2357984994640943,
	"grad_norm": 10.599174499511719,
	"learning_rate": 4.4105037513397645e-06,
	"loss": 0.6482,
	"step": 1540
	},
	{
	"epoch": 0.2357984994640943,
	"eval_accuracy": 0.5938021401081177,
	"eval_loss": 0.6790253520011902,
	"eval_runtime": 279.1453,
	"eval_samples_per_second": 161.737,
	"eval_steps_per_second": 20.219,
	"step": 1540
	},
	{
	"epoch": 0.2373296585515235,
	"grad_norm": 9.95355224609375,
	"learning_rate": 4.406675853621192e-06,
	"loss": 0.6667,
	"step": 1550
	},
	{
	"epoch": 0.2373296585515235,
	"eval_accuracy": 0.5938640206460799,
	"eval_loss": 0.6704154014587402,
	"eval_runtime": 279.4535,
	"eval_samples_per_second": 161.558,
	"eval_steps_per_second": 20.197,
	"step": 1550
	},
	{
	"epoch": 0.2388608176389527,
	"grad_norm": 9.302884101867676,
	"learning_rate": 4.402847955902619e-06,
	"loss": 0.604,
	"step": 1560
	},
	{
	"epoch": 0.2388608176389527,
	"eval_accuracy": 0.5950828790744243,
	"eval_loss": 0.6687915921211243,
	"eval_runtime": 277.3792,
	"eval_samples_per_second": 162.766,
	"eval_steps_per_second": 20.348,
	"step": 1560
	},
	{
	"epoch": 0.24039197672638188,
	"grad_norm": 8.783987998962402,
	"learning_rate": 4.399020058184046e-06,
	"loss": 0.5914,
	"step": 1570
	},
	{
	"epoch": 0.24039197672638188,
	"eval_accuracy": 0.5949302294527408,
	"eval_loss": 0.6737338304519653,
	"eval_runtime": 277.8845,
	"eval_samples_per_second": 162.47,
	"eval_steps_per_second": 20.311,
	"step": 1570
	},
	{
	"epoch": 0.24192313581381106,
	"grad_norm": 8.757774353027344,
	"learning_rate": 4.395192160465473e-06,
	"loss": 0.629,
	"step": 1580
	},
	{
	"epoch": 0.24192313581381106,
	"eval_accuracy": 0.5952777963049423,
	"eval_loss": 0.6752948760986328,
	"eval_runtime": 279.1759,
	"eval_samples_per_second": 161.719,
	"eval_steps_per_second": 20.217,
	"step": 1580
	},
	{
	"epoch": 0.24345429490124024,
	"grad_norm": 8.354512214660645,
	"learning_rate": 4.3913642627469e-06,
	"loss": 0.6632,
	"step": 1590
	},
	{
	"epoch": 0.24345429490124024,
	"eval_accuracy": 0.5962355663336819,
	"eval_loss": 0.6745610237121582,
	"eval_runtime": 279.0496,
	"eval_samples_per_second": 161.792,
	"eval_steps_per_second": 20.226,
	"step": 1590
	},
	{
	"epoch": 0.24498545398866942,
	"grad_norm": 13.983068466186523,
	"learning_rate": 4.387536365028327e-06,
	"loss": 0.6018,
	"step": 1600
	},
	{
	"epoch": 0.24498545398866942,
	"eval_accuracy": 0.5935825309643993,
	"eval_loss": 0.687160849571228,
	"eval_runtime": 280.0465,
	"eval_samples_per_second": 161.216,
	"eval_steps_per_second": 20.154,
	"step": 1600
	},
	{
	"epoch": 0.2465166130760986,
	"grad_norm": 8.103803634643555,
	"learning_rate": 4.383708467309754e-06,
	"loss": 0.6217,
	"step": 1610
	},
	{
	"epoch": 0.2465166130760986,
	"eval_accuracy": 0.5935380578595094,
	"eval_loss": 0.6901026368141174,
	"eval_runtime": 280.8048,
	"eval_samples_per_second": 160.781,
	"eval_steps_per_second": 20.099,
	"step": 1610
	},
	{
	"epoch": 0.2480477721635278,
	"grad_norm": 9.161907196044922,
	"learning_rate": 4.379880569591181e-06,
	"loss": 0.6106,
	"step": 1620
	},
	{
	"epoch": 0.2480477721635278,
	"eval_accuracy": 0.5978512323160423,
	"eval_loss": 0.6946441531181335,
	"eval_runtime": 278.4057,
	"eval_samples_per_second": 162.166,
	"eval_steps_per_second": 20.273,
	"step": 1620
	},
	{
	"epoch": 0.24957893125095698,
	"grad_norm": 7.822539329528809,
	"learning_rate": 4.3760526718726085e-06,
	"loss": 0.693,
	"step": 1630
	},
	{
	"epoch": 0.24957893125095698,
	"eval_accuracy": 0.598020462633452,
	"eval_loss": 0.6881946921348572,
	"eval_runtime": 277.0846,
	"eval_samples_per_second": 162.939,
	"eval_steps_per_second": 20.369,
	"step": 1630
	},
	{
	"epoch": 0.25111009033838616,
	"grad_norm": 8.115804672241211,
	"learning_rate": 4.372224774154035e-06,
	"loss": 0.6638,
	"step": 1640
	},
	{
	"epoch": 0.25111009033838616,
	"eval_accuracy": 0.5966775781058632,
	"eval_loss": 0.6835174560546875,
	"eval_runtime": 277.1947,
	"eval_samples_per_second": 162.875,
	"eval_steps_per_second": 20.361,
	"step": 1640
	},
	{
	"epoch": 0.25264124942581534,
	"grad_norm": 8.402555465698242,
	"learning_rate": 4.368396876435462e-06,
	"loss": 0.5649,
	"step": 1650
	},
	{
	"epoch": 0.25264124942581534,
	"eval_accuracy": 0.5948628917378918,
	"eval_loss": 0.6932902336120605,
	"eval_runtime": 278.2801,
	"eval_samples_per_second": 162.239,
	"eval_steps_per_second": 20.282,
	"step": 1650
	},
	{
	"epoch": 0.2541724085132445,
	"grad_norm": 9.621747970581055,
	"learning_rate": 4.3645689787168885e-06,
	"loss": 0.6463,
	"step": 1660
	},
	{
	"epoch": 0.2541724085132445,
	"eval_accuracy": 0.593183788710789,
	"eval_loss": 0.6967864036560059,
	"eval_runtime": 277.2248,
	"eval_samples_per_second": 162.857,
	"eval_steps_per_second": 20.359,
	"step": 1660
	},
	{
	"epoch": 0.2557035676006737,
	"grad_norm": 17.633258819580078,
	"learning_rate": 4.360741080998316e-06,
	"loss": 0.5943,
	"step": 1670
	},
	{
	"epoch": 0.2557035676006737,
	"eval_accuracy": 0.591132348038671,
	"eval_loss": 0.7154887318611145,
	"eval_runtime": 277.3036,
	"eval_samples_per_second": 162.811,
	"eval_steps_per_second": 20.353,
	"step": 1670
	},
	{
	"epoch": 0.2572347266881029,
	"grad_norm": 16.508804321289062,
	"learning_rate": 4.356913183279743e-06,
	"loss": 0.5856,
	"step": 1680
	},
	{
	"epoch": 0.2572347266881029,
	"eval_accuracy": 0.5927422936839299,
	"eval_loss": 0.7325928211212158,
	"eval_runtime": 279.5671,
	"eval_samples_per_second": 161.493,
	"eval_steps_per_second": 20.188,
	"step": 1680
	},
	{
	"epoch": 0.25876588577553206,
	"grad_norm": 25.668621063232422,
	"learning_rate": 4.35308528556117e-06,
	"loss": 0.6454,
	"step": 1690
	},
	{
	"epoch": 0.25876588577553206,
	"eval_accuracy": 0.5932041424063291,
	"eval_loss": 0.7432768940925598,
	"eval_runtime": 281.3082,
	"eval_samples_per_second": 160.493,
	"eval_steps_per_second": 20.063,
	"step": 1690
	},
	{
	"epoch": 0.26029704486296124,
	"grad_norm": 16.12009620666504,
	"learning_rate": 4.349257387842597e-06,
	"loss": 0.597,
	"step": 1700
	},
	{
	"epoch": 0.26029704486296124,
	"eval_accuracy": 0.5940829190340909,
	"eval_loss": 0.7180017232894897,
	"eval_runtime": 281.0285,
	"eval_samples_per_second": 160.653,
	"eval_steps_per_second": 20.083,
	"step": 1700
	},
	{
	"epoch": 0.26182820395039047,
	"grad_norm": 17.72113609313965,
	"learning_rate": 4.345429490124024e-06,
	"loss": 0.624,
	"step": 1710
	},
	{
	"epoch": 0.26182820395039047,
	"eval_accuracy": 0.5941739381424987,
	"eval_loss": 0.7116958498954773,
	"eval_runtime": 279.9549,
	"eval_samples_per_second": 161.269,
	"eval_steps_per_second": 20.16,
	"step": 1710
	},
	{
	"epoch": 0.26335936303781965,
	"grad_norm": 14.417743682861328,
	"learning_rate": 4.341601592405451e-06,
	"loss": 0.5733,
	"step": 1720
	},
	{
	"epoch": 0.26335936303781965,
	"eval_accuracy": 0.5937305745493295,
	"eval_loss": 0.7162705063819885,
	"eval_runtime": 278.2449,
	"eval_samples_per_second": 162.26,
	"eval_steps_per_second": 20.284,
	"step": 1720
	},
	{
	"epoch": 0.26489052212524883,
	"grad_norm": 18.933935165405273,
	"learning_rate": 4.337773694686878e-06,
	"loss": 0.5191,
	"step": 1730
	},
	{
	"epoch": 0.26489052212524883,
	"eval_accuracy": 0.5937839937839938,
	"eval_loss": 0.7459293603897095,
	"eval_runtime": 280.6883,
	"eval_samples_per_second": 160.847,
	"eval_steps_per_second": 20.108,
	"step": 1730
	},
	{
	"epoch": 0.266421681212678,
	"grad_norm": 21.37299346923828,
	"learning_rate": 4.333945796968305e-06,
	"loss": 0.6065,
	"step": 1740
	},
	{
	"epoch": 0.266421681212678,
	"eval_accuracy": 0.5947049555047602,
	"eval_loss": 0.7559405565261841,
	"eval_runtime": 279.6788,
	"eval_samples_per_second": 161.428,
	"eval_steps_per_second": 20.18,
	"step": 1740
	},
	{
	"epoch": 0.2679528403001072,
	"grad_norm": 17.455568313598633,
	"learning_rate": 4.3301178992497325e-06,
	"loss": 0.641,
	"step": 1750
	},
	{
	"epoch": 0.2679528403001072,
	"eval_accuracy": 0.5933846529272134,
	"eval_loss": 0.7480175495147705,
	"eval_runtime": 277.648,
	"eval_samples_per_second": 162.609,
	"eval_steps_per_second": 20.328,
	"step": 1750
	},
	{
	"epoch": 0.26948399938753637,
	"grad_norm": 14.3558349609375,
	"learning_rate": 4.326290001531159e-06,
	"loss": 0.6186,
	"step": 1760
	},
	{
	"epoch": 0.26948399938753637,
	"eval_accuracy": 0.5932022659113628,
	"eval_loss": 0.7287299633026123,
	"eval_runtime": 281.2354,
	"eval_samples_per_second": 160.535,
	"eval_steps_per_second": 20.069,
	"step": 1760
	},
	{
	"epoch": 0.27101515847496555,
	"grad_norm": 10.249687194824219,
	"learning_rate": 4.322462103812587e-06,
	"loss": 0.6375,
	"step": 1770
	},
	{
	"epoch": 0.27101515847496555,
	"eval_accuracy": 0.5906849680170576,
	"eval_loss": 0.7209318280220032,
	"eval_runtime": 279.922,
	"eval_samples_per_second": 161.288,
	"eval_steps_per_second": 20.163,
	"step": 1770
	},
	{
	"epoch": 0.2725463175623947,
	"grad_norm": 13.502520561218262,
	"learning_rate": 4.318634206094013e-06,
	"loss": 0.6078,
	"step": 1780
	},
	{
	"epoch": 0.2725463175623947,
	"eval_accuracy": 0.590238919975131,
	"eval_loss": 0.713438868522644,
	"eval_runtime": 281.1596,
	"eval_samples_per_second": 160.578,
	"eval_steps_per_second": 20.074,
	"step": 1780
	},
	{
	"epoch": 0.2740774766498239,
	"grad_norm": 8.710155487060547,
	"learning_rate": 4.314806308375441e-06,
	"loss": 0.6112,
	"step": 1790
	},
	{
	"epoch": 0.2740774766498239,
	"eval_accuracy": 0.5918866080156403,
	"eval_loss": 0.7061217427253723,
	"eval_runtime": 278.6715,
	"eval_samples_per_second": 162.012,
	"eval_steps_per_second": 20.253,
	"step": 1790
	},
	{
	"epoch": 0.2756086357372531,
	"grad_norm": 12.963603973388672,
	"learning_rate": 4.310978410656867e-06,
	"loss": 0.6836,
	"step": 1800
	},
	{
	"epoch": 0.2756086357372531,
	"eval_accuracy": 0.589742449179307,
	"eval_loss": 0.7048377394676208,
	"eval_runtime": 280.3976,
	"eval_samples_per_second": 161.014,
	"eval_steps_per_second": 20.129,
	"step": 1800
	},
	{
	"epoch": 0.27713979482468226,
	"grad_norm": 18.37137794494629,
	"learning_rate": 4.307150512938295e-06,
	"loss": 0.5662,
	"step": 1810
	},
	{
	"epoch": 0.27713979482468226,
	"eval_accuracy": 0.5890812901504879,
	"eval_loss": 0.7051539421081543,
	"eval_runtime": 280.7367,
	"eval_samples_per_second": 160.82,
	"eval_steps_per_second": 20.104,
	"step": 1810
	},
	{
	"epoch": 0.27867095391211144,
	"grad_norm": 8.255058288574219,
	"learning_rate": 4.3033226152197215e-06,
	"loss": 0.6022,
	"step": 1820
	},
	{
	"epoch": 0.27867095391211144,
	"eval_accuracy": 0.5886953430501244,
	"eval_loss": 0.7059171199798584,
	"eval_runtime": 278.1826,
	"eval_samples_per_second": 162.296,
	"eval_steps_per_second": 20.289,
	"step": 1820
	},
	{
	"epoch": 0.2802021129995407,
	"grad_norm": 12.834601402282715,
	"learning_rate": 4.299494717501149e-06,
	"loss": 0.5255,
	"step": 1830
	},
	{
	"epoch": 0.2802021129995407,
	"eval_accuracy": 0.5897788828700826,
	"eval_loss": 0.724184513092041,
	"eval_runtime": 281.9681,
	"eval_samples_per_second": 160.117,
	"eval_steps_per_second": 20.016,
	"step": 1830
	},
	{
	"epoch": 0.28173327208696985,
	"grad_norm": 13.296520233154297,
	"learning_rate": 4.295666819782576e-06,
	"loss": 0.5974,
	"step": 1840
	},
	{
	"epoch": 0.28173327208696985,
	"eval_accuracy": 0.5901501208506109,
	"eval_loss": 0.7438974380493164,
	"eval_runtime": 279.7112,
	"eval_samples_per_second": 161.409,
	"eval_steps_per_second": 20.178,
	"step": 1840
	},
	{
	"epoch": 0.28326443117439903,
	"grad_norm": 14.873211860656738,
	"learning_rate": 4.291838922064003e-06,
	"loss": 0.6871,
	"step": 1850
	},
	{
	"epoch": 0.28326443117439903,
	"eval_accuracy": 0.5945105702611476,
	"eval_loss": 0.7173364162445068,
	"eval_runtime": 278.1451,
	"eval_samples_per_second": 162.318,
	"eval_steps_per_second": 20.292,
	"step": 1850
	},
	{
	"epoch": 0.2847955902618282,
	"grad_norm": 11.980530738830566,
	"learning_rate": 4.28801102434543e-06,
	"loss": 0.5518,
	"step": 1860
	},
	{
	"epoch": 0.2847955902618282,
	"eval_accuracy": 0.5945075210522808,
	"eval_loss": 0.7088351845741272,
	"eval_runtime": 281.4397,
	"eval_samples_per_second": 160.418,
	"eval_steps_per_second": 20.054,
	"step": 1860
	},
	{
	"epoch": 0.2863267493492574,
	"grad_norm": 14.939533233642578,
	"learning_rate": 4.2841831266268565e-06,
	"loss": 0.5496,
	"step": 1870
	},
	{
	"epoch": 0.2863267493492574,
	"eval_accuracy": 0.5940158599702348,
	"eval_loss": 0.7212331295013428,
	"eval_runtime": 279.5218,
	"eval_samples_per_second": 161.519,
	"eval_steps_per_second": 20.192,
	"step": 1870
	},
	{
	"epoch": 0.28785790843668657,
	"grad_norm": 15.159697532653809,
	"learning_rate": 4.280355228908284e-06,
	"loss": 0.5738,
	"step": 1880
	},
	{
	"epoch": 0.28785790843668657,
	"eval_accuracy": 0.5914114513981358,
	"eval_loss": 0.7385027408599854,
	"eval_runtime": 279.6403,
	"eval_samples_per_second": 161.45,
	"eval_steps_per_second": 20.183,
	"step": 1880
	},
	{
	"epoch": 0.28938906752411575,
	"grad_norm": 10.097131729125977,
	"learning_rate": 4.276527331189711e-06,
	"loss": 0.5,
	"step": 1890
	},
	{
	"epoch": 0.28938906752411575,
	"eval_accuracy": 0.5934275634055961,
	"eval_loss": 0.7404712438583374,
	"eval_runtime": 278.9074,
	"eval_samples_per_second": 161.875,
	"eval_steps_per_second": 20.236,
	"step": 1890
	},
	{
	"epoch": 0.29092022661154493,
	"grad_norm": 17.089492797851562,
	"learning_rate": 4.272699433471138e-06,
	"loss": 0.6033,
	"step": 1900
	},
	{
	"epoch": 0.29092022661154493,
	"eval_accuracy": 0.5967577397321032,
	"eval_loss": 0.7266111373901367,
	"eval_runtime": 280.8228,
	"eval_samples_per_second": 160.77,
	"eval_steps_per_second": 20.098,
	"step": 1900
	},
	{
	"epoch": 0.2924513856989741,
	"grad_norm": 14.520054817199707,
	"learning_rate": 4.268871535752565e-06,
	"loss": 0.5852,
	"step": 1910
	},
	{
	"epoch": 0.2924513856989741,
	"eval_accuracy": 0.5944566495794776,
	"eval_loss": 0.7083961367607117,
	"eval_runtime": 278.472,
	"eval_samples_per_second": 162.128,
	"eval_steps_per_second": 20.268,
	"step": 1910
	},
	{
	"epoch": 0.2939825447864033,
	"grad_norm": 16.736730575561523,
	"learning_rate": 4.265043638033992e-06,
	"loss": 0.6374,
	"step": 1920
	},
	{
	"epoch": 0.2939825447864033,
	"eval_accuracy": 0.5979578246392897,
	"eval_loss": 0.6861377358436584,
	"eval_runtime": 279.2609,
	"eval_samples_per_second": 161.67,
	"eval_steps_per_second": 20.21,
	"step": 1920
	},
	{
	"epoch": 0.29551370387383247,
	"grad_norm": 9.897313117980957,
	"learning_rate": 4.261215740315419e-06,
	"loss": 0.5925,
	"step": 1930
	},
	{
	"epoch": 0.29551370387383247,
	"eval_accuracy": 0.5983366600133068,
	"eval_loss": 0.6827172636985779,
	"eval_runtime": 278.8073,
	"eval_samples_per_second": 161.933,
	"eval_steps_per_second": 20.243,
	"step": 1930
	},
	{
	"epoch": 0.2970448629612617,
	"grad_norm": 7.9534478187561035,
	"learning_rate": 4.257387842596846e-06,
	"loss": 0.5634,
	"step": 1940
	},
	{
	"epoch": 0.2970448629612617,
	"eval_accuracy": 0.5988369512140986,
	"eval_loss": 0.684248685836792,
	"eval_runtime": 277.3928,
	"eval_samples_per_second": 162.758,
	"eval_steps_per_second": 20.347,
	"step": 1940
	},
	{
	"epoch": 0.2985760220486909,
	"grad_norm": 13.70839786529541,
	"learning_rate": 4.253559944878273e-06,
	"loss": 0.5783,
	"step": 1950
	},
	{
	"epoch": 0.2985760220486909,
	"eval_accuracy": 0.597880548042389,
	"eval_loss": 0.705771267414093,
	"eval_runtime": 277.0321,
	"eval_samples_per_second": 162.97,
	"eval_steps_per_second": 20.373,
	"step": 1950
	},
	{
	"epoch": 0.30010718113612006,
	"grad_norm": 18.95427703857422,
	"learning_rate": 4.2497320471597005e-06,
	"loss": 0.7029,
	"step": 1960
	},
	{
	"epoch": 0.30010718113612006,
	"eval_accuracy": 0.5943931866572036,
	"eval_loss": 0.7076370716094971,
	"eval_runtime": 279.5179,
	"eval_samples_per_second": 161.521,
	"eval_steps_per_second": 20.192,
	"step": 1960
	},
	{
	"epoch": 0.30163834022354924,
	"grad_norm": 12.317983627319336,
	"learning_rate": 4.245904149441127e-06,
	"loss": 0.562,
	"step": 1970
	},
	{
	"epoch": 0.30163834022354924,
	"eval_accuracy": 0.5903159950292917,
	"eval_loss": 0.6966370344161987,
	"eval_runtime": 278.3564,
	"eval_samples_per_second": 162.195,
	"eval_steps_per_second": 20.276,
	"step": 1970
	},
	{
	"epoch": 0.3031694993109784,
	"grad_norm": 18.507949829101562,
	"learning_rate": 4.242076251722555e-06,
	"loss": 0.6133,
	"step": 1980
	},
	{
	"epoch": 0.3031694993109784,
	"eval_accuracy": 0.5898846495119787,
	"eval_loss": 0.697861909866333,
	"eval_runtime": 276.7732,
	"eval_samples_per_second": 163.123,
	"eval_steps_per_second": 20.392,
	"step": 1980
	},
	{
	"epoch": 0.3047006583984076,
	"grad_norm": 10.3158597946167,
	"learning_rate": 4.238248354003981e-06,
	"loss": 0.5549,
	"step": 1990
	},
	{
	"epoch": 0.3047006583984076,
	"eval_accuracy": 0.5933229813664597,
	"eval_loss": 0.6916565299034119,
	"eval_runtime": 279.0507,
	"eval_samples_per_second": 161.791,
	"eval_steps_per_second": 20.226,
	"step": 1990
	},
	{
	"epoch": 0.3062318174858368,
	"grad_norm": 17.062057495117188,
	"learning_rate": 4.234420456285409e-06,
	"loss": 0.6238,
	"step": 2000
	},
	{
	"epoch": 0.3062318174858368,
	"eval_accuracy": 0.5943655723158828,
	"eval_loss": 0.7041603326797485,
	"eval_runtime": 280.3627,
	"eval_samples_per_second": 161.034,
	"eval_steps_per_second": 20.131,
	"step": 2000
	},
	{
	"epoch": 0.30776297657326596,
	"grad_norm": 7.667088985443115,
	"learning_rate": 4.230592558566835e-06,
	"loss": 0.6945,
	"step": 2010
	},
	{
	"epoch": 0.30776297657326596,
	"eval_accuracy": 0.5923155464796236,
	"eval_loss": 0.695047914981842,
	"eval_runtime": 282.0476,
	"eval_samples_per_second": 160.072,
	"eval_steps_per_second": 20.011,
	"step": 2010
	},
	{
	"epoch": 0.30929413566069514,
	"grad_norm": 13.864084243774414,
	"learning_rate": 4.226764660848263e-06,
	"loss": 0.6421,
	"step": 2020
	},
	{
	"epoch": 0.30929413566069514,
	"eval_accuracy": 0.5927388930806444,
	"eval_loss": 0.6951669454574585,
	"eval_runtime": 282.3074,
	"eval_samples_per_second": 159.925,
	"eval_steps_per_second": 19.992,
	"step": 2020
	},
	{
	"epoch": 0.3108252947481243,
	"grad_norm": 9.97375202178955,
	"learning_rate": 4.2229367631296895e-06,
	"loss": 0.5758,
	"step": 2030
	},
	{
	"epoch": 0.3108252947481243,
	"eval_accuracy": 0.5917714488825698,
	"eval_loss": 0.6952547430992126,
	"eval_runtime": 281.5694,
	"eval_samples_per_second": 160.344,
	"eval_steps_per_second": 20.045,
	"step": 2030
	},
	{
	"epoch": 0.3123564538355535,
	"grad_norm": 7.828521251678467,
	"learning_rate": 4.219108865411117e-06,
	"loss": 0.6181,
	"step": 2040
	},
	{
	"epoch": 0.3123564538355535,
	"eval_accuracy": 0.5886520097712636,
	"eval_loss": 0.6984680891036987,
	"eval_runtime": 278.5618,
	"eval_samples_per_second": 162.075,
	"eval_steps_per_second": 20.261,
	"step": 2040
	},
	{
	"epoch": 0.3138876129229827,
	"grad_norm": 10.627179145812988,
	"learning_rate": 4.215280967692544e-06,
	"loss": 0.6605,
	"step": 2050
	},
	{
	"epoch": 0.3138876129229827,
	"eval_accuracy": 0.5845493371296379,
	"eval_loss": 0.6960271000862122,
	"eval_runtime": 278.4801,
	"eval_samples_per_second": 162.123,
	"eval_steps_per_second": 20.267,
	"step": 2050
	},
	{
	"epoch": 0.3154187720104119,
	"grad_norm": 6.945221424102783,
	"learning_rate": 4.211453069973971e-06,
	"loss": 0.6138,
	"step": 2060
	},
	{
	"epoch": 0.3154187720104119,
	"eval_accuracy": 0.5852839088643645,
	"eval_loss": 0.6904491782188416,
	"eval_runtime": 276.524,
	"eval_samples_per_second": 163.27,
	"eval_steps_per_second": 20.411,
	"step": 2060
	},
	{
	"epoch": 0.3169499310978411,
	"grad_norm": 13.37806224822998,
	"learning_rate": 4.207625172255398e-06,
	"loss": 0.5744,
	"step": 2070
	},
	{
	"epoch": 0.3169499310978411,
	"eval_accuracy": 0.5887589069679682,
	"eval_loss": 0.6954379677772522,
	"eval_runtime": 275.6555,
	"eval_samples_per_second": 163.784,
	"eval_steps_per_second": 20.475,
	"step": 2070
	},
	{
	"epoch": 0.31848109018527027,
	"grad_norm": 11.931571006774902,
	"learning_rate": 4.203797274536825e-06,
	"loss": 0.5473,
	"step": 2080
	},
	{
	"epoch": 0.31848109018527027,
	"eval_accuracy": 0.589274223967694,
	"eval_loss": 0.7085046172142029,
	"eval_runtime": 276.9102,
	"eval_samples_per_second": 163.042,
	"eval_steps_per_second": 20.382,
	"step": 2080
	},
	{
	"epoch": 0.32001224927269944,
	"grad_norm": 17.946001052856445,
	"learning_rate": 4.199969376818252e-06,
	"loss": 0.6201,
	"step": 2090
	},
	{
	"epoch": 0.32001224927269944,
	"eval_accuracy": 0.5832519747936452,
	"eval_loss": 0.7224695086479187,
	"eval_runtime": 278.3015,
	"eval_samples_per_second": 162.227,
	"eval_steps_per_second": 20.28,
	"step": 2090
	},
	{
	"epoch": 0.3215434083601286,
	"grad_norm": 9.482304573059082,
	"learning_rate": 4.1961414790996794e-06,
	"loss": 0.5663,
	"step": 2100
	},
	{
	"epoch": 0.3215434083601286,
	"eval_accuracy": 0.5839268676917615,
	"eval_loss": 0.7226927876472473,
	"eval_runtime": 280.269,
	"eval_samples_per_second": 161.088,
	"eval_steps_per_second": 20.138,
	"step": 2100
	},
	{
	"epoch": 0.3230745674475578,
	"grad_norm": 10.172694206237793,
	"learning_rate": 4.192313581381106e-06,
	"loss": 0.612,
	"step": 2110
	},
	{
	"epoch": 0.3230745674475578,
	"eval_accuracy": 0.5900024405937299,
	"eval_loss": 0.7088232040405273,
	"eval_runtime": 280.1784,
	"eval_samples_per_second": 161.14,
	"eval_steps_per_second": 20.144,
	"step": 2110
	},
	{
	"epoch": 0.324605726534987,
	"grad_norm": 11.057249069213867,
	"learning_rate": 4.188485683662533e-06,
	"loss": 0.5937,
	"step": 2120
	},
	{
	"epoch": 0.324605726534987,
	"eval_accuracy": 0.5903734771320152,
	"eval_loss": 0.7097996473312378,
	"eval_runtime": 281.3342,
	"eval_samples_per_second": 160.478,
	"eval_steps_per_second": 20.062,
	"step": 2120
	},
	{
	"epoch": 0.32613688562241616,
	"grad_norm": 12.521862030029297,
	"learning_rate": 4.184657785943959e-06,
	"loss": 0.6988,
	"step": 2130
	},
	{
	"epoch": 0.32613688562241616,
	"eval_accuracy": 0.5909282466452257,
	"eval_loss": 0.6956667900085449,
	"eval_runtime": 280.7428,
	"eval_samples_per_second": 160.816,
	"eval_steps_per_second": 20.104,
	"step": 2130
	},
	{
	"epoch": 0.32766804470984534,
	"grad_norm": 13.895928382873535,
	"learning_rate": 4.180829888225387e-06,
	"loss": 0.4822,
	"step": 2140
	},
	{
	"epoch": 0.32766804470984534,
	"eval_accuracy": 0.5896343627973021,
	"eval_loss": 0.7213166356086731,
	"eval_runtime": 281.166,
	"eval_samples_per_second": 160.574,
	"eval_steps_per_second": 20.074,
	"step": 2140
	},
	{
	"epoch": 0.3291992037972745,
	"grad_norm": 11.10944938659668,
	"learning_rate": 4.1770019905068135e-06,
	"loss": 0.5878,
	"step": 2150
	},
	{
	"epoch": 0.3291992037972745,
	"eval_accuracy": 0.5907275953859805,
	"eval_loss": 0.742756724357605,
	"eval_runtime": 281.9419,
	"eval_samples_per_second": 160.132,
	"eval_steps_per_second": 20.018,
	"step": 2150
	},
	{
	"epoch": 0.3307303628847037,
	"grad_norm": 12.602340698242188,
	"learning_rate": 4.173174092788241e-06,
	"loss": 0.5722,
	"step": 2160
	},
	{
	"epoch": 0.3307303628847037,
	"eval_accuracy": 0.590145030380982,
	"eval_loss": 0.7571865320205688,
	"eval_runtime": 279.9038,
	"eval_samples_per_second": 161.298,
	"eval_steps_per_second": 20.164,
	"step": 2160
	},
	{
	"epoch": 0.3322615219721329,
	"grad_norm": 18.790254592895508,
	"learning_rate": 4.169346195069668e-06,
	"loss": 0.6094,
	"step": 2170
	},
	{
	"epoch": 0.3322615219721329,
	"eval_accuracy": 0.5902217294900222,
	"eval_loss": 0.7526936531066895,
	"eval_runtime": 280.4762,
	"eval_samples_per_second": 160.969,
	"eval_steps_per_second": 20.123,
	"step": 2170
	},
	{
	"epoch": 0.3337926810595621,
	"grad_norm": 13.405548095703125,
	"learning_rate": 4.165518297351095e-06,
	"loss": 0.693,
	"step": 2180
	},
	{
	"epoch": 0.3337926810595621,
	"eval_accuracy": 0.5901581176679307,
	"eval_loss": 0.7200701832771301,
	"eval_runtime": 281.5673,
	"eval_samples_per_second": 160.345,
	"eval_steps_per_second": 20.045,
	"step": 2180
	},
	{
	"epoch": 0.3353238401469913,
	"grad_norm": 10.354043006896973,
	"learning_rate": 4.161690399632522e-06,
	"loss": 0.499,
	"step": 2190
	},
	{
	"epoch": 0.3353238401469913,
	"eval_accuracy": 0.5892896756732774,
	"eval_loss": 0.721836507320404,
	"eval_runtime": 279.1391,
	"eval_samples_per_second": 161.74,
	"eval_steps_per_second": 20.219,
	"step": 2190
	},
	{
	"epoch": 0.33685499923442047,
	"grad_norm": 8.689166069030762,
	"learning_rate": 4.157862501913949e-06,
	"loss": 0.594,
	"step": 2200
	},
	{
	"epoch": 0.33685499923442047,
	"eval_accuracy": 0.5895724296992815,
	"eval_loss": 0.7207421064376831,
	"eval_runtime": 279.1316,
	"eval_samples_per_second": 161.744,
	"eval_steps_per_second": 20.22,
	"step": 2200
	},
	{
	"epoch": 0.33838615832184965,
	"grad_norm": 12.664347648620605,
	"learning_rate": 4.154034604195376e-06,
	"loss": 0.5292,
	"step": 2210
	},
	{
	"epoch": 0.33838615832184965,
	"eval_accuracy": 0.5918439794990127,
	"eval_loss": 0.7299882173538208,
	"eval_runtime": 281.451,
	"eval_samples_per_second": 160.412,
	"eval_steps_per_second": 20.053,
	"step": 2210
	},
	{
	"epoch": 0.33991731740927883,
	"grad_norm": 14.595951080322266,
	"learning_rate": 4.150206706476803e-06,
	"loss": 0.5728,
	"step": 2220
	},
	{
	"epoch": 0.33991731740927883,
	"eval_accuracy": 0.5933771015392805,
	"eval_loss": 0.7359711527824402,
	"eval_runtime": 281.6141,
	"eval_samples_per_second": 160.319,
	"eval_steps_per_second": 20.042,
	"step": 2220
	},
	{
	"epoch": 0.341448476496708,
	"grad_norm": 16.81365203857422,
	"learning_rate": 4.14637880875823e-06,
	"loss": 0.6216,
	"step": 2230
	},
	{
	"epoch": 0.341448476496708,
	"eval_accuracy": 0.5928677563150074,
	"eval_loss": 0.7266600728034973,
	"eval_runtime": 281.4751,
	"eval_samples_per_second": 160.398,
	"eval_steps_per_second": 20.052,
	"step": 2230
	},
	{
	"epoch": 0.3429796355841372,
	"grad_norm": 9.753067016601562,
	"learning_rate": 4.1425509110396575e-06,
	"loss": 0.5759,
	"step": 2240
	},
	{
	"epoch": 0.3429796355841372,
	"eval_accuracy": 0.5927989522519923,
	"eval_loss": 0.7114787697792053,
	"eval_runtime": 281.2888,
	"eval_samples_per_second": 160.504,
	"eval_steps_per_second": 20.065,
	"step": 2240
	},
	{
	"epoch": 0.34451079467156637,
	"grad_norm": 10.276047706604004,
	"learning_rate": 4.138723013321084e-06,
	"loss": 0.621,
	"step": 2250
	},
	{
	"epoch": 0.34451079467156637,
	"eval_accuracy": 0.5948861366360367,
	"eval_loss": 0.7070339918136597,
	"eval_runtime": 280.8031,
	"eval_samples_per_second": 160.782,
	"eval_steps_per_second": 20.099,
	"step": 2250
	},
	{
	"epoch": 0.34604195375899555,
	"grad_norm": 11.647406578063965,
	"learning_rate": 4.134895115602512e-06,
	"loss": 0.6023,
	"step": 2260
	},
	{
	"epoch": 0.34604195375899555,
	"eval_accuracy": 0.5949940087871123,
	"eval_loss": 0.7148999571800232,
	"eval_runtime": 280.6819,
	"eval_samples_per_second": 160.851,
	"eval_steps_per_second": 20.108,
	"step": 2260
	},
	{
	"epoch": 0.3475731128464247,
	"grad_norm": 9.785872459411621,
	"learning_rate": 4.131067217883938e-06,
	"loss": 0.578,
	"step": 2270
	},
	{
	"epoch": 0.3475731128464247,
	"eval_accuracy": 0.59318833174113,
	"eval_loss": 0.7126178741455078,
	"eval_runtime": 281.5251,
	"eval_samples_per_second": 160.369,
	"eval_steps_per_second": 20.048,
	"step": 2270
	},
	{
	"epoch": 0.3491042719338539,
	"grad_norm": 11.013738632202148,
	"learning_rate": 4.127239320165366e-06,
	"loss": 0.5701,
	"step": 2280
	},
	{
	"epoch": 0.3491042719338539,
	"eval_accuracy": 0.5925876549793361,
	"eval_loss": 0.7025783061981201,
	"eval_runtime": 278.114,
	"eval_samples_per_second": 162.336,
	"eval_steps_per_second": 20.294,
	"step": 2280
	},
	{
	"epoch": 0.3506354310212831,
	"grad_norm": 9.779340744018555,
	"learning_rate": 4.1234114224467924e-06,
	"loss": 0.6761,
	"step": 2290
	},
	{
	"epoch": 0.3506354310212831,
	"eval_accuracy": 0.5935654336338203,
	"eval_loss": 0.6881637573242188,
	"eval_runtime": 281.0803,
	"eval_samples_per_second": 160.623,
	"eval_steps_per_second": 20.08,
	"step": 2290
	},
	{
	"epoch": 0.3521665901087123,
	"grad_norm": 13.62732219696045,
	"learning_rate": 4.11958352472822e-06,
	"loss": 0.5771,
	"step": 2300
	},
	{
	"epoch": 0.3521665901087123,
	"eval_accuracy": 0.5967165834719911,
	"eval_loss": 0.6921752691268921,
	"eval_runtime": 278.472,
	"eval_samples_per_second": 162.128,
	"eval_steps_per_second": 20.268,
	"step": 2300
	},
	{
	"epoch": 0.3536977491961415,
	"grad_norm": 13.277196884155273,
	"learning_rate": 4.1157556270096466e-06,
	"loss": 0.6241,
	"step": 2310
	},
	{
	"epoch": 0.3536977491961415,
	"eval_accuracy": 0.5976616231086658,
	"eval_loss": 0.6972672939300537,
	"eval_runtime": 279.3077,
	"eval_samples_per_second": 161.643,
	"eval_steps_per_second": 20.207,
	"step": 2310
	},
	{
	"epoch": 0.3552289082835707,
	"grad_norm": 11.036153793334961,
	"learning_rate": 4.111927729291074e-06,
	"loss": 0.6102,
	"step": 2320
	},
	{
	"epoch": 0.3552289082835707,
	"eval_accuracy": 0.5959098571555319,
	"eval_loss": 0.6897289752960205,
	"eval_runtime": 280.1189,
	"eval_samples_per_second": 161.174,
	"eval_steps_per_second": 20.149,
	"step": 2320
	},
	{
	"epoch": 0.35676006737099986,
	"grad_norm": 16.50404167175293,
	"learning_rate": 4.108099831572501e-06,
	"loss": 0.5876,
	"step": 2330
	},
	{
	"epoch": 0.35676006737099986,
	"eval_accuracy": 0.595568665720369,
	"eval_loss": 0.6913372874259949,
	"eval_runtime": 279.8966,
	"eval_samples_per_second": 161.302,
	"eval_steps_per_second": 20.165,
	"step": 2330
	},
	{
	"epoch": 0.35829122645842904,
	"grad_norm": 10.642626762390137,
	"learning_rate": 4.104271933853927e-06,
	"loss": 0.651,
	"step": 2340
	},
	{
	"epoch": 0.35829122645842904,
	"eval_accuracy": 0.5946874792133212,
	"eval_loss": 0.6878921389579773,
	"eval_runtime": 280.9394,
	"eval_samples_per_second": 160.704,
	"eval_steps_per_second": 20.09,
	"step": 2340
	},
	{
	"epoch": 0.3598223855458582,
	"grad_norm": 13.040077209472656,
	"learning_rate": 4.100444036135355e-06,
	"loss": 0.5587,
	"step": 2350
	},
	{
	"epoch": 0.3598223855458582,
	"eval_accuracy": 0.5935343584281879,
	"eval_loss": 0.6936639547348022,
	"eval_runtime": 282.096,
	"eval_samples_per_second": 160.045,
	"eval_steps_per_second": 20.007,
	"step": 2350
	},
	{
	"epoch": 0.3613535446332874,
	"grad_norm": 10.807535171508789,
	"learning_rate": 4.0966161384167815e-06,
	"loss": 0.6514,
	"step": 2360
	},
	{
	"epoch": 0.3613535446332874,
	"eval_accuracy": 0.5977954711792233,
	"eval_loss": 0.6872532963752747,
	"eval_runtime": 279.4925,
	"eval_samples_per_second": 161.536,
	"eval_steps_per_second": 20.194,
	"step": 2360
	},
	{
	"epoch": 0.3628847037207166,
	"grad_norm": 10.98725700378418,
	"learning_rate": 4.092788240698209e-06,
	"loss": 0.6015,
	"step": 2370
	},
	{
	"epoch": 0.3628847037207166,
	"eval_accuracy": 0.5974941789555384,
	"eval_loss": 0.6847018003463745,
	"eval_runtime": 281.2012,
	"eval_samples_per_second": 160.554,
	"eval_steps_per_second": 20.071,
	"step": 2370
	},
	{
	"epoch": 0.36441586280814575,
	"grad_norm": 12.160524368286133,
	"learning_rate": 4.088960342979636e-06,
	"loss": 0.5671,
	"step": 2380
	},
	{
	"epoch": 0.36441586280814575,
	"eval_accuracy": 0.598935344349562,
	"eval_loss": 0.6907532811164856,
	"eval_runtime": 281.9981,
	"eval_samples_per_second": 160.1,
	"eval_steps_per_second": 20.014,
	"step": 2380
	},
	{
	"epoch": 0.36594702189557493,
	"grad_norm": 12.533185005187988,
	"learning_rate": 4.085132445261063e-06,
	"loss": 0.6757,
	"step": 2390
	},
	{
	"epoch": 0.36594702189557493,
	"eval_accuracy": 0.5970619563287769,
	"eval_loss": 0.6963858008384705,
	"eval_runtime": 281.702,
	"eval_samples_per_second": 160.269,
	"eval_steps_per_second": 20.035,
	"step": 2390
	},
	{
	"epoch": 0.3674781809830041,
	"grad_norm": 11.481986045837402,
	"learning_rate": 4.08130454754249e-06,
	"loss": 0.6244,
	"step": 2400
	},
	{
	"epoch": 0.3674781809830041,
	"eval_accuracy": 0.5956671480946562,
	"eval_loss": 0.6951790452003479,
	"eval_runtime": 281.7788,
	"eval_samples_per_second": 160.225,
	"eval_steps_per_second": 20.03,
	"step": 2400
	},
	{
	"epoch": 0.36900934007043334,
	"grad_norm": 15.283388137817383,
	"learning_rate": 4.077476649823917e-06,
	"loss": 0.5761,
	"step": 2410
	},
	{
	"epoch": 0.36900934007043334,
	"eval_accuracy": 0.5921616520484068,
	"eval_loss": 0.7129482626914978,
	"eval_runtime": 280.9999,
	"eval_samples_per_second": 160.669,
	"eval_steps_per_second": 20.085,
	"step": 2410
	},
	{
	"epoch": 0.3705404991578625,
	"grad_norm": 14.590538024902344,
	"learning_rate": 4.073648752105344e-06,
	"loss": 0.5847,
	"step": 2420
	},
	{
	"epoch": 0.3705404991578625,
	"eval_accuracy": 0.5910292582142936,
	"eval_loss": 0.7289432287216187,
	"eval_runtime": 281.5113,
	"eval_samples_per_second": 160.377,
	"eval_steps_per_second": 20.049,
	"step": 2420
	},
	{
	"epoch": 0.3720716582452917,
	"grad_norm": 14.669201850891113,
	"learning_rate": 4.069820854386771e-06,
	"loss": 0.5957,
	"step": 2430
	},
	{
	"epoch": 0.3720716582452917,
	"eval_accuracy": 0.5891025356365736,
	"eval_loss": 0.7361324429512024,
	"eval_runtime": 278.169,
	"eval_samples_per_second": 162.304,
	"eval_steps_per_second": 20.29,
	"step": 2430
	},
	{
	"epoch": 0.3736028173327209,
	"grad_norm": 9.489580154418945,
	"learning_rate": 4.065992956668198e-06,
	"loss": 0.5718,
	"step": 2440
	},
	{
	"epoch": 0.3736028173327209,
	"eval_accuracy": 0.5889370209930024,
	"eval_loss": 0.7279490828514099,
	"eval_runtime": 277.7775,
	"eval_samples_per_second": 162.533,
	"eval_steps_per_second": 20.318,
	"step": 2440
	},
	{
	"epoch": 0.37513397642015006,
	"grad_norm": 15.029380798339844,
	"learning_rate": 4.0621650589496255e-06,
	"loss": 0.6081,
	"step": 2450
	},
	{
	"epoch": 0.37513397642015006,
	"eval_accuracy": 0.5909000155289837,
	"eval_loss": 0.72515469789505,
	"eval_runtime": 280.1896,
	"eval_samples_per_second": 161.134,
	"eval_steps_per_second": 20.143,
	"step": 2450
	},
	{
	"epoch": 0.37666513550757924,
	"grad_norm": 12.974061965942383,
	"learning_rate": 4.058337161231052e-06,
	"loss": 0.5805,
	"step": 2460
	},
	{
	"epoch": 0.37666513550757924,
	"eval_accuracy": 0.5923000110950849,
	"eval_loss": 0.7263885736465454,
	"eval_runtime": 277.833,
	"eval_samples_per_second": 162.501,
	"eval_steps_per_second": 20.314,
	"step": 2460
	},
	{
	"epoch": 0.3781962945950084,
	"grad_norm": 17.26422119140625,
	"learning_rate": 4.05450926351248e-06,
	"loss": 0.6574,
	"step": 2470
	},
	{
	"epoch": 0.3781962945950084,
	"eval_accuracy": 0.5921569497769591,
	"eval_loss": 0.7078375816345215,
	"eval_runtime": 278.2251,
	"eval_samples_per_second": 162.271,
	"eval_steps_per_second": 20.286,
	"step": 2470
	},
	{
	"epoch": 0.3797274536824376,
	"grad_norm": 13.827315330505371,
	"learning_rate": 4.050681365793906e-06,
	"loss": 0.6347,
	"step": 2480
	},
	{
	"epoch": 0.3797274536824376,
	"eval_accuracy": 0.5945813901843215,
	"eval_loss": 0.700303316116333,
	"eval_runtime": 280.284,
	"eval_samples_per_second": 161.079,
	"eval_steps_per_second": 20.137,
	"step": 2480
	},
	{
	"epoch": 0.3812586127698668,
	"grad_norm": 12.102642059326172,
	"learning_rate": 4.046853468075334e-06,
	"loss": 0.6385,
	"step": 2490
	},
	{
	"epoch": 0.3812586127698668,
	"eval_accuracy": 0.5984858576439768,
	"eval_loss": 0.6862630844116211,
	"eval_runtime": 277.6537,
	"eval_samples_per_second": 162.605,
	"eval_steps_per_second": 20.327,
	"step": 2490
	},
	{
	"epoch": 0.38278977185729596,
	"grad_norm": 8.007050514221191,
	"learning_rate": 4.04302557035676e-06,
	"loss": 0.5878,
	"step": 2500
	},
	{
	"epoch": 0.38278977185729596,
	"eval_accuracy": 0.6000088768558177,
	"eval_loss": 0.6816014647483826,
	"eval_runtime": 278.6731,
	"eval_samples_per_second": 162.011,
	"eval_steps_per_second": 20.253,
	"step": 2500
	}
	],
	"logging_steps": 10,
	"max_steps": 13062,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}