Upload MolCrawl compounds BERT small model

90dd521 verified 2 months ago

249 kB

	{
	"best_metric": 0.229187473654747,
	"best_model_checkpoint": "learning_source_20260318/compounds/bert-output/compounds-small/checkpoint-61000",
	"epoch": 3.7895791085917425,
	"eval_steps": 100,
	"global_step": 63000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006015204934272608,
	"grad_norm": 4.738959312438965,
	"learning_rate": 3e-06,
	"loss": 4.8794,
	"step": 100
	},
	{
	"epoch": 0.006015204934272608,
	"eval_loss": 3.196549892425537,
	"eval_runtime": 21.7167,
	"eval_samples_per_second": 460.474,
	"eval_steps_per_second": 57.559,
	"step": 100
	},
	{
	"epoch": 0.012030409868545216,
	"grad_norm": 3.5901083946228027,
	"learning_rate": 6e-06,
	"loss": 2.8953,
	"step": 200
	},
	{
	"epoch": 0.012030409868545216,
	"eval_loss": 2.467365264892578,
	"eval_runtime": 21.7318,
	"eval_samples_per_second": 460.156,
	"eval_steps_per_second": 57.52,
	"step": 200
	},
	{
	"epoch": 0.018045614802817824,
	"grad_norm": 1.398197889328003,
	"learning_rate": 5.998999666555519e-06,
	"loss": 2.4113,
	"step": 300
	},
	{
	"epoch": 0.018045614802817824,
	"eval_loss": 2.267258644104004,
	"eval_runtime": 21.7416,
	"eval_samples_per_second": 459.948,
	"eval_steps_per_second": 57.493,
	"step": 300
	},
	{
	"epoch": 0.02406081973709043,
	"grad_norm": 1.1230988502502441,
	"learning_rate": 5.997999333111037e-06,
	"loss": 2.2393,
	"step": 400
	},
	{
	"epoch": 0.02406081973709043,
	"eval_loss": 2.1407406330108643,
	"eval_runtime": 21.7301,
	"eval_samples_per_second": 460.192,
	"eval_steps_per_second": 57.524,
	"step": 400
	},
	{
	"epoch": 0.030076024671363038,
	"grad_norm": 1.1243526935577393,
	"learning_rate": 5.9969989996665554e-06,
	"loss": 2.129,
	"step": 500
	},
	{
	"epoch": 0.030076024671363038,
	"eval_loss": 2.0753207206726074,
	"eval_runtime": 21.7547,
	"eval_samples_per_second": 459.671,
	"eval_steps_per_second": 57.459,
	"step": 500
	},
	{
	"epoch": 0.03609122960563565,
	"grad_norm": 2.403114080429077,
	"learning_rate": 5.995998666222074e-06,
	"loss": 2.0746,
	"step": 600
	},
	{
	"epoch": 0.03609122960563565,
	"eval_loss": 2.029200315475464,
	"eval_runtime": 21.746,
	"eval_samples_per_second": 459.855,
	"eval_steps_per_second": 57.482,
	"step": 600
	},
	{
	"epoch": 0.042106434539908255,
	"grad_norm": 1.4393417835235596,
	"learning_rate": 5.994998332777593e-06,
	"loss": 2.0389,
	"step": 700
	},
	{
	"epoch": 0.042106434539908255,
	"eval_loss": 1.995573878288269,
	"eval_runtime": 21.7364,
	"eval_samples_per_second": 460.057,
	"eval_steps_per_second": 57.507,
	"step": 700
	},
	{
	"epoch": 0.04812163947418086,
	"grad_norm": 1.392498254776001,
	"learning_rate": 5.9939979993331115e-06,
	"loss": 1.9989,
	"step": 800
	},
	{
	"epoch": 0.04812163947418086,
	"eval_loss": 1.9491331577301025,
	"eval_runtime": 21.7276,
	"eval_samples_per_second": 460.245,
	"eval_steps_per_second": 57.531,
	"step": 800
	},
	{
	"epoch": 0.05413684440845347,
	"grad_norm": 1.9008598327636719,
	"learning_rate": 5.992997665888629e-06,
	"loss": 1.9332,
	"step": 900
	},
	{
	"epoch": 0.05413684440845347,
	"eval_loss": 1.8610961437225342,
	"eval_runtime": 21.7345,
	"eval_samples_per_second": 460.098,
	"eval_steps_per_second": 57.512,
	"step": 900
	},
	{
	"epoch": 0.060152049342726076,
	"grad_norm": 2.0319344997406006,
	"learning_rate": 5.991997332444148e-06,
	"loss": 1.8607,
	"step": 1000
	},
	{
	"epoch": 0.060152049342726076,
	"eval_loss": 1.7824585437774658,
	"eval_runtime": 21.7313,
	"eval_samples_per_second": 460.167,
	"eval_steps_per_second": 57.521,
	"step": 1000
	},
	{
	"epoch": 0.06616725427699868,
	"grad_norm": 1.9651939868927002,
	"learning_rate": 5.990996998999667e-06,
	"loss": 1.8064,
	"step": 1100
	},
	{
	"epoch": 0.06616725427699868,
	"eval_loss": 1.7280884981155396,
	"eval_runtime": 21.7428,
	"eval_samples_per_second": 459.923,
	"eval_steps_per_second": 57.49,
	"step": 1100
	},
	{
	"epoch": 0.0721824592112713,
	"grad_norm": 1.2767350673675537,
	"learning_rate": 5.989996665555185e-06,
	"loss": 1.7432,
	"step": 1200
	},
	{
	"epoch": 0.0721824592112713,
	"eval_loss": 1.644949197769165,
	"eval_runtime": 21.7259,
	"eval_samples_per_second": 460.279,
	"eval_steps_per_second": 57.535,
	"step": 1200
	},
	{
	"epoch": 0.0781976641455439,
	"grad_norm": 1.3338353633880615,
	"learning_rate": 5.988996332110703e-06,
	"loss": 1.6816,
	"step": 1300
	},
	{
	"epoch": 0.0781976641455439,
	"eval_loss": 1.5758517980575562,
	"eval_runtime": 21.7331,
	"eval_samples_per_second": 460.127,
	"eval_steps_per_second": 57.516,
	"step": 1300
	},
	{
	"epoch": 0.08421286907981651,
	"grad_norm": 1.5716562271118164,
	"learning_rate": 5.987995998666222e-06,
	"loss": 1.6209,
	"step": 1400
	},
	{
	"epoch": 0.08421286907981651,
	"eval_loss": 1.506639003753662,
	"eval_runtime": 21.74,
	"eval_samples_per_second": 459.982,
	"eval_steps_per_second": 57.498,
	"step": 1400
	},
	{
	"epoch": 0.09022807401408911,
	"grad_norm": 1.4891563653945923,
	"learning_rate": 5.986995665221741e-06,
	"loss": 1.5562,
	"step": 1500
	},
	{
	"epoch": 0.09022807401408911,
	"eval_loss": 1.4430310726165771,
	"eval_runtime": 21.7254,
	"eval_samples_per_second": 460.29,
	"eval_steps_per_second": 57.536,
	"step": 1500
	},
	{
	"epoch": 0.09624327894836172,
	"grad_norm": 1.6210014820098877,
	"learning_rate": 5.9859953317772595e-06,
	"loss": 1.5081,
	"step": 1600
	},
	{
	"epoch": 0.09624327894836172,
	"eval_loss": 1.394563913345337,
	"eval_runtime": 21.7318,
	"eval_samples_per_second": 460.155,
	"eval_steps_per_second": 57.519,
	"step": 1600
	},
	{
	"epoch": 0.10225848388263432,
	"grad_norm": 2.3340542316436768,
	"learning_rate": 5.984994998332777e-06,
	"loss": 1.4674,
	"step": 1700
	},
	{
	"epoch": 0.10225848388263432,
	"eval_loss": 1.3446385860443115,
	"eval_runtime": 21.735,
	"eval_samples_per_second": 460.088,
	"eval_steps_per_second": 57.511,
	"step": 1700
	},
	{
	"epoch": 0.10827368881690694,
	"grad_norm": 1.6647675037384033,
	"learning_rate": 5.983994664888296e-06,
	"loss": 1.424,
	"step": 1800
	},
	{
	"epoch": 0.10827368881690694,
	"eval_loss": 1.3100253343582153,
	"eval_runtime": 21.725,
	"eval_samples_per_second": 460.299,
	"eval_steps_per_second": 57.537,
	"step": 1800
	},
	{
	"epoch": 0.11428889375117954,
	"grad_norm": 1.46592116355896,
	"learning_rate": 5.982994331443815e-06,
	"loss": 1.3892,
	"step": 1900
	},
	{
	"epoch": 0.11428889375117954,
	"eval_loss": 1.2686667442321777,
	"eval_runtime": 21.7512,
	"eval_samples_per_second": 459.744,
	"eval_steps_per_second": 57.468,
	"step": 1900
	},
	{
	"epoch": 0.12030409868545215,
	"grad_norm": 1.8340036869049072,
	"learning_rate": 5.981993997999333e-06,
	"loss": 1.3564,
	"step": 2000
	},
	{
	"epoch": 0.12030409868545215,
	"eval_loss": 1.2294234037399292,
	"eval_runtime": 21.7966,
	"eval_samples_per_second": 458.788,
	"eval_steps_per_second": 57.348,
	"step": 2000
	},
	{
	"epoch": 0.12631930361972477,
	"grad_norm": 1.5960652828216553,
	"learning_rate": 5.980993664554851e-06,
	"loss": 1.3285,
	"step": 2100
	},
	{
	"epoch": 0.12631930361972477,
	"eval_loss": 1.2100887298583984,
	"eval_runtime": 21.7436,
	"eval_samples_per_second": 459.905,
	"eval_steps_per_second": 57.488,
	"step": 2100
	},
	{
	"epoch": 0.13233450855399737,
	"grad_norm": 1.8335785865783691,
	"learning_rate": 5.979993331110371e-06,
	"loss": 1.3001,
	"step": 2200
	},
	{
	"epoch": 0.13233450855399737,
	"eval_loss": 1.1752792596817017,
	"eval_runtime": 21.7453,
	"eval_samples_per_second": 459.87,
	"eval_steps_per_second": 57.484,
	"step": 2200
	},
	{
	"epoch": 0.13834971348826997,
	"grad_norm": 1.612433671951294,
	"learning_rate": 5.978992997665889e-06,
	"loss": 1.2695,
	"step": 2300
	},
	{
	"epoch": 0.13834971348826997,
	"eval_loss": 1.147255778312683,
	"eval_runtime": 21.6924,
	"eval_samples_per_second": 460.992,
	"eval_steps_per_second": 57.624,
	"step": 2300
	},
	{
	"epoch": 0.1443649184225426,
	"grad_norm": 1.5603346824645996,
	"learning_rate": 5.9779926642214075e-06,
	"loss": 1.2412,
	"step": 2400
	},
	{
	"epoch": 0.1443649184225426,
	"eval_loss": 1.1130963563919067,
	"eval_runtime": 21.7087,
	"eval_samples_per_second": 460.645,
	"eval_steps_per_second": 57.581,
	"step": 2400
	},
	{
	"epoch": 0.1503801233568152,
	"grad_norm": 1.6393444538116455,
	"learning_rate": 5.976992330776926e-06,
	"loss": 1.2159,
	"step": 2500
	},
	{
	"epoch": 0.1503801233568152,
	"eval_loss": 1.0844037532806396,
	"eval_runtime": 21.7041,
	"eval_samples_per_second": 460.743,
	"eval_steps_per_second": 57.593,
	"step": 2500
	},
	{
	"epoch": 0.1563953282910878,
	"grad_norm": 1.638340950012207,
	"learning_rate": 5.975991997332444e-06,
	"loss": 1.1898,
	"step": 2600
	},
	{
	"epoch": 0.1563953282910878,
	"eval_loss": 1.0646270513534546,
	"eval_runtime": 21.7166,
	"eval_samples_per_second": 460.476,
	"eval_steps_per_second": 57.56,
	"step": 2600
	},
	{
	"epoch": 0.1624105332253604,
	"grad_norm": 1.745104432106018,
	"learning_rate": 5.974991663887963e-06,
	"loss": 1.1708,
	"step": 2700
	},
	{
	"epoch": 0.1624105332253604,
	"eval_loss": 1.0485780239105225,
	"eval_runtime": 21.7198,
	"eval_samples_per_second": 460.41,
	"eval_steps_per_second": 57.551,
	"step": 2700
	},
	{
	"epoch": 0.16842573815963302,
	"grad_norm": 1.759570837020874,
	"learning_rate": 5.973991330443481e-06,
	"loss": 1.1522,
	"step": 2800
	},
	{
	"epoch": 0.16842573815963302,
	"eval_loss": 1.0218431949615479,
	"eval_runtime": 21.7241,
	"eval_samples_per_second": 460.318,
	"eval_steps_per_second": 57.54,
	"step": 2800
	},
	{
	"epoch": 0.17444094309390562,
	"grad_norm": 1.76418936252594,
	"learning_rate": 5.972990996999e-06,
	"loss": 1.1218,
	"step": 2900
	},
	{
	"epoch": 0.17444094309390562,
	"eval_loss": 1.0075299739837646,
	"eval_runtime": 21.7441,
	"eval_samples_per_second": 459.894,
	"eval_steps_per_second": 57.487,
	"step": 2900
	},
	{
	"epoch": 0.18045614802817822,
	"grad_norm": 1.7186238765716553,
	"learning_rate": 5.971990663554519e-06,
	"loss": 1.1074,
	"step": 3000
	},
	{
	"epoch": 0.18045614802817822,
	"eval_loss": 0.9909061789512634,
	"eval_runtime": 21.7393,
	"eval_samples_per_second": 459.997,
	"eval_steps_per_second": 57.5,
	"step": 3000
	},
	{
	"epoch": 0.18647135296245085,
	"grad_norm": 1.6869324445724487,
	"learning_rate": 5.970990330110037e-06,
	"loss": 1.0871,
	"step": 3100
	},
	{
	"epoch": 0.18647135296245085,
	"eval_loss": 0.965461254119873,
	"eval_runtime": 21.7525,
	"eval_samples_per_second": 459.717,
	"eval_steps_per_second": 57.465,
	"step": 3100
	},
	{
	"epoch": 0.19248655789672345,
	"grad_norm": 1.590827465057373,
	"learning_rate": 5.9699899966655554e-06,
	"loss": 1.0678,
	"step": 3200
	},
	{
	"epoch": 0.19248655789672345,
	"eval_loss": 0.9502421617507935,
	"eval_runtime": 21.7257,
	"eval_samples_per_second": 460.284,
	"eval_steps_per_second": 57.536,
	"step": 3200
	},
	{
	"epoch": 0.19850176283099605,
	"grad_norm": 1.3480803966522217,
	"learning_rate": 5.968989663221074e-06,
	"loss": 1.05,
	"step": 3300
	},
	{
	"epoch": 0.19850176283099605,
	"eval_loss": 0.9217738509178162,
	"eval_runtime": 21.7126,
	"eval_samples_per_second": 460.562,
	"eval_steps_per_second": 57.57,
	"step": 3300
	},
	{
	"epoch": 0.20451696776526865,
	"grad_norm": 1.611717700958252,
	"learning_rate": 5.967989329776592e-06,
	"loss": 1.0308,
	"step": 3400
	},
	{
	"epoch": 0.20451696776526865,
	"eval_loss": 0.9114508628845215,
	"eval_runtime": 21.727,
	"eval_samples_per_second": 460.257,
	"eval_steps_per_second": 57.532,
	"step": 3400
	},
	{
	"epoch": 0.21053217269954128,
	"grad_norm": 1.424517035484314,
	"learning_rate": 5.966988996332111e-06,
	"loss": 1.0161,
	"step": 3500
	},
	{
	"epoch": 0.21053217269954128,
	"eval_loss": 0.8955187797546387,
	"eval_runtime": 21.7397,
	"eval_samples_per_second": 459.988,
	"eval_steps_per_second": 57.498,
	"step": 3500
	},
	{
	"epoch": 0.21654737763381388,
	"grad_norm": 1.8415201902389526,
	"learning_rate": 5.965988662887629e-06,
	"loss": 0.9983,
	"step": 3600
	},
	{
	"epoch": 0.21654737763381388,
	"eval_loss": 0.8804967999458313,
	"eval_runtime": 21.7608,
	"eval_samples_per_second": 459.541,
	"eval_steps_per_second": 57.443,
	"step": 3600
	},
	{
	"epoch": 0.22256258256808648,
	"grad_norm": 1.5056076049804688,
	"learning_rate": 5.964988329443148e-06,
	"loss": 0.9849,
	"step": 3700
	},
	{
	"epoch": 0.22256258256808648,
	"eval_loss": 0.8613883852958679,
	"eval_runtime": 21.7348,
	"eval_samples_per_second": 460.091,
	"eval_steps_per_second": 57.511,
	"step": 3700
	},
	{
	"epoch": 0.22857778750235908,
	"grad_norm": 1.6334686279296875,
	"learning_rate": 5.963987995998667e-06,
	"loss": 0.9689,
	"step": 3800
	},
	{
	"epoch": 0.22857778750235908,
	"eval_loss": 0.8555884957313538,
	"eval_runtime": 21.7044,
	"eval_samples_per_second": 460.736,
	"eval_steps_per_second": 57.592,
	"step": 3800
	},
	{
	"epoch": 0.2345929924366317,
	"grad_norm": 1.7393226623535156,
	"learning_rate": 5.962987662554185e-06,
	"loss": 0.9564,
	"step": 3900
	},
	{
	"epoch": 0.2345929924366317,
	"eval_loss": 0.8427873849868774,
	"eval_runtime": 21.7376,
	"eval_samples_per_second": 460.033,
	"eval_steps_per_second": 57.504,
	"step": 3900
	},
	{
	"epoch": 0.2406081973709043,
	"grad_norm": 1.5030866861343384,
	"learning_rate": 5.961987329109703e-06,
	"loss": 0.9417,
	"step": 4000
	},
	{
	"epoch": 0.2406081973709043,
	"eval_loss": 0.8300994038581848,
	"eval_runtime": 21.7438,
	"eval_samples_per_second": 459.902,
	"eval_steps_per_second": 57.488,
	"step": 4000
	},
	{
	"epoch": 0.2466234023051769,
	"grad_norm": 1.8627735376358032,
	"learning_rate": 5.960986995665222e-06,
	"loss": 0.9277,
	"step": 4100
	},
	{
	"epoch": 0.2466234023051769,
	"eval_loss": 0.8120391368865967,
	"eval_runtime": 21.755,
	"eval_samples_per_second": 459.664,
	"eval_steps_per_second": 57.458,
	"step": 4100
	},
	{
	"epoch": 0.25263860723944953,
	"grad_norm": 1.5174646377563477,
	"learning_rate": 5.95998666222074e-06,
	"loss": 0.9123,
	"step": 4200
	},
	{
	"epoch": 0.25263860723944953,
	"eval_loss": 0.7974905371665955,
	"eval_runtime": 21.7219,
	"eval_samples_per_second": 460.366,
	"eval_steps_per_second": 57.546,
	"step": 4200
	},
	{
	"epoch": 0.25865381217372213,
	"grad_norm": 1.354490041732788,
	"learning_rate": 5.958986328776259e-06,
	"loss": 0.9028,
	"step": 4300
	},
	{
	"epoch": 0.25865381217372213,
	"eval_loss": 0.7938092947006226,
	"eval_runtime": 21.7182,
	"eval_samples_per_second": 460.444,
	"eval_steps_per_second": 57.555,
	"step": 4300
	},
	{
	"epoch": 0.26466901710799473,
	"grad_norm": 1.6153218746185303,
	"learning_rate": 5.957985995331777e-06,
	"loss": 0.8954,
	"step": 4400
	},
	{
	"epoch": 0.26466901710799473,
	"eval_loss": 0.7785645723342896,
	"eval_runtime": 21.7451,
	"eval_samples_per_second": 459.873,
	"eval_steps_per_second": 57.484,
	"step": 4400
	},
	{
	"epoch": 0.27068422204226733,
	"grad_norm": 1.9774231910705566,
	"learning_rate": 5.956985661887296e-06,
	"loss": 0.8819,
	"step": 4500
	},
	{
	"epoch": 0.27068422204226733,
	"eval_loss": 0.7742797136306763,
	"eval_runtime": 21.7358,
	"eval_samples_per_second": 460.07,
	"eval_steps_per_second": 57.509,
	"step": 4500
	},
	{
	"epoch": 0.27669942697653993,
	"grad_norm": 1.6561676263809204,
	"learning_rate": 5.955985328442815e-06,
	"loss": 0.8729,
	"step": 4600
	},
	{
	"epoch": 0.27669942697653993,
	"eval_loss": 0.7637073397636414,
	"eval_runtime": 21.7296,
	"eval_samples_per_second": 460.202,
	"eval_steps_per_second": 57.525,
	"step": 4600
	},
	{
	"epoch": 0.28271463191081253,
	"grad_norm": 1.5622860193252563,
	"learning_rate": 5.954984994998333e-06,
	"loss": 0.8608,
	"step": 4700
	},
	{
	"epoch": 0.28271463191081253,
	"eval_loss": 0.7628427743911743,
	"eval_runtime": 21.7339,
	"eval_samples_per_second": 460.111,
	"eval_steps_per_second": 57.514,
	"step": 4700
	},
	{
	"epoch": 0.2887298368450852,
	"grad_norm": 1.6501961946487427,
	"learning_rate": 5.953984661553851e-06,
	"loss": 0.8489,
	"step": 4800
	},
	{
	"epoch": 0.2887298368450852,
	"eval_loss": 0.7505598068237305,
	"eval_runtime": 21.7165,
	"eval_samples_per_second": 460.479,
	"eval_steps_per_second": 57.56,
	"step": 4800
	},
	{
	"epoch": 0.2947450417793578,
	"grad_norm": 1.7538303136825562,
	"learning_rate": 5.95298432810937e-06,
	"loss": 0.8401,
	"step": 4900
	},
	{
	"epoch": 0.2947450417793578,
	"eval_loss": 0.7426216006278992,
	"eval_runtime": 21.7216,
	"eval_samples_per_second": 460.37,
	"eval_steps_per_second": 57.546,
	"step": 4900
	},
	{
	"epoch": 0.3007602467136304,
	"grad_norm": 1.5520670413970947,
	"learning_rate": 5.951983994664888e-06,
	"loss": 0.8361,
	"step": 5000
	},
	{
	"epoch": 0.3007602467136304,
	"eval_loss": 0.7258592247962952,
	"eval_runtime": 21.7177,
	"eval_samples_per_second": 460.454,
	"eval_steps_per_second": 57.557,
	"step": 5000
	},
	{
	"epoch": 0.306775451647903,
	"grad_norm": 2.0393898487091064,
	"learning_rate": 5.950983661220407e-06,
	"loss": 0.8273,
	"step": 5100
	},
	{
	"epoch": 0.306775451647903,
	"eval_loss": 0.7185364365577698,
	"eval_runtime": 21.6894,
	"eval_samples_per_second": 461.054,
	"eval_steps_per_second": 57.632,
	"step": 5100
	},
	{
	"epoch": 0.3127906565821756,
	"grad_norm": 1.9601730108261108,
	"learning_rate": 5.949983327775925e-06,
	"loss": 0.8135,
	"step": 5200
	},
	{
	"epoch": 0.3127906565821756,
	"eval_loss": 0.7162497639656067,
	"eval_runtime": 21.7614,
	"eval_samples_per_second": 459.53,
	"eval_steps_per_second": 57.441,
	"step": 5200
	},
	{
	"epoch": 0.3188058615164482,
	"grad_norm": 1.4966851472854614,
	"learning_rate": 5.948982994331444e-06,
	"loss": 0.8037,
	"step": 5300
	},
	{
	"epoch": 0.3188058615164482,
	"eval_loss": 0.7116673588752747,
	"eval_runtime": 21.8409,
	"eval_samples_per_second": 457.857,
	"eval_steps_per_second": 57.232,
	"step": 5300
	},
	{
	"epoch": 0.3248210664507208,
	"grad_norm": 1.4574569463729858,
	"learning_rate": 5.947982660886963e-06,
	"loss": 0.8027,
	"step": 5400
	},
	{
	"epoch": 0.3248210664507208,
	"eval_loss": 0.6981866359710693,
	"eval_runtime": 21.7832,
	"eval_samples_per_second": 459.07,
	"eval_steps_per_second": 57.384,
	"step": 5400
	},
	{
	"epoch": 0.33083627138499344,
	"grad_norm": 1.5823230743408203,
	"learning_rate": 5.9469823274424815e-06,
	"loss": 0.7898,
	"step": 5500
	},
	{
	"epoch": 0.33083627138499344,
	"eval_loss": 0.6950494050979614,
	"eval_runtime": 21.754,
	"eval_samples_per_second": 459.685,
	"eval_steps_per_second": 57.461,
	"step": 5500
	},
	{
	"epoch": 0.33685147631926604,
	"grad_norm": 1.5350251197814941,
	"learning_rate": 5.945981993997999e-06,
	"loss": 0.7829,
	"step": 5600
	},
	{
	"epoch": 0.33685147631926604,
	"eval_loss": 0.6908562183380127,
	"eval_runtime": 21.6939,
	"eval_samples_per_second": 460.958,
	"eval_steps_per_second": 57.62,
	"step": 5600
	},
	{
	"epoch": 0.34286668125353864,
	"grad_norm": 1.5343948602676392,
	"learning_rate": 5.944981660553518e-06,
	"loss": 0.7778,
	"step": 5700
	},
	{
	"epoch": 0.34286668125353864,
	"eval_loss": 0.6897854208946228,
	"eval_runtime": 21.687,
	"eval_samples_per_second": 461.107,
	"eval_steps_per_second": 57.638,
	"step": 5700
	},
	{
	"epoch": 0.34888188618781124,
	"grad_norm": 1.6000343561172485,
	"learning_rate": 5.943981327109036e-06,
	"loss": 0.7672,
	"step": 5800
	},
	{
	"epoch": 0.34888188618781124,
	"eval_loss": 0.6832409501075745,
	"eval_runtime": 21.7047,
	"eval_samples_per_second": 460.73,
	"eval_steps_per_second": 57.591,
	"step": 5800
	},
	{
	"epoch": 0.35489709112208384,
	"grad_norm": 1.3873372077941895,
	"learning_rate": 5.942980993664555e-06,
	"loss": 0.7645,
	"step": 5900
	},
	{
	"epoch": 0.35489709112208384,
	"eval_loss": 0.6712300777435303,
	"eval_runtime": 21.707,
	"eval_samples_per_second": 460.681,
	"eval_steps_per_second": 57.585,
	"step": 5900
	},
	{
	"epoch": 0.36091229605635644,
	"grad_norm": 1.5178308486938477,
	"learning_rate": 5.941980660220073e-06,
	"loss": 0.756,
	"step": 6000
	},
	{
	"epoch": 0.36091229605635644,
	"eval_loss": 0.6661484241485596,
	"eval_runtime": 21.7032,
	"eval_samples_per_second": 460.761,
	"eval_steps_per_second": 57.595,
	"step": 6000
	},
	{
	"epoch": 0.36692750099062904,
	"grad_norm": 1.4745811223983765,
	"learning_rate": 5.940980326775592e-06,
	"loss": 0.753,
	"step": 6100
	},
	{
	"epoch": 0.36692750099062904,
	"eval_loss": 0.664915144443512,
	"eval_runtime": 21.7252,
	"eval_samples_per_second": 460.294,
	"eval_steps_per_second": 57.537,
	"step": 6100
	},
	{
	"epoch": 0.3729427059249017,
	"grad_norm": 1.6472891569137573,
	"learning_rate": 5.939979993331111e-06,
	"loss": 0.743,
	"step": 6200
	},
	{
	"epoch": 0.3729427059249017,
	"eval_loss": 0.6596666574478149,
	"eval_runtime": 21.6717,
	"eval_samples_per_second": 461.432,
	"eval_steps_per_second": 57.679,
	"step": 6200
	},
	{
	"epoch": 0.3789579108591743,
	"grad_norm": 1.4315409660339355,
	"learning_rate": 5.9389796598866294e-06,
	"loss": 0.737,
	"step": 6300
	},
	{
	"epoch": 0.3789579108591743,
	"eval_loss": 0.6593905091285706,
	"eval_runtime": 21.8558,
	"eval_samples_per_second": 457.545,
	"eval_steps_per_second": 57.193,
	"step": 6300
	},
	{
	"epoch": 0.3849731157934469,
	"grad_norm": 1.553122639656067,
	"learning_rate": 5.937979326442147e-06,
	"loss": 0.7284,
	"step": 6400
	},
	{
	"epoch": 0.3849731157934469,
	"eval_loss": 0.6500257253646851,
	"eval_runtime": 21.725,
	"eval_samples_per_second": 460.298,
	"eval_steps_per_second": 57.537,
	"step": 6400
	},
	{
	"epoch": 0.3909883207277195,
	"grad_norm": 1.4755713939666748,
	"learning_rate": 5.936978992997666e-06,
	"loss": 0.7253,
	"step": 6500
	},
	{
	"epoch": 0.3909883207277195,
	"eval_loss": 0.6457264423370361,
	"eval_runtime": 21.6694,
	"eval_samples_per_second": 461.48,
	"eval_steps_per_second": 57.685,
	"step": 6500
	},
	{
	"epoch": 0.3970035256619921,
	"grad_norm": 1.3153866529464722,
	"learning_rate": 5.935978659553185e-06,
	"loss": 0.7227,
	"step": 6600
	},
	{
	"epoch": 0.3970035256619921,
	"eval_loss": 0.6387376189231873,
	"eval_runtime": 21.6735,
	"eval_samples_per_second": 461.393,
	"eval_steps_per_second": 57.674,
	"step": 6600
	},
	{
	"epoch": 0.4030187305962647,
	"grad_norm": 1.3349621295928955,
	"learning_rate": 5.9349783261087026e-06,
	"loss": 0.7161,
	"step": 6700
	},
	{
	"epoch": 0.4030187305962647,
	"eval_loss": 0.6228384971618652,
	"eval_runtime": 21.6839,
	"eval_samples_per_second": 461.172,
	"eval_steps_per_second": 57.646,
	"step": 6700
	},
	{
	"epoch": 0.4090339355305373,
	"grad_norm": 1.4209269285202026,
	"learning_rate": 5.933977992664221e-06,
	"loss": 0.7101,
	"step": 6800
	},
	{
	"epoch": 0.4090339355305373,
	"eval_loss": 0.6393507719039917,
	"eval_runtime": 21.6842,
	"eval_samples_per_second": 461.165,
	"eval_steps_per_second": 57.646,
	"step": 6800
	},
	{
	"epoch": 0.4150491404648099,
	"grad_norm": 1.3392629623413086,
	"learning_rate": 5.93297765921974e-06,
	"loss": 0.7043,
	"step": 6900
	},
	{
	"epoch": 0.4150491404648099,
	"eval_loss": 0.6370413303375244,
	"eval_runtime": 21.6802,
	"eval_samples_per_second": 461.251,
	"eval_steps_per_second": 57.656,
	"step": 6900
	},
	{
	"epoch": 0.42106434539908255,
	"grad_norm": 1.420782446861267,
	"learning_rate": 5.931977325775259e-06,
	"loss": 0.6976,
	"step": 7000
	},
	{
	"epoch": 0.42106434539908255,
	"eval_loss": 0.6197584867477417,
	"eval_runtime": 21.6736,
	"eval_samples_per_second": 461.391,
	"eval_steps_per_second": 57.674,
	"step": 7000
	},
	{
	"epoch": 0.42707955033335515,
	"grad_norm": 1.3362140655517578,
	"learning_rate": 5.930976992330777e-06,
	"loss": 0.6938,
	"step": 7100
	},
	{
	"epoch": 0.42707955033335515,
	"eval_loss": 0.6171865463256836,
	"eval_runtime": 21.6908,
	"eval_samples_per_second": 461.024,
	"eval_steps_per_second": 57.628,
	"step": 7100
	},
	{
	"epoch": 0.43309475526762775,
	"grad_norm": 1.2855477333068848,
	"learning_rate": 5.929976658886295e-06,
	"loss": 0.6897,
	"step": 7200
	},
	{
	"epoch": 0.43309475526762775,
	"eval_loss": 0.6011925935745239,
	"eval_runtime": 21.6697,
	"eval_samples_per_second": 461.474,
	"eval_steps_per_second": 57.684,
	"step": 7200
	},
	{
	"epoch": 0.43910996020190035,
	"grad_norm": 1.6744885444641113,
	"learning_rate": 5.928976325441814e-06,
	"loss": 0.6815,
	"step": 7300
	},
	{
	"epoch": 0.43910996020190035,
	"eval_loss": 0.606606662273407,
	"eval_runtime": 21.7361,
	"eval_samples_per_second": 460.064,
	"eval_steps_per_second": 57.508,
	"step": 7300
	},
	{
	"epoch": 0.44512516513617295,
	"grad_norm": 1.4268521070480347,
	"learning_rate": 5.927975991997333e-06,
	"loss": 0.6785,
	"step": 7400
	},
	{
	"epoch": 0.44512516513617295,
	"eval_loss": 0.6065685749053955,
	"eval_runtime": 21.7924,
	"eval_samples_per_second": 458.876,
	"eval_steps_per_second": 57.359,
	"step": 7400
	},
	{
	"epoch": 0.45114037007044555,
	"grad_norm": 1.248145341873169,
	"learning_rate": 5.9269756585528505e-06,
	"loss": 0.6734,
	"step": 7500
	},
	{
	"epoch": 0.45114037007044555,
	"eval_loss": 0.5927532911300659,
	"eval_runtime": 21.7131,
	"eval_samples_per_second": 460.551,
	"eval_steps_per_second": 57.569,
	"step": 7500
	},
	{
	"epoch": 0.45715557500471815,
	"grad_norm": 1.3543365001678467,
	"learning_rate": 5.92597532510837e-06,
	"loss": 0.6692,
	"step": 7600
	},
	{
	"epoch": 0.45715557500471815,
	"eval_loss": 0.584913432598114,
	"eval_runtime": 21.6765,
	"eval_samples_per_second": 461.329,
	"eval_steps_per_second": 57.666,
	"step": 7600
	},
	{
	"epoch": 0.4631707799389908,
	"grad_norm": 1.519895315170288,
	"learning_rate": 5.924974991663888e-06,
	"loss": 0.6683,
	"step": 7700
	},
	{
	"epoch": 0.4631707799389908,
	"eval_loss": 0.5899286270141602,
	"eval_runtime": 21.7078,
	"eval_samples_per_second": 460.664,
	"eval_steps_per_second": 57.583,
	"step": 7700
	},
	{
	"epoch": 0.4691859848732634,
	"grad_norm": 1.3677542209625244,
	"learning_rate": 5.923974658219407e-06,
	"loss": 0.6612,
	"step": 7800
	},
	{
	"epoch": 0.4691859848732634,
	"eval_loss": 0.5877178907394409,
	"eval_runtime": 21.699,
	"eval_samples_per_second": 460.851,
	"eval_steps_per_second": 57.606,
	"step": 7800
	},
	{
	"epoch": 0.475201189807536,
	"grad_norm": 1.3020201921463013,
	"learning_rate": 5.922974324774925e-06,
	"loss": 0.6593,
	"step": 7900
	},
	{
	"epoch": 0.475201189807536,
	"eval_loss": 0.5901273488998413,
	"eval_runtime": 21.6975,
	"eval_samples_per_second": 460.883,
	"eval_steps_per_second": 57.61,
	"step": 7900
	},
	{
	"epoch": 0.4812163947418086,
	"grad_norm": 1.2522666454315186,
	"learning_rate": 5.921973991330443e-06,
	"loss": 0.6515,
	"step": 8000
	},
	{
	"epoch": 0.4812163947418086,
	"eval_loss": 0.5791921019554138,
	"eval_runtime": 21.6482,
	"eval_samples_per_second": 461.932,
	"eval_steps_per_second": 57.741,
	"step": 8000
	},
	{
	"epoch": 0.4872315996760812,
	"grad_norm": 1.7226676940917969,
	"learning_rate": 5.920973657885962e-06,
	"loss": 0.6497,
	"step": 8100
	},
	{
	"epoch": 0.4872315996760812,
	"eval_loss": 0.5783876776695251,
	"eval_runtime": 21.8009,
	"eval_samples_per_second": 458.696,
	"eval_steps_per_second": 57.337,
	"step": 8100
	},
	{
	"epoch": 0.4932468046103538,
	"grad_norm": 1.4653980731964111,
	"learning_rate": 5.919973324441481e-06,
	"loss": 0.6463,
	"step": 8200
	},
	{
	"epoch": 0.4932468046103538,
	"eval_loss": 0.5752367973327637,
	"eval_runtime": 21.7179,
	"eval_samples_per_second": 460.45,
	"eval_steps_per_second": 57.556,
	"step": 8200
	},
	{
	"epoch": 0.4992620095446264,
	"grad_norm": 1.3331021070480347,
	"learning_rate": 5.918972990996999e-06,
	"loss": 0.6412,
	"step": 8300
	},
	{
	"epoch": 0.4992620095446264,
	"eval_loss": 0.5725879669189453,
	"eval_runtime": 21.7719,
	"eval_samples_per_second": 459.308,
	"eval_steps_per_second": 57.414,
	"step": 8300
	},
	{
	"epoch": 0.5052772144788991,
	"grad_norm": 1.245968222618103,
	"learning_rate": 5.917972657552518e-06,
	"loss": 0.64,
	"step": 8400
	},
	{
	"epoch": 0.5052772144788991,
	"eval_loss": 0.5639936923980713,
	"eval_runtime": 21.7448,
	"eval_samples_per_second": 459.88,
	"eval_steps_per_second": 57.485,
	"step": 8400
	},
	{
	"epoch": 0.5112924194131716,
	"grad_norm": 1.269049882888794,
	"learning_rate": 5.916972324108037e-06,
	"loss": 0.6341,
	"step": 8500
	},
	{
	"epoch": 0.5112924194131716,
	"eval_loss": 0.5605804324150085,
	"eval_runtime": 21.7116,
	"eval_samples_per_second": 460.582,
	"eval_steps_per_second": 57.573,
	"step": 8500
	},
	{
	"epoch": 0.5173076243474443,
	"grad_norm": 1.2048168182373047,
	"learning_rate": 5.915971990663555e-06,
	"loss": 0.6327,
	"step": 8600
	},
	{
	"epoch": 0.5173076243474443,
	"eval_loss": 0.5681275129318237,
	"eval_runtime": 21.7037,
	"eval_samples_per_second": 460.751,
	"eval_steps_per_second": 57.594,
	"step": 8600
	},
	{
	"epoch": 0.5233228292817168,
	"grad_norm": 1.269063949584961,
	"learning_rate": 5.914971657219073e-06,
	"loss": 0.6251,
	"step": 8700
	},
	{
	"epoch": 0.5233228292817168,
	"eval_loss": 0.5644165277481079,
	"eval_runtime": 21.6949,
	"eval_samples_per_second": 460.937,
	"eval_steps_per_second": 57.617,
	"step": 8700
	},
	{
	"epoch": 0.5293380342159895,
	"grad_norm": 1.3928773403167725,
	"learning_rate": 5.913971323774591e-06,
	"loss": 0.6268,
	"step": 8800
	},
	{
	"epoch": 0.5293380342159895,
	"eval_loss": 0.5452607870101929,
	"eval_runtime": 21.7013,
	"eval_samples_per_second": 460.803,
	"eval_steps_per_second": 57.6,
	"step": 8800
	},
	{
	"epoch": 0.5353532391502621,
	"grad_norm": 1.6263777017593384,
	"learning_rate": 5.91297099033011e-06,
	"loss": 0.6198,
	"step": 8900
	},
	{
	"epoch": 0.5353532391502621,
	"eval_loss": 0.5565773248672485,
	"eval_runtime": 21.7101,
	"eval_samples_per_second": 460.615,
	"eval_steps_per_second": 57.577,
	"step": 8900
	},
	{
	"epoch": 0.5413684440845347,
	"grad_norm": 1.312068223953247,
	"learning_rate": 5.911970656885629e-06,
	"loss": 0.6168,
	"step": 9000
	},
	{
	"epoch": 0.5413684440845347,
	"eval_loss": 0.544517457485199,
	"eval_runtime": 21.6689,
	"eval_samples_per_second": 461.49,
	"eval_steps_per_second": 57.686,
	"step": 9000
	},
	{
	"epoch": 0.5473836490188073,
	"grad_norm": 1.4878406524658203,
	"learning_rate": 5.910970323441147e-06,
	"loss": 0.6168,
	"step": 9100
	},
	{
	"epoch": 0.5473836490188073,
	"eval_loss": 0.5467077493667603,
	"eval_runtime": 21.7585,
	"eval_samples_per_second": 459.591,
	"eval_steps_per_second": 57.449,
	"step": 9100
	},
	{
	"epoch": 0.5533988539530799,
	"grad_norm": 1.4762675762176514,
	"learning_rate": 5.909969989996666e-06,
	"loss": 0.6062,
	"step": 9200
	},
	{
	"epoch": 0.5533988539530799,
	"eval_loss": 0.5416296720504761,
	"eval_runtime": 21.7398,
	"eval_samples_per_second": 459.985,
	"eval_steps_per_second": 57.498,
	"step": 9200
	},
	{
	"epoch": 0.5594140588873525,
	"grad_norm": 1.3053025007247925,
	"learning_rate": 5.908969656552185e-06,
	"loss": 0.6106,
	"step": 9300
	},
	{
	"epoch": 0.5594140588873525,
	"eval_loss": 0.5386621356010437,
	"eval_runtime": 21.7444,
	"eval_samples_per_second": 459.888,
	"eval_steps_per_second": 57.486,
	"step": 9300
	},
	{
	"epoch": 0.5654292638216251,
	"grad_norm": 1.5423814058303833,
	"learning_rate": 5.907969323107703e-06,
	"loss": 0.6019,
	"step": 9400
	},
	{
	"epoch": 0.5654292638216251,
	"eval_loss": 0.5405033230781555,
	"eval_runtime": 21.726,
	"eval_samples_per_second": 460.277,
	"eval_steps_per_second": 57.535,
	"step": 9400
	},
	{
	"epoch": 0.5714444687558977,
	"grad_norm": 1.4696613550186157,
	"learning_rate": 5.906968989663221e-06,
	"loss": 0.6011,
	"step": 9500
	},
	{
	"epoch": 0.5714444687558977,
	"eval_loss": 0.5457667708396912,
	"eval_runtime": 21.7773,
	"eval_samples_per_second": 459.193,
	"eval_steps_per_second": 57.399,
	"step": 9500
	},
	{
	"epoch": 0.5774596736901704,
	"grad_norm": 1.5349172353744507,
	"learning_rate": 5.90596865621874e-06,
	"loss": 0.5961,
	"step": 9600
	},
	{
	"epoch": 0.5774596736901704,
	"eval_loss": 0.533613920211792,
	"eval_runtime": 21.9838,
	"eval_samples_per_second": 454.88,
	"eval_steps_per_second": 56.86,
	"step": 9600
	},
	{
	"epoch": 0.5834748786244429,
	"grad_norm": 1.2024816274642944,
	"learning_rate": 5.904968322774258e-06,
	"loss": 0.593,
	"step": 9700
	},
	{
	"epoch": 0.5834748786244429,
	"eval_loss": 0.5246294140815735,
	"eval_runtime": 22.5017,
	"eval_samples_per_second": 444.411,
	"eval_steps_per_second": 55.551,
	"step": 9700
	},
	{
	"epoch": 0.5894900835587156,
	"grad_norm": 1.2983571290969849,
	"learning_rate": 5.9039679893297766e-06,
	"loss": 0.5925,
	"step": 9800
	},
	{
	"epoch": 0.5894900835587156,
	"eval_loss": 0.5254473686218262,
	"eval_runtime": 23.0942,
	"eval_samples_per_second": 433.009,
	"eval_steps_per_second": 54.126,
	"step": 9800
	},
	{
	"epoch": 0.5955052884929881,
	"grad_norm": 1.2889515161514282,
	"learning_rate": 5.902967655885295e-06,
	"loss": 0.5911,
	"step": 9900
	},
	{
	"epoch": 0.5955052884929881,
	"eval_loss": 0.5365324020385742,
	"eval_runtime": 23.3271,
	"eval_samples_per_second": 428.686,
	"eval_steps_per_second": 53.586,
	"step": 9900
	},
	{
	"epoch": 0.6015204934272608,
	"grad_norm": 1.3131366968154907,
	"learning_rate": 5.901967322440814e-06,
	"loss": 0.5843,
	"step": 10000
	},
	{
	"epoch": 0.6015204934272608,
	"eval_loss": 0.5123865008354187,
	"eval_runtime": 23.435,
	"eval_samples_per_second": 426.712,
	"eval_steps_per_second": 53.339,
	"step": 10000
	},
	{
	"epoch": 0.6075356983615333,
	"grad_norm": 1.3315032720565796,
	"learning_rate": 5.900966988996333e-06,
	"loss": 0.5832,
	"step": 10100
	},
	{
	"epoch": 0.6075356983615333,
	"eval_loss": 0.5256994962692261,
	"eval_runtime": 23.4061,
	"eval_samples_per_second": 427.24,
	"eval_steps_per_second": 53.405,
	"step": 10100
	},
	{
	"epoch": 0.613550903295806,
	"grad_norm": 1.3008897304534912,
	"learning_rate": 5.8999666555518505e-06,
	"loss": 0.582,
	"step": 10200
	},
	{
	"epoch": 0.613550903295806,
	"eval_loss": 0.5148985981941223,
	"eval_runtime": 23.4451,
	"eval_samples_per_second": 426.528,
	"eval_steps_per_second": 53.316,
	"step": 10200
	},
	{
	"epoch": 0.6195661082300786,
	"grad_norm": 1.272538423538208,
	"learning_rate": 5.898966322107369e-06,
	"loss": 0.5789,
	"step": 10300
	},
	{
	"epoch": 0.6195661082300786,
	"eval_loss": 0.5160868763923645,
	"eval_runtime": 23.3699,
	"eval_samples_per_second": 427.901,
	"eval_steps_per_second": 53.488,
	"step": 10300
	},
	{
	"epoch": 0.6255813131643512,
	"grad_norm": 1.38733971118927,
	"learning_rate": 5.897965988662888e-06,
	"loss": 0.5768,
	"step": 10400
	},
	{
	"epoch": 0.6255813131643512,
	"eval_loss": 0.5101234912872314,
	"eval_runtime": 23.5052,
	"eval_samples_per_second": 425.437,
	"eval_steps_per_second": 53.18,
	"step": 10400
	},
	{
	"epoch": 0.6315965180986238,
	"grad_norm": 1.3414686918258667,
	"learning_rate": 5.896965655218406e-06,
	"loss": 0.5728,
	"step": 10500
	},
	{
	"epoch": 0.6315965180986238,
	"eval_loss": 0.5151140689849854,
	"eval_runtime": 23.1483,
	"eval_samples_per_second": 431.997,
	"eval_steps_per_second": 54.0,
	"step": 10500
	},
	{
	"epoch": 0.6376117230328964,
	"grad_norm": 1.2821862697601318,
	"learning_rate": 5.8959653217739245e-06,
	"loss": 0.5732,
	"step": 10600
	},
	{
	"epoch": 0.6376117230328964,
	"eval_loss": 0.5067505240440369,
	"eval_runtime": 23.3046,
	"eval_samples_per_second": 429.099,
	"eval_steps_per_second": 53.637,
	"step": 10600
	},
	{
	"epoch": 0.643626927967169,
	"grad_norm": 1.4687350988388062,
	"learning_rate": 5.894964988329443e-06,
	"loss": 0.568,
	"step": 10700
	},
	{
	"epoch": 0.643626927967169,
	"eval_loss": 0.5038474798202515,
	"eval_runtime": 48.8496,
	"eval_samples_per_second": 204.71,
	"eval_steps_per_second": 25.589,
	"step": 10700
	},
	{
	"epoch": 0.6496421329014416,
	"grad_norm": 1.1854100227355957,
	"learning_rate": 5.893964654884962e-06,
	"loss": 0.5665,
	"step": 10800
	},
	{
	"epoch": 0.6496421329014416,
	"eval_loss": 0.5092170834541321,
	"eval_runtime": 51.2918,
	"eval_samples_per_second": 194.963,
	"eval_steps_per_second": 24.37,
	"step": 10800
	},
	{
	"epoch": 0.6556573378357142,
	"grad_norm": 1.2117469310760498,
	"learning_rate": 5.892964321440481e-06,
	"loss": 0.5641,
	"step": 10900
	},
	{
	"epoch": 0.6556573378357142,
	"eval_loss": 0.4948270618915558,
	"eval_runtime": 51.7341,
	"eval_samples_per_second": 193.296,
	"eval_steps_per_second": 24.162,
	"step": 10900
	},
	{
	"epoch": 0.6616725427699869,
	"grad_norm": 1.1809200048446655,
	"learning_rate": 5.8919639879959985e-06,
	"loss": 0.559,
	"step": 11000
	},
	{
	"epoch": 0.6616725427699869,
	"eval_loss": 0.49759823083877563,
	"eval_runtime": 50.8828,
	"eval_samples_per_second": 196.53,
	"eval_steps_per_second": 24.566,
	"step": 11000
	},
	{
	"epoch": 0.6676877477042594,
	"grad_norm": 1.4321728944778442,
	"learning_rate": 5.890963654551517e-06,
	"loss": 0.5597,
	"step": 11100
	},
	{
	"epoch": 0.6676877477042594,
	"eval_loss": 0.49609047174453735,
	"eval_runtime": 51.278,
	"eval_samples_per_second": 195.015,
	"eval_steps_per_second": 24.377,
	"step": 11100
	},
	{
	"epoch": 0.6737029526385321,
	"grad_norm": 1.3043360710144043,
	"learning_rate": 5.889963321107036e-06,
	"loss": 0.5574,
	"step": 11200
	},
	{
	"epoch": 0.6737029526385321,
	"eval_loss": 0.5004040002822876,
	"eval_runtime": 50.7636,
	"eval_samples_per_second": 196.992,
	"eval_steps_per_second": 24.624,
	"step": 11200
	},
	{
	"epoch": 0.6797181575728046,
	"grad_norm": 1.2415975332260132,
	"learning_rate": 5.888962987662554e-06,
	"loss": 0.5555,
	"step": 11300
	},
	{
	"epoch": 0.6797181575728046,
	"eval_loss": 0.5004035234451294,
	"eval_runtime": 51.3686,
	"eval_samples_per_second": 194.672,
	"eval_steps_per_second": 24.334,
	"step": 11300
	},
	{
	"epoch": 0.6857333625070773,
	"grad_norm": 1.1731830835342407,
	"learning_rate": 5.8879626542180725e-06,
	"loss": 0.5541,
	"step": 11400
	},
	{
	"epoch": 0.6857333625070773,
	"eval_loss": 0.4998365342617035,
	"eval_runtime": 50.9083,
	"eval_samples_per_second": 196.432,
	"eval_steps_per_second": 24.554,
	"step": 11400
	},
	{
	"epoch": 0.6917485674413498,
	"grad_norm": 1.2296881675720215,
	"learning_rate": 5.886962320773592e-06,
	"loss": 0.5487,
	"step": 11500
	},
	{
	"epoch": 0.6917485674413498,
	"eval_loss": 0.4932882785797119,
	"eval_runtime": 50.9764,
	"eval_samples_per_second": 196.169,
	"eval_steps_per_second": 24.521,
	"step": 11500
	},
	{
	"epoch": 0.6977637723756225,
	"grad_norm": 1.4027659893035889,
	"learning_rate": 5.88596198732911e-06,
	"loss": 0.5488,
	"step": 11600
	},
	{
	"epoch": 0.6977637723756225,
	"eval_loss": 0.48723334074020386,
	"eval_runtime": 51.3087,
	"eval_samples_per_second": 194.899,
	"eval_steps_per_second": 24.362,
	"step": 11600
	},
	{
	"epoch": 0.7037789773098951,
	"grad_norm": 1.345869541168213,
	"learning_rate": 5.884961653884629e-06,
	"loss": 0.5464,
	"step": 11700
	},
	{
	"epoch": 0.7037789773098951,
	"eval_loss": 0.48902279138565063,
	"eval_runtime": 51.5761,
	"eval_samples_per_second": 193.888,
	"eval_steps_per_second": 24.236,
	"step": 11700
	},
	{
	"epoch": 0.7097941822441677,
	"grad_norm": 1.3029801845550537,
	"learning_rate": 5.8839613204401465e-06,
	"loss": 0.545,
	"step": 11800
	},
	{
	"epoch": 0.7097941822441677,
	"eval_loss": 0.4815163016319275,
	"eval_runtime": 51.0467,
	"eval_samples_per_second": 195.899,
	"eval_steps_per_second": 24.487,
	"step": 11800
	},
	{
	"epoch": 0.7158093871784403,
	"grad_norm": 1.3300397396087646,
	"learning_rate": 5.882960986995665e-06,
	"loss": 0.5406,
	"step": 11900
	},
	{
	"epoch": 0.7158093871784403,
	"eval_loss": 0.4828699231147766,
	"eval_runtime": 50.6859,
	"eval_samples_per_second": 197.294,
	"eval_steps_per_second": 24.662,
	"step": 11900
	},
	{
	"epoch": 0.7218245921127129,
	"grad_norm": 1.3354322910308838,
	"learning_rate": 5.881960653551184e-06,
	"loss": 0.5412,
	"step": 12000
	},
	{
	"epoch": 0.7218245921127129,
	"eval_loss": 0.4760846197605133,
	"eval_runtime": 51.0095,
	"eval_samples_per_second": 196.042,
	"eval_steps_per_second": 24.505,
	"step": 12000
	},
	{
	"epoch": 0.7278397970469855,
	"grad_norm": 1.2316620349884033,
	"learning_rate": 5.880960320106702e-06,
	"loss": 0.5354,
	"step": 12100
	},
	{
	"epoch": 0.7278397970469855,
	"eval_loss": 0.49535489082336426,
	"eval_runtime": 51.064,
	"eval_samples_per_second": 195.833,
	"eval_steps_per_second": 24.479,
	"step": 12100
	},
	{
	"epoch": 0.7338550019812581,
	"grad_norm": 1.2033593654632568,
	"learning_rate": 5.879959986662221e-06,
	"loss": 0.5343,
	"step": 12200
	},
	{
	"epoch": 0.7338550019812581,
	"eval_loss": 0.4705411195755005,
	"eval_runtime": 50.9982,
	"eval_samples_per_second": 196.085,
	"eval_steps_per_second": 24.511,
	"step": 12200
	},
	{
	"epoch": 0.7398702069155307,
	"grad_norm": 1.2634704113006592,
	"learning_rate": 5.87895965321774e-06,
	"loss": 0.5337,
	"step": 12300
	},
	{
	"epoch": 0.7398702069155307,
	"eval_loss": 0.47791826725006104,
	"eval_runtime": 51.1718,
	"eval_samples_per_second": 195.42,
	"eval_steps_per_second": 24.428,
	"step": 12300
	},
	{
	"epoch": 0.7458854118498034,
	"grad_norm": 1.2546501159667969,
	"learning_rate": 5.877959319773258e-06,
	"loss": 0.5324,
	"step": 12400
	},
	{
	"epoch": 0.7458854118498034,
	"eval_loss": 0.4756995737552643,
	"eval_runtime": 51.0651,
	"eval_samples_per_second": 195.828,
	"eval_steps_per_second": 24.479,
	"step": 12400
	},
	{
	"epoch": 0.7519006167840759,
	"grad_norm": 1.1833654642105103,
	"learning_rate": 5.876958986328777e-06,
	"loss": 0.5299,
	"step": 12500
	},
	{
	"epoch": 0.7519006167840759,
	"eval_loss": 0.47130194306373596,
	"eval_runtime": 51.0775,
	"eval_samples_per_second": 195.781,
	"eval_steps_per_second": 24.473,
	"step": 12500
	},
	{
	"epoch": 0.7579158217183486,
	"grad_norm": 1.0535800457000732,
	"learning_rate": 5.875958652884295e-06,
	"loss": 0.5288,
	"step": 12600
	},
	{
	"epoch": 0.7579158217183486,
	"eval_loss": 0.46586230397224426,
	"eval_runtime": 51.3884,
	"eval_samples_per_second": 194.596,
	"eval_steps_per_second": 24.325,
	"step": 12600
	},
	{
	"epoch": 0.7639310266526211,
	"grad_norm": 1.2561872005462646,
	"learning_rate": 5.874958319439813e-06,
	"loss": 0.5297,
	"step": 12700
	},
	{
	"epoch": 0.7639310266526211,
	"eval_loss": 0.4665389657020569,
	"eval_runtime": 51.1355,
	"eval_samples_per_second": 195.559,
	"eval_steps_per_second": 24.445,
	"step": 12700
	},
	{
	"epoch": 0.7699462315868938,
	"grad_norm": 1.177007794380188,
	"learning_rate": 5.873957985995332e-06,
	"loss": 0.5326,
	"step": 12800
	},
	{
	"epoch": 0.7699462315868938,
	"eval_loss": 0.4671100676059723,
	"eval_runtime": 51.3263,
	"eval_samples_per_second": 194.832,
	"eval_steps_per_second": 24.354,
	"step": 12800
	},
	{
	"epoch": 0.7759614365211663,
	"grad_norm": 1.181401252746582,
	"learning_rate": 5.8729576525508506e-06,
	"loss": 0.5222,
	"step": 12900
	},
	{
	"epoch": 0.7759614365211663,
	"eval_loss": 0.4585270583629608,
	"eval_runtime": 51.1292,
	"eval_samples_per_second": 195.583,
	"eval_steps_per_second": 24.448,
	"step": 12900
	},
	{
	"epoch": 0.781976641455439,
	"grad_norm": 1.108788013458252,
	"learning_rate": 5.871957319106369e-06,
	"loss": 0.5202,
	"step": 13000
	},
	{
	"epoch": 0.781976641455439,
	"eval_loss": 0.46135467290878296,
	"eval_runtime": 51.1302,
	"eval_samples_per_second": 195.579,
	"eval_steps_per_second": 24.447,
	"step": 13000
	},
	{
	"epoch": 0.7879918463897116,
	"grad_norm": 1.152575969696045,
	"learning_rate": 5.870956985661888e-06,
	"loss": 0.5157,
	"step": 13100
	},
	{
	"epoch": 0.7879918463897116,
	"eval_loss": 0.46781352162361145,
	"eval_runtime": 51.1065,
	"eval_samples_per_second": 195.67,
	"eval_steps_per_second": 24.459,
	"step": 13100
	},
	{
	"epoch": 0.7940070513239842,
	"grad_norm": 1.1765929460525513,
	"learning_rate": 5.869956652217406e-06,
	"loss": 0.5177,
	"step": 13200
	},
	{
	"epoch": 0.7940070513239842,
	"eval_loss": 0.4588942527770996,
	"eval_runtime": 51.1353,
	"eval_samples_per_second": 195.56,
	"eval_steps_per_second": 24.445,
	"step": 13200
	},
	{
	"epoch": 0.8000222562582568,
	"grad_norm": 1.1165159940719604,
	"learning_rate": 5.8689563187729245e-06,
	"loss": 0.5141,
	"step": 13300
	},
	{
	"epoch": 0.8000222562582568,
	"eval_loss": 0.4517599046230316,
	"eval_runtime": 51.1096,
	"eval_samples_per_second": 195.658,
	"eval_steps_per_second": 24.457,
	"step": 13300
	},
	{
	"epoch": 0.8060374611925294,
	"grad_norm": 1.0414021015167236,
	"learning_rate": 5.867955985328443e-06,
	"loss": 0.5135,
	"step": 13400
	},
	{
	"epoch": 0.8060374611925294,
	"eval_loss": 0.46558651328086853,
	"eval_runtime": 51.1277,
	"eval_samples_per_second": 195.589,
	"eval_steps_per_second": 24.449,
	"step": 13400
	},
	{
	"epoch": 0.812052666126802,
	"grad_norm": 1.3002249002456665,
	"learning_rate": 5.866955651883961e-06,
	"loss": 0.5124,
	"step": 13500
	},
	{
	"epoch": 0.812052666126802,
	"eval_loss": 0.4563812017440796,
	"eval_runtime": 51.132,
	"eval_samples_per_second": 195.572,
	"eval_steps_per_second": 24.447,
	"step": 13500
	},
	{
	"epoch": 0.8180678710610746,
	"grad_norm": 1.5342046022415161,
	"learning_rate": 5.86595531843948e-06,
	"loss": 0.5101,
	"step": 13600
	},
	{
	"epoch": 0.8180678710610746,
	"eval_loss": 0.44918256998062134,
	"eval_runtime": 51.2205,
	"eval_samples_per_second": 195.234,
	"eval_steps_per_second": 24.404,
	"step": 13600
	},
	{
	"epoch": 0.8240830759953472,
	"grad_norm": 1.312056064605713,
	"learning_rate": 5.8649549849949985e-06,
	"loss": 0.5087,
	"step": 13700
	},
	{
	"epoch": 0.8240830759953472,
	"eval_loss": 0.45463162660598755,
	"eval_runtime": 50.988,
	"eval_samples_per_second": 196.125,
	"eval_steps_per_second": 24.516,
	"step": 13700
	},
	{
	"epoch": 0.8300982809296198,
	"grad_norm": 1.4413928985595703,
	"learning_rate": 5.863954651550517e-06,
	"loss": 0.5079,
	"step": 13800
	},
	{
	"epoch": 0.8300982809296198,
	"eval_loss": 0.4562767446041107,
	"eval_runtime": 51.212,
	"eval_samples_per_second": 195.267,
	"eval_steps_per_second": 24.408,
	"step": 13800
	},
	{
	"epoch": 0.8361134858638924,
	"grad_norm": 1.3391541242599487,
	"learning_rate": 5.862954318106036e-06,
	"loss": 0.5077,
	"step": 13900
	},
	{
	"epoch": 0.8361134858638924,
	"eval_loss": 0.44607582688331604,
	"eval_runtime": 51.1173,
	"eval_samples_per_second": 195.628,
	"eval_steps_per_second": 24.454,
	"step": 13900
	},
	{
	"epoch": 0.8421286907981651,
	"grad_norm": 1.2158905267715454,
	"learning_rate": 5.861953984661554e-06,
	"loss": 0.5032,
	"step": 14000
	},
	{
	"epoch": 0.8421286907981651,
	"eval_loss": 0.4587889611721039,
	"eval_runtime": 51.1702,
	"eval_samples_per_second": 195.426,
	"eval_steps_per_second": 24.428,
	"step": 14000
	},
	{
	"epoch": 0.8481438957324376,
	"grad_norm": 1.1938725709915161,
	"learning_rate": 5.8609536512170725e-06,
	"loss": 0.4996,
	"step": 14100
	},
	{
	"epoch": 0.8481438957324376,
	"eval_loss": 0.4515674412250519,
	"eval_runtime": 51.1351,
	"eval_samples_per_second": 195.56,
	"eval_steps_per_second": 24.445,
	"step": 14100
	},
	{
	"epoch": 0.8541591006667103,
	"grad_norm": 1.1953227519989014,
	"learning_rate": 5.859953317772591e-06,
	"loss": 0.5014,
	"step": 14200
	},
	{
	"epoch": 0.8541591006667103,
	"eval_loss": 0.44719940423965454,
	"eval_runtime": 51.0487,
	"eval_samples_per_second": 195.891,
	"eval_steps_per_second": 24.486,
	"step": 14200
	},
	{
	"epoch": 0.8601743056009828,
	"grad_norm": 1.2699577808380127,
	"learning_rate": 5.858952984328109e-06,
	"loss": 0.499,
	"step": 14300
	},
	{
	"epoch": 0.8601743056009828,
	"eval_loss": 0.4444737732410431,
	"eval_runtime": 51.2894,
	"eval_samples_per_second": 194.972,
	"eval_steps_per_second": 24.372,
	"step": 14300
	},
	{
	"epoch": 0.8661895105352555,
	"grad_norm": 1.0982294082641602,
	"learning_rate": 5.857952650883628e-06,
	"loss": 0.5024,
	"step": 14400
	},
	{
	"epoch": 0.8661895105352555,
	"eval_loss": 0.4426032602787018,
	"eval_runtime": 51.0622,
	"eval_samples_per_second": 195.84,
	"eval_steps_per_second": 24.48,
	"step": 14400
	},
	{
	"epoch": 0.872204715469528,
	"grad_norm": 1.1881742477416992,
	"learning_rate": 5.8569523174391465e-06,
	"loss": 0.4971,
	"step": 14500
	},
	{
	"epoch": 0.872204715469528,
	"eval_loss": 0.4500812590122223,
	"eval_runtime": 51.0676,
	"eval_samples_per_second": 195.819,
	"eval_steps_per_second": 24.477,
	"step": 14500
	},
	{
	"epoch": 0.8782199204038007,
	"grad_norm": 1.2892823219299316,
	"learning_rate": 5.855951983994665e-06,
	"loss": 0.4947,
	"step": 14600
	},
	{
	"epoch": 0.8782199204038007,
	"eval_loss": 0.45143038034439087,
	"eval_runtime": 51.2218,
	"eval_samples_per_second": 195.229,
	"eval_steps_per_second": 24.404,
	"step": 14600
	},
	{
	"epoch": 0.8842351253380734,
	"grad_norm": 1.1228898763656616,
	"learning_rate": 5.854951650550184e-06,
	"loss": 0.4912,
	"step": 14700
	},
	{
	"epoch": 0.8842351253380734,
	"eval_loss": 0.443864107131958,
	"eval_runtime": 51.1005,
	"eval_samples_per_second": 195.693,
	"eval_steps_per_second": 24.462,
	"step": 14700
	},
	{
	"epoch": 0.8902503302723459,
	"grad_norm": 1.2021640539169312,
	"learning_rate": 5.853951317105702e-06,
	"loss": 0.4911,
	"step": 14800
	},
	{
	"epoch": 0.8902503302723459,
	"eval_loss": 0.44539061188697815,
	"eval_runtime": 51.3647,
	"eval_samples_per_second": 194.686,
	"eval_steps_per_second": 24.336,
	"step": 14800
	},
	{
	"epoch": 0.8962655352066186,
	"grad_norm": 1.226335883140564,
	"learning_rate": 5.8529509836612205e-06,
	"loss": 0.488,
	"step": 14900
	},
	{
	"epoch": 0.8962655352066186,
	"eval_loss": 0.43708336353302,
	"eval_runtime": 51.0878,
	"eval_samples_per_second": 195.741,
	"eval_steps_per_second": 24.468,
	"step": 14900
	},
	{
	"epoch": 0.9022807401408911,
	"grad_norm": 1.1519514322280884,
	"learning_rate": 5.851950650216739e-06,
	"loss": 0.4879,
	"step": 15000
	},
	{
	"epoch": 0.9022807401408911,
	"eval_loss": 0.43572157621383667,
	"eval_runtime": 51.0673,
	"eval_samples_per_second": 195.82,
	"eval_steps_per_second": 24.477,
	"step": 15000
	},
	{
	"epoch": 0.9082959450751638,
	"grad_norm": 1.0578216314315796,
	"learning_rate": 5.850950316772257e-06,
	"loss": 0.491,
	"step": 15100
	},
	{
	"epoch": 0.9082959450751638,
	"eval_loss": 0.43306058645248413,
	"eval_runtime": 51.2921,
	"eval_samples_per_second": 194.962,
	"eval_steps_per_second": 24.37,
	"step": 15100
	},
	{
	"epoch": 0.9143111500094363,
	"grad_norm": 1.292629599571228,
	"learning_rate": 5.849949983327776e-06,
	"loss": 0.4852,
	"step": 15200
	},
	{
	"epoch": 0.9143111500094363,
	"eval_loss": 0.43448084592819214,
	"eval_runtime": 51.0849,
	"eval_samples_per_second": 195.752,
	"eval_steps_per_second": 24.469,
	"step": 15200
	},
	{
	"epoch": 0.920326354943709,
	"grad_norm": 1.2115490436553955,
	"learning_rate": 5.8489496498832945e-06,
	"loss": 0.4879,
	"step": 15300
	},
	{
	"epoch": 0.920326354943709,
	"eval_loss": 0.4403839409351349,
	"eval_runtime": 51.0866,
	"eval_samples_per_second": 195.746,
	"eval_steps_per_second": 24.468,
	"step": 15300
	},
	{
	"epoch": 0.9263415598779816,
	"grad_norm": 1.2206310033798218,
	"learning_rate": 5.847949316438813e-06,
	"loss": 0.4771,
	"step": 15400
	},
	{
	"epoch": 0.9263415598779816,
	"eval_loss": 0.43060389161109924,
	"eval_runtime": 51.0659,
	"eval_samples_per_second": 195.825,
	"eval_steps_per_second": 24.478,
	"step": 15400
	},
	{
	"epoch": 0.9323567648122542,
	"grad_norm": 1.0853536128997803,
	"learning_rate": 5.846948982994332e-06,
	"loss": 0.4821,
	"step": 15500
	},
	{
	"epoch": 0.9323567648122542,
	"eval_loss": 0.42842620611190796,
	"eval_runtime": 51.036,
	"eval_samples_per_second": 195.94,
	"eval_steps_per_second": 24.493,
	"step": 15500
	},
	{
	"epoch": 0.9383719697465268,
	"grad_norm": 1.0656437873840332,
	"learning_rate": 5.8459486495498506e-06,
	"loss": 0.4796,
	"step": 15600
	},
	{
	"epoch": 0.9383719697465268,
	"eval_loss": 0.4259638786315918,
	"eval_runtime": 51.0811,
	"eval_samples_per_second": 195.767,
	"eval_steps_per_second": 24.471,
	"step": 15600
	},
	{
	"epoch": 0.9443871746807994,
	"grad_norm": 1.2496039867401123,
	"learning_rate": 5.8449483161053684e-06,
	"loss": 0.4783,
	"step": 15700
	},
	{
	"epoch": 0.9443871746807994,
	"eval_loss": 0.42784813046455383,
	"eval_runtime": 51.0862,
	"eval_samples_per_second": 195.748,
	"eval_steps_per_second": 24.468,
	"step": 15700
	},
	{
	"epoch": 0.950402379615072,
	"grad_norm": 1.0478885173797607,
	"learning_rate": 5.843947982660887e-06,
	"loss": 0.4736,
	"step": 15800
	},
	{
	"epoch": 0.950402379615072,
	"eval_loss": 0.42105141282081604,
	"eval_runtime": 51.0949,
	"eval_samples_per_second": 195.714,
	"eval_steps_per_second": 24.464,
	"step": 15800
	},
	{
	"epoch": 0.9564175845493446,
	"grad_norm": 1.1973545551300049,
	"learning_rate": 5.842947649216405e-06,
	"loss": 0.4765,
	"step": 15900
	},
	{
	"epoch": 0.9564175845493446,
	"eval_loss": 0.41922861337661743,
	"eval_runtime": 51.0499,
	"eval_samples_per_second": 195.887,
	"eval_steps_per_second": 24.486,
	"step": 15900
	},
	{
	"epoch": 0.9624327894836172,
	"grad_norm": 1.0738471746444702,
	"learning_rate": 5.841947315771924e-06,
	"loss": 0.4713,
	"step": 16000
	},
	{
	"epoch": 0.9624327894836172,
	"eval_loss": 0.4311535060405731,
	"eval_runtime": 51.0775,
	"eval_samples_per_second": 195.781,
	"eval_steps_per_second": 24.473,
	"step": 16000
	},
	{
	"epoch": 0.9684479944178899,
	"grad_norm": 1.14482581615448,
	"learning_rate": 5.840946982327443e-06,
	"loss": 0.4732,
	"step": 16100
	},
	{
	"epoch": 0.9684479944178899,
	"eval_loss": 0.41709282994270325,
	"eval_runtime": 39.7116,
	"eval_samples_per_second": 251.815,
	"eval_steps_per_second": 31.477,
	"step": 16100
	},
	{
	"epoch": 0.9744631993521624,
	"grad_norm": 1.1577385663986206,
	"learning_rate": 5.839946648882961e-06,
	"loss": 0.4704,
	"step": 16200
	},
	{
	"epoch": 0.9744631993521624,
	"eval_loss": 0.4273630976676941,
	"eval_runtime": 51.0906,
	"eval_samples_per_second": 195.731,
	"eval_steps_per_second": 24.466,
	"step": 16200
	},
	{
	"epoch": 0.9804784042864351,
	"grad_norm": 1.125328779220581,
	"learning_rate": 5.83894631543848e-06,
	"loss": 0.4697,
	"step": 16300
	},
	{
	"epoch": 0.9804784042864351,
	"eval_loss": 0.42490535974502563,
	"eval_runtime": 51.0751,
	"eval_samples_per_second": 195.79,
	"eval_steps_per_second": 24.474,
	"step": 16300
	},
	{
	"epoch": 0.9864936092207076,
	"grad_norm": 1.2619575262069702,
	"learning_rate": 5.8379459819939985e-06,
	"loss": 0.4721,
	"step": 16400
	},
	{
	"epoch": 0.9864936092207076,
	"eval_loss": 0.42143183946609497,
	"eval_runtime": 51.2808,
	"eval_samples_per_second": 195.005,
	"eval_steps_per_second": 24.376,
	"step": 16400
	},
	{
	"epoch": 0.9925088141549803,
	"grad_norm": 1.0622971057891846,
	"learning_rate": 5.836945648549516e-06,
	"loss": 0.4672,
	"step": 16500
	},
	{
	"epoch": 0.9925088141549803,
	"eval_loss": 0.4140073359012604,
	"eval_runtime": 51.137,
	"eval_samples_per_second": 195.553,
	"eval_steps_per_second": 24.444,
	"step": 16500
	},
	{
	"epoch": 0.9985240190892528,
	"grad_norm": 1.1675751209259033,
	"learning_rate": 5.835945315105035e-06,
	"loss": 0.469,
	"step": 16600
	},
	{
	"epoch": 0.9985240190892528,
	"eval_loss": 0.413769394159317,
	"eval_runtime": 51.1298,
	"eval_samples_per_second": 195.581,
	"eval_steps_per_second": 24.448,
	"step": 16600
	},
	{
	"epoch": 1.0045392240235254,
	"grad_norm": 1.1390060186386108,
	"learning_rate": 5.834944981660553e-06,
	"loss": 0.4668,
	"step": 16700
	},
	{
	"epoch": 1.0045392240235254,
	"eval_loss": 0.41630059480667114,
	"eval_runtime": 51.1382,
	"eval_samples_per_second": 195.548,
	"eval_steps_per_second": 24.444,
	"step": 16700
	},
	{
	"epoch": 1.0105544289577981,
	"grad_norm": 1.2013533115386963,
	"learning_rate": 5.8339446482160725e-06,
	"loss": 0.4636,
	"step": 16800
	},
	{
	"epoch": 1.0105544289577981,
	"eval_loss": 0.4128175675868988,
	"eval_runtime": 51.0766,
	"eval_samples_per_second": 195.784,
	"eval_steps_per_second": 24.473,
	"step": 16800
	},
	{
	"epoch": 1.0165696338920707,
	"grad_norm": 1.1893339157104492,
	"learning_rate": 5.832944314771591e-06,
	"loss": 0.4628,
	"step": 16900
	},
	{
	"epoch": 1.0165696338920707,
	"eval_loss": 0.4195719361305237,
	"eval_runtime": 51.0932,
	"eval_samples_per_second": 195.721,
	"eval_steps_per_second": 24.465,
	"step": 16900
	},
	{
	"epoch": 1.0225848388263432,
	"grad_norm": 1.1112314462661743,
	"learning_rate": 5.831943981327109e-06,
	"loss": 0.4631,
	"step": 17000
	},
	{
	"epoch": 1.0225848388263432,
	"eval_loss": 0.41490069031715393,
	"eval_runtime": 51.0962,
	"eval_samples_per_second": 195.709,
	"eval_steps_per_second": 24.464,
	"step": 17000
	},
	{
	"epoch": 1.028600043760616,
	"grad_norm": 1.0246236324310303,
	"learning_rate": 5.830943647882628e-06,
	"loss": 0.4634,
	"step": 17100
	},
	{
	"epoch": 1.028600043760616,
	"eval_loss": 0.4150553345680237,
	"eval_runtime": 51.0756,
	"eval_samples_per_second": 195.788,
	"eval_steps_per_second": 24.474,
	"step": 17100
	},
	{
	"epoch": 1.0346152486948885,
	"grad_norm": 1.09652578830719,
	"learning_rate": 5.8299433144381465e-06,
	"loss": 0.4618,
	"step": 17200
	},
	{
	"epoch": 1.0346152486948885,
	"eval_loss": 0.41938120126724243,
	"eval_runtime": 51.0832,
	"eval_samples_per_second": 195.759,
	"eval_steps_per_second": 24.47,
	"step": 17200
	},
	{
	"epoch": 1.040630453629161,
	"grad_norm": 1.123412013053894,
	"learning_rate": 5.828942980993664e-06,
	"loss": 0.4598,
	"step": 17300
	},
	{
	"epoch": 1.040630453629161,
	"eval_loss": 0.4131644666194916,
	"eval_runtime": 51.0626,
	"eval_samples_per_second": 195.838,
	"eval_steps_per_second": 24.48,
	"step": 17300
	},
	{
	"epoch": 1.0466456585634338,
	"grad_norm": 1.195304274559021,
	"learning_rate": 5.827942647549183e-06,
	"loss": 0.455,
	"step": 17400
	},
	{
	"epoch": 1.0466456585634338,
	"eval_loss": 0.40582725405693054,
	"eval_runtime": 51.2954,
	"eval_samples_per_second": 194.949,
	"eval_steps_per_second": 24.369,
	"step": 17400
	},
	{
	"epoch": 1.0526608634977064,
	"grad_norm": 1.149339199066162,
	"learning_rate": 5.826942314104702e-06,
	"loss": 0.4547,
	"step": 17500
	},
	{
	"epoch": 1.0526608634977064,
	"eval_loss": 0.4130345582962036,
	"eval_runtime": 51.0931,
	"eval_samples_per_second": 195.721,
	"eval_steps_per_second": 24.465,
	"step": 17500
	},
	{
	"epoch": 1.058676068431979,
	"grad_norm": 1.1289178133010864,
	"learning_rate": 5.8259419806602205e-06,
	"loss": 0.4551,
	"step": 17600
	},
	{
	"epoch": 1.058676068431979,
	"eval_loss": 0.4048755466938019,
	"eval_runtime": 51.0261,
	"eval_samples_per_second": 195.978,
	"eval_steps_per_second": 24.497,
	"step": 17600
	},
	{
	"epoch": 1.0646912733662515,
	"grad_norm": 1.1146255731582642,
	"learning_rate": 5.824941647215739e-06,
	"loss": 0.4509,
	"step": 17700
	},
	{
	"epoch": 1.0646912733662515,
	"eval_loss": 0.401869535446167,
	"eval_runtime": 51.168,
	"eval_samples_per_second": 195.435,
	"eval_steps_per_second": 24.429,
	"step": 17700
	},
	{
	"epoch": 1.0707064783005242,
	"grad_norm": 1.2300053834915161,
	"learning_rate": 5.823941313771257e-06,
	"loss": 0.4505,
	"step": 17800
	},
	{
	"epoch": 1.0707064783005242,
	"eval_loss": 0.4011248052120209,
	"eval_runtime": 51.0381,
	"eval_samples_per_second": 195.932,
	"eval_steps_per_second": 24.491,
	"step": 17800
	},
	{
	"epoch": 1.0767216832347968,
	"grad_norm": 1.1278949975967407,
	"learning_rate": 5.822940980326776e-06,
	"loss": 0.4499,
	"step": 17900
	},
	{
	"epoch": 1.0767216832347968,
	"eval_loss": 0.4098372459411621,
	"eval_runtime": 51.1549,
	"eval_samples_per_second": 195.485,
	"eval_steps_per_second": 24.436,
	"step": 17900
	},
	{
	"epoch": 1.0827368881690693,
	"grad_norm": 1.1039050817489624,
	"learning_rate": 5.8219406468822945e-06,
	"loss": 0.4479,
	"step": 18000
	},
	{
	"epoch": 1.0827368881690693,
	"eval_loss": 0.4014202356338501,
	"eval_runtime": 51.282,
	"eval_samples_per_second": 195.0,
	"eval_steps_per_second": 24.375,
	"step": 18000
	},
	{
	"epoch": 1.0887520931033419,
	"grad_norm": 1.0981614589691162,
	"learning_rate": 5.820940313437812e-06,
	"loss": 0.4505,
	"step": 18100
	},
	{
	"epoch": 1.0887520931033419,
	"eval_loss": 0.40326839685440063,
	"eval_runtime": 51.0953,
	"eval_samples_per_second": 195.713,
	"eval_steps_per_second": 24.464,
	"step": 18100
	},
	{
	"epoch": 1.0947672980376146,
	"grad_norm": 1.1146022081375122,
	"learning_rate": 5.819939979993331e-06,
	"loss": 0.4485,
	"step": 18200
	},
	{
	"epoch": 1.0947672980376146,
	"eval_loss": 0.4028699994087219,
	"eval_runtime": 51.095,
	"eval_samples_per_second": 195.714,
	"eval_steps_per_second": 24.464,
	"step": 18200
	},
	{
	"epoch": 1.1007825029718872,
	"grad_norm": 1.0906445980072021,
	"learning_rate": 5.81893964654885e-06,
	"loss": 0.4441,
	"step": 18300
	},
	{
	"epoch": 1.1007825029718872,
	"eval_loss": 0.39843133091926575,
	"eval_runtime": 51.2428,
	"eval_samples_per_second": 195.149,
	"eval_steps_per_second": 24.394,
	"step": 18300
	},
	{
	"epoch": 1.1067977079061597,
	"grad_norm": 1.0257636308670044,
	"learning_rate": 5.8179393131043684e-06,
	"loss": 0.4456,
	"step": 18400
	},
	{
	"epoch": 1.1067977079061597,
	"eval_loss": 0.3976500630378723,
	"eval_runtime": 51.0817,
	"eval_samples_per_second": 195.765,
	"eval_steps_per_second": 24.471,
	"step": 18400
	},
	{
	"epoch": 1.1128129128404325,
	"grad_norm": 1.1339443922042847,
	"learning_rate": 5.816938979659887e-06,
	"loss": 0.4441,
	"step": 18500
	},
	{
	"epoch": 1.1128129128404325,
	"eval_loss": 0.403137743473053,
	"eval_runtime": 51.196,
	"eval_samples_per_second": 195.328,
	"eval_steps_per_second": 24.416,
	"step": 18500
	},
	{
	"epoch": 1.118828117774705,
	"grad_norm": 1.146203637123108,
	"learning_rate": 5.815938646215406e-06,
	"loss": 0.4431,
	"step": 18600
	},
	{
	"epoch": 1.118828117774705,
	"eval_loss": 0.40482422709465027,
	"eval_runtime": 51.0834,
	"eval_samples_per_second": 195.758,
	"eval_steps_per_second": 24.47,
	"step": 18600
	},
	{
	"epoch": 1.1248433227089776,
	"grad_norm": 1.1327886581420898,
	"learning_rate": 5.814938312770924e-06,
	"loss": 0.4446,
	"step": 18700
	},
	{
	"epoch": 1.1248433227089776,
	"eval_loss": 0.39922335743904114,
	"eval_runtime": 51.1856,
	"eval_samples_per_second": 195.367,
	"eval_steps_per_second": 24.421,
	"step": 18700
	},
	{
	"epoch": 1.1308585276432503,
	"grad_norm": 1.1702196598052979,
	"learning_rate": 5.8139379793264424e-06,
	"loss": 0.4412,
	"step": 18800
	},
	{
	"epoch": 1.1308585276432503,
	"eval_loss": 0.39871400594711304,
	"eval_runtime": 51.1987,
	"eval_samples_per_second": 195.317,
	"eval_steps_per_second": 24.415,
	"step": 18800
	},
	{
	"epoch": 1.1368737325775229,
	"grad_norm": 1.0438004732131958,
	"learning_rate": 5.81293764588196e-06,
	"loss": 0.44,
	"step": 18900
	},
	{
	"epoch": 1.1368737325775229,
	"eval_loss": 0.3967694044113159,
	"eval_runtime": 51.0919,
	"eval_samples_per_second": 195.726,
	"eval_steps_per_second": 24.466,
	"step": 18900
	},
	{
	"epoch": 1.1428889375117954,
	"grad_norm": 1.0050268173217773,
	"learning_rate": 5.811937312437479e-06,
	"loss": 0.4395,
	"step": 19000
	},
	{
	"epoch": 1.1428889375117954,
	"eval_loss": 0.3952539563179016,
	"eval_runtime": 51.3885,
	"eval_samples_per_second": 194.596,
	"eval_steps_per_second": 24.325,
	"step": 19000
	},
	{
	"epoch": 1.148904142446068,
	"grad_norm": 1.0875275135040283,
	"learning_rate": 5.810936978992998e-06,
	"loss": 0.4346,
	"step": 19100
	},
	{
	"epoch": 1.148904142446068,
	"eval_loss": 0.3918244242668152,
	"eval_runtime": 51.0342,
	"eval_samples_per_second": 195.947,
	"eval_steps_per_second": 24.493,
	"step": 19100
	},
	{
	"epoch": 1.1549193473803407,
	"grad_norm": 1.0449281930923462,
	"learning_rate": 5.809936645548516e-06,
	"loss": 0.4391,
	"step": 19200
	},
	{
	"epoch": 1.1549193473803407,
	"eval_loss": 0.3855830729007721,
	"eval_runtime": 51.1568,
	"eval_samples_per_second": 195.478,
	"eval_steps_per_second": 24.435,
	"step": 19200
	},
	{
	"epoch": 1.1609345523146133,
	"grad_norm": 0.9773437976837158,
	"learning_rate": 5.808936312104035e-06,
	"loss": 0.4355,
	"step": 19300
	},
	{
	"epoch": 1.1609345523146133,
	"eval_loss": 0.3886500597000122,
	"eval_runtime": 51.1956,
	"eval_samples_per_second": 195.329,
	"eval_steps_per_second": 24.416,
	"step": 19300
	},
	{
	"epoch": 1.1669497572488858,
	"grad_norm": 1.091601014137268,
	"learning_rate": 5.807935978659554e-06,
	"loss": 0.4344,
	"step": 19400
	},
	{
	"epoch": 1.1669497572488858,
	"eval_loss": 0.3868565857410431,
	"eval_runtime": 51.1098,
	"eval_samples_per_second": 195.657,
	"eval_steps_per_second": 24.457,
	"step": 19400
	},
	{
	"epoch": 1.1729649621831584,
	"grad_norm": 1.1882948875427246,
	"learning_rate": 5.806935645215072e-06,
	"loss": 0.434,
	"step": 19500
	},
	{
	"epoch": 1.1729649621831584,
	"eval_loss": 0.38946595788002014,
	"eval_runtime": 51.2843,
	"eval_samples_per_second": 194.991,
	"eval_steps_per_second": 24.374,
	"step": 19500
	},
	{
	"epoch": 1.1789801671174311,
	"grad_norm": 1.0534999370574951,
	"learning_rate": 5.80593531177059e-06,
	"loss": 0.4329,
	"step": 19600
	},
	{
	"epoch": 1.1789801671174311,
	"eval_loss": 0.3830993175506592,
	"eval_runtime": 50.9094,
	"eval_samples_per_second": 196.428,
	"eval_steps_per_second": 24.553,
	"step": 19600
	},
	{
	"epoch": 1.1849953720517037,
	"grad_norm": 1.0696886777877808,
	"learning_rate": 5.804934978326108e-06,
	"loss": 0.4311,
	"step": 19700
	},
	{
	"epoch": 1.1849953720517037,
	"eval_loss": 0.39124995470046997,
	"eval_runtime": 51.1273,
	"eval_samples_per_second": 195.59,
	"eval_steps_per_second": 24.449,
	"step": 19700
	},
	{
	"epoch": 1.1910105769859762,
	"grad_norm": 1.0171489715576172,
	"learning_rate": 5.803934644881627e-06,
	"loss": 0.4332,
	"step": 19800
	},
	{
	"epoch": 1.1910105769859762,
	"eval_loss": 0.384937584400177,
	"eval_runtime": 51.3256,
	"eval_samples_per_second": 194.834,
	"eval_steps_per_second": 24.354,
	"step": 19800
	},
	{
	"epoch": 1.197025781920249,
	"grad_norm": 1.1686575412750244,
	"learning_rate": 5.802934311437146e-06,
	"loss": 0.4289,
	"step": 19900
	},
	{
	"epoch": 1.197025781920249,
	"eval_loss": 0.38561180233955383,
	"eval_runtime": 51.072,
	"eval_samples_per_second": 195.802,
	"eval_steps_per_second": 24.475,
	"step": 19900
	},
	{
	"epoch": 1.2030409868545215,
	"grad_norm": 1.0748465061187744,
	"learning_rate": 5.801933977992664e-06,
	"loss": 0.4334,
	"step": 20000
	},
	{
	"epoch": 1.2030409868545215,
	"eval_loss": 0.382721871137619,
	"eval_runtime": 51.3966,
	"eval_samples_per_second": 194.565,
	"eval_steps_per_second": 24.321,
	"step": 20000
	},
	{
	"epoch": 1.209056191788794,
	"grad_norm": 1.100787878036499,
	"learning_rate": 5.800933644548183e-06,
	"loss": 0.4239,
	"step": 20100
	},
	{
	"epoch": 1.209056191788794,
	"eval_loss": 0.3841208517551422,
	"eval_runtime": 51.057,
	"eval_samples_per_second": 195.859,
	"eval_steps_per_second": 24.482,
	"step": 20100
	},
	{
	"epoch": 1.2150713967230669,
	"grad_norm": 1.04718017578125,
	"learning_rate": 5.799933311103702e-06,
	"loss": 0.4271,
	"step": 20200
	},
	{
	"epoch": 1.2150713967230669,
	"eval_loss": 0.3771766424179077,
	"eval_runtime": 51.2777,
	"eval_samples_per_second": 195.017,
	"eval_steps_per_second": 24.377,
	"step": 20200
	},
	{
	"epoch": 1.2210866016573394,
	"grad_norm": 1.1533209085464478,
	"learning_rate": 5.79893297765922e-06,
	"loss": 0.4254,
	"step": 20300
	},
	{
	"epoch": 1.2210866016573394,
	"eval_loss": 0.38013017177581787,
	"eval_runtime": 51.0118,
	"eval_samples_per_second": 196.033,
	"eval_steps_per_second": 24.504,
	"step": 20300
	},
	{
	"epoch": 1.227101806591612,
	"grad_norm": 1.2025070190429688,
	"learning_rate": 5.797932644214738e-06,
	"loss": 0.4263,
	"step": 20400
	},
	{
	"epoch": 1.227101806591612,
	"eval_loss": 0.37795642018318176,
	"eval_runtime": 51.132,
	"eval_samples_per_second": 195.572,
	"eval_steps_per_second": 24.447,
	"step": 20400
	},
	{
	"epoch": 1.2331170115258845,
	"grad_norm": 1.1051814556121826,
	"learning_rate": 5.796932310770257e-06,
	"loss": 0.4256,
	"step": 20500
	},
	{
	"epoch": 1.2331170115258845,
	"eval_loss": 0.37627479434013367,
	"eval_runtime": 50.9072,
	"eval_samples_per_second": 196.436,
	"eval_steps_per_second": 24.554,
	"step": 20500
	},
	{
	"epoch": 1.2391322164601573,
	"grad_norm": 1.0987049341201782,
	"learning_rate": 5.795931977325775e-06,
	"loss": 0.4239,
	"step": 20600
	},
	{
	"epoch": 1.2391322164601573,
	"eval_loss": 0.3853623569011688,
	"eval_runtime": 51.0608,
	"eval_samples_per_second": 195.845,
	"eval_steps_per_second": 24.481,
	"step": 20600
	},
	{
	"epoch": 1.2451474213944298,
	"grad_norm": 1.0989750623703003,
	"learning_rate": 5.794931643881294e-06,
	"loss": 0.4197,
	"step": 20700
	},
	{
	"epoch": 1.2451474213944298,
	"eval_loss": 0.3807806670665741,
	"eval_runtime": 51.3594,
	"eval_samples_per_second": 194.706,
	"eval_steps_per_second": 24.338,
	"step": 20700
	},
	{
	"epoch": 1.2511626263287023,
	"grad_norm": 1.0866729021072388,
	"learning_rate": 5.793931310436812e-06,
	"loss": 0.4234,
	"step": 20800
	},
	{
	"epoch": 1.2511626263287023,
	"eval_loss": 0.3777351379394531,
	"eval_runtime": 51.0621,
	"eval_samples_per_second": 195.84,
	"eval_steps_per_second": 24.48,
	"step": 20800
	},
	{
	"epoch": 1.2571778312629749,
	"grad_norm": 1.1387032270431519,
	"learning_rate": 5.792930976992331e-06,
	"loss": 0.4197,
	"step": 20900
	},
	{
	"epoch": 1.2571778312629749,
	"eval_loss": 0.3739318549633026,
	"eval_runtime": 51.1648,
	"eval_samples_per_second": 195.447,
	"eval_steps_per_second": 24.431,
	"step": 20900
	},
	{
	"epoch": 1.2631930361972477,
	"grad_norm": 0.9848424792289734,
	"learning_rate": 5.79193064354785e-06,
	"loss": 0.4225,
	"step": 21000
	},
	{
	"epoch": 1.2631930361972477,
	"eval_loss": 0.3804405629634857,
	"eval_runtime": 51.1688,
	"eval_samples_per_second": 195.431,
	"eval_steps_per_second": 24.429,
	"step": 21000
	},
	{
	"epoch": 1.2692082411315202,
	"grad_norm": 1.0492684841156006,
	"learning_rate": 5.790930310103368e-06,
	"loss": 0.4179,
	"step": 21100
	},
	{
	"epoch": 1.2692082411315202,
	"eval_loss": 0.37157440185546875,
	"eval_runtime": 51.0428,
	"eval_samples_per_second": 195.914,
	"eval_steps_per_second": 24.489,
	"step": 21100
	},
	{
	"epoch": 1.2752234460657927,
	"grad_norm": 1.2355892658233643,
	"learning_rate": 5.789929976658886e-06,
	"loss": 0.4177,
	"step": 21200
	},
	{
	"epoch": 1.2752234460657927,
	"eval_loss": 0.3794465661048889,
	"eval_runtime": 51.1116,
	"eval_samples_per_second": 195.65,
	"eval_steps_per_second": 24.456,
	"step": 21200
	},
	{
	"epoch": 1.2812386510000655,
	"grad_norm": 1.1180801391601562,
	"learning_rate": 5.788929643214405e-06,
	"loss": 0.4192,
	"step": 21300
	},
	{
	"epoch": 1.2812386510000655,
	"eval_loss": 0.3741929829120636,
	"eval_runtime": 51.043,
	"eval_samples_per_second": 195.913,
	"eval_steps_per_second": 24.489,
	"step": 21300
	},
	{
	"epoch": 1.287253855934338,
	"grad_norm": 1.1260274648666382,
	"learning_rate": 5.787929309769923e-06,
	"loss": 0.4165,
	"step": 21400
	},
	{
	"epoch": 1.287253855934338,
	"eval_loss": 0.37511906027793884,
	"eval_runtime": 51.1867,
	"eval_samples_per_second": 195.363,
	"eval_steps_per_second": 24.42,
	"step": 21400
	},
	{
	"epoch": 1.2932690608686106,
	"grad_norm": 1.0729244947433472,
	"learning_rate": 5.7869289763254424e-06,
	"loss": 0.4148,
	"step": 21500
	},
	{
	"epoch": 1.2932690608686106,
	"eval_loss": 0.3755778670310974,
	"eval_runtime": 50.9919,
	"eval_samples_per_second": 196.11,
	"eval_steps_per_second": 24.514,
	"step": 21500
	},
	{
	"epoch": 1.2992842658028834,
	"grad_norm": 1.5396491289138794,
	"learning_rate": 5.785928642880961e-06,
	"loss": 0.4128,
	"step": 21600
	},
	{
	"epoch": 1.2992842658028834,
	"eval_loss": 0.3713712990283966,
	"eval_runtime": 51.0389,
	"eval_samples_per_second": 195.929,
	"eval_steps_per_second": 24.491,
	"step": 21600
	},
	{
	"epoch": 1.305299470737156,
	"grad_norm": 0.9880481362342834,
	"learning_rate": 5.784928309436479e-06,
	"loss": 0.4138,
	"step": 21700
	},
	{
	"epoch": 1.305299470737156,
	"eval_loss": 0.3710058033466339,
	"eval_runtime": 51.3224,
	"eval_samples_per_second": 194.847,
	"eval_steps_per_second": 24.356,
	"step": 21700
	},
	{
	"epoch": 1.3113146756714285,
	"grad_norm": 0.9788950085639954,
	"learning_rate": 5.783927975991998e-06,
	"loss": 0.4108,
	"step": 21800
	},
	{
	"epoch": 1.3113146756714285,
	"eval_loss": 0.3687758147716522,
	"eval_runtime": 51.0044,
	"eval_samples_per_second": 196.062,
	"eval_steps_per_second": 24.508,
	"step": 21800
	},
	{
	"epoch": 1.317329880605701,
	"grad_norm": 1.0298100709915161,
	"learning_rate": 5.782927642547516e-06,
	"loss": 0.4129,
	"step": 21900
	},
	{
	"epoch": 1.317329880605701,
	"eval_loss": 0.365496426820755,
	"eval_runtime": 51.065,
	"eval_samples_per_second": 195.829,
	"eval_steps_per_second": 24.479,
	"step": 21900
	},
	{
	"epoch": 1.3233450855399735,
	"grad_norm": 1.0753816366195679,
	"learning_rate": 5.781927309103034e-06,
	"loss": 0.413,
	"step": 22000
	},
	{
	"epoch": 1.3233450855399735,
	"eval_loss": 0.3655156195163727,
	"eval_runtime": 51.117,
	"eval_samples_per_second": 195.63,
	"eval_steps_per_second": 24.454,
	"step": 22000
	},
	{
	"epoch": 1.3293602904742463,
	"grad_norm": 1.1379014253616333,
	"learning_rate": 5.780926975658553e-06,
	"loss": 0.4101,
	"step": 22100
	},
	{
	"epoch": 1.3293602904742463,
	"eval_loss": 0.37188926339149475,
	"eval_runtime": 51.0999,
	"eval_samples_per_second": 195.695,
	"eval_steps_per_second": 24.462,
	"step": 22100
	},
	{
	"epoch": 1.3353754954085189,
	"grad_norm": 0.9869519472122192,
	"learning_rate": 5.779926642214072e-06,
	"loss": 0.4113,
	"step": 22200
	},
	{
	"epoch": 1.3353754954085189,
	"eval_loss": 0.36685308814048767,
	"eval_runtime": 50.9524,
	"eval_samples_per_second": 196.262,
	"eval_steps_per_second": 24.533,
	"step": 22200
	},
	{
	"epoch": 1.3413907003427914,
	"grad_norm": 1.1977757215499878,
	"learning_rate": 5.77892630876959e-06,
	"loss": 0.4106,
	"step": 22300
	},
	{
	"epoch": 1.3413907003427914,
	"eval_loss": 0.3694215714931488,
	"eval_runtime": 50.8823,
	"eval_samples_per_second": 196.532,
	"eval_steps_per_second": 24.566,
	"step": 22300
	},
	{
	"epoch": 1.3474059052770642,
	"grad_norm": 1.0620633363723755,
	"learning_rate": 5.777925975325109e-06,
	"loss": 0.407,
	"step": 22400
	},
	{
	"epoch": 1.3474059052770642,
	"eval_loss": 0.36941900849342346,
	"eval_runtime": 51.0452,
	"eval_samples_per_second": 195.905,
	"eval_steps_per_second": 24.488,
	"step": 22400
	},
	{
	"epoch": 1.3534211102113367,
	"grad_norm": 1.0130232572555542,
	"learning_rate": 5.776925641880627e-06,
	"loss": 0.4076,
	"step": 22500
	},
	{
	"epoch": 1.3534211102113367,
	"eval_loss": 0.3688518702983856,
	"eval_runtime": 51.2935,
	"eval_samples_per_second": 194.956,
	"eval_steps_per_second": 24.37,
	"step": 22500
	},
	{
	"epoch": 1.3594363151456093,
	"grad_norm": 1.1370288133621216,
	"learning_rate": 5.775925308436146e-06,
	"loss": 0.4058,
	"step": 22600
	},
	{
	"epoch": 1.3594363151456093,
	"eval_loss": 0.35986149311065674,
	"eval_runtime": 50.94,
	"eval_samples_per_second": 196.309,
	"eval_steps_per_second": 24.539,
	"step": 22600
	},
	{
	"epoch": 1.365451520079882,
	"grad_norm": 1.0753254890441895,
	"learning_rate": 5.7749249749916635e-06,
	"loss": 0.404,
	"step": 22700
	},
	{
	"epoch": 1.365451520079882,
	"eval_loss": 0.36281687021255493,
	"eval_runtime": 51.0705,
	"eval_samples_per_second": 195.808,
	"eval_steps_per_second": 24.476,
	"step": 22700
	},
	{
	"epoch": 1.3714667250141546,
	"grad_norm": 1.0779234170913696,
	"learning_rate": 5.773924641547182e-06,
	"loss": 0.4055,
	"step": 22800
	},
	{
	"epoch": 1.3714667250141546,
	"eval_loss": 0.3607022762298584,
	"eval_runtime": 51.2843,
	"eval_samples_per_second": 194.992,
	"eval_steps_per_second": 24.374,
	"step": 22800
	},
	{
	"epoch": 1.377481929948427,
	"grad_norm": 1.0071178674697876,
	"learning_rate": 5.772924308102701e-06,
	"loss": 0.4038,
	"step": 22900
	},
	{
	"epoch": 1.377481929948427,
	"eval_loss": 0.36346524953842163,
	"eval_runtime": 50.9712,
	"eval_samples_per_second": 196.189,
	"eval_steps_per_second": 24.524,
	"step": 22900
	},
	{
	"epoch": 1.3834971348826999,
	"grad_norm": 1.0683503150939941,
	"learning_rate": 5.77192397465822e-06,
	"loss": 0.4047,
	"step": 23000
	},
	{
	"epoch": 1.3834971348826999,
	"eval_loss": 0.36117979884147644,
	"eval_runtime": 51.0395,
	"eval_samples_per_second": 195.927,
	"eval_steps_per_second": 24.491,
	"step": 23000
	},
	{
	"epoch": 1.3895123398169724,
	"grad_norm": 1.1770708560943604,
	"learning_rate": 5.770923641213738e-06,
	"loss": 0.4043,
	"step": 23100
	},
	{
	"epoch": 1.3895123398169724,
	"eval_loss": 0.36106517910957336,
	"eval_runtime": 51.0648,
	"eval_samples_per_second": 195.83,
	"eval_steps_per_second": 24.479,
	"step": 23100
	},
	{
	"epoch": 1.395527544751245,
	"grad_norm": 0.9239141941070557,
	"learning_rate": 5.769923307769257e-06,
	"loss": 0.4011,
	"step": 23200
	},
	{
	"epoch": 1.395527544751245,
	"eval_loss": 0.3578794598579407,
	"eval_runtime": 51.0531,
	"eval_samples_per_second": 195.875,
	"eval_steps_per_second": 24.484,
	"step": 23200
	},
	{
	"epoch": 1.4015427496855175,
	"grad_norm": 1.2712723016738892,
	"learning_rate": 5.768922974324775e-06,
	"loss": 0.4008,
	"step": 23300
	},
	{
	"epoch": 1.4015427496855175,
	"eval_loss": 0.3636392652988434,
	"eval_runtime": 51.1514,
	"eval_samples_per_second": 195.498,
	"eval_steps_per_second": 24.437,
	"step": 23300
	},
	{
	"epoch": 1.40755795461979,
	"grad_norm": 1.040955901145935,
	"learning_rate": 5.767922640880294e-06,
	"loss": 0.3974,
	"step": 23400
	},
	{
	"epoch": 1.40755795461979,
	"eval_loss": 0.3629893660545349,
	"eval_runtime": 51.021,
	"eval_samples_per_second": 195.998,
	"eval_steps_per_second": 24.5,
	"step": 23400
	},
	{
	"epoch": 1.4135731595540628,
	"grad_norm": 0.9896743893623352,
	"learning_rate": 5.766922307435812e-06,
	"loss": 0.3991,
	"step": 23500
	},
	{
	"epoch": 1.4135731595540628,
	"eval_loss": 0.35531342029571533,
	"eval_runtime": 51.17,
	"eval_samples_per_second": 195.427,
	"eval_steps_per_second": 24.428,
	"step": 23500
	},
	{
	"epoch": 1.4195883644883354,
	"grad_norm": 1.088028073310852,
	"learning_rate": 5.76592197399133e-06,
	"loss": 0.3972,
	"step": 23600
	},
	{
	"epoch": 1.4195883644883354,
	"eval_loss": 0.35938191413879395,
	"eval_runtime": 51.2648,
	"eval_samples_per_second": 195.066,
	"eval_steps_per_second": 24.383,
	"step": 23600
	},
	{
	"epoch": 1.425603569422608,
	"grad_norm": 1.0598886013031006,
	"learning_rate": 5.764921640546849e-06,
	"loss": 0.4021,
	"step": 23700
	},
	{
	"epoch": 1.425603569422608,
	"eval_loss": 0.35533782839775085,
	"eval_runtime": 51.0234,
	"eval_samples_per_second": 195.989,
	"eval_steps_per_second": 24.499,
	"step": 23700
	},
	{
	"epoch": 1.4316187743568807,
	"grad_norm": 1.1906119585037231,
	"learning_rate": 5.763921307102368e-06,
	"loss": 0.3977,
	"step": 23800
	},
	{
	"epoch": 1.4316187743568807,
	"eval_loss": 0.3564583361148834,
	"eval_runtime": 51.0223,
	"eval_samples_per_second": 195.993,
	"eval_steps_per_second": 24.499,
	"step": 23800
	},
	{
	"epoch": 1.4376339792911532,
	"grad_norm": 1.1549937725067139,
	"learning_rate": 5.762920973657886e-06,
	"loss": 0.3942,
	"step": 23900
	},
	{
	"epoch": 1.4376339792911532,
	"eval_loss": 0.3534764051437378,
	"eval_runtime": 51.1427,
	"eval_samples_per_second": 195.531,
	"eval_steps_per_second": 24.441,
	"step": 23900
	},
	{
	"epoch": 1.4436491842254258,
	"grad_norm": 1.0571911334991455,
	"learning_rate": 5.761920640213405e-06,
	"loss": 0.3953,
	"step": 24000
	},
	{
	"epoch": 1.4436491842254258,
	"eval_loss": 0.3564269542694092,
	"eval_runtime": 51.0367,
	"eval_samples_per_second": 195.938,
	"eval_steps_per_second": 24.492,
	"step": 24000
	},
	{
	"epoch": 1.4496643891596985,
	"grad_norm": 1.058688998222351,
	"learning_rate": 5.760920306768923e-06,
	"loss": 0.3957,
	"step": 24100
	},
	{
	"epoch": 1.4496643891596985,
	"eval_loss": 0.3465494215488434,
	"eval_runtime": 51.0338,
	"eval_samples_per_second": 195.949,
	"eval_steps_per_second": 24.494,
	"step": 24100
	},
	{
	"epoch": 1.455679594093971,
	"grad_norm": 1.0260639190673828,
	"learning_rate": 5.759919973324442e-06,
	"loss": 0.3954,
	"step": 24200
	},
	{
	"epoch": 1.455679594093971,
	"eval_loss": 0.34943073987960815,
	"eval_runtime": 50.8891,
	"eval_samples_per_second": 196.506,
	"eval_steps_per_second": 24.563,
	"step": 24200
	},
	{
	"epoch": 1.4616947990282436,
	"grad_norm": 0.9939345717430115,
	"learning_rate": 5.75891963987996e-06,
	"loss": 0.3944,
	"step": 24300
	},
	{
	"epoch": 1.4616947990282436,
	"eval_loss": 0.35242801904678345,
	"eval_runtime": 51.0489,
	"eval_samples_per_second": 195.891,
	"eval_steps_per_second": 24.486,
	"step": 24300
	},
	{
	"epoch": 1.4677100039625164,
	"grad_norm": 1.0830129384994507,
	"learning_rate": 5.757919306435478e-06,
	"loss": 0.3894,
	"step": 24400
	},
	{
	"epoch": 1.4677100039625164,
	"eval_loss": 0.34800294041633606,
	"eval_runtime": 51.3057,
	"eval_samples_per_second": 194.91,
	"eval_steps_per_second": 24.364,
	"step": 24400
	},
	{
	"epoch": 1.473725208896789,
	"grad_norm": 1.0526846647262573,
	"learning_rate": 5.756918972990997e-06,
	"loss": 0.39,
	"step": 24500
	},
	{
	"epoch": 1.473725208896789,
	"eval_loss": 0.3510083556175232,
	"eval_runtime": 50.9026,
	"eval_samples_per_second": 196.454,
	"eval_steps_per_second": 24.557,
	"step": 24500
	},
	{
	"epoch": 1.4797404138310615,
	"grad_norm": 1.1267868280410767,
	"learning_rate": 5.755918639546516e-06,
	"loss": 0.3902,
	"step": 24600
	},
	{
	"epoch": 1.4797404138310615,
	"eval_loss": 0.3532961308956146,
	"eval_runtime": 51.0797,
	"eval_samples_per_second": 195.773,
	"eval_steps_per_second": 24.472,
	"step": 24600
	},
	{
	"epoch": 1.485755618765334,
	"grad_norm": 1.1018403768539429,
	"learning_rate": 5.754918306102034e-06,
	"loss": 0.3908,
	"step": 24700
	},
	{
	"epoch": 1.485755618765334,
	"eval_loss": 0.3456381559371948,
	"eval_runtime": 51.3247,
	"eval_samples_per_second": 194.838,
	"eval_steps_per_second": 24.355,
	"step": 24700
	},
	{
	"epoch": 1.4917708236996066,
	"grad_norm": 1.0022377967834473,
	"learning_rate": 5.753917972657553e-06,
	"loss": 0.3869,
	"step": 24800
	},
	{
	"epoch": 1.4917708236996066,
	"eval_loss": 0.3509150445461273,
	"eval_runtime": 51.0426,
	"eval_samples_per_second": 195.915,
	"eval_steps_per_second": 24.489,
	"step": 24800
	},
	{
	"epoch": 1.4977860286338793,
	"grad_norm": 1.02973210811615,
	"learning_rate": 5.752917639213071e-06,
	"loss": 0.3885,
	"step": 24900
	},
	{
	"epoch": 1.4977860286338793,
	"eval_loss": 0.3488512635231018,
	"eval_runtime": 50.9719,
	"eval_samples_per_second": 196.187,
	"eval_steps_per_second": 24.523,
	"step": 24900
	},
	{
	"epoch": 1.5038012335681519,
	"grad_norm": 1.0170624256134033,
	"learning_rate": 5.7519173057685896e-06,
	"loss": 0.386,
	"step": 25000
	},
	{
	"epoch": 1.5038012335681519,
	"eval_loss": 0.344295859336853,
	"eval_runtime": 51.2301,
	"eval_samples_per_second": 195.198,
	"eval_steps_per_second": 24.4,
	"step": 25000
	},
	{
	"epoch": 1.5098164385024244,
	"grad_norm": 1.0053726434707642,
	"learning_rate": 5.750916972324108e-06,
	"loss": 0.3885,
	"step": 25100
	},
	{
	"epoch": 1.5098164385024244,
	"eval_loss": 0.34295952320098877,
	"eval_runtime": 51.2643,
	"eval_samples_per_second": 195.068,
	"eval_steps_per_second": 24.383,
	"step": 25100
	},
	{
	"epoch": 1.5158316434366972,
	"grad_norm": 0.9546186327934265,
	"learning_rate": 5.749916638879626e-06,
	"loss": 0.3902,
	"step": 25200
	},
	{
	"epoch": 1.5158316434366972,
	"eval_loss": 0.3494739234447479,
	"eval_runtime": 51.1243,
	"eval_samples_per_second": 195.602,
	"eval_steps_per_second": 24.45,
	"step": 25200
	},
	{
	"epoch": 1.5218468483709697,
	"grad_norm": 1.0184184312820435,
	"learning_rate": 5.748916305435145e-06,
	"loss": 0.3853,
	"step": 25300
	},
	{
	"epoch": 1.5218468483709697,
	"eval_loss": 0.34722205996513367,
	"eval_runtime": 51.0304,
	"eval_samples_per_second": 195.961,
	"eval_steps_per_second": 24.495,
	"step": 25300
	},
	{
	"epoch": 1.5278620533052423,
	"grad_norm": 1.0732802152633667,
	"learning_rate": 5.747915971990664e-06,
	"loss": 0.3868,
	"step": 25400
	},
	{
	"epoch": 1.5278620533052423,
	"eval_loss": 0.34737443923950195,
	"eval_runtime": 51.1073,
	"eval_samples_per_second": 195.667,
	"eval_steps_per_second": 24.458,
	"step": 25400
	},
	{
	"epoch": 1.533877258239515,
	"grad_norm": 1.023866891860962,
	"learning_rate": 5.746915638546182e-06,
	"loss": 0.3846,
	"step": 25500
	},
	{
	"epoch": 1.533877258239515,
	"eval_loss": 0.34227558970451355,
	"eval_runtime": 51.0647,
	"eval_samples_per_second": 195.83,
	"eval_steps_per_second": 24.479,
	"step": 25500
	},
	{
	"epoch": 1.5398924631737876,
	"grad_norm": 0.9621095657348633,
	"learning_rate": 5.745915305101701e-06,
	"loss": 0.3853,
	"step": 25600
	},
	{
	"epoch": 1.5398924631737876,
	"eval_loss": 0.33890464901924133,
	"eval_runtime": 37.4533,
	"eval_samples_per_second": 266.999,
	"eval_steps_per_second": 33.375,
	"step": 25600
	},
	{
	"epoch": 1.5459076681080601,
	"grad_norm": 1.0459903478622437,
	"learning_rate": 5.744914971657219e-06,
	"loss": 0.3867,
	"step": 25700
	},
	{
	"epoch": 1.5459076681080601,
	"eval_loss": 0.3423731327056885,
	"eval_runtime": 51.0943,
	"eval_samples_per_second": 195.717,
	"eval_steps_per_second": 24.465,
	"step": 25700
	},
	{
	"epoch": 1.551922873042333,
	"grad_norm": 1.0103187561035156,
	"learning_rate": 5.7439146382127375e-06,
	"loss": 0.3846,
	"step": 25800
	},
	{
	"epoch": 1.551922873042333,
	"eval_loss": 0.3495667576789856,
	"eval_runtime": 51.0619,
	"eval_samples_per_second": 195.841,
	"eval_steps_per_second": 24.48,
	"step": 25800
	},
	{
	"epoch": 1.5579380779766052,
	"grad_norm": 1.1959409713745117,
	"learning_rate": 5.742914304768256e-06,
	"loss": 0.3836,
	"step": 25900
	},
	{
	"epoch": 1.5579380779766052,
	"eval_loss": 0.34345749020576477,
	"eval_runtime": 50.9931,
	"eval_samples_per_second": 196.105,
	"eval_steps_per_second": 24.513,
	"step": 25900
	},
	{
	"epoch": 1.563953282910878,
	"grad_norm": 1.0257697105407715,
	"learning_rate": 5.741913971323774e-06,
	"loss": 0.3832,
	"step": 26000
	},
	{
	"epoch": 1.563953282910878,
	"eval_loss": 0.3426493704319,
	"eval_runtime": 51.1309,
	"eval_samples_per_second": 195.577,
	"eval_steps_per_second": 24.447,
	"step": 26000
	},
	{
	"epoch": 1.5699684878451505,
	"grad_norm": 1.1140973567962646,
	"learning_rate": 5.740913637879294e-06,
	"loss": 0.3797,
	"step": 26100
	},
	{
	"epoch": 1.5699684878451505,
	"eval_loss": 0.34580498933792114,
	"eval_runtime": 51.1787,
	"eval_samples_per_second": 195.394,
	"eval_steps_per_second": 24.424,
	"step": 26100
	},
	{
	"epoch": 1.575983692779423,
	"grad_norm": 1.0050679445266724,
	"learning_rate": 5.739913304434812e-06,
	"loss": 0.3749,
	"step": 26200
	},
	{
	"epoch": 1.575983692779423,
	"eval_loss": 0.3454411029815674,
	"eval_runtime": 51.1577,
	"eval_samples_per_second": 195.474,
	"eval_steps_per_second": 24.434,
	"step": 26200
	},
	{
	"epoch": 1.5819988977136958,
	"grad_norm": 1.0191149711608887,
	"learning_rate": 5.73891297099033e-06,
	"loss": 0.3772,
	"step": 26300
	},
	{
	"epoch": 1.5819988977136958,
	"eval_loss": 0.3403486907482147,
	"eval_runtime": 51.0929,
	"eval_samples_per_second": 195.722,
	"eval_steps_per_second": 24.465,
	"step": 26300
	},
	{
	"epoch": 1.5880141026479684,
	"grad_norm": 1.1277610063552856,
	"learning_rate": 5.737912637545849e-06,
	"loss": 0.3783,
	"step": 26400
	},
	{
	"epoch": 1.5880141026479684,
	"eval_loss": 0.3426676392555237,
	"eval_runtime": 51.3622,
	"eval_samples_per_second": 194.696,
	"eval_steps_per_second": 24.337,
	"step": 26400
	},
	{
	"epoch": 1.594029307582241,
	"grad_norm": 1.12416672706604,
	"learning_rate": 5.736912304101368e-06,
	"loss": 0.3765,
	"step": 26500
	},
	{
	"epoch": 1.594029307582241,
	"eval_loss": 0.3407214879989624,
	"eval_runtime": 51.185,
	"eval_samples_per_second": 195.37,
	"eval_steps_per_second": 24.421,
	"step": 26500
	},
	{
	"epoch": 1.6000445125165137,
	"grad_norm": 0.9676984548568726,
	"learning_rate": 5.7359119706568855e-06,
	"loss": 0.377,
	"step": 26600
	},
	{
	"epoch": 1.6000445125165137,
	"eval_loss": 0.3347455859184265,
	"eval_runtime": 50.9838,
	"eval_samples_per_second": 196.141,
	"eval_steps_per_second": 24.518,
	"step": 26600
	},
	{
	"epoch": 1.6060597174507862,
	"grad_norm": 1.0561347007751465,
	"learning_rate": 5.734911637212404e-06,
	"loss": 0.3768,
	"step": 26700
	},
	{
	"epoch": 1.6060597174507862,
	"eval_loss": 0.3399183452129364,
	"eval_runtime": 51.075,
	"eval_samples_per_second": 195.79,
	"eval_steps_per_second": 24.474,
	"step": 26700
	},
	{
	"epoch": 1.6120749223850588,
	"grad_norm": 1.2122465372085571,
	"learning_rate": 5.733911303767923e-06,
	"loss": 0.3763,
	"step": 26800
	},
	{
	"epoch": 1.6120749223850588,
	"eval_loss": 0.33461084961891174,
	"eval_runtime": 51.0463,
	"eval_samples_per_second": 195.901,
	"eval_steps_per_second": 24.488,
	"step": 26800
	},
	{
	"epoch": 1.6180901273193316,
	"grad_norm": 1.0054854154586792,
	"learning_rate": 5.732910970323442e-06,
	"loss": 0.3786,
	"step": 26900
	},
	{
	"epoch": 1.6180901273193316,
	"eval_loss": 0.3318628668785095,
	"eval_runtime": 51.0826,
	"eval_samples_per_second": 195.761,
	"eval_steps_per_second": 24.47,
	"step": 26900
	},
	{
	"epoch": 1.624105332253604,
	"grad_norm": 1.072472333908081,
	"learning_rate": 5.73191063687896e-06,
	"loss": 0.3762,
	"step": 27000
	},
	{
	"epoch": 1.624105332253604,
	"eval_loss": 0.3293687403202057,
	"eval_runtime": 51.072,
	"eval_samples_per_second": 195.802,
	"eval_steps_per_second": 24.475,
	"step": 27000
	},
	{
	"epoch": 1.6301205371878766,
	"grad_norm": 1.0058602094650269,
	"learning_rate": 5.730910303434478e-06,
	"loss": 0.3716,
	"step": 27100
	},
	{
	"epoch": 1.6301205371878766,
	"eval_loss": 0.33610230684280396,
	"eval_runtime": 51.0651,
	"eval_samples_per_second": 195.828,
	"eval_steps_per_second": 24.479,
	"step": 27100
	},
	{
	"epoch": 1.6361357421221494,
	"grad_norm": 1.0208802223205566,
	"learning_rate": 5.729909969989997e-06,
	"loss": 0.3724,
	"step": 27200
	},
	{
	"epoch": 1.6361357421221494,
	"eval_loss": 0.3361985981464386,
	"eval_runtime": 51.1569,
	"eval_samples_per_second": 195.477,
	"eval_steps_per_second": 24.435,
	"step": 27200
	},
	{
	"epoch": 1.6421509470564217,
	"grad_norm": 1.0464400053024292,
	"learning_rate": 5.728909636545516e-06,
	"loss": 0.3732,
	"step": 27300
	},
	{
	"epoch": 1.6421509470564217,
	"eval_loss": 0.3356834053993225,
	"eval_runtime": 21.647,
	"eval_samples_per_second": 461.957,
	"eval_steps_per_second": 57.745,
	"step": 27300
	},
	{
	"epoch": 1.6481661519906945,
	"grad_norm": 1.1063635349273682,
	"learning_rate": 5.7279093031010335e-06,
	"loss": 0.3725,
	"step": 27400
	},
	{
	"epoch": 1.6481661519906945,
	"eval_loss": 0.3378269374370575,
	"eval_runtime": 48.6948,
	"eval_samples_per_second": 205.361,
	"eval_steps_per_second": 25.67,
	"step": 27400
	},
	{
	"epoch": 1.654181356924967,
	"grad_norm": 0.8910077214241028,
	"learning_rate": 5.726908969656552e-06,
	"loss": 0.3707,
	"step": 27500
	},
	{
	"epoch": 1.654181356924967,
	"eval_loss": 0.3300679624080658,
	"eval_runtime": 48.819,
	"eval_samples_per_second": 204.838,
	"eval_steps_per_second": 25.605,
	"step": 27500
	},
	{
	"epoch": 1.6601965618592396,
	"grad_norm": 0.9904689192771912,
	"learning_rate": 5.725908636212071e-06,
	"loss": 0.3722,
	"step": 27600
	},
	{
	"epoch": 1.6601965618592396,
	"eval_loss": 0.33077552914619446,
	"eval_runtime": 45.4305,
	"eval_samples_per_second": 220.116,
	"eval_steps_per_second": 27.515,
	"step": 27600
	},
	{
	"epoch": 1.6662117667935123,
	"grad_norm": 1.0377715826034546,
	"learning_rate": 5.72490830276759e-06,
	"loss": 0.3693,
	"step": 27700
	},
	{
	"epoch": 1.6662117667935123,
	"eval_loss": 0.3365156948566437,
	"eval_runtime": 46.8492,
	"eval_samples_per_second": 213.451,
	"eval_steps_per_second": 26.681,
	"step": 27700
	},
	{
	"epoch": 1.672226971727785,
	"grad_norm": 0.9838355183601379,
	"learning_rate": 5.723907969323108e-06,
	"loss": 0.373,
	"step": 27800
	},
	{
	"epoch": 1.672226971727785,
	"eval_loss": 0.33353880047798157,
	"eval_runtime": 47.6968,
	"eval_samples_per_second": 209.658,
	"eval_steps_per_second": 26.207,
	"step": 27800
	},
	{
	"epoch": 1.6782421766620574,
	"grad_norm": 1.0050548315048218,
	"learning_rate": 5.722907635878626e-06,
	"loss": 0.3707,
	"step": 27900
	},
	{
	"epoch": 1.6782421766620574,
	"eval_loss": 0.3265502154827118,
	"eval_runtime": 48.1571,
	"eval_samples_per_second": 207.654,
	"eval_steps_per_second": 25.957,
	"step": 27900
	},
	{
	"epoch": 1.6842573815963302,
	"grad_norm": 1.0083630084991455,
	"learning_rate": 5.721907302434145e-06,
	"loss": 0.3687,
	"step": 28000
	},
	{
	"epoch": 1.6842573815963302,
	"eval_loss": 0.33139145374298096,
	"eval_runtime": 48.694,
	"eval_samples_per_second": 205.364,
	"eval_steps_per_second": 25.671,
	"step": 28000
	},
	{
	"epoch": 1.6902725865306027,
	"grad_norm": 0.9649508595466614,
	"learning_rate": 5.7209069689896636e-06,
	"loss": 0.3661,
	"step": 28100
	},
	{
	"epoch": 1.6902725865306027,
	"eval_loss": 0.3332207202911377,
	"eval_runtime": 40.0334,
	"eval_samples_per_second": 249.792,
	"eval_steps_per_second": 31.224,
	"step": 28100
	},
	{
	"epoch": 1.6962877914648753,
	"grad_norm": 1.042528748512268,
	"learning_rate": 5.7199066355451814e-06,
	"loss": 0.3702,
	"step": 28200
	},
	{
	"epoch": 1.6962877914648753,
	"eval_loss": 0.32571831345558167,
	"eval_runtime": 49.2797,
	"eval_samples_per_second": 202.923,
	"eval_steps_per_second": 25.365,
	"step": 28200
	},
	{
	"epoch": 1.702302996399148,
	"grad_norm": 0.9756554365158081,
	"learning_rate": 5.7189063021007e-06,
	"loss": 0.3647,
	"step": 28300
	},
	{
	"epoch": 1.702302996399148,
	"eval_loss": 0.3234156668186188,
	"eval_runtime": 49.7079,
	"eval_samples_per_second": 201.175,
	"eval_steps_per_second": 25.147,
	"step": 28300
	},
	{
	"epoch": 1.7083182013334206,
	"grad_norm": 1.0613596439361572,
	"learning_rate": 5.717905968656219e-06,
	"loss": 0.3649,
	"step": 28400
	},
	{
	"epoch": 1.7083182013334206,
	"eval_loss": 0.32939964532852173,
	"eval_runtime": 50.06,
	"eval_samples_per_second": 199.76,
	"eval_steps_per_second": 24.97,
	"step": 28400
	},
	{
	"epoch": 1.7143334062676931,
	"grad_norm": 1.0461217164993286,
	"learning_rate": 5.7169056352117375e-06,
	"loss": 0.3677,
	"step": 28500
	},
	{
	"epoch": 1.7143334062676931,
	"eval_loss": 0.32745957374572754,
	"eval_runtime": 50.0541,
	"eval_samples_per_second": 199.784,
	"eval_steps_per_second": 24.973,
	"step": 28500
	},
	{
	"epoch": 1.720348611201966,
	"grad_norm": 1.0226540565490723,
	"learning_rate": 5.715905301767256e-06,
	"loss": 0.3642,
	"step": 28600
	},
	{
	"epoch": 1.720348611201966,
	"eval_loss": 0.3290911316871643,
	"eval_runtime": 50.4387,
	"eval_samples_per_second": 198.26,
	"eval_steps_per_second": 24.783,
	"step": 28600
	},
	{
	"epoch": 1.7263638161362382,
	"grad_norm": 1.0498120784759521,
	"learning_rate": 5.714904968322774e-06,
	"loss": 0.3626,
	"step": 28700
	},
	{
	"epoch": 1.7263638161362382,
	"eval_loss": 0.33111146092414856,
	"eval_runtime": 50.7317,
	"eval_samples_per_second": 197.115,
	"eval_steps_per_second": 24.639,
	"step": 28700
	},
	{
	"epoch": 1.732379021070511,
	"grad_norm": 1.0179612636566162,
	"learning_rate": 5.713904634878293e-06,
	"loss": 0.3611,
	"step": 28800
	},
	{
	"epoch": 1.732379021070511,
	"eval_loss": 0.31966713070869446,
	"eval_runtime": 35.8874,
	"eval_samples_per_second": 278.65,
	"eval_steps_per_second": 34.831,
	"step": 28800
	},
	{
	"epoch": 1.7383942260047835,
	"grad_norm": 0.9876866340637207,
	"learning_rate": 5.7129043014338115e-06,
	"loss": 0.3609,
	"step": 28900
	},
	{
	"epoch": 1.7383942260047835,
	"eval_loss": 0.3232952356338501,
	"eval_runtime": 50.8899,
	"eval_samples_per_second": 196.503,
	"eval_steps_per_second": 24.563,
	"step": 28900
	},
	{
	"epoch": 1.744409430939056,
	"grad_norm": 1.08419668674469,
	"learning_rate": 5.711903967989329e-06,
	"loss": 0.3621,
	"step": 29000
	},
	{
	"epoch": 1.744409430939056,
	"eval_loss": 0.32880115509033203,
	"eval_runtime": 50.9007,
	"eval_samples_per_second": 196.461,
	"eval_steps_per_second": 24.558,
	"step": 29000
	},
	{
	"epoch": 1.7504246358733289,
	"grad_norm": 1.0506683588027954,
	"learning_rate": 5.710903634544848e-06,
	"loss": 0.3612,
	"step": 29100
	},
	{
	"epoch": 1.7504246358733289,
	"eval_loss": 0.32626426219940186,
	"eval_runtime": 51.3181,
	"eval_samples_per_second": 194.863,
	"eval_steps_per_second": 24.358,
	"step": 29100
	},
	{
	"epoch": 1.7564398408076014,
	"grad_norm": 1.0610612630844116,
	"learning_rate": 5.709903301100367e-06,
	"loss": 0.3604,
	"step": 29200
	},
	{
	"epoch": 1.7564398408076014,
	"eval_loss": 0.32427623867988586,
	"eval_runtime": 51.1109,
	"eval_samples_per_second": 195.653,
	"eval_steps_per_second": 24.457,
	"step": 29200
	},
	{
	"epoch": 1.762455045741874,
	"grad_norm": 1.0237441062927246,
	"learning_rate": 5.7089029676558855e-06,
	"loss": 0.3576,
	"step": 29300
	},
	{
	"epoch": 1.762455045741874,
	"eval_loss": 0.325724720954895,
	"eval_runtime": 51.0538,
	"eval_samples_per_second": 195.872,
	"eval_steps_per_second": 24.484,
	"step": 29300
	},
	{
	"epoch": 1.7684702506761467,
	"grad_norm": 1.0518171787261963,
	"learning_rate": 5.707902634211404e-06,
	"loss": 0.3623,
	"step": 29400
	},
	{
	"epoch": 1.7684702506761467,
	"eval_loss": 0.3236755430698395,
	"eval_runtime": 51.279,
	"eval_samples_per_second": 195.012,
	"eval_steps_per_second": 24.376,
	"step": 29400
	},
	{
	"epoch": 1.7744854556104193,
	"grad_norm": 1.008692741394043,
	"learning_rate": 5.706902300766923e-06,
	"loss": 0.3594,
	"step": 29500
	},
	{
	"epoch": 1.7744854556104193,
	"eval_loss": 0.322955846786499,
	"eval_runtime": 50.9674,
	"eval_samples_per_second": 196.204,
	"eval_steps_per_second": 24.525,
	"step": 29500
	},
	{
	"epoch": 1.7805006605446918,
	"grad_norm": 1.0272122621536255,
	"learning_rate": 5.705901967322441e-06,
	"loss": 0.3589,
	"step": 29600
	},
	{
	"epoch": 1.7805006605446918,
	"eval_loss": 0.32889479398727417,
	"eval_runtime": 51.0901,
	"eval_samples_per_second": 195.733,
	"eval_steps_per_second": 24.467,
	"step": 29600
	},
	{
	"epoch": 1.7865158654789646,
	"grad_norm": 0.9986202120780945,
	"learning_rate": 5.7049016338779595e-06,
	"loss": 0.3583,
	"step": 29700
	},
	{
	"epoch": 1.7865158654789646,
	"eval_loss": 0.32579848170280457,
	"eval_runtime": 51.3308,
	"eval_samples_per_second": 194.815,
	"eval_steps_per_second": 24.352,
	"step": 29700
	},
	{
	"epoch": 1.7925310704132371,
	"grad_norm": 1.1426304578781128,
	"learning_rate": 5.703901300433477e-06,
	"loss": 0.3578,
	"step": 29800
	},
	{
	"epoch": 1.7925310704132371,
	"eval_loss": 0.3219316303730011,
	"eval_runtime": 51.0488,
	"eval_samples_per_second": 195.891,
	"eval_steps_per_second": 24.486,
	"step": 29800
	},
	{
	"epoch": 1.7985462753475097,
	"grad_norm": 1.0315282344818115,
	"learning_rate": 5.702900966988996e-06,
	"loss": 0.3554,
	"step": 29900
	},
	{
	"epoch": 1.7985462753475097,
	"eval_loss": 0.3245343267917633,
	"eval_runtime": 51.1337,
	"eval_samples_per_second": 195.566,
	"eval_steps_per_second": 24.446,
	"step": 29900
	},
	{
	"epoch": 1.8045614802817824,
	"grad_norm": 0.9708550572395325,
	"learning_rate": 5.701900633544515e-06,
	"loss": 0.3576,
	"step": 30000
	},
	{
	"epoch": 1.8045614802817824,
	"eval_loss": 0.3180968761444092,
	"eval_runtime": 51.0446,
	"eval_samples_per_second": 195.907,
	"eval_steps_per_second": 24.488,
	"step": 30000
	},
	{
	"epoch": 1.8105766852160547,
	"grad_norm": 0.9034538865089417,
	"learning_rate": 5.7009003001000335e-06,
	"loss": 0.3537,
	"step": 30100
	},
	{
	"epoch": 1.8105766852160547,
	"eval_loss": 0.3229399621486664,
	"eval_runtime": 51.0689,
	"eval_samples_per_second": 195.814,
	"eval_steps_per_second": 24.477,
	"step": 30100
	},
	{
	"epoch": 1.8165918901503275,
	"grad_norm": 1.0373872518539429,
	"learning_rate": 5.699899966655552e-06,
	"loss": 0.356,
	"step": 30200
	},
	{
	"epoch": 1.8165918901503275,
	"eval_loss": 0.3164275288581848,
	"eval_runtime": 51.4888,
	"eval_samples_per_second": 194.217,
	"eval_steps_per_second": 24.277,
	"step": 30200
	},
	{
	"epoch": 1.8226070950846,
	"grad_norm": 1.073961615562439,
	"learning_rate": 5.698899633211071e-06,
	"loss": 0.3574,
	"step": 30300
	},
	{
	"epoch": 1.8226070950846,
	"eval_loss": 0.3165951669216156,
	"eval_runtime": 51.0637,
	"eval_samples_per_second": 195.834,
	"eval_steps_per_second": 24.479,
	"step": 30300
	},
	{
	"epoch": 1.8286223000188726,
	"grad_norm": 0.9891506433486938,
	"learning_rate": 5.697899299766589e-06,
	"loss": 0.3548,
	"step": 30400
	},
	{
	"epoch": 1.8286223000188726,
	"eval_loss": 0.3134399354457855,
	"eval_runtime": 51.2735,
	"eval_samples_per_second": 195.032,
	"eval_steps_per_second": 24.379,
	"step": 30400
	},
	{
	"epoch": 1.8346375049531454,
	"grad_norm": 0.9468514919281006,
	"learning_rate": 5.6968989663221075e-06,
	"loss": 0.3534,
	"step": 30500
	},
	{
	"epoch": 1.8346375049531454,
	"eval_loss": 0.3175615966320038,
	"eval_runtime": 51.0054,
	"eval_samples_per_second": 196.058,
	"eval_steps_per_second": 24.507,
	"step": 30500
	},
	{
	"epoch": 1.840652709887418,
	"grad_norm": 1.0942094326019287,
	"learning_rate": 5.695898632877625e-06,
	"loss": 0.3551,
	"step": 30600
	},
	{
	"epoch": 1.840652709887418,
	"eval_loss": 0.31934764981269836,
	"eval_runtime": 50.744,
	"eval_samples_per_second": 197.068,
	"eval_steps_per_second": 24.633,
	"step": 30600
	},
	{
	"epoch": 1.8466679148216905,
	"grad_norm": 1.0087659358978271,
	"learning_rate": 5.694898299433144e-06,
	"loss": 0.3534,
	"step": 30700
	},
	{
	"epoch": 1.8466679148216905,
	"eval_loss": 0.3216070532798767,
	"eval_runtime": 51.2443,
	"eval_samples_per_second": 195.144,
	"eval_steps_per_second": 24.393,
	"step": 30700
	},
	{
	"epoch": 1.8526831197559632,
	"grad_norm": 0.973987340927124,
	"learning_rate": 5.693897965988664e-06,
	"loss": 0.3551,
	"step": 30800
	},
	{
	"epoch": 1.8526831197559632,
	"eval_loss": 0.3222227990627289,
	"eval_runtime": 51.317,
	"eval_samples_per_second": 194.867,
	"eval_steps_per_second": 24.358,
	"step": 30800
	},
	{
	"epoch": 1.8586983246902358,
	"grad_norm": 1.0220999717712402,
	"learning_rate": 5.6928976325441814e-06,
	"loss": 0.3512,
	"step": 30900
	},
	{
	"epoch": 1.8586983246902358,
	"eval_loss": 0.3149110972881317,
	"eval_runtime": 50.9851,
	"eval_samples_per_second": 196.136,
	"eval_steps_per_second": 24.517,
	"step": 30900
	},
	{
	"epoch": 1.8647135296245083,
	"grad_norm": 0.9891929626464844,
	"learning_rate": 5.6918972990997e-06,
	"loss": 0.3494,
	"step": 31000
	},
	{
	"epoch": 1.8647135296245083,
	"eval_loss": 0.3158430755138397,
	"eval_runtime": 51.0404,
	"eval_samples_per_second": 195.923,
	"eval_steps_per_second": 24.49,
	"step": 31000
	},
	{
	"epoch": 1.870728734558781,
	"grad_norm": 1.0088871717453003,
	"learning_rate": 5.690896965655219e-06,
	"loss": 0.3554,
	"step": 31100
	},
	{
	"epoch": 1.870728734558781,
	"eval_loss": 0.3154695928096771,
	"eval_runtime": 51.3526,
	"eval_samples_per_second": 194.732,
	"eval_steps_per_second": 24.342,
	"step": 31100
	},
	{
	"epoch": 1.8767439394930534,
	"grad_norm": 1.050904393196106,
	"learning_rate": 5.689896632210737e-06,
	"loss": 0.348,
	"step": 31200
	},
	{
	"epoch": 1.8767439394930534,
	"eval_loss": 0.3176015019416809,
	"eval_runtime": 50.968,
	"eval_samples_per_second": 196.202,
	"eval_steps_per_second": 24.525,
	"step": 31200
	},
	{
	"epoch": 1.8827591444273262,
	"grad_norm": 0.9467193484306335,
	"learning_rate": 5.688896298766255e-06,
	"loss": 0.3495,
	"step": 31300
	},
	{
	"epoch": 1.8827591444273262,
	"eval_loss": 0.31329813599586487,
	"eval_runtime": 51.0441,
	"eval_samples_per_second": 195.909,
	"eval_steps_per_second": 24.489,
	"step": 31300
	},
	{
	"epoch": 1.888774349361599,
	"grad_norm": 0.9775587916374207,
	"learning_rate": 5.687895965321774e-06,
	"loss": 0.348,
	"step": 31400
	},
	{
	"epoch": 1.888774349361599,
	"eval_loss": 0.3119243383407593,
	"eval_runtime": 51.4209,
	"eval_samples_per_second": 194.474,
	"eval_steps_per_second": 24.309,
	"step": 31400
	},
	{
	"epoch": 1.8947895542958713,
	"grad_norm": 0.9961014986038208,
	"learning_rate": 5.686895631877293e-06,
	"loss": 0.3481,
	"step": 31500
	},
	{
	"epoch": 1.8947895542958713,
	"eval_loss": 0.3146650791168213,
	"eval_runtime": 51.0401,
	"eval_samples_per_second": 195.924,
	"eval_steps_per_second": 24.491,
	"step": 31500
	},
	{
	"epoch": 1.900804759230144,
	"grad_norm": 0.9647944569587708,
	"learning_rate": 5.6858952984328115e-06,
	"loss": 0.3485,
	"step": 31600
	},
	{
	"epoch": 1.900804759230144,
	"eval_loss": 0.3082703948020935,
	"eval_runtime": 51.0736,
	"eval_samples_per_second": 195.796,
	"eval_steps_per_second": 24.474,
	"step": 31600
	},
	{
	"epoch": 1.9068199641644166,
	"grad_norm": 0.977745532989502,
	"learning_rate": 5.684894964988329e-06,
	"loss": 0.346,
	"step": 31700
	},
	{
	"epoch": 1.9068199641644166,
	"eval_loss": 0.31021973490715027,
	"eval_runtime": 51.3893,
	"eval_samples_per_second": 194.593,
	"eval_steps_per_second": 24.324,
	"step": 31700
	},
	{
	"epoch": 1.9128351690986891,
	"grad_norm": 1.007712960243225,
	"learning_rate": 5.683894631543848e-06,
	"loss": 0.3439,
	"step": 31800
	},
	{
	"epoch": 1.9128351690986891,
	"eval_loss": 0.3149736225605011,
	"eval_runtime": 50.9919,
	"eval_samples_per_second": 196.109,
	"eval_steps_per_second": 24.514,
	"step": 31800
	},
	{
	"epoch": 1.9188503740329619,
	"grad_norm": 0.9901500940322876,
	"learning_rate": 5.682894298099367e-06,
	"loss": 0.3465,
	"step": 31900
	},
	{
	"epoch": 1.9188503740329619,
	"eval_loss": 0.3099238872528076,
	"eval_runtime": 49.9711,
	"eval_samples_per_second": 200.116,
	"eval_steps_per_second": 25.014,
	"step": 31900
	},
	{
	"epoch": 1.9248655789672344,
	"grad_norm": 1.0771408081054688,
	"learning_rate": 5.681893964654885e-06,
	"loss": 0.3469,
	"step": 32000
	},
	{
	"epoch": 1.9248655789672344,
	"eval_loss": 0.3117373585700989,
	"eval_runtime": 51.3413,
	"eval_samples_per_second": 194.775,
	"eval_steps_per_second": 24.347,
	"step": 32000
	},
	{
	"epoch": 1.930880783901507,
	"grad_norm": 0.9278393983840942,
	"learning_rate": 5.680893631210403e-06,
	"loss": 0.3449,
	"step": 32100
	},
	{
	"epoch": 1.930880783901507,
	"eval_loss": 0.3087506890296936,
	"eval_runtime": 50.9985,
	"eval_samples_per_second": 196.084,
	"eval_steps_per_second": 24.511,
	"step": 32100
	},
	{
	"epoch": 1.9368959888357797,
	"grad_norm": 0.9451966285705566,
	"learning_rate": 5.679893297765922e-06,
	"loss": 0.3481,
	"step": 32200
	},
	{
	"epoch": 1.9368959888357797,
	"eval_loss": 0.30677124857902527,
	"eval_runtime": 51.0702,
	"eval_samples_per_second": 195.809,
	"eval_steps_per_second": 24.476,
	"step": 32200
	},
	{
	"epoch": 1.9429111937700523,
	"grad_norm": 1.0483254194259644,
	"learning_rate": 5.678892964321441e-06,
	"loss": 0.3445,
	"step": 32300
	},
	{
	"epoch": 1.9429111937700523,
	"eval_loss": 0.30840355157852173,
	"eval_runtime": 51.0518,
	"eval_samples_per_second": 195.879,
	"eval_steps_per_second": 24.485,
	"step": 32300
	},
	{
	"epoch": 1.9489263987043248,
	"grad_norm": 1.0422637462615967,
	"learning_rate": 5.6778926308769595e-06,
	"loss": 0.3441,
	"step": 32400
	},
	{
	"epoch": 1.9489263987043248,
	"eval_loss": 0.3115750849246979,
	"eval_runtime": 51.1153,
	"eval_samples_per_second": 195.636,
	"eval_steps_per_second": 24.455,
	"step": 32400
	},
	{
	"epoch": 1.9549416036385976,
	"grad_norm": 0.9909389019012451,
	"learning_rate": 5.676892297432478e-06,
	"loss": 0.344,
	"step": 32500
	},
	{
	"epoch": 1.9549416036385976,
	"eval_loss": 0.30596745014190674,
	"eval_runtime": 51.3225,
	"eval_samples_per_second": 194.846,
	"eval_steps_per_second": 24.356,
	"step": 32500
	},
	{
	"epoch": 1.96095680857287,
	"grad_norm": 0.9379361271858215,
	"learning_rate": 5.675891963987996e-06,
	"loss": 0.3451,
	"step": 32600
	},
	{
	"epoch": 1.96095680857287,
	"eval_loss": 0.3045947253704071,
	"eval_runtime": 48.1799,
	"eval_samples_per_second": 207.555,
	"eval_steps_per_second": 25.944,
	"step": 32600
	},
	{
	"epoch": 1.9669720135071427,
	"grad_norm": 0.9916946887969971,
	"learning_rate": 5.674891630543515e-06,
	"loss": 0.3435,
	"step": 32700
	},
	{
	"epoch": 1.9669720135071427,
	"eval_loss": 0.3098689019680023,
	"eval_runtime": 51.0219,
	"eval_samples_per_second": 195.994,
	"eval_steps_per_second": 24.499,
	"step": 32700
	},
	{
	"epoch": 1.9729872184414154,
	"grad_norm": 1.0491201877593994,
	"learning_rate": 5.673891297099033e-06,
	"loss": 0.3451,
	"step": 32800
	},
	{
	"epoch": 1.9729872184414154,
	"eval_loss": 0.307062566280365,
	"eval_runtime": 51.2447,
	"eval_samples_per_second": 195.142,
	"eval_steps_per_second": 24.393,
	"step": 32800
	},
	{
	"epoch": 1.9790024233756878,
	"grad_norm": 1.0011417865753174,
	"learning_rate": 5.672890963654551e-06,
	"loss": 0.3438,
	"step": 32900
	},
	{
	"epoch": 1.9790024233756878,
	"eval_loss": 0.30759868025779724,
	"eval_runtime": 51.2551,
	"eval_samples_per_second": 195.103,
	"eval_steps_per_second": 24.388,
	"step": 32900
	},
	{
	"epoch": 1.9850176283099605,
	"grad_norm": 0.997515082359314,
	"learning_rate": 5.67189063021007e-06,
	"loss": 0.3401,
	"step": 33000
	},
	{
	"epoch": 1.9850176283099605,
	"eval_loss": 0.30724722146987915,
	"eval_runtime": 51.0456,
	"eval_samples_per_second": 195.903,
	"eval_steps_per_second": 24.488,
	"step": 33000
	},
	{
	"epoch": 1.991032833244233,
	"grad_norm": 1.00389564037323,
	"learning_rate": 5.670890296765589e-06,
	"loss": 0.3435,
	"step": 33100
	},
	{
	"epoch": 1.991032833244233,
	"eval_loss": 0.30223432183265686,
	"eval_runtime": 51.0634,
	"eval_samples_per_second": 195.835,
	"eval_steps_per_second": 24.479,
	"step": 33100
	},
	{
	"epoch": 1.9970480381785056,
	"grad_norm": 1.0292458534240723,
	"learning_rate": 5.6698899633211075e-06,
	"loss": 0.342,
	"step": 33200
	},
	{
	"epoch": 1.9970480381785056,
	"eval_loss": 0.3018937110900879,
	"eval_runtime": 51.3884,
	"eval_samples_per_second": 194.597,
	"eval_steps_per_second": 24.325,
	"step": 33200
	},
	{
	"epoch": 2.0030632431127784,
	"grad_norm": 0.9542250037193298,
	"learning_rate": 5.668889629876626e-06,
	"loss": 0.3437,
	"step": 33300
	},
	{
	"epoch": 2.0030632431127784,
	"eval_loss": 0.3050287961959839,
	"eval_runtime": 48.1087,
	"eval_samples_per_second": 207.863,
	"eval_steps_per_second": 25.983,
	"step": 33300
	},
	{
	"epoch": 2.0090784480470507,
	"grad_norm": 0.9858297109603882,
	"learning_rate": 5.667889296432144e-06,
	"loss": 0.3376,
	"step": 33400
	},
	{
	"epoch": 2.0090784480470507,
	"eval_loss": 0.3004157543182373,
	"eval_runtime": 50.8704,
	"eval_samples_per_second": 196.578,
	"eval_steps_per_second": 24.572,
	"step": 33400
	},
	{
	"epoch": 2.0150936529813235,
	"grad_norm": 0.9825339317321777,
	"learning_rate": 5.666888962987663e-06,
	"loss": 0.3387,
	"step": 33500
	},
	{
	"epoch": 2.0150936529813235,
	"eval_loss": 0.3035270869731903,
	"eval_runtime": 51.1972,
	"eval_samples_per_second": 195.323,
	"eval_steps_per_second": 24.415,
	"step": 33500
	},
	{
	"epoch": 2.0211088579155962,
	"grad_norm": 0.9198622703552246,
	"learning_rate": 5.665888629543181e-06,
	"loss": 0.336,
	"step": 33600
	},
	{
	"epoch": 2.0211088579155962,
	"eval_loss": 0.30675825476646423,
	"eval_runtime": 50.9963,
	"eval_samples_per_second": 196.093,
	"eval_steps_per_second": 24.512,
	"step": 33600
	},
	{
	"epoch": 2.0271240628498686,
	"grad_norm": 0.9473734498023987,
	"learning_rate": 5.664888296098699e-06,
	"loss": 0.336,
	"step": 33700
	},
	{
	"epoch": 2.0271240628498686,
	"eval_loss": 0.3050824701786041,
	"eval_runtime": 51.1058,
	"eval_samples_per_second": 195.673,
	"eval_steps_per_second": 24.459,
	"step": 33700
	},
	{
	"epoch": 2.0331392677841413,
	"grad_norm": 0.9824632406234741,
	"learning_rate": 5.663887962654218e-06,
	"loss": 0.3366,
	"step": 33800
	},
	{
	"epoch": 2.0331392677841413,
	"eval_loss": 0.3059363067150116,
	"eval_runtime": 51.3136,
	"eval_samples_per_second": 194.88,
	"eval_steps_per_second": 24.36,
	"step": 33800
	},
	{
	"epoch": 2.039154472718414,
	"grad_norm": 0.8891803622245789,
	"learning_rate": 5.662887629209737e-06,
	"loss": 0.3373,
	"step": 33900
	},
	{
	"epoch": 2.039154472718414,
	"eval_loss": 0.2996893525123596,
	"eval_runtime": 51.0027,
	"eval_samples_per_second": 196.068,
	"eval_steps_per_second": 24.509,
	"step": 33900
	},
	{
	"epoch": 2.0451696776526864,
	"grad_norm": 1.0512337684631348,
	"learning_rate": 5.6618872957652554e-06,
	"loss": 0.3367,
	"step": 34000
	},
	{
	"epoch": 2.0451696776526864,
	"eval_loss": 0.3059813976287842,
	"eval_runtime": 48.247,
	"eval_samples_per_second": 207.267,
	"eval_steps_per_second": 25.908,
	"step": 34000
	},
	{
	"epoch": 2.051184882586959,
	"grad_norm": 0.9054902791976929,
	"learning_rate": 5.660886962320774e-06,
	"loss": 0.3371,
	"step": 34100
	},
	{
	"epoch": 2.051184882586959,
	"eval_loss": 0.3016323745250702,
	"eval_runtime": 51.1014,
	"eval_samples_per_second": 195.69,
	"eval_steps_per_second": 24.461,
	"step": 34100
	},
	{
	"epoch": 2.057200087521232,
	"grad_norm": 0.9262953400611877,
	"learning_rate": 5.659886628876292e-06,
	"loss": 0.3367,
	"step": 34200
	},
	{
	"epoch": 2.057200087521232,
	"eval_loss": 0.29450055956840515,
	"eval_runtime": 51.0335,
	"eval_samples_per_second": 195.95,
	"eval_steps_per_second": 24.494,
	"step": 34200
	},
	{
	"epoch": 2.0632152924555043,
	"grad_norm": 0.9734236001968384,
	"learning_rate": 5.658886295431811e-06,
	"loss": 0.3343,
	"step": 34300
	},
	{
	"epoch": 2.0632152924555043,
	"eval_loss": 0.3005402684211731,
	"eval_runtime": 51.0508,
	"eval_samples_per_second": 195.883,
	"eval_steps_per_second": 24.485,
	"step": 34300
	},
	{
	"epoch": 2.069230497389777,
	"grad_norm": 1.0002549886703491,
	"learning_rate": 5.657885961987329e-06,
	"loss": 0.3322,
	"step": 34400
	},
	{
	"epoch": 2.069230497389777,
	"eval_loss": 0.2977810204029083,
	"eval_runtime": 51.3717,
	"eval_samples_per_second": 194.66,
	"eval_steps_per_second": 24.332,
	"step": 34400
	},
	{
	"epoch": 2.07524570232405,
	"grad_norm": 1.0582560300827026,
	"learning_rate": 5.656885628542847e-06,
	"loss": 0.3335,
	"step": 34500
	},
	{
	"epoch": 2.07524570232405,
	"eval_loss": 0.30631959438323975,
	"eval_runtime": 51.4392,
	"eval_samples_per_second": 194.404,
	"eval_steps_per_second": 24.301,
	"step": 34500
	},
	{
	"epoch": 2.081260907258322,
	"grad_norm": 0.9257709383964539,
	"learning_rate": 5.655885295098366e-06,
	"loss": 0.3348,
	"step": 34600
	},
	{
	"epoch": 2.081260907258322,
	"eval_loss": 0.296891450881958,
	"eval_runtime": 51.1063,
	"eval_samples_per_second": 195.671,
	"eval_steps_per_second": 24.459,
	"step": 34600
	},
	{
	"epoch": 2.087276112192595,
	"grad_norm": 0.9784733653068542,
	"learning_rate": 5.654884961653885e-06,
	"loss": 0.3351,
	"step": 34700
	},
	{
	"epoch": 2.087276112192595,
	"eval_loss": 0.30041709542274475,
	"eval_runtime": 36.3799,
	"eval_samples_per_second": 274.877,
	"eval_steps_per_second": 34.36,
	"step": 34700
	},
	{
	"epoch": 2.0932913171268677,
	"grad_norm": 0.9119441509246826,
	"learning_rate": 5.653884628209403e-06,
	"loss": 0.3331,
	"step": 34800
	},
	{
	"epoch": 2.0932913171268677,
	"eval_loss": 0.2985159754753113,
	"eval_runtime": 51.0698,
	"eval_samples_per_second": 195.811,
	"eval_steps_per_second": 24.476,
	"step": 34800
	},
	{
	"epoch": 2.09930652206114,
	"grad_norm": 0.8888152837753296,
	"learning_rate": 5.652884294764922e-06,
	"loss": 0.3329,
	"step": 34900
	},
	{
	"epoch": 2.09930652206114,
	"eval_loss": 0.2997465431690216,
	"eval_runtime": 51.2789,
	"eval_samples_per_second": 195.012,
	"eval_steps_per_second": 24.377,
	"step": 34900
	},
	{
	"epoch": 2.1053217269954128,
	"grad_norm": 0.9288111329078674,
	"learning_rate": 5.65188396132044e-06,
	"loss": 0.3293,
	"step": 35000
	},
	{
	"epoch": 2.1053217269954128,
	"eval_loss": 0.30220091342926025,
	"eval_runtime": 51.0672,
	"eval_samples_per_second": 195.82,
	"eval_steps_per_second": 24.478,
	"step": 35000
	},
	{
	"epoch": 2.111336931929685,
	"grad_norm": 0.9979832172393799,
	"learning_rate": 5.650883627875959e-06,
	"loss": 0.3335,
	"step": 35100
	},
	{
	"epoch": 2.111336931929685,
	"eval_loss": 0.2983012795448303,
	"eval_runtime": 51.1125,
	"eval_samples_per_second": 195.647,
	"eval_steps_per_second": 24.456,
	"step": 35100
	},
	{
	"epoch": 2.117352136863958,
	"grad_norm": 0.9908544421195984,
	"learning_rate": 5.649883294431477e-06,
	"loss": 0.3308,
	"step": 35200
	},
	{
	"epoch": 2.117352136863958,
	"eval_loss": 0.294648677110672,
	"eval_runtime": 51.0363,
	"eval_samples_per_second": 195.939,
	"eval_steps_per_second": 24.492,
	"step": 35200
	},
	{
	"epoch": 2.1233673417982306,
	"grad_norm": 0.9367330074310303,
	"learning_rate": 5.648882960986995e-06,
	"loss": 0.3308,
	"step": 35300
	},
	{
	"epoch": 2.1233673417982306,
	"eval_loss": 0.2953595817089081,
	"eval_runtime": 51.3129,
	"eval_samples_per_second": 194.883,
	"eval_steps_per_second": 24.36,
	"step": 35300
	},
	{
	"epoch": 2.129382546732503,
	"grad_norm": 0.923230767250061,
	"learning_rate": 5.647882627542515e-06,
	"loss": 0.3305,
	"step": 35400
	},
	{
	"epoch": 2.129382546732503,
	"eval_loss": 0.2954292893409729,
	"eval_runtime": 51.1146,
	"eval_samples_per_second": 195.639,
	"eval_steps_per_second": 24.455,
	"step": 35400
	},
	{
	"epoch": 2.1353977516667757,
	"grad_norm": 0.9737799167633057,
	"learning_rate": 5.6468822940980335e-06,
	"loss": 0.3321,
	"step": 35500
	},
	{
	"epoch": 2.1353977516667757,
	"eval_loss": 0.2911643981933594,
	"eval_runtime": 51.5291,
	"eval_samples_per_second": 194.065,
	"eval_steps_per_second": 24.258,
	"step": 35500
	},
	{
	"epoch": 2.1414129566010485,
	"grad_norm": 0.957861602306366,
	"learning_rate": 5.645881960653551e-06,
	"loss": 0.3304,
	"step": 35600
	},
	{
	"epoch": 2.1414129566010485,
	"eval_loss": 0.29846978187561035,
	"eval_runtime": 50.954,
	"eval_samples_per_second": 196.255,
	"eval_steps_per_second": 24.532,
	"step": 35600
	},
	{
	"epoch": 2.147428161535321,
	"grad_norm": 0.9183242321014404,
	"learning_rate": 5.64488162720907e-06,
	"loss": 0.3271,
	"step": 35700
	},
	{
	"epoch": 2.147428161535321,
	"eval_loss": 0.2944715619087219,
	"eval_runtime": 51.2205,
	"eval_samples_per_second": 195.234,
	"eval_steps_per_second": 24.404,
	"step": 35700
	},
	{
	"epoch": 2.1534433664695936,
	"grad_norm": 0.9701703190803528,
	"learning_rate": 5.643881293764588e-06,
	"loss": 0.3293,
	"step": 35800
	},
	{
	"epoch": 2.1534433664695936,
	"eval_loss": 0.29417359828948975,
	"eval_runtime": 51.0579,
	"eval_samples_per_second": 195.856,
	"eval_steps_per_second": 24.482,
	"step": 35800
	},
	{
	"epoch": 2.1594585714038663,
	"grad_norm": 0.992079496383667,
	"learning_rate": 5.642880960320107e-06,
	"loss": 0.3263,
	"step": 35900
	},
	{
	"epoch": 2.1594585714038663,
	"eval_loss": 0.29444122314453125,
	"eval_runtime": 51.0557,
	"eval_samples_per_second": 195.864,
	"eval_steps_per_second": 24.483,
	"step": 35900
	},
	{
	"epoch": 2.1654737763381386,
	"grad_norm": 0.9776268005371094,
	"learning_rate": 5.641880626875625e-06,
	"loss": 0.3266,
	"step": 36000
	},
	{
	"epoch": 2.1654737763381386,
	"eval_loss": 0.29786214232444763,
	"eval_runtime": 44.4576,
	"eval_samples_per_second": 224.934,
	"eval_steps_per_second": 28.117,
	"step": 36000
	},
	{
	"epoch": 2.1714889812724114,
	"grad_norm": 1.0352015495300293,
	"learning_rate": 5.640880293431144e-06,
	"loss": 0.3279,
	"step": 36100
	},
	{
	"epoch": 2.1714889812724114,
	"eval_loss": 0.2935112416744232,
	"eval_runtime": 51.0332,
	"eval_samples_per_second": 195.951,
	"eval_steps_per_second": 24.494,
	"step": 36100
	},
	{
	"epoch": 2.1775041862066837,
	"grad_norm": 0.9267537593841553,
	"learning_rate": 5.639879959986663e-06,
	"loss": 0.3252,
	"step": 36200
	},
	{
	"epoch": 2.1775041862066837,
	"eval_loss": 0.2946629822254181,
	"eval_runtime": 51.0517,
	"eval_samples_per_second": 195.88,
	"eval_steps_per_second": 24.485,
	"step": 36200
	},
	{
	"epoch": 2.1835193911409565,
	"grad_norm": 0.8838132619857788,
	"learning_rate": 5.6388796265421815e-06,
	"loss": 0.3273,
	"step": 36300
	},
	{
	"epoch": 2.1835193911409565,
	"eval_loss": 0.28932899236679077,
	"eval_runtime": 50.4286,
	"eval_samples_per_second": 198.3,
	"eval_steps_per_second": 24.788,
	"step": 36300
	},
	{
	"epoch": 2.1895345960752293,
	"grad_norm": 0.9279465079307556,
	"learning_rate": 5.637879293097699e-06,
	"loss": 0.3282,
	"step": 36400
	},
	{
	"epoch": 2.1895345960752293,
	"eval_loss": 0.2960895895957947,
	"eval_runtime": 51.1104,
	"eval_samples_per_second": 195.655,
	"eval_steps_per_second": 24.457,
	"step": 36400
	},
	{
	"epoch": 2.1955498010095016,
	"grad_norm": 1.0713165998458862,
	"learning_rate": 5.636878959653218e-06,
	"loss": 0.3269,
	"step": 36500
	},
	{
	"epoch": 2.1955498010095016,
	"eval_loss": 0.29087430238723755,
	"eval_runtime": 51.0616,
	"eval_samples_per_second": 195.842,
	"eval_steps_per_second": 24.48,
	"step": 36500
	},
	{
	"epoch": 2.2015650059437744,
	"grad_norm": 0.966033935546875,
	"learning_rate": 5.635878626208736e-06,
	"loss": 0.3258,
	"step": 36600
	},
	{
	"epoch": 2.2015650059437744,
	"eval_loss": 0.2945682108402252,
	"eval_runtime": 51.2162,
	"eval_samples_per_second": 195.251,
	"eval_steps_per_second": 24.406,
	"step": 36600
	},
	{
	"epoch": 2.207580210878047,
	"grad_norm": 1.0510607957839966,
	"learning_rate": 5.634878292764255e-06,
	"loss": 0.3239,
	"step": 36700
	},
	{
	"epoch": 2.207580210878047,
	"eval_loss": 0.29083874821662903,
	"eval_runtime": 51.0865,
	"eval_samples_per_second": 195.746,
	"eval_steps_per_second": 24.468,
	"step": 36700
	},
	{
	"epoch": 2.2135954158123194,
	"grad_norm": 0.9516984224319458,
	"learning_rate": 5.633877959319773e-06,
	"loss": 0.3242,
	"step": 36800
	},
	{
	"epoch": 2.2135954158123194,
	"eval_loss": 0.287597119808197,
	"eval_runtime": 51.2859,
	"eval_samples_per_second": 194.985,
	"eval_steps_per_second": 24.373,
	"step": 36800
	},
	{
	"epoch": 2.219610620746592,
	"grad_norm": 0.9704160094261169,
	"learning_rate": 5.632877625875292e-06,
	"loss": 0.3229,
	"step": 36900
	},
	{
	"epoch": 2.219610620746592,
	"eval_loss": 0.28357696533203125,
	"eval_runtime": 51.0184,
	"eval_samples_per_second": 196.008,
	"eval_steps_per_second": 24.501,
	"step": 36900
	},
	{
	"epoch": 2.225625825680865,
	"grad_norm": 0.9318411350250244,
	"learning_rate": 5.631877292430811e-06,
	"loss": 0.3244,
	"step": 37000
	},
	{
	"epoch": 2.225625825680865,
	"eval_loss": 0.2926484942436218,
	"eval_runtime": 51.0515,
	"eval_samples_per_second": 195.88,
	"eval_steps_per_second": 24.485,
	"step": 37000
	},
	{
	"epoch": 2.2316410306151373,
	"grad_norm": 0.9745403528213501,
	"learning_rate": 5.6308769589863294e-06,
	"loss": 0.3238,
	"step": 37100
	},
	{
	"epoch": 2.2316410306151373,
	"eval_loss": 0.29221734404563904,
	"eval_runtime": 51.0519,
	"eval_samples_per_second": 195.879,
	"eval_steps_per_second": 24.485,
	"step": 37100
	},
	{
	"epoch": 2.23765623554941,
	"grad_norm": 1.0162553787231445,
	"learning_rate": 5.629876625541847e-06,
	"loss": 0.3209,
	"step": 37200
	},
	{
	"epoch": 2.23765623554941,
	"eval_loss": 0.2900753319263458,
	"eval_runtime": 51.0188,
	"eval_samples_per_second": 196.006,
	"eval_steps_per_second": 24.501,
	"step": 37200
	},
	{
	"epoch": 2.243671440483683,
	"grad_norm": 0.9270024299621582,
	"learning_rate": 5.628876292097366e-06,
	"loss": 0.3218,
	"step": 37300
	},
	{
	"epoch": 2.243671440483683,
	"eval_loss": 0.29185083508491516,
	"eval_runtime": 49.1324,
	"eval_samples_per_second": 203.532,
	"eval_steps_per_second": 25.441,
	"step": 37300
	},
	{
	"epoch": 2.249686645417955,
	"grad_norm": 1.0156973600387573,
	"learning_rate": 5.627875958652885e-06,
	"loss": 0.3221,
	"step": 37400
	},
	{
	"epoch": 2.249686645417955,
	"eval_loss": 0.2883216440677643,
	"eval_runtime": 51.0198,
	"eval_samples_per_second": 196.002,
	"eval_steps_per_second": 24.5,
	"step": 37400
	},
	{
	"epoch": 2.255701850352228,
	"grad_norm": 0.884667694568634,
	"learning_rate": 5.6268756252084026e-06,
	"loss": 0.3231,
	"step": 37500
	},
	{
	"epoch": 2.255701850352228,
	"eval_loss": 0.2843243181705475,
	"eval_runtime": 51.199,
	"eval_samples_per_second": 195.316,
	"eval_steps_per_second": 24.415,
	"step": 37500
	},
	{
	"epoch": 2.2617170552865007,
	"grad_norm": 1.0025333166122437,
	"learning_rate": 5.625875291763921e-06,
	"loss": 0.32,
	"step": 37600
	},
	{
	"epoch": 2.2617170552865007,
	"eval_loss": 0.28985723853111267,
	"eval_runtime": 51.0474,
	"eval_samples_per_second": 195.896,
	"eval_steps_per_second": 24.487,
	"step": 37600
	},
	{
	"epoch": 2.267732260220773,
	"grad_norm": 0.9673831462860107,
	"learning_rate": 5.62487495831944e-06,
	"loss": 0.322,
	"step": 37700
	},
	{
	"epoch": 2.267732260220773,
	"eval_loss": 0.2844723165035248,
	"eval_runtime": 51.066,
	"eval_samples_per_second": 195.825,
	"eval_steps_per_second": 24.478,
	"step": 37700
	},
	{
	"epoch": 2.2737474651550458,
	"grad_norm": 0.9513309597969055,
	"learning_rate": 5.623874624874959e-06,
	"loss": 0.3202,
	"step": 37800
	},
	{
	"epoch": 2.2737474651550458,
	"eval_loss": 0.28764039278030396,
	"eval_runtime": 51.061,
	"eval_samples_per_second": 195.844,
	"eval_steps_per_second": 24.481,
	"step": 37800
	},
	{
	"epoch": 2.279762670089318,
	"grad_norm": 0.9131941795349121,
	"learning_rate": 5.622874291430477e-06,
	"loss": 0.3226,
	"step": 37900
	},
	{
	"epoch": 2.279762670089318,
	"eval_loss": 0.28673484921455383,
	"eval_runtime": 51.0581,
	"eval_samples_per_second": 195.855,
	"eval_steps_per_second": 24.482,
	"step": 37900
	},
	{
	"epoch": 2.285777875023591,
	"grad_norm": 0.9458931684494019,
	"learning_rate": 5.621873957985995e-06,
	"loss": 0.3206,
	"step": 38000
	},
	{
	"epoch": 2.285777875023591,
	"eval_loss": 0.2862774133682251,
	"eval_runtime": 36.7081,
	"eval_samples_per_second": 272.419,
	"eval_steps_per_second": 34.052,
	"step": 38000
	},
	{
	"epoch": 2.2917930799578636,
	"grad_norm": 0.997297465801239,
	"learning_rate": 5.620873624541514e-06,
	"loss": 0.3191,
	"step": 38100
	},
	{
	"epoch": 2.2917930799578636,
	"eval_loss": 0.2823648750782013,
	"eval_runtime": 51.0962,
	"eval_samples_per_second": 195.709,
	"eval_steps_per_second": 24.464,
	"step": 38100
	},
	{
	"epoch": 2.297808284892136,
	"grad_norm": 0.9200996160507202,
	"learning_rate": 5.619873291097033e-06,
	"loss": 0.3187,
	"step": 38200
	},
	{
	"epoch": 2.297808284892136,
	"eval_loss": 0.2872503995895386,
	"eval_runtime": 51.0809,
	"eval_samples_per_second": 195.768,
	"eval_steps_per_second": 24.471,
	"step": 38200
	},
	{
	"epoch": 2.3038234898264087,
	"grad_norm": 0.9441711902618408,
	"learning_rate": 5.6188729576525505e-06,
	"loss": 0.3209,
	"step": 38300
	},
	{
	"epoch": 2.3038234898264087,
	"eval_loss": 0.28855210542678833,
	"eval_runtime": 51.0269,
	"eval_samples_per_second": 195.975,
	"eval_steps_per_second": 24.497,
	"step": 38300
	},
	{
	"epoch": 2.3098386947606815,
	"grad_norm": 1.0377998352050781,
	"learning_rate": 5.617872624208069e-06,
	"loss": 0.3189,
	"step": 38400
	},
	{
	"epoch": 2.3098386947606815,
	"eval_loss": 0.2817797362804413,
	"eval_runtime": 51.0556,
	"eval_samples_per_second": 195.865,
	"eval_steps_per_second": 24.483,
	"step": 38400
	},
	{
	"epoch": 2.315853899694954,
	"grad_norm": 0.9088771939277649,
	"learning_rate": 5.616872290763588e-06,
	"loss": 0.3183,
	"step": 38500
	},
	{
	"epoch": 2.315853899694954,
	"eval_loss": 0.28079554438591003,
	"eval_runtime": 51.0907,
	"eval_samples_per_second": 195.73,
	"eval_steps_per_second": 24.466,
	"step": 38500
	},
	{
	"epoch": 2.3218691046292266,
	"grad_norm": 0.8959800004959106,
	"learning_rate": 5.615871957319107e-06,
	"loss": 0.3174,
	"step": 38600
	},
	{
	"epoch": 2.3218691046292266,
	"eval_loss": 0.28803524374961853,
	"eval_runtime": 50.9133,
	"eval_samples_per_second": 196.412,
	"eval_steps_per_second": 24.552,
	"step": 38600
	},
	{
	"epoch": 2.3278843095634993,
	"grad_norm": 0.9056723713874817,
	"learning_rate": 5.614871623874625e-06,
	"loss": 0.3167,
	"step": 38700
	},
	{
	"epoch": 2.3278843095634993,
	"eval_loss": 0.2826622426509857,
	"eval_runtime": 50.7905,
	"eval_samples_per_second": 196.887,
	"eval_steps_per_second": 24.611,
	"step": 38700
	},
	{
	"epoch": 2.3338995144977717,
	"grad_norm": 0.9248780608177185,
	"learning_rate": 5.613871290430143e-06,
	"loss": 0.3176,
	"step": 38800
	},
	{
	"epoch": 2.3338995144977717,
	"eval_loss": 0.2767186462879181,
	"eval_runtime": 50.6115,
	"eval_samples_per_second": 197.583,
	"eval_steps_per_second": 24.698,
	"step": 38800
	},
	{
	"epoch": 2.3399147194320444,
	"grad_norm": 0.9541249871253967,
	"learning_rate": 5.612870956985662e-06,
	"loss": 0.3187,
	"step": 38900
	},
	{
	"epoch": 2.3399147194320444,
	"eval_loss": 0.28110334277153015,
	"eval_runtime": 49.7615,
	"eval_samples_per_second": 200.959,
	"eval_steps_per_second": 25.12,
	"step": 38900
	},
	{
	"epoch": 2.3459299243663168,
	"grad_norm": 0.9116654396057129,
	"learning_rate": 5.611870623541181e-06,
	"loss": 0.3147,
	"step": 39000
	},
	{
	"epoch": 2.3459299243663168,
	"eval_loss": 0.2833644449710846,
	"eval_runtime": 50.9711,
	"eval_samples_per_second": 196.19,
	"eval_steps_per_second": 24.524,
	"step": 39000
	},
	{
	"epoch": 2.3519451293005895,
	"grad_norm": 0.9693782329559326,
	"learning_rate": 5.6108702900966985e-06,
	"loss": 0.3187,
	"step": 39100
	},
	{
	"epoch": 2.3519451293005895,
	"eval_loss": 0.2744785249233246,
	"eval_runtime": 51.0233,
	"eval_samples_per_second": 195.989,
	"eval_steps_per_second": 24.499,
	"step": 39100
	},
	{
	"epoch": 2.3579603342348623,
	"grad_norm": 0.911391019821167,
	"learning_rate": 5.609869956652217e-06,
	"loss": 0.3144,
	"step": 39200
	},
	{
	"epoch": 2.3579603342348623,
	"eval_loss": 0.27756959199905396,
	"eval_runtime": 50.862,
	"eval_samples_per_second": 196.61,
	"eval_steps_per_second": 24.576,
	"step": 39200
	},
	{
	"epoch": 2.3639755391691346,
	"grad_norm": 0.9383348822593689,
	"learning_rate": 5.608869623207736e-06,
	"loss": 0.3167,
	"step": 39300
	},
	{
	"epoch": 2.3639755391691346,
	"eval_loss": 0.2751516103744507,
	"eval_runtime": 51.0203,
	"eval_samples_per_second": 196.001,
	"eval_steps_per_second": 24.5,
	"step": 39300
	},
	{
	"epoch": 2.3699907441034074,
	"grad_norm": 0.8825791478157043,
	"learning_rate": 5.607869289763255e-06,
	"loss": 0.3133,
	"step": 39400
	},
	{
	"epoch": 2.3699907441034074,
	"eval_loss": 0.27583110332489014,
	"eval_runtime": 51.0047,
	"eval_samples_per_second": 196.06,
	"eval_steps_per_second": 24.508,
	"step": 39400
	},
	{
	"epoch": 2.37600594903768,
	"grad_norm": 0.9765325784683228,
	"learning_rate": 5.606868956318773e-06,
	"loss": 0.314,
	"step": 39500
	},
	{
	"epoch": 2.37600594903768,
	"eval_loss": 0.2750406563282013,
	"eval_runtime": 51.0333,
	"eval_samples_per_second": 195.95,
	"eval_steps_per_second": 24.494,
	"step": 39500
	},
	{
	"epoch": 2.3820211539719525,
	"grad_norm": 0.968429684638977,
	"learning_rate": 5.605868622874291e-06,
	"loss": 0.3162,
	"step": 39600
	},
	{
	"epoch": 2.3820211539719525,
	"eval_loss": 0.28406116366386414,
	"eval_runtime": 50.9992,
	"eval_samples_per_second": 196.081,
	"eval_steps_per_second": 24.51,
	"step": 39600
	},
	{
	"epoch": 2.3880363589062252,
	"grad_norm": 0.9351980686187744,
	"learning_rate": 5.60486828942981e-06,
	"loss": 0.3087,
	"step": 39700
	},
	{
	"epoch": 2.3880363589062252,
	"eval_loss": 0.2797408103942871,
	"eval_runtime": 51.0101,
	"eval_samples_per_second": 196.04,
	"eval_steps_per_second": 24.505,
	"step": 39700
	},
	{
	"epoch": 2.394051563840498,
	"grad_norm": 0.9547052383422852,
	"learning_rate": 5.603867955985329e-06,
	"loss": 0.3139,
	"step": 39800
	},
	{
	"epoch": 2.394051563840498,
	"eval_loss": 0.2779112458229065,
	"eval_runtime": 50.9598,
	"eval_samples_per_second": 196.233,
	"eval_steps_per_second": 24.529,
	"step": 39800
	},
	{
	"epoch": 2.4000667687747703,
	"grad_norm": 0.8971194624900818,
	"learning_rate": 5.6028676225408465e-06,
	"loss": 0.3113,
	"step": 39900
	},
	{
	"epoch": 2.4000667687747703,
	"eval_loss": 0.28396087884902954,
	"eval_runtime": 51.1122,
	"eval_samples_per_second": 195.648,
	"eval_steps_per_second": 24.456,
	"step": 39900
	},
	{
	"epoch": 2.406081973709043,
	"grad_norm": 0.9058307409286499,
	"learning_rate": 5.601867289096365e-06,
	"loss": 0.314,
	"step": 40000
	},
	{
	"epoch": 2.406081973709043,
	"eval_loss": 0.2806677222251892,
	"eval_runtime": 50.9901,
	"eval_samples_per_second": 196.117,
	"eval_steps_per_second": 24.515,
	"step": 40000
	},
	{
	"epoch": 2.4120971786433154,
	"grad_norm": 0.9002136588096619,
	"learning_rate": 5.600866955651885e-06,
	"loss": 0.3107,
	"step": 40100
	},
	{
	"epoch": 2.4120971786433154,
	"eval_loss": 0.2816166579723358,
	"eval_runtime": 50.992,
	"eval_samples_per_second": 196.109,
	"eval_steps_per_second": 24.514,
	"step": 40100
	},
	{
	"epoch": 2.418112383577588,
	"grad_norm": 0.9614746570587158,
	"learning_rate": 5.599866622207403e-06,
	"loss": 0.3107,
	"step": 40200
	},
	{
	"epoch": 2.418112383577588,
	"eval_loss": 0.2749168276786804,
	"eval_runtime": 51.0276,
	"eval_samples_per_second": 195.972,
	"eval_steps_per_second": 24.497,
	"step": 40200
	},
	{
	"epoch": 2.424127588511861,
	"grad_norm": 0.8742543458938599,
	"learning_rate": 5.598866288762921e-06,
	"loss": 0.3149,
	"step": 40300
	},
	{
	"epoch": 2.424127588511861,
	"eval_loss": 0.2682496905326843,
	"eval_runtime": 49.6212,
	"eval_samples_per_second": 201.527,
	"eval_steps_per_second": 25.191,
	"step": 40300
	},
	{
	"epoch": 2.4301427934461337,
	"grad_norm": 0.9011858105659485,
	"learning_rate": 5.59786595531844e-06,
	"loss": 0.3094,
	"step": 40400
	},
	{
	"epoch": 2.4301427934461337,
	"eval_loss": 0.277034729719162,
	"eval_runtime": 51.0504,
	"eval_samples_per_second": 195.885,
	"eval_steps_per_second": 24.486,
	"step": 40400
	},
	{
	"epoch": 2.436157998380406,
	"grad_norm": 0.9290640950202942,
	"learning_rate": 5.596865621873958e-06,
	"loss": 0.3114,
	"step": 40500
	},
	{
	"epoch": 2.436157998380406,
	"eval_loss": 0.27406954765319824,
	"eval_runtime": 51.0172,
	"eval_samples_per_second": 196.012,
	"eval_steps_per_second": 24.502,
	"step": 40500
	},
	{
	"epoch": 2.442173203314679,
	"grad_norm": 0.89925616979599,
	"learning_rate": 5.5958652884294766e-06,
	"loss": 0.3096,
	"step": 40600
	},
	{
	"epoch": 2.442173203314679,
	"eval_loss": 0.2777319848537445,
	"eval_runtime": 51.1656,
	"eval_samples_per_second": 195.444,
	"eval_steps_per_second": 24.43,
	"step": 40600
	},
	{
	"epoch": 2.448188408248951,
	"grad_norm": 0.8584897518157959,
	"learning_rate": 5.594864954984994e-06,
	"loss": 0.3123,
	"step": 40700
	},
	{
	"epoch": 2.448188408248951,
	"eval_loss": 0.27250877022743225,
	"eval_runtime": 51.0648,
	"eval_samples_per_second": 195.829,
	"eval_steps_per_second": 24.479,
	"step": 40700
	},
	{
	"epoch": 2.454203613183224,
	"grad_norm": 0.9398366808891296,
	"learning_rate": 5.593864621540514e-06,
	"loss": 0.3108,
	"step": 40800
	},
	{
	"epoch": 2.454203613183224,
	"eval_loss": 0.27442407608032227,
	"eval_runtime": 51.06,
	"eval_samples_per_second": 195.848,
	"eval_steps_per_second": 24.481,
	"step": 40800
	},
	{
	"epoch": 2.4602188181174967,
	"grad_norm": 0.8771011233329773,
	"learning_rate": 5.592864288096033e-06,
	"loss": 0.3107,
	"step": 40900
	},
	{
	"epoch": 2.4602188181174967,
	"eval_loss": 0.27768152952194214,
	"eval_runtime": 51.1346,
	"eval_samples_per_second": 195.562,
	"eval_steps_per_second": 24.445,
	"step": 40900
	},
	{
	"epoch": 2.466234023051769,
	"grad_norm": 0.922232449054718,
	"learning_rate": 5.5918639546515505e-06,
	"loss": 0.3082,
	"step": 41000
	},
	{
	"epoch": 2.466234023051769,
	"eval_loss": 0.27813389897346497,
	"eval_runtime": 28.068,
	"eval_samples_per_second": 356.278,
	"eval_steps_per_second": 44.535,
	"step": 41000
	},
	{
	"epoch": 2.4722492279860417,
	"grad_norm": 0.9415081143379211,
	"learning_rate": 5.590863621207069e-06,
	"loss": 0.3105,
	"step": 41100
	},
	{
	"epoch": 2.4722492279860417,
	"eval_loss": 0.27401283383369446,
	"eval_runtime": 50.7464,
	"eval_samples_per_second": 197.058,
	"eval_steps_per_second": 24.632,
	"step": 41100
	},
	{
	"epoch": 2.4782644329203145,
	"grad_norm": 0.8894750475883484,
	"learning_rate": 5.589863287762588e-06,
	"loss": 0.31,
	"step": 41200
	},
	{
	"epoch": 2.4782644329203145,
	"eval_loss": 0.2711414694786072,
	"eval_runtime": 50.7544,
	"eval_samples_per_second": 197.027,
	"eval_steps_per_second": 24.628,
	"step": 41200
	},
	{
	"epoch": 2.484279637854587,
	"grad_norm": 0.8910822868347168,
	"learning_rate": 5.588862954318106e-06,
	"loss": 0.3064,
	"step": 41300
	},
	{
	"epoch": 2.484279637854587,
	"eval_loss": 0.2753881514072418,
	"eval_runtime": 48.2521,
	"eval_samples_per_second": 207.245,
	"eval_steps_per_second": 25.906,
	"step": 41300
	},
	{
	"epoch": 2.4902948427888596,
	"grad_norm": 0.890864908695221,
	"learning_rate": 5.5878626208736245e-06,
	"loss": 0.3042,
	"step": 41400
	},
	{
	"epoch": 2.4902948427888596,
	"eval_loss": 0.27833056449890137,
	"eval_runtime": 44.9081,
	"eval_samples_per_second": 222.677,
	"eval_steps_per_second": 27.835,
	"step": 41400
	},
	{
	"epoch": 2.4963100477231324,
	"grad_norm": 0.8507567048072815,
	"learning_rate": 5.586862287429143e-06,
	"loss": 0.308,
	"step": 41500
	},
	{
	"epoch": 2.4963100477231324,
	"eval_loss": 0.2749514579772949,
	"eval_runtime": 45.6991,
	"eval_samples_per_second": 218.823,
	"eval_steps_per_second": 27.353,
	"step": 41500
	},
	{
	"epoch": 2.5023252526574047,
	"grad_norm": 1.0246086120605469,
	"learning_rate": 5.585861953984662e-06,
	"loss": 0.308,
	"step": 41600
	},
	{
	"epoch": 2.5023252526574047,
	"eval_loss": 0.2693102955818176,
	"eval_runtime": 48.6013,
	"eval_samples_per_second": 205.756,
	"eval_steps_per_second": 25.719,
	"step": 41600
	},
	{
	"epoch": 2.5083404575916775,
	"grad_norm": 1.015673279762268,
	"learning_rate": 5.584861620540181e-06,
	"loss": 0.3062,
	"step": 41700
	},
	{
	"epoch": 2.5083404575916775,
	"eval_loss": 0.2740586996078491,
	"eval_runtime": 49.0311,
	"eval_samples_per_second": 203.952,
	"eval_steps_per_second": 25.494,
	"step": 41700
	},
	{
	"epoch": 2.5143556625259498,
	"grad_norm": 0.9325861930847168,
	"learning_rate": 5.5838612870956985e-06,
	"loss": 0.3085,
	"step": 41800
	},
	{
	"epoch": 2.5143556625259498,
	"eval_loss": 0.2755836844444275,
	"eval_runtime": 49.0354,
	"eval_samples_per_second": 203.934,
	"eval_steps_per_second": 25.492,
	"step": 41800
	},
	{
	"epoch": 2.5203708674602225,
	"grad_norm": 0.8402740359306335,
	"learning_rate": 5.582860953651217e-06,
	"loss": 0.3074,
	"step": 41900
	},
	{
	"epoch": 2.5203708674602225,
	"eval_loss": 0.2750794291496277,
	"eval_runtime": 49.6049,
	"eval_samples_per_second": 201.593,
	"eval_steps_per_second": 25.199,
	"step": 41900
	},
	{
	"epoch": 2.5263860723944953,
	"grad_norm": 0.8873264193534851,
	"learning_rate": 5.581860620206736e-06,
	"loss": 0.3073,
	"step": 42000
	},
	{
	"epoch": 2.5263860723944953,
	"eval_loss": 0.2801840901374817,
	"eval_runtime": 49.3914,
	"eval_samples_per_second": 202.464,
	"eval_steps_per_second": 25.308,
	"step": 42000
	},
	{
	"epoch": 2.5324012773287676,
	"grad_norm": 0.9626051187515259,
	"learning_rate": 5.580860286762254e-06,
	"loss": 0.3068,
	"step": 42100
	},
	{
	"epoch": 2.5324012773287676,
	"eval_loss": 0.2711939811706543,
	"eval_runtime": 49.617,
	"eval_samples_per_second": 201.544,
	"eval_steps_per_second": 25.193,
	"step": 42100
	},
	{
	"epoch": 2.5384164822630404,
	"grad_norm": 0.9168198108673096,
	"learning_rate": 5.5798599533177725e-06,
	"loss": 0.3059,
	"step": 42200
	},
	{
	"epoch": 2.5384164822630404,
	"eval_loss": 0.270614355802536,
	"eval_runtime": 50.1412,
	"eval_samples_per_second": 199.437,
	"eval_steps_per_second": 24.93,
	"step": 42200
	},
	{
	"epoch": 2.544431687197313,
	"grad_norm": 0.9542158842086792,
	"learning_rate": 5.578859619873291e-06,
	"loss": 0.3061,
	"step": 42300
	},
	{
	"epoch": 2.544431687197313,
	"eval_loss": 0.2705308198928833,
	"eval_runtime": 50.4655,
	"eval_samples_per_second": 198.155,
	"eval_steps_per_second": 24.769,
	"step": 42300
	},
	{
	"epoch": 2.5504468921315855,
	"grad_norm": 0.8468143939971924,
	"learning_rate": 5.57785928642881e-06,
	"loss": 0.3048,
	"step": 42400
	},
	{
	"epoch": 2.5504468921315855,
	"eval_loss": 0.27329984307289124,
	"eval_runtime": 50.4318,
	"eval_samples_per_second": 198.288,
	"eval_steps_per_second": 24.786,
	"step": 42400
	},
	{
	"epoch": 2.5564620970658583,
	"grad_norm": 0.9493191838264465,
	"learning_rate": 5.576858952984329e-06,
	"loss": 0.3019,
	"step": 42500
	},
	{
	"epoch": 2.5564620970658583,
	"eval_loss": 0.2731817364692688,
	"eval_runtime": 50.5666,
	"eval_samples_per_second": 197.759,
	"eval_steps_per_second": 24.72,
	"step": 42500
	},
	{
	"epoch": 2.562477302000131,
	"grad_norm": 0.9617642760276794,
	"learning_rate": 5.5758586195398465e-06,
	"loss": 0.3012,
	"step": 42600
	},
	{
	"epoch": 2.562477302000131,
	"eval_loss": 0.26970621943473816,
	"eval_runtime": 51.0766,
	"eval_samples_per_second": 195.784,
	"eval_steps_per_second": 24.473,
	"step": 42600
	},
	{
	"epoch": 2.5684925069344033,
	"grad_norm": 0.9389893412590027,
	"learning_rate": 5.574858286095365e-06,
	"loss": 0.3027,
	"step": 42700
	},
	{
	"epoch": 2.5684925069344033,
	"eval_loss": 0.27145934104919434,
	"eval_runtime": 51.074,
	"eval_samples_per_second": 195.794,
	"eval_steps_per_second": 24.474,
	"step": 42700
	},
	{
	"epoch": 2.574507711868676,
	"grad_norm": 0.9073367714881897,
	"learning_rate": 5.573857952650884e-06,
	"loss": 0.3021,
	"step": 42800
	},
	{
	"epoch": 2.574507711868676,
	"eval_loss": 0.2711017429828644,
	"eval_runtime": 51.072,
	"eval_samples_per_second": 195.802,
	"eval_steps_per_second": 24.475,
	"step": 42800
	},
	{
	"epoch": 2.5805229168029484,
	"grad_norm": 0.8948126435279846,
	"learning_rate": 5.572857619206402e-06,
	"loss": 0.302,
	"step": 42900
	},
	{
	"epoch": 2.5805229168029484,
	"eval_loss": 0.2703753113746643,
	"eval_runtime": 51.0323,
	"eval_samples_per_second": 195.954,
	"eval_steps_per_second": 24.494,
	"step": 42900
	},
	{
	"epoch": 2.586538121737221,
	"grad_norm": 0.943368136882782,
	"learning_rate": 5.5718572857619205e-06,
	"loss": 0.3007,
	"step": 43000
	},
	{
	"epoch": 2.586538121737221,
	"eval_loss": 0.2676005959510803,
	"eval_runtime": 51.147,
	"eval_samples_per_second": 195.515,
	"eval_steps_per_second": 24.439,
	"step": 43000
	},
	{
	"epoch": 2.592553326671494,
	"grad_norm": 0.9073809385299683,
	"learning_rate": 5.570856952317439e-06,
	"loss": 0.3004,
	"step": 43100
	},
	{
	"epoch": 2.592553326671494,
	"eval_loss": 0.26843926310539246,
	"eval_runtime": 51.0148,
	"eval_samples_per_second": 196.021,
	"eval_steps_per_second": 24.503,
	"step": 43100
	},
	{
	"epoch": 2.5985685316057667,
	"grad_norm": 0.9534226655960083,
	"learning_rate": 5.569856618872958e-06,
	"loss": 0.3039,
	"step": 43200
	},
	{
	"epoch": 2.5985685316057667,
	"eval_loss": 0.2675269842147827,
	"eval_runtime": 51.1418,
	"eval_samples_per_second": 195.535,
	"eval_steps_per_second": 24.442,
	"step": 43200
	},
	{
	"epoch": 2.604583736540039,
	"grad_norm": 0.8546542525291443,
	"learning_rate": 5.5688562854284766e-06,
	"loss": 0.3008,
	"step": 43300
	},
	{
	"epoch": 2.604583736540039,
	"eval_loss": 0.2680804133415222,
	"eval_runtime": 51.0519,
	"eval_samples_per_second": 195.879,
	"eval_steps_per_second": 24.485,
	"step": 43300
	},
	{
	"epoch": 2.610598941474312,
	"grad_norm": 0.9167499542236328,
	"learning_rate": 5.567855951983995e-06,
	"loss": 0.3001,
	"step": 43400
	},
	{
	"epoch": 2.610598941474312,
	"eval_loss": 0.26866093277931213,
	"eval_runtime": 51.2331,
	"eval_samples_per_second": 195.186,
	"eval_steps_per_second": 24.398,
	"step": 43400
	},
	{
	"epoch": 2.616614146408584,
	"grad_norm": 0.9243641495704651,
	"learning_rate": 5.566855618539513e-06,
	"loss": 0.3007,
	"step": 43500
	},
	{
	"epoch": 2.616614146408584,
	"eval_loss": 0.27828356623649597,
	"eval_runtime": 35.4476,
	"eval_samples_per_second": 282.107,
	"eval_steps_per_second": 35.263,
	"step": 43500
	},
	{
	"epoch": 2.622629351342857,
	"grad_norm": 0.9069240689277649,
	"learning_rate": 5.565855285095032e-06,
	"loss": 0.3039,
	"step": 43600
	},
	{
	"epoch": 2.622629351342857,
	"eval_loss": 0.27373048663139343,
	"eval_runtime": 51.0712,
	"eval_samples_per_second": 195.805,
	"eval_steps_per_second": 24.476,
	"step": 43600
	},
	{
	"epoch": 2.6286445562771297,
	"grad_norm": 0.8967992663383484,
	"learning_rate": 5.56485495165055e-06,
	"loss": 0.3026,
	"step": 43700
	},
	{
	"epoch": 2.6286445562771297,
	"eval_loss": 0.2672281861305237,
	"eval_runtime": 51.0214,
	"eval_samples_per_second": 195.996,
	"eval_steps_per_second": 24.5,
	"step": 43700
	},
	{
	"epoch": 2.634659761211402,
	"grad_norm": 0.8463547229766846,
	"learning_rate": 5.563854618206068e-06,
	"loss": 0.3018,
	"step": 43800
	},
	{
	"epoch": 2.634659761211402,
	"eval_loss": 0.2690221071243286,
	"eval_runtime": 51.0223,
	"eval_samples_per_second": 195.993,
	"eval_steps_per_second": 24.499,
	"step": 43800
	},
	{
	"epoch": 2.6406749661456748,
	"grad_norm": 0.8656585812568665,
	"learning_rate": 5.562854284761587e-06,
	"loss": 0.3019,
	"step": 43900
	},
	{
	"epoch": 2.6406749661456748,
	"eval_loss": 0.2694147229194641,
	"eval_runtime": 51.2059,
	"eval_samples_per_second": 195.29,
	"eval_steps_per_second": 24.411,
	"step": 43900
	},
	{
	"epoch": 2.646690171079947,
	"grad_norm": 0.8388367891311646,
	"learning_rate": 5.561853951317106e-06,
	"loss": 0.299,
	"step": 44000
	},
	{
	"epoch": 2.646690171079947,
	"eval_loss": 0.27004268765449524,
	"eval_runtime": 51.0385,
	"eval_samples_per_second": 195.93,
	"eval_steps_per_second": 24.491,
	"step": 44000
	},
	{
	"epoch": 2.65270537601422,
	"grad_norm": 0.8733914494514465,
	"learning_rate": 5.5608536178726245e-06,
	"loss": 0.2996,
	"step": 44100
	},
	{
	"epoch": 2.65270537601422,
	"eval_loss": 0.2620984613895416,
	"eval_runtime": 51.1206,
	"eval_samples_per_second": 195.616,
	"eval_steps_per_second": 24.452,
	"step": 44100
	},
	{
	"epoch": 2.6587205809484926,
	"grad_norm": 0.825485348701477,
	"learning_rate": 5.559853284428143e-06,
	"loss": 0.2996,
	"step": 44200
	},
	{
	"epoch": 2.6587205809484926,
	"eval_loss": 0.26619336009025574,
	"eval_runtime": 50.9856,
	"eval_samples_per_second": 196.134,
	"eval_steps_per_second": 24.517,
	"step": 44200
	},
	{
	"epoch": 2.6647357858827654,
	"grad_norm": 0.9234973192214966,
	"learning_rate": 5.558852950983661e-06,
	"loss": 0.2994,
	"step": 44300
	},
	{
	"epoch": 2.6647357858827654,
	"eval_loss": 0.269397497177124,
	"eval_runtime": 51.1229,
	"eval_samples_per_second": 195.607,
	"eval_steps_per_second": 24.451,
	"step": 44300
	},
	{
	"epoch": 2.6707509908170377,
	"grad_norm": 0.9815935492515564,
	"learning_rate": 5.55785261753918e-06,
	"loss": 0.2964,
	"step": 44400
	},
	{
	"epoch": 2.6707509908170377,
	"eval_loss": 0.26540160179138184,
	"eval_runtime": 51.0268,
	"eval_samples_per_second": 195.975,
	"eval_steps_per_second": 24.497,
	"step": 44400
	},
	{
	"epoch": 2.6767661957513105,
	"grad_norm": 0.8895259499549866,
	"learning_rate": 5.5568522840946985e-06,
	"loss": 0.2943,
	"step": 44500
	},
	{
	"epoch": 2.6767661957513105,
	"eval_loss": 0.2682526707649231,
	"eval_runtime": 51.188,
	"eval_samples_per_second": 195.358,
	"eval_steps_per_second": 24.42,
	"step": 44500
	},
	{
	"epoch": 2.682781400685583,
	"grad_norm": 0.8415577411651611,
	"learning_rate": 5.555851950650216e-06,
	"loss": 0.2972,
	"step": 44600
	},
	{
	"epoch": 2.682781400685583,
	"eval_loss": 0.2677549421787262,
	"eval_runtime": 51.1092,
	"eval_samples_per_second": 195.66,
	"eval_steps_per_second": 24.457,
	"step": 44600
	},
	{
	"epoch": 2.6887966056198556,
	"grad_norm": 0.8922407031059265,
	"learning_rate": 5.554851617205736e-06,
	"loss": 0.2969,
	"step": 44700
	},
	{
	"epoch": 2.6887966056198556,
	"eval_loss": 0.2671573758125305,
	"eval_runtime": 51.0789,
	"eval_samples_per_second": 195.776,
	"eval_steps_per_second": 24.472,
	"step": 44700
	},
	{
	"epoch": 2.6948118105541283,
	"grad_norm": 1.0156275033950806,
	"learning_rate": 5.553851283761254e-06,
	"loss": 0.2972,
	"step": 44800
	},
	{
	"epoch": 2.6948118105541283,
	"eval_loss": 0.26524412631988525,
	"eval_runtime": 51.0819,
	"eval_samples_per_second": 195.764,
	"eval_steps_per_second": 24.471,
	"step": 44800
	},
	{
	"epoch": 2.7008270154884007,
	"grad_norm": 0.9283206462860107,
	"learning_rate": 5.5528509503167725e-06,
	"loss": 0.2953,
	"step": 44900
	},
	{
	"epoch": 2.7008270154884007,
	"eval_loss": 0.26051226258277893,
	"eval_runtime": 51.0731,
	"eval_samples_per_second": 195.798,
	"eval_steps_per_second": 24.475,
	"step": 44900
	},
	{
	"epoch": 2.7068422204226734,
	"grad_norm": 0.9081267714500427,
	"learning_rate": 5.551850616872291e-06,
	"loss": 0.2956,
	"step": 45000
	},
	{
	"epoch": 2.7068422204226734,
	"eval_loss": 0.26829174160957336,
	"eval_runtime": 51.0764,
	"eval_samples_per_second": 195.785,
	"eval_steps_per_second": 24.473,
	"step": 45000
	},
	{
	"epoch": 2.712857425356946,
	"grad_norm": 0.9797186255455017,
	"learning_rate": 5.550850283427809e-06,
	"loss": 0.2951,
	"step": 45100
	},
	{
	"epoch": 2.712857425356946,
	"eval_loss": 0.2626285254955292,
	"eval_runtime": 51.0441,
	"eval_samples_per_second": 195.909,
	"eval_steps_per_second": 24.489,
	"step": 45100
	},
	{
	"epoch": 2.7188726302912185,
	"grad_norm": 0.972873866558075,
	"learning_rate": 5.549849949983328e-06,
	"loss": 0.2938,
	"step": 45200
	},
	{
	"epoch": 2.7188726302912185,
	"eval_loss": 0.2651112675666809,
	"eval_runtime": 51.1856,
	"eval_samples_per_second": 195.368,
	"eval_steps_per_second": 24.421,
	"step": 45200
	},
	{
	"epoch": 2.7248878352254913,
	"grad_norm": 0.8637024164199829,
	"learning_rate": 5.5488496165388465e-06,
	"loss": 0.2951,
	"step": 45300
	},
	{
	"epoch": 2.7248878352254913,
	"eval_loss": 0.26248618960380554,
	"eval_runtime": 51.1456,
	"eval_samples_per_second": 195.52,
	"eval_steps_per_second": 24.44,
	"step": 45300
	},
	{
	"epoch": 2.730903040159764,
	"grad_norm": 0.9163945317268372,
	"learning_rate": 5.547849283094365e-06,
	"loss": 0.2948,
	"step": 45400
	},
	{
	"epoch": 2.730903040159764,
	"eval_loss": 0.2693786025047302,
	"eval_runtime": 51.0867,
	"eval_samples_per_second": 195.746,
	"eval_steps_per_second": 24.468,
	"step": 45400
	},
	{
	"epoch": 2.7369182450940364,
	"grad_norm": 1.0530128479003906,
	"learning_rate": 5.546848949649884e-06,
	"loss": 0.2944,
	"step": 45500
	},
	{
	"epoch": 2.7369182450940364,
	"eval_loss": 0.2621295750141144,
	"eval_runtime": 51.1036,
	"eval_samples_per_second": 195.681,
	"eval_steps_per_second": 24.46,
	"step": 45500
	},
	{
	"epoch": 2.742933450028309,
	"grad_norm": 0.9258381128311157,
	"learning_rate": 5.545848616205402e-06,
	"loss": 0.2943,
	"step": 45600
	},
	{
	"epoch": 2.742933450028309,
	"eval_loss": 0.25974345207214355,
	"eval_runtime": 51.1397,
	"eval_samples_per_second": 195.543,
	"eval_steps_per_second": 24.443,
	"step": 45600
	},
	{
	"epoch": 2.7489486549625815,
	"grad_norm": 0.8768019676208496,
	"learning_rate": 5.5448482827609205e-06,
	"loss": 0.2934,
	"step": 45700
	},
	{
	"epoch": 2.7489486549625815,
	"eval_loss": 0.26323673129081726,
	"eval_runtime": 51.1134,
	"eval_samples_per_second": 195.643,
	"eval_steps_per_second": 24.455,
	"step": 45700
	},
	{
	"epoch": 2.754963859896854,
	"grad_norm": 0.8610267639160156,
	"learning_rate": 5.543847949316439e-06,
	"loss": 0.2934,
	"step": 45800
	},
	{
	"epoch": 2.754963859896854,
	"eval_loss": 0.2621345818042755,
	"eval_runtime": 51.0875,
	"eval_samples_per_second": 195.743,
	"eval_steps_per_second": 24.468,
	"step": 45800
	},
	{
	"epoch": 2.760979064831127,
	"grad_norm": 0.8272863626480103,
	"learning_rate": 5.542847615871957e-06,
	"loss": 0.2952,
	"step": 45900
	},
	{
	"epoch": 2.760979064831127,
	"eval_loss": 0.2651170790195465,
	"eval_runtime": 51.1189,
	"eval_samples_per_second": 195.622,
	"eval_steps_per_second": 24.453,
	"step": 45900
	},
	{
	"epoch": 2.7669942697653997,
	"grad_norm": 0.8691322207450867,
	"learning_rate": 5.541847282427476e-06,
	"loss": 0.2903,
	"step": 46000
	},
	{
	"epoch": 2.7669942697653997,
	"eval_loss": 0.2674708664417267,
	"eval_runtime": 51.0977,
	"eval_samples_per_second": 195.704,
	"eval_steps_per_second": 24.463,
	"step": 46000
	},
	{
	"epoch": 2.773009474699672,
	"grad_norm": 0.9887429475784302,
	"learning_rate": 5.5408469489829944e-06,
	"loss": 0.2931,
	"step": 46100
	},
	{
	"epoch": 2.773009474699672,
	"eval_loss": 0.2632472515106201,
	"eval_runtime": 51.1106,
	"eval_samples_per_second": 195.654,
	"eval_steps_per_second": 24.457,
	"step": 46100
	},
	{
	"epoch": 2.779024679633945,
	"grad_norm": 0.9419971704483032,
	"learning_rate": 5.539846615538513e-06,
	"loss": 0.2933,
	"step": 46200
	},
	{
	"epoch": 2.779024679633945,
	"eval_loss": 0.2613042891025543,
	"eval_runtime": 51.0338,
	"eval_samples_per_second": 195.949,
	"eval_steps_per_second": 24.494,
	"step": 46200
	},
	{
	"epoch": 2.785039884568217,
	"grad_norm": 0.9267482161521912,
	"learning_rate": 5.538846282094032e-06,
	"loss": 0.2915,
	"step": 46300
	},
	{
	"epoch": 2.785039884568217,
	"eval_loss": 0.2661626935005188,
	"eval_runtime": 51.084,
	"eval_samples_per_second": 195.756,
	"eval_steps_per_second": 24.469,
	"step": 46300
	},
	{
	"epoch": 2.79105508950249,
	"grad_norm": 0.9020786285400391,
	"learning_rate": 5.5378459486495506e-06,
	"loss": 0.2933,
	"step": 46400
	},
	{
	"epoch": 2.79105508950249,
	"eval_loss": 0.2588748335838318,
	"eval_runtime": 51.1198,
	"eval_samples_per_second": 195.619,
	"eval_steps_per_second": 24.452,
	"step": 46400
	},
	{
	"epoch": 2.7970702944367627,
	"grad_norm": 0.893649160861969,
	"learning_rate": 5.5368456152050684e-06,
	"loss": 0.2914,
	"step": 46500
	},
	{
	"epoch": 2.7970702944367627,
	"eval_loss": 0.2560584545135498,
	"eval_runtime": 51.1578,
	"eval_samples_per_second": 195.474,
	"eval_steps_per_second": 24.434,
	"step": 46500
	},
	{
	"epoch": 2.803085499371035,
	"grad_norm": 0.8569892644882202,
	"learning_rate": 5.535845281760587e-06,
	"loss": 0.2921,
	"step": 46600
	},
	{
	"epoch": 2.803085499371035,
	"eval_loss": 0.26415926218032837,
	"eval_runtime": 48.8588,
	"eval_samples_per_second": 204.672,
	"eval_steps_per_second": 25.584,
	"step": 46600
	},
	{
	"epoch": 2.809100704305308,
	"grad_norm": 0.967966616153717,
	"learning_rate": 5.534844948316105e-06,
	"loss": 0.2932,
	"step": 46700
	},
	{
	"epoch": 2.809100704305308,
	"eval_loss": 0.262004554271698,
	"eval_runtime": 51.1167,
	"eval_samples_per_second": 195.631,
	"eval_steps_per_second": 24.454,
	"step": 46700
	},
	{
	"epoch": 2.81511590923958,
	"grad_norm": 0.8977293968200684,
	"learning_rate": 5.533844614871624e-06,
	"loss": 0.291,
	"step": 46800
	},
	{
	"epoch": 2.81511590923958,
	"eval_loss": 0.26304325461387634,
	"eval_runtime": 51.1071,
	"eval_samples_per_second": 195.668,
	"eval_steps_per_second": 24.458,
	"step": 46800
	},
	{
	"epoch": 2.821131114173853,
	"grad_norm": 0.8833451271057129,
	"learning_rate": 5.532844281427142e-06,
	"loss": 0.2879,
	"step": 46900
	},
	{
	"epoch": 2.821131114173853,
	"eval_loss": 0.2652186155319214,
	"eval_runtime": 51.1212,
	"eval_samples_per_second": 195.614,
	"eval_steps_per_second": 24.452,
	"step": 46900
	},
	{
	"epoch": 2.8271463191081256,
	"grad_norm": 0.916098415851593,
	"learning_rate": 5.531843947982661e-06,
	"loss": 0.29,
	"step": 47000
	},
	{
	"epoch": 2.8271463191081256,
	"eval_loss": 0.2618425190448761,
	"eval_runtime": 51.1419,
	"eval_samples_per_second": 195.534,
	"eval_steps_per_second": 24.442,
	"step": 47000
	},
	{
	"epoch": 2.8331615240423984,
	"grad_norm": 0.8808870315551758,
	"learning_rate": 5.53084361453818e-06,
	"loss": 0.2912,
	"step": 47100
	},
	{
	"epoch": 2.8331615240423984,
	"eval_loss": 0.26288196444511414,
	"eval_runtime": 51.1216,
	"eval_samples_per_second": 195.612,
	"eval_steps_per_second": 24.452,
	"step": 47100
	},
	{
	"epoch": 2.8391767289766707,
	"grad_norm": 0.8972067832946777,
	"learning_rate": 5.5298432810936985e-06,
	"loss": 0.2914,
	"step": 47200
	},
	{
	"epoch": 2.8391767289766707,
	"eval_loss": 0.2557620704174042,
	"eval_runtime": 51.1227,
	"eval_samples_per_second": 195.608,
	"eval_steps_per_second": 24.451,
	"step": 47200
	},
	{
	"epoch": 2.8451919339109435,
	"grad_norm": 0.8946945667266846,
	"learning_rate": 5.528842947649216e-06,
	"loss": 0.2894,
	"step": 47300
	},
	{
	"epoch": 2.8451919339109435,
	"eval_loss": 0.26096677780151367,
	"eval_runtime": 48.2836,
	"eval_samples_per_second": 207.109,
	"eval_steps_per_second": 25.889,
	"step": 47300
	},
	{
	"epoch": 2.851207138845216,
	"grad_norm": 0.9023754000663757,
	"learning_rate": 5.527842614204735e-06,
	"loss": 0.2875,
	"step": 47400
	},
	{
	"epoch": 2.851207138845216,
	"eval_loss": 0.25718143582344055,
	"eval_runtime": 51.1174,
	"eval_samples_per_second": 195.628,
	"eval_steps_per_second": 24.453,
	"step": 47400
	},
	{
	"epoch": 2.8572223437794886,
	"grad_norm": 0.8229103088378906,
	"learning_rate": 5.526842280760254e-06,
	"loss": 0.2875,
	"step": 47500
	},
	{
	"epoch": 2.8572223437794886,
	"eval_loss": 0.26064789295196533,
	"eval_runtime": 51.0796,
	"eval_samples_per_second": 195.773,
	"eval_steps_per_second": 24.472,
	"step": 47500
	},
	{
	"epoch": 2.8632375487137613,
	"grad_norm": 0.7903328537940979,
	"learning_rate": 5.525841947315772e-06,
	"loss": 0.2888,
	"step": 47600
	},
	{
	"epoch": 2.8632375487137613,
	"eval_loss": 0.25777605175971985,
	"eval_runtime": 51.0732,
	"eval_samples_per_second": 195.797,
	"eval_steps_per_second": 24.475,
	"step": 47600
	},
	{
	"epoch": 2.8692527536480337,
	"grad_norm": 0.9628756046295166,
	"learning_rate": 5.52484161387129e-06,
	"loss": 0.2909,
	"step": 47700
	},
	{
	"epoch": 2.8692527536480337,
	"eval_loss": 0.2552904188632965,
	"eval_runtime": 51.1083,
	"eval_samples_per_second": 195.663,
	"eval_steps_per_second": 24.458,
	"step": 47700
	},
	{
	"epoch": 2.8752679585823064,
	"grad_norm": 0.8853189945220947,
	"learning_rate": 5.523841280426809e-06,
	"loss": 0.2885,
	"step": 47800
	},
	{
	"epoch": 2.8752679585823064,
	"eval_loss": 0.2585737407207489,
	"eval_runtime": 51.0832,
	"eval_samples_per_second": 195.759,
	"eval_steps_per_second": 24.47,
	"step": 47800
	},
	{
	"epoch": 2.8812831635165788,
	"grad_norm": 0.9299560785293579,
	"learning_rate": 5.522840946982328e-06,
	"loss": 0.2865,
	"step": 47900
	},
	{
	"epoch": 2.8812831635165788,
	"eval_loss": 0.2563331425189972,
	"eval_runtime": 51.0909,
	"eval_samples_per_second": 195.729,
	"eval_steps_per_second": 24.466,
	"step": 47900
	},
	{
	"epoch": 2.8872983684508515,
	"grad_norm": 0.9286957383155823,
	"learning_rate": 5.5218406135378465e-06,
	"loss": 0.2873,
	"step": 48000
	},
	{
	"epoch": 2.8872983684508515,
	"eval_loss": 0.2592049837112427,
	"eval_runtime": 48.2359,
	"eval_samples_per_second": 207.315,
	"eval_steps_per_second": 25.914,
	"step": 48000
	},
	{
	"epoch": 2.8933135733851243,
	"grad_norm": 0.8729236125946045,
	"learning_rate": 5.520840280093364e-06,
	"loss": 0.2861,
	"step": 48100
	},
	{
	"epoch": 2.8933135733851243,
	"eval_loss": 0.25870123505592346,
	"eval_runtime": 51.1066,
	"eval_samples_per_second": 195.669,
	"eval_steps_per_second": 24.459,
	"step": 48100
	},
	{
	"epoch": 2.899328778319397,
	"grad_norm": 0.8652471899986267,
	"learning_rate": 5.519839946648883e-06,
	"loss": 0.2867,
	"step": 48200
	},
	{
	"epoch": 2.899328778319397,
	"eval_loss": 0.2612285017967224,
	"eval_runtime": 51.1028,
	"eval_samples_per_second": 195.684,
	"eval_steps_per_second": 24.46,
	"step": 48200
	},
	{
	"epoch": 2.9053439832536694,
	"grad_norm": 0.8425643444061279,
	"learning_rate": 5.518839613204402e-06,
	"loss": 0.2852,
	"step": 48300
	},
	{
	"epoch": 2.9053439832536694,
	"eval_loss": 0.2628696858882904,
	"eval_runtime": 51.123,
	"eval_samples_per_second": 195.607,
	"eval_steps_per_second": 24.451,
	"step": 48300
	},
	{
	"epoch": 2.911359188187942,
	"grad_norm": 0.9844802021980286,
	"learning_rate": 5.51783927975992e-06,
	"loss": 0.2877,
	"step": 48400
	},
	{
	"epoch": 2.911359188187942,
	"eval_loss": 0.2612448036670685,
	"eval_runtime": 51.0987,
	"eval_samples_per_second": 195.7,
	"eval_steps_per_second": 24.462,
	"step": 48400
	},
	{
	"epoch": 2.9173743931222145,
	"grad_norm": 0.878381073474884,
	"learning_rate": 5.516838946315438e-06,
	"loss": 0.2869,
	"step": 48500
	},
	{
	"epoch": 2.9173743931222145,
	"eval_loss": 0.25639012455940247,
	"eval_runtime": 51.1127,
	"eval_samples_per_second": 195.646,
	"eval_steps_per_second": 24.456,
	"step": 48500
	},
	{
	"epoch": 2.9233895980564872,
	"grad_norm": 0.8658349514007568,
	"learning_rate": 5.515838612870957e-06,
	"loss": 0.2862,
	"step": 48600
	},
	{
	"epoch": 2.9233895980564872,
	"eval_loss": 0.24971692264080048,
	"eval_runtime": 51.1228,
	"eval_samples_per_second": 195.607,
	"eval_steps_per_second": 24.451,
	"step": 48600
	},
	{
	"epoch": 2.92940480299076,
	"grad_norm": 0.8590924143791199,
	"learning_rate": 5.514838279426476e-06,
	"loss": 0.2868,
	"step": 48700
	},
	{
	"epoch": 2.92940480299076,
	"eval_loss": 0.2601747214794159,
	"eval_runtime": 51.129,
	"eval_samples_per_second": 195.584,
	"eval_steps_per_second": 24.448,
	"step": 48700
	},
	{
	"epoch": 2.9354200079250328,
	"grad_norm": 0.8948882222175598,
	"learning_rate": 5.5138379459819945e-06,
	"loss": 0.2876,
	"step": 48800
	},
	{
	"epoch": 2.9354200079250328,
	"eval_loss": 0.256122350692749,
	"eval_runtime": 51.1826,
	"eval_samples_per_second": 195.379,
	"eval_steps_per_second": 24.422,
	"step": 48800
	},
	{
	"epoch": 2.941435212859305,
	"grad_norm": 0.8714300990104675,
	"learning_rate": 5.512837612537512e-06,
	"loss": 0.2854,
	"step": 48900
	},
	{
	"epoch": 2.941435212859305,
	"eval_loss": 0.2527640163898468,
	"eval_runtime": 51.143,
	"eval_samples_per_second": 195.53,
	"eval_steps_per_second": 24.441,
	"step": 48900
	},
	{
	"epoch": 2.947450417793578,
	"grad_norm": 0.8347595930099487,
	"learning_rate": 5.511837279093031e-06,
	"loss": 0.2859,
	"step": 49000
	},
	{
	"epoch": 2.947450417793578,
	"eval_loss": 0.2613712549209595,
	"eval_runtime": 51.1079,
	"eval_samples_per_second": 195.664,
	"eval_steps_per_second": 24.458,
	"step": 49000
	},
	{
	"epoch": 2.95346562272785,
	"grad_norm": 0.8538709878921509,
	"learning_rate": 5.51083694564855e-06,
	"loss": 0.2852,
	"step": 49100
	},
	{
	"epoch": 2.95346562272785,
	"eval_loss": 0.25488194823265076,
	"eval_runtime": 51.1132,
	"eval_samples_per_second": 195.644,
	"eval_steps_per_second": 24.456,
	"step": 49100
	},
	{
	"epoch": 2.959480827662123,
	"grad_norm": 0.922144889831543,
	"learning_rate": 5.509836612204068e-06,
	"loss": 0.2847,
	"step": 49200
	},
	{
	"epoch": 2.959480827662123,
	"eval_loss": 0.2526051700115204,
	"eval_runtime": 51.1124,
	"eval_samples_per_second": 195.647,
	"eval_steps_per_second": 24.456,
	"step": 49200
	},
	{
	"epoch": 2.9654960325963957,
	"grad_norm": 0.8684960007667542,
	"learning_rate": 5.508836278759587e-06,
	"loss": 0.2837,
	"step": 49300
	},
	{
	"epoch": 2.9654960325963957,
	"eval_loss": 0.25194811820983887,
	"eval_runtime": 51.0578,
	"eval_samples_per_second": 195.857,
	"eval_steps_per_second": 24.482,
	"step": 49300
	},
	{
	"epoch": 2.971511237530668,
	"grad_norm": 0.9055145978927612,
	"learning_rate": 5.507835945315106e-06,
	"loss": 0.2817,
	"step": 49400
	},
	{
	"epoch": 2.971511237530668,
	"eval_loss": 0.25218260288238525,
	"eval_runtime": 51.0821,
	"eval_samples_per_second": 195.763,
	"eval_steps_per_second": 24.47,
	"step": 49400
	},
	{
	"epoch": 2.977526442464941,
	"grad_norm": 0.8636729121208191,
	"learning_rate": 5.506835611870624e-06,
	"loss": 0.2855,
	"step": 49500
	},
	{
	"epoch": 2.977526442464941,
	"eval_loss": 0.25728458166122437,
	"eval_runtime": 51.06,
	"eval_samples_per_second": 195.848,
	"eval_steps_per_second": 24.481,
	"step": 49500
	},
	{
	"epoch": 2.983541647399213,
	"grad_norm": 0.9919777512550354,
	"learning_rate": 5.5058352784261424e-06,
	"loss": 0.2816,
	"step": 49600
	},
	{
	"epoch": 2.983541647399213,
	"eval_loss": 0.2515828311443329,
	"eval_runtime": 51.2113,
	"eval_samples_per_second": 195.269,
	"eval_steps_per_second": 24.409,
	"step": 49600
	},
	{
	"epoch": 2.989556852333486,
	"grad_norm": 0.9122774600982666,
	"learning_rate": 5.50483494498166e-06,
	"loss": 0.2832,
	"step": 49700
	},
	{
	"epoch": 2.989556852333486,
	"eval_loss": 0.25426608324050903,
	"eval_runtime": 51.098,
	"eval_samples_per_second": 195.702,
	"eval_steps_per_second": 24.463,
	"step": 49700
	},
	{
	"epoch": 2.9955720572677587,
	"grad_norm": 0.8778186440467834,
	"learning_rate": 5.503834611537179e-06,
	"loss": 0.2821,
	"step": 49800
	},
	{
	"epoch": 2.9955720572677587,
	"eval_loss": 0.2510456442832947,
	"eval_runtime": 51.0495,
	"eval_samples_per_second": 195.888,
	"eval_steps_per_second": 24.486,
	"step": 49800
	},
	{
	"epoch": 3.001587262202031,
	"grad_norm": 0.8645954132080078,
	"learning_rate": 5.502834278092698e-06,
	"loss": 0.283,
	"step": 49900
	},
	{
	"epoch": 3.001587262202031,
	"eval_loss": 0.2549561858177185,
	"eval_runtime": 51.1194,
	"eval_samples_per_second": 195.62,
	"eval_steps_per_second": 24.453,
	"step": 49900
	},
	{
	"epoch": 3.0076024671363037,
	"grad_norm": 0.971116304397583,
	"learning_rate": 5.501833944648216e-06,
	"loss": 0.2833,
	"step": 50000
	},
	{
	"epoch": 3.0076024671363037,
	"eval_loss": 0.24709643423557281,
	"eval_runtime": 50.6183,
	"eval_samples_per_second": 197.557,
	"eval_steps_per_second": 24.695,
	"step": 50000
	},
	{
	"epoch": 3.0136176720705765,
	"grad_norm": 0.9352070093154907,
	"learning_rate": 5.500833611203735e-06,
	"loss": 0.2829,
	"step": 50100
	},
	{
	"epoch": 3.0136176720705765,
	"eval_loss": 0.2510698139667511,
	"eval_runtime": 50.9108,
	"eval_samples_per_second": 196.422,
	"eval_steps_per_second": 24.553,
	"step": 50100
	},
	{
	"epoch": 3.019632877004849,
	"grad_norm": 0.8702713847160339,
	"learning_rate": 5.499833277759254e-06,
	"loss": 0.2806,
	"step": 50200
	},
	{
	"epoch": 3.019632877004849,
	"eval_loss": 0.25517037510871887,
	"eval_runtime": 51.143,
	"eval_samples_per_second": 195.53,
	"eval_steps_per_second": 24.441,
	"step": 50200
	},
	{
	"epoch": 3.0256480819391216,
	"grad_norm": 0.8589245676994324,
	"learning_rate": 5.498832944314772e-06,
	"loss": 0.2828,
	"step": 50300
	},
	{
	"epoch": 3.0256480819391216,
	"eval_loss": 0.25433140993118286,
	"eval_runtime": 48.9769,
	"eval_samples_per_second": 204.178,
	"eval_steps_per_second": 25.522,
	"step": 50300
	},
	{
	"epoch": 3.0316632868733944,
	"grad_norm": 0.8240871429443359,
	"learning_rate": 5.49783261087029e-06,
	"loss": 0.2786,
	"step": 50400
	},
	{
	"epoch": 3.0316632868733944,
	"eval_loss": 0.2537357807159424,
	"eval_runtime": 43.57,
	"eval_samples_per_second": 229.516,
	"eval_steps_per_second": 28.689,
	"step": 50400
	},
	{
	"epoch": 3.0376784918076667,
	"grad_norm": 0.8937031030654907,
	"learning_rate": 5.496832277425809e-06,
	"loss": 0.2818,
	"step": 50500
	},
	{
	"epoch": 3.0376784918076667,
	"eval_loss": 0.25536617636680603,
	"eval_runtime": 43.9342,
	"eval_samples_per_second": 227.613,
	"eval_steps_per_second": 28.452,
	"step": 50500
	},
	{
	"epoch": 3.0436936967419395,
	"grad_norm": 0.8851022720336914,
	"learning_rate": 5.495831943981327e-06,
	"loss": 0.28,
	"step": 50600
	},
	{
	"epoch": 3.0436936967419395,
	"eval_loss": 0.2511354684829712,
	"eval_runtime": 43.4697,
	"eval_samples_per_second": 230.045,
	"eval_steps_per_second": 28.756,
	"step": 50600
	},
	{
	"epoch": 3.0497089016762122,
	"grad_norm": 0.9308133125305176,
	"learning_rate": 5.494831610536846e-06,
	"loss": 0.2822,
	"step": 50700
	},
	{
	"epoch": 3.0497089016762122,
	"eval_loss": 0.2528564929962158,
	"eval_runtime": 38.8722,
	"eval_samples_per_second": 257.253,
	"eval_steps_per_second": 32.157,
	"step": 50700
	},
	{
	"epoch": 3.0557241066104845,
	"grad_norm": 1.0158571004867554,
	"learning_rate": 5.493831277092364e-06,
	"loss": 0.2829,
	"step": 50800
	},
	{
	"epoch": 3.0557241066104845,
	"eval_loss": 0.24908022582530975,
	"eval_runtime": 37.7881,
	"eval_samples_per_second": 264.634,
	"eval_steps_per_second": 33.079,
	"step": 50800
	},
	{
	"epoch": 3.0617393115447573,
	"grad_norm": 0.8238421082496643,
	"learning_rate": 5.492830943647883e-06,
	"loss": 0.2804,
	"step": 50900
	},
	{
	"epoch": 3.0617393115447573,
	"eval_loss": 0.24608242511749268,
	"eval_runtime": 40.8226,
	"eval_samples_per_second": 244.962,
	"eval_steps_per_second": 30.62,
	"step": 50900
	},
	{
	"epoch": 3.06775451647903,
	"grad_norm": 0.8686819672584534,
	"learning_rate": 5.491830610203402e-06,
	"loss": 0.2793,
	"step": 51000
	},
	{
	"epoch": 3.06775451647903,
	"eval_loss": 0.24653884768486023,
	"eval_runtime": 43.055,
	"eval_samples_per_second": 232.261,
	"eval_steps_per_second": 29.033,
	"step": 51000
	},
	{
	"epoch": 3.0737697214133024,
	"grad_norm": 0.9399664998054504,
	"learning_rate": 5.49083027675892e-06,
	"loss": 0.2812,
	"step": 51100
	},
	{
	"epoch": 3.0737697214133024,
	"eval_loss": 0.25110530853271484,
	"eval_runtime": 44.132,
	"eval_samples_per_second": 226.593,
	"eval_steps_per_second": 28.324,
	"step": 51100
	},
	{
	"epoch": 3.079784926347575,
	"grad_norm": 0.9775184988975525,
	"learning_rate": 5.489829943314438e-06,
	"loss": 0.2791,
	"step": 51200
	},
	{
	"epoch": 3.079784926347575,
	"eval_loss": 0.24785326421260834,
	"eval_runtime": 39.588,
	"eval_samples_per_second": 252.602,
	"eval_steps_per_second": 31.575,
	"step": 51200
	},
	{
	"epoch": 3.0858001312818475,
	"grad_norm": 0.9678452014923096,
	"learning_rate": 5.488829609869957e-06,
	"loss": 0.2799,
	"step": 51300
	},
	{
	"epoch": 3.0858001312818475,
	"eval_loss": 0.25371748208999634,
	"eval_runtime": 40.7507,
	"eval_samples_per_second": 245.395,
	"eval_steps_per_second": 30.674,
	"step": 51300
	},
	{
	"epoch": 3.0918153362161203,
	"grad_norm": 0.9417468309402466,
	"learning_rate": 5.487829276425475e-06,
	"loss": 0.2794,
	"step": 51400
	},
	{
	"epoch": 3.0918153362161203,
	"eval_loss": 0.2551732659339905,
	"eval_runtime": 42.2338,
	"eval_samples_per_second": 236.777,
	"eval_steps_per_second": 29.597,
	"step": 51400
	},
	{
	"epoch": 3.097830541150393,
	"grad_norm": 0.8855278491973877,
	"learning_rate": 5.486828942980994e-06,
	"loss": 0.2798,
	"step": 51500
	},
	{
	"epoch": 3.097830541150393,
	"eval_loss": 0.24791452288627625,
	"eval_runtime": 48.1906,
	"eval_samples_per_second": 207.509,
	"eval_steps_per_second": 25.939,
	"step": 51500
	},
	{
	"epoch": 3.1038457460846653,
	"grad_norm": 0.8699272274971008,
	"learning_rate": 5.485828609536512e-06,
	"loss": 0.2777,
	"step": 51600
	},
	{
	"epoch": 3.1038457460846653,
	"eval_loss": 0.24532942473888397,
	"eval_runtime": 45.8295,
	"eval_samples_per_second": 218.2,
	"eval_steps_per_second": 27.275,
	"step": 51600
	},
	{
	"epoch": 3.109860951018938,
	"grad_norm": 0.8299559950828552,
	"learning_rate": 5.484828276092031e-06,
	"loss": 0.277,
	"step": 51700
	},
	{
	"epoch": 3.109860951018938,
	"eval_loss": 0.24607662856578827,
	"eval_runtime": 46.3442,
	"eval_samples_per_second": 215.777,
	"eval_steps_per_second": 26.972,
	"step": 51700
	},
	{
	"epoch": 3.115876155953211,
	"grad_norm": 0.8937397003173828,
	"learning_rate": 5.48382794264755e-06,
	"loss": 0.2823,
	"step": 51800
	},
	{
	"epoch": 3.115876155953211,
	"eval_loss": 0.2510640621185303,
	"eval_runtime": 47.5854,
	"eval_samples_per_second": 210.148,
	"eval_steps_per_second": 26.269,
	"step": 51800
	},
	{
	"epoch": 3.121891360887483,
	"grad_norm": 0.7908412218093872,
	"learning_rate": 5.482827609203068e-06,
	"loss": 0.2764,
	"step": 51900
	},
	{
	"epoch": 3.121891360887483,
	"eval_loss": 0.24473002552986145,
	"eval_runtime": 48.2096,
	"eval_samples_per_second": 207.427,
	"eval_steps_per_second": 25.928,
	"step": 51900
	},
	{
	"epoch": 3.127906565821756,
	"grad_norm": 0.8543498516082764,
	"learning_rate": 5.481827275758586e-06,
	"loss": 0.2782,
	"step": 52000
	},
	{
	"epoch": 3.127906565821756,
	"eval_loss": 0.24760138988494873,
	"eval_runtime": 48.6773,
	"eval_samples_per_second": 205.435,
	"eval_steps_per_second": 25.679,
	"step": 52000
	},
	{
	"epoch": 3.1339217707560287,
	"grad_norm": 0.869742751121521,
	"learning_rate": 5.480826942314105e-06,
	"loss": 0.2778,
	"step": 52100
	},
	{
	"epoch": 3.1339217707560287,
	"eval_loss": 0.2506987452507019,
	"eval_runtime": 49.27,
	"eval_samples_per_second": 202.963,
	"eval_steps_per_second": 25.37,
	"step": 52100
	},
	{
	"epoch": 3.139936975690301,
	"grad_norm": 0.97697514295578,
	"learning_rate": 5.479826608869623e-06,
	"loss": 0.2765,
	"step": 52200
	},
	{
	"epoch": 3.139936975690301,
	"eval_loss": 0.248337984085083,
	"eval_runtime": 50.0788,
	"eval_samples_per_second": 199.685,
	"eval_steps_per_second": 24.961,
	"step": 52200
	},
	{
	"epoch": 3.145952180624574,
	"grad_norm": 0.9102049469947815,
	"learning_rate": 5.478826275425142e-06,
	"loss": 0.2776,
	"step": 52300
	},
	{
	"epoch": 3.145952180624574,
	"eval_loss": 0.24709181487560272,
	"eval_runtime": 50.384,
	"eval_samples_per_second": 198.476,
	"eval_steps_per_second": 24.809,
	"step": 52300
	},
	{
	"epoch": 3.151967385558846,
	"grad_norm": 0.9332506656646729,
	"learning_rate": 5.47782594198066e-06,
	"loss": 0.2777,
	"step": 52400
	},
	{
	"epoch": 3.151967385558846,
	"eval_loss": 0.2484249472618103,
	"eval_runtime": 50.292,
	"eval_samples_per_second": 198.839,
	"eval_steps_per_second": 24.855,
	"step": 52400
	},
	{
	"epoch": 3.157982590493119,
	"grad_norm": 0.8517917394638062,
	"learning_rate": 5.476825608536179e-06,
	"loss": 0.278,
	"step": 52500
	},
	{
	"epoch": 3.157982590493119,
	"eval_loss": 0.24207893013954163,
	"eval_runtime": 48.3341,
	"eval_samples_per_second": 206.893,
	"eval_steps_per_second": 25.862,
	"step": 52500
	},
	{
	"epoch": 3.1639977954273917,
	"grad_norm": 0.8629357814788818,
	"learning_rate": 5.475825275091698e-06,
	"loss": 0.2775,
	"step": 52600
	},
	{
	"epoch": 3.1639977954273917,
	"eval_loss": 0.24527695775032043,
	"eval_runtime": 50.4058,
	"eval_samples_per_second": 198.39,
	"eval_steps_per_second": 24.799,
	"step": 52600
	},
	{
	"epoch": 3.170013000361664,
	"grad_norm": 0.9194425940513611,
	"learning_rate": 5.4748249416472156e-06,
	"loss": 0.2775,
	"step": 52700
	},
	{
	"epoch": 3.170013000361664,
	"eval_loss": 0.2455427497625351,
	"eval_runtime": 48.0608,
	"eval_samples_per_second": 208.07,
	"eval_steps_per_second": 26.009,
	"step": 52700
	},
	{
	"epoch": 3.1760282052959368,
	"grad_norm": 0.8746848702430725,
	"learning_rate": 5.473824608202734e-06,
	"loss": 0.278,
	"step": 52800
	},
	{
	"epoch": 3.1760282052959368,
	"eval_loss": 0.24813415110111237,
	"eval_runtime": 42.6735,
	"eval_samples_per_second": 234.338,
	"eval_steps_per_second": 29.292,
	"step": 52800
	},
	{
	"epoch": 3.1820434102302095,
	"grad_norm": 0.9082689881324768,
	"learning_rate": 5.472824274758253e-06,
	"loss": 0.2732,
	"step": 52900
	},
	{
	"epoch": 3.1820434102302095,
	"eval_loss": 0.24827983975410461,
	"eval_runtime": 44.2364,
	"eval_samples_per_second": 226.058,
	"eval_steps_per_second": 28.257,
	"step": 52900
	},
	{
	"epoch": 3.188058615164482,
	"grad_norm": 0.8607956171035767,
	"learning_rate": 5.471823941313771e-06,
	"loss": 0.2772,
	"step": 53000
	},
	{
	"epoch": 3.188058615164482,
	"eval_loss": 0.24322330951690674,
	"eval_runtime": 44.8161,
	"eval_samples_per_second": 223.134,
	"eval_steps_per_second": 27.892,
	"step": 53000
	},
	{
	"epoch": 3.1940738200987546,
	"grad_norm": 0.9439307451248169,
	"learning_rate": 5.4708236078692896e-06,
	"loss": 0.2734,
	"step": 53100
	},
	{
	"epoch": 3.1940738200987546,
	"eval_loss": 0.24696892499923706,
	"eval_runtime": 47.0223,
	"eval_samples_per_second": 212.665,
	"eval_steps_per_second": 26.583,
	"step": 53100
	},
	{
	"epoch": 3.2000890250330274,
	"grad_norm": 1.0130066871643066,
	"learning_rate": 5.469823274424808e-06,
	"loss": 0.2737,
	"step": 53200
	},
	{
	"epoch": 3.2000890250330274,
	"eval_loss": 0.2521739602088928,
	"eval_runtime": 46.5164,
	"eval_samples_per_second": 214.978,
	"eval_steps_per_second": 26.872,
	"step": 53200
	},
	{
	"epoch": 3.2061042299672997,
	"grad_norm": 0.9969391822814941,
	"learning_rate": 5.468822940980327e-06,
	"loss": 0.2767,
	"step": 53300
	},
	{
	"epoch": 3.2061042299672997,
	"eval_loss": 0.25239297747612,
	"eval_runtime": 46.7418,
	"eval_samples_per_second": 213.941,
	"eval_steps_per_second": 26.743,
	"step": 53300
	},
	{
	"epoch": 3.2121194349015725,
	"grad_norm": 0.9380843639373779,
	"learning_rate": 5.467822607535846e-06,
	"loss": 0.2743,
	"step": 53400
	},
	{
	"epoch": 3.2121194349015725,
	"eval_loss": 0.2427060306072235,
	"eval_runtime": 47.8166,
	"eval_samples_per_second": 209.133,
	"eval_steps_per_second": 26.142,
	"step": 53400
	},
	{
	"epoch": 3.2181346398358452,
	"grad_norm": 0.8498116135597229,
	"learning_rate": 5.466822274091364e-06,
	"loss": 0.2752,
	"step": 53500
	},
	{
	"epoch": 3.2181346398358452,
	"eval_loss": 0.23972123861312866,
	"eval_runtime": 48.9235,
	"eval_samples_per_second": 204.401,
	"eval_steps_per_second": 25.55,
	"step": 53500
	},
	{
	"epoch": 3.2241498447701176,
	"grad_norm": 0.8372825980186462,
	"learning_rate": 5.465821940646882e-06,
	"loss": 0.273,
	"step": 53600
	},
	{
	"epoch": 3.2241498447701176,
	"eval_loss": 0.2440669685602188,
	"eval_runtime": 47.5669,
	"eval_samples_per_second": 210.23,
	"eval_steps_per_second": 26.279,
	"step": 53600
	},
	{
	"epoch": 3.2301650497043903,
	"grad_norm": 0.9698020815849304,
	"learning_rate": 5.464821607202401e-06,
	"loss": 0.2767,
	"step": 53700
	},
	{
	"epoch": 3.2301650497043903,
	"eval_loss": 0.23816044628620148,
	"eval_runtime": 34.9463,
	"eval_samples_per_second": 286.153,
	"eval_steps_per_second": 35.769,
	"step": 53700
	},
	{
	"epoch": 3.236180254638663,
	"grad_norm": 0.822875440120697,
	"learning_rate": 5.463821273757919e-06,
	"loss": 0.2751,
	"step": 53800
	},
	{
	"epoch": 3.236180254638663,
	"eval_loss": 0.24079230427742004,
	"eval_runtime": 35.4307,
	"eval_samples_per_second": 282.241,
	"eval_steps_per_second": 35.28,
	"step": 53800
	},
	{
	"epoch": 3.2421954595729354,
	"grad_norm": 0.8933221101760864,
	"learning_rate": 5.4628209403134375e-06,
	"loss": 0.2753,
	"step": 53900
	},
	{
	"epoch": 3.2421954595729354,
	"eval_loss": 0.25047245621681213,
	"eval_runtime": 36.1364,
	"eval_samples_per_second": 276.729,
	"eval_steps_per_second": 34.591,
	"step": 53900
	},
	{
	"epoch": 3.248210664507208,
	"grad_norm": 0.915135383605957,
	"learning_rate": 5.461820606868957e-06,
	"loss": 0.2736,
	"step": 54000
	},
	{
	"epoch": 3.248210664507208,
	"eval_loss": 0.24464978277683258,
	"eval_runtime": 35.7495,
	"eval_samples_per_second": 279.724,
	"eval_steps_per_second": 34.966,
	"step": 54000
	},
	{
	"epoch": 3.2542258694414805,
	"grad_norm": 0.8490029573440552,
	"learning_rate": 5.460820273424475e-06,
	"loss": 0.274,
	"step": 54100
	},
	{
	"epoch": 3.2542258694414805,
	"eval_loss": 0.2507534325122833,
	"eval_runtime": 38.4129,
	"eval_samples_per_second": 260.329,
	"eval_steps_per_second": 32.541,
	"step": 54100
	},
	{
	"epoch": 3.2602410743757533,
	"grad_norm": 0.9220608472824097,
	"learning_rate": 5.459819939979994e-06,
	"loss": 0.2736,
	"step": 54200
	},
	{
	"epoch": 3.2602410743757533,
	"eval_loss": 0.24634374678134918,
	"eval_runtime": 41.8157,
	"eval_samples_per_second": 239.145,
	"eval_steps_per_second": 29.893,
	"step": 54200
	},
	{
	"epoch": 3.266256279310026,
	"grad_norm": 0.8318041563034058,
	"learning_rate": 5.458819606535512e-06,
	"loss": 0.271,
	"step": 54300
	},
	{
	"epoch": 3.266256279310026,
	"eval_loss": 0.24672181904315948,
	"eval_runtime": 39.1233,
	"eval_samples_per_second": 255.602,
	"eval_steps_per_second": 31.95,
	"step": 54300
	},
	{
	"epoch": 3.2722714842442984,
	"grad_norm": 0.8373593091964722,
	"learning_rate": 5.45781927309103e-06,
	"loss": 0.272,
	"step": 54400
	},
	{
	"epoch": 3.2722714842442984,
	"eval_loss": 0.24106918275356293,
	"eval_runtime": 36.4825,
	"eval_samples_per_second": 274.104,
	"eval_steps_per_second": 34.263,
	"step": 54400
	},
	{
	"epoch": 3.278286689178571,
	"grad_norm": 0.8802669644355774,
	"learning_rate": 5.456818939646549e-06,
	"loss": 0.2683,
	"step": 54500
	},
	{
	"epoch": 3.278286689178571,
	"eval_loss": 0.24452929198741913,
	"eval_runtime": 33.0976,
	"eval_samples_per_second": 302.137,
	"eval_steps_per_second": 37.767,
	"step": 54500
	},
	{
	"epoch": 3.284301894112844,
	"grad_norm": 0.8867002129554749,
	"learning_rate": 5.455818606202067e-06,
	"loss": 0.2697,
	"step": 54600
	},
	{
	"epoch": 3.284301894112844,
	"eval_loss": 0.23936684429645538,
	"eval_runtime": 40.904,
	"eval_samples_per_second": 244.475,
	"eval_steps_per_second": 30.559,
	"step": 54600
	},
	{
	"epoch": 3.2903170990471162,
	"grad_norm": 0.91335529088974,
	"learning_rate": 5.454818272757586e-06,
	"loss": 0.2739,
	"step": 54700
	},
	{
	"epoch": 3.2903170990471162,
	"eval_loss": 0.24262717366218567,
	"eval_runtime": 43.6033,
	"eval_samples_per_second": 229.34,
	"eval_steps_per_second": 28.668,
	"step": 54700
	},
	{
	"epoch": 3.296332303981389,
	"grad_norm": 0.8662433624267578,
	"learning_rate": 5.453817939313105e-06,
	"loss": 0.2715,
	"step": 54800
	},
	{
	"epoch": 3.296332303981389,
	"eval_loss": 0.24885956943035126,
	"eval_runtime": 45.6743,
	"eval_samples_per_second": 218.942,
	"eval_steps_per_second": 27.368,
	"step": 54800
	},
	{
	"epoch": 3.3023475089156618,
	"grad_norm": 0.943458616733551,
	"learning_rate": 5.452817605868623e-06,
	"loss": 0.2709,
	"step": 54900
	},
	{
	"epoch": 3.3023475089156618,
	"eval_loss": 0.24570631980895996,
	"eval_runtime": 46.9183,
	"eval_samples_per_second": 213.136,
	"eval_steps_per_second": 26.642,
	"step": 54900
	},
	{
	"epoch": 3.308362713849934,
	"grad_norm": 0.8767443299293518,
	"learning_rate": 5.451817272424142e-06,
	"loss": 0.2724,
	"step": 55000
	},
	{
	"epoch": 3.308362713849934,
	"eval_loss": 0.24481208622455597,
	"eval_runtime": 47.56,
	"eval_samples_per_second": 210.261,
	"eval_steps_per_second": 26.283,
	"step": 55000
	},
	{
	"epoch": 3.314377918784207,
	"grad_norm": 0.9032852053642273,
	"learning_rate": 5.45081693897966e-06,
	"loss": 0.2733,
	"step": 55100
	},
	{
	"epoch": 3.314377918784207,
	"eval_loss": 0.24037285149097443,
	"eval_runtime": 48.5117,
	"eval_samples_per_second": 206.136,
	"eval_steps_per_second": 25.767,
	"step": 55100
	},
	{
	"epoch": 3.320393123718479,
	"grad_norm": 0.8414300084114075,
	"learning_rate": 5.449816605535178e-06,
	"loss": 0.2709,
	"step": 55200
	},
	{
	"epoch": 3.320393123718479,
	"eval_loss": 0.24620996415615082,
	"eval_runtime": 48.2151,
	"eval_samples_per_second": 207.404,
	"eval_steps_per_second": 25.925,
	"step": 55200
	},
	{
	"epoch": 3.326408328652752,
	"grad_norm": 0.9093489646911621,
	"learning_rate": 5.448816272090697e-06,
	"loss": 0.2683,
	"step": 55300
	},
	{
	"epoch": 3.326408328652752,
	"eval_loss": 0.24467670917510986,
	"eval_runtime": 49.7086,
	"eval_samples_per_second": 201.172,
	"eval_steps_per_second": 25.147,
	"step": 55300
	},
	{
	"epoch": 3.3324235335870247,
	"grad_norm": 0.920391857624054,
	"learning_rate": 5.447815938646216e-06,
	"loss": 0.2703,
	"step": 55400
	},
	{
	"epoch": 3.3324235335870247,
	"eval_loss": 0.24019140005111694,
	"eval_runtime": 50.0394,
	"eval_samples_per_second": 199.843,
	"eval_steps_per_second": 24.98,
	"step": 55400
	},
	{
	"epoch": 3.338438738521297,
	"grad_norm": 0.9286474585533142,
	"learning_rate": 5.446815605201734e-06,
	"loss": 0.2705,
	"step": 55500
	},
	{
	"epoch": 3.338438738521297,
	"eval_loss": 0.24543143808841705,
	"eval_runtime": 50.344,
	"eval_samples_per_second": 198.633,
	"eval_steps_per_second": 24.829,
	"step": 55500
	},
	{
	"epoch": 3.34445394345557,
	"grad_norm": 0.9175123572349548,
	"learning_rate": 5.445815271757253e-06,
	"loss": 0.2713,
	"step": 55600
	},
	{
	"epoch": 3.34445394345557,
	"eval_loss": 0.23898915946483612,
	"eval_runtime": 50.3195,
	"eval_samples_per_second": 198.73,
	"eval_steps_per_second": 24.841,
	"step": 55600
	},
	{
	"epoch": 3.3504691483898426,
	"grad_norm": 0.8990902900695801,
	"learning_rate": 5.444814938312771e-06,
	"loss": 0.2713,
	"step": 55700
	},
	{
	"epoch": 3.3504691483898426,
	"eval_loss": 0.24149462580680847,
	"eval_runtime": 50.7504,
	"eval_samples_per_second": 197.043,
	"eval_steps_per_second": 24.63,
	"step": 55700
	},
	{
	"epoch": 3.356484353324115,
	"grad_norm": 0.8217372298240662,
	"learning_rate": 5.4438146048682896e-06,
	"loss": 0.2694,
	"step": 55800
	},
	{
	"epoch": 3.356484353324115,
	"eval_loss": 0.24138091504573822,
	"eval_runtime": 50.9006,
	"eval_samples_per_second": 196.461,
	"eval_steps_per_second": 24.558,
	"step": 55800
	},
	{
	"epoch": 3.3624995582583876,
	"grad_norm": 0.8727395534515381,
	"learning_rate": 5.442814271423808e-06,
	"loss": 0.2694,
	"step": 55900
	},
	{
	"epoch": 3.3624995582583876,
	"eval_loss": 0.24046172201633453,
	"eval_runtime": 36.3936,
	"eval_samples_per_second": 274.773,
	"eval_steps_per_second": 34.347,
	"step": 55900
	},
	{
	"epoch": 3.3685147631926604,
	"grad_norm": 0.8453567028045654,
	"learning_rate": 5.441813937979326e-06,
	"loss": 0.2683,
	"step": 56000
	},
	{
	"epoch": 3.3685147631926604,
	"eval_loss": 0.24423474073410034,
	"eval_runtime": 50.8544,
	"eval_samples_per_second": 196.64,
	"eval_steps_per_second": 24.58,
	"step": 56000
	},
	{
	"epoch": 3.3745299681269327,
	"grad_norm": 0.86241614818573,
	"learning_rate": 5.440813604534845e-06,
	"loss": 0.2649,
	"step": 56100
	},
	{
	"epoch": 3.3745299681269327,
	"eval_loss": 0.2407056838274002,
	"eval_runtime": 50.778,
	"eval_samples_per_second": 196.936,
	"eval_steps_per_second": 24.617,
	"step": 56100
	},
	{
	"epoch": 3.3805451730612055,
	"grad_norm": 0.9142568111419678,
	"learning_rate": 5.4398132710903636e-06,
	"loss": 0.2696,
	"step": 56200
	},
	{
	"epoch": 3.3805451730612055,
	"eval_loss": 0.24098168313503265,
	"eval_runtime": 51.0703,
	"eval_samples_per_second": 195.809,
	"eval_steps_per_second": 24.476,
	"step": 56200
	},
	{
	"epoch": 3.386560377995478,
	"grad_norm": 0.8302989602088928,
	"learning_rate": 5.438812937645882e-06,
	"loss": 0.2695,
	"step": 56300
	},
	{
	"epoch": 3.386560377995478,
	"eval_loss": 0.23798757791519165,
	"eval_runtime": 50.9646,
	"eval_samples_per_second": 196.215,
	"eval_steps_per_second": 24.527,
	"step": 56300
	},
	{
	"epoch": 3.3925755829297506,
	"grad_norm": 0.8420681357383728,
	"learning_rate": 5.437812604201401e-06,
	"loss": 0.2682,
	"step": 56400
	},
	{
	"epoch": 3.3925755829297506,
	"eval_loss": 0.24360163509845734,
	"eval_runtime": 51.0498,
	"eval_samples_per_second": 195.887,
	"eval_steps_per_second": 24.486,
	"step": 56400
	},
	{
	"epoch": 3.3985907878640234,
	"grad_norm": 0.8456258773803711,
	"learning_rate": 5.436812270756919e-06,
	"loss": 0.2661,
	"step": 56500
	},
	{
	"epoch": 3.3985907878640234,
	"eval_loss": 0.23989547789096832,
	"eval_runtime": 49.5593,
	"eval_samples_per_second": 201.778,
	"eval_steps_per_second": 25.222,
	"step": 56500
	},
	{
	"epoch": 3.404605992798296,
	"grad_norm": 0.9097959399223328,
	"learning_rate": 5.4358119373124375e-06,
	"loss": 0.2684,
	"step": 56600
	},
	{
	"epoch": 3.404605992798296,
	"eval_loss": 0.2373836487531662,
	"eval_runtime": 48.7156,
	"eval_samples_per_second": 205.273,
	"eval_steps_per_second": 25.659,
	"step": 56600
	},
	{
	"epoch": 3.4106211977325684,
	"grad_norm": 0.8549370169639587,
	"learning_rate": 5.434811603867956e-06,
	"loss": 0.266,
	"step": 56700
	},
	{
	"epoch": 3.4106211977325684,
	"eval_loss": 0.2353491634130478,
	"eval_runtime": 48.0299,
	"eval_samples_per_second": 208.204,
	"eval_steps_per_second": 26.025,
	"step": 56700
	},
	{
	"epoch": 3.416636402666841,
	"grad_norm": 0.9058821797370911,
	"learning_rate": 5.433811270423474e-06,
	"loss": 0.2712,
	"step": 56800
	},
	{
	"epoch": 3.416636402666841,
	"eval_loss": 0.24013860523700714,
	"eval_runtime": 48.2564,
	"eval_samples_per_second": 207.226,
	"eval_steps_per_second": 25.903,
	"step": 56800
	},
	{
	"epoch": 3.4226516076011135,
	"grad_norm": 0.7843255400657654,
	"learning_rate": 5.432810936978993e-06,
	"loss": 0.2667,
	"step": 56900
	},
	{
	"epoch": 3.4226516076011135,
	"eval_loss": 0.2440056949853897,
	"eval_runtime": 49.156,
	"eval_samples_per_second": 203.434,
	"eval_steps_per_second": 25.429,
	"step": 56900
	},
	{
	"epoch": 3.4286668125353863,
	"grad_norm": 0.8476096987724304,
	"learning_rate": 5.4318106035345115e-06,
	"loss": 0.2647,
	"step": 57000
	},
	{
	"epoch": 3.4286668125353863,
	"eval_loss": 0.24185192584991455,
	"eval_runtime": 48.8755,
	"eval_samples_per_second": 204.602,
	"eval_steps_per_second": 25.575,
	"step": 57000
	},
	{
	"epoch": 3.434682017469659,
	"grad_norm": 0.8693493008613586,
	"learning_rate": 5.43081027009003e-06,
	"loss": 0.2667,
	"step": 57100
	},
	{
	"epoch": 3.434682017469659,
	"eval_loss": 0.23922978341579437,
	"eval_runtime": 49.1662,
	"eval_samples_per_second": 203.392,
	"eval_steps_per_second": 25.424,
	"step": 57100
	},
	{
	"epoch": 3.4406972224039314,
	"grad_norm": 0.7601708769798279,
	"learning_rate": 5.429809936645549e-06,
	"loss": 0.268,
	"step": 57200
	},
	{
	"epoch": 3.4406972224039314,
	"eval_loss": 0.2391706109046936,
	"eval_runtime": 49.6653,
	"eval_samples_per_second": 201.348,
	"eval_steps_per_second": 25.168,
	"step": 57200
	},
	{
	"epoch": 3.446712427338204,
	"grad_norm": 0.8476257920265198,
	"learning_rate": 5.428809603201068e-06,
	"loss": 0.2668,
	"step": 57300
	},
	{
	"epoch": 3.446712427338204,
	"eval_loss": 0.23998339474201202,
	"eval_runtime": 49.9477,
	"eval_samples_per_second": 200.209,
	"eval_steps_per_second": 25.026,
	"step": 57300
	},
	{
	"epoch": 3.452727632272477,
	"grad_norm": 0.9185997843742371,
	"learning_rate": 5.4278092697565855e-06,
	"loss": 0.2649,
	"step": 57400
	},
	{
	"epoch": 3.452727632272477,
	"eval_loss": 0.2374006062746048,
	"eval_runtime": 49.539,
	"eval_samples_per_second": 201.861,
	"eval_steps_per_second": 25.233,
	"step": 57400
	},
	{
	"epoch": 3.4587428372067492,
	"grad_norm": 0.8186565041542053,
	"learning_rate": 5.426808936312104e-06,
	"loss": 0.2667,
	"step": 57500
	},
	{
	"epoch": 3.4587428372067492,
	"eval_loss": 0.23729223012924194,
	"eval_runtime": 50.958,
	"eval_samples_per_second": 196.24,
	"eval_steps_per_second": 24.53,
	"step": 57500
	},
	{
	"epoch": 3.464758042141022,
	"grad_norm": 0.876054048538208,
	"learning_rate": 5.425808602867622e-06,
	"loss": 0.2644,
	"step": 57600
	},
	{
	"epoch": 3.464758042141022,
	"eval_loss": 0.2387179434299469,
	"eval_runtime": 36.8167,
	"eval_samples_per_second": 271.616,
	"eval_steps_per_second": 33.952,
	"step": 57600
	},
	{
	"epoch": 3.4707732470752948,
	"grad_norm": 0.8078221678733826,
	"learning_rate": 5.424808269423141e-06,
	"loss": 0.2671,
	"step": 57700
	},
	{
	"epoch": 3.4707732470752948,
	"eval_loss": 0.23494240641593933,
	"eval_runtime": 50.9663,
	"eval_samples_per_second": 196.208,
	"eval_steps_per_second": 24.526,
	"step": 57700
	},
	{
	"epoch": 3.476788452009567,
	"grad_norm": 0.8425822257995605,
	"learning_rate": 5.4238079359786595e-06,
	"loss": 0.2662,
	"step": 57800
	},
	{
	"epoch": 3.476788452009567,
	"eval_loss": 0.23349033296108246,
	"eval_runtime": 50.9349,
	"eval_samples_per_second": 196.329,
	"eval_steps_per_second": 24.541,
	"step": 57800
	},
	{
	"epoch": 3.48280365694384,
	"grad_norm": 0.8718583583831787,
	"learning_rate": 5.422807602534178e-06,
	"loss": 0.267,
	"step": 57900
	},
	{
	"epoch": 3.48280365694384,
	"eval_loss": 0.23534800112247467,
	"eval_runtime": 50.6689,
	"eval_samples_per_second": 197.36,
	"eval_steps_per_second": 24.67,
	"step": 57900
	},
	{
	"epoch": 3.488818861878112,
	"grad_norm": 0.8161312341690063,
	"learning_rate": 5.421807269089697e-06,
	"loss": 0.2641,
	"step": 58000
	},
	{
	"epoch": 3.488818861878112,
	"eval_loss": 0.23691873252391815,
	"eval_runtime": 50.9223,
	"eval_samples_per_second": 196.377,
	"eval_steps_per_second": 24.547,
	"step": 58000
	},
	{
	"epoch": 3.494834066812385,
	"grad_norm": 0.781482458114624,
	"learning_rate": 5.420806935645216e-06,
	"loss": 0.2652,
	"step": 58100
	},
	{
	"epoch": 3.494834066812385,
	"eval_loss": 0.2412412315607071,
	"eval_runtime": 51.059,
	"eval_samples_per_second": 195.852,
	"eval_steps_per_second": 24.481,
	"step": 58100
	},
	{
	"epoch": 3.5008492717466577,
	"grad_norm": 0.869367778301239,
	"learning_rate": 5.4198066022007335e-06,
	"loss": 0.2639,
	"step": 58200
	},
	{
	"epoch": 3.5008492717466577,
	"eval_loss": 0.23919972777366638,
	"eval_runtime": 50.9672,
	"eval_samples_per_second": 196.205,
	"eval_steps_per_second": 24.526,
	"step": 58200
	},
	{
	"epoch": 3.5068644766809305,
	"grad_norm": 0.8614550828933716,
	"learning_rate": 5.418806268756252e-06,
	"loss": 0.2637,
	"step": 58300
	},
	{
	"epoch": 3.5068644766809305,
	"eval_loss": 0.23232702910900116,
	"eval_runtime": 50.8155,
	"eval_samples_per_second": 196.79,
	"eval_steps_per_second": 24.599,
	"step": 58300
	},
	{
	"epoch": 3.512879681615203,
	"grad_norm": 0.9519971609115601,
	"learning_rate": 5.417805935311771e-06,
	"loss": 0.2636,
	"step": 58400
	},
	{
	"epoch": 3.512879681615203,
	"eval_loss": 0.2359647899866104,
	"eval_runtime": 51.0167,
	"eval_samples_per_second": 196.014,
	"eval_steps_per_second": 24.502,
	"step": 58400
	},
	{
	"epoch": 3.5188948865494756,
	"grad_norm": 0.7815201282501221,
	"learning_rate": 5.416805601867289e-06,
	"loss": 0.263,
	"step": 58500
	},
	{
	"epoch": 3.5188948865494756,
	"eval_loss": 0.2390337437391281,
	"eval_runtime": 50.9327,
	"eval_samples_per_second": 196.337,
	"eval_steps_per_second": 24.542,
	"step": 58500
	},
	{
	"epoch": 3.524910091483748,
	"grad_norm": 0.9015016555786133,
	"learning_rate": 5.415805268422808e-06,
	"loss": 0.2635,
	"step": 58600
	},
	{
	"epoch": 3.524910091483748,
	"eval_loss": 0.23515385389328003,
	"eval_runtime": 50.6423,
	"eval_samples_per_second": 197.463,
	"eval_steps_per_second": 24.683,
	"step": 58600
	},
	{
	"epoch": 3.5309252964180207,
	"grad_norm": 0.9041895866394043,
	"learning_rate": 5.414804934978326e-06,
	"loss": 0.2633,
	"step": 58700
	},
	{
	"epoch": 3.5309252964180207,
	"eval_loss": 0.2379036694765091,
	"eval_runtime": 50.2383,
	"eval_samples_per_second": 199.051,
	"eval_steps_per_second": 24.881,
	"step": 58700
	},
	{
	"epoch": 3.5369405013522934,
	"grad_norm": 0.884931743144989,
	"learning_rate": 5.413804601533845e-06,
	"loss": 0.2612,
	"step": 58800
	},
	{
	"epoch": 3.5369405013522934,
	"eval_loss": 0.23683039844036102,
	"eval_runtime": 50.2696,
	"eval_samples_per_second": 198.928,
	"eval_steps_per_second": 24.866,
	"step": 58800
	},
	{
	"epoch": 3.5429557062865658,
	"grad_norm": 0.862382709980011,
	"learning_rate": 5.4128042680893636e-06,
	"loss": 0.2623,
	"step": 58900
	},
	{
	"epoch": 3.5429557062865658,
	"eval_loss": 0.23638789355754852,
	"eval_runtime": 50.4759,
	"eval_samples_per_second": 198.114,
	"eval_steps_per_second": 24.764,
	"step": 58900
	},
	{
	"epoch": 3.5489709112208385,
	"grad_norm": 0.8239731788635254,
	"learning_rate": 5.4118039346448814e-06,
	"loss": 0.2652,
	"step": 59000
	},
	{
	"epoch": 3.5489709112208385,
	"eval_loss": 0.23644813895225525,
	"eval_runtime": 49.8805,
	"eval_samples_per_second": 200.479,
	"eval_steps_per_second": 25.06,
	"step": 59000
	},
	{
	"epoch": 3.554986116155111,
	"grad_norm": 0.8433008193969727,
	"learning_rate": 5.4108036012004e-06,
	"loss": 0.2628,
	"step": 59100
	},
	{
	"epoch": 3.554986116155111,
	"eval_loss": 0.23331347107887268,
	"eval_runtime": 50.0038,
	"eval_samples_per_second": 199.985,
	"eval_steps_per_second": 24.998,
	"step": 59100
	},
	{
	"epoch": 3.5610013210893836,
	"grad_norm": 0.8740643858909607,
	"learning_rate": 5.409803267755919e-06,
	"loss": 0.2615,
	"step": 59200
	},
	{
	"epoch": 3.5610013210893836,
	"eval_loss": 0.23751728236675262,
	"eval_runtime": 49.4105,
	"eval_samples_per_second": 202.386,
	"eval_steps_per_second": 25.298,
	"step": 59200
	},
	{
	"epoch": 3.5670165260236564,
	"grad_norm": 0.7903056144714355,
	"learning_rate": 5.4088029343114375e-06,
	"loss": 0.2621,
	"step": 59300
	},
	{
	"epoch": 3.5670165260236564,
	"eval_loss": 0.23228037357330322,
	"eval_runtime": 49.2273,
	"eval_samples_per_second": 203.139,
	"eval_steps_per_second": 25.392,
	"step": 59300
	},
	{
	"epoch": 3.573031730957929,
	"grad_norm": 0.8559598326683044,
	"learning_rate": 5.407802600866956e-06,
	"loss": 0.2621,
	"step": 59400
	},
	{
	"epoch": 3.573031730957929,
	"eval_loss": 0.23780353367328644,
	"eval_runtime": 49.4165,
	"eval_samples_per_second": 202.362,
	"eval_steps_per_second": 25.295,
	"step": 59400
	},
	{
	"epoch": 3.5790469358922015,
	"grad_norm": 0.9178751111030579,
	"learning_rate": 5.406802267422474e-06,
	"loss": 0.2635,
	"step": 59500
	},
	{
	"epoch": 3.5790469358922015,
	"eval_loss": 0.23736293613910675,
	"eval_runtime": 49.1576,
	"eval_samples_per_second": 203.427,
	"eval_steps_per_second": 25.428,
	"step": 59500
	},
	{
	"epoch": 3.5850621408264742,
	"grad_norm": 0.8310320377349854,
	"learning_rate": 5.405801933977993e-06,
	"loss": 0.2626,
	"step": 59600
	},
	{
	"epoch": 3.5850621408264742,
	"eval_loss": 0.2320030778646469,
	"eval_runtime": 49.4934,
	"eval_samples_per_second": 202.047,
	"eval_steps_per_second": 25.256,
	"step": 59600
	},
	{
	"epoch": 3.5910773457607466,
	"grad_norm": 0.7860143184661865,
	"learning_rate": 5.4048016005335115e-06,
	"loss": 0.2632,
	"step": 59700
	},
	{
	"epoch": 3.5910773457607466,
	"eval_loss": 0.2336650937795639,
	"eval_runtime": 49.1673,
	"eval_samples_per_second": 203.387,
	"eval_steps_per_second": 25.423,
	"step": 59700
	},
	{
	"epoch": 3.5970925506950193,
	"grad_norm": 0.836063027381897,
	"learning_rate": 5.403801267089029e-06,
	"loss": 0.2621,
	"step": 59800
	},
	{
	"epoch": 3.5970925506950193,
	"eval_loss": 0.23437707126140594,
	"eval_runtime": 49.5986,
	"eval_samples_per_second": 201.619,
	"eval_steps_per_second": 25.202,
	"step": 59800
	},
	{
	"epoch": 3.603107755629292,
	"grad_norm": 0.8768342137336731,
	"learning_rate": 5.402800933644548e-06,
	"loss": 0.2609,
	"step": 59900
	},
	{
	"epoch": 3.603107755629292,
	"eval_loss": 0.23560036718845367,
	"eval_runtime": 49.2225,
	"eval_samples_per_second": 203.159,
	"eval_steps_per_second": 25.395,
	"step": 59900
	},
	{
	"epoch": 3.6091229605635644,
	"grad_norm": 0.8093357682228088,
	"learning_rate": 5.401800600200067e-06,
	"loss": 0.26,
	"step": 60000
	},
	{
	"epoch": 3.6091229605635644,
	"eval_loss": 0.2340717762708664,
	"eval_runtime": 49.3844,
	"eval_samples_per_second": 202.493,
	"eval_steps_per_second": 25.312,
	"step": 60000
	},
	{
	"epoch": 3.615138165497837,
	"grad_norm": 0.8731770515441895,
	"learning_rate": 5.4008002667555855e-06,
	"loss": 0.2614,
	"step": 60100
	},
	{
	"epoch": 3.615138165497837,
	"eval_loss": 0.2342948466539383,
	"eval_runtime": 48.6563,
	"eval_samples_per_second": 205.523,
	"eval_steps_per_second": 25.69,
	"step": 60100
	},
	{
	"epoch": 3.6211533704321095,
	"grad_norm": 0.8906363844871521,
	"learning_rate": 5.399799933311104e-06,
	"loss": 0.2601,
	"step": 60200
	},
	{
	"epoch": 3.6211533704321095,
	"eval_loss": 0.2331141084432602,
	"eval_runtime": 49.3998,
	"eval_samples_per_second": 202.43,
	"eval_steps_per_second": 25.304,
	"step": 60200
	},
	{
	"epoch": 3.6271685753663823,
	"grad_norm": 0.8565790057182312,
	"learning_rate": 5.398799599866623e-06,
	"loss": 0.2603,
	"step": 60300
	},
	{
	"epoch": 3.6271685753663823,
	"eval_loss": 0.23420780897140503,
	"eval_runtime": 48.2983,
	"eval_samples_per_second": 207.046,
	"eval_steps_per_second": 25.881,
	"step": 60300
	},
	{
	"epoch": 3.633183780300655,
	"grad_norm": 0.9718087911605835,
	"learning_rate": 5.397799266422141e-06,
	"loss": 0.2635,
	"step": 60400
	},
	{
	"epoch": 3.633183780300655,
	"eval_loss": 0.2375570833683014,
	"eval_runtime": 48.9976,
	"eval_samples_per_second": 204.091,
	"eval_steps_per_second": 25.511,
	"step": 60400
	},
	{
	"epoch": 3.639198985234928,
	"grad_norm": 0.8572448492050171,
	"learning_rate": 5.3967989329776595e-06,
	"loss": 0.2626,
	"step": 60500
	},
	{
	"epoch": 3.639198985234928,
	"eval_loss": 0.23931777477264404,
	"eval_runtime": 49.0436,
	"eval_samples_per_second": 203.9,
	"eval_steps_per_second": 25.488,
	"step": 60500
	},
	{
	"epoch": 3.6452141901692,
	"grad_norm": 0.8994346857070923,
	"learning_rate": 5.395798599533177e-06,
	"loss": 0.2595,
	"step": 60600
	},
	{
	"epoch": 3.6452141901692,
	"eval_loss": 0.2317589819431305,
	"eval_runtime": 49.5846,
	"eval_samples_per_second": 201.675,
	"eval_steps_per_second": 25.209,
	"step": 60600
	},
	{
	"epoch": 3.651229395103473,
	"grad_norm": 0.8513436913490295,
	"learning_rate": 5.394798266088696e-06,
	"loss": 0.2614,
	"step": 60700
	},
	{
	"epoch": 3.651229395103473,
	"eval_loss": 0.23111025989055634,
	"eval_runtime": 49.7262,
	"eval_samples_per_second": 201.101,
	"eval_steps_per_second": 25.138,
	"step": 60700
	},
	{
	"epoch": 3.657244600037745,
	"grad_norm": 0.9126865267753601,
	"learning_rate": 5.393797932644215e-06,
	"loss": 0.2583,
	"step": 60800
	},
	{
	"epoch": 3.657244600037745,
	"eval_loss": 0.23351147770881653,
	"eval_runtime": 49.8967,
	"eval_samples_per_second": 200.414,
	"eval_steps_per_second": 25.052,
	"step": 60800
	},
	{
	"epoch": 3.663259804972018,
	"grad_norm": 0.8021876811981201,
	"learning_rate": 5.3927975991997335e-06,
	"loss": 0.2601,
	"step": 60900
	},
	{
	"epoch": 3.663259804972018,
	"eval_loss": 0.23443163931369781,
	"eval_runtime": 49.9056,
	"eval_samples_per_second": 200.378,
	"eval_steps_per_second": 25.047,
	"step": 60900
	},
	{
	"epoch": 3.6692750099062907,
	"grad_norm": 0.8586119413375854,
	"learning_rate": 5.391797265755252e-06,
	"loss": 0.2605,
	"step": 61000
	},
	{
	"epoch": 3.6692750099062907,
	"eval_loss": 0.229187473654747,
	"eval_runtime": 40.9269,
	"eval_samples_per_second": 244.338,
	"eval_steps_per_second": 30.542,
	"step": 61000
	},
	{
	"epoch": 3.6752902148405635,
	"grad_norm": 0.9336073398590088,
	"learning_rate": 5.390796932310771e-06,
	"loss": 0.2612,
	"step": 61100
	},
	{
	"epoch": 3.6752902148405635,
	"eval_loss": 0.23033183813095093,
	"eval_runtime": 49.8614,
	"eval_samples_per_second": 200.556,
	"eval_steps_per_second": 25.069,
	"step": 61100
	},
	{
	"epoch": 3.681305419774836,
	"grad_norm": 0.7944173812866211,
	"learning_rate": 5.389796598866289e-06,
	"loss": 0.2595,
	"step": 61200
	},
	{
	"epoch": 3.681305419774836,
	"eval_loss": 0.22884014248847961,
	"eval_runtime": 50.2375,
	"eval_samples_per_second": 199.055,
	"eval_steps_per_second": 24.882,
	"step": 61200
	},
	{
	"epoch": 3.6873206247091086,
	"grad_norm": 0.8038543462753296,
	"learning_rate": 5.3887962654218075e-06,
	"loss": 0.2588,
	"step": 61300
	},
	{
	"epoch": 3.6873206247091086,
	"eval_loss": 0.23328329622745514,
	"eval_runtime": 51.0649,
	"eval_samples_per_second": 195.829,
	"eval_steps_per_second": 24.479,
	"step": 61300
	},
	{
	"epoch": 3.693335829643381,
	"grad_norm": 0.8919224143028259,
	"learning_rate": 5.387795931977326e-06,
	"loss": 0.2592,
	"step": 61400
	},
	{
	"epoch": 3.693335829643381,
	"eval_loss": 0.23098503053188324,
	"eval_runtime": 51.0915,
	"eval_samples_per_second": 195.727,
	"eval_steps_per_second": 24.466,
	"step": 61400
	},
	{
	"epoch": 3.6993510345776537,
	"grad_norm": 0.81063312292099,
	"learning_rate": 5.386795598532844e-06,
	"loss": 0.2598,
	"step": 61500
	},
	{
	"epoch": 3.6993510345776537,
	"eval_loss": 0.23130032420158386,
	"eval_runtime": 51.1499,
	"eval_samples_per_second": 195.504,
	"eval_steps_per_second": 24.438,
	"step": 61500
	},
	{
	"epoch": 3.7053662395119265,
	"grad_norm": 0.8565428853034973,
	"learning_rate": 5.385795265088363e-06,
	"loss": 0.2569,
	"step": 61600
	},
	{
	"epoch": 3.7053662395119265,
	"eval_loss": 0.23042194545269012,
	"eval_runtime": 51.0719,
	"eval_samples_per_second": 195.802,
	"eval_steps_per_second": 24.475,
	"step": 61600
	},
	{
	"epoch": 3.7113814444461988,
	"grad_norm": 0.8808117508888245,
	"learning_rate": 5.3847949316438814e-06,
	"loss": 0.2579,
	"step": 61700
	},
	{
	"epoch": 3.7113814444461988,
	"eval_loss": 0.22964029014110565,
	"eval_runtime": 51.1788,
	"eval_samples_per_second": 195.393,
	"eval_steps_per_second": 24.424,
	"step": 61700
	},
	{
	"epoch": 3.7173966493804715,
	"grad_norm": 0.8812440037727356,
	"learning_rate": 5.3837945981994e-06,
	"loss": 0.2568,
	"step": 61800
	},
	{
	"epoch": 3.7173966493804715,
	"eval_loss": 0.23177900910377502,
	"eval_runtime": 51.1658,
	"eval_samples_per_second": 195.443,
	"eval_steps_per_second": 24.43,
	"step": 61800
	},
	{
	"epoch": 3.723411854314744,
	"grad_norm": 0.8692899346351624,
	"learning_rate": 5.382794264754919e-06,
	"loss": 0.2567,
	"step": 61900
	},
	{
	"epoch": 3.723411854314744,
	"eval_loss": 0.23119042813777924,
	"eval_runtime": 51.1394,
	"eval_samples_per_second": 195.544,
	"eval_steps_per_second": 24.443,
	"step": 61900
	},
	{
	"epoch": 3.7294270592490166,
	"grad_norm": 0.8057258725166321,
	"learning_rate": 5.381793931310437e-06,
	"loss": 0.2574,
	"step": 62000
	},
	{
	"epoch": 3.7294270592490166,
	"eval_loss": 0.2311127930879593,
	"eval_runtime": 51.1109,
	"eval_samples_per_second": 195.653,
	"eval_steps_per_second": 24.457,
	"step": 62000
	},
	{
	"epoch": 3.7354422641832894,
	"grad_norm": 0.7970178127288818,
	"learning_rate": 5.380793597865955e-06,
	"loss": 0.2589,
	"step": 62100
	},
	{
	"epoch": 3.7354422641832894,
	"eval_loss": 0.2320980727672577,
	"eval_runtime": 51.1619,
	"eval_samples_per_second": 195.458,
	"eval_steps_per_second": 24.432,
	"step": 62100
	},
	{
	"epoch": 3.741457469117562,
	"grad_norm": 0.8987645506858826,
	"learning_rate": 5.379793264421474e-06,
	"loss": 0.2565,
	"step": 62200
	},
	{
	"epoch": 3.741457469117562,
	"eval_loss": 0.22809037566184998,
	"eval_runtime": 51.1437,
	"eval_samples_per_second": 195.527,
	"eval_steps_per_second": 24.441,
	"step": 62200
	},
	{
	"epoch": 3.7474726740518345,
	"grad_norm": 0.8491466641426086,
	"learning_rate": 5.378792930976992e-06,
	"loss": 0.2572,
	"step": 62300
	},
	{
	"epoch": 3.7474726740518345,
	"eval_loss": 0.23448967933654785,
	"eval_runtime": 51.1016,
	"eval_samples_per_second": 195.688,
	"eval_steps_per_second": 24.461,
	"step": 62300
	},
	{
	"epoch": 3.7534878789861073,
	"grad_norm": 0.8310768008232117,
	"learning_rate": 5.377792597532511e-06,
	"loss": 0.2558,
	"step": 62400
	},
	{
	"epoch": 3.7534878789861073,
	"eval_loss": 0.2314356416463852,
	"eval_runtime": 51.1436,
	"eval_samples_per_second": 195.528,
	"eval_steps_per_second": 24.441,
	"step": 62400
	},
	{
	"epoch": 3.7595030839203796,
	"grad_norm": 0.8902222514152527,
	"learning_rate": 5.376792264088029e-06,
	"loss": 0.256,
	"step": 62500
	},
	{
	"epoch": 3.7595030839203796,
	"eval_loss": 0.23469364643096924,
	"eval_runtime": 51.1102,
	"eval_samples_per_second": 195.656,
	"eval_steps_per_second": 24.457,
	"step": 62500
	},
	{
	"epoch": 3.7655182888546523,
	"grad_norm": 0.7377832531929016,
	"learning_rate": 5.375791930643548e-06,
	"loss": 0.2574,
	"step": 62600
	},
	{
	"epoch": 3.7655182888546523,
	"eval_loss": 0.23291806876659393,
	"eval_runtime": 51.1312,
	"eval_samples_per_second": 195.575,
	"eval_steps_per_second": 24.447,
	"step": 62600
	},
	{
	"epoch": 3.771533493788925,
	"grad_norm": 0.7997824549674988,
	"learning_rate": 5.374791597199067e-06,
	"loss": 0.257,
	"step": 62700
	},
	{
	"epoch": 3.771533493788925,
	"eval_loss": 0.23000933229923248,
	"eval_runtime": 48.2655,
	"eval_samples_per_second": 207.187,
	"eval_steps_per_second": 25.898,
	"step": 62700
	},
	{
	"epoch": 3.7775486987231974,
	"grad_norm": 0.8683999180793762,
	"learning_rate": 5.373791263754585e-06,
	"loss": 0.2564,
	"step": 62800
	},
	{
	"epoch": 3.7775486987231974,
	"eval_loss": 0.23462143540382385,
	"eval_runtime": 51.0748,
	"eval_samples_per_second": 195.791,
	"eval_steps_per_second": 24.474,
	"step": 62800
	},
	{
	"epoch": 3.78356390365747,
	"grad_norm": 0.8755656480789185,
	"learning_rate": 5.372790930310103e-06,
	"loss": 0.2558,
	"step": 62900
	},
	{
	"epoch": 3.78356390365747,
	"eval_loss": 0.23621977865695953,
	"eval_runtime": 51.1202,
	"eval_samples_per_second": 195.617,
	"eval_steps_per_second": 24.452,
	"step": 62900
	},
	{
	"epoch": 3.7895791085917425,
	"grad_norm": 0.9032362699508667,
	"learning_rate": 5.371790596865622e-06,
	"loss": 0.2551,
	"step": 63000
	},
	{
	"epoch": 3.7895791085917425,
	"eval_loss": 0.2294510453939438,
	"eval_runtime": 51.1388,
	"eval_samples_per_second": 195.546,
	"eval_steps_per_second": 24.443,
	"step": 63000
	}
	],
	"logging_steps": 100,
	"max_steps": 600000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 37,
	"save_steps": 1000,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 8
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.304354533994406e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}