Model save

315932c verified 7 months ago

163 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 645,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004662004662004662,
	"grad_norm": 206.61297042982778,
	"learning_rate": 0.0,
	"loss": 6.0047,
	"mean_token_accuracy": 0.26166820526123047,
	"num_tokens": 9481.0,
	"step": 1
	},
	{
	"epoch": 0.009324009324009324,
	"grad_norm": 237.90030179764935,
	"learning_rate": 1.5384615384615387e-07,
	"loss": 5.9896,
	"mean_token_accuracy": 0.26549550890922546,
	"num_tokens": 18486.0,
	"step": 2
	},
	{
	"epoch": 0.013986013986013986,
	"grad_norm": 191.565778458644,
	"learning_rate": 3.0769230769230774e-07,
	"loss": 5.8697,
	"mean_token_accuracy": 0.26646704971790314,
	"num_tokens": 28054.0,
	"step": 3
	},
	{
	"epoch": 0.018648018648018648,
	"grad_norm": 173.73423360043478,
	"learning_rate": 4.615384615384616e-07,
	"loss": 5.7664,
	"mean_token_accuracy": 0.28080685436725616,
	"num_tokens": 38100.0,
	"step": 4
	},
	{
	"epoch": 0.023310023310023312,
	"grad_norm": 188.53311568741194,
	"learning_rate": 6.153846153846155e-07,
	"loss": 6.1116,
	"mean_token_accuracy": 0.24714654684066772,
	"num_tokens": 46674.0,
	"step": 5
	},
	{
	"epoch": 0.027972027972027972,
	"grad_norm": 138.50157116139866,
	"learning_rate": 7.692307692307694e-07,
	"loss": 5.7375,
	"mean_token_accuracy": 0.2682064026594162,
	"num_tokens": 55892.0,
	"step": 6
	},
	{
	"epoch": 0.03263403263403263,
	"grad_norm": 137.331644930486,
	"learning_rate": 9.230769230769232e-07,
	"loss": 5.7865,
	"mean_token_accuracy": 0.2567756175994873,
	"num_tokens": 64557.0,
	"step": 7
	},
	{
	"epoch": 0.037296037296037296,
	"grad_norm": 113.93237748074404,
	"learning_rate": 1.076923076923077e-06,
	"loss": 5.4186,
	"mean_token_accuracy": 0.2943734973669052,
	"num_tokens": 74534.0,
	"step": 8
	},
	{
	"epoch": 0.04195804195804196,
	"grad_norm": 97.42189347532377,
	"learning_rate": 1.230769230769231e-06,
	"loss": 5.1123,
	"mean_token_accuracy": 0.29780860245227814,
	"num_tokens": 84839.0,
	"step": 9
	},
	{
	"epoch": 0.046620046620046623,
	"grad_norm": 115.13017773253503,
	"learning_rate": 1.3846153846153848e-06,
	"loss": 5.0274,
	"mean_token_accuracy": 0.30082090198993683,
	"num_tokens": 94486.0,
	"step": 10
	},
	{
	"epoch": 0.05128205128205128,
	"grad_norm": 92.86208928347652,
	"learning_rate": 1.5384615384615387e-06,
	"loss": 4.8261,
	"mean_token_accuracy": 0.31195709109306335,
	"num_tokens": 103901.0,
	"step": 11
	},
	{
	"epoch": 0.055944055944055944,
	"grad_norm": 74.98678911328179,
	"learning_rate": 1.6923076923076926e-06,
	"loss": 4.3226,
	"mean_token_accuracy": 0.332173153758049,
	"num_tokens": 113421.0,
	"step": 12
	},
	{
	"epoch": 0.06060606060606061,
	"grad_norm": 65.42071488824216,
	"learning_rate": 1.8461538461538465e-06,
	"loss": 4.1213,
	"mean_token_accuracy": 0.34372538328170776,
	"num_tokens": 122888.0,
	"step": 13
	},
	{
	"epoch": 0.06526806526806526,
	"grad_norm": 51.76685372566078,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 3.8684,
	"mean_token_accuracy": 0.36909155547618866,
	"num_tokens": 132046.0,
	"step": 14
	},
	{
	"epoch": 0.06993006993006994,
	"grad_norm": 47.330915768289,
	"learning_rate": 2.153846153846154e-06,
	"loss": 3.5595,
	"mean_token_accuracy": 0.4020439237356186,
	"num_tokens": 141586.0,
	"step": 15
	},
	{
	"epoch": 0.07459207459207459,
	"grad_norm": 39.592533375514385,
	"learning_rate": 2.307692307692308e-06,
	"loss": 3.0525,
	"mean_token_accuracy": 0.46130137145519257,
	"num_tokens": 151366.0,
	"step": 16
	},
	{
	"epoch": 0.07925407925407925,
	"grad_norm": 38.681099075404326,
	"learning_rate": 2.461538461538462e-06,
	"loss": 2.8418,
	"mean_token_accuracy": 0.47952745854854584,
	"num_tokens": 160361.0,
	"step": 17
	},
	{
	"epoch": 0.08391608391608392,
	"grad_norm": 26.957564440869795,
	"learning_rate": 2.615384615384616e-06,
	"loss": 2.4668,
	"mean_token_accuracy": 0.5341931283473969,
	"num_tokens": 170716.0,
	"step": 18
	},
	{
	"epoch": 0.08857808857808858,
	"grad_norm": 29.725894005554363,
	"learning_rate": 2.7692307692307697e-06,
	"loss": 2.4476,
	"mean_token_accuracy": 0.530603438615799,
	"num_tokens": 179378.0,
	"step": 19
	},
	{
	"epoch": 0.09324009324009325,
	"grad_norm": 22.45654494245414,
	"learning_rate": 2.9230769230769236e-06,
	"loss": 1.9608,
	"mean_token_accuracy": 0.6144967377185822,
	"num_tokens": 189155.0,
	"step": 20
	},
	{
	"epoch": 0.0979020979020979,
	"grad_norm": 22.420677559887096,
	"learning_rate": 3.0769230769230774e-06,
	"loss": 1.8408,
	"mean_token_accuracy": 0.6224100291728973,
	"num_tokens": 198128.0,
	"step": 21
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 20.045412685294725,
	"learning_rate": 3.2307692307692313e-06,
	"loss": 1.5358,
	"mean_token_accuracy": 0.668096661567688,
	"num_tokens": 207526.0,
	"step": 22
	},
	{
	"epoch": 0.10722610722610723,
	"grad_norm": 17.826429643351467,
	"learning_rate": 3.384615384615385e-06,
	"loss": 1.3385,
	"mean_token_accuracy": 0.7064461410045624,
	"num_tokens": 217437.0,
	"step": 23
	},
	{
	"epoch": 0.11188811188811189,
	"grad_norm": 14.795248732817978,
	"learning_rate": 3.538461538461539e-06,
	"loss": 1.1874,
	"mean_token_accuracy": 0.728604257106781,
	"num_tokens": 226725.0,
	"step": 24
	},
	{
	"epoch": 0.11655011655011654,
	"grad_norm": 16.367290617286876,
	"learning_rate": 3.692307692307693e-06,
	"loss": 0.9682,
	"mean_token_accuracy": 0.7707604169845581,
	"num_tokens": 235721.0,
	"step": 25
	},
	{
	"epoch": 0.12121212121212122,
	"grad_norm": 9.588756303110177,
	"learning_rate": 3.846153846153847e-06,
	"loss": 0.8884,
	"mean_token_accuracy": 0.7929337918758392,
	"num_tokens": 244662.0,
	"step": 26
	},
	{
	"epoch": 0.1258741258741259,
	"grad_norm": 7.015049125629419,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.7978,
	"mean_token_accuracy": 0.8093675374984741,
	"num_tokens": 254047.0,
	"step": 27
	},
	{
	"epoch": 0.13053613053613053,
	"grad_norm": 5.597049269802009,
	"learning_rate": 4.1538461538461545e-06,
	"loss": 0.7933,
	"mean_token_accuracy": 0.8108646273612976,
	"num_tokens": 262770.0,
	"step": 28
	},
	{
	"epoch": 0.1351981351981352,
	"grad_norm": 12.495340171422823,
	"learning_rate": 4.307692307692308e-06,
	"loss": 0.7206,
	"mean_token_accuracy": 0.8183692693710327,
	"num_tokens": 272936.0,
	"step": 29
	},
	{
	"epoch": 0.13986013986013987,
	"grad_norm": 4.8146353297051325,
	"learning_rate": 4.461538461538462e-06,
	"loss": 0.7378,
	"mean_token_accuracy": 0.8188252151012421,
	"num_tokens": 282677.0,
	"step": 30
	},
	{
	"epoch": 0.1445221445221445,
	"grad_norm": 4.397488614777519,
	"learning_rate": 4.615384615384616e-06,
	"loss": 0.7168,
	"mean_token_accuracy": 0.8155234456062317,
	"num_tokens": 291851.0,
	"step": 31
	},
	{
	"epoch": 0.14918414918414918,
	"grad_norm": 3.8407813105595707,
	"learning_rate": 4.76923076923077e-06,
	"loss": 0.653,
	"mean_token_accuracy": 0.8314312100410461,
	"num_tokens": 300775.0,
	"step": 32
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 3.9490135740465506,
	"learning_rate": 4.923076923076924e-06,
	"loss": 0.6982,
	"mean_token_accuracy": 0.8216440379619598,
	"num_tokens": 309003.0,
	"step": 33
	},
	{
	"epoch": 0.1585081585081585,
	"grad_norm": 3.1111593206661423,
	"learning_rate": 5.076923076923077e-06,
	"loss": 0.6367,
	"mean_token_accuracy": 0.8357088267803192,
	"num_tokens": 318722.0,
	"step": 34
	},
	{
	"epoch": 0.16317016317016317,
	"grad_norm": 3.8540200089616787,
	"learning_rate": 5.230769230769232e-06,
	"loss": 0.6725,
	"mean_token_accuracy": 0.8249399065971375,
	"num_tokens": 328363.0,
	"step": 35
	},
	{
	"epoch": 0.16783216783216784,
	"grad_norm": 3.2279851487302533,
	"learning_rate": 5.384615384615385e-06,
	"loss": 0.6361,
	"mean_token_accuracy": 0.8352257907390594,
	"num_tokens": 337298.0,
	"step": 36
	},
	{
	"epoch": 0.17249417249417248,
	"grad_norm": 3.2846323967634277,
	"learning_rate": 5.538461538461539e-06,
	"loss": 0.585,
	"mean_token_accuracy": 0.8430881202220917,
	"num_tokens": 346068.0,
	"step": 37
	},
	{
	"epoch": 0.17715617715617715,
	"grad_norm": 3.201411224226897,
	"learning_rate": 5.692307692307692e-06,
	"loss": 0.6067,
	"mean_token_accuracy": 0.8457746207714081,
	"num_tokens": 354566.0,
	"step": 38
	},
	{
	"epoch": 0.18181818181818182,
	"grad_norm": 3.603688713367759,
	"learning_rate": 5.846153846153847e-06,
	"loss": 0.5355,
	"mean_token_accuracy": 0.860386848449707,
	"num_tokens": 363662.0,
	"step": 39
	},
	{
	"epoch": 0.1864801864801865,
	"grad_norm": 3.095744451514778,
	"learning_rate": 6e-06,
	"loss": 0.6101,
	"mean_token_accuracy": 0.8404548466205597,
	"num_tokens": 372778.0,
	"step": 40
	},
	{
	"epoch": 0.19114219114219114,
	"grad_norm": 2.851157082704997,
	"learning_rate": 6.153846153846155e-06,
	"loss": 0.5961,
	"mean_token_accuracy": 0.8459599018096924,
	"num_tokens": 381990.0,
	"step": 41
	},
	{
	"epoch": 0.1958041958041958,
	"grad_norm": 2.920481788097288,
	"learning_rate": 6.307692307692308e-06,
	"loss": 0.6033,
	"mean_token_accuracy": 0.8439716398715973,
	"num_tokens": 390764.0,
	"step": 42
	},
	{
	"epoch": 0.20046620046620048,
	"grad_norm": 2.6590805207702877,
	"learning_rate": 6.461538461538463e-06,
	"loss": 0.5411,
	"mean_token_accuracy": 0.8539808988571167,
	"num_tokens": 399544.0,
	"step": 43
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 2.869045415372655,
	"learning_rate": 6.615384615384616e-06,
	"loss": 0.5994,
	"mean_token_accuracy": 0.8429957032203674,
	"num_tokens": 408895.0,
	"step": 44
	},
	{
	"epoch": 0.2097902097902098,
	"grad_norm": 2.5632574285139693,
	"learning_rate": 6.76923076923077e-06,
	"loss": 0.5474,
	"mean_token_accuracy": 0.8559859097003937,
	"num_tokens": 417528.0,
	"step": 45
	},
	{
	"epoch": 0.21445221445221446,
	"grad_norm": 3.0716143926843213,
	"learning_rate": 6.923076923076923e-06,
	"loss": 0.5659,
	"mean_token_accuracy": 0.8473467230796814,
	"num_tokens": 426632.0,
	"step": 46
	},
	{
	"epoch": 0.2191142191142191,
	"grad_norm": 2.816132536269355,
	"learning_rate": 7.076923076923078e-06,
	"loss": 0.6149,
	"mean_token_accuracy": 0.8401601612567902,
	"num_tokens": 435698.0,
	"step": 47
	},
	{
	"epoch": 0.22377622377622378,
	"grad_norm": 2.4694488487146544,
	"learning_rate": 7.230769230769231e-06,
	"loss": 0.5604,
	"mean_token_accuracy": 0.8553016185760498,
	"num_tokens": 444865.0,
	"step": 48
	},
	{
	"epoch": 0.22843822843822845,
	"grad_norm": 2.534416309991065,
	"learning_rate": 7.384615384615386e-06,
	"loss": 0.5465,
	"mean_token_accuracy": 0.8501911461353302,
	"num_tokens": 454293.0,
	"step": 49
	},
	{
	"epoch": 0.2331002331002331,
	"grad_norm": 2.5987473992591994,
	"learning_rate": 7.538461538461539e-06,
	"loss": 0.5779,
	"mean_token_accuracy": 0.846989244222641,
	"num_tokens": 463669.0,
	"step": 50
	},
	{
	"epoch": 0.23776223776223776,
	"grad_norm": 2.9304334416656035,
	"learning_rate": 7.692307692307694e-06,
	"loss": 0.5951,
	"mean_token_accuracy": 0.842944860458374,
	"num_tokens": 472913.0,
	"step": 51
	},
	{
	"epoch": 0.24242424242424243,
	"grad_norm": 2.557007651858603,
	"learning_rate": 7.846153846153847e-06,
	"loss": 0.5522,
	"mean_token_accuracy": 0.8499407768249512,
	"num_tokens": 482966.0,
	"step": 52
	},
	{
	"epoch": 0.24708624708624707,
	"grad_norm": 2.413067290036643,
	"learning_rate": 8.000000000000001e-06,
	"loss": 0.556,
	"mean_token_accuracy": 0.8527302443981171,
	"num_tokens": 491361.0,
	"step": 53
	},
	{
	"epoch": 0.2517482517482518,
	"grad_norm": 2.3167133059321765,
	"learning_rate": 8.153846153846154e-06,
	"loss": 0.5474,
	"mean_token_accuracy": 0.8524684011936188,
	"num_tokens": 500582.0,
	"step": 54
	},
	{
	"epoch": 0.2564102564102564,
	"grad_norm": 2.459059208267421,
	"learning_rate": 8.307692307692309e-06,
	"loss": 0.5474,
	"mean_token_accuracy": 0.8470076322555542,
	"num_tokens": 510444.0,
	"step": 55
	},
	{
	"epoch": 0.26107226107226106,
	"grad_norm": 2.3850596138441955,
	"learning_rate": 8.461538461538462e-06,
	"loss": 0.5477,
	"mean_token_accuracy": 0.8558304607868195,
	"num_tokens": 519595.0,
	"step": 56
	},
	{
	"epoch": 0.26573426573426573,
	"grad_norm": 2.425014600765099,
	"learning_rate": 8.615384615384617e-06,
	"loss": 0.5312,
	"mean_token_accuracy": 0.856484979391098,
	"num_tokens": 529256.0,
	"step": 57
	},
	{
	"epoch": 0.2703962703962704,
	"grad_norm": 2.41544921845608,
	"learning_rate": 8.76923076923077e-06,
	"loss": 0.5581,
	"mean_token_accuracy": 0.8501502573490143,
	"num_tokens": 538883.0,
	"step": 58
	},
	{
	"epoch": 0.27505827505827507,
	"grad_norm": 2.3601513682778537,
	"learning_rate": 8.923076923076925e-06,
	"loss": 0.5381,
	"mean_token_accuracy": 0.8557923436164856,
	"num_tokens": 547820.0,
	"step": 59
	},
	{
	"epoch": 0.27972027972027974,
	"grad_norm": 2.5228638625713815,
	"learning_rate": 9.076923076923078e-06,
	"loss": 0.5478,
	"mean_token_accuracy": 0.8510215282440186,
	"num_tokens": 556572.0,
	"step": 60
	},
	{
	"epoch": 0.28438228438228436,
	"grad_norm": 2.4788861740314925,
	"learning_rate": 9.230769230769232e-06,
	"loss": 0.5702,
	"mean_token_accuracy": 0.8453376293182373,
	"num_tokens": 565988.0,
	"step": 61
	},
	{
	"epoch": 0.289044289044289,
	"grad_norm": 2.443670735215224,
	"learning_rate": 9.384615384615385e-06,
	"loss": 0.5701,
	"mean_token_accuracy": 0.8493904769420624,
	"num_tokens": 575388.0,
	"step": 62
	},
	{
	"epoch": 0.2937062937062937,
	"grad_norm": 2.51188327450779,
	"learning_rate": 9.53846153846154e-06,
	"loss": 0.6161,
	"mean_token_accuracy": 0.8381120562553406,
	"num_tokens": 584991.0,
	"step": 63
	},
	{
	"epoch": 0.29836829836829837,
	"grad_norm": 2.4568944814979763,
	"learning_rate": 9.692307692307693e-06,
	"loss": 0.5544,
	"mean_token_accuracy": 0.8492381870746613,
	"num_tokens": 594666.0,
	"step": 64
	},
	{
	"epoch": 0.30303030303030304,
	"grad_norm": 2.3543409090851872,
	"learning_rate": 9.846153846153848e-06,
	"loss": 0.5627,
	"mean_token_accuracy": 0.8481525778770447,
	"num_tokens": 603192.0,
	"step": 65
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 2.516015882056836,
	"learning_rate": 1e-05,
	"loss": 0.5518,
	"mean_token_accuracy": 0.8509586453437805,
	"num_tokens": 612501.0,
	"step": 66
	},
	{
	"epoch": 0.3123543123543124,
	"grad_norm": 2.5702229906928626,
	"learning_rate": 9.999933987646821e-06,
	"loss": 0.5652,
	"mean_token_accuracy": 0.8515127599239349,
	"num_tokens": 621564.0,
	"step": 67
	},
	{
	"epoch": 0.317016317016317,
	"grad_norm": 2.311235457272914,
	"learning_rate": 9.99973595252401e-06,
	"loss": 0.5007,
	"mean_token_accuracy": 0.8656518757343292,
	"num_tokens": 630726.0,
	"step": 68
	},
	{
	"epoch": 0.32167832167832167,
	"grad_norm": 2.3626760252822736,
	"learning_rate": 9.999405900441683e-06,
	"loss": 0.5291,
	"mean_token_accuracy": 0.8573567271232605,
	"num_tokens": 639950.0,
	"step": 69
	},
	{
	"epoch": 0.32634032634032634,
	"grad_norm": 2.5106829719874733,
	"learning_rate": 9.998943841083179e-06,
	"loss": 0.5333,
	"mean_token_accuracy": 0.8539510667324066,
	"num_tokens": 649402.0,
	"step": 70
	},
	{
	"epoch": 0.331002331002331,
	"grad_norm": 2.374126097719514,
	"learning_rate": 9.99834978800478e-06,
	"loss": 0.5136,
	"mean_token_accuracy": 0.8584230840206146,
	"num_tokens": 658474.0,
	"step": 71
	},
	{
	"epoch": 0.3356643356643357,
	"grad_norm": 2.2734777943143945,
	"learning_rate": 9.997623758635298e-06,
	"loss": 0.5469,
	"mean_token_accuracy": 0.8496910333633423,
	"num_tokens": 667908.0,
	"step": 72
	},
	{
	"epoch": 0.34032634032634035,
	"grad_norm": 2.5255087017576043,
	"learning_rate": 9.996765774275587e-06,
	"loss": 0.527,
	"mean_token_accuracy": 0.8526964783668518,
	"num_tokens": 677532.0,
	"step": 73
	},
	{
	"epoch": 0.34498834498834496,
	"grad_norm": 2.2143213966162216,
	"learning_rate": 9.995775860097897e-06,
	"loss": 0.5219,
	"mean_token_accuracy": 0.8588562309741974,
	"num_tokens": 686796.0,
	"step": 74
	},
	{
	"epoch": 0.34965034965034963,
	"grad_norm": 2.1934169241509665,
	"learning_rate": 9.994654045145142e-06,
	"loss": 0.5401,
	"mean_token_accuracy": 0.8564260303974152,
	"num_tokens": 695776.0,
	"step": 75
	},
	{
	"epoch": 0.3543123543123543,
	"grad_norm": 2.153560775154425,
	"learning_rate": 9.993400362330058e-06,
	"loss": 0.5446,
	"mean_token_accuracy": 0.8583995997905731,
	"num_tokens": 704530.0,
	"step": 76
	},
	{
	"epoch": 0.358974358974359,
	"grad_norm": 2.128801081198065,
	"learning_rate": 9.992014848434221e-06,
	"loss": 0.5363,
	"mean_token_accuracy": 0.8531051576137543,
	"num_tokens": 714123.0,
	"step": 77
	},
	{
	"epoch": 0.36363636363636365,
	"grad_norm": 2.312071712839466,
	"learning_rate": 9.990497544106981e-06,
	"loss": 0.5344,
	"mean_token_accuracy": 0.8557191491127014,
	"num_tokens": 723719.0,
	"step": 78
	},
	{
	"epoch": 0.3682983682983683,
	"grad_norm": 2.4795067817061573,
	"learning_rate": 9.988848493864259e-06,
	"loss": 0.5597,
	"mean_token_accuracy": 0.8507181704044342,
	"num_tokens": 733447.0,
	"step": 79
	},
	{
	"epoch": 0.372960372960373,
	"grad_norm": 2.2998442504007452,
	"learning_rate": 9.987067746087251e-06,
	"loss": 0.5467,
	"mean_token_accuracy": 0.8498886525630951,
	"num_tokens": 742567.0,
	"step": 80
	},
	{
	"epoch": 0.3776223776223776,
	"grad_norm": 2.220780163026348,
	"learning_rate": 9.985155353021004e-06,
	"loss": 0.538,
	"mean_token_accuracy": 0.8577711582183838,
	"num_tokens": 751488.0,
	"step": 81
	},
	{
	"epoch": 0.3822843822843823,
	"grad_norm": 2.23769737502521,
	"learning_rate": 9.983111370772877e-06,
	"loss": 0.5375,
	"mean_token_accuracy": 0.8561404347419739,
	"num_tokens": 760518.0,
	"step": 82
	},
	{
	"epoch": 0.38694638694638694,
	"grad_norm": 2.3468431520556243,
	"learning_rate": 9.980935859310907e-06,
	"loss": 0.5071,
	"mean_token_accuracy": 0.8601345419883728,
	"num_tokens": 769855.0,
	"step": 83
	},
	{
	"epoch": 0.3916083916083916,
	"grad_norm": 2.420088401775177,
	"learning_rate": 9.97862888246204e-06,
	"loss": 0.5517,
	"mean_token_accuracy": 0.8494808971881866,
	"num_tokens": 780309.0,
	"step": 84
	},
	{
	"epoch": 0.3962703962703963,
	"grad_norm": 2.1832026417273864,
	"learning_rate": 9.976190507910265e-06,
	"loss": 0.5007,
	"mean_token_accuracy": 0.8591891229152679,
	"num_tokens": 790560.0,
	"step": 85
	},
	{
	"epoch": 0.40093240093240096,
	"grad_norm": 2.217081826161623,
	"learning_rate": 9.97362080719462e-06,
	"loss": 0.4945,
	"mean_token_accuracy": 0.8628792762756348,
	"num_tokens": 799972.0,
	"step": 86
	},
	{
	"epoch": 0.40559440559440557,
	"grad_norm": 2.1021603924715877,
	"learning_rate": 9.970919855707103e-06,
	"loss": 0.5149,
	"mean_token_accuracy": 0.8582651615142822,
	"num_tokens": 808998.0,
	"step": 87
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 2.2137525851668163,
	"learning_rate": 9.968087732690452e-06,
	"loss": 0.5643,
	"mean_token_accuracy": 0.8490354120731354,
	"num_tokens": 818322.0,
	"step": 88
	},
	{
	"epoch": 0.4149184149184149,
	"grad_norm": 2.1357303202881193,
	"learning_rate": 9.965124521235827e-06,
	"loss": 0.5465,
	"mean_token_accuracy": 0.8538801968097687,
	"num_tokens": 828468.0,
	"step": 89
	},
	{
	"epoch": 0.4195804195804196,
	"grad_norm": 2.144386382606401,
	"learning_rate": 9.962030308280363e-06,
	"loss": 0.5598,
	"mean_token_accuracy": 0.8531892895698547,
	"num_tokens": 836909.0,
	"step": 90
	},
	{
	"epoch": 0.42424242424242425,
	"grad_norm": 2.120216517402183,
	"learning_rate": 9.958805184604631e-06,
	"loss": 0.508,
	"mean_token_accuracy": 0.8650859892368317,
	"num_tokens": 845651.0,
	"step": 91
	},
	{
	"epoch": 0.4289044289044289,
	"grad_norm": 2.3227262446712014,
	"learning_rate": 9.955449244829966e-06,
	"loss": 0.5533,
	"mean_token_accuracy": 0.850572019815445,
	"num_tokens": 854858.0,
	"step": 92
	},
	{
	"epoch": 0.43356643356643354,
	"grad_norm": 2.0524529217213985,
	"learning_rate": 9.95196258741569e-06,
	"loss": 0.5097,
	"mean_token_accuracy": 0.8616639971733093,
	"num_tokens": 863666.0,
	"step": 93
	},
	{
	"epoch": 0.4382284382284382,
	"grad_norm": 2.178830324772212,
	"learning_rate": 9.948345314656234e-06,
	"loss": 0.513,
	"mean_token_accuracy": 0.8623040318489075,
	"num_tokens": 873307.0,
	"step": 94
	},
	{
	"epoch": 0.4428904428904429,
	"grad_norm": 2.178878661646046,
	"learning_rate": 9.94459753267812e-06,
	"loss": 0.5377,
	"mean_token_accuracy": 0.851812869310379,
	"num_tokens": 882337.0,
	"step": 95
	},
	{
	"epoch": 0.44755244755244755,
	"grad_norm": 2.2151123798224366,
	"learning_rate": 9.94071935143687e-06,
	"loss": 0.527,
	"mean_token_accuracy": 0.8585948050022125,
	"num_tokens": 891528.0,
	"step": 96
	},
	{
	"epoch": 0.4522144522144522,
	"grad_norm": 2.153917534671565,
	"learning_rate": 9.936710884713752e-06,
	"loss": 0.5136,
	"mean_token_accuracy": 0.8649525940418243,
	"num_tokens": 900782.0,
	"step": 97
	},
	{
	"epoch": 0.4568764568764569,
	"grad_norm": 2.0747029950901057,
	"learning_rate": 9.932572250112469e-06,
	"loss": 0.5389,
	"mean_token_accuracy": 0.8555485904216766,
	"num_tokens": 909811.0,
	"step": 98
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 1.983982143931433,
	"learning_rate": 9.92830356905569e-06,
	"loss": 0.4814,
	"mean_token_accuracy": 0.8693816661834717,
	"num_tokens": 919377.0,
	"step": 99
	},
	{
	"epoch": 0.4662004662004662,
	"grad_norm": 2.1327543713500603,
	"learning_rate": 9.923904966781496e-06,
	"loss": 0.5515,
	"mean_token_accuracy": 0.8478606641292572,
	"num_tokens": 929132.0,
	"step": 100
	},
	{
	"epoch": 0.47086247086247085,
	"grad_norm": 2.396154142849225,
	"learning_rate": 9.919376572339703e-06,
	"loss": 0.5521,
	"mean_token_accuracy": 0.8526241481304169,
	"num_tokens": 938942.0,
	"step": 101
	},
	{
	"epoch": 0.4755244755244755,
	"grad_norm": 2.1649063337799603,
	"learning_rate": 9.914718518588076e-06,
	"loss": 0.5689,
	"mean_token_accuracy": 0.8482916951179504,
	"num_tokens": 948271.0,
	"step": 102
	},
	{
	"epoch": 0.4801864801864802,
	"grad_norm": 2.0645529438999506,
	"learning_rate": 9.909930942188436e-06,
	"loss": 0.5219,
	"mean_token_accuracy": 0.8553557991981506,
	"num_tokens": 957852.0,
	"step": 103
	},
	{
	"epoch": 0.48484848484848486,
	"grad_norm": 2.221579905396912,
	"learning_rate": 9.905013983602639e-06,
	"loss": 0.5092,
	"mean_token_accuracy": 0.8628838658332825,
	"num_tokens": 967455.0,
	"step": 104
	},
	{
	"epoch": 0.48951048951048953,
	"grad_norm": 2.1265754888438533,
	"learning_rate": 9.899967787088468e-06,
	"loss": 0.5494,
	"mean_token_accuracy": 0.849203497171402,
	"num_tokens": 977978.0,
	"step": 105
	},
	{
	"epoch": 0.49417249417249415,
	"grad_norm": 2.1206984788420145,
	"learning_rate": 9.89479250069539e-06,
	"loss": 0.513,
	"mean_token_accuracy": 0.8621029257774353,
	"num_tokens": 987423.0,
	"step": 106
	},
	{
	"epoch": 0.4988344988344988,
	"grad_norm": 2.2958737279282917,
	"learning_rate": 9.889488276260222e-06,
	"loss": 0.5562,
	"mean_token_accuracy": 0.8555387854576111,
	"num_tokens": 996656.0,
	"step": 107
	},
	{
	"epoch": 0.5034965034965035,
	"grad_norm": 2.2321368229532443,
	"learning_rate": 9.88405526940267e-06,
	"loss": 0.5579,
	"mean_token_accuracy": 0.854218989610672,
	"num_tokens": 1005952.0,
	"step": 108
	},
	{
	"epoch": 0.5081585081585082,
	"grad_norm": 2.145064834641496,
	"learning_rate": 9.87849363952076e-06,
	"loss": 0.525,
	"mean_token_accuracy": 0.8584134578704834,
	"num_tokens": 1015020.0,
	"step": 109
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 2.2441739750519316,
	"learning_rate": 9.872803549786177e-06,
	"loss": 0.542,
	"mean_token_accuracy": 0.8544652462005615,
	"num_tokens": 1023815.0,
	"step": 110
	},
	{
	"epoch": 0.5174825174825175,
	"grad_norm": 2.259110803475594,
	"learning_rate": 9.866985167139453e-06,
	"loss": 0.5356,
	"mean_token_accuracy": 0.8533321619033813,
	"num_tokens": 1032375.0,
	"step": 111
	},
	{
	"epoch": 0.5221445221445221,
	"grad_norm": 2.1512979801268095,
	"learning_rate": 9.861038662285093e-06,
	"loss": 0.5272,
	"mean_token_accuracy": 0.8559562265872955,
	"num_tokens": 1041287.0,
	"step": 112
	},
	{
	"epoch": 0.5268065268065268,
	"grad_norm": 2.0895533173369616,
	"learning_rate": 9.854964209686555e-06,
	"loss": 0.5578,
	"mean_token_accuracy": 0.8457550704479218,
	"num_tokens": 1052277.0,
	"step": 113
	},
	{
	"epoch": 0.5314685314685315,
	"grad_norm": 2.07804701176361,
	"learning_rate": 9.848761987561132e-06,
	"loss": 0.5587,
	"mean_token_accuracy": 0.8497881889343262,
	"num_tokens": 1061624.0,
	"step": 114
	},
	{
	"epoch": 0.5361305361305362,
	"grad_norm": 2.029504980400925,
	"learning_rate": 9.842432177874725e-06,
	"loss": 0.5222,
	"mean_token_accuracy": 0.8595547080039978,
	"num_tokens": 1070577.0,
	"step": 115
	},
	{
	"epoch": 0.5407925407925408,
	"grad_norm": 1.9605500161506988,
	"learning_rate": 9.835974966336504e-06,
	"loss": 0.49,
	"mean_token_accuracy": 0.8654608428478241,
	"num_tokens": 1080819.0,
	"step": 116
	},
	{
	"epoch": 0.5454545454545454,
	"grad_norm": 2.2122252988560223,
	"learning_rate": 9.82939054239346e-06,
	"loss": 0.5679,
	"mean_token_accuracy": 0.8448387086391449,
	"num_tokens": 1089899.0,
	"step": 117
	},
	{
	"epoch": 0.5501165501165501,
	"grad_norm": 2.072420046717628,
	"learning_rate": 9.822679099224844e-06,
	"loss": 0.5611,
	"mean_token_accuracy": 0.8533997237682343,
	"num_tokens": 1099422.0,
	"step": 118
	},
	{
	"epoch": 0.5547785547785548,
	"grad_norm": 2.2414814409383754,
	"learning_rate": 9.815840833736508e-06,
	"loss": 0.5222,
	"mean_token_accuracy": 0.8619909286499023,
	"num_tokens": 1108059.0,
	"step": 119
	},
	{
	"epoch": 0.5594405594405595,
	"grad_norm": 1.945252737941495,
	"learning_rate": 9.808875946555109e-06,
	"loss": 0.5034,
	"mean_token_accuracy": 0.8639355599880219,
	"num_tokens": 1117344.0,
	"step": 120
	},
	{
	"epoch": 0.5641025641025641,
	"grad_norm": 1.8638080342388037,
	"learning_rate": 9.801784642022254e-06,
	"loss": 0.4565,
	"mean_token_accuracy": 0.8745285272598267,
	"num_tokens": 1126493.0,
	"step": 121
	},
	{
	"epoch": 0.5687645687645687,
	"grad_norm": 2.1910077292347006,
	"learning_rate": 9.794567128188466e-06,
	"loss": 0.5313,
	"mean_token_accuracy": 0.8547643721103668,
	"num_tokens": 1135454.0,
	"step": 122
	},
	{
	"epoch": 0.5734265734265734,
	"grad_norm": 2.320759590932711,
	"learning_rate": 9.787223616807118e-06,
	"loss": 0.5518,
	"mean_token_accuracy": 0.8485196530818939,
	"num_tokens": 1145120.0,
	"step": 123
	},
	{
	"epoch": 0.578088578088578,
	"grad_norm": 2.205905846852017,
	"learning_rate": 9.779754323328192e-06,
	"loss": 0.5135,
	"mean_token_accuracy": 0.8605582118034363,
	"num_tokens": 1154569.0,
	"step": 124
	},
	{
	"epoch": 0.5827505827505828,
	"grad_norm": 1.9377848593966973,
	"learning_rate": 9.772159466891971e-06,
	"loss": 0.4979,
	"mean_token_accuracy": 0.8665166199207306,
	"num_tokens": 1163964.0,
	"step": 125
	},
	{
	"epoch": 0.5874125874125874,
	"grad_norm": 2.143716998667602,
	"learning_rate": 9.764439270322612e-06,
	"loss": 0.5332,
	"mean_token_accuracy": 0.8567988276481628,
	"num_tokens": 1172705.0,
	"step": 126
	},
	{
	"epoch": 0.5920745920745921,
	"grad_norm": 1.9575201068560006,
	"learning_rate": 9.756593960121598e-06,
	"loss": 0.4744,
	"mean_token_accuracy": 0.8642941415309906,
	"num_tokens": 1182428.0,
	"step": 127
	},
	{
	"epoch": 0.5967365967365967,
	"grad_norm": 2.057073316572943,
	"learning_rate": 9.748623766461101e-06,
	"loss": 0.5236,
	"mean_token_accuracy": 0.8576280772686005,
	"num_tokens": 1191692.0,
	"step": 128
	},
	{
	"epoch": 0.6013986013986014,
	"grad_norm": 2.315109150829485,
	"learning_rate": 9.740528923177227e-06,
	"loss": 0.5901,
	"mean_token_accuracy": 0.8435404002666473,
	"num_tokens": 1200804.0,
	"step": 129
	},
	{
	"epoch": 0.6060606060606061,
	"grad_norm": 2.160355676496633,
	"learning_rate": 9.732309667763158e-06,
	"loss": 0.5131,
	"mean_token_accuracy": 0.8617720901966095,
	"num_tokens": 1209500.0,
	"step": 130
	},
	{
	"epoch": 0.6107226107226107,
	"grad_norm": 2.1245956205330776,
	"learning_rate": 9.723966241362178e-06,
	"loss": 0.5508,
	"mean_token_accuracy": 0.8526682257652283,
	"num_tokens": 1218360.0,
	"step": 131
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 1.9474554252940732,
	"learning_rate": 9.7154988887606e-06,
	"loss": 0.5172,
	"mean_token_accuracy": 0.8601753413677216,
	"num_tokens": 1227995.0,
	"step": 132
	},
	{
	"epoch": 0.62004662004662,
	"grad_norm": 2.0598106310347886,
	"learning_rate": 9.706907858380593e-06,
	"loss": 0.5292,
	"mean_token_accuracy": 0.853904515504837,
	"num_tokens": 1237369.0,
	"step": 133
	},
	{
	"epoch": 0.6247086247086248,
	"grad_norm": 2.167359943385511,
	"learning_rate": 9.69819340227288e-06,
	"loss": 0.5337,
	"mean_token_accuracy": 0.8580853343009949,
	"num_tokens": 1246811.0,
	"step": 134
	},
	{
	"epoch": 0.6293706293706294,
	"grad_norm": 2.0419581939057703,
	"learning_rate": 9.68935577610935e-06,
	"loss": 0.5584,
	"mean_token_accuracy": 0.8511963188648224,
	"num_tokens": 1257728.0,
	"step": 135
	},
	{
	"epoch": 0.634032634032634,
	"grad_norm": 2.179167067571999,
	"learning_rate": 9.680395239175563e-06,
	"loss": 0.547,
	"mean_token_accuracy": 0.8516505658626556,
	"num_tokens": 1267082.0,
	"step": 136
	},
	{
	"epoch": 0.6386946386946387,
	"grad_norm": 2.1523271385107843,
	"learning_rate": 9.671312054363126e-06,
	"loss": 0.5097,
	"mean_token_accuracy": 0.8639609515666962,
	"num_tokens": 1276457.0,
	"step": 137
	},
	{
	"epoch": 0.6433566433566433,
	"grad_norm": 2.2140190778794717,
	"learning_rate": 9.662106488162001e-06,
	"loss": 0.5353,
	"mean_token_accuracy": 0.8548583686351776,
	"num_tokens": 1285816.0,
	"step": 138
	},
	{
	"epoch": 0.6480186480186481,
	"grad_norm": 1.9892790673234197,
	"learning_rate": 9.652778810652669e-06,
	"loss": 0.5141,
	"mean_token_accuracy": 0.85847008228302,
	"num_tokens": 1294833.0,
	"step": 139
	},
	{
	"epoch": 0.6526806526806527,
	"grad_norm": 2.138516925288519,
	"learning_rate": 9.643329295498215e-06,
	"loss": 0.5171,
	"mean_token_accuracy": 0.8615297675132751,
	"num_tokens": 1304626.0,
	"step": 140
	},
	{
	"epoch": 0.6573426573426573,
	"grad_norm": 2.2563369591379376,
	"learning_rate": 9.633758219936299e-06,
	"loss": 0.5306,
	"mean_token_accuracy": 0.8586675524711609,
	"num_tokens": 1314352.0,
	"step": 141
	},
	{
	"epoch": 0.662004662004662,
	"grad_norm": 2.1291835975325446,
	"learning_rate": 9.624065864771017e-06,
	"loss": 0.5387,
	"mean_token_accuracy": 0.854125052690506,
	"num_tokens": 1323815.0,
	"step": 142
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 1.9289636352361732,
	"learning_rate": 9.614252514364671e-06,
	"loss": 0.5302,
	"mean_token_accuracy": 0.8544224202632904,
	"num_tokens": 1333085.0,
	"step": 143
	},
	{
	"epoch": 0.6713286713286714,
	"grad_norm": 2.142108471781227,
	"learning_rate": 9.604318456629415e-06,
	"loss": 0.5841,
	"mean_token_accuracy": 0.8435969054698944,
	"num_tokens": 1342490.0,
	"step": 144
	},
	{
	"epoch": 0.675990675990676,
	"grad_norm": 2.256848010848965,
	"learning_rate": 9.594263983018818e-06,
	"loss": 0.5644,
	"mean_token_accuracy": 0.8460557162761688,
	"num_tokens": 1351579.0,
	"step": 145
	},
	{
	"epoch": 0.6806526806526807,
	"grad_norm": 2.0607158153594343,
	"learning_rate": 9.584089388519307e-06,
	"loss": 0.525,
	"mean_token_accuracy": 0.8550526797771454,
	"num_tokens": 1363017.0,
	"step": 146
	},
	{
	"epoch": 0.6853146853146853,
	"grad_norm": 2.0404326207258223,
	"learning_rate": 9.573794971641518e-06,
	"loss": 0.5067,
	"mean_token_accuracy": 0.8611325323581696,
	"num_tokens": 1372276.0,
	"step": 147
	},
	{
	"epoch": 0.6899766899766899,
	"grad_norm": 2.017662742079808,
	"learning_rate": 9.563381034411529e-06,
	"loss": 0.5173,
	"mean_token_accuracy": 0.8577908575534821,
	"num_tokens": 1381474.0,
	"step": 148
	},
	{
	"epoch": 0.6946386946386947,
	"grad_norm": 2.2063297261619668,
	"learning_rate": 9.55284788236201e-06,
	"loss": 0.5575,
	"mean_token_accuracy": 0.8511577248573303,
	"num_tokens": 1390844.0,
	"step": 149
	},
	{
	"epoch": 0.6993006993006993,
	"grad_norm": 2.2322560935923295,
	"learning_rate": 9.542195824523251e-06,
	"loss": 0.4993,
	"mean_token_accuracy": 0.8618028461933136,
	"num_tokens": 1399649.0,
	"step": 150
	},
	{
	"epoch": 0.703962703962704,
	"grad_norm": 2.1940354248783667,
	"learning_rate": 9.531425173414095e-06,
	"loss": 0.5766,
	"mean_token_accuracy": 0.8469588458538055,
	"num_tokens": 1409096.0,
	"step": 151
	},
	{
	"epoch": 0.7086247086247086,
	"grad_norm": 2.276091425733425,
	"learning_rate": 9.520536245032783e-06,
	"loss": 0.6052,
	"mean_token_accuracy": 0.8366052806377411,
	"num_tokens": 1417944.0,
	"step": 152
	},
	{
	"epoch": 0.7132867132867133,
	"grad_norm": 2.199611556073951,
	"learning_rate": 9.509529358847655e-06,
	"loss": 0.5454,
	"mean_token_accuracy": 0.853013813495636,
	"num_tokens": 1427079.0,
	"step": 153
	},
	{
	"epoch": 0.717948717948718,
	"grad_norm": 2.080422260259384,
	"learning_rate": 9.498404837787811e-06,
	"loss": 0.5353,
	"mean_token_accuracy": 0.8578924536705017,
	"num_tokens": 1436521.0,
	"step": 154
	},
	{
	"epoch": 0.7226107226107226,
	"grad_norm": 1.9852264975254732,
	"learning_rate": 9.48716300823361e-06,
	"loss": 0.5259,
	"mean_token_accuracy": 0.862900048494339,
	"num_tokens": 1445553.0,
	"step": 155
	},
	{
	"epoch": 0.7272727272727273,
	"grad_norm": 2.0020640140351738,
	"learning_rate": 9.475804200007104e-06,
	"loss": 0.5327,
	"mean_token_accuracy": 0.8615141212940216,
	"num_tokens": 1453774.0,
	"step": 156
	},
	{
	"epoch": 0.7319347319347319,
	"grad_norm": 2.1863487215175392,
	"learning_rate": 9.464328746362367e-06,
	"loss": 0.5588,
	"mean_token_accuracy": 0.8489395678043365,
	"num_tokens": 1462611.0,
	"step": 157
	},
	{
	"epoch": 0.7365967365967366,
	"grad_norm": 2.4020487040671084,
	"learning_rate": 9.452736983975708e-06,
	"loss": 0.4923,
	"mean_token_accuracy": 0.8653963208198547,
	"num_tokens": 1471736.0,
	"step": 158
	},
	{
	"epoch": 0.7412587412587412,
	"grad_norm": 2.1281438451825987,
	"learning_rate": 9.441029252935804e-06,
	"loss": 0.5397,
	"mean_token_accuracy": 0.8503198325634003,
	"num_tokens": 1482117.0,
	"step": 159
	},
	{
	"epoch": 0.745920745920746,
	"grad_norm": 2.1763048717368756,
	"learning_rate": 9.429205896733705e-06,
	"loss": 0.5566,
	"mean_token_accuracy": 0.8503492772579193,
	"num_tokens": 1491292.0,
	"step": 160
	},
	{
	"epoch": 0.7505827505827506,
	"grad_norm": 1.9354492116167334,
	"learning_rate": 9.417267262252775e-06,
	"loss": 0.503,
	"mean_token_accuracy": 0.8627839088439941,
	"num_tokens": 1500735.0,
	"step": 161
	},
	{
	"epoch": 0.7552447552447552,
	"grad_norm": 2.0708959320246887,
	"learning_rate": 9.405213699758507e-06,
	"loss": 0.5067,
	"mean_token_accuracy": 0.8632858693599701,
	"num_tokens": 1510190.0,
	"step": 162
	},
	{
	"epoch": 0.7599067599067599,
	"grad_norm": 2.11618902292271,
	"learning_rate": 9.393045562888245e-06,
	"loss": 0.5424,
	"mean_token_accuracy": 0.8534725308418274,
	"num_tokens": 1519207.0,
	"step": 163
	},
	{
	"epoch": 0.7645687645687645,
	"grad_norm": 2.027410237379273,
	"learning_rate": 9.380763208640809e-06,
	"loss": 0.5197,
	"mean_token_accuracy": 0.8590981066226959,
	"num_tokens": 1528808.0,
	"step": 164
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 2.008086929554116,
	"learning_rate": 9.368366997366027e-06,
	"loss": 0.5071,
	"mean_token_accuracy": 0.8610014617443085,
	"num_tokens": 1537765.0,
	"step": 165
	},
	{
	"epoch": 0.7738927738927739,
	"grad_norm": 2.1365369175139763,
	"learning_rate": 9.355857292754152e-06,
	"loss": 0.5299,
	"mean_token_accuracy": 0.8569334447383881,
	"num_tokens": 1547822.0,
	"step": 166
	},
	{
	"epoch": 0.7785547785547785,
	"grad_norm": 1.8545592775377633,
	"learning_rate": 9.343234461825204e-06,
	"loss": 0.4791,
	"mean_token_accuracy": 0.869120866060257,
	"num_tokens": 1557620.0,
	"step": 167
	},
	{
	"epoch": 0.7832167832167832,
	"grad_norm": 2.028039178942425,
	"learning_rate": 9.330498874918191e-06,
	"loss": 0.5106,
	"mean_token_accuracy": 0.8565393388271332,
	"num_tokens": 1567111.0,
	"step": 168
	},
	{
	"epoch": 0.7878787878787878,
	"grad_norm": 2.0701117186586817,
	"learning_rate": 9.317650905680254e-06,
	"loss": 0.4913,
	"mean_token_accuracy": 0.8696520030498505,
	"num_tokens": 1575836.0,
	"step": 169
	},
	{
	"epoch": 0.7925407925407926,
	"grad_norm": 2.1194332133731235,
	"learning_rate": 9.304690931055694e-06,
	"loss": 0.5311,
	"mean_token_accuracy": 0.8621737062931061,
	"num_tokens": 1584822.0,
	"step": 170
	},
	{
	"epoch": 0.7972027972027972,
	"grad_norm": 2.1282940280365747,
	"learning_rate": 9.29161933127492e-06,
	"loss": 0.5601,
	"mean_token_accuracy": 0.8475571274757385,
	"num_tokens": 1594428.0,
	"step": 171
	},
	{
	"epoch": 0.8018648018648019,
	"grad_norm": 2.0641332133798937,
	"learning_rate": 9.278436489843298e-06,
	"loss": 0.5373,
	"mean_token_accuracy": 0.8547400534152985,
	"num_tokens": 1603786.0,
	"step": 172
	},
	{
	"epoch": 0.8065268065268065,
	"grad_norm": 2.0160796623607804,
	"learning_rate": 9.265142793529883e-06,
	"loss": 0.4971,
	"mean_token_accuracy": 0.8660332560539246,
	"num_tokens": 1612747.0,
	"step": 173
	},
	{
	"epoch": 0.8111888111888111,
	"grad_norm": 1.9129699635418105,
	"learning_rate": 9.251738632356086e-06,
	"loss": 0.4926,
	"mean_token_accuracy": 0.869436115026474,
	"num_tokens": 1621819.0,
	"step": 174
	},
	{
	"epoch": 0.8158508158508159,
	"grad_norm": 2.3884591059212537,
	"learning_rate": 9.238224399584232e-06,
	"loss": 0.5476,
	"mean_token_accuracy": 0.8577151894569397,
	"num_tokens": 1631685.0,
	"step": 175
	},
	{
	"epoch": 0.8205128205128205,
	"grad_norm": 1.8831561540253134,
	"learning_rate": 9.224600491706009e-06,
	"loss": 0.4786,
	"mean_token_accuracy": 0.8686897456645966,
	"num_tokens": 1640794.0,
	"step": 176
	},
	{
	"epoch": 0.8251748251748252,
	"grad_norm": 2.0432546539992247,
	"learning_rate": 9.210867308430847e-06,
	"loss": 0.5173,
	"mean_token_accuracy": 0.8568342328071594,
	"num_tokens": 1650186.0,
	"step": 177
	},
	{
	"epoch": 0.8298368298368298,
	"grad_norm": 2.0098051546686357,
	"learning_rate": 9.197025252674192e-06,
	"loss": 0.5181,
	"mean_token_accuracy": 0.8594348132610321,
	"num_tokens": 1659577.0,
	"step": 178
	},
	{
	"epoch": 0.8344988344988346,
	"grad_norm": 2.0448629279973214,
	"learning_rate": 9.183074730545674e-06,
	"loss": 0.521,
	"mean_token_accuracy": 0.8540050983428955,
	"num_tokens": 1669821.0,
	"step": 179
	},
	{
	"epoch": 0.8391608391608392,
	"grad_norm": 2.139730175214238,
	"learning_rate": 9.169016151337202e-06,
	"loss": 0.5651,
	"mean_token_accuracy": 0.8448547720909119,
	"num_tokens": 1679579.0,
	"step": 180
	},
	{
	"epoch": 0.8438228438228438,
	"grad_norm": 2.0464895767510742,
	"learning_rate": 9.15484992751095e-06,
	"loss": 0.5221,
	"mean_token_accuracy": 0.8626176416873932,
	"num_tokens": 1688922.0,
	"step": 181
	},
	{
	"epoch": 0.8484848484848485,
	"grad_norm": 1.9954837428115382,
	"learning_rate": 9.140576474687263e-06,
	"loss": 0.5279,
	"mean_token_accuracy": 0.8613512217998505,
	"num_tokens": 1697949.0,
	"step": 182
	},
	{
	"epoch": 0.8531468531468531,
	"grad_norm": 1.9567685319451251,
	"learning_rate": 9.126196211632456e-06,
	"loss": 0.5274,
	"mean_token_accuracy": 0.8570147156715393,
	"num_tokens": 1708365.0,
	"step": 183
	},
	{
	"epoch": 0.8578088578088578,
	"grad_norm": 1.9210555989780966,
	"learning_rate": 9.11170956024653e-06,
	"loss": 0.5269,
	"mean_token_accuracy": 0.8548833727836609,
	"num_tokens": 1717340.0,
	"step": 184
	},
	{
	"epoch": 0.8624708624708625,
	"grad_norm": 1.9318021919862647,
	"learning_rate": 9.097116945550794e-06,
	"loss": 0.5359,
	"mean_token_accuracy": 0.8578689694404602,
	"num_tokens": 1727305.0,
	"step": 185
	},
	{
	"epoch": 0.8671328671328671,
	"grad_norm": 2.026417344807131,
	"learning_rate": 9.082418795675397e-06,
	"loss": 0.5617,
	"mean_token_accuracy": 0.8492590188980103,
	"num_tokens": 1737093.0,
	"step": 186
	},
	{
	"epoch": 0.8717948717948718,
	"grad_norm": 1.8991450738896973,
	"learning_rate": 9.067615541846768e-06,
	"loss": 0.5235,
	"mean_token_accuracy": 0.859586089849472,
	"num_tokens": 1746772.0,
	"step": 187
	},
	{
	"epoch": 0.8764568764568764,
	"grad_norm": 1.9522407091267568,
	"learning_rate": 9.052707618374958e-06,
	"loss": 0.4765,
	"mean_token_accuracy": 0.8663023710250854,
	"num_tokens": 1756307.0,
	"step": 188
	},
	{
	"epoch": 0.8811188811188811,
	"grad_norm": 2.048727988149695,
	"learning_rate": 9.037695462640908e-06,
	"loss": 0.5331,
	"mean_token_accuracy": 0.8549124300479889,
	"num_tokens": 1766010.0,
	"step": 189
	},
	{
	"epoch": 0.8857808857808858,
	"grad_norm": 1.9934806378380259,
	"learning_rate": 9.022579515083601e-06,
	"loss": 0.5421,
	"mean_token_accuracy": 0.8553925156593323,
	"num_tokens": 1774885.0,
	"step": 190
	},
	{
	"epoch": 0.8904428904428905,
	"grad_norm": 2.0689376168576286,
	"learning_rate": 9.007360219187163e-06,
	"loss": 0.514,
	"mean_token_accuracy": 0.8535875976085663,
	"num_tokens": 1785248.0,
	"step": 191
	},
	{
	"epoch": 0.8951048951048951,
	"grad_norm": 2.009916861001166,
	"learning_rate": 8.99203802146783e-06,
	"loss": 0.497,
	"mean_token_accuracy": 0.8642706871032715,
	"num_tokens": 1794525.0,
	"step": 192
	},
	{
	"epoch": 0.8997668997668997,
	"grad_norm": 2.0465375766970277,
	"learning_rate": 8.976613371460856e-06,
	"loss": 0.5271,
	"mean_token_accuracy": 0.8549227714538574,
	"num_tokens": 1804413.0,
	"step": 193
	},
	{
	"epoch": 0.9044289044289044,
	"grad_norm": 1.917310132189426,
	"learning_rate": 8.961086721707331e-06,
	"loss": 0.4938,
	"mean_token_accuracy": 0.8640461564064026,
	"num_tokens": 1813695.0,
	"step": 194
	},
	{
	"epoch": 0.9090909090909091,
	"grad_norm": 1.915744851468885,
	"learning_rate": 8.945458527740892e-06,
	"loss": 0.4707,
	"mean_token_accuracy": 0.8734670579433441,
	"num_tokens": 1823851.0,
	"step": 195
	},
	{
	"epoch": 0.9137529137529138,
	"grad_norm": 1.9274655587588858,
	"learning_rate": 8.929729248074364e-06,
	"loss": 0.5021,
	"mean_token_accuracy": 0.8575229346752167,
	"num_tokens": 1833828.0,
	"step": 196
	},
	{
	"epoch": 0.9184149184149184,
	"grad_norm": 2.026284467899399,
	"learning_rate": 8.913899344186312e-06,
	"loss": 0.5287,
	"mean_token_accuracy": 0.8602744936943054,
	"num_tokens": 1842998.0,
	"step": 197
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 2.05400953187219,
	"learning_rate": 8.897969280507494e-06,
	"loss": 0.5324,
	"mean_token_accuracy": 0.862190306186676,
	"num_tokens": 1851919.0,
	"step": 198
	},
	{
	"epoch": 0.9277389277389277,
	"grad_norm": 2.0766187536409078,
	"learning_rate": 8.881939524407238e-06,
	"loss": 0.5412,
	"mean_token_accuracy": 0.8545754849910736,
	"num_tokens": 1860906.0,
	"step": 199
	},
	{
	"epoch": 0.9324009324009324,
	"grad_norm": 1.989815369304169,
	"learning_rate": 8.86581054617973e-06,
	"loss": 0.5453,
	"mean_token_accuracy": 0.8528104722499847,
	"num_tokens": 1870470.0,
	"step": 200
	},
	{
	"epoch": 0.9370629370629371,
	"grad_norm": 2.088847720398196,
	"learning_rate": 8.849582819030217e-06,
	"loss": 0.5432,
	"mean_token_accuracy": 0.8563026189804077,
	"num_tokens": 1879984.0,
	"step": 201
	},
	{
	"epoch": 0.9417249417249417,
	"grad_norm": 2.078290662100905,
	"learning_rate": 8.833256819061126e-06,
	"loss": 0.4983,
	"mean_token_accuracy": 0.8666514456272125,
	"num_tokens": 1889348.0,
	"step": 202
	},
	{
	"epoch": 0.9463869463869464,
	"grad_norm": 1.9223822960306767,
	"learning_rate": 8.81683302525809e-06,
	"loss": 0.5411,
	"mean_token_accuracy": 0.8597702980041504,
	"num_tokens": 1898543.0,
	"step": 203
	},
	{
	"epoch": 0.951048951048951,
	"grad_norm": 1.8855235649147306,
	"learning_rate": 8.800311919475902e-06,
	"loss": 0.5014,
	"mean_token_accuracy": 0.8621995449066162,
	"num_tokens": 1908052.0,
	"step": 204
	},
	{
	"epoch": 0.9557109557109557,
	"grad_norm": 1.9276050868545773,
	"learning_rate": 8.783693986424365e-06,
	"loss": 0.504,
	"mean_token_accuracy": 0.8629100322723389,
	"num_tokens": 1917592.0,
	"step": 205
	},
	{
	"epoch": 0.9603729603729604,
	"grad_norm": 2.143001225129588,
	"learning_rate": 8.76697971365409e-06,
	"loss": 0.5387,
	"mean_token_accuracy": 0.8589153587818146,
	"num_tokens": 1927404.0,
	"step": 206
	},
	{
	"epoch": 0.965034965034965,
	"grad_norm": 2.1777112033624557,
	"learning_rate": 8.750169591542177e-06,
	"loss": 0.5252,
	"mean_token_accuracy": 0.8522741794586182,
	"num_tokens": 1936273.0,
	"step": 207
	},
	{
	"epoch": 0.9696969696969697,
	"grad_norm": 1.91067041727946,
	"learning_rate": 8.733264113277832e-06,
	"loss": 0.4991,
	"mean_token_accuracy": 0.8641117215156555,
	"num_tokens": 1944830.0,
	"step": 208
	},
	{
	"epoch": 0.9743589743589743,
	"grad_norm": 2.004004655149868,
	"learning_rate": 8.716263774847902e-06,
	"loss": 0.5276,
	"mean_token_accuracy": 0.8581711649894714,
	"num_tokens": 1954306.0,
	"step": 209
	},
	{
	"epoch": 0.9790209790209791,
	"grad_norm": 1.968917380031634,
	"learning_rate": 8.69916907502232e-06,
	"loss": 0.5138,
	"mean_token_accuracy": 0.8624255359172821,
	"num_tokens": 1964061.0,
	"step": 210
	},
	{
	"epoch": 0.9836829836829837,
	"grad_norm": 1.9939460274690515,
	"learning_rate": 8.681980515339464e-06,
	"loss": 0.4816,
	"mean_token_accuracy": 0.8704831600189209,
	"num_tokens": 1973286.0,
	"step": 211
	},
	{
	"epoch": 0.9883449883449883,
	"grad_norm": 2.057525517897735,
	"learning_rate": 8.664698600091462e-06,
	"loss": 0.5221,
	"mean_token_accuracy": 0.8580233752727509,
	"num_tokens": 1983373.0,
	"step": 212
	},
	{
	"epoch": 0.993006993006993,
	"grad_norm": 1.79381112298063,
	"learning_rate": 8.64732383630937e-06,
	"loss": 0.4376,
	"mean_token_accuracy": 0.8793376386165619,
	"num_tokens": 1992207.0,
	"step": 213
	},
	{
	"epoch": 0.9976689976689976,
	"grad_norm": 1.933384153410609,
	"learning_rate": 8.629856733748325e-06,
	"loss": 0.505,
	"mean_token_accuracy": 0.85846146941185,
	"num_tokens": 2001400.0,
	"step": 214
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.933384153410609,
	"learning_rate": 8.612297804872562e-06,
	"loss": 0.4925,
	"mean_token_accuracy": 0.8816215991973877,
	"num_tokens": 2003256.0,
	"step": 215
	},
	{
	"epoch": 1.0046620046620047,
	"grad_norm": 2.819257871473016,
	"learning_rate": 8.594647564840407e-06,
	"loss": 0.3933,
	"mean_token_accuracy": 0.8927328288555145,
	"num_tokens": 2012460.0,
	"step": 216
	},
	{
	"epoch": 1.0093240093240092,
	"grad_norm": 1.7635713882513158,
	"learning_rate": 8.57690653148913e-06,
	"loss": 0.392,
	"mean_token_accuracy": 0.887998104095459,
	"num_tokens": 2022109.0,
	"step": 217
	},
	{
	"epoch": 1.013986013986014,
	"grad_norm": 1.7892473419907957,
	"learning_rate": 8.559075225319786e-06,
	"loss": 0.3855,
	"mean_token_accuracy": 0.8922514021396637,
	"num_tokens": 2030710.0,
	"step": 218
	},
	{
	"epoch": 1.0186480186480187,
	"grad_norm": 1.6823650842914313,
	"learning_rate": 8.54115416948192e-06,
	"loss": 0.356,
	"mean_token_accuracy": 0.9053717851638794,
	"num_tokens": 2039777.0,
	"step": 219
	},
	{
	"epoch": 1.0233100233100234,
	"grad_norm": 1.939934426049098,
	"learning_rate": 8.523143889758228e-06,
	"loss": 0.3694,
	"mean_token_accuracy": 0.8991726338863373,
	"num_tokens": 2049184.0,
	"step": 220
	},
	{
	"epoch": 1.027972027972028,
	"grad_norm": 1.752148060977119,
	"learning_rate": 8.505044914549131e-06,
	"loss": 0.39,
	"mean_token_accuracy": 0.8928222954273224,
	"num_tokens": 2058845.0,
	"step": 221
	},
	{
	"epoch": 1.0326340326340326,
	"grad_norm": 2.1158285136058033,
	"learning_rate": 8.48685777485727e-06,
	"loss": 0.3596,
	"mean_token_accuracy": 0.8957322537899017,
	"num_tokens": 2067868.0,
	"step": 222
	},
	{
	"epoch": 1.0372960372960374,
	"grad_norm": 2.1547545690668026,
	"learning_rate": 8.46858300427193e-06,
	"loss": 0.3831,
	"mean_token_accuracy": 0.8963182866573334,
	"num_tokens": 2077258.0,
	"step": 223
	},
	{
	"epoch": 1.0419580419580419,
	"grad_norm": 1.9477915170139626,
	"learning_rate": 8.450221138953383e-06,
	"loss": 0.3642,
	"mean_token_accuracy": 0.8969131708145142,
	"num_tokens": 2086219.0,
	"step": 224
	},
	{
	"epoch": 1.0466200466200466,
	"grad_norm": 1.9674246406742486,
	"learning_rate": 8.431772717617154e-06,
	"loss": 0.348,
	"mean_token_accuracy": 0.9007111489772797,
	"num_tokens": 2095430.0,
	"step": 225
	},
	{
	"epoch": 1.0512820512820513,
	"grad_norm": 2.0055164195358235,
	"learning_rate": 8.413238281518225e-06,
	"loss": 0.3575,
	"mean_token_accuracy": 0.8980507254600525,
	"num_tokens": 2104162.0,
	"step": 226
	},
	{
	"epoch": 1.055944055944056,
	"grad_norm": 1.989341084975444,
	"learning_rate": 8.394618374435148e-06,
	"loss": 0.3634,
	"mean_token_accuracy": 0.8973170518875122,
	"num_tokens": 2114619.0,
	"step": 227
	},
	{
	"epoch": 1.0606060606060606,
	"grad_norm": 2.1674333688477074,
	"learning_rate": 8.375913542654093e-06,
	"loss": 0.3665,
	"mean_token_accuracy": 0.8995259404182434,
	"num_tokens": 2124605.0,
	"step": 228
	},
	{
	"epoch": 1.0652680652680653,
	"grad_norm": 2.0014110756016703,
	"learning_rate": 8.357124334952818e-06,
	"loss": 0.3884,
	"mean_token_accuracy": 0.889716625213623,
	"num_tokens": 2133888.0,
	"step": 229
	},
	{
	"epoch": 1.06993006993007,
	"grad_norm": 1.9633860039478925,
	"learning_rate": 8.33825130258458e-06,
	"loss": 0.3578,
	"mean_token_accuracy": 0.8981423377990723,
	"num_tokens": 2142444.0,
	"step": 230
	},
	{
	"epoch": 1.0745920745920745,
	"grad_norm": 2.013885901701478,
	"learning_rate": 8.319294999261941e-06,
	"loss": 0.335,
	"mean_token_accuracy": 0.9031325578689575,
	"num_tokens": 2151447.0,
	"step": 231
	},
	{
	"epoch": 1.0792540792540792,
	"grad_norm": 1.8717843659595645,
	"learning_rate": 8.300255981140544e-06,
	"loss": 0.3334,
	"mean_token_accuracy": 0.905355840921402,
	"num_tokens": 2161278.0,
	"step": 232
	},
	{
	"epoch": 1.083916083916084,
	"grad_norm": 1.8282559453848013,
	"learning_rate": 8.281134806802783e-06,
	"loss": 0.3789,
	"mean_token_accuracy": 0.8943277895450592,
	"num_tokens": 2170704.0,
	"step": 233
	},
	{
	"epoch": 1.0885780885780885,
	"grad_norm": 2.0761431582961705,
	"learning_rate": 8.261932037241418e-06,
	"loss": 0.3726,
	"mean_token_accuracy": 0.8970981240272522,
	"num_tokens": 2180907.0,
	"step": 234
	},
	{
	"epoch": 1.0932400932400932,
	"grad_norm": 1.8858855419887754,
	"learning_rate": 8.242648235843123e-06,
	"loss": 0.3135,
	"mean_token_accuracy": 0.9130119383335114,
	"num_tokens": 2190790.0,
	"step": 235
	},
	{
	"epoch": 1.097902097902098,
	"grad_norm": 1.8790292725099809,
	"learning_rate": 8.223283968371945e-06,
	"loss": 0.3485,
	"mean_token_accuracy": 0.904576301574707,
	"num_tokens": 2199657.0,
	"step": 236
	},
	{
	"epoch": 1.1025641025641026,
	"grad_norm": 1.9939775129861892,
	"learning_rate": 8.203839802952708e-06,
	"loss": 0.3518,
	"mean_token_accuracy": 0.9006724953651428,
	"num_tokens": 2209030.0,
	"step": 237
	},
	{
	"epoch": 1.1072261072261071,
	"grad_norm": 2.318895943210041,
	"learning_rate": 8.184316310054355e-06,
	"loss": 0.3702,
	"mean_token_accuracy": 0.8964027166366577,
	"num_tokens": 2218265.0,
	"step": 238
	},
	{
	"epoch": 1.1118881118881119,
	"grad_norm": 2.1196825455595003,
	"learning_rate": 8.164714062473201e-06,
	"loss": 0.3995,
	"mean_token_accuracy": 0.889014482498169,
	"num_tokens": 2227845.0,
	"step": 239
	},
	{
	"epoch": 1.1165501165501166,
	"grad_norm": 2.1570886496790247,
	"learning_rate": 8.14503363531613e-06,
	"loss": 0.367,
	"mean_token_accuracy": 0.900328516960144,
	"num_tokens": 2237505.0,
	"step": 240
	},
	{
	"epoch": 1.121212121212121,
	"grad_norm": 1.892665235627306,
	"learning_rate": 8.125275605983725e-06,
	"loss": 0.3458,
	"mean_token_accuracy": 0.9030775427818298,
	"num_tokens": 2246730.0,
	"step": 241
	},
	{
	"epoch": 1.1258741258741258,
	"grad_norm": 1.848983532276759,
	"learning_rate": 8.10544055415332e-06,
	"loss": 0.3527,
	"mean_token_accuracy": 0.9045140743255615,
	"num_tokens": 2255845.0,
	"step": 242
	},
	{
	"epoch": 1.1305361305361306,
	"grad_norm": 1.919023337141047,
	"learning_rate": 8.085529061762007e-06,
	"loss": 0.3663,
	"mean_token_accuracy": 0.8982928693294525,
	"num_tokens": 2264305.0,
	"step": 243
	},
	{
	"epoch": 1.1351981351981353,
	"grad_norm": 1.8321927781965666,
	"learning_rate": 8.065541712989546e-06,
	"loss": 0.337,
	"mean_token_accuracy": 0.9019491672515869,
	"num_tokens": 2273361.0,
	"step": 244
	},
	{
	"epoch": 1.1398601398601398,
	"grad_norm": 2.0269533829700013,
	"learning_rate": 8.04547909424124e-06,
	"loss": 0.3614,
	"mean_token_accuracy": 0.9004016220569611,
	"num_tokens": 2283178.0,
	"step": 245
	},
	{
	"epoch": 1.1445221445221445,
	"grad_norm": 1.9130074634196965,
	"learning_rate": 8.025341794130722e-06,
	"loss": 0.3482,
	"mean_token_accuracy": 0.9014346897602081,
	"num_tokens": 2292865.0,
	"step": 246
	},
	{
	"epoch": 1.1491841491841492,
	"grad_norm": 1.8547690304895703,
	"learning_rate": 8.005130403462687e-06,
	"loss": 0.3427,
	"mean_token_accuracy": 0.9018321931362152,
	"num_tokens": 2302310.0,
	"step": 247
	},
	{
	"epoch": 1.1538461538461537,
	"grad_norm": 1.8535777462460932,
	"learning_rate": 7.98484551521556e-06,
	"loss": 0.3529,
	"mean_token_accuracy": 0.9022264182567596,
	"num_tokens": 2312189.0,
	"step": 248
	},
	{
	"epoch": 1.1585081585081585,
	"grad_norm": 2.435521274717378,
	"learning_rate": 7.964487724524105e-06,
	"loss": 0.3926,
	"mean_token_accuracy": 0.8963950574398041,
	"num_tokens": 2321143.0,
	"step": 249
	},
	{
	"epoch": 1.1631701631701632,
	"grad_norm": 2.3200358499575375,
	"learning_rate": 7.944057628661948e-06,
	"loss": 0.3675,
	"mean_token_accuracy": 0.8951332271099091,
	"num_tokens": 2330428.0,
	"step": 250
	},
	{
	"epoch": 1.167832167832168,
	"grad_norm": 2.033123158008929,
	"learning_rate": 7.923555827024069e-06,
	"loss": 0.3621,
	"mean_token_accuracy": 0.8988972008228302,
	"num_tokens": 2339659.0,
	"step": 251
	},
	{
	"epoch": 1.1724941724941724,
	"grad_norm": 1.9890967367444383,
	"learning_rate": 7.902982921109215e-06,
	"loss": 0.3734,
	"mean_token_accuracy": 0.8945567905902863,
	"num_tokens": 2348827.0,
	"step": 252
	},
	{
	"epoch": 1.1771561771561772,
	"grad_norm": 1.9463270812100881,
	"learning_rate": 7.882339514502236e-06,
	"loss": 0.3334,
	"mean_token_accuracy": 0.9068220555782318,
	"num_tokens": 2359744.0,
	"step": 253
	},
	{
	"epoch": 1.1818181818181819,
	"grad_norm": 1.8550101013313145,
	"learning_rate": 7.861626212856404e-06,
	"loss": 0.3528,
	"mean_token_accuracy": 0.9038570523262024,
	"num_tokens": 2368857.0,
	"step": 254
	},
	{
	"epoch": 1.1864801864801864,
	"grad_norm": 1.8873717371173877,
	"learning_rate": 7.840843623875621e-06,
	"loss": 0.3496,
	"mean_token_accuracy": 0.9028986990451813,
	"num_tokens": 2378219.0,
	"step": 255
	},
	{
	"epoch": 1.191142191142191,
	"grad_norm": 1.9979141390235062,
	"learning_rate": 7.8199923572966e-06,
	"loss": 0.3789,
	"mean_token_accuracy": 0.8938669860363007,
	"num_tokens": 2387549.0,
	"step": 256
	},
	{
	"epoch": 1.1958041958041958,
	"grad_norm": 2.016685234805154,
	"learning_rate": 7.799073024870972e-06,
	"loss": 0.3611,
	"mean_token_accuracy": 0.8983322978019714,
	"num_tokens": 2397564.0,
	"step": 257
	},
	{
	"epoch": 1.2004662004662006,
	"grad_norm": 1.9415097190450272,
	"learning_rate": 7.778086240347343e-06,
	"loss": 0.3468,
	"mean_token_accuracy": 0.9009680449962616,
	"num_tokens": 2406482.0,
	"step": 258
	},
	{
	"epoch": 1.205128205128205,
	"grad_norm": 2.2166846370519435,
	"learning_rate": 7.757032619453285e-06,
	"loss": 0.3436,
	"mean_token_accuracy": 0.9036185145378113,
	"num_tokens": 2415453.0,
	"step": 259
	},
	{
	"epoch": 1.2097902097902098,
	"grad_norm": 1.7953859731976027,
	"learning_rate": 7.735912779877266e-06,
	"loss": 0.3557,
	"mean_token_accuracy": 0.9016382992267609,
	"num_tokens": 2424373.0,
	"step": 260
	},
	{
	"epoch": 1.2144522144522145,
	"grad_norm": 2.0224193055579796,
	"learning_rate": 7.714727341250533e-06,
	"loss": 0.3206,
	"mean_token_accuracy": 0.910454124212265,
	"num_tokens": 2433081.0,
	"step": 261
	},
	{
	"epoch": 1.219114219114219,
	"grad_norm": 2.105326719368714,
	"learning_rate": 7.693476925128937e-06,
	"loss": 0.4086,
	"mean_token_accuracy": 0.8892490267753601,
	"num_tokens": 2442248.0,
	"step": 262
	},
	{
	"epoch": 1.2237762237762237,
	"grad_norm": 2.054961145659142,
	"learning_rate": 7.672162154974686e-06,
	"loss": 0.3334,
	"mean_token_accuracy": 0.9058608114719391,
	"num_tokens": 2451308.0,
	"step": 263
	},
	{
	"epoch": 1.2284382284382285,
	"grad_norm": 2.0190722916864448,
	"learning_rate": 7.650783656138065e-06,
	"loss": 0.3842,
	"mean_token_accuracy": 0.8919758200645447,
	"num_tokens": 2461071.0,
	"step": 264
	},
	{
	"epoch": 1.2331002331002332,
	"grad_norm": 2.0459573081488664,
	"learning_rate": 7.629342055839077e-06,
	"loss": 0.3466,
	"mean_token_accuracy": 0.9024505317211151,
	"num_tokens": 2471649.0,
	"step": 265
	},
	{
	"epoch": 1.2377622377622377,
	"grad_norm": 2.045255678828029,
	"learning_rate": 7.607837983149057e-06,
	"loss": 0.3902,
	"mean_token_accuracy": 0.8912324607372284,
	"num_tokens": 2481584.0,
	"step": 266
	},
	{
	"epoch": 1.2424242424242424,
	"grad_norm": 2.0728524474968553,
	"learning_rate": 7.586272068972196e-06,
	"loss": 0.4005,
	"mean_token_accuracy": 0.8886791169643402,
	"num_tokens": 2491498.0,
	"step": 267
	},
	{
	"epoch": 1.2470862470862472,
	"grad_norm": 1.9682634266288053,
	"learning_rate": 7.564644946027049e-06,
	"loss": 0.3578,
	"mean_token_accuracy": 0.9002366364002228,
	"num_tokens": 2501066.0,
	"step": 268
	},
	{
	"epoch": 1.2517482517482517,
	"grad_norm": 1.7696539616448115,
	"learning_rate": 7.5429572488279615e-06,
	"loss": 0.3167,
	"mean_token_accuracy": 0.9112659692764282,
	"num_tokens": 2510213.0,
	"step": 269
	},
	{
	"epoch": 1.2564102564102564,
	"grad_norm": 1.869201624827092,
	"learning_rate": 7.521209613666457e-06,
	"loss": 0.3298,
	"mean_token_accuracy": 0.9096185564994812,
	"num_tokens": 2518850.0,
	"step": 270
	},
	{
	"epoch": 1.2610722610722611,
	"grad_norm": 1.7896035852004597,
	"learning_rate": 7.499402678592568e-06,
	"loss": 0.3452,
	"mean_token_accuracy": 0.902194082736969,
	"num_tokens": 2528729.0,
	"step": 271
	},
	{
	"epoch": 1.2657342657342658,
	"grad_norm": 1.8578212430775984,
	"learning_rate": 7.477537083396114e-06,
	"loss": 0.3377,
	"mean_token_accuracy": 0.9030162990093231,
	"num_tokens": 2538576.0,
	"step": 272
	},
	{
	"epoch": 1.2703962703962703,
	"grad_norm": 1.8583558341062996,
	"learning_rate": 7.45561346958794e-06,
	"loss": 0.3327,
	"mean_token_accuracy": 0.9063755571842194,
	"num_tokens": 2548020.0,
	"step": 273
	},
	{
	"epoch": 1.275058275058275,
	"grad_norm": 1.945988010631059,
	"learning_rate": 7.433632480381083e-06,
	"loss": 0.3535,
	"mean_token_accuracy": 0.9046582877635956,
	"num_tokens": 2556984.0,
	"step": 274
	},
	{
	"epoch": 1.2797202797202798,
	"grad_norm": 2.0099202078958958,
	"learning_rate": 7.4115947606719105e-06,
	"loss": 0.3612,
	"mean_token_accuracy": 0.899190753698349,
	"num_tokens": 2566255.0,
	"step": 275
	},
	{
	"epoch": 1.2843822843822843,
	"grad_norm": 2.1032377215815,
	"learning_rate": 7.389500957021192e-06,
	"loss": 0.351,
	"mean_token_accuracy": 0.9027476012706757,
	"num_tokens": 2575331.0,
	"step": 276
	},
	{
	"epoch": 1.289044289044289,
	"grad_norm": 2.0973543646568227,
	"learning_rate": 7.367351717635136e-06,
	"loss": 0.3561,
	"mean_token_accuracy": 0.899603396654129,
	"num_tokens": 2584609.0,
	"step": 277
	},
	{
	"epoch": 1.2937062937062938,
	"grad_norm": 1.9524574422408152,
	"learning_rate": 7.345147692346373e-06,
	"loss": 0.3621,
	"mean_token_accuracy": 0.8965962827205658,
	"num_tokens": 2593822.0,
	"step": 278
	},
	{
	"epoch": 1.2983682983682985,
	"grad_norm": 1.8684420517312623,
	"learning_rate": 7.3228895325948835e-06,
	"loss": 0.3404,
	"mean_token_accuracy": 0.9057947397232056,
	"num_tokens": 2602990.0,
	"step": 279
	},
	{
	"epoch": 1.303030303030303,
	"grad_norm": 1.8423583661355911,
	"learning_rate": 7.3005778914088895e-06,
	"loss": 0.3181,
	"mean_token_accuracy": 0.9117348790168762,
	"num_tokens": 2612564.0,
	"step": 280
	},
	{
	"epoch": 1.3076923076923077,
	"grad_norm": 1.8719988018492713,
	"learning_rate": 7.278213423385701e-06,
	"loss": 0.3633,
	"mean_token_accuracy": 0.8996273577213287,
	"num_tokens": 2621342.0,
	"step": 281
	},
	{
	"epoch": 1.3123543123543124,
	"grad_norm": 2.097992632063848,
	"learning_rate": 7.255796784672496e-06,
	"loss": 0.3772,
	"mean_token_accuracy": 0.8940203785896301,
	"num_tokens": 2631008.0,
	"step": 282
	},
	{
	"epoch": 1.317016317016317,
	"grad_norm": 2.1962950013308147,
	"learning_rate": 7.233328632947087e-06,
	"loss": 0.3176,
	"mean_token_accuracy": 0.9080378413200378,
	"num_tokens": 2640269.0,
	"step": 283
	},
	{
	"epoch": 1.3216783216783217,
	"grad_norm": 1.8870826341467308,
	"learning_rate": 7.210809627398615e-06,
	"loss": 0.4153,
	"mean_token_accuracy": 0.8845455944538116,
	"num_tokens": 2650339.0,
	"step": 284
	},
	{
	"epoch": 1.3263403263403264,
	"grad_norm": 2.4502915111296306,
	"learning_rate": 7.188240428708211e-06,
	"loss": 0.3789,
	"mean_token_accuracy": 0.8997355103492737,
	"num_tokens": 2659574.0,
	"step": 285
	},
	{
	"epoch": 1.3310023310023311,
	"grad_norm": 1.8548118165118153,
	"learning_rate": 7.165621699029615e-06,
	"loss": 0.3484,
	"mean_token_accuracy": 0.9010252058506012,
	"num_tokens": 2670228.0,
	"step": 286
	},
	{
	"epoch": 1.3356643356643356,
	"grad_norm": 1.9980570026677085,
	"learning_rate": 7.1429541019697505e-06,
	"loss": 0.3404,
	"mean_token_accuracy": 0.9027169346809387,
	"num_tokens": 2679552.0,
	"step": 287
	},
	{
	"epoch": 1.3403263403263403,
	"grad_norm": 2.0041119431302143,
	"learning_rate": 7.120238302569245e-06,
	"loss": 0.3582,
	"mean_token_accuracy": 0.8998216986656189,
	"num_tokens": 2689039.0,
	"step": 288
	},
	{
	"epoch": 1.3449883449883449,
	"grad_norm": 2.1117609014334198,
	"learning_rate": 7.097474967282936e-06,
	"loss": 0.3538,
	"mean_token_accuracy": 0.9006753861904144,
	"num_tokens": 2698186.0,
	"step": 289
	},
	{
	"epoch": 1.3496503496503496,
	"grad_norm": 2.0486984888660893,
	"learning_rate": 7.0746647639602994e-06,
	"loss": 0.3735,
	"mean_token_accuracy": 0.8939989805221558,
	"num_tokens": 2707633.0,
	"step": 290
	},
	{
	"epoch": 1.3543123543123543,
	"grad_norm": 2.0849324489543966,
	"learning_rate": 7.051808361825867e-06,
	"loss": 0.3615,
	"mean_token_accuracy": 0.8953780829906464,
	"num_tokens": 2717211.0,
	"step": 291
	},
	{
	"epoch": 1.358974358974359,
	"grad_norm": 2.0186929363318846,
	"learning_rate": 7.028906431459593e-06,
	"loss": 0.3721,
	"mean_token_accuracy": 0.8980013132095337,
	"num_tokens": 2726028.0,
	"step": 292
	},
	{
	"epoch": 1.3636363636363638,
	"grad_norm": 2.1845476421129746,
	"learning_rate": 7.0059596447771714e-06,
	"loss": 0.3582,
	"mean_token_accuracy": 0.9010344445705414,
	"num_tokens": 2735300.0,
	"step": 293
	},
	{
	"epoch": 1.3682983682983683,
	"grad_norm": 1.895694935116521,
	"learning_rate": 6.982968675010332e-06,
	"loss": 0.3425,
	"mean_token_accuracy": 0.904049277305603,
	"num_tokens": 2745014.0,
	"step": 294
	},
	{
	"epoch": 1.372960372960373,
	"grad_norm": 2.1465561267774618,
	"learning_rate": 6.959934196687079e-06,
	"loss": 0.3973,
	"mean_token_accuracy": 0.8906912803649902,
	"num_tokens": 2754679.0,
	"step": 295
	},
	{
	"epoch": 1.3776223776223775,
	"grad_norm": 2.1936247573101584,
	"learning_rate": 6.93685688561191e-06,
	"loss": 0.3958,
	"mean_token_accuracy": 0.8900346755981445,
	"num_tokens": 2763778.0,
	"step": 296
	},
	{
	"epoch": 1.3822843822843822,
	"grad_norm": 2.2014931147614707,
	"learning_rate": 6.913737418845985e-06,
	"loss": 0.3484,
	"mean_token_accuracy": 0.8970995843410492,
	"num_tokens": 2772924.0,
	"step": 297
	},
	{
	"epoch": 1.386946386946387,
	"grad_norm": 1.9248709270571454,
	"learning_rate": 6.890576474687264e-06,
	"loss": 0.374,
	"mean_token_accuracy": 0.8932155966758728,
	"num_tokens": 2782527.0,
	"step": 298
	},
	{
	"epoch": 1.3916083916083917,
	"grad_norm": 2.127937137873515,
	"learning_rate": 6.8673747326506e-06,
	"loss": 0.4019,
	"mean_token_accuracy": 0.8896147608757019,
	"num_tokens": 2792249.0,
	"step": 299
	},
	{
	"epoch": 1.3962703962703964,
	"grad_norm": 2.2064832449632656,
	"learning_rate": 6.8441328734478115e-06,
	"loss": 0.3501,
	"mean_token_accuracy": 0.8990257680416107,
	"num_tokens": 2801881.0,
	"step": 300
	},
	{
	"epoch": 1.400932400932401,
	"grad_norm": 1.8573619457430928,
	"learning_rate": 6.820851578967708e-06,
	"loss": 0.3872,
	"mean_token_accuracy": 0.8920771181583405,
	"num_tokens": 2811478.0,
	"step": 301
	},
	{
	"epoch": 1.4055944055944056,
	"grad_norm": 2.0254753288605225,
	"learning_rate": 6.797531532256079e-06,
	"loss": 0.3734,
	"mean_token_accuracy": 0.8915270268917084,
	"num_tokens": 2821393.0,
	"step": 302
	},
	{
	"epoch": 1.4102564102564101,
	"grad_norm": 2.0305791181245927,
	"learning_rate": 6.774173417495667e-06,
	"loss": 0.3913,
	"mean_token_accuracy": 0.8924152255058289,
	"num_tokens": 2830925.0,
	"step": 303
	},
	{
	"epoch": 1.4149184149184149,
	"grad_norm": 2.004426882378005,
	"learning_rate": 6.750777919986075e-06,
	"loss": 0.3446,
	"mean_token_accuracy": 0.900405764579773,
	"num_tokens": 2840991.0,
	"step": 304
	},
	{
	"epoch": 1.4195804195804196,
	"grad_norm": 1.888471422341293,
	"learning_rate": 6.727345726123684e-06,
	"loss": 0.4219,
	"mean_token_accuracy": 0.8845990300178528,
	"num_tokens": 2850900.0,
	"step": 305
	},
	{
	"epoch": 1.4242424242424243,
	"grad_norm": 2.3906699897573067,
	"learning_rate": 6.703877523381495e-06,
	"loss": 0.339,
	"mean_token_accuracy": 0.90447598695755,
	"num_tokens": 2860353.0,
	"step": 306
	},
	{
	"epoch": 1.428904428904429,
	"grad_norm": 1.84404450023143,
	"learning_rate": 6.680374000288968e-06,
	"loss": 0.3976,
	"mean_token_accuracy": 0.8878736197948456,
	"num_tokens": 2868792.0,
	"step": 307
	},
	{
	"epoch": 1.4335664335664335,
	"grad_norm": 2.2669491579710908,
	"learning_rate": 6.656835846411824e-06,
	"loss": 0.3815,
	"mean_token_accuracy": 0.892831951379776,
	"num_tokens": 2877774.0,
	"step": 308
	},
	{
	"epoch": 1.4382284382284383,
	"grad_norm": 2.049722778481883,
	"learning_rate": 6.633263752331808e-06,
	"loss": 0.341,
	"mean_token_accuracy": 0.9073670506477356,
	"num_tokens": 2886388.0,
	"step": 309
	},
	{
	"epoch": 1.4428904428904428,
	"grad_norm": 1.9762730207593977,
	"learning_rate": 6.609658409626431e-06,
	"loss": 0.3336,
	"mean_token_accuracy": 0.9044366478919983,
	"num_tokens": 2896615.0,
	"step": 310
	},
	{
	"epoch": 1.4475524475524475,
	"grad_norm": 2.0368692579640504,
	"learning_rate": 6.586020510848676e-06,
	"loss": 0.3983,
	"mean_token_accuracy": 0.8900512158870697,
	"num_tokens": 2905800.0,
	"step": 311
	},
	{
	"epoch": 1.4522144522144522,
	"grad_norm": 2.2134931405904728,
	"learning_rate": 6.562350749506691e-06,
	"loss": 0.3625,
	"mean_token_accuracy": 0.8963052034378052,
	"num_tokens": 2914643.0,
	"step": 312
	},
	{
	"epoch": 1.456876456876457,
	"grad_norm": 2.0611362055815206,
	"learning_rate": 6.538649820043427e-06,
	"loss": 0.3273,
	"mean_token_accuracy": 0.9081335067749023,
	"num_tokens": 2924023.0,
	"step": 313
	},
	{
	"epoch": 1.4615384615384617,
	"grad_norm": 2.054315048122934,
	"learning_rate": 6.514918417816275e-06,
	"loss": 0.3644,
	"mean_token_accuracy": 0.8971601724624634,
	"num_tokens": 2933568.0,
	"step": 314
	},
	{
	"epoch": 1.4662004662004662,
	"grad_norm": 1.8809804843640063,
	"learning_rate": 6.4911572390766575e-06,
	"loss": 0.3577,
	"mean_token_accuracy": 0.9007624089717865,
	"num_tokens": 2943220.0,
	"step": 315
	},
	{
	"epoch": 1.470862470862471,
	"grad_norm": 2.2331671138955405,
	"learning_rate": 6.46736698094961e-06,
	"loss": 0.3637,
	"mean_token_accuracy": 0.8960618078708649,
	"num_tokens": 2953179.0,
	"step": 316
	},
	{
	"epoch": 1.4755244755244754,
	"grad_norm": 1.9954505430707832,
	"learning_rate": 6.443548341413316e-06,
	"loss": 0.3644,
	"mean_token_accuracy": 0.8977023661136627,
	"num_tokens": 2961793.0,
	"step": 317
	},
	{
	"epoch": 1.4801864801864801,
	"grad_norm": 1.9724699365395055,
	"learning_rate": 6.419702019278643e-06,
	"loss": 0.3758,
	"mean_token_accuracy": 0.8944825232028961,
	"num_tokens": 2971416.0,
	"step": 318
	},
	{
	"epoch": 1.4848484848484849,
	"grad_norm": 2.0154500749099387,
	"learning_rate": 6.3958287141686294e-06,
	"loss": 0.3699,
	"mean_token_accuracy": 0.8967875242233276,
	"num_tokens": 2980488.0,
	"step": 319
	},
	{
	"epoch": 1.4895104895104896,
	"grad_norm": 1.9968714801195095,
	"learning_rate": 6.371929126497963e-06,
	"loss": 0.3482,
	"mean_token_accuracy": 0.8994722068309784,
	"num_tokens": 2989801.0,
	"step": 320
	},
	{
	"epoch": 1.494172494172494,
	"grad_norm": 1.8686828557788273,
	"learning_rate": 6.348003957452433e-06,
	"loss": 0.3408,
	"mean_token_accuracy": 0.9057431817054749,
	"num_tokens": 2998497.0,
	"step": 321
	},
	{
	"epoch": 1.4988344988344988,
	"grad_norm": 1.961491939994152,
	"learning_rate": 6.324053908968353e-06,
	"loss": 0.3708,
	"mean_token_accuracy": 0.898443877696991,
	"num_tokens": 3008134.0,
	"step": 322
	},
	{
	"epoch": 1.5034965034965035,
	"grad_norm": 2.074784243247548,
	"learning_rate": 6.300079683711973e-06,
	"loss": 0.3431,
	"mean_token_accuracy": 0.9046167731285095,
	"num_tokens": 3017363.0,
	"step": 323
	},
	{
	"epoch": 1.508158508158508,
	"grad_norm": 2.0249158717108338,
	"learning_rate": 6.276081985058857e-06,
	"loss": 0.3313,
	"mean_token_accuracy": 0.9048315584659576,
	"num_tokens": 3026359.0,
	"step": 324
	},
	{
	"epoch": 1.5128205128205128,
	"grad_norm": 2.0275965811268506,
	"learning_rate": 6.2520615170732555e-06,
	"loss": 0.364,
	"mean_token_accuracy": 0.8976201117038727,
	"num_tokens": 3035205.0,
	"step": 325
	},
	{
	"epoch": 1.5174825174825175,
	"grad_norm": 2.1956087559799706,
	"learning_rate": 6.228018984487443e-06,
	"loss": 0.4091,
	"mean_token_accuracy": 0.8842986524105072,
	"num_tokens": 3044415.0,
	"step": 326
	},
	{
	"epoch": 1.5221445221445222,
	"grad_norm": 2.454246418757256,
	"learning_rate": 6.20395509268104e-06,
	"loss": 0.3733,
	"mean_token_accuracy": 0.8995526134967804,
	"num_tokens": 3053666.0,
	"step": 327
	},
	{
	"epoch": 1.526806526806527,
	"grad_norm": 2.1884276223847343,
	"learning_rate": 6.179870547660326e-06,
	"loss": 0.3684,
	"mean_token_accuracy": 0.8975951671600342,
	"num_tokens": 3063098.0,
	"step": 328
	},
	{
	"epoch": 1.5314685314685315,
	"grad_norm": 2.1597054844225747,
	"learning_rate": 6.15576605603752e-06,
	"loss": 0.3949,
	"mean_token_accuracy": 0.8913069069385529,
	"num_tokens": 3072433.0,
	"step": 329
	},
	{
	"epoch": 1.5361305361305362,
	"grad_norm": 2.113291542241382,
	"learning_rate": 6.13164232501005e-06,
	"loss": 0.3543,
	"mean_token_accuracy": 0.9012714624404907,
	"num_tokens": 3081854.0,
	"step": 330
	},
	{
	"epoch": 1.5407925407925407,
	"grad_norm": 1.9680970926751453,
	"learning_rate": 6.107500062339806e-06,
	"loss": 0.3338,
	"mean_token_accuracy": 0.906892865896225,
	"num_tokens": 3090890.0,
	"step": 331
	},
	{
	"epoch": 1.5454545454545454,
	"grad_norm": 1.9286059557341297,
	"learning_rate": 6.083339976332375e-06,
	"loss": 0.3927,
	"mean_token_accuracy": 0.8934414088726044,
	"num_tokens": 3100652.0,
	"step": 332
	},
	{
	"epoch": 1.5501165501165501,
	"grad_norm": 2.086637851483338,
	"learning_rate": 6.05916277581626e-06,
	"loss": 0.3607,
	"mean_token_accuracy": 0.8994470834732056,
	"num_tokens": 3109678.0,
	"step": 333
	},
	{
	"epoch": 1.5547785547785549,
	"grad_norm": 2.0191393522647414,
	"learning_rate": 6.034969170122079e-06,
	"loss": 0.3506,
	"mean_token_accuracy": 0.9034914076328278,
	"num_tokens": 3118426.0,
	"step": 334
	},
	{
	"epoch": 1.5594405594405596,
	"grad_norm": 2.0591466593650005,
	"learning_rate": 6.010759869061768e-06,
	"loss": 0.3887,
	"mean_token_accuracy": 0.8912419378757477,
	"num_tokens": 3128508.0,
	"step": 335
	},
	{
	"epoch": 1.564102564102564,
	"grad_norm": 1.9767624630895566,
	"learning_rate": 5.986535582907739e-06,
	"loss": 0.3392,
	"mean_token_accuracy": 0.9024395048618317,
	"num_tokens": 3138063.0,
	"step": 336
	},
	{
	"epoch": 1.5687645687645686,
	"grad_norm": 1.968183719788235,
	"learning_rate": 5.96229702237205e-06,
	"loss": 0.3617,
	"mean_token_accuracy": 0.8971932530403137,
	"num_tokens": 3147501.0,
	"step": 337
	},
	{
	"epoch": 1.5734265734265733,
	"grad_norm": 1.9372262604926125,
	"learning_rate": 5.938044898585555e-06,
	"loss": 0.3583,
	"mean_token_accuracy": 0.9022301137447357,
	"num_tokens": 3156896.0,
	"step": 338
	},
	{
	"epoch": 1.578088578088578,
	"grad_norm": 2.007232850048927,
	"learning_rate": 5.913779923077035e-06,
	"loss": 0.3512,
	"mean_token_accuracy": 0.8955269753932953,
	"num_tokens": 3166931.0,
	"step": 339
	},
	{
	"epoch": 1.5827505827505828,
	"grad_norm": 1.906142795024627,
	"learning_rate": 5.889502807752329e-06,
	"loss": 0.3772,
	"mean_token_accuracy": 0.8949233889579773,
	"num_tokens": 3176414.0,
	"step": 340
	},
	{
	"epoch": 1.5874125874125875,
	"grad_norm": 2.1876602349847154,
	"learning_rate": 5.865214264873441e-06,
	"loss": 0.4217,
	"mean_token_accuracy": 0.8859592080116272,
	"num_tokens": 3185570.0,
	"step": 341
	},
	{
	"epoch": 1.5920745920745922,
	"grad_norm": 2.036501182255171,
	"learning_rate": 5.840915007037648e-06,
	"loss": 0.3967,
	"mean_token_accuracy": 0.891197919845581,
	"num_tokens": 3194296.0,
	"step": 342
	},
	{
	"epoch": 1.5967365967365967,
	"grad_norm": 2.165455182761244,
	"learning_rate": 5.816605747156588e-06,
	"loss": 0.3858,
	"mean_token_accuracy": 0.8901144564151764,
	"num_tokens": 3204108.0,
	"step": 343
	},
	{
	"epoch": 1.6013986013986012,
	"grad_norm": 2.020010750738948,
	"learning_rate": 5.792287198435349e-06,
	"loss": 0.3321,
	"mean_token_accuracy": 0.9072842001914978,
	"num_tokens": 3213706.0,
	"step": 344
	},
	{
	"epoch": 1.606060606060606,
	"grad_norm": 1.8267767685145804,
	"learning_rate": 5.767960074351545e-06,
	"loss": 0.3166,
	"mean_token_accuracy": 0.9123204052448273,
	"num_tokens": 3223445.0,
	"step": 345
	},
	{
	"epoch": 1.6107226107226107,
	"grad_norm": 1.8249584358478421,
	"learning_rate": 5.74362508863438e-06,
	"loss": 0.3557,
	"mean_token_accuracy": 0.9038134515285492,
	"num_tokens": 3232428.0,
	"step": 346
	},
	{
	"epoch": 1.6153846153846154,
	"grad_norm": 2.031208096971931,
	"learning_rate": 5.719282955243705e-06,
	"loss": 0.3729,
	"mean_token_accuracy": 0.8925433158874512,
	"num_tokens": 3241575.0,
	"step": 347
	},
	{
	"epoch": 1.6200466200466201,
	"grad_norm": 2.1078269837893817,
	"learning_rate": 5.69493438834908e-06,
	"loss": 0.3927,
	"mean_token_accuracy": 0.89081871509552,
	"num_tokens": 3250577.0,
	"step": 348
	},
	{
	"epoch": 1.6247086247086249,
	"grad_norm": 2.053266844522503,
	"learning_rate": 5.670580102308816e-06,
	"loss": 0.3708,
	"mean_token_accuracy": 0.8976758718490601,
	"num_tokens": 3259305.0,
	"step": 349
	},
	{
	"epoch": 1.6293706293706294,
	"grad_norm": 2.2217560492827486,
	"learning_rate": 5.646220811649013e-06,
	"loss": 0.3631,
	"mean_token_accuracy": 0.9028047621250153,
	"num_tokens": 3268502.0,
	"step": 350
	},
	{
	"epoch": 1.6340326340326339,
	"grad_norm": 1.9993214416997105,
	"learning_rate": 5.6218572310426065e-06,
	"loss": 0.3751,
	"mean_token_accuracy": 0.8933521211147308,
	"num_tokens": 3276568.0,
	"step": 351
	},
	{
	"epoch": 1.6386946386946386,
	"grad_norm": 2.1734690923322115,
	"learning_rate": 5.59749007528839e-06,
	"loss": 0.3498,
	"mean_token_accuracy": 0.9007490277290344,
	"num_tokens": 3285881.0,
	"step": 352
	},
	{
	"epoch": 1.6433566433566433,
	"grad_norm": 1.98059234929291,
	"learning_rate": 5.573120059290047e-06,
	"loss": 0.3484,
	"mean_token_accuracy": 0.9028733670711517,
	"num_tokens": 3295490.0,
	"step": 353
	},
	{
	"epoch": 1.648018648018648,
	"grad_norm": 1.8606757870005566,
	"learning_rate": 5.5487478980351805e-06,
	"loss": 0.342,
	"mean_token_accuracy": 0.9035466313362122,
	"num_tokens": 3304645.0,
	"step": 354
	},
	{
	"epoch": 1.6526806526806528,
	"grad_norm": 2.0090495432050726,
	"learning_rate": 5.524374306574331e-06,
	"loss": 0.3516,
	"mean_token_accuracy": 0.9037186503410339,
	"num_tokens": 3313188.0,
	"step": 355
	},
	{
	"epoch": 1.6573426573426573,
	"grad_norm": 1.9688667212238595,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.3673,
	"mean_token_accuracy": 0.9001396596431732,
	"num_tokens": 3322514.0,
	"step": 356
	},
	{
	"epoch": 1.662004662004662,
	"grad_norm": 2.1361286046991568,
	"learning_rate": 5.47562569342567e-06,
	"loss": 0.3553,
	"mean_token_accuracy": 0.9002968966960907,
	"num_tokens": 3332207.0,
	"step": 357
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 1.9983765145158914,
	"learning_rate": 5.451252101964821e-06,
	"loss": 0.345,
	"mean_token_accuracy": 0.9027390778064728,
	"num_tokens": 3342114.0,
	"step": 358
	},
	{
	"epoch": 1.6713286713286712,
	"grad_norm": 2.221522630829983,
	"learning_rate": 5.426879940709956e-06,
	"loss": 0.4167,
	"mean_token_accuracy": 0.8860217034816742,
	"num_tokens": 3351663.0,
	"step": 359
	},
	{
	"epoch": 1.675990675990676,
	"grad_norm": 2.351737145138835,
	"learning_rate": 5.402509924711612e-06,
	"loss": 0.3787,
	"mean_token_accuracy": 0.8979602456092834,
	"num_tokens": 3360915.0,
	"step": 360
	},
	{
	"epoch": 1.6806526806526807,
	"grad_norm": 2.2067080103402366,
	"learning_rate": 5.378142768957396e-06,
	"loss": 0.3694,
	"mean_token_accuracy": 0.8943982720375061,
	"num_tokens": 3370401.0,
	"step": 361
	},
	{
	"epoch": 1.6853146853146854,
	"grad_norm": 2.2270263309806366,
	"learning_rate": 5.353779188350989e-06,
	"loss": 0.3982,
	"mean_token_accuracy": 0.8878339529037476,
	"num_tokens": 3380711.0,
	"step": 362
	},
	{
	"epoch": 1.68997668997669,
	"grad_norm": 1.8254660836200485,
	"learning_rate": 5.329419897691187e-06,
	"loss": 0.3084,
	"mean_token_accuracy": 0.9157176613807678,
	"num_tokens": 3390032.0,
	"step": 363
	},
	{
	"epoch": 1.6946386946386947,
	"grad_norm": 1.8835789154592308,
	"learning_rate": 5.305065611650921e-06,
	"loss": 0.3653,
	"mean_token_accuracy": 0.8960134088993073,
	"num_tokens": 3399395.0,
	"step": 364
	},
	{
	"epoch": 1.6993006993006992,
	"grad_norm": 1.9906870579116909,
	"learning_rate": 5.280717044756298e-06,
	"loss": 0.3656,
	"mean_token_accuracy": 0.8999285995960236,
	"num_tokens": 3408677.0,
	"step": 365
	},
	{
	"epoch": 1.7039627039627039,
	"grad_norm": 2.0749533505721245,
	"learning_rate": 5.256374911365621e-06,
	"loss": 0.3439,
	"mean_token_accuracy": 0.9051547646522522,
	"num_tokens": 3418478.0,
	"step": 366
	},
	{
	"epoch": 1.7086247086247086,
	"grad_norm": 1.8643996151955922,
	"learning_rate": 5.232039925648457e-06,
	"loss": 0.3449,
	"mean_token_accuracy": 0.9024885594844818,
	"num_tokens": 3427641.0,
	"step": 367
	},
	{
	"epoch": 1.7132867132867133,
	"grad_norm": 1.8625024767097098,
	"learning_rate": 5.207712801564652e-06,
	"loss": 0.3371,
	"mean_token_accuracy": 0.9041755497455597,
	"num_tokens": 3437250.0,
	"step": 368
	},
	{
	"epoch": 1.717948717948718,
	"grad_norm": 2.0436576954469823,
	"learning_rate": 5.1833942528434145e-06,
	"loss": 0.3721,
	"mean_token_accuracy": 0.8964725732803345,
	"num_tokens": 3446807.0,
	"step": 369
	},
	{
	"epoch": 1.7226107226107226,
	"grad_norm": 1.9839081705779613,
	"learning_rate": 5.159084992962354e-06,
	"loss": 0.3303,
	"mean_token_accuracy": 0.9086009562015533,
	"num_tokens": 3456306.0,
	"step": 370
	},
	{
	"epoch": 1.7272727272727273,
	"grad_norm": 2.0000086910401667,
	"learning_rate": 5.13478573512656e-06,
	"loss": 0.3667,
	"mean_token_accuracy": 0.8962165117263794,
	"num_tokens": 3466027.0,
	"step": 371
	},
	{
	"epoch": 1.7319347319347318,
	"grad_norm": 2.038609761919514,
	"learning_rate": 5.110497192247671e-06,
	"loss": 0.3434,
	"mean_token_accuracy": 0.9010106325149536,
	"num_tokens": 3475253.0,
	"step": 372
	},
	{
	"epoch": 1.7365967365967365,
	"grad_norm": 2.1715737014463894,
	"learning_rate": 5.086220076922965e-06,
	"loss": 0.3448,
	"mean_token_accuracy": 0.9069474339485168,
	"num_tokens": 3484178.0,
	"step": 373
	},
	{
	"epoch": 1.7412587412587412,
	"grad_norm": 1.867996028633842,
	"learning_rate": 5.061955101414448e-06,
	"loss": 0.3381,
	"mean_token_accuracy": 0.9080156981945038,
	"num_tokens": 3494001.0,
	"step": 374
	},
	{
	"epoch": 1.745920745920746,
	"grad_norm": 2.1685787201422837,
	"learning_rate": 5.0377029776279514e-06,
	"loss": 0.3693,
	"mean_token_accuracy": 0.902137279510498,
	"num_tokens": 3503472.0,
	"step": 375
	},
	{
	"epoch": 1.7505827505827507,
	"grad_norm": 2.054942165163828,
	"learning_rate": 5.013464417092263e-06,
	"loss": 0.3739,
	"mean_token_accuracy": 0.8999918103218079,
	"num_tokens": 3512786.0,
	"step": 376
	},
	{
	"epoch": 1.7552447552447552,
	"grad_norm": 2.0866190139943246,
	"learning_rate": 4.989240130938232e-06,
	"loss": 0.3298,
	"mean_token_accuracy": 0.9082687795162201,
	"num_tokens": 3522266.0,
	"step": 377
	},
	{
	"epoch": 1.75990675990676,
	"grad_norm": 1.9164366875851901,
	"learning_rate": 4.9650308298779215e-06,
	"loss": 0.3728,
	"mean_token_accuracy": 0.8957255184650421,
	"num_tokens": 3531741.0,
	"step": 378
	},
	{
	"epoch": 1.7645687645687644,
	"grad_norm": 2.1286294755388386,
	"learning_rate": 4.940837224183742e-06,
	"loss": 0.3469,
	"mean_token_accuracy": 0.9021869897842407,
	"num_tokens": 3541026.0,
	"step": 379
	},
	{
	"epoch": 1.7692307692307692,
	"grad_norm": 1.9795732637258567,
	"learning_rate": 4.916660023667627e-06,
	"loss": 0.389,
	"mean_token_accuracy": 0.8947827517986298,
	"num_tokens": 3550336.0,
	"step": 380
	},
	{
	"epoch": 1.7738927738927739,
	"grad_norm": 2.2291523062610845,
	"learning_rate": 4.892499937660195e-06,
	"loss": 0.3698,
	"mean_token_accuracy": 0.9012640714645386,
	"num_tokens": 3558944.0,
	"step": 381
	},
	{
	"epoch": 1.7785547785547786,
	"grad_norm": 2.142983628191579,
	"learning_rate": 4.8683576749899505e-06,
	"loss": 0.3583,
	"mean_token_accuracy": 0.896765947341919,
	"num_tokens": 3567747.0,
	"step": 382
	},
	{
	"epoch": 1.7832167832167833,
	"grad_norm": 2.1501200195656134,
	"learning_rate": 4.844233943962481e-06,
	"loss": 0.3476,
	"mean_token_accuracy": 0.9035030007362366,
	"num_tokens": 3576606.0,
	"step": 383
	},
	{
	"epoch": 1.7878787878787878,
	"grad_norm": 1.8885760684090536,
	"learning_rate": 4.820129452339676e-06,
	"loss": 0.3913,
	"mean_token_accuracy": 0.8892778158187866,
	"num_tokens": 3586451.0,
	"step": 384
	},
	{
	"epoch": 1.7925407925407926,
	"grad_norm": 2.3749625105377423,
	"learning_rate": 4.796044907318961e-06,
	"loss": 0.3493,
	"mean_token_accuracy": 0.9036368727684021,
	"num_tokens": 3595348.0,
	"step": 385
	},
	{
	"epoch": 1.797202797202797,
	"grad_norm": 2.1616552910281044,
	"learning_rate": 4.771981015512559e-06,
	"loss": 0.404,
	"mean_token_accuracy": 0.888810396194458,
	"num_tokens": 3605507.0,
	"step": 386
	},
	{
	"epoch": 1.8018648018648018,
	"grad_norm": 1.859001299709581,
	"learning_rate": 4.747938482926746e-06,
	"loss": 0.3422,
	"mean_token_accuracy": 0.9032579958438873,
	"num_tokens": 3615183.0,
	"step": 387
	},
	{
	"epoch": 1.8065268065268065,
	"grad_norm": 2.1152225374726337,
	"learning_rate": 4.723918014941144e-06,
	"loss": 0.4379,
	"mean_token_accuracy": 0.8827772438526154,
	"num_tokens": 3624158.0,
	"step": 388
	},
	{
	"epoch": 1.8111888111888113,
	"grad_norm": 2.149586435718605,
	"learning_rate": 4.69992031628803e-06,
	"loss": 0.3702,
	"mean_token_accuracy": 0.8978259861469269,
	"num_tokens": 3633033.0,
	"step": 389
	},
	{
	"epoch": 1.815850815850816,
	"grad_norm": 2.0006781263840843,
	"learning_rate": 4.675946091031648e-06,
	"loss": 0.3604,
	"mean_token_accuracy": 0.901467889547348,
	"num_tokens": 3642167.0,
	"step": 390
	},
	{
	"epoch": 1.8205128205128205,
	"grad_norm": 1.9865318354604984,
	"learning_rate": 4.65199604254757e-06,
	"loss": 0.3266,
	"mean_token_accuracy": 0.902495414018631,
	"num_tokens": 3651178.0,
	"step": 391
	},
	{
	"epoch": 1.8251748251748252,
	"grad_norm": 1.8174794166059944,
	"learning_rate": 4.628070873502038e-06,
	"loss": 0.3595,
	"mean_token_accuracy": 0.8980917930603027,
	"num_tokens": 3660853.0,
	"step": 392
	},
	{
	"epoch": 1.8298368298368297,
	"grad_norm": 1.8237936767860705,
	"learning_rate": 4.604171285831373e-06,
	"loss": 0.3247,
	"mean_token_accuracy": 0.9076565206050873,
	"num_tokens": 3671265.0,
	"step": 393
	},
	{
	"epoch": 1.8344988344988344,
	"grad_norm": 2.967734088138488,
	"learning_rate": 4.5802979807213585e-06,
	"loss": 0.3284,
	"mean_token_accuracy": 0.9076884090900421,
	"num_tokens": 3681935.0,
	"step": 394
	},
	{
	"epoch": 1.8391608391608392,
	"grad_norm": 1.7848473602660753,
	"learning_rate": 4.556451658586687e-06,
	"loss": 0.3327,
	"mean_token_accuracy": 0.9050241410732269,
	"num_tokens": 3690809.0,
	"step": 395
	},
	{
	"epoch": 1.843822843822844,
	"grad_norm": 2.132215578463288,
	"learning_rate": 4.532633019050392e-06,
	"loss": 0.3344,
	"mean_token_accuracy": 0.9007371068000793,
	"num_tokens": 3700254.0,
	"step": 396
	},
	{
	"epoch": 1.8484848484848486,
	"grad_norm": 1.802687602683309,
	"learning_rate": 4.508842760923344e-06,
	"loss": 0.3319,
	"mean_token_accuracy": 0.9053416550159454,
	"num_tokens": 3709572.0,
	"step": 397
	},
	{
	"epoch": 1.8531468531468531,
	"grad_norm": 2.141026355729347,
	"learning_rate": 4.4850815821837265e-06,
	"loss": 0.3686,
	"mean_token_accuracy": 0.8985418379306793,
	"num_tokens": 3718477.0,
	"step": 398
	},
	{
	"epoch": 1.8578088578088578,
	"grad_norm": 2.064794666005344,
	"learning_rate": 4.4613501799565755e-06,
	"loss": 0.3776,
	"mean_token_accuracy": 0.8916601240634918,
	"num_tokens": 3728055.0,
	"step": 399
	},
	{
	"epoch": 1.8624708624708624,
	"grad_norm": 2.3103287859074477,
	"learning_rate": 4.43764925049331e-06,
	"loss": 0.3689,
	"mean_token_accuracy": 0.8986863493919373,
	"num_tokens": 3736756.0,
	"step": 400
	},
	{
	"epoch": 1.867132867132867,
	"grad_norm": 2.1582853507409765,
	"learning_rate": 4.413979489151326e-06,
	"loss": 0.3664,
	"mean_token_accuracy": 0.8990582525730133,
	"num_tokens": 3746049.0,
	"step": 401
	},
	{
	"epoch": 1.8717948717948718,
	"grad_norm": 2.346758495250227,
	"learning_rate": 4.3903415903735725e-06,
	"loss": 0.3933,
	"mean_token_accuracy": 0.893925815820694,
	"num_tokens": 3755161.0,
	"step": 402
	},
	{
	"epoch": 1.8764568764568765,
	"grad_norm": 2.2276831775466626,
	"learning_rate": 4.366736247668194e-06,
	"loss": 0.3578,
	"mean_token_accuracy": 0.9008547365665436,
	"num_tokens": 3763950.0,
	"step": 403
	},
	{
	"epoch": 1.8811188811188813,
	"grad_norm": 2.005267203414508,
	"learning_rate": 4.343164153588176e-06,
	"loss": 0.3592,
	"mean_token_accuracy": 0.8986201584339142,
	"num_tokens": 3773509.0,
	"step": 404
	},
	{
	"epoch": 1.8857808857808858,
	"grad_norm": 2.07305174671755,
	"learning_rate": 4.3196259997110326e-06,
	"loss": 0.374,
	"mean_token_accuracy": 0.8963338732719421,
	"num_tokens": 3782734.0,
	"step": 405
	},
	{
	"epoch": 1.8904428904428905,
	"grad_norm": 1.8657634956210976,
	"learning_rate": 4.296122476618507e-06,
	"loss": 0.2938,
	"mean_token_accuracy": 0.9148504436016083,
	"num_tokens": 3792797.0,
	"step": 406
	},
	{
	"epoch": 1.895104895104895,
	"grad_norm": 1.7854646245845165,
	"learning_rate": 4.2726542738763185e-06,
	"loss": 0.3506,
	"mean_token_accuracy": 0.9033430516719818,
	"num_tokens": 3801566.0,
	"step": 407
	},
	{
	"epoch": 1.8997668997668997,
	"grad_norm": 2.1277604879204297,
	"learning_rate": 4.249222080013927e-06,
	"loss": 0.4041,
	"mean_token_accuracy": 0.8863241672515869,
	"num_tokens": 3810506.0,
	"step": 408
	},
	{
	"epoch": 1.9044289044289044,
	"grad_norm": 2.203068756546148,
	"learning_rate": 4.2258265825043365e-06,
	"loss": 0.3564,
	"mean_token_accuracy": 0.8995753824710846,
	"num_tokens": 3819472.0,
	"step": 409
	},
	{
	"epoch": 1.9090909090909092,
	"grad_norm": 1.9056766783093182,
	"learning_rate": 4.202468467743922e-06,
	"loss": 0.3437,
	"mean_token_accuracy": 0.9032955765724182,
	"num_tokens": 3828386.0,
	"step": 410
	},
	{
	"epoch": 1.913752913752914,
	"grad_norm": 2.0477422656146715,
	"learning_rate": 4.1791484210322945e-06,
	"loss": 0.3963,
	"mean_token_accuracy": 0.8910067081451416,
	"num_tokens": 3837876.0,
	"step": 411
	},
	{
	"epoch": 1.9184149184149184,
	"grad_norm": 2.003989704673306,
	"learning_rate": 4.15586712655219e-06,
	"loss": 0.3766,
	"mean_token_accuracy": 0.894858181476593,
	"num_tokens": 3847317.0,
	"step": 412
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 2.040339338795703,
	"learning_rate": 4.1326252673494006e-06,
	"loss": 0.3611,
	"mean_token_accuracy": 0.9015864133834839,
	"num_tokens": 3856516.0,
	"step": 413
	},
	{
	"epoch": 1.9277389277389276,
	"grad_norm": 1.9997790559031594,
	"learning_rate": 4.109423525312738e-06,
	"loss": 0.3524,
	"mean_token_accuracy": 0.9032379388809204,
	"num_tokens": 3866154.0,
	"step": 414
	},
	{
	"epoch": 1.9324009324009324,
	"grad_norm": 1.8004052846393808,
	"learning_rate": 4.086262581154015e-06,
	"loss": 0.3496,
	"mean_token_accuracy": 0.9037461578845978,
	"num_tokens": 3875591.0,
	"step": 415
	},
	{
	"epoch": 1.937062937062937,
	"grad_norm": 2.0740585166328422,
	"learning_rate": 4.0631431143880915e-06,
	"loss": 0.3397,
	"mean_token_accuracy": 0.9040902256965637,
	"num_tokens": 3885411.0,
	"step": 416
	},
	{
	"epoch": 1.9417249417249418,
	"grad_norm": 2.0199474623334037,
	"learning_rate": 4.040065803312921e-06,
	"loss": 0.3619,
	"mean_token_accuracy": 0.8977847695350647,
	"num_tokens": 3893582.0,
	"step": 417
	},
	{
	"epoch": 1.9463869463869465,
	"grad_norm": 1.9355091980822123,
	"learning_rate": 4.017031324989669e-06,
	"loss": 0.3382,
	"mean_token_accuracy": 0.9016455113887787,
	"num_tokens": 3903096.0,
	"step": 418
	},
	{
	"epoch": 1.951048951048951,
	"grad_norm": 2.0385295249371067,
	"learning_rate": 3.994040355222828e-06,
	"loss": 0.3558,
	"mean_token_accuracy": 0.899684876203537,
	"num_tokens": 3912289.0,
	"step": 419
	},
	{
	"epoch": 1.9557109557109555,
	"grad_norm": 2.1721644040047225,
	"learning_rate": 3.971093568540408e-06,
	"loss": 0.3711,
	"mean_token_accuracy": 0.893602579832077,
	"num_tokens": 3921342.0,
	"step": 420
	},
	{
	"epoch": 1.9603729603729603,
	"grad_norm": 2.173567052204643,
	"learning_rate": 3.948191638174135e-06,
	"loss": 0.3468,
	"mean_token_accuracy": 0.9026708602905273,
	"num_tokens": 3930927.0,
	"step": 421
	},
	{
	"epoch": 1.965034965034965,
	"grad_norm": 2.183705481115713,
	"learning_rate": 3.925335236039702e-06,
	"loss": 0.3842,
	"mean_token_accuracy": 0.8991383612155914,
	"num_tokens": 3939964.0,
	"step": 422
	},
	{
	"epoch": 1.9696969696969697,
	"grad_norm": 1.8559395167069694,
	"learning_rate": 3.902525032717067e-06,
	"loss": 0.3593,
	"mean_token_accuracy": 0.8971259593963623,
	"num_tokens": 3949279.0,
	"step": 423
	},
	{
	"epoch": 1.9743589743589745,
	"grad_norm": 1.9573191314090432,
	"learning_rate": 3.879761697430756e-06,
	"loss": 0.3379,
	"mean_token_accuracy": 0.9067609906196594,
	"num_tokens": 3957777.0,
	"step": 424
	},
	{
	"epoch": 1.9790209790209792,
	"grad_norm": 2.0757659987817423,
	"learning_rate": 3.8570458980302526e-06,
	"loss": 0.3598,
	"mean_token_accuracy": 0.8982405662536621,
	"num_tokens": 3967234.0,
	"step": 425
	},
	{
	"epoch": 1.9836829836829837,
	"grad_norm": 2.1061841538720314,
	"learning_rate": 3.834378300970385e-06,
	"loss": 0.3595,
	"mean_token_accuracy": 0.9008378386497498,
	"num_tokens": 3976342.0,
	"step": 426
	},
	{
	"epoch": 1.9883449883449882,
	"grad_norm": 2.012444035670508,
	"learning_rate": 3.811759571291792e-06,
	"loss": 0.3734,
	"mean_token_accuracy": 0.8925457000732422,
	"num_tokens": 3985787.0,
	"step": 427
	},
	{
	"epoch": 1.993006993006993,
	"grad_norm": 2.0766910903000557,
	"learning_rate": 3.789190372601387e-06,
	"loss": 0.3746,
	"mean_token_accuracy": 0.8980415463447571,
	"num_tokens": 3995313.0,
	"step": 428
	},
	{
	"epoch": 1.9976689976689976,
	"grad_norm": 2.3515299611822744,
	"learning_rate": 3.7666713670529153e-06,
	"loss": 0.3756,
	"mean_token_accuracy": 0.8946518898010254,
	"num_tokens": 4004696.0,
	"step": 429
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.8965666457221966,
	"learning_rate": 3.7442032153275053e-06,
	"loss": 0.2816,
	"mean_token_accuracy": 0.9159619212150574,
	"num_tokens": 4006594.0,
	"step": 430
	},
	{
	"epoch": 2.0046620046620047,
	"grad_norm": 1.9140541750140387,
	"learning_rate": 3.7217865766143014e-06,
	"loss": 0.2339,
	"mean_token_accuracy": 0.9410516619682312,
	"num_tokens": 4016177.0,
	"step": 431
	},
	{
	"epoch": 2.0093240093240095,
	"grad_norm": 1.9667546418678483,
	"learning_rate": 3.6994221085911107e-06,
	"loss": 0.2227,
	"mean_token_accuracy": 0.9423635900020599,
	"num_tokens": 4025325.0,
	"step": 432
	},
	{
	"epoch": 2.013986013986014,
	"grad_norm": 1.9133395961990365,
	"learning_rate": 3.6771104674051184e-06,
	"loss": 0.2103,
	"mean_token_accuracy": 0.9473540186882019,
	"num_tokens": 4034580.0,
	"step": 433
	},
	{
	"epoch": 2.0186480186480185,
	"grad_norm": 2.010682976434144,
	"learning_rate": 3.654852307653628e-06,
	"loss": 0.2033,
	"mean_token_accuracy": 0.9448116421699524,
	"num_tokens": 4043927.0,
	"step": 434
	},
	{
	"epoch": 2.023310023310023,
	"grad_norm": 2.264710867597396,
	"learning_rate": 3.6326482823648656e-06,
	"loss": 0.1945,
	"mean_token_accuracy": 0.9458509981632233,
	"num_tokens": 4052748.0,
	"step": 435
	},
	{
	"epoch": 2.027972027972028,
	"grad_norm": 3.3055471689921445,
	"learning_rate": 3.6104990429788102e-06,
	"loss": 0.1809,
	"mean_token_accuracy": 0.9497792422771454,
	"num_tokens": 4062547.0,
	"step": 436
	},
	{
	"epoch": 2.0326340326340326,
	"grad_norm": 3.545040453235985,
	"learning_rate": 3.588405239328091e-06,
	"loss": 0.1825,
	"mean_token_accuracy": 0.9520241916179657,
	"num_tokens": 4072151.0,
	"step": 437
	},
	{
	"epoch": 2.0372960372960374,
	"grad_norm": 4.174805075882892,
	"learning_rate": 3.5663675196189184e-06,
	"loss": 0.2058,
	"mean_token_accuracy": 0.9453835189342499,
	"num_tokens": 4081740.0,
	"step": 438
	},
	{
	"epoch": 2.041958041958042,
	"grad_norm": 2.8755369630384786,
	"learning_rate": 3.5443865304120607e-06,
	"loss": 0.1838,
	"mean_token_accuracy": 0.9492034912109375,
	"num_tokens": 4090794.0,
	"step": 439
	},
	{
	"epoch": 2.046620046620047,
	"grad_norm": 2.7985718626593763,
	"learning_rate": 3.522462916603887e-06,
	"loss": 0.2009,
	"mean_token_accuracy": 0.9445820152759552,
	"num_tokens": 4099715.0,
	"step": 440
	},
	{
	"epoch": 2.051282051282051,
	"grad_norm": 2.307748489794371,
	"learning_rate": 3.500597321407435e-06,
	"loss": 0.1825,
	"mean_token_accuracy": 0.9495159089565277,
	"num_tokens": 4109312.0,
	"step": 441
	},
	{
	"epoch": 2.055944055944056,
	"grad_norm": 2.167026623774839,
	"learning_rate": 3.478790386333546e-06,
	"loss": 0.2046,
	"mean_token_accuracy": 0.9436551332473755,
	"num_tokens": 4118384.0,
	"step": 442
	},
	{
	"epoch": 2.0606060606060606,
	"grad_norm": 2.197047391901218,
	"learning_rate": 3.45704275117204e-06,
	"loss": 0.2117,
	"mean_token_accuracy": 0.9415621161460876,
	"num_tokens": 4127809.0,
	"step": 443
	},
	{
	"epoch": 2.0652680652680653,
	"grad_norm": 1.944924615630873,
	"learning_rate": 3.435355053972953e-06,
	"loss": 0.1827,
	"mean_token_accuracy": 0.9510793387889862,
	"num_tokens": 4137712.0,
	"step": 444
	},
	{
	"epoch": 2.06993006993007,
	"grad_norm": 2.3278118252307975,
	"learning_rate": 3.4137279310278054e-06,
	"loss": 0.2021,
	"mean_token_accuracy": 0.9442847967147827,
	"num_tokens": 4148072.0,
	"step": 445
	},
	{
	"epoch": 2.0745920745920747,
	"grad_norm": 2.094002783532905,
	"learning_rate": 3.392162016850945e-06,
	"loss": 0.1972,
	"mean_token_accuracy": 0.9459817409515381,
	"num_tokens": 4158042.0,
	"step": 446
	},
	{
	"epoch": 2.0792540792540795,
	"grad_norm": 2.142035620280267,
	"learning_rate": 3.3706579441609224e-06,
	"loss": 0.1887,
	"mean_token_accuracy": 0.9461734592914581,
	"num_tokens": 4167033.0,
	"step": 447
	},
	{
	"epoch": 2.0839160839160837,
	"grad_norm": 2.4332724683825884,
	"learning_rate": 3.3492163438619362e-06,
	"loss": 0.2023,
	"mean_token_accuracy": 0.9443434476852417,
	"num_tokens": 4176760.0,
	"step": 448
	},
	{
	"epoch": 2.0885780885780885,
	"grad_norm": 2.228646127092191,
	"learning_rate": 3.327837845025315e-06,
	"loss": 0.1917,
	"mean_token_accuracy": 0.9497533142566681,
	"num_tokens": 4186226.0,
	"step": 449
	},
	{
	"epoch": 2.093240093240093,
	"grad_norm": 2.459774250577539,
	"learning_rate": 3.3065230748710646e-06,
	"loss": 0.2124,
	"mean_token_accuracy": 0.9428280293941498,
	"num_tokens": 4195499.0,
	"step": 450
	},
	{
	"epoch": 2.097902097902098,
	"grad_norm": 2.4038605044962686,
	"learning_rate": 3.2852726587494673e-06,
	"loss": 0.1825,
	"mean_token_accuracy": 0.9510272741317749,
	"num_tokens": 4204395.0,
	"step": 451
	},
	{
	"epoch": 2.1025641025641026,
	"grad_norm": 2.4928140282417517,
	"learning_rate": 3.2640872201227364e-06,
	"loss": 0.1967,
	"mean_token_accuracy": 0.9442079365253448,
	"num_tokens": 4213737.0,
	"step": 452
	},
	{
	"epoch": 2.1072261072261074,
	"grad_norm": 2.256378296799341,
	"learning_rate": 3.242967380546717e-06,
	"loss": 0.1826,
	"mean_token_accuracy": 0.947964072227478,
	"num_tokens": 4223235.0,
	"step": 453
	},
	{
	"epoch": 2.111888111888112,
	"grad_norm": 2.1809559104100487,
	"learning_rate": 3.221913759652657e-06,
	"loss": 0.1738,
	"mean_token_accuracy": 0.9498437345027924,
	"num_tokens": 4232422.0,
	"step": 454
	},
	{
	"epoch": 2.1165501165501164,
	"grad_norm": 2.2886117964470643,
	"learning_rate": 3.20092697512903e-06,
	"loss": 0.2023,
	"mean_token_accuracy": 0.9447461664676666,
	"num_tokens": 4241879.0,
	"step": 455
	},
	{
	"epoch": 2.121212121212121,
	"grad_norm": 2.212820158000472,
	"learning_rate": 3.180007642703402e-06,
	"loss": 0.1865,
	"mean_token_accuracy": 0.9497852921485901,
	"num_tokens": 4251371.0,
	"step": 456
	},
	{
	"epoch": 2.125874125874126,
	"grad_norm": 2.2290617079488553,
	"learning_rate": 3.1591563761243816e-06,
	"loss": 0.1904,
	"mean_token_accuracy": 0.9462641477584839,
	"num_tokens": 4260491.0,
	"step": 457
	},
	{
	"epoch": 2.1305361305361306,
	"grad_norm": 2.143157870337979,
	"learning_rate": 3.138373787143598e-06,
	"loss": 0.1825,
	"mean_token_accuracy": 0.9492957592010498,
	"num_tokens": 4269810.0,
	"step": 458
	},
	{
	"epoch": 2.1351981351981353,
	"grad_norm": 2.38741737774062,
	"learning_rate": 3.1176604854977665e-06,
	"loss": 0.1902,
	"mean_token_accuracy": 0.9479398429393768,
	"num_tokens": 4279116.0,
	"step": 459
	},
	{
	"epoch": 2.13986013986014,
	"grad_norm": 2.3435622778544203,
	"learning_rate": 3.0970170788907878e-06,
	"loss": 0.2016,
	"mean_token_accuracy": 0.9475513100624084,
	"num_tokens": 4288073.0,
	"step": 460
	},
	{
	"epoch": 2.1445221445221447,
	"grad_norm": 2.338474318951203,
	"learning_rate": 3.076444172975932e-06,
	"loss": 0.1734,
	"mean_token_accuracy": 0.952549546957016,
	"num_tokens": 4296974.0,
	"step": 461
	},
	{
	"epoch": 2.149184149184149,
	"grad_norm": 2.5215652212493653,
	"learning_rate": 3.055942371338052e-06,
	"loss": 0.199,
	"mean_token_accuracy": 0.9409568309783936,
	"num_tokens": 4306323.0,
	"step": 462
	},
	{
	"epoch": 2.1538461538461537,
	"grad_norm": 2.327317690460305,
	"learning_rate": 3.035512275475896e-06,
	"loss": 0.1827,
	"mean_token_accuracy": 0.9496185481548309,
	"num_tokens": 4315250.0,
	"step": 463
	},
	{
	"epoch": 2.1585081585081585,
	"grad_norm": 2.210597087672196,
	"learning_rate": 3.0151544847844385e-06,
	"loss": 0.1742,
	"mean_token_accuracy": 0.9511962532997131,
	"num_tokens": 4324195.0,
	"step": 464
	},
	{
	"epoch": 2.163170163170163,
	"grad_norm": 2.3071386492578045,
	"learning_rate": 2.994869596537316e-06,
	"loss": 0.1983,
	"mean_token_accuracy": 0.9448690712451935,
	"num_tokens": 4333101.0,
	"step": 465
	},
	{
	"epoch": 2.167832167832168,
	"grad_norm": 2.2596793138798104,
	"learning_rate": 2.9746582058692803e-06,
	"loss": 0.1803,
	"mean_token_accuracy": 0.9491128325462341,
	"num_tokens": 4341626.0,
	"step": 466
	},
	{
	"epoch": 2.1724941724941726,
	"grad_norm": 2.2305243738775964,
	"learning_rate": 2.954520905758762e-06,
	"loss": 0.1935,
	"mean_token_accuracy": 0.9493462145328522,
	"num_tokens": 4350773.0,
	"step": 467
	},
	{
	"epoch": 2.177156177156177,
	"grad_norm": 1.8784409884434285,
	"learning_rate": 2.934458287010455e-06,
	"loss": 0.1608,
	"mean_token_accuracy": 0.9552096724510193,
	"num_tokens": 4360531.0,
	"step": 468
	},
	{
	"epoch": 2.1818181818181817,
	"grad_norm": 2.419757102541458,
	"learning_rate": 2.9144709382379955e-06,
	"loss": 0.1929,
	"mean_token_accuracy": 0.9458503425121307,
	"num_tokens": 4370583.0,
	"step": 469
	},
	{
	"epoch": 2.1864801864801864,
	"grad_norm": 2.1959363632762354,
	"learning_rate": 2.894559445846682e-06,
	"loss": 0.1891,
	"mean_token_accuracy": 0.9474013149738312,
	"num_tokens": 4380422.0,
	"step": 470
	},
	{
	"epoch": 2.191142191142191,
	"grad_norm": 2.4899530178247877,
	"learning_rate": 2.8747243940162774e-06,
	"loss": 0.2115,
	"mean_token_accuracy": 0.9412341713905334,
	"num_tokens": 4389278.0,
	"step": 471
	},
	{
	"epoch": 2.195804195804196,
	"grad_norm": 2.4399237002135146,
	"learning_rate": 2.854966364683872e-06,
	"loss": 0.1853,
	"mean_token_accuracy": 0.9496332406997681,
	"num_tokens": 4397770.0,
	"step": 472
	},
	{
	"epoch": 2.2004662004662006,
	"grad_norm": 2.215224089050249,
	"learning_rate": 2.835285937526801e-06,
	"loss": 0.1783,
	"mean_token_accuracy": 0.9523276388645172,
	"num_tokens": 4407968.0,
	"step": 473
	},
	{
	"epoch": 2.2051282051282053,
	"grad_norm": 2.2820905304008647,
	"learning_rate": 2.8156836899456475e-06,
	"loss": 0.1972,
	"mean_token_accuracy": 0.9460384547710419,
	"num_tokens": 4417210.0,
	"step": 474
	},
	{
	"epoch": 2.20979020979021,
	"grad_norm": 2.261724927462342,
	"learning_rate": 2.796160197047294e-06,
	"loss": 0.1754,
	"mean_token_accuracy": 0.9524807631969452,
	"num_tokens": 4427199.0,
	"step": 475
	},
	{
	"epoch": 2.2144522144522143,
	"grad_norm": 2.2910100819309966,
	"learning_rate": 2.7767160316280583e-06,
	"loss": 0.187,
	"mean_token_accuracy": 0.9480907320976257,
	"num_tokens": 4435729.0,
	"step": 476
	},
	{
	"epoch": 2.219114219114219,
	"grad_norm": 2.5356260307985727,
	"learning_rate": 2.757351764156877e-06,
	"loss": 0.1898,
	"mean_token_accuracy": 0.9483682215213776,
	"num_tokens": 4444444.0,
	"step": 477
	},
	{
	"epoch": 2.2237762237762237,
	"grad_norm": 2.185337315098767,
	"learning_rate": 2.7380679627585817e-06,
	"loss": 0.1746,
	"mean_token_accuracy": 0.9521575570106506,
	"num_tokens": 4453166.0,
	"step": 478
	},
	{
	"epoch": 2.2284382284382285,
	"grad_norm": 2.379831452455389,
	"learning_rate": 2.718865193197218e-06,
	"loss": 0.1947,
	"mean_token_accuracy": 0.9449348151683807,
	"num_tokens": 4462042.0,
	"step": 479
	},
	{
	"epoch": 2.233100233100233,
	"grad_norm": 2.171897352199924,
	"learning_rate": 2.699744018859457e-06,
	"loss": 0.1717,
	"mean_token_accuracy": 0.9506651163101196,
	"num_tokens": 4471400.0,
	"step": 480
	},
	{
	"epoch": 2.237762237762238,
	"grad_norm": 2.216542641182696,
	"learning_rate": 2.680705000738061e-06,
	"loss": 0.1691,
	"mean_token_accuracy": 0.9513165950775146,
	"num_tokens": 4481107.0,
	"step": 481
	},
	{
	"epoch": 2.242424242424242,
	"grad_norm": 2.1820463594567134,
	"learning_rate": 2.661748697415423e-06,
	"loss": 0.1753,
	"mean_token_accuracy": 0.94921013712883,
	"num_tokens": 4490865.0,
	"step": 482
	},
	{
	"epoch": 2.247086247086247,
	"grad_norm": 2.3975273161711868,
	"learning_rate": 2.642875665047182e-06,
	"loss": 0.2074,
	"mean_token_accuracy": 0.9420484900474548,
	"num_tokens": 4500700.0,
	"step": 483
	},
	{
	"epoch": 2.2517482517482517,
	"grad_norm": 2.3576310035425885,
	"learning_rate": 2.6240864573459095e-06,
	"loss": 0.1933,
	"mean_token_accuracy": 0.948281466960907,
	"num_tokens": 4509781.0,
	"step": 484
	},
	{
	"epoch": 2.2564102564102564,
	"grad_norm": 2.1072685233889783,
	"learning_rate": 2.6053816255648543e-06,
	"loss": 0.1791,
	"mean_token_accuracy": 0.9498388171195984,
	"num_tokens": 4519055.0,
	"step": 485
	},
	{
	"epoch": 2.261072261072261,
	"grad_norm": 2.3694467761113365,
	"learning_rate": 2.586761718481776e-06,
	"loss": 0.2016,
	"mean_token_accuracy": 0.9420836865901947,
	"num_tokens": 4528368.0,
	"step": 486
	},
	{
	"epoch": 2.265734265734266,
	"grad_norm": 2.354865943769181,
	"learning_rate": 2.5682272823828474e-06,
	"loss": 0.195,
	"mean_token_accuracy": 0.9475519955158234,
	"num_tokens": 4537216.0,
	"step": 487
	},
	{
	"epoch": 2.2703962703962706,
	"grad_norm": 2.0798315233476146,
	"learning_rate": 2.5497788610466177e-06,
	"loss": 0.1775,
	"mean_token_accuracy": 0.9497499167919159,
	"num_tokens": 4546595.0,
	"step": 488
	},
	{
	"epoch": 2.2750582750582753,
	"grad_norm": 2.245906905354928,
	"learning_rate": 2.53141699572807e-06,
	"loss": 0.1873,
	"mean_token_accuracy": 0.9471332430839539,
	"num_tokens": 4555647.0,
	"step": 489
	},
	{
	"epoch": 2.2797202797202796,
	"grad_norm": 2.3166573667243973,
	"learning_rate": 2.5131422251427313e-06,
	"loss": 0.179,
	"mean_token_accuracy": 0.9487544298171997,
	"num_tokens": 4565487.0,
	"step": 490
	},
	{
	"epoch": 2.2843822843822843,
	"grad_norm": 2.356746974573123,
	"learning_rate": 2.4949550854508713e-06,
	"loss": 0.1977,
	"mean_token_accuracy": 0.9462016522884369,
	"num_tokens": 4574193.0,
	"step": 491
	},
	{
	"epoch": 2.289044289044289,
	"grad_norm": 2.3601704690415213,
	"learning_rate": 2.476856110241773e-06,
	"loss": 0.1963,
	"mean_token_accuracy": 0.9484397768974304,
	"num_tokens": 4583652.0,
	"step": 492
	},
	{
	"epoch": 2.2937062937062938,
	"grad_norm": 2.194739252262633,
	"learning_rate": 2.458845830518082e-06,
	"loss": 0.1808,
	"mean_token_accuracy": 0.948834627866745,
	"num_tokens": 4593314.0,
	"step": 493
	},
	{
	"epoch": 2.2983682983682985,
	"grad_norm": 2.262428951601218,
	"learning_rate": 2.440924774680215e-06,
	"loss": 0.196,
	"mean_token_accuracy": 0.9466191530227661,
	"num_tokens": 4602528.0,
	"step": 494
	},
	{
	"epoch": 2.303030303030303,
	"grad_norm": 2.2737186057132246,
	"learning_rate": 2.4230934685108707e-06,
	"loss": 0.1959,
	"mean_token_accuracy": 0.948832631111145,
	"num_tokens": 4611387.0,
	"step": 495
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 2.19558751291413,
	"learning_rate": 2.405352435159595e-06,
	"loss": 0.1832,
	"mean_token_accuracy": 0.9490224421024323,
	"num_tokens": 4620809.0,
	"step": 496
	},
	{
	"epoch": 2.312354312354312,
	"grad_norm": 2.222802090174067,
	"learning_rate": 2.3877021951274374e-06,
	"loss": 0.1911,
	"mean_token_accuracy": 0.9486294388771057,
	"num_tokens": 4629397.0,
	"step": 497
	},
	{
	"epoch": 2.317016317016317,
	"grad_norm": 2.206389027273452,
	"learning_rate": 2.3701432662516772e-06,
	"loss": 0.1727,
	"mean_token_accuracy": 0.9500547051429749,
	"num_tokens": 4638953.0,
	"step": 498
	},
	{
	"epoch": 2.3216783216783217,
	"grad_norm": 2.5956601776793056,
	"learning_rate": 2.3526761636906313e-06,
	"loss": 0.1849,
	"mean_token_accuracy": 0.9497621655464172,
	"num_tokens": 4648328.0,
	"step": 499
	},
	{
	"epoch": 2.3263403263403264,
	"grad_norm": 2.222447522693371,
	"learning_rate": 2.3353013999085402e-06,
	"loss": 0.1878,
	"mean_token_accuracy": 0.9493353068828583,
	"num_tokens": 4658253.0,
	"step": 500
	},
	{
	"epoch": 2.331002331002331,
	"grad_norm": 2.1725903860996265,
	"learning_rate": 2.3180194846605367e-06,
	"loss": 0.1731,
	"mean_token_accuracy": 0.9540884494781494,
	"num_tokens": 4667108.0,
	"step": 501
	},
	{
	"epoch": 2.335664335664336,
	"grad_norm": 2.2106617960868546,
	"learning_rate": 2.300830924977683e-06,
	"loss": 0.1827,
	"mean_token_accuracy": 0.9487708210945129,
	"num_tokens": 4675537.0,
	"step": 502
	},
	{
	"epoch": 2.3403263403263406,
	"grad_norm": 2.26357210261458,
	"learning_rate": 2.283736225152099e-06,
	"loss": 0.1781,
	"mean_token_accuracy": 0.9498123228549957,
	"num_tokens": 4684963.0,
	"step": 503
	},
	{
	"epoch": 2.344988344988345,
	"grad_norm": 2.2970053926748366,
	"learning_rate": 2.26673588672217e-06,
	"loss": 0.1947,
	"mean_token_accuracy": 0.9470812678337097,
	"num_tokens": 4694167.0,
	"step": 504
	},
	{
	"epoch": 2.3496503496503496,
	"grad_norm": 2.180761219218081,
	"learning_rate": 2.249830408457826e-06,
	"loss": 0.1734,
	"mean_token_accuracy": 0.9532337486743927,
	"num_tokens": 4704455.0,
	"step": 505
	},
	{
	"epoch": 2.3543123543123543,
	"grad_norm": 2.1592931519499854,
	"learning_rate": 2.2330202863459123e-06,
	"loss": 0.18,
	"mean_token_accuracy": 0.9502027928829193,
	"num_tokens": 4714149.0,
	"step": 506
	},
	{
	"epoch": 2.358974358974359,
	"grad_norm": 2.3049252234685382,
	"learning_rate": 2.2163060135756364e-06,
	"loss": 0.193,
	"mean_token_accuracy": 0.9451474845409393,
	"num_tokens": 4724018.0,
	"step": 507
	},
	{
	"epoch": 2.3636363636363638,
	"grad_norm": 2.047360241682356,
	"learning_rate": 2.1996880805241e-06,
	"loss": 0.1603,
	"mean_token_accuracy": 0.9543373584747314,
	"num_tokens": 4733728.0,
	"step": 508
	},
	{
	"epoch": 2.3682983682983685,
	"grad_norm": 2.243883991122542,
	"learning_rate": 2.1831669747419093e-06,
	"loss": 0.1895,
	"mean_token_accuracy": 0.9504224061965942,
	"num_tokens": 4743424.0,
	"step": 509
	},
	{
	"epoch": 2.3729603729603728,
	"grad_norm": 2.0125158383022383,
	"learning_rate": 2.166743180938875e-06,
	"loss": 0.1592,
	"mean_token_accuracy": 0.9573898613452911,
	"num_tokens": 4753172.0,
	"step": 510
	},
	{
	"epoch": 2.3776223776223775,
	"grad_norm": 1.9899532151234143,
	"learning_rate": 2.150417180969784e-06,
	"loss": 0.1689,
	"mean_token_accuracy": 0.9538862705230713,
	"num_tokens": 4763449.0,
	"step": 511
	},
	{
	"epoch": 2.382284382284382,
	"grad_norm": 2.1855347374072602,
	"learning_rate": 2.1341894538202726e-06,
	"loss": 0.1933,
	"mean_token_accuracy": 0.9471964538097382,
	"num_tokens": 4773131.0,
	"step": 512
	},
	{
	"epoch": 2.386946386946387,
	"grad_norm": 2.1191232295552638,
	"learning_rate": 2.1180604755927646e-06,
	"loss": 0.1705,
	"mean_token_accuracy": 0.9518732130527496,
	"num_tokens": 4782766.0,
	"step": 513
	},
	{
	"epoch": 2.3916083916083917,
	"grad_norm": 2.1956924392039268,
	"learning_rate": 2.102030719492508e-06,
	"loss": 0.1917,
	"mean_token_accuracy": 0.9490616321563721,
	"num_tokens": 4792428.0,
	"step": 514
	},
	{
	"epoch": 2.3962703962703964,
	"grad_norm": 2.2810533470677705,
	"learning_rate": 2.086100655813688e-06,
	"loss": 0.1862,
	"mean_token_accuracy": 0.9471859931945801,
	"num_tokens": 4801662.0,
	"step": 515
	},
	{
	"epoch": 2.400932400932401,
	"grad_norm": 2.244633860144498,
	"learning_rate": 2.0702707519256365e-06,
	"loss": 0.18,
	"mean_token_accuracy": 0.9517810344696045,
	"num_tokens": 4810704.0,
	"step": 516
	},
	{
	"epoch": 2.4055944055944054,
	"grad_norm": 2.494051955620123,
	"learning_rate": 2.0545414722591096e-06,
	"loss": 0.1864,
	"mean_token_accuracy": 0.9491457939147949,
	"num_tokens": 4819473.0,
	"step": 517
	},
	{
	"epoch": 2.41025641025641,
	"grad_norm": 2.0714876270735867,
	"learning_rate": 2.03891327829267e-06,
	"loss": 0.1611,
	"mean_token_accuracy": 0.9556960761547089,
	"num_tokens": 4829237.0,
	"step": 518
	},
	{
	"epoch": 2.414918414918415,
	"grad_norm": 2.1368173991326387,
	"learning_rate": 2.0233866285391455e-06,
	"loss": 0.175,
	"mean_token_accuracy": 0.9533757269382477,
	"num_tokens": 4838770.0,
	"step": 519
	},
	{
	"epoch": 2.4195804195804196,
	"grad_norm": 2.4559899729586157,
	"learning_rate": 2.0079619785321713e-06,
	"loss": 0.178,
	"mean_token_accuracy": 0.9503377377986908,
	"num_tokens": 4848313.0,
	"step": 520
	},
	{
	"epoch": 2.4242424242424243,
	"grad_norm": 2.408883608780403,
	"learning_rate": 1.992639780812838e-06,
	"loss": 0.1797,
	"mean_token_accuracy": 0.9508785903453827,
	"num_tokens": 4856905.0,
	"step": 521
	},
	{
	"epoch": 2.428904428904429,
	"grad_norm": 2.4178249725991776,
	"learning_rate": 1.9774204849164004e-06,
	"loss": 0.1909,
	"mean_token_accuracy": 0.9491060078144073,
	"num_tokens": 4866602.0,
	"step": 522
	},
	{
	"epoch": 2.4335664335664333,
	"grad_norm": 2.1757038919566085,
	"learning_rate": 1.9623045373590955e-06,
	"loss": 0.1734,
	"mean_token_accuracy": 0.9516046643257141,
	"num_tokens": 4875823.0,
	"step": 523
	},
	{
	"epoch": 2.438228438228438,
	"grad_norm": 2.27555860775744,
	"learning_rate": 1.9472923816250427e-06,
	"loss": 0.1869,
	"mean_token_accuracy": 0.9469164311885834,
	"num_tokens": 4885891.0,
	"step": 524
	},
	{
	"epoch": 2.4428904428904428,
	"grad_norm": 2.3720687067635517,
	"learning_rate": 1.9323844581532334e-06,
	"loss": 0.1901,
	"mean_token_accuracy": 0.9472060799598694,
	"num_tokens": 4895721.0,
	"step": 525
	},
	{
	"epoch": 2.4475524475524475,
	"grad_norm": 2.3467414380479483,
	"learning_rate": 1.9175812043246034e-06,
	"loss": 0.1904,
	"mean_token_accuracy": 0.9455529749393463,
	"num_tokens": 4905678.0,
	"step": 526
	},
	{
	"epoch": 2.4522144522144522,
	"grad_norm": 2.1506573419595045,
	"learning_rate": 1.9028830544492074e-06,
	"loss": 0.1903,
	"mean_token_accuracy": 0.948146402835846,
	"num_tokens": 4915087.0,
	"step": 527
	},
	{
	"epoch": 2.456876456876457,
	"grad_norm": 2.379645454246707,
	"learning_rate": 1.8882904397534705e-06,
	"loss": 0.2152,
	"mean_token_accuracy": 0.9423483908176422,
	"num_tokens": 4924020.0,
	"step": 528
	},
	{
	"epoch": 2.4615384615384617,
	"grad_norm": 2.264126564788235,
	"learning_rate": 1.8738037883675445e-06,
	"loss": 0.1844,
	"mean_token_accuracy": 0.9492262303829193,
	"num_tokens": 4933023.0,
	"step": 529
	},
	{
	"epoch": 2.4662004662004664,
	"grad_norm": 2.190357275615204,
	"learning_rate": 1.8594235253127373e-06,
	"loss": 0.1996,
	"mean_token_accuracy": 0.9468533098697662,
	"num_tokens": 4941720.0,
	"step": 530
	},
	{
	"epoch": 2.4708624708624707,
	"grad_norm": 2.0683527870115483,
	"learning_rate": 1.8451500724890509e-06,
	"loss": 0.1852,
	"mean_token_accuracy": 0.9456667006015778,
	"num_tokens": 4951562.0,
	"step": 531
	},
	{
	"epoch": 2.4755244755244754,
	"grad_norm": 2.3584045584131617,
	"learning_rate": 1.8309838486627995e-06,
	"loss": 0.2036,
	"mean_token_accuracy": 0.94382044672966,
	"num_tokens": 4960478.0,
	"step": 532
	},
	{
	"epoch": 2.48018648018648,
	"grad_norm": 2.1234920339277044,
	"learning_rate": 1.816925269454327e-06,
	"loss": 0.1666,
	"mean_token_accuracy": 0.9552336037158966,
	"num_tokens": 4970160.0,
	"step": 533
	},
	{
	"epoch": 2.484848484848485,
	"grad_norm": 2.3345270471564303,
	"learning_rate": 1.8029747473258092e-06,
	"loss": 0.1859,
	"mean_token_accuracy": 0.9483939707279205,
	"num_tokens": 4979864.0,
	"step": 534
	},
	{
	"epoch": 2.4895104895104896,
	"grad_norm": 2.407762000225371,
	"learning_rate": 1.789132691569153e-06,
	"loss": 0.195,
	"mean_token_accuracy": 0.9456151127815247,
	"num_tokens": 4988667.0,
	"step": 535
	},
	{
	"epoch": 2.4941724941724943,
	"grad_norm": 2.347393889553957,
	"learning_rate": 1.7753995082939932e-06,
	"loss": 0.1732,
	"mean_token_accuracy": 0.9526363909244537,
	"num_tokens": 4998687.0,
	"step": 536
	},
	{
	"epoch": 2.4988344988344986,
	"grad_norm": 2.5390123853320445,
	"learning_rate": 1.7617756004157693e-06,
	"loss": 0.1987,
	"mean_token_accuracy": 0.945299506187439,
	"num_tokens": 5007734.0,
	"step": 537
	},
	{
	"epoch": 2.5034965034965033,
	"grad_norm": 2.438556510312228,
	"learning_rate": 1.7482613676439153e-06,
	"loss": 0.1943,
	"mean_token_accuracy": 0.9447510838508606,
	"num_tokens": 5016545.0,
	"step": 538
	},
	{
	"epoch": 2.508158508158508,
	"grad_norm": 2.3154480135315194,
	"learning_rate": 1.7348572064701188e-06,
	"loss": 0.1947,
	"mean_token_accuracy": 0.9469634890556335,
	"num_tokens": 5025652.0,
	"step": 539
	},
	{
	"epoch": 2.5128205128205128,
	"grad_norm": 2.149785741270873,
	"learning_rate": 1.721563510156704e-06,
	"loss": 0.1718,
	"mean_token_accuracy": 0.9520467817783356,
	"num_tokens": 5035567.0,
	"step": 540
	},
	{
	"epoch": 2.5174825174825175,
	"grad_norm": 2.4390965002580463,
	"learning_rate": 1.7083806687250795e-06,
	"loss": 0.1999,
	"mean_token_accuracy": 0.947026789188385,
	"num_tokens": 5044442.0,
	"step": 541
	},
	{
	"epoch": 2.5221445221445222,
	"grad_norm": 2.294881333986716,
	"learning_rate": 1.6953090689443074e-06,
	"loss": 0.1868,
	"mean_token_accuracy": 0.9499901831150055,
	"num_tokens": 5053663.0,
	"step": 542
	},
	{
	"epoch": 2.526806526806527,
	"grad_norm": 2.2057605088088197,
	"learning_rate": 1.6823490943197473e-06,
	"loss": 0.1719,
	"mean_token_accuracy": 0.9531058371067047,
	"num_tokens": 5063344.0,
	"step": 543
	},
	{
	"epoch": 2.5314685314685317,
	"grad_norm": 2.4507085825396007,
	"learning_rate": 1.6695011250818094e-06,
	"loss": 0.1717,
	"mean_token_accuracy": 0.9547788798809052,
	"num_tokens": 5073038.0,
	"step": 544
	},
	{
	"epoch": 2.5361305361305364,
	"grad_norm": 2.3638435763054493,
	"learning_rate": 1.6567655381747976e-06,
	"loss": 0.1927,
	"mean_token_accuracy": 0.9466958940029144,
	"num_tokens": 5081603.0,
	"step": 545
	},
	{
	"epoch": 2.5407925407925407,
	"grad_norm": 2.32752114137372,
	"learning_rate": 1.6441427072458493e-06,
	"loss": 0.1958,
	"mean_token_accuracy": 0.9444697499275208,
	"num_tokens": 5091091.0,
	"step": 546
	},
	{
	"epoch": 2.5454545454545454,
	"grad_norm": 2.509857709791671,
	"learning_rate": 1.6316330026339743e-06,
	"loss": 0.213,
	"mean_token_accuracy": 0.941786378622055,
	"num_tokens": 5100278.0,
	"step": 547
	},
	{
	"epoch": 2.55011655011655,
	"grad_norm": 2.0952838106121914,
	"learning_rate": 1.6192367913591916e-06,
	"loss": 0.1653,
	"mean_token_accuracy": 0.9539439380168915,
	"num_tokens": 5110291.0,
	"step": 548
	},
	{
	"epoch": 2.554778554778555,
	"grad_norm": 2.4251986988481704,
	"learning_rate": 1.6069544371117556e-06,
	"loss": 0.1737,
	"mean_token_accuracy": 0.9515743851661682,
	"num_tokens": 5119413.0,
	"step": 549
	},
	{
	"epoch": 2.5594405594405596,
	"grad_norm": 2.2675536817510276,
	"learning_rate": 1.5947863002414938e-06,
	"loss": 0.1816,
	"mean_token_accuracy": 0.9483968019485474,
	"num_tokens": 5128968.0,
	"step": 550
	},
	{
	"epoch": 2.564102564102564,
	"grad_norm": 2.225047159227379,
	"learning_rate": 1.5827327377472262e-06,
	"loss": 0.1872,
	"mean_token_accuracy": 0.9502107799053192,
	"num_tokens": 5138040.0,
	"step": 551
	},
	{
	"epoch": 2.5687645687645686,
	"grad_norm": 2.5646265404291033,
	"learning_rate": 1.5707941032662967e-06,
	"loss": 0.1941,
	"mean_token_accuracy": 0.9476030170917511,
	"num_tokens": 5147278.0,
	"step": 552
	},
	{
	"epoch": 2.5734265734265733,
	"grad_norm": 2.512848592730855,
	"learning_rate": 1.558970747064198e-06,
	"loss": 0.184,
	"mean_token_accuracy": 0.9474705457687378,
	"num_tokens": 5156257.0,
	"step": 553
	},
	{
	"epoch": 2.578088578088578,
	"grad_norm": 2.092641334488186,
	"learning_rate": 1.5472630160242921e-06,
	"loss": 0.1692,
	"mean_token_accuracy": 0.9498989582061768,
	"num_tokens": 5166290.0,
	"step": 554
	},
	{
	"epoch": 2.582750582750583,
	"grad_norm": 2.232715743448255,
	"learning_rate": 1.5356712536376345e-06,
	"loss": 0.1803,
	"mean_token_accuracy": 0.9500272274017334,
	"num_tokens": 5176118.0,
	"step": 555
	},
	{
	"epoch": 2.5874125874125875,
	"grad_norm": 2.5230454773039828,
	"learning_rate": 1.5241957999928974e-06,
	"loss": 0.1689,
	"mean_token_accuracy": 0.952000617980957,
	"num_tokens": 5185921.0,
	"step": 556
	},
	{
	"epoch": 2.5920745920745922,
	"grad_norm": 2.6026889894908978,
	"learning_rate": 1.5128369917663924e-06,
	"loss": 0.1873,
	"mean_token_accuracy": 0.9518662393093109,
	"num_tokens": 5194883.0,
	"step": 557
	},
	{
	"epoch": 2.596736596736597,
	"grad_norm": 2.4331824963283375,
	"learning_rate": 1.5015951622121896e-06,
	"loss": 0.1782,
	"mean_token_accuracy": 0.9511874914169312,
	"num_tokens": 5203915.0,
	"step": 558
	},
	{
	"epoch": 2.6013986013986012,
	"grad_norm": 2.3494840072703598,
	"learning_rate": 1.490470641152345e-06,
	"loss": 0.1832,
	"mean_token_accuracy": 0.9490853250026703,
	"num_tokens": 5212979.0,
	"step": 559
	},
	{
	"epoch": 2.606060606060606,
	"grad_norm": 2.37225992368595,
	"learning_rate": 1.4794637549672182e-06,
	"loss": 0.2049,
	"mean_token_accuracy": 0.9459311068058014,
	"num_tokens": 5222060.0,
	"step": 560
	},
	{
	"epoch": 2.6107226107226107,
	"grad_norm": 2.2581667401414354,
	"learning_rate": 1.4685748265859043e-06,
	"loss": 0.1853,
	"mean_token_accuracy": 0.949056476354599,
	"num_tokens": 5230955.0,
	"step": 561
	},
	{
	"epoch": 2.6153846153846154,
	"grad_norm": 2.049312050186223,
	"learning_rate": 1.457804175476751e-06,
	"loss": 0.1627,
	"mean_token_accuracy": 0.9556883871555328,
	"num_tokens": 5241027.0,
	"step": 562
	},
	{
	"epoch": 2.62004662004662,
	"grad_norm": 2.2972322506270095,
	"learning_rate": 1.447152117637992e-06,
	"loss": 0.185,
	"mean_token_accuracy": 0.9484710693359375,
	"num_tokens": 5250218.0,
	"step": 563
	},
	{
	"epoch": 2.624708624708625,
	"grad_norm": 2.1577151240414443,
	"learning_rate": 1.436618965588472e-06,
	"loss": 0.1715,
	"mean_token_accuracy": 0.9517091810703278,
	"num_tokens": 5259812.0,
	"step": 564
	},
	{
	"epoch": 2.629370629370629,
	"grad_norm": 2.2654942496472836,
	"learning_rate": 1.4262050283584836e-06,
	"loss": 0.1708,
	"mean_token_accuracy": 0.952095627784729,
	"num_tokens": 5268750.0,
	"step": 565
	},
	{
	"epoch": 2.634032634032634,
	"grad_norm": 2.0539513008080132,
	"learning_rate": 1.4159106114806943e-06,
	"loss": 0.1703,
	"mean_token_accuracy": 0.9545489847660065,
	"num_tokens": 5277570.0,
	"step": 566
	},
	{
	"epoch": 2.6386946386946386,
	"grad_norm": 2.2352237949709814,
	"learning_rate": 1.4057360169811832e-06,
	"loss": 0.1856,
	"mean_token_accuracy": 0.9448749423027039,
	"num_tokens": 5287563.0,
	"step": 567
	},
	{
	"epoch": 2.6433566433566433,
	"grad_norm": 2.274026900774616,
	"learning_rate": 1.3956815433705861e-06,
	"loss": 0.1854,
	"mean_token_accuracy": 0.9487999975681305,
	"num_tokens": 5296479.0,
	"step": 568
	},
	{
	"epoch": 2.648018648018648,
	"grad_norm": 2.271359052605945,
	"learning_rate": 1.3857474856353299e-06,
	"loss": 0.1895,
	"mean_token_accuracy": 0.9485887885093689,
	"num_tokens": 5305636.0,
	"step": 569
	},
	{
	"epoch": 2.652680652680653,
	"grad_norm": 2.2832232390511935,
	"learning_rate": 1.3759341352289832e-06,
	"loss": 0.1919,
	"mean_token_accuracy": 0.9442925155162811,
	"num_tokens": 5315157.0,
	"step": 570
	},
	{
	"epoch": 2.6573426573426575,
	"grad_norm": 2.4224807634049874,
	"learning_rate": 1.3662417800637023e-06,
	"loss": 0.196,
	"mean_token_accuracy": 0.9467974901199341,
	"num_tokens": 5324117.0,
	"step": 571
	},
	{
	"epoch": 2.6620046620046622,
	"grad_norm": 2.383821092419705,
	"learning_rate": 1.3566707045017867e-06,
	"loss": 0.181,
	"mean_token_accuracy": 0.9486918449401855,
	"num_tokens": 5332491.0,
	"step": 572
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 2.451846629070992,
	"learning_rate": 1.3472211893473327e-06,
	"loss": 0.183,
	"mean_token_accuracy": 0.9497961103916168,
	"num_tokens": 5341476.0,
	"step": 573
	},
	{
	"epoch": 2.6713286713286712,
	"grad_norm": 2.2050228122309297,
	"learning_rate": 1.3378935118380004e-06,
	"loss": 0.1664,
	"mean_token_accuracy": 0.9522497951984406,
	"num_tokens": 5351031.0,
	"step": 574
	},
	{
	"epoch": 2.675990675990676,
	"grad_norm": 2.221685948440498,
	"learning_rate": 1.3286879456368746e-06,
	"loss": 0.1868,
	"mean_token_accuracy": 0.9497689306735992,
	"num_tokens": 5360953.0,
	"step": 575
	},
	{
	"epoch": 2.6806526806526807,
	"grad_norm": 2.3611824277077895,
	"learning_rate": 1.319604760824439e-06,
	"loss": 0.1885,
	"mean_token_accuracy": 0.9504337906837463,
	"num_tokens": 5370450.0,
	"step": 576
	},
	{
	"epoch": 2.6853146853146854,
	"grad_norm": 2.524561240638075,
	"learning_rate": 1.31064422389065e-06,
	"loss": 0.1852,
	"mean_token_accuracy": 0.947800487279892,
	"num_tokens": 5379656.0,
	"step": 577
	},
	{
	"epoch": 2.6899766899766897,
	"grad_norm": 2.4377644762322848,
	"learning_rate": 1.3018065977271215e-06,
	"loss": 0.2048,
	"mean_token_accuracy": 0.9430462419986725,
	"num_tokens": 5388537.0,
	"step": 578
	},
	{
	"epoch": 2.6946386946386944,
	"grad_norm": 2.399526282941045,
	"learning_rate": 1.293092141619407e-06,
	"loss": 0.1904,
	"mean_token_accuracy": 0.9497084021568298,
	"num_tokens": 5398026.0,
	"step": 579
	},
	{
	"epoch": 2.699300699300699,
	"grad_norm": 2.461708260111587,
	"learning_rate": 1.2845011112394e-06,
	"loss": 0.1979,
	"mean_token_accuracy": 0.9429396092891693,
	"num_tokens": 5407274.0,
	"step": 580
	},
	{
	"epoch": 2.703962703962704,
	"grad_norm": 2.1140139302951506,
	"learning_rate": 1.276033758637823e-06,
	"loss": 0.1711,
	"mean_token_accuracy": 0.954795241355896,
	"num_tokens": 5416685.0,
	"step": 581
	},
	{
	"epoch": 2.7086247086247086,
	"grad_norm": 2.256627061683475,
	"learning_rate": 1.2676903322368423e-06,
	"loss": 0.1914,
	"mean_token_accuracy": 0.9461691081523895,
	"num_tokens": 5426216.0,
	"step": 582
	},
	{
	"epoch": 2.7132867132867133,
	"grad_norm": 2.224029918327043,
	"learning_rate": 1.2594710768227734e-06,
	"loss": 0.1902,
	"mean_token_accuracy": 0.9479357004165649,
	"num_tokens": 5435218.0,
	"step": 583
	},
	{
	"epoch": 2.717948717948718,
	"grad_norm": 2.3441213495740616,
	"learning_rate": 1.2513762335389004e-06,
	"loss": 0.1952,
	"mean_token_accuracy": 0.9469590187072754,
	"num_tokens": 5444848.0,
	"step": 584
	},
	{
	"epoch": 2.722610722610723,
	"grad_norm": 2.2818966905915525,
	"learning_rate": 1.2434060398784039e-06,
	"loss": 0.1861,
	"mean_token_accuracy": 0.9511770606040955,
	"num_tokens": 5453935.0,
	"step": 585
	},
	{
	"epoch": 2.7272727272727275,
	"grad_norm": 2.527822525615972,
	"learning_rate": 1.2355607296773896e-06,
	"loss": 0.1826,
	"mean_token_accuracy": 0.9509838223457336,
	"num_tokens": 5463825.0,
	"step": 586
	},
	{
	"epoch": 2.731934731934732,
	"grad_norm": 2.3014422706991193,
	"learning_rate": 1.2278405331080296e-06,
	"loss": 0.2017,
	"mean_token_accuracy": 0.9433080554008484,
	"num_tokens": 5472633.0,
	"step": 587
	},
	{
	"epoch": 2.7365967365967365,
	"grad_norm": 2.481469694015223,
	"learning_rate": 1.2202456766718092e-06,
	"loss": 0.1929,
	"mean_token_accuracy": 0.9468889534473419,
	"num_tokens": 5481508.0,
	"step": 588
	},
	{
	"epoch": 2.7412587412587412,
	"grad_norm": 2.2243902331538803,
	"learning_rate": 1.212776383192883e-06,
	"loss": 0.1921,
	"mean_token_accuracy": 0.9495699405670166,
	"num_tokens": 5490583.0,
	"step": 589
	},
	{
	"epoch": 2.745920745920746,
	"grad_norm": 2.079107821673962,
	"learning_rate": 1.2054328718115336e-06,
	"loss": 0.171,
	"mean_token_accuracy": 0.9525066316127777,
	"num_tokens": 5500701.0,
	"step": 590
	},
	{
	"epoch": 2.7505827505827507,
	"grad_norm": 2.612790704517144,
	"learning_rate": 1.1982153579777483e-06,
	"loss": 0.1945,
	"mean_token_accuracy": 0.9466931521892548,
	"num_tokens": 5509719.0,
	"step": 591
	},
	{
	"epoch": 2.755244755244755,
	"grad_norm": 2.279498702941535,
	"learning_rate": 1.1911240534448899e-06,
	"loss": 0.2023,
	"mean_token_accuracy": 0.9443814754486084,
	"num_tokens": 5518911.0,
	"step": 592
	},
	{
	"epoch": 2.7599067599067597,
	"grad_norm": 2.302875853828702,
	"learning_rate": 1.1841591662634943e-06,
	"loss": 0.1782,
	"mean_token_accuracy": 0.9504655301570892,
	"num_tokens": 5528230.0,
	"step": 593
	},
	{
	"epoch": 2.7645687645687644,
	"grad_norm": 2.391231643668634,
	"learning_rate": 1.1773209007751562e-06,
	"loss": 0.1973,
	"mean_token_accuracy": 0.9472830295562744,
	"num_tokens": 5537899.0,
	"step": 594
	},
	{
	"epoch": 2.769230769230769,
	"grad_norm": 2.195727031813818,
	"learning_rate": 1.1706094576065416e-06,
	"loss": 0.1797,
	"mean_token_accuracy": 0.9503377079963684,
	"num_tokens": 5547675.0,
	"step": 595
	},
	{
	"epoch": 2.773892773892774,
	"grad_norm": 2.3904334187953777,
	"learning_rate": 1.164025033663497e-06,
	"loss": 0.2021,
	"mean_token_accuracy": 0.9435946643352509,
	"num_tokens": 5557022.0,
	"step": 596
	},
	{
	"epoch": 2.7785547785547786,
	"grad_norm": 2.2336433005731924,
	"learning_rate": 1.1575678221252763e-06,
	"loss": 0.178,
	"mean_token_accuracy": 0.9506051242351532,
	"num_tokens": 5566788.0,
	"step": 597
	},
	{
	"epoch": 2.7832167832167833,
	"grad_norm": 2.45559515222341,
	"learning_rate": 1.1512380124388695e-06,
	"loss": 0.1885,
	"mean_token_accuracy": 0.948212593793869,
	"num_tokens": 5575464.0,
	"step": 598
	},
	{
	"epoch": 2.787878787878788,
	"grad_norm": 2.3652897419571213,
	"learning_rate": 1.1450357903134463e-06,
	"loss": 0.1838,
	"mean_token_accuracy": 0.9474283754825592,
	"num_tokens": 5584904.0,
	"step": 599
	},
	{
	"epoch": 2.792540792540793,
	"grad_norm": 2.3554447950041304,
	"learning_rate": 1.1389613377149086e-06,
	"loss": 0.1903,
	"mean_token_accuracy": 0.9471111297607422,
	"num_tokens": 5594389.0,
	"step": 600
	},
	{
	"epoch": 2.797202797202797,
	"grad_norm": 2.2047518432891633,
	"learning_rate": 1.1330148328605484e-06,
	"loss": 0.1763,
	"mean_token_accuracy": 0.951262503862381,
	"num_tokens": 5603819.0,
	"step": 601
	},
	{
	"epoch": 2.801864801864802,
	"grad_norm": 2.291063530837646,
	"learning_rate": 1.127196450213825e-06,
	"loss": 0.1773,
	"mean_token_accuracy": 0.9493178725242615,
	"num_tokens": 5614459.0,
	"step": 602
	},
	{
	"epoch": 2.8065268065268065,
	"grad_norm": 2.11284252635657,
	"learning_rate": 1.1215063604792396e-06,
	"loss": 0.1694,
	"mean_token_accuracy": 0.9510103464126587,
	"num_tokens": 5623744.0,
	"step": 603
	},
	{
	"epoch": 2.8111888111888113,
	"grad_norm": 2.1857533437327925,
	"learning_rate": 1.1159447305973313e-06,
	"loss": 0.1835,
	"mean_token_accuracy": 0.9497886300086975,
	"num_tokens": 5632743.0,
	"step": 604
	},
	{
	"epoch": 2.815850815850816,
	"grad_norm": 2.3920794052563665,
	"learning_rate": 1.1105117237397777e-06,
	"loss": 0.1772,
	"mean_token_accuracy": 0.95287024974823,
	"num_tokens": 5641669.0,
	"step": 605
	},
	{
	"epoch": 2.8205128205128203,
	"grad_norm": 2.3412796580645745,
	"learning_rate": 1.1052074993046102e-06,
	"loss": 0.1808,
	"mean_token_accuracy": 0.9482883512973785,
	"num_tokens": 5650735.0,
	"step": 606
	},
	{
	"epoch": 2.825174825174825,
	"grad_norm": 2.3440493241719147,
	"learning_rate": 1.100032212911533e-06,
	"loss": 0.2039,
	"mean_token_accuracy": 0.9425942301750183,
	"num_tokens": 5659501.0,
	"step": 607
	},
	{
	"epoch": 2.8298368298368297,
	"grad_norm": 2.0320304598963213,
	"learning_rate": 1.0949860163973616e-06,
	"loss": 0.1738,
	"mean_token_accuracy": 0.9530138373374939,
	"num_tokens": 5669759.0,
	"step": 608
	},
	{
	"epoch": 2.8344988344988344,
	"grad_norm": 2.325052766726883,
	"learning_rate": 1.0900690578115643e-06,
	"loss": 0.1905,
	"mean_token_accuracy": 0.9488844573497772,
	"num_tokens": 5678984.0,
	"step": 609
	},
	{
	"epoch": 2.839160839160839,
	"grad_norm": 2.4642634644073396,
	"learning_rate": 1.0852814814119238e-06,
	"loss": 0.2002,
	"mean_token_accuracy": 0.9488008916378021,
	"num_tokens": 5688220.0,
	"step": 610
	},
	{
	"epoch": 2.843822843822844,
	"grad_norm": 2.345629463948856,
	"learning_rate": 1.0806234276602984e-06,
	"loss": 0.1949,
	"mean_token_accuracy": 0.9474165737628937,
	"num_tokens": 5697038.0,
	"step": 611
	},
	{
	"epoch": 2.8484848484848486,
	"grad_norm": 2.0761774146720398,
	"learning_rate": 1.0760950332185055e-06,
	"loss": 0.1623,
	"mean_token_accuracy": 0.9569342732429504,
	"num_tokens": 5706946.0,
	"step": 612
	},
	{
	"epoch": 2.8531468531468533,
	"grad_norm": 2.1184654015758357,
	"learning_rate": 1.071696430944311e-06,
	"loss": 0.1657,
	"mean_token_accuracy": 0.9557340145111084,
	"num_tokens": 5716519.0,
	"step": 613
	},
	{
	"epoch": 2.857808857808858,
	"grad_norm": 2.7525481756348427,
	"learning_rate": 1.0674277498875325e-06,
	"loss": 0.192,
	"mean_token_accuracy": 0.9446141123771667,
	"num_tokens": 5725936.0,
	"step": 614
	},
	{
	"epoch": 2.8624708624708624,
	"grad_norm": 2.415698399491206,
	"learning_rate": 1.0632891152862493e-06,
	"loss": 0.1881,
	"mean_token_accuracy": 0.9490151107311249,
	"num_tokens": 5735600.0,
	"step": 615
	},
	{
	"epoch": 2.867132867132867,
	"grad_norm": 2.0904164041799644,
	"learning_rate": 1.0592806485631326e-06,
	"loss": 0.1651,
	"mean_token_accuracy": 0.9557408690452576,
	"num_tokens": 5745302.0,
	"step": 616
	},
	{
	"epoch": 2.871794871794872,
	"grad_norm": 2.373611778744568,
	"learning_rate": 1.0554024673218808e-06,
	"loss": 0.1925,
	"mean_token_accuracy": 0.9461594521999359,
	"num_tokens": 5754314.0,
	"step": 617
	},
	{
	"epoch": 2.8764568764568765,
	"grad_norm": 2.3770918318336687,
	"learning_rate": 1.0516546853437686e-06,
	"loss": 0.1888,
	"mean_token_accuracy": 0.9470888376235962,
	"num_tokens": 5763507.0,
	"step": 618
	},
	{
	"epoch": 2.8811188811188813,
	"grad_norm": 2.615459038788364,
	"learning_rate": 1.0480374125843114e-06,
	"loss": 0.1873,
	"mean_token_accuracy": 0.9462830722332001,
	"num_tokens": 5772748.0,
	"step": 619
	},
	{
	"epoch": 2.8857808857808855,
	"grad_norm": 2.412878313629322,
	"learning_rate": 1.0445507551700356e-06,
	"loss": 0.1896,
	"mean_token_accuracy": 0.9492884576320648,
	"num_tokens": 5782160.0,
	"step": 620
	},
	{
	"epoch": 2.8904428904428903,
	"grad_norm": 2.349334019362764,
	"learning_rate": 1.0411948153953696e-06,
	"loss": 0.194,
	"mean_token_accuracy": 0.9473778307437897,
	"num_tokens": 5790728.0,
	"step": 621
	},
	{
	"epoch": 2.895104895104895,
	"grad_norm": 2.342666618452988,
	"learning_rate": 1.0379696917196378e-06,
	"loss": 0.1764,
	"mean_token_accuracy": 0.9477843642234802,
	"num_tokens": 5800771.0,
	"step": 622
	},
	{
	"epoch": 2.8997668997668997,
	"grad_norm": 2.369332709510537,
	"learning_rate": 1.0348754787641751e-06,
	"loss": 0.1775,
	"mean_token_accuracy": 0.949904203414917,
	"num_tokens": 5809633.0,
	"step": 623
	},
	{
	"epoch": 2.9044289044289044,
	"grad_norm": 2.2013635420452173,
	"learning_rate": 1.031912267309549e-06,
	"loss": 0.1624,
	"mean_token_accuracy": 0.9559362530708313,
	"num_tokens": 5819766.0,
	"step": 624
	},
	{
	"epoch": 2.909090909090909,
	"grad_norm": 2.208698138845042,
	"learning_rate": 1.029080144292899e-06,
	"loss": 0.1829,
	"mean_token_accuracy": 0.9497508108615875,
	"num_tokens": 5829413.0,
	"step": 625
	},
	{
	"epoch": 2.913752913752914,
	"grad_norm": 2.332053491912036,
	"learning_rate": 1.026379192805382e-06,
	"loss": 0.1777,
	"mean_token_accuracy": 0.9528988003730774,
	"num_tokens": 5839124.0,
	"step": 626
	},
	{
	"epoch": 2.9184149184149186,
	"grad_norm": 2.4789581729644077,
	"learning_rate": 1.0238094920897374e-06,
	"loss": 0.173,
	"mean_token_accuracy": 0.953327864408493,
	"num_tokens": 5848406.0,
	"step": 627
	},
	{
	"epoch": 2.9230769230769234,
	"grad_norm": 2.2923048279485667,
	"learning_rate": 1.0213711175379614e-06,
	"loss": 0.171,
	"mean_token_accuracy": 0.956305056810379,
	"num_tokens": 5857592.0,
	"step": 628
	},
	{
	"epoch": 2.9277389277389276,
	"grad_norm": 2.34320318426194,
	"learning_rate": 1.0190641406890946e-06,
	"loss": 0.1831,
	"mean_token_accuracy": 0.9514197111129761,
	"num_tokens": 5866687.0,
	"step": 629
	},
	{
	"epoch": 2.9324009324009324,
	"grad_norm": 2.4904828242049293,
	"learning_rate": 1.0168886292271246e-06,
	"loss": 0.189,
	"mean_token_accuracy": 0.9476959109306335,
	"num_tokens": 5875890.0,
	"step": 630
	},
	{
	"epoch": 2.937062937062937,
	"grad_norm": 2.216909312747613,
	"learning_rate": 1.0148446469789979e-06,
	"loss": 0.179,
	"mean_token_accuracy": 0.9502739012241364,
	"num_tokens": 5884491.0,
	"step": 631
	},
	{
	"epoch": 2.941724941724942,
	"grad_norm": 2.393678749036967,
	"learning_rate": 1.0129322539127494e-06,
	"loss": 0.1815,
	"mean_token_accuracy": 0.9475315511226654,
	"num_tokens": 5894473.0,
	"step": 632
	},
	{
	"epoch": 2.9463869463869465,
	"grad_norm": 2.3025122993118443,
	"learning_rate": 1.011151506135742e-06,
	"loss": 0.1755,
	"mean_token_accuracy": 0.9525851905345917,
	"num_tokens": 5903874.0,
	"step": 633
	},
	{
	"epoch": 2.951048951048951,
	"grad_norm": 2.149623052195717,
	"learning_rate": 1.0095024558930204e-06,
	"loss": 0.1827,
	"mean_token_accuracy": 0.9500269293785095,
	"num_tokens": 5913132.0,
	"step": 634
	},
	{
	"epoch": 2.9557109557109555,
	"grad_norm": 2.347852575129903,
	"learning_rate": 1.0079851515657794e-06,
	"loss": 0.1992,
	"mean_token_accuracy": 0.9474380910396576,
	"num_tokens": 5923130.0,
	"step": 635
	},
	{
	"epoch": 2.9603729603729603,
	"grad_norm": 2.4799488075118408,
	"learning_rate": 1.006599637669943e-06,
	"loss": 0.192,
	"mean_token_accuracy": 0.946626216173172,
	"num_tokens": 5931948.0,
	"step": 636
	},
	{
	"epoch": 2.965034965034965,
	"grad_norm": 2.1839881945919055,
	"learning_rate": 1.0053459548548582e-06,
	"loss": 0.1699,
	"mean_token_accuracy": 0.9527485072612762,
	"num_tokens": 5941672.0,
	"step": 637
	},
	{
	"epoch": 2.9696969696969697,
	"grad_norm": 2.3405062342525884,
	"learning_rate": 1.004224139902105e-06,
	"loss": 0.192,
	"mean_token_accuracy": 0.9456218183040619,
	"num_tokens": 5951095.0,
	"step": 638
	},
	{
	"epoch": 2.9743589743589745,
	"grad_norm": 2.1209481683555906,
	"learning_rate": 1.0032342257244139e-06,
	"loss": 0.17,
	"mean_token_accuracy": 0.9527087509632111,
	"num_tokens": 5961196.0,
	"step": 639
	},
	{
	"epoch": 2.979020979020979,
	"grad_norm": 2.3906839410006957,
	"learning_rate": 1.0023762413647023e-06,
	"loss": 0.19,
	"mean_token_accuracy": 0.9449608623981476,
	"num_tokens": 5970352.0,
	"step": 640
	},
	{
	"epoch": 2.983682983682984,
	"grad_norm": 2.2744118662012736,
	"learning_rate": 1.0016502119952224e-06,
	"loss": 0.1824,
	"mean_token_accuracy": 0.9502459466457367,
	"num_tokens": 5979759.0,
	"step": 641
	},
	{
	"epoch": 2.988344988344988,
	"grad_norm": 2.3978292522263933,
	"learning_rate": 1.0010561589168217e-06,
	"loss": 0.1858,
	"mean_token_accuracy": 0.9475610256195068,
	"num_tokens": 5989632.0,
	"step": 642
	},
	{
	"epoch": 2.993006993006993,
	"grad_norm": 2.220217029439386,
	"learning_rate": 1.0005940995583183e-06,
	"loss": 0.1843,
	"mean_token_accuracy": 0.9482160210609436,
	"num_tokens": 5999031.0,
	"step": 643
	},
	{
	"epoch": 2.9976689976689976,
	"grad_norm": 2.303701651736636,
	"learning_rate": 1.0002640474759911e-06,
	"loss": 0.1822,
	"mean_token_accuracy": 0.950013667345047,
	"num_tokens": 6008269.0,
	"step": 644
	},
	{
	"epoch": 3.0,
	"grad_norm": 2.303701651736636,
	"learning_rate": 1.0000660123531788e-06,
	"loss": 0.1305,
	"mean_token_accuracy": 0.9722093343734741,
	"num_tokens": 6010434.0,
	"step": 645
	},
	{
	"epoch": 3.0,
	"step": 645,
	"total_flos": 194968109678592.0,
	"train_loss": 0.4934643579314845,
	"train_runtime": 19223.4417,
	"train_samples_per_second": 1.069,
	"train_steps_per_second": 0.034
	}
	],
	"logging_steps": 1,
	"max_steps": 645,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 194968109678592.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}