trainer_state (3).json · reaperdoesntknow/TopologicalQwen at main

TopologicalQwen / trainer_state (3).json

Upload 2 files

4c89ea0 verified 24 days ago

152 kB

	{
	"best_global_step": 512,
	"best_metric": 0.22544851899147034,
	"best_model_checkpoint": "DQwen3-1.7B-uncensored/checkpoint-512",
	"epoch": 0.07895142636854278,
	"eval_steps": 128,
	"global_step": 512,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 0.9247070550918579,
	"epoch": 0.00015420200462606013,
	"grad_norm": 31.125,
	"learning_rate": 0.0,
	"loss": 2.181769847869873,
	"mean_token_accuracy": 0.6662116050720215,
	"num_tokens": 1473.0,
	"step": 1
	},
	{
	"entropy": 1.0056357383728027,
	"epoch": 0.00030840400925212025,
	"grad_norm": 43.0,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 2.696769952774048,
	"mean_token_accuracy": 0.617977499961853,
	"num_tokens": 2460.0,
	"step": 2
	},
	{
	"entropy": 1.0802278518676758,
	"epoch": 0.0004626060138781804,
	"grad_norm": 41.5,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 2.6830270290374756,
	"mean_token_accuracy": 0.6033275127410889,
	"num_tokens": 3610.0,
	"step": 3
	},
	{
	"entropy": 0.9580708742141724,
	"epoch": 0.0006168080185042405,
	"grad_norm": 33.75,
	"learning_rate": 5e-06,
	"loss": 2.234797716140747,
	"mean_token_accuracy": 0.6668869853019714,
	"num_tokens": 5131.0,
	"step": 4
	},
	{
	"entropy": 1.0076204538345337,
	"epoch": 0.0007710100231303007,
	"grad_norm": 34.75,
	"learning_rate": 6.666666666666667e-06,
	"loss": 2.374027729034424,
	"mean_token_accuracy": 0.6405493021011353,
	"num_tokens": 6377.0,
	"step": 5
	},
	{
	"entropy": 1.0595803260803223,
	"epoch": 0.0009252120277563608,
	"grad_norm": 34.25,
	"learning_rate": 8.333333333333334e-06,
	"loss": 2.216482400894165,
	"mean_token_accuracy": 0.6401006579399109,
	"num_tokens": 7577.0,
	"step": 6
	},
	{
	"entropy": 1.1813561916351318,
	"epoch": 0.001079414032382421,
	"grad_norm": 25.375,
	"learning_rate": 1e-05,
	"loss": 2.0130465030670166,
	"mean_token_accuracy": 0.6524437665939331,
	"num_tokens": 8874.0,
	"step": 7
	},
	{
	"entropy": 1.4208881855010986,
	"epoch": 0.001233616037008481,
	"grad_norm": 24.125,
	"learning_rate": 1.1666666666666668e-05,
	"loss": 2.3102152347564697,
	"mean_token_accuracy": 0.5884244441986084,
	"num_tokens": 9815.0,
	"step": 8
	},
	{
	"entropy": 0.8640963435173035,
	"epoch": 0.0013878180416345412,
	"grad_norm": 12.3125,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 1.3446450233459473,
	"mean_token_accuracy": 0.7377659678459167,
	"num_tokens": 11703.0,
	"step": 9
	},
	{
	"entropy": 1.0817725658416748,
	"epoch": 0.0015420200462606013,
	"grad_norm": 14.125,
	"learning_rate": 1.5e-05,
	"loss": 1.6320915222167969,
	"mean_token_accuracy": 0.6808972358703613,
	"num_tokens": 13093.0,
	"step": 10
	},
	{
	"entropy": 0.9536824226379395,
	"epoch": 0.0016962220508866615,
	"grad_norm": 10.5,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 1.2360026836395264,
	"mean_token_accuracy": 0.741475522518158,
	"num_tokens": 14714.0,
	"step": 11
	},
	{
	"entropy": 1.049913763999939,
	"epoch": 0.0018504240555127216,
	"grad_norm": 10.875,
	"learning_rate": 1.8333333333333333e-05,
	"loss": 1.2552467584609985,
	"mean_token_accuracy": 0.7327285408973694,
	"num_tokens": 16155.0,
	"step": 12
	},
	{
	"entropy": 0.7939231395721436,
	"epoch": 0.0020046260601387818,
	"grad_norm": 7.28125,
	"learning_rate": 2e-05,
	"loss": 0.8604422211647034,
	"mean_token_accuracy": 0.7944584488868713,
	"num_tokens": 18148.0,
	"step": 13
	},
	{
	"entropy": 0.9421704411506653,
	"epoch": 0.002158828064764842,
	"grad_norm": 9.375,
	"learning_rate": 2.1666666666666667e-05,
	"loss": 0.9789397716522217,
	"mean_token_accuracy": 0.7728531956672668,
	"num_tokens": 19600.0,
	"step": 14
	},
	{
	"entropy": 1.101209044456482,
	"epoch": 0.002313030069390902,
	"grad_norm": 9.5,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 1.1167230606079102,
	"mean_token_accuracy": 0.759087085723877,
	"num_tokens": 20791.0,
	"step": 15
	},
	{
	"entropy": 0.8545694351196289,
	"epoch": 0.002467232074016962,
	"grad_norm": 8.875,
	"learning_rate": 2.5e-05,
	"loss": 0.8782606720924377,
	"mean_token_accuracy": 0.8138889074325562,
	"num_tokens": 22239.0,
	"step": 16
	},
	{
	"entropy": 0.5610961318016052,
	"epoch": 0.0026214340786430224,
	"grad_norm": 5.5,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.5257444381713867,
	"mean_token_accuracy": 0.8684759736061096,
	"num_tokens": 24642.0,
	"step": 17
	},
	{
	"entropy": 0.9791864156723022,
	"epoch": 0.0027756360832690823,
	"grad_norm": 12.0,
	"learning_rate": 2.8333333333333335e-05,
	"loss": 1.0223743915557861,
	"mean_token_accuracy": 0.780053436756134,
	"num_tokens": 25773.0,
	"step": 18
	},
	{
	"entropy": 0.6505466103553772,
	"epoch": 0.0029298380878951427,
	"grad_norm": 7.34375,
	"learning_rate": 3e-05,
	"loss": 0.5793496370315552,
	"mean_token_accuracy": 0.8571428656578064,
	"num_tokens": 27258.0,
	"step": 19
	},
	{
	"entropy": 0.8408939242362976,
	"epoch": 0.0030840400925212026,
	"grad_norm": 8.1875,
	"learning_rate": 3.1666666666666666e-05,
	"loss": 0.7403033375740051,
	"mean_token_accuracy": 0.8192341923713684,
	"num_tokens": 28389.0,
	"step": 20
	},
	{
	"entropy": 0.6034911274909973,
	"epoch": 0.003238242097147263,
	"grad_norm": 9.125,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 0.5590517520904541,
	"mean_token_accuracy": 0.8626410365104675,
	"num_tokens": 29904.0,
	"step": 21
	},
	{
	"entropy": 0.9795640110969543,
	"epoch": 0.003392444101773323,
	"grad_norm": 13.25,
	"learning_rate": 3.5e-05,
	"loss": 0.9148629307746887,
	"mean_token_accuracy": 0.7654135227203369,
	"num_tokens": 30577.0,
	"step": 22
	},
	{
	"entropy": 0.7439587712287903,
	"epoch": 0.0035466461063993833,
	"grad_norm": 7.25,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 0.5953554511070251,
	"mean_token_accuracy": 0.8356807231903076,
	"num_tokens": 31863.0,
	"step": 23
	},
	{
	"entropy": 0.7064525485038757,
	"epoch": 0.0037008481110254433,
	"grad_norm": 12.3125,
	"learning_rate": 3.8333333333333334e-05,
	"loss": 0.6644932627677917,
	"mean_token_accuracy": 0.8366890549659729,
	"num_tokens": 32765.0,
	"step": 24
	},
	{
	"entropy": 0.671248733997345,
	"epoch": 0.0038550501156515036,
	"grad_norm": 10.6875,
	"learning_rate": 4e-05,
	"loss": 0.6164469718933105,
	"mean_token_accuracy": 0.826787531375885,
	"num_tokens": 33766.0,
	"step": 25
	},
	{
	"entropy": 0.5062084794044495,
	"epoch": 0.0040092521202775636,
	"grad_norm": 5.4375,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.40353134274482727,
	"mean_token_accuracy": 0.8768283128738403,
	"num_tokens": 35073.0,
	"step": 26
	},
	{
	"entropy": 0.5384562015533447,
	"epoch": 0.0041634541249036235,
	"grad_norm": 5.78125,
	"learning_rate": 4.3333333333333334e-05,
	"loss": 0.5431831479072571,
	"mean_token_accuracy": 0.8347339034080505,
	"num_tokens": 36152.0,
	"step": 27
	},
	{
	"entropy": 0.4401922821998596,
	"epoch": 0.004317656129529684,
	"grad_norm": 4.0,
	"learning_rate": 4.5e-05,
	"loss": 0.412110298871994,
	"mean_token_accuracy": 0.8691341876983643,
	"num_tokens": 37673.0,
	"step": 28
	},
	{
	"entropy": 0.3748137652873993,
	"epoch": 0.004471858134155744,
	"grad_norm": 3.484375,
	"learning_rate": 4.666666666666667e-05,
	"loss": 0.360552042722702,
	"mean_token_accuracy": 0.8896728754043579,
	"num_tokens": 39240.0,
	"step": 29
	},
	{
	"entropy": 0.45826223492622375,
	"epoch": 0.004626060138781804,
	"grad_norm": 4.53125,
	"learning_rate": 4.8333333333333334e-05,
	"loss": 0.455470472574234,
	"mean_token_accuracy": 0.8571428656578064,
	"num_tokens": 40256.0,
	"step": 30
	},
	{
	"entropy": 0.33488166332244873,
	"epoch": 0.004780262143407864,
	"grad_norm": 3.9375,
	"learning_rate": 5e-05,
	"loss": 0.3165741562843323,
	"mean_token_accuracy": 0.8937432765960693,
	"num_tokens": 42118.0,
	"step": 31
	},
	{
	"entropy": 0.3528728783130646,
	"epoch": 0.004934464148033924,
	"grad_norm": 7.6875,
	"learning_rate": 4.9999468976006514e-05,
	"loss": 0.38620343804359436,
	"mean_token_accuracy": 0.8836023807525635,
	"num_tokens": 43303.0,
	"step": 32
	},
	{
	"entropy": 0.36625728011131287,
	"epoch": 0.005088666152659985,
	"grad_norm": 4.84375,
	"learning_rate": 4.999787592658497e-05,
	"loss": 0.446200966835022,
	"mean_token_accuracy": 0.8777328133583069,
	"num_tokens": 44546.0,
	"step": 33
	},
	{
	"entropy": 0.26643213629722595,
	"epoch": 0.005242868157286045,
	"grad_norm": 4.40625,
	"learning_rate": 4.999522091941117e-05,
	"loss": 0.2737399637699127,
	"mean_token_accuracy": 0.8979820609092712,
	"num_tokens": 46338.0,
	"step": 34
	},
	{
	"entropy": 0.26414045691490173,
	"epoch": 0.005397070161912105,
	"grad_norm": 3.296875,
	"learning_rate": 4.999150406727491e-05,
	"loss": 0.2983474135398865,
	"mean_token_accuracy": 0.9013499617576599,
	"num_tokens": 48272.0,
	"step": 35
	},
	{
	"entropy": 0.370844304561615,
	"epoch": 0.005551272166538165,
	"grad_norm": 3.546875,
	"learning_rate": 4.9986725528075205e-05,
	"loss": 0.3454509377479553,
	"mean_token_accuracy": 0.8820555806159973,
	"num_tokens": 49467.0,
	"step": 36
	},
	{
	"entropy": 0.2591751515865326,
	"epoch": 0.0057054741711642255,
	"grad_norm": 2.8125,
	"learning_rate": 4.998088550481357e-05,
	"loss": 0.2637964189052582,
	"mean_token_accuracy": 0.9097625613212585,
	"num_tokens": 51370.0,
	"step": 37
	},
	{
	"entropy": 0.30300796031951904,
	"epoch": 0.005859676175790285,
	"grad_norm": 2.71875,
	"learning_rate": 4.997398424558541e-05,
	"loss": 0.30886220932006836,
	"mean_token_accuracy": 0.901874303817749,
	"num_tokens": 53192.0,
	"step": 38
	},
	{
	"entropy": 0.27792277932167053,
	"epoch": 0.006013878180416345,
	"grad_norm": 2.6875,
	"learning_rate": 4.996602204356945e-05,
	"loss": 0.2732873558998108,
	"mean_token_accuracy": 0.9054564833641052,
	"num_tokens": 55051.0,
	"step": 39
	},
	{
	"entropy": 0.2960520088672638,
	"epoch": 0.006168080185042405,
	"grad_norm": 2.390625,
	"learning_rate": 4.9956999237015336e-05,
	"loss": 0.28190645575523376,
	"mean_token_accuracy": 0.8957963585853577,
	"num_tokens": 56748.0,
	"step": 40
	},
	{
	"entropy": 0.27777737379074097,
	"epoch": 0.006322282189668466,
	"grad_norm": 2.390625,
	"learning_rate": 4.994691620922919e-05,
	"loss": 0.2448980063199997,
	"mean_token_accuracy": 0.918410062789917,
	"num_tokens": 58668.0,
	"step": 41
	},
	{
	"entropy": 0.3428345024585724,
	"epoch": 0.006476484194294526,
	"grad_norm": 5.15625,
	"learning_rate": 4.993577338855741e-05,
	"loss": 0.354027658700943,
	"mean_token_accuracy": 0.8893527984619141,
	"num_tokens": 60113.0,
	"step": 42
	},
	{
	"entropy": 0.30580252408981323,
	"epoch": 0.006630686198920586,
	"grad_norm": 2.75,
	"learning_rate": 4.9923571248368375e-05,
	"loss": 0.28440362215042114,
	"mean_token_accuracy": 0.9064558744430542,
	"num_tokens": 61639.0,
	"step": 43
	},
	{
	"entropy": 0.43973830342292786,
	"epoch": 0.006784888203546646,
	"grad_norm": 4.5625,
	"learning_rate": 4.991031030703244e-05,
	"loss": 0.4269028902053833,
	"mean_token_accuracy": 0.859668493270874,
	"num_tokens": 62552.0,
	"step": 44
	},
	{
	"entropy": 0.33187365531921387,
	"epoch": 0.006939090208172706,
	"grad_norm": 3.546875,
	"learning_rate": 4.989599112789984e-05,
	"loss": 0.34638962149620056,
	"mean_token_accuracy": 0.8819671869277954,
	"num_tokens": 63780.0,
	"step": 45
	},
	{
	"entropy": 0.31787073612213135,
	"epoch": 0.007093292212798767,
	"grad_norm": 3.703125,
	"learning_rate": 4.988061431927681e-05,
	"loss": 0.3301301598548889,
	"mean_token_accuracy": 0.8874788284301758,
	"num_tokens": 64970.0,
	"step": 46
	},
	{
	"entropy": 0.2509302496910095,
	"epoch": 0.0072474942174248266,
	"grad_norm": 3.375,
	"learning_rate": 4.9864180534399674e-05,
	"loss": 0.2752370238304138,
	"mean_token_accuracy": 0.9063180685043335,
	"num_tokens": 66814.0,
	"step": 47
	},
	{
	"entropy": 0.28000396490097046,
	"epoch": 0.0074016962220508865,
	"grad_norm": 3.46875,
	"learning_rate": 4.984669047140716e-05,
	"loss": 0.3101637363433838,
	"mean_token_accuracy": 0.8998599648475647,
	"num_tokens": 68250.0,
	"step": 48
	},
	{
	"entropy": 0.263468474149704,
	"epoch": 0.0075558982266769464,
	"grad_norm": 3.046875,
	"learning_rate": 4.982814487331072e-05,
	"loss": 0.29188624024391174,
	"mean_token_accuracy": 0.9051411747932434,
	"num_tokens": 69639.0,
	"step": 49
	},
	{
	"entropy": 0.30314338207244873,
	"epoch": 0.007710100231303007,
	"grad_norm": 3.296875,
	"learning_rate": 4.9808544527962964e-05,
	"loss": 0.3129803538322449,
	"mean_token_accuracy": 0.8961228728294373,
	"num_tokens": 71014.0,
	"step": 50
	},
	{
	"entropy": 0.299335241317749,
	"epoch": 0.007864302235929066,
	"grad_norm": 2.9375,
	"learning_rate": 4.978789026802419e-05,
	"loss": 0.3139159679412842,
	"mean_token_accuracy": 0.8981788158416748,
	"num_tokens": 72230.0,
	"step": 51
	},
	{
	"entropy": 0.33503401279449463,
	"epoch": 0.008018504240555127,
	"grad_norm": 3.265625,
	"learning_rate": 4.9766182970926975e-05,
	"loss": 0.3325449526309967,
	"mean_token_accuracy": 0.8837863206863403,
	"num_tokens": 73305.0,
	"step": 52
	},
	{
	"entropy": 0.3575332760810852,
	"epoch": 0.008172706245181188,
	"grad_norm": 3.21875,
	"learning_rate": 4.9743423558839e-05,
	"loss": 0.3531642258167267,
	"mean_token_accuracy": 0.8720735907554626,
	"num_tokens": 74509.0,
	"step": 53
	},
	{
	"entropy": 0.3179467022418976,
	"epoch": 0.008326908249807247,
	"grad_norm": 2.90625,
	"learning_rate": 4.971961299862376e-05,
	"loss": 0.32219475507736206,
	"mean_token_accuracy": 0.898162305355072,
	"num_tokens": 75823.0,
	"step": 54
	},
	{
	"entropy": 0.27880457043647766,
	"epoch": 0.008481110254433308,
	"grad_norm": 5.5625,
	"learning_rate": 4.9694752301799566e-05,
	"loss": 0.2741078734397888,
	"mean_token_accuracy": 0.9016189575195312,
	"num_tokens": 77437.0,
	"step": 55
	},
	{
	"entropy": 0.34488171339035034,
	"epoch": 0.008635312259059369,
	"grad_norm": 3.90625,
	"learning_rate": 4.9668842524496526e-05,
	"loss": 0.366953045129776,
	"mean_token_accuracy": 0.8817635178565979,
	"num_tokens": 78942.0,
	"step": 56
	},
	{
	"entropy": 0.2759552299976349,
	"epoch": 0.008789514263685428,
	"grad_norm": 2.390625,
	"learning_rate": 4.9641884767411714e-05,
	"loss": 0.23074716329574585,
	"mean_token_accuracy": 0.9223560690879822,
	"num_tokens": 80444.0,
	"step": 57
	},
	{
	"entropy": 0.2680215835571289,
	"epoch": 0.008943716268311488,
	"grad_norm": 2.375,
	"learning_rate": 4.9613880175762414e-05,
	"loss": 0.2504393458366394,
	"mean_token_accuracy": 0.9081172347068787,
	"num_tokens": 82226.0,
	"step": 58
	},
	{
	"entropy": 0.3482436537742615,
	"epoch": 0.009097918272937548,
	"grad_norm": 2.859375,
	"learning_rate": 4.958482993923742e-05,
	"loss": 0.3350726068019867,
	"mean_token_accuracy": 0.8843283653259277,
	"num_tokens": 83306.0,
	"step": 59
	},
	{
	"entropy": 0.3756292164325714,
	"epoch": 0.009252120277563608,
	"grad_norm": 2.75,
	"learning_rate": 4.955473529194654e-05,
	"loss": 0.3661136329174042,
	"mean_token_accuracy": 0.8703535795211792,
	"num_tokens": 84417.0,
	"step": 60
	},
	{
	"entropy": 0.30815669894218445,
	"epoch": 0.00940632228218967,
	"grad_norm": 2.546875,
	"learning_rate": 4.952359751236817e-05,
	"loss": 0.2678232789039612,
	"mean_token_accuracy": 0.9128242135047913,
	"num_tokens": 85813.0,
	"step": 61
	},
	{
	"entropy": 0.2885396480560303,
	"epoch": 0.009560524286815728,
	"grad_norm": 2.28125,
	"learning_rate": 4.9491417923294934e-05,
	"loss": 0.2961139976978302,
	"mean_token_accuracy": 0.897884726524353,
	"num_tokens": 87192.0,
	"step": 62
	},
	{
	"entropy": 0.3488570749759674,
	"epoch": 0.009714726291441789,
	"grad_norm": 4.09375,
	"learning_rate": 4.9458197891777556e-05,
	"loss": 0.41754454374313354,
	"mean_token_accuracy": 0.8623949289321899,
	"num_tokens": 88152.0,
	"step": 63
	},
	{
	"entropy": 0.30880776047706604,
	"epoch": 0.009868928296067848,
	"grad_norm": 3.59375,
	"learning_rate": 4.942393882906674e-05,
	"loss": 0.3697586953639984,
	"mean_token_accuracy": 0.8826446533203125,
	"num_tokens": 89370.0,
	"step": 64
	},
	{
	"entropy": 0.33239686489105225,
	"epoch": 0.010023130300693909,
	"grad_norm": 3.078125,
	"learning_rate": 4.9388642190553226e-05,
	"loss": 0.3398675322532654,
	"mean_token_accuracy": 0.8863636255264282,
	"num_tokens": 90478.0,
	"step": 65
	},
	{
	"entropy": 0.2123962938785553,
	"epoch": 0.01017733230531997,
	"grad_norm": 2.65625,
	"learning_rate": 4.935230947570597e-05,
	"loss": 0.24962244927883148,
	"mean_token_accuracy": 0.9207471013069153,
	"num_tokens": 92467.0,
	"step": 66
	},
	{
	"entropy": 0.2466113418340683,
	"epoch": 0.010331534309946029,
	"grad_norm": 2.984375,
	"learning_rate": 4.931494222800844e-05,
	"loss": 0.2969174385070801,
	"mean_token_accuracy": 0.8992460370063782,
	"num_tokens": 93934.0,
	"step": 67
	},
	{
	"entropy": 0.2843821942806244,
	"epoch": 0.01048573631457209,
	"grad_norm": 2.765625,
	"learning_rate": 4.9276542034893044e-05,
	"loss": 0.32256507873535156,
	"mean_token_accuracy": 0.8970125913619995,
	"num_tokens": 95214.0,
	"step": 68
	},
	{
	"entropy": 0.2835680842399597,
	"epoch": 0.01063993831919815,
	"grad_norm": 2.359375,
	"learning_rate": 4.923711052767369e-05,
	"loss": 0.25358864665031433,
	"mean_token_accuracy": 0.9075269103050232,
	"num_tokens": 96617.0,
	"step": 69
	},
	{
	"entropy": 0.24416741728782654,
	"epoch": 0.01079414032382421,
	"grad_norm": 2.453125,
	"learning_rate": 4.9196649381476504e-05,
	"loss": 0.2399137169122696,
	"mean_token_accuracy": 0.9191176295280457,
	"num_tokens": 98257.0,
	"step": 70
	},
	{
	"entropy": 0.29682713747024536,
	"epoch": 0.01094834232845027,
	"grad_norm": 3.109375,
	"learning_rate": 4.915516031516863e-05,
	"loss": 0.3011798858642578,
	"mean_token_accuracy": 0.9019886255264282,
	"num_tokens": 99673.0,
	"step": 71
	},
	{
	"entropy": 0.31920552253723145,
	"epoch": 0.01110254433307633,
	"grad_norm": 2.84375,
	"learning_rate": 4.911264509128524e-05,
	"loss": 0.3012612462043762,
	"mean_token_accuracy": 0.8963922262191772,
	"num_tokens": 100762.0,
	"step": 72
	},
	{
	"entropy": 0.30763909220695496,
	"epoch": 0.01125674633770239,
	"grad_norm": 2.5,
	"learning_rate": 4.906910551595466e-05,
	"loss": 0.2967263460159302,
	"mean_token_accuracy": 0.9000924825668335,
	"num_tokens": 101851.0,
	"step": 73
	},
	{
	"entropy": 0.3040732145309448,
	"epoch": 0.011410948342328451,
	"grad_norm": 3.0625,
	"learning_rate": 4.902454343882162e-05,
	"loss": 0.3297285735607147,
	"mean_token_accuracy": 0.8881889581680298,
	"num_tokens": 103129.0,
	"step": 74
	},
	{
	"entropy": 0.2837064564228058,
	"epoch": 0.01156515034695451,
	"grad_norm": 2.546875,
	"learning_rate": 4.8978960752968695e-05,
	"loss": 0.28480246663093567,
	"mean_token_accuracy": 0.8954154849052429,
	"num_tokens": 104533.0,
	"step": 75
	},
	{
	"entropy": 0.3194725811481476,
	"epoch": 0.01171935235158057,
	"grad_norm": 3.171875,
	"learning_rate": 4.893235939483587e-05,
	"loss": 0.3251062333583832,
	"mean_token_accuracy": 0.8847517967224121,
	"num_tokens": 105669.0,
	"step": 76
	},
	{
	"entropy": 0.2741483747959137,
	"epoch": 0.01187355435620663,
	"grad_norm": 2.34375,
	"learning_rate": 4.8884741344138294e-05,
	"loss": 0.2672386169433594,
	"mean_token_accuracy": 0.9074759483337402,
	"num_tokens": 107028.0,
	"step": 77
	},
	{
	"entropy": 0.2283252328634262,
	"epoch": 0.01202775636083269,
	"grad_norm": 2.265625,
	"learning_rate": 4.8836108623782154e-05,
	"loss": 0.23968154191970825,
	"mean_token_accuracy": 0.9172775149345398,
	"num_tokens": 108946.0,
	"step": 78
	},
	{
	"entropy": 0.3795450031757355,
	"epoch": 0.012181958365458751,
	"grad_norm": 2.921875,
	"learning_rate": 4.8786463299778773e-05,
	"loss": 0.4119304120540619,
	"mean_token_accuracy": 0.8639523386955261,
	"num_tokens": 109961.0,
	"step": 79
	},
	{
	"entropy": 0.3368295431137085,
	"epoch": 0.01233616037008481,
	"grad_norm": 2.984375,
	"learning_rate": 4.873580748115679e-05,
	"loss": 0.3614250719547272,
	"mean_token_accuracy": 0.8688679337501526,
	"num_tokens": 111029.0,
	"step": 80
	},
	{
	"entropy": 0.2857000231742859,
	"epoch": 0.012490362374710871,
	"grad_norm": 2.890625,
	"learning_rate": 4.8684143319872636e-05,
	"loss": 0.2805139422416687,
	"mean_token_accuracy": 0.8976377844810486,
	"num_tokens": 112307.0,
	"step": 81
	},
	{
	"entropy": 0.3508206605911255,
	"epoch": 0.012644564379336932,
	"grad_norm": 2.6875,
	"learning_rate": 4.863147301071903e-05,
	"loss": 0.3427751362323761,
	"mean_token_accuracy": 0.8861867785453796,
	"num_tokens": 113343.0,
	"step": 82
	},
	{
	"entropy": 0.33843186497688293,
	"epoch": 0.012798766383962991,
	"grad_norm": 2.796875,
	"learning_rate": 4.8577798791231815e-05,
	"loss": 0.32030197978019714,
	"mean_token_accuracy": 0.8884462118148804,
	"num_tokens": 114606.0,
	"step": 83
	},
	{
	"entropy": 0.2596885859966278,
	"epoch": 0.012952968388589052,
	"grad_norm": 2.15625,
	"learning_rate": 4.852312294159486e-05,
	"loss": 0.2479410469532013,
	"mean_token_accuracy": 0.916926920413971,
	"num_tokens": 116215.0,
	"step": 84
	},
	{
	"entropy": 0.3047274947166443,
	"epoch": 0.013107170393215111,
	"grad_norm": 3.03125,
	"learning_rate": 4.8467447784543205e-05,
	"loss": 0.30305323004722595,
	"mean_token_accuracy": 0.8943606019020081,
	"num_tokens": 117482.0,
	"step": 85
	},
	{
	"entropy": 0.18909737467765808,
	"epoch": 0.013261372397841172,
	"grad_norm": 1.984375,
	"learning_rate": 4.841077568526439e-05,
	"loss": 0.2026541382074356,
	"mean_token_accuracy": 0.9290540814399719,
	"num_tokens": 119858.0,
	"step": 86
	},
	{
	"entropy": 0.2918696403503418,
	"epoch": 0.013415574402467233,
	"grad_norm": 2.953125,
	"learning_rate": 4.8353109051297976e-05,
	"loss": 0.3184109330177307,
	"mean_token_accuracy": 0.8954508900642395,
	"num_tokens": 121119.0,
	"step": 87
	},
	{
	"entropy": 0.3284008800983429,
	"epoch": 0.013569776407093292,
	"grad_norm": 2.953125,
	"learning_rate": 4.829445033243326e-05,
	"loss": 0.3101221024990082,
	"mean_token_accuracy": 0.8810949325561523,
	"num_tokens": 122296.0,
	"step": 88
	},
	{
	"entropy": 0.2881852090358734,
	"epoch": 0.013723978411719353,
	"grad_norm": 2.375,
	"learning_rate": 4.823480202060521e-05,
	"loss": 0.28734254837036133,
	"mean_token_accuracy": 0.897292971611023,
	"num_tokens": 123560.0,
	"step": 89
	},
	{
	"entropy": 0.3923459053039551,
	"epoch": 0.013878180416345412,
	"grad_norm": 3.40625,
	"learning_rate": 4.817416664978861e-05,
	"loss": 0.4181320071220398,
	"mean_token_accuracy": 0.857782781124115,
	"num_tokens": 124461.0,
	"step": 90
	},
	{
	"entropy": 0.38047465682029724,
	"epoch": 0.014032382420971472,
	"grad_norm": 3.296875,
	"learning_rate": 4.81125467958904e-05,
	"loss": 0.4139612317085266,
	"mean_token_accuracy": 0.8700189590454102,
	"num_tokens": 125523.0,
	"step": 91
	},
	{
	"entropy": 0.32315686345100403,
	"epoch": 0.014186584425597533,
	"grad_norm": 3.125,
	"learning_rate": 4.804994507664026e-05,
	"loss": 0.29804831743240356,
	"mean_token_accuracy": 0.9056603908538818,
	"num_tokens": 126962.0,
	"step": 92
	},
	{
	"entropy": 0.3598167598247528,
	"epoch": 0.014340786430223592,
	"grad_norm": 4.375,
	"learning_rate": 4.798636415147938e-05,
	"loss": 0.33338406682014465,
	"mean_token_accuracy": 0.876142144203186,
	"num_tokens": 127955.0,
	"step": 93
	},
	{
	"entropy": 0.2664312422275543,
	"epoch": 0.014494988434849653,
	"grad_norm": 2.46875,
	"learning_rate": 4.7921806721447494e-05,
	"loss": 0.24038437008857727,
	"mean_token_accuracy": 0.9096692204475403,
	"num_tokens": 129535.0,
	"step": 94
	},
	{
	"entropy": 0.40390363335609436,
	"epoch": 0.014649190439475714,
	"grad_norm": 5.46875,
	"learning_rate": 4.785627552906816e-05,
	"loss": 0.39077234268188477,
	"mean_token_accuracy": 0.8630303144454956,
	"num_tokens": 130368.0,
	"step": 95
	},
	{
	"entropy": 0.25566768646240234,
	"epoch": 0.014803392444101773,
	"grad_norm": 2.359375,
	"learning_rate": 4.77897733582322e-05,
	"loss": 0.24936963617801666,
	"mean_token_accuracy": 0.9094488024711609,
	"num_tokens": 132154.0,
	"step": 96
	},
	{
	"entropy": 0.27786779403686523,
	"epoch": 0.014957594448727834,
	"grad_norm": 2.65625,
	"learning_rate": 4.77223030340795e-05,
	"loss": 0.26183679699897766,
	"mean_token_accuracy": 0.9076694250106812,
	"num_tokens": 133505.0,
	"step": 97
	},
	{
	"entropy": 0.2191360741853714,
	"epoch": 0.015111796453353893,
	"grad_norm": 1.7109375,
	"learning_rate": 4.7653867422878926e-05,
	"loss": 0.20657718181610107,
	"mean_token_accuracy": 0.9271235466003418,
	"num_tokens": 135585.0,
	"step": 98
	},
	{
	"entropy": 0.24974940717220306,
	"epoch": 0.015265998457979954,
	"grad_norm": 2.6875,
	"learning_rate": 4.758446943190661e-05,
	"loss": 0.2656131982803345,
	"mean_token_accuracy": 0.9067688584327698,
	"num_tokens": 137159.0,
	"step": 99
	},
	{
	"entropy": 0.2313736230134964,
	"epoch": 0.015420200462606014,
	"grad_norm": 2.046875,
	"learning_rate": 4.751411200932242e-05,
	"loss": 0.23317928612232208,
	"mean_token_accuracy": 0.9191856980323792,
	"num_tokens": 138788.0,
	"step": 100
	},
	{
	"entropy": 0.2997652590274811,
	"epoch": 0.015574402467232074,
	"grad_norm": 2.4375,
	"learning_rate": 4.7442798144044695e-05,
	"loss": 0.3120857775211334,
	"mean_token_accuracy": 0.8966366052627563,
	"num_tokens": 140015.0,
	"step": 101
	},
	{
	"entropy": 0.3081951141357422,
	"epoch": 0.015728604471858133,
	"grad_norm": 2.6875,
	"learning_rate": 4.7370530865623334e-05,
	"loss": 0.34071362018585205,
	"mean_token_accuracy": 0.8860557675361633,
	"num_tokens": 141278.0,
	"step": 102
	},
	{
	"entropy": 0.2699045240879059,
	"epoch": 0.015882806476484195,
	"grad_norm": 2.234375,
	"learning_rate": 4.729731324411104e-05,
	"loss": 0.27989721298217773,
	"mean_token_accuracy": 0.90031898021698,
	"num_tokens": 142540.0,
	"step": 103
	},
	{
	"entropy": 0.2760254144668579,
	"epoch": 0.016037008481110254,
	"grad_norm": 2.234375,
	"learning_rate": 4.722314838993291e-05,
	"loss": 0.3070385158061981,
	"mean_token_accuracy": 0.9090268015861511,
	"num_tokens": 143966.0,
	"step": 104
	},
	{
	"entropy": 0.29715025424957275,
	"epoch": 0.016191210485736313,
	"grad_norm": 2.703125,
	"learning_rate": 4.714803945375431e-05,
	"loss": 0.3124261796474457,
	"mean_token_accuracy": 0.8967213034629822,
	"num_tokens": 145194.0,
	"step": 105
	},
	{
	"entropy": 0.3180467486381531,
	"epoch": 0.016345412490362376,
	"grad_norm": 2.8125,
	"learning_rate": 4.707198962634701e-05,
	"loss": 0.3431381285190582,
	"mean_token_accuracy": 0.8840726017951965,
	"num_tokens": 146194.0,
	"step": 106
	},
	{
	"entropy": 0.25070613622665405,
	"epoch": 0.016499614494988435,
	"grad_norm": 2.3125,
	"learning_rate": 4.699500213845367e-05,
	"loss": 0.290202796459198,
	"mean_token_accuracy": 0.9046997427940369,
	"num_tokens": 147734.0,
	"step": 107
	},
	{
	"entropy": 0.22292165458202362,
	"epoch": 0.016653816499614494,
	"grad_norm": 1.7109375,
	"learning_rate": 4.691708026065055e-05,
	"loss": 0.2274986356496811,
	"mean_token_accuracy": 0.9138554334640503,
	"num_tokens": 149402.0,
	"step": 108
	},
	{
	"entropy": 0.3579561412334442,
	"epoch": 0.016808018504240557,
	"grad_norm": 2.78125,
	"learning_rate": 4.683822730320858e-05,
	"loss": 0.31315499544143677,
	"mean_token_accuracy": 0.889497697353363,
	"num_tokens": 150505.0,
	"step": 109
	},
	{
	"entropy": 0.23602542281150818,
	"epoch": 0.016962220508866616,
	"grad_norm": 1.609375,
	"learning_rate": 4.6758446615952746e-05,
	"loss": 0.20407229661941528,
	"mean_token_accuracy": 0.9303831458091736,
	"num_tokens": 152366.0,
	"step": 110
	},
	{
	"entropy": 0.3046983480453491,
	"epoch": 0.017116422513492675,
	"grad_norm": 3.25,
	"learning_rate": 4.6677741588119784e-05,
	"loss": 0.3156391382217407,
	"mean_token_accuracy": 0.8897196054458618,
	"num_tokens": 153444.0,
	"step": 111
	},
	{
	"entropy": 0.25662004947662354,
	"epoch": 0.017270624518118737,
	"grad_norm": 2.515625,
	"learning_rate": 4.6596115648214196e-05,
	"loss": 0.2515248656272888,
	"mean_token_accuracy": 0.907616376876831,
	"num_tokens": 154870.0,
	"step": 112
	},
	{
	"entropy": 0.28677132725715637,
	"epoch": 0.017424826522744796,
	"grad_norm": 3.265625,
	"learning_rate": 4.651357226386258e-05,
	"loss": 0.2942817211151123,
	"mean_token_accuracy": 0.8936970829963684,
	"num_tokens": 155941.0,
	"step": 113
	},
	{
	"entropy": 0.21182145178318024,
	"epoch": 0.017579028527370855,
	"grad_norm": 2.3125,
	"learning_rate": 4.6430114941666334e-05,
	"loss": 0.23567034304141998,
	"mean_token_accuracy": 0.9196969866752625,
	"num_tokens": 157269.0,
	"step": 114
	},
	{
	"entropy": 0.18196314573287964,
	"epoch": 0.017733230531996914,
	"grad_norm": 1.71875,
	"learning_rate": 4.6345747227052726e-05,
	"loss": 0.18516698479652405,
	"mean_token_accuracy": 0.9305768013000488,
	"num_tokens": 159236.0,
	"step": 115
	},
	{
	"entropy": 0.23556780815124512,
	"epoch": 0.017887432536622977,
	"grad_norm": 2.40625,
	"learning_rate": 4.626047270412419e-05,
	"loss": 0.22876134514808655,
	"mean_token_accuracy": 0.9182389974594116,
	"num_tokens": 160516.0,
	"step": 116
	},
	{
	"entropy": 0.24857133626937866,
	"epoch": 0.018041634541249036,
	"grad_norm": 3.0625,
	"learning_rate": 4.6174294995506154e-05,
	"loss": 0.2965892255306244,
	"mean_token_accuracy": 0.90025794506073,
	"num_tokens": 161687.0,
	"step": 117
	},
	{
	"entropy": 0.21330931782722473,
	"epoch": 0.018195836545875095,
	"grad_norm": 2.421875,
	"learning_rate": 4.6087217762193105e-05,
	"loss": 0.23048508167266846,
	"mean_token_accuracy": 0.9241044521331787,
	"num_tokens": 163342.0,
	"step": 118
	},
	{
	"entropy": 0.25938084721565247,
	"epoch": 0.018350038550501158,
	"grad_norm": 2.734375,
	"learning_rate": 4.599924470339303e-05,
	"loss": 0.27338430285453796,
	"mean_token_accuracy": 0.9029850959777832,
	"num_tokens": 164690.0,
	"step": 119
	},
	{
	"entropy": 0.3166216015815735,
	"epoch": 0.018504240555127217,
	"grad_norm": 3.609375,
	"learning_rate": 4.5910379556370355e-05,
	"loss": 0.3654600977897644,
	"mean_token_accuracy": 0.871026337146759,
	"num_tokens": 165799.0,
	"step": 120
	},
	{
	"entropy": 0.21709276735782623,
	"epoch": 0.018658442559753276,
	"grad_norm": 1.8359375,
	"learning_rate": 4.582062609628709e-05,
	"loss": 0.214874729514122,
	"mean_token_accuracy": 0.9245843291282654,
	"num_tokens": 167491.0,
	"step": 121
	},
	{
	"entropy": 0.24251380562782288,
	"epoch": 0.01881264456437934,
	"grad_norm": 1.9921875,
	"learning_rate": 4.57299881360425e-05,
	"loss": 0.26085519790649414,
	"mean_token_accuracy": 0.9065860509872437,
	"num_tokens": 168987.0,
	"step": 122
	},
	{
	"entropy": 0.2558088004589081,
	"epoch": 0.018966846569005397,
	"grad_norm": 2.359375,
	"learning_rate": 4.563846952611112e-05,
	"loss": 0.2583191692829132,
	"mean_token_accuracy": 0.9092382788658142,
	"num_tokens": 170229.0,
	"step": 123
	},
	{
	"entropy": 0.28851792216300964,
	"epoch": 0.019121048573631456,
	"grad_norm": 2.25,
	"learning_rate": 4.554607415437915e-05,
	"loss": 0.28650322556495667,
	"mean_token_accuracy": 0.8939759135246277,
	"num_tokens": 171482.0,
	"step": 124
	},
	{
	"entropy": 0.3131585419178009,
	"epoch": 0.01927525057825752,
	"grad_norm": 2.578125,
	"learning_rate": 4.545280594597935e-05,
	"loss": 0.2936202585697174,
	"mean_token_accuracy": 0.8922480344772339,
	"num_tokens": 172780.0,
	"step": 125
	},
	{
	"entropy": 0.24182380735874176,
	"epoch": 0.019429452582883578,
	"grad_norm": 2.234375,
	"learning_rate": 4.535866886312423e-05,
	"loss": 0.2440458983182907,
	"mean_token_accuracy": 0.9163833856582642,
	"num_tokens": 174259.0,
	"step": 126
	},
	{
	"entropy": 0.2646311819553375,
	"epoch": 0.019583654587509637,
	"grad_norm": 2.109375,
	"learning_rate": 4.526366690493777e-05,
	"loss": 0.2328074872493744,
	"mean_token_accuracy": 0.9140625,
	"num_tokens": 175675.0,
	"step": 127
	},
	{
	"entropy": 0.2266581654548645,
	"epoch": 0.019737856592135696,
	"grad_norm": 1.671875,
	"learning_rate": 4.5167804107285514e-05,
	"loss": 0.21153169870376587,
	"mean_token_accuracy": 0.922784149646759,
	"num_tokens": 177522.0,
	"step": 128
	},
	{
	"epoch": 0.019737856592135696,
	"eval_entropy": 0.27021819719097073,
	"eval_loss": 0.26394832134246826,
	"eval_mean_token_accuracy": 0.9077995745410696,
	"eval_num_tokens": 177522.0,
	"eval_runtime": 35.0787,
	"eval_samples_per_second": 77.854,
	"eval_steps_per_second": 9.75,
	"step": 128
	},
	{
	"entropy": 0.3175150752067566,
	"epoch": 0.01989205859676176,
	"grad_norm": 2.5,
	"learning_rate": 4.507108454260309e-05,
	"loss": 0.32345065474510193,
	"mean_token_accuracy": 0.895765483379364,
	"num_tokens": 178758.0,
	"step": 129
	},
	{
	"entropy": 0.26202577352523804,
	"epoch": 0.020046260601387818,
	"grad_norm": 2.59375,
	"learning_rate": 4.497351231972329e-05,
	"loss": 0.247625470161438,
	"mean_token_accuracy": 0.915336549282074,
	"num_tokens": 180207.0,
	"step": 130
	},
	{
	"entropy": 0.23124445974826813,
	"epoch": 0.020200462606013877,
	"grad_norm": 2.265625,
	"learning_rate": 4.487509158370139e-05,
	"loss": 0.221195787191391,
	"mean_token_accuracy": 0.9168797731399536,
	"num_tokens": 181779.0,
	"step": 131
	},
	{
	"entropy": 0.3099311590194702,
	"epoch": 0.02035466461063994,
	"grad_norm": 3.03125,
	"learning_rate": 4.4775826515639205e-05,
	"loss": 0.3427657186985016,
	"mean_token_accuracy": 0.8853210806846619,
	"num_tokens": 182877.0,
	"step": 132
	},
	{
	"entropy": 0.19146594405174255,
	"epoch": 0.020508866615266,
	"grad_norm": 1.9296875,
	"learning_rate": 4.4675721332507345e-05,
	"loss": 0.18723616003990173,
	"mean_token_accuracy": 0.9326805472373962,
	"num_tokens": 184519.0,
	"step": 133
	},
	{
	"entropy": 0.29960504174232483,
	"epoch": 0.020663068619892058,
	"grad_norm": 2.796875,
	"learning_rate": 4.4574780286966154e-05,
	"loss": 0.31267160177230835,
	"mean_token_accuracy": 0.890625,
	"num_tokens": 185423.0,
	"step": 134
	},
	{
	"entropy": 0.26278653740882874,
	"epoch": 0.02081727062451812,
	"grad_norm": 2.28125,
	"learning_rate": 4.4473007667184995e-05,
	"loss": 0.27267012000083923,
	"mean_token_accuracy": 0.9038869142532349,
	"num_tokens": 186846.0,
	"step": 135
	},
	{
	"entropy": 0.18965409696102142,
	"epoch": 0.02097147262914418,
	"grad_norm": 2.390625,
	"learning_rate": 4.43704077966601e-05,
	"loss": 0.21876873075962067,
	"mean_token_accuracy": 0.9245041608810425,
	"num_tokens": 188417.0,
	"step": 136
	},
	{
	"entropy": 0.20953340828418732,
	"epoch": 0.021125674633770238,
	"grad_norm": 2.109375,
	"learning_rate": 4.426698503403091e-05,
	"loss": 0.205082505941391,
	"mean_token_accuracy": 0.926571249961853,
	"num_tokens": 190032.0,
	"step": 137
	},
	{
	"entropy": 0.2490757405757904,
	"epoch": 0.0212798766383963,
	"grad_norm": 2.0,
	"learning_rate": 4.4162743772894905e-05,
	"loss": 0.23051951825618744,
	"mean_token_accuracy": 0.9111841917037964,
	"num_tokens": 191256.0,
	"step": 138
	},
	{
	"entropy": 0.3277740180492401,
	"epoch": 0.02143407864302236,
	"grad_norm": 5.03125,
	"learning_rate": 4.405768844162094e-05,
	"loss": 0.37247925996780396,
	"mean_token_accuracy": 0.8656716346740723,
	"num_tokens": 192202.0,
	"step": 139
	},
	{
	"entropy": 0.20335228741168976,
	"epoch": 0.02158828064764842,
	"grad_norm": 2.0625,
	"learning_rate": 4.395182350316115e-05,
	"loss": 0.20390284061431885,
	"mean_token_accuracy": 0.9318037033081055,
	"num_tokens": 193779.0,
	"step": 140
	},
	{
	"entropy": 0.222616046667099,
	"epoch": 0.021742482652274478,
	"grad_norm": 2.15625,
	"learning_rate": 4.384515345486131e-05,
	"loss": 0.22837010025978088,
	"mean_token_accuracy": 0.9107261896133423,
	"num_tokens": 195288.0,
	"step": 141
	},
	{
	"entropy": 0.2554439902305603,
	"epoch": 0.02189668465690054,
	"grad_norm": 2.65625,
	"learning_rate": 4.373768282826983e-05,
	"loss": 0.28548112511634827,
	"mean_token_accuracy": 0.905958354473114,
	"num_tokens": 196689.0,
	"step": 142
	},
	{
	"entropy": 0.23849214613437653,
	"epoch": 0.0220508866615266,
	"grad_norm": 2.21875,
	"learning_rate": 4.3629416188945224e-05,
	"loss": 0.25381097197532654,
	"mean_token_accuracy": 0.9149101972579956,
	"num_tokens": 197978.0,
	"step": 143
	},
	{
	"entropy": 0.26421603560447693,
	"epoch": 0.02220508866615266,
	"grad_norm": 3.5625,
	"learning_rate": 4.352035813626214e-05,
	"loss": 0.27579382061958313,
	"mean_token_accuracy": 0.8979591727256775,
	"num_tokens": 199260.0,
	"step": 144
	},
	{
	"entropy": 0.20953713357448578,
	"epoch": 0.02235929067077872,
	"grad_norm": 2.328125,
	"learning_rate": 4.3410513303215985e-05,
	"loss": 0.1990606188774109,
	"mean_token_accuracy": 0.9306029677391052,
	"num_tokens": 201026.0,
	"step": 145
	},
	{
	"entropy": 0.32288917899131775,
	"epoch": 0.02251349267540478,
	"grad_norm": 2.984375,
	"learning_rate": 4.329988635622611e-05,
	"loss": 0.3260837197303772,
	"mean_token_accuracy": 0.893796980381012,
	"num_tokens": 202098.0,
	"step": 146
	},
	{
	"entropy": 0.21132293343544006,
	"epoch": 0.02266769468003084,
	"grad_norm": 1.84375,
	"learning_rate": 4.318848199493758e-05,
	"loss": 0.19785253703594208,
	"mean_token_accuracy": 0.9298823475837708,
	"num_tokens": 204231.0,
	"step": 147
	},
	{
	"entropy": 0.3431147038936615,
	"epoch": 0.022821896684656902,
	"grad_norm": 2.84375,
	"learning_rate": 4.30763049520215e-05,
	"loss": 0.3377273380756378,
	"mean_token_accuracy": 0.8919667601585388,
	"num_tokens": 205322.0,
	"step": 148
	},
	{
	"entropy": 0.24553008377552032,
	"epoch": 0.02297609868928296,
	"grad_norm": 2.546875,
	"learning_rate": 4.296335999297397e-05,
	"loss": 0.23867689073085785,
	"mean_token_accuracy": 0.9165446758270264,
	"num_tokens": 206696.0,
	"step": 149
	},
	{
	"entropy": 0.27541691064834595,
	"epoch": 0.02313030069390902,
	"grad_norm": 2.03125,
	"learning_rate": 4.284965191591364e-05,
	"loss": 0.25213125348091125,
	"mean_token_accuracy": 0.914050817489624,
	"num_tokens": 208042.0,
	"step": 150
	},
	{
	"entropy": 0.23892685770988464,
	"epoch": 0.023284502698535083,
	"grad_norm": 2.03125,
	"learning_rate": 4.2735185551377895e-05,
	"loss": 0.20277726650238037,
	"mean_token_accuracy": 0.9304635524749756,
	"num_tokens": 209560.0,
	"step": 151
	},
	{
	"entropy": 0.2151283323764801,
	"epoch": 0.02343870470316114,
	"grad_norm": 2.015625,
	"learning_rate": 4.261996576211761e-05,
	"loss": 0.2226867973804474,
	"mean_token_accuracy": 0.9178715944290161,
	"num_tokens": 211297.0,
	"step": 152
	},
	{
	"entropy": 0.2410528063774109,
	"epoch": 0.0235929067077872,
	"grad_norm": 2.015625,
	"learning_rate": 4.25039974428906e-05,
	"loss": 0.22763265669345856,
	"mean_token_accuracy": 0.9149277806282043,
	"num_tokens": 212551.0,
	"step": 153
	},
	{
	"entropy": 0.2535974383354187,
	"epoch": 0.02374710871241326,
	"grad_norm": 2.328125,
	"learning_rate": 4.238728552025365e-05,
	"loss": 0.2421426922082901,
	"mean_token_accuracy": 0.9143372178077698,
	"num_tokens": 213668.0,
	"step": 154
	},
	{
	"entropy": 0.2121782749891281,
	"epoch": 0.023901310717039322,
	"grad_norm": 1.5,
	"learning_rate": 4.226983495235328e-05,
	"loss": 0.20025445520877838,
	"mean_token_accuracy": 0.9322981238365173,
	"num_tokens": 215286.0,
	"step": 155
	},
	{
	"entropy": 0.14580558240413666,
	"epoch": 0.02405551272166538,
	"grad_norm": 1.625,
	"learning_rate": 4.215165072871505e-05,
	"loss": 0.14826127886772156,
	"mean_token_accuracy": 0.9467787146568298,
	"num_tokens": 217436.0,
	"step": 156
	},
	{
	"entropy": 0.2315557599067688,
	"epoch": 0.02420971472629144,
	"grad_norm": 2.078125,
	"learning_rate": 4.203273787003162e-05,
	"loss": 0.2486051321029663,
	"mean_token_accuracy": 0.9164133667945862,
	"num_tokens": 218760.0,
	"step": 157
	},
	{
	"entropy": 0.25005754828453064,
	"epoch": 0.024363916730917503,
	"grad_norm": 2.390625,
	"learning_rate": 4.1913101427949505e-05,
	"loss": 0.2627011835575104,
	"mean_token_accuracy": 0.9080632925033569,
	"num_tokens": 220095.0,
	"step": 158
	},
	{
	"entropy": 0.2149634212255478,
	"epoch": 0.024518118735543562,
	"grad_norm": 2.28125,
	"learning_rate": 4.179274648485438e-05,
	"loss": 0.21630343794822693,
	"mean_token_accuracy": 0.9172714352607727,
	"num_tokens": 221481.0,
	"step": 159
	},
	{
	"entropy": 0.2316989302635193,
	"epoch": 0.02467232074016962,
	"grad_norm": 2.3125,
	"learning_rate": 4.1671678153655256e-05,
	"loss": 0.240981787443161,
	"mean_token_accuracy": 0.9135708808898926,
	"num_tokens": 222808.0,
	"step": 160
	},
	{
	"entropy": 0.29497963190078735,
	"epoch": 0.024826522744795684,
	"grad_norm": 2.40625,
	"learning_rate": 4.154990157756722e-05,
	"loss": 0.2961036264896393,
	"mean_token_accuracy": 0.9030969142913818,
	"num_tokens": 223817.0,
	"step": 161
	},
	{
	"entropy": 0.22725972533226013,
	"epoch": 0.024980724749421743,
	"grad_norm": 2.546875,
	"learning_rate": 4.142742192989299e-05,
	"loss": 0.22807390987873077,
	"mean_token_accuracy": 0.9114027619361877,
	"num_tokens": 225044.0,
	"step": 162
	},
	{
	"entropy": 0.2280416190624237,
	"epoch": 0.025134926754047802,
	"grad_norm": 2.421875,
	"learning_rate": 4.1304244413803076e-05,
	"loss": 0.24813513457775116,
	"mean_token_accuracy": 0.9090909361839294,
	"num_tokens": 226339.0,
	"step": 163
	},
	{
	"entropy": 0.20092645287513733,
	"epoch": 0.025289128758673864,
	"grad_norm": 2.015625,
	"learning_rate": 4.118037426211482e-05,
	"loss": 0.22428975999355316,
	"mean_token_accuracy": 0.9173313975334167,
	"num_tokens": 227726.0,
	"step": 164
	},
	{
	"entropy": 0.20079851150512695,
	"epoch": 0.025443330763299923,
	"grad_norm": 9.5625,
	"learning_rate": 4.105581673707002e-05,
	"loss": 0.21033848822116852,
	"mean_token_accuracy": 0.9232493042945862,
	"num_tokens": 229519.0,
	"step": 165
	},
	{
	"entropy": 0.25729137659072876,
	"epoch": 0.025597532767925982,
	"grad_norm": 2.3125,
	"learning_rate": 4.0930577130111424e-05,
	"loss": 0.2733251452445984,
	"mean_token_accuracy": 0.9045871496200562,
	"num_tokens": 230617.0,
	"step": 166
	},
	{
	"entropy": 0.20442764461040497,
	"epoch": 0.02575173477255204,
	"grad_norm": 1.890625,
	"learning_rate": 4.080466076165793e-05,
	"loss": 0.20845486223697662,
	"mean_token_accuracy": 0.9209572076797485,
	"num_tokens": 232004.0,
	"step": 167
	},
	{
	"entropy": 0.20175087451934814,
	"epoch": 0.025905936777178104,
	"grad_norm": 2.453125,
	"learning_rate": 4.067807298087857e-05,
	"loss": 0.21334150433540344,
	"mean_token_accuracy": 0.9243085980415344,
	"num_tokens": 233386.0,
	"step": 168
	},
	{
	"entropy": 0.26961395144462585,
	"epoch": 0.026060138781804163,
	"grad_norm": 2.125,
	"learning_rate": 4.055081916546525e-05,
	"loss": 0.24742326140403748,
	"mean_token_accuracy": 0.9157986044883728,
	"num_tokens": 234546.0,
	"step": 169
	},
	{
	"entropy": 0.20450648665428162,
	"epoch": 0.026214340786430222,
	"grad_norm": 1.6953125,
	"learning_rate": 4.042290472140431e-05,
	"loss": 0.20523257553577423,
	"mean_token_accuracy": 0.9297789335250854,
	"num_tokens": 236092.0,
	"step": 170
	},
	{
	"entropy": 0.2690446972846985,
	"epoch": 0.026368542791056285,
	"grad_norm": 2.15625,
	"learning_rate": 4.029433508274686e-05,
	"loss": 0.26763197779655457,
	"mean_token_accuracy": 0.9070660471916199,
	"num_tokens": 237402.0,
	"step": 171
	},
	{
	"entropy": 0.22288963198661804,
	"epoch": 0.026522744795682344,
	"grad_norm": 2.03125,
	"learning_rate": 4.0165115711377945e-05,
	"loss": 0.24567259848117828,
	"mean_token_accuracy": 0.9189382791519165,
	"num_tokens": 238804.0,
	"step": 172
	},
	{
	"entropy": 0.19029025733470917,
	"epoch": 0.026676946800308403,
	"grad_norm": 1.8671875,
	"learning_rate": 4.003525209678449e-05,
	"loss": 0.18879841268062592,
	"mean_token_accuracy": 0.9351808428764343,
	"num_tokens": 240941.0,
	"step": 173
	},
	{
	"entropy": 0.2573792338371277,
	"epoch": 0.026831148804934465,
	"grad_norm": 2.96875,
	"learning_rate": 3.9904749755822114e-05,
	"loss": 0.2607381045818329,
	"mean_token_accuracy": 0.906000018119812,
	"num_tokens": 242449.0,
	"step": 174
	},
	{
	"entropy": 0.2028045505285263,
	"epoch": 0.026985350809560524,
	"grad_norm": 1.3984375,
	"learning_rate": 3.977361423248075e-05,
	"loss": 0.1825239360332489,
	"mean_token_accuracy": 0.9339895844459534,
	"num_tokens": 244184.0,
	"step": 175
	},
	{
	"entropy": 0.27057698369026184,
	"epoch": 0.027139552814186584,
	"grad_norm": 3.140625,
	"learning_rate": 3.964185109764915e-05,
	"loss": 0.30133944749832153,
	"mean_token_accuracy": 0.8857142925262451,
	"num_tokens": 245347.0,
	"step": 176
	},
	{
	"entropy": 0.18647152185440063,
	"epoch": 0.027293754818812646,
	"grad_norm": 1.8046875,
	"learning_rate": 3.95094659488782e-05,
	"loss": 0.1798812299966812,
	"mean_token_accuracy": 0.9323040246963501,
	"num_tokens": 247039.0,
	"step": 177
	},
	{
	"entropy": 0.2583964765071869,
	"epoch": 0.027447956823438705,
	"grad_norm": 2.28125,
	"learning_rate": 3.9376464410143124e-05,
	"loss": 0.2609320878982544,
	"mean_token_accuracy": 0.9023405909538269,
	"num_tokens": 248286.0,
	"step": 178
	},
	{
	"entropy": 0.24908345937728882,
	"epoch": 0.027602158828064764,
	"grad_norm": 2.09375,
	"learning_rate": 3.9242852131604585e-05,
	"loss": 0.2381179928779602,
	"mean_token_accuracy": 0.9222641587257385,
	"num_tokens": 249619.0,
	"step": 179
	},
	{
	"entropy": 0.21503198146820068,
	"epoch": 0.027756360832690823,
	"grad_norm": 2.5,
	"learning_rate": 3.910863478936864e-05,
	"loss": 0.2604519724845886,
	"mean_token_accuracy": 0.9127399921417236,
	"num_tokens": 251346.0,
	"step": 180
	},
	{
	"entropy": 0.22753889858722687,
	"epoch": 0.027910562837316886,
	"grad_norm": 1.84375,
	"learning_rate": 3.897381808524562e-05,
	"loss": 0.23742565512657166,
	"mean_token_accuracy": 0.9219380617141724,
	"num_tokens": 252840.0,
	"step": 181
	},
	{
	"entropy": 0.25326159596443176,
	"epoch": 0.028064764841942945,
	"grad_norm": 2.203125,
	"learning_rate": 3.883840774650788e-05,
	"loss": 0.28680431842803955,
	"mean_token_accuracy": 0.9005083441734314,
	"num_tokens": 254225.0,
	"step": 182
	},
	{
	"entropy": 0.24126410484313965,
	"epoch": 0.028218966846569004,
	"grad_norm": 2.109375,
	"learning_rate": 3.870240952564653e-05,
	"loss": 0.2406134009361267,
	"mean_token_accuracy": 0.9119541645050049,
	"num_tokens": 255630.0,
	"step": 183
	},
	{
	"entropy": 0.2304130345582962,
	"epoch": 0.028373168851195067,
	"grad_norm": 1.6953125,
	"learning_rate": 3.856582920012706e-05,
	"loss": 0.22154204547405243,
	"mean_token_accuracy": 0.9195979833602905,
	"num_tokens": 257031.0,
	"step": 184
	},
	{
	"entropy": 0.16509661078453064,
	"epoch": 0.028527370855821126,
	"grad_norm": 1.3125,
	"learning_rate": 3.842867257214383e-05,
	"loss": 0.15430063009262085,
	"mean_token_accuracy": 0.940733790397644,
	"num_tokens": 259165.0,
	"step": 185
	},
	{
	"entropy": 0.24022063612937927,
	"epoch": 0.028681572860447185,
	"grad_norm": 1.7890625,
	"learning_rate": 3.8290945468373684e-05,
	"loss": 0.20412693917751312,
	"mean_token_accuracy": 0.9327940344810486,
	"num_tokens": 260780.0,
	"step": 186
	},
	{
	"entropy": 0.2785824239253998,
	"epoch": 0.028835774865073247,
	"grad_norm": 2.390625,
	"learning_rate": 3.8152653739728363e-05,
	"loss": 0.2689974308013916,
	"mean_token_accuracy": 0.9066666960716248,
	"num_tokens": 261988.0,
	"step": 187
	},
	{
	"entropy": 0.20374569296836853,
	"epoch": 0.028989976869699306,
	"grad_norm": 2.0,
	"learning_rate": 3.8013803261105916e-05,
	"loss": 0.21978892385959625,
	"mean_token_accuracy": 0.9233038425445557,
	"num_tokens": 263691.0,
	"step": 188
	},
	{
	"entropy": 0.2387579381465912,
	"epoch": 0.029144178874325365,
	"grad_norm": 1.984375,
	"learning_rate": 3.787439993114123e-05,
	"loss": 0.23546524345874786,
	"mean_token_accuracy": 0.9189907312393188,
	"num_tokens": 265205.0,
	"step": 189
	},
	{
	"entropy": 0.22492903470993042,
	"epoch": 0.029298380878951428,
	"grad_norm": 1.8671875,
	"learning_rate": 3.7734449671955326e-05,
	"loss": 0.21074332296848297,
	"mean_token_accuracy": 0.9219586849212646,
	"num_tokens": 266520.0,
	"step": 190
	},
	{
	"entropy": 0.19710952043533325,
	"epoch": 0.029452582883577487,
	"grad_norm": 1.9296875,
	"learning_rate": 3.759395842890384e-05,
	"loss": 0.1993340104818344,
	"mean_token_accuracy": 0.9277042150497437,
	"num_tokens": 268340.0,
	"step": 191
	},
	{
	"entropy": 0.24934346973896027,
	"epoch": 0.029606784888203546,
	"grad_norm": 1.890625,
	"learning_rate": 3.7452932170324464e-05,
	"loss": 0.24506257474422455,
	"mean_token_accuracy": 0.9209383130073547,
	"num_tokens": 269499.0,
	"step": 192
	},
	{
	"entropy": 0.2751508355140686,
	"epoch": 0.029760986892829605,
	"grad_norm": 2.4375,
	"learning_rate": 3.731137688728335e-05,
	"loss": 0.28203558921813965,
	"mean_token_accuracy": 0.9066317677497864,
	"num_tokens": 270653.0,
	"step": 193
	},
	{
	"entropy": 0.2998161017894745,
	"epoch": 0.029915188897455668,
	"grad_norm": 2.640625,
	"learning_rate": 3.716929859332063e-05,
	"loss": 0.2953347861766815,
	"mean_token_accuracy": 0.9018287062644958,
	"num_tokens": 271700.0,
	"step": 194
	},
	{
	"entropy": 0.2493629902601242,
	"epoch": 0.030069390902081727,
	"grad_norm": 2.1875,
	"learning_rate": 3.7026703324194966e-05,
	"loss": 0.26706650853157043,
	"mean_token_accuracy": 0.9076277017593384,
	"num_tokens": 273137.0,
	"step": 195
	},
	{
	"entropy": 0.20723779499530792,
	"epoch": 0.030223592906707786,
	"grad_norm": 2.140625,
	"learning_rate": 3.688359713762707e-05,
	"loss": 0.22939355671405792,
	"mean_token_accuracy": 0.9125827550888062,
	"num_tokens": 274655.0,
	"step": 196
	},
	{
	"entropy": 0.22990985214710236,
	"epoch": 0.03037779491133385,
	"grad_norm": 2.046875,
	"learning_rate": 3.673998611304246e-05,
	"loss": 0.2153758704662323,
	"mean_token_accuracy": 0.9279279112815857,
	"num_tokens": 275773.0,
	"step": 197
	},
	{
	"entropy": 0.29038283228874207,
	"epoch": 0.030531996915959907,
	"grad_norm": 2.71875,
	"learning_rate": 3.6595876351313116e-05,
	"loss": 0.304492324590683,
	"mean_token_accuracy": 0.9004576802253723,
	"num_tokens": 276655.0,
	"step": 198
	},
	{
	"entropy": 0.19836601614952087,
	"epoch": 0.030686198920585966,
	"grad_norm": 1.8359375,
	"learning_rate": 3.645127397449832e-05,
	"loss": 0.2065221518278122,
	"mean_token_accuracy": 0.9339622855186462,
	"num_tokens": 278359.0,
	"step": 199
	},
	{
	"entropy": 0.25179192423820496,
	"epoch": 0.03084040092521203,
	"grad_norm": 2.265625,
	"learning_rate": 3.6306185125584615e-05,
	"loss": 0.2616140842437744,
	"mean_token_accuracy": 0.9063336253166199,
	"num_tokens": 279488.0,
	"step": 200
	},
	{
	"entropy": 0.18242394924163818,
	"epoch": 0.030994602929838088,
	"grad_norm": 1.734375,
	"learning_rate": 3.616061596822478e-05,
	"loss": 0.17770832777023315,
	"mean_token_accuracy": 0.9277376532554626,
	"num_tokens": 281295.0,
	"step": 201
	},
	{
	"entropy": 0.24629506468772888,
	"epoch": 0.031148804934464147,
	"grad_norm": 2.4375,
	"learning_rate": 3.601457268647606e-05,
	"loss": 0.2535253167152405,
	"mean_token_accuracy": 0.9059450030326843,
	"num_tokens": 282430.0,
	"step": 202
	},
	{
	"entropy": 0.19920703768730164,
	"epoch": 0.03130300693909021,
	"grad_norm": 1.921875,
	"learning_rate": 3.586806148453736e-05,
	"loss": 0.20293940603733063,
	"mean_token_accuracy": 0.9283132553100586,
	"num_tokens": 284098.0,
	"step": 203
	},
	{
	"entropy": 0.1916186809539795,
	"epoch": 0.031457208943716265,
	"grad_norm": 1.578125,
	"learning_rate": 3.572108858648579e-05,
	"loss": 0.1925540268421173,
	"mean_token_accuracy": 0.9329091906547546,
	"num_tokens": 285835.0,
	"step": 204
	},
	{
	"entropy": 0.24154330790042877,
	"epoch": 0.03161141094834233,
	"grad_norm": 2.0625,
	"learning_rate": 3.557366023601216e-05,
	"loss": 0.2560335099697113,
	"mean_token_accuracy": 0.9222126007080078,
	"num_tokens": 287000.0,
	"step": 205
	},
	{
	"entropy": 0.24839094281196594,
	"epoch": 0.03176561295296839,
	"grad_norm": 2.09375,
	"learning_rate": 3.542578269615579e-05,
	"loss": 0.24170006811618805,
	"mean_token_accuracy": 0.9167927503585815,
	"num_tokens": 288330.0,
	"step": 206
	},
	{
	"entropy": 0.19456236064434052,
	"epoch": 0.031919814957594446,
	"grad_norm": 1.640625,
	"learning_rate": 3.527746224903842e-05,
	"loss": 0.18520742654800415,
	"mean_token_accuracy": 0.9366295337677002,
	"num_tokens": 289774.0,
	"step": 207
	},
	{
	"entropy": 0.24151258170604706,
	"epoch": 0.03207401696222051,
	"grad_norm": 1.8828125,
	"learning_rate": 3.512870519559733e-05,
	"loss": 0.22108638286590576,
	"mean_token_accuracy": 0.9167962670326233,
	"num_tokens": 291068.0,
	"step": 208
	},
	{
	"entropy": 0.3510158658027649,
	"epoch": 0.03222821896684657,
	"grad_norm": 3.71875,
	"learning_rate": 3.49795178553177e-05,
	"loss": 0.41906648874282837,
	"mean_token_accuracy": 0.8701754212379456,
	"num_tokens": 291931.0,
	"step": 209
	},
	{
	"entropy": 0.3286966383457184,
	"epoch": 0.03238242097147263,
	"grad_norm": 3.171875,
	"learning_rate": 3.48299065659641e-05,
	"loss": 0.343354731798172,
	"mean_token_accuracy": 0.8834951519966125,
	"num_tokens": 292866.0,
	"step": 210
	},
	{
	"entropy": 0.19397929310798645,
	"epoch": 0.03253662297609869,
	"grad_norm": 1.6875,
	"learning_rate": 3.467987768331127e-05,
	"loss": 0.1917928159236908,
	"mean_token_accuracy": 0.9349930882453918,
	"num_tokens": 294320.0,
	"step": 211
	},
	{
	"entropy": 0.2259572446346283,
	"epoch": 0.03269082498072475,
	"grad_norm": 2.203125,
	"learning_rate": 3.452943758087414e-05,
	"loss": 0.24537329375743866,
	"mean_token_accuracy": 0.9182724356651306,
	"num_tokens": 295833.0,
	"step": 212
	},
	{
	"entropy": 0.22965691983699799,
	"epoch": 0.03284502698535081,
	"grad_norm": 1.7890625,
	"learning_rate": 3.437859264963702e-05,
	"loss": 0.2151767462491989,
	"mean_token_accuracy": 0.9223232865333557,
	"num_tokens": 297270.0,
	"step": 213
	},
	{
	"entropy": 0.2611003518104553,
	"epoch": 0.03299922898997687,
	"grad_norm": 2.890625,
	"learning_rate": 3.422734929778213e-05,
	"loss": 0.2612400949001312,
	"mean_token_accuracy": 0.8977055549621582,
	"num_tokens": 298324.0,
	"step": 214
	},
	{
	"entropy": 0.1909189224243164,
	"epoch": 0.03315343099460293,
	"grad_norm": 1.8671875,
	"learning_rate": 3.407571395041736e-05,
	"loss": 0.20462700724601746,
	"mean_token_accuracy": 0.9242695569992065,
	"num_tokens": 300009.0,
	"step": 215
	},
	{
	"entropy": 0.2556368410587311,
	"epoch": 0.03330763299922899,
	"grad_norm": 2.03125,
	"learning_rate": 3.392369304930334e-05,
	"loss": 0.2566298246383667,
	"mean_token_accuracy": 0.9090163707733154,
	"num_tokens": 301237.0,
	"step": 216
	},
	{
	"entropy": 0.27811554074287415,
	"epoch": 0.03346183500385505,
	"grad_norm": 2.0625,
	"learning_rate": 3.377129305257975e-05,
	"loss": 0.2745239734649658,
	"mean_token_accuracy": 0.9044750332832336,
	"num_tokens": 302407.0,
	"step": 217
	},
	{
	"entropy": 0.21509166061878204,
	"epoch": 0.03361603700848111,
	"grad_norm": 1.84375,
	"learning_rate": 3.361852043449096e-05,
	"loss": 0.2006048709154129,
	"mean_token_accuracy": 0.9250646233558655,
	"num_tokens": 303963.0,
	"step": 218
	},
	{
	"entropy": 0.2612791359424591,
	"epoch": 0.03377023901310717,
	"grad_norm": 2.0,
	"learning_rate": 3.3465381685111054e-05,
	"loss": 0.27390342950820923,
	"mean_token_accuracy": 0.8982036113739014,
	"num_tokens": 305140.0,
	"step": 219
	},
	{
	"entropy": 0.2126745879650116,
	"epoch": 0.03392444101773323,
	"grad_norm": 1.609375,
	"learning_rate": 3.331188331006804e-05,
	"loss": 0.20790794491767883,
	"mean_token_accuracy": 0.9276844263076782,
	"num_tokens": 306517.0,
	"step": 220
	},
	{
	"entropy": 0.216102734208107,
	"epoch": 0.034078643022359294,
	"grad_norm": 1.53125,
	"learning_rate": 3.315803183026753e-05,
	"loss": 0.2031707614660263,
	"mean_token_accuracy": 0.9320327043533325,
	"num_tokens": 308114.0,
	"step": 221
	},
	{
	"entropy": 0.23003709316253662,
	"epoch": 0.03423284502698535,
	"grad_norm": 2.09375,
	"learning_rate": 3.30038337816157e-05,
	"loss": 0.24152696132659912,
	"mean_token_accuracy": 0.9172229766845703,
	"num_tokens": 309620.0,
	"step": 222
	},
	{
	"entropy": 0.25657832622528076,
	"epoch": 0.03438704703161141,
	"grad_norm": 1.9375,
	"learning_rate": 3.284929571474164e-05,
	"loss": 0.2669946551322937,
	"mean_token_accuracy": 0.9029045701026917,
	"num_tokens": 310833.0,
	"step": 223
	},
	{
	"entropy": 0.23583689332008362,
	"epoch": 0.034541249036237474,
	"grad_norm": 2.125,
	"learning_rate": 3.2694424194719046e-05,
	"loss": 0.24596942961215973,
	"mean_token_accuracy": 0.9083665609359741,
	"num_tokens": 312096.0,
	"step": 224
	},
	{
	"entropy": 0.197276309132576,
	"epoch": 0.03469545104086353,
	"grad_norm": 1.703125,
	"learning_rate": 3.2539225800787385e-05,
	"loss": 0.19344845414161682,
	"mean_token_accuracy": 0.93291836977005,
	"num_tokens": 313550.0,
	"step": 225
	},
	{
	"entropy": 0.3082696497440338,
	"epoch": 0.03484965304548959,
	"grad_norm": 3.484375,
	"learning_rate": 3.2383707126072315e-05,
	"loss": 0.3064239025115967,
	"mean_token_accuracy": 0.8925233483314514,
	"num_tokens": 314628.0,
	"step": 226
	},
	{
	"entropy": 0.19953380525112152,
	"epoch": 0.03500385505011565,
	"grad_norm": 1.734375,
	"learning_rate": 3.222787477730567e-05,
	"loss": 0.19340643286705017,
	"mean_token_accuracy": 0.9274017214775085,
	"num_tokens": 316468.0,
	"step": 227
	},
	{
	"entropy": 0.27000153064727783,
	"epoch": 0.03515805705474171,
	"grad_norm": 3.828125,
	"learning_rate": 3.207173537454472e-05,
	"loss": 0.2817123830318451,
	"mean_token_accuracy": 0.9068965315818787,
	"num_tokens": 317636.0,
	"step": 228
	},
	{
	"entropy": 0.22825853526592255,
	"epoch": 0.03531225905936777,
	"grad_norm": 2.125,
	"learning_rate": 3.191529555089102e-05,
	"loss": 0.22379839420318604,
	"mean_token_accuracy": 0.9244868159294128,
	"num_tokens": 319008.0,
	"step": 229
	},
	{
	"entropy": 0.2942773997783661,
	"epoch": 0.03546646106399383,
	"grad_norm": 2.6875,
	"learning_rate": 3.175856195220855e-05,
	"loss": 0.2916644215583801,
	"mean_token_accuracy": 0.8996211886405945,
	"num_tokens": 320072.0,
	"step": 230
	},
	{
	"entropy": 0.2531821131706238,
	"epoch": 0.03562066306861989,
	"grad_norm": 2.265625,
	"learning_rate": 3.160154123684143e-05,
	"loss": 0.2512527108192444,
	"mean_token_accuracy": 0.9058629274368286,
	"num_tokens": 321291.0,
	"step": 231
	},
	{
	"entropy": 0.234887957572937,
	"epoch": 0.035774865073245954,
	"grad_norm": 1.9140625,
	"learning_rate": 3.1444240075331054e-05,
	"loss": 0.2259407341480255,
	"mean_token_accuracy": 0.9231894612312317,
	"num_tokens": 322666.0,
	"step": 232
	},
	{
	"entropy": 0.23325884342193604,
	"epoch": 0.03592906707787201,
	"grad_norm": 1.96875,
	"learning_rate": 3.128666515013269e-05,
	"loss": 0.2157772332429886,
	"mean_token_accuracy": 0.9207017421722412,
	"num_tokens": 324099.0,
	"step": 233
	},
	{
	"entropy": 0.15830406546592712,
	"epoch": 0.03608326908249807,
	"grad_norm": 1.03125,
	"learning_rate": 3.112882315533163e-05,
	"loss": 0.1372249573469162,
	"mean_token_accuracy": 0.9470046162605286,
	"num_tokens": 326277.0,
	"step": 234
	},
	{
	"entropy": 0.25762706995010376,
	"epoch": 0.036237471087124135,
	"grad_norm": 1.828125,
	"learning_rate": 3.097072079635878e-05,
	"loss": 0.23957906663417816,
	"mean_token_accuracy": 0.915335476398468,
	"num_tokens": 327537.0,
	"step": 235
	},
	{
	"entropy": 0.21047890186309814,
	"epoch": 0.03639167309175019,
	"grad_norm": 1.7421875,
	"learning_rate": 3.081236478970583e-05,
	"loss": 0.22065354883670807,
	"mean_token_accuracy": 0.9236826300621033,
	"num_tokens": 329196.0,
	"step": 236
	},
	{
	"entropy": 0.22569093108177185,
	"epoch": 0.03654587509637625,
	"grad_norm": 1.90625,
	"learning_rate": 3.065376186263991e-05,
	"loss": 0.21428702771663666,
	"mean_token_accuracy": 0.9252577424049377,
	"num_tokens": 330368.0,
	"step": 237
	},
	{
	"entropy": 0.2325230836868286,
	"epoch": 0.036700077101002315,
	"grad_norm": 1.7578125,
	"learning_rate": 3.049491875291778e-05,
	"loss": 0.23734821379184723,
	"mean_token_accuracy": 0.9114202260971069,
	"num_tokens": 331742.0,
	"step": 238
	},
	{
	"entropy": 0.2122831493616104,
	"epoch": 0.03685427910562837,
	"grad_norm": 1.609375,
	"learning_rate": 3.0335842208499637e-05,
	"loss": 0.2174147367477417,
	"mean_token_accuracy": 0.9171270728111267,
	"num_tokens": 333198.0,
	"step": 239
	},
	{
	"entropy": 0.23024694621562958,
	"epoch": 0.03700848111025443,
	"grad_norm": 2.046875,
	"learning_rate": 3.0176538987262442e-05,
	"loss": 0.2907542288303375,
	"mean_token_accuracy": 0.9019264578819275,
	"num_tokens": 334348.0,
	"step": 240
	},
	{
	"entropy": 0.2648603022098541,
	"epoch": 0.037162683114880496,
	"grad_norm": 1.875,
	"learning_rate": 3.0017015856712814e-05,
	"loss": 0.2652634382247925,
	"mean_token_accuracy": 0.9065656661987305,
	"num_tokens": 335544.0,
	"step": 241
	},
	{
	"entropy": 0.2533347010612488,
	"epoch": 0.03731688511950655,
	"grad_norm": 1.96875,
	"learning_rate": 2.9857279593699544e-05,
	"loss": 0.2646684944629669,
	"mean_token_accuracy": 0.9075286388397217,
	"num_tokens": 336774.0,
	"step": 242
	},
	{
	"entropy": 0.22679953277111053,
	"epoch": 0.037471087124132614,
	"grad_norm": 2.078125,
	"learning_rate": 2.9697336984125683e-05,
	"loss": 0.22257877886295319,
	"mean_token_accuracy": 0.9175019264221191,
	"num_tokens": 338079.0,
	"step": 243
	},
	{
	"entropy": 0.19455574452877045,
	"epoch": 0.03762528912875868,
	"grad_norm": 1.5546875,
	"learning_rate": 2.9537194822660295e-05,
	"loss": 0.19329281151294708,
	"mean_token_accuracy": 0.9266055226325989,
	"num_tokens": 339722.0,
	"step": 244
	},
	{
	"entropy": 0.20773011445999146,
	"epoch": 0.03777949113338473,
	"grad_norm": 1.9453125,
	"learning_rate": 2.9376859912449794e-05,
	"loss": 0.20826096832752228,
	"mean_token_accuracy": 0.9232895374298096,
	"num_tokens": 341177.0,
	"step": 245
	},
	{
	"entropy": 0.2844797372817993,
	"epoch": 0.037933693138010795,
	"grad_norm": 1.796875,
	"learning_rate": 2.9216339064828914e-05,
	"loss": 0.2653990387916565,
	"mean_token_accuracy": 0.910646378993988,
	"num_tokens": 342237.0,
	"step": 246
	},
	{
	"entropy": 0.19197861850261688,
	"epoch": 0.03808789514263686,
	"grad_norm": 1.5859375,
	"learning_rate": 2.9055639099031386e-05,
	"loss": 0.191925048828125,
	"mean_token_accuracy": 0.9356250166893005,
	"num_tokens": 343845.0,
	"step": 247
	},
	{
	"entropy": 0.28776344656944275,
	"epoch": 0.03824209714726291,
	"grad_norm": 2.59375,
	"learning_rate": 2.8894766841900223e-05,
	"loss": 0.27679842710494995,
	"mean_token_accuracy": 0.9086069464683533,
	"num_tokens": 344980.0,
	"step": 248
	},
	{
	"entropy": 0.23193758726119995,
	"epoch": 0.038396299151888975,
	"grad_norm": 1.9765625,
	"learning_rate": 2.8733729127597692e-05,
	"loss": 0.2313500940799713,
	"mean_token_accuracy": 0.9189602732658386,
	"num_tokens": 346296.0,
	"step": 249
	},
	{
	"entropy": 0.19187554717063904,
	"epoch": 0.03855050115651504,
	"grad_norm": 1.4765625,
	"learning_rate": 2.8572532797315006e-05,
	"loss": 0.17860986292362213,
	"mean_token_accuracy": 0.9357484579086304,
	"num_tokens": 347767.0,
	"step": 250
	},
	{
	"entropy": 0.26534777879714966,
	"epoch": 0.038704703161141094,
	"grad_norm": 2.234375,
	"learning_rate": 2.8411184698981684e-05,
	"loss": 0.2811349630355835,
	"mean_token_accuracy": 0.9026548862457275,
	"num_tokens": 349131.0,
	"step": 251
	},
	{
	"entropy": 0.19166985154151917,
	"epoch": 0.038858905165767156,
	"grad_norm": 1.4375,
	"learning_rate": 2.824969168697466e-05,
	"loss": 0.1818903237581253,
	"mean_token_accuracy": 0.9364994764328003,
	"num_tokens": 351013.0,
	"step": 252
	},
	{
	"entropy": 0.2197422981262207,
	"epoch": 0.03901310717039321,
	"grad_norm": 2.0,
	"learning_rate": 2.808806062182705e-05,
	"loss": 0.24899303913116455,
	"mean_token_accuracy": 0.9060351252555847,
	"num_tokens": 352330.0,
	"step": 253
	},
	{
	"entropy": 0.24478891491889954,
	"epoch": 0.039167309175019274,
	"grad_norm": 2.046875,
	"learning_rate": 2.792629836993676e-05,
	"loss": 0.24458467960357666,
	"mean_token_accuracy": 0.914650559425354,
	"num_tokens": 353826.0,
	"step": 254
	},
	{
	"entropy": 0.17300452291965485,
	"epoch": 0.03932151117964534,
	"grad_norm": 1.453125,
	"learning_rate": 2.776441180327475e-05,
	"loss": 0.1748412549495697,
	"mean_token_accuracy": 0.9393326640129089,
	"num_tokens": 355812.0,
	"step": 255
	},
	{
	"entropy": 0.28217461705207825,
	"epoch": 0.03947571318427139,
	"grad_norm": 2.375,
	"learning_rate": 2.76024077990931e-05,
	"loss": 0.28308406472206116,
	"mean_token_accuracy": 0.908906877040863,
	"num_tokens": 356808.0,
	"step": 256
	},
	{
	"epoch": 0.03947571318427139,
	"eval_entropy": 0.2422610384068991,
	"eval_loss": 0.2376217544078827,
	"eval_mean_token_accuracy": 0.9154835451416105,
	"eval_num_tokens": 356808.0,
	"eval_runtime": 34.9417,
	"eval_samples_per_second": 78.159,
	"eval_steps_per_second": 9.788,
	"step": 256
	},
	{
	"entropy": 0.2056795060634613,
	"epoch": 0.039629915188897455,
	"grad_norm": 1.7265625,
	"learning_rate": 2.7440293239632885e-05,
	"loss": 0.1848773956298828,
	"mean_token_accuracy": 0.9414348602294922,
	"num_tokens": 358182.0,
	"step": 257
	},
	{
	"entropy": 0.21008774638175964,
	"epoch": 0.03978411719352352,
	"grad_norm": 2.125,
	"learning_rate": 2.7278075011831757e-05,
	"loss": 0.23831506073474884,
	"mean_token_accuracy": 0.9120956659317017,
	"num_tokens": 359612.0,
	"step": 258
	},
	{
	"entropy": 0.22274059057235718,
	"epoch": 0.03993831919814957,
	"grad_norm": 2.078125,
	"learning_rate": 2.711576000703141e-05,
	"loss": 0.22159968316555023,
	"mean_token_accuracy": 0.9259036183357239,
	"num_tokens": 361280.0,
	"step": 259
	},
	{
	"entropy": 0.24206753075122833,
	"epoch": 0.040092521202775636,
	"grad_norm": 2.21875,
	"learning_rate": 2.6953355120684802e-05,
	"loss": 0.2599974274635315,
	"mean_token_accuracy": 0.915960431098938,
	"num_tokens": 362704.0,
	"step": 260
	},
	{
	"entropy": 0.22195129096508026,
	"epoch": 0.0402467232074017,
	"grad_norm": 1.8203125,
	"learning_rate": 2.6790867252063247e-05,
	"loss": 0.22732976078987122,
	"mean_token_accuracy": 0.9146426320075989,
	"num_tokens": 364153.0,
	"step": 261
	},
	{
	"entropy": 0.19769293069839478,
	"epoch": 0.040400925212027754,
	"grad_norm": 1.5390625,
	"learning_rate": 2.6628303303963288e-05,
	"loss": 0.18025925755500793,
	"mean_token_accuracy": 0.9401107430458069,
	"num_tokens": 366148.0,
	"step": 262
	},
	{
	"entropy": 0.36093661189079285,
	"epoch": 0.040555127216653816,
	"grad_norm": 2.828125,
	"learning_rate": 2.646567018241349e-05,
	"loss": 0.36829474568367004,
	"mean_token_accuracy": 0.8780487775802612,
	"num_tokens": 367140.0,
	"step": 263
	},
	{
	"entropy": 0.28070077300071716,
	"epoch": 0.04070932922127988,
	"grad_norm": 2.171875,
	"learning_rate": 2.6302974796381015e-05,
	"loss": 0.27073192596435547,
	"mean_token_accuracy": 0.9048058986663818,
	"num_tokens": 368230.0,
	"step": 264
	},
	{
	"entropy": 0.28238415718078613,
	"epoch": 0.040863531225905934,
	"grad_norm": 2.078125,
	"learning_rate": 2.6140224057478158e-05,
	"loss": 0.2595861256122589,
	"mean_token_accuracy": 0.9181897044181824,
	"num_tokens": 369387.0,
	"step": 265
	},
	{
	"entropy": 0.24161042273044586,
	"epoch": 0.041017733230532,
	"grad_norm": 1.6328125,
	"learning_rate": 2.5977424879668705e-05,
	"loss": 0.22480149567127228,
	"mean_token_accuracy": 0.9269341230392456,
	"num_tokens": 370791.0,
	"step": 266
	},
	{
	"entropy": 0.1969321221113205,
	"epoch": 0.04117193523515806,
	"grad_norm": 1.53125,
	"learning_rate": 2.5814584178974218e-05,
	"loss": 0.1720927655696869,
	"mean_token_accuracy": 0.934974730014801,
	"num_tokens": 372383.0,
	"step": 267
	},
	{
	"entropy": 0.23700961470603943,
	"epoch": 0.041326137239784115,
	"grad_norm": 1.921875,
	"learning_rate": 2.5651708873180223e-05,
	"loss": 0.22749063372612,
	"mean_token_accuracy": 0.917475700378418,
	"num_tokens": 373627.0,
	"step": 268
	},
	{
	"entropy": 0.22176285088062286,
	"epoch": 0.04148033924441018,
	"grad_norm": 1.4375,
	"learning_rate": 2.5488805881542356e-05,
	"loss": 0.19518814980983734,
	"mean_token_accuracy": 0.922112226486206,
	"num_tokens": 375150.0,
	"step": 269
	},
	{
	"entropy": 0.19811592996120453,
	"epoch": 0.04163454124903624,
	"grad_norm": 1.65625,
	"learning_rate": 2.5325882124492395e-05,
	"loss": 0.2038094401359558,
	"mean_token_accuracy": 0.9243918657302856,
	"num_tokens": 376679.0,
	"step": 270
	},
	{
	"entropy": 0.16331960260868073,
	"epoch": 0.041788743253662296,
	"grad_norm": 1.296875,
	"learning_rate": 2.5162944523344256e-05,
	"loss": 0.15330754220485687,
	"mean_token_accuracy": 0.9463318586349487,
	"num_tokens": 378718.0,
	"step": 271
	},
	{
	"entropy": 0.2266637682914734,
	"epoch": 0.04194294525828836,
	"grad_norm": 1.7734375,
	"learning_rate": 2.5e-05,
	"loss": 0.20924291014671326,
	"mean_token_accuracy": 0.9225251078605652,
	"num_tokens": 380120.0,
	"step": 272
	},
	{
	"entropy": 0.27386748790740967,
	"epoch": 0.04209714726291442,
	"grad_norm": 2.296875,
	"learning_rate": 2.4837055476655746e-05,
	"loss": 0.28491681814193726,
	"mean_token_accuracy": 0.9068265557289124,
	"num_tokens": 381212.0,
	"step": 273
	},
	{
	"entropy": 0.2462942749261856,
	"epoch": 0.042251349267540476,
	"grad_norm": 1.9375,
	"learning_rate": 2.4674117875507615e-05,
	"loss": 0.23223665356636047,
	"mean_token_accuracy": 0.9165329337120056,
	"num_tokens": 382466.0,
	"step": 274
	},
	{
	"entropy": 0.2614425718784332,
	"epoch": 0.04240555127216654,
	"grad_norm": 2.265625,
	"learning_rate": 2.451119411845765e-05,
	"loss": 0.27489128708839417,
	"mean_token_accuracy": 0.9016948938369751,
	"num_tokens": 383654.0,
	"step": 275
	},
	{
	"entropy": 0.21999643743038177,
	"epoch": 0.0425597532767926,
	"grad_norm": 2.140625,
	"learning_rate": 2.4348291126819783e-05,
	"loss": 0.2654040455818176,
	"mean_token_accuracy": 0.9077669978141785,
	"num_tokens": 385104.0,
	"step": 276
	},
	{
	"entropy": 0.2447359710931778,
	"epoch": 0.04271395528141866,
	"grad_norm": 2.546875,
	"learning_rate": 2.4185415821025795e-05,
	"loss": 0.2940978705883026,
	"mean_token_accuracy": 0.8986432552337646,
	"num_tokens": 386365.0,
	"step": 277
	},
	{
	"entropy": 0.24432024359703064,
	"epoch": 0.04286815728604472,
	"grad_norm": 2.171875,
	"learning_rate": 2.4022575120331307e-05,
	"loss": 0.2683406174182892,
	"mean_token_accuracy": 0.9004524946212769,
	"num_tokens": 387478.0,
	"step": 278
	},
	{
	"entropy": 0.19444933533668518,
	"epoch": 0.04302235929067078,
	"grad_norm": 1.7265625,
	"learning_rate": 2.3859775942521854e-05,
	"loss": 0.18984566628932953,
	"mean_token_accuracy": 0.9271844625473022,
	"num_tokens": 388928.0,
	"step": 279
	},
	{
	"entropy": 0.25862905383110046,
	"epoch": 0.04317656129529684,
	"grad_norm": 2.359375,
	"learning_rate": 2.3697025203618987e-05,
	"loss": 0.2914562523365021,
	"mean_token_accuracy": 0.906593382358551,
	"num_tokens": 390210.0,
	"step": 280
	},
	{
	"entropy": 0.2573435604572296,
	"epoch": 0.0433307632999229,
	"grad_norm": 2.15625,
	"learning_rate": 2.3534329817586513e-05,
	"loss": 0.25994932651519775,
	"mean_token_accuracy": 0.9036144614219666,
	"num_tokens": 391214.0,
	"step": 281
	},
	{
	"entropy": 0.25984057784080505,
	"epoch": 0.043484965304548956,
	"grad_norm": 2.109375,
	"learning_rate": 2.3371696696036715e-05,
	"loss": 0.23992516100406647,
	"mean_token_accuracy": 0.9247743487358093,
	"num_tokens": 392219.0,
	"step": 282
	},
	{
	"entropy": 0.20528267323970795,
	"epoch": 0.04363916730917502,
	"grad_norm": 1.9140625,
	"learning_rate": 2.320913274793676e-05,
	"loss": 0.20434120297431946,
	"mean_token_accuracy": 0.9243749976158142,
	"num_tokens": 393827.0,
	"step": 283
	},
	{
	"entropy": 0.44059571623802185,
	"epoch": 0.04379336931380108,
	"grad_norm": 3.546875,
	"learning_rate": 2.30466448793152e-05,
	"loss": 0.49274563789367676,
	"mean_token_accuracy": 0.834419846534729,
	"num_tokens": 394602.0,
	"step": 284
	},
	{
	"entropy": 0.24022506177425385,
	"epoch": 0.04394757131842714,
	"grad_norm": 1.921875,
	"learning_rate": 2.28842399929686e-05,
	"loss": 0.23765617609024048,
	"mean_token_accuracy": 0.9164490699768066,
	"num_tokens": 395759.0,
	"step": 285
	},
	{
	"entropy": 0.23994681239128113,
	"epoch": 0.0441017733230532,
	"grad_norm": 1.84375,
	"learning_rate": 2.272192498816825e-05,
	"loss": 0.2343621850013733,
	"mean_token_accuracy": 0.9188445806503296,
	"num_tokens": 397221.0,
	"step": 286
	},
	{
	"entropy": 0.27961966395378113,
	"epoch": 0.04425597532767926,
	"grad_norm": 2.25,
	"learning_rate": 2.255970676036712e-05,
	"loss": 0.27381986379623413,
	"mean_token_accuracy": 0.8992950916290283,
	"num_tokens": 398222.0,
	"step": 287
	},
	{
	"entropy": 0.1786043792963028,
	"epoch": 0.04441017733230532,
	"grad_norm": 1.4921875,
	"learning_rate": 2.2397592200906906e-05,
	"loss": 0.17795482277870178,
	"mean_token_accuracy": 0.9386597871780396,
	"num_tokens": 400170.0,
	"step": 288
	},
	{
	"entropy": 0.1822587549686432,
	"epoch": 0.04456437933693138,
	"grad_norm": 1.375,
	"learning_rate": 2.223558819672526e-05,
	"loss": 0.1628590077161789,
	"mean_token_accuracy": 0.9355238676071167,
	"num_tokens": 401791.0,
	"step": 289
	},
	{
	"entropy": 0.22401201725006104,
	"epoch": 0.04471858134155744,
	"grad_norm": 1.9765625,
	"learning_rate": 2.2073701630063243e-05,
	"loss": 0.23397932946681976,
	"mean_token_accuracy": 0.9228187799453735,
	"num_tokens": 403289.0,
	"step": 290
	},
	{
	"entropy": 0.26227450370788574,
	"epoch": 0.0448727833461835,
	"grad_norm": 2.28125,
	"learning_rate": 2.1911939378172956e-05,
	"loss": 0.2669812738895416,
	"mean_token_accuracy": 0.9153226017951965,
	"num_tokens": 404537.0,
	"step": 291
	},
	{
	"entropy": 0.21649585664272308,
	"epoch": 0.04502698535080956,
	"grad_norm": 1.46875,
	"learning_rate": 2.175030831302535e-05,
	"loss": 0.18651390075683594,
	"mean_token_accuracy": 0.9295774698257446,
	"num_tokens": 405894.0,
	"step": 292
	},
	{
	"entropy": 0.2264479100704193,
	"epoch": 0.04518118735543562,
	"grad_norm": 2.046875,
	"learning_rate": 2.158881530101832e-05,
	"loss": 0.24527707695960999,
	"mean_token_accuracy": 0.9157626032829285,
	"num_tokens": 407469.0,
	"step": 293
	},
	{
	"entropy": 0.19007329642772675,
	"epoch": 0.04533538936006168,
	"grad_norm": 1.828125,
	"learning_rate": 2.1427467202685007e-05,
	"loss": 0.18996097147464752,
	"mean_token_accuracy": 0.9266110062599182,
	"num_tokens": 409153.0,
	"step": 294
	},
	{
	"entropy": 0.2581518888473511,
	"epoch": 0.04548959136468774,
	"grad_norm": 1.890625,
	"learning_rate": 2.126627087240231e-05,
	"loss": 0.2599462568759918,
	"mean_token_accuracy": 0.9158653616905212,
	"num_tokens": 410409.0,
	"step": 295
	},
	{
	"entropy": 0.22935496270656586,
	"epoch": 0.045643793369313804,
	"grad_norm": 2.09375,
	"learning_rate": 2.110523315809978e-05,
	"loss": 0.21854767203330994,
	"mean_token_accuracy": 0.9225852489471436,
	"num_tokens": 411825.0,
	"step": 296
	},
	{
	"entropy": 0.25962114334106445,
	"epoch": 0.04579799537393986,
	"grad_norm": 2.296875,
	"learning_rate": 2.0944360900968617e-05,
	"loss": 0.28228771686553955,
	"mean_token_accuracy": 0.8985915780067444,
	"num_tokens": 412898.0,
	"step": 297
	},
	{
	"entropy": 0.25601744651794434,
	"epoch": 0.04595219737856592,
	"grad_norm": 1.9765625,
	"learning_rate": 2.0783660935171092e-05,
	"loss": 0.26037973165512085,
	"mean_token_accuracy": 0.9110707640647888,
	"num_tokens": 414008.0,
	"step": 298
	},
	{
	"entropy": 0.2810611128807068,
	"epoch": 0.046106399383191984,
	"grad_norm": 2.328125,
	"learning_rate": 2.0623140087550215e-05,
	"loss": 0.29850900173187256,
	"mean_token_accuracy": 0.9104072451591492,
	"num_tokens": 415121.0,
	"step": 299
	},
	{
	"entropy": 0.22841358184814453,
	"epoch": 0.04626060138781804,
	"grad_norm": 1.84375,
	"learning_rate": 2.046280517733971e-05,
	"loss": 0.22839921712875366,
	"mean_token_accuracy": 0.923349916934967,
	"num_tokens": 416538.0,
	"step": 300
	},
	{
	"entropy": 0.2764427959918976,
	"epoch": 0.0464148033924441,
	"grad_norm": 2.34375,
	"learning_rate": 2.0302663015874322e-05,
	"loss": 0.2636858820915222,
	"mean_token_accuracy": 0.9106976985931396,
	"num_tokens": 417621.0,
	"step": 301
	},
	{
	"entropy": 0.18497152626514435,
	"epoch": 0.046569005397070165,
	"grad_norm": 1.5,
	"learning_rate": 2.0142720406300465e-05,
	"loss": 0.18430255353450775,
	"mean_token_accuracy": 0.929759681224823,
	"num_tokens": 419252.0,
	"step": 302
	},
	{
	"entropy": 0.2483554184436798,
	"epoch": 0.04672320740169622,
	"grad_norm": 1.9140625,
	"learning_rate": 1.9982984143287188e-05,
	"loss": 0.24268567562103271,
	"mean_token_accuracy": 0.9065420627593994,
	"num_tokens": 420437.0,
	"step": 303
	},
	{
	"entropy": 0.2957545518875122,
	"epoch": 0.04687740940632228,
	"grad_norm": 2.59375,
	"learning_rate": 1.9823461012737564e-05,
	"loss": 0.3344174325466156,
	"mean_token_accuracy": 0.8834766149520874,
	"num_tokens": 421492.0,
	"step": 304
	},
	{
	"entropy": 0.23411741852760315,
	"epoch": 0.047031611410948346,
	"grad_norm": 1.5703125,
	"learning_rate": 1.966415779150037e-05,
	"loss": 0.21458064019680023,
	"mean_token_accuracy": 0.9274131059646606,
	"num_tokens": 422795.0,
	"step": 305
	},
	{
	"entropy": 0.2103796899318695,
	"epoch": 0.0471858134155744,
	"grad_norm": 1.671875,
	"learning_rate": 1.9505081247082237e-05,
	"loss": 0.20959612727165222,
	"mean_token_accuracy": 0.9208722710609436,
	"num_tokens": 424408.0,
	"step": 306
	},
	{
	"entropy": 0.2197587639093399,
	"epoch": 0.047340015420200464,
	"grad_norm": 1.6796875,
	"learning_rate": 1.9346238137360106e-05,
	"loss": 0.20553667843341827,
	"mean_token_accuracy": 0.9193548560142517,
	"num_tokens": 425718.0,
	"step": 307
	},
	{
	"entropy": 0.24315893650054932,
	"epoch": 0.04749421742482652,
	"grad_norm": 1.6484375,
	"learning_rate": 1.918763521029418e-05,
	"loss": 0.22866766154766083,
	"mean_token_accuracy": 0.9147771596908569,
	"num_tokens": 427005.0,
	"step": 308
	},
	{
	"entropy": 0.2538098990917206,
	"epoch": 0.04764841942945258,
	"grad_norm": 2.078125,
	"learning_rate": 1.9029279203641232e-05,
	"loss": 0.2357470542192459,
	"mean_token_accuracy": 0.9233912229537964,
	"num_tokens": 427992.0,
	"step": 309
	},
	{
	"entropy": 0.3305405378341675,
	"epoch": 0.047802621434078645,
	"grad_norm": 2.875,
	"learning_rate": 1.8871176844668374e-05,
	"loss": 0.3201872408390045,
	"mean_token_accuracy": 0.8776978254318237,
	"num_tokens": 428834.0,
	"step": 310
	},
	{
	"entropy": 0.22924208641052246,
	"epoch": 0.0479568234387047,
	"grad_norm": 1.703125,
	"learning_rate": 1.8713334849867315e-05,
	"loss": 0.2193642556667328,
	"mean_token_accuracy": 0.9297805428504944,
	"num_tokens": 430437.0,
	"step": 311
	},
	{
	"entropy": 0.2438676506280899,
	"epoch": 0.04811102544333076,
	"grad_norm": 1.7578125,
	"learning_rate": 1.8555759924668952e-05,
	"loss": 0.2391282469034195,
	"mean_token_accuracy": 0.9204819202423096,
	"num_tokens": 431690.0,
	"step": 312
	},
	{
	"entropy": 0.30626124143600464,
	"epoch": 0.048265227447956825,
	"grad_norm": 2.484375,
	"learning_rate": 1.8398458763158578e-05,
	"loss": 0.31509530544281006,
	"mean_token_accuracy": 0.8954593539237976,
	"num_tokens": 432645.0,
	"step": 313
	},
	{
	"entropy": 0.26661908626556396,
	"epoch": 0.04841942945258288,
	"grad_norm": 1.9921875,
	"learning_rate": 1.8241438047791454e-05,
	"loss": 0.2524988651275635,
	"mean_token_accuracy": 0.9092437028884888,
	"num_tokens": 433843.0,
	"step": 314
	},
	{
	"entropy": 0.22748155891895294,
	"epoch": 0.04857363145720894,
	"grad_norm": 1.8515625,
	"learning_rate": 1.8084704449108985e-05,
	"loss": 0.2243906408548355,
	"mean_token_accuracy": 0.9239205121994019,
	"num_tokens": 435310.0,
	"step": 315
	},
	{
	"entropy": 0.17577649652957916,
	"epoch": 0.048727833461835006,
	"grad_norm": 1.671875,
	"learning_rate": 1.7928264625455282e-05,
	"loss": 0.1813218891620636,
	"mean_token_accuracy": 0.9322709441184998,
	"num_tokens": 437326.0,
	"step": 316
	},
	{
	"entropy": 0.27867627143859863,
	"epoch": 0.04888203546646106,
	"grad_norm": 2.390625,
	"learning_rate": 1.7772125222694337e-05,
	"loss": 0.28030475974082947,
	"mean_token_accuracy": 0.8948306441307068,
	"num_tokens": 438456.0,
	"step": 317
	},
	{
	"entropy": 0.23422475159168243,
	"epoch": 0.049036237471087124,
	"grad_norm": 1.65625,
	"learning_rate": 1.7616292873927688e-05,
	"loss": 0.2259235829114914,
	"mean_token_accuracy": 0.915672242641449,
	"num_tokens": 439721.0,
	"step": 318
	},
	{
	"entropy": 0.20051687955856323,
	"epoch": 0.04919043947571319,
	"grad_norm": 1.5625,
	"learning_rate": 1.7460774199212625e-05,
	"loss": 0.20561350882053375,
	"mean_token_accuracy": 0.9247232675552368,
	"num_tokens": 441084.0,
	"step": 319
	},
	{
	"entropy": 0.17916183173656464,
	"epoch": 0.04934464148033924,
	"grad_norm": 1.265625,
	"learning_rate": 1.7305575805280956e-05,
	"loss": 0.16743285953998566,
	"mean_token_accuracy": 0.9406779408454895,
	"num_tokens": 442862.0,
	"step": 320
	},
	{
	"entropy": 0.18751926720142365,
	"epoch": 0.049498843484965305,
	"grad_norm": 1.3671875,
	"learning_rate": 1.7150704285258375e-05,
	"loss": 0.16947750747203827,
	"mean_token_accuracy": 0.9436795711517334,
	"num_tokens": 444468.0,
	"step": 321
	},
	{
	"entropy": 0.17793025076389313,
	"epoch": 0.04965304548959137,
	"grad_norm": 1.28125,
	"learning_rate": 1.6996166218384307e-05,
	"loss": 0.16534742712974548,
	"mean_token_accuracy": 0.939068078994751,
	"num_tokens": 446150.0,
	"step": 322
	},
	{
	"entropy": 0.2475776970386505,
	"epoch": 0.04980724749421742,
	"grad_norm": 2.15625,
	"learning_rate": 1.684196816973248e-05,
	"loss": 0.2468724101781845,
	"mean_token_accuracy": 0.919457733631134,
	"num_tokens": 447412.0,
	"step": 323
	},
	{
	"entropy": 0.2225208878517151,
	"epoch": 0.049961449498843485,
	"grad_norm": 1.625,
	"learning_rate": 1.6688116689931972e-05,
	"loss": 0.20401687920093536,
	"mean_token_accuracy": 0.9311926364898682,
	"num_tokens": 448946.0,
	"step": 324
	},
	{
	"entropy": 0.2503822445869446,
	"epoch": 0.05011565150346955,
	"grad_norm": 1.96875,
	"learning_rate": 1.6534618314888945e-05,
	"loss": 0.22844718396663666,
	"mean_token_accuracy": 0.9175724387168884,
	"num_tokens": 450058.0,
	"step": 325
	},
	{
	"entropy": 0.25004157423973083,
	"epoch": 0.050269853508095604,
	"grad_norm": 2.203125,
	"learning_rate": 1.638147956550904e-05,
	"loss": 0.25791749358177185,
	"mean_token_accuracy": 0.9117646813392639,
	"num_tokens": 451324.0,
	"step": 326
	},
	{
	"entropy": 0.22011376917362213,
	"epoch": 0.050424055512721666,
	"grad_norm": 1.8515625,
	"learning_rate": 1.622870694742026e-05,
	"loss": 0.19179725646972656,
	"mean_token_accuracy": 0.9320175647735596,
	"num_tokens": 452700.0,
	"step": 327
	},
	{
	"entropy": 0.193440780043602,
	"epoch": 0.05057825751734773,
	"grad_norm": 1.625,
	"learning_rate": 1.6076306950696658e-05,
	"loss": 0.19295921921730042,
	"mean_token_accuracy": 0.9318463206291199,
	"num_tokens": 454322.0,
	"step": 328
	},
	{
	"entropy": 0.17849111557006836,
	"epoch": 0.050732459521973784,
	"grad_norm": 1.46875,
	"learning_rate": 1.592428604958264e-05,
	"loss": 0.16607390344142914,
	"mean_token_accuracy": 0.9433174133300781,
	"num_tokens": 456006.0,
	"step": 329
	},
	{
	"entropy": 0.2486262321472168,
	"epoch": 0.05088666152659985,
	"grad_norm": 1.953125,
	"learning_rate": 1.5772650702217878e-05,
	"loss": 0.2480083853006363,
	"mean_token_accuracy": 0.9057851433753967,
	"num_tokens": 457224.0,
	"step": 330
	},
	{
	"entropy": 0.27837270498275757,
	"epoch": 0.05104086353122591,
	"grad_norm": 2.59375,
	"learning_rate": 1.5621407350362986e-05,
	"loss": 0.2996099293231964,
	"mean_token_accuracy": 0.9042253494262695,
	"num_tokens": 458297.0,
	"step": 331
	},
	{
	"entropy": 0.20956268906593323,
	"epoch": 0.051195065535851965,
	"grad_norm": 1.5625,
	"learning_rate": 1.5470562419125868e-05,
	"loss": 0.18728220462799072,
	"mean_token_accuracy": 0.9295774698257446,
	"num_tokens": 459796.0,
	"step": 332
	},
	{
	"entropy": 0.29057589173316956,
	"epoch": 0.05134926754047803,
	"grad_norm": 2.40625,
	"learning_rate": 1.5320122316688735e-05,
	"loss": 0.29962292313575745,
	"mean_token_accuracy": 0.8858093023300171,
	"num_tokens": 460706.0,
	"step": 333
	},
	{
	"entropy": 0.1948358118534088,
	"epoch": 0.05150346954510408,
	"grad_norm": 1.578125,
	"learning_rate": 1.517009343403591e-05,
	"loss": 0.1801883429288864,
	"mean_token_accuracy": 0.93376624584198,
	"num_tokens": 462254.0,
	"step": 334
	},
	{
	"entropy": 0.22513329982757568,
	"epoch": 0.051657671549730146,
	"grad_norm": 2.046875,
	"learning_rate": 1.5020482144682308e-05,
	"loss": 0.22428080439567566,
	"mean_token_accuracy": 0.9161764979362488,
	"num_tokens": 463622.0,
	"step": 335
	},
	{
	"entropy": 0.2175763100385666,
	"epoch": 0.05181187355435621,
	"grad_norm": 2.15625,
	"learning_rate": 1.4871294804402675e-05,
	"loss": 0.21439555287361145,
	"mean_token_accuracy": 0.9237037301063538,
	"num_tokens": 464980.0,
	"step": 336
	},
	{
	"entropy": 0.1653544306755066,
	"epoch": 0.051966075558982264,
	"grad_norm": 1.796875,
	"learning_rate": 1.472253775096159e-05,
	"loss": 0.16475962102413177,
	"mean_token_accuracy": 0.9355390667915344,
	"num_tokens": 466741.0,
	"step": 337
	},
	{
	"entropy": 0.20776669681072235,
	"epoch": 0.052120277563608326,
	"grad_norm": 1.9453125,
	"learning_rate": 1.4574217303844211e-05,
	"loss": 0.19919782876968384,
	"mean_token_accuracy": 0.9283204674720764,
	"num_tokens": 468172.0,
	"step": 338
	},
	{
	"entropy": 0.18218226730823517,
	"epoch": 0.05227447956823439,
	"grad_norm": 1.6875,
	"learning_rate": 1.4426339763987844e-05,
	"loss": 0.1778276562690735,
	"mean_token_accuracy": 0.9303686618804932,
	"num_tokens": 469889.0,
	"step": 339
	},
	{
	"entropy": 0.25532829761505127,
	"epoch": 0.052428681572860444,
	"grad_norm": 1.9375,
	"learning_rate": 1.4278911413514204e-05,
	"loss": 0.26636841893196106,
	"mean_token_accuracy": 0.9083333611488342,
	"num_tokens": 471217.0,
	"step": 340
	},
	{
	"entropy": 0.19937695562839508,
	"epoch": 0.05258288357748651,
	"grad_norm": 1.6015625,
	"learning_rate": 1.4131938515462639e-05,
	"loss": 0.1952292025089264,
	"mean_token_accuracy": 0.9280303120613098,
	"num_tokens": 472809.0,
	"step": 341
	},
	{
	"entropy": 0.28071922063827515,
	"epoch": 0.05273708558211257,
	"grad_norm": 2.4375,
	"learning_rate": 1.3985427313523947e-05,
	"loss": 0.28267180919647217,
	"mean_token_accuracy": 0.885199248790741,
	"num_tokens": 473871.0,
	"step": 342
	},
	{
	"entropy": 0.1708391159772873,
	"epoch": 0.052891287586738625,
	"grad_norm": 1.40625,
	"learning_rate": 1.3839384031775226e-05,
	"loss": 0.1682218760251999,
	"mean_token_accuracy": 0.9421338438987732,
	"num_tokens": 475538.0,
	"step": 343
	},
	{
	"entropy": 0.17169421911239624,
	"epoch": 0.05304548959136469,
	"grad_norm": 1.671875,
	"learning_rate": 1.3693814874415389e-05,
	"loss": 0.1755795031785965,
	"mean_token_accuracy": 0.9377777576446533,
	"num_tokens": 477346.0,
	"step": 344
	},
	{
	"entropy": 0.2197735607624054,
	"epoch": 0.05319969159599075,
	"grad_norm": 1.8515625,
	"learning_rate": 1.3548726025501688e-05,
	"loss": 0.22578758001327515,
	"mean_token_accuracy": 0.9094029068946838,
	"num_tokens": 478811.0,
	"step": 345
	},
	{
	"entropy": 0.21483223140239716,
	"epoch": 0.053353893600616806,
	"grad_norm": 1.6484375,
	"learning_rate": 1.340412364868689e-05,
	"loss": 0.21270032227039337,
	"mean_token_accuracy": 0.9238030910491943,
	"num_tokens": 480302.0,
	"step": 346
	},
	{
	"entropy": 0.27951836585998535,
	"epoch": 0.05350809560524287,
	"grad_norm": 2.28125,
	"learning_rate": 1.3260013886957538e-05,
	"loss": 0.2666223645210266,
	"mean_token_accuracy": 0.9077869057655334,
	"num_tokens": 481286.0,
	"step": 347
	},
	{
	"entropy": 0.1917494833469391,
	"epoch": 0.05366229760986893,
	"grad_norm": 1.578125,
	"learning_rate": 1.3116402862372933e-05,
	"loss": 0.19692182540893555,
	"mean_token_accuracy": 0.9339783787727356,
	"num_tokens": 483051.0,
	"step": 348
	},
	{
	"entropy": 0.20676381886005402,
	"epoch": 0.053816499614494986,
	"grad_norm": 1.6328125,
	"learning_rate": 1.2973296675805041e-05,
	"loss": 0.20207884907722473,
	"mean_token_accuracy": 0.9374217987060547,
	"num_tokens": 484657.0,
	"step": 349
	},
	{
	"entropy": 0.19531835615634918,
	"epoch": 0.05397070161912105,
	"grad_norm": 1.7421875,
	"learning_rate": 1.2830701406679375e-05,
	"loss": 0.18931494653224945,
	"mean_token_accuracy": 0.9317750930786133,
	"num_tokens": 486248.0,
	"step": 350
	},
	{
	"entropy": 0.3396989405155182,
	"epoch": 0.05412490362374711,
	"grad_norm": 5.1875,
	"learning_rate": 1.2688623112716652e-05,
	"loss": 0.37070798873901367,
	"mean_token_accuracy": 0.869767427444458,
	"num_tokens": 487116.0,
	"step": 351
	},
	{
	"entropy": 0.17527468502521515,
	"epoch": 0.05427910562837317,
	"grad_norm": 1.859375,
	"learning_rate": 1.2547067829675535e-05,
	"loss": 0.17982880771160126,
	"mean_token_accuracy": 0.9339567422866821,
	"num_tokens": 488835.0,
	"step": 352
	},
	{
	"entropy": 0.2687583565711975,
	"epoch": 0.05443330763299923,
	"grad_norm": 2.03125,
	"learning_rate": 1.2406041571096164e-05,
	"loss": 0.2823106646537781,
	"mean_token_accuracy": 0.9135371446609497,
	"num_tokens": 489988.0,
	"step": 353
	},
	{
	"entropy": 0.1937769502401352,
	"epoch": 0.05458750963762529,
	"grad_norm": 1.8515625,
	"learning_rate": 1.2265550328044681e-05,
	"loss": 0.19238050282001495,
	"mean_token_accuracy": 0.9310998916625977,
	"num_tokens": 491578.0,
	"step": 354
	},
	{
	"entropy": 0.17158617079257965,
	"epoch": 0.05474171164225135,
	"grad_norm": 1.4765625,
	"learning_rate": 1.2125600068858772e-05,
	"loss": 0.16338223218917847,
	"mean_token_accuracy": 0.9456647634506226,
	"num_tokens": 493316.0,
	"step": 355
	},
	{
	"entropy": 0.19250212609767914,
	"epoch": 0.05489591364687741,
	"grad_norm": 1.671875,
	"learning_rate": 1.1986196738894078e-05,
	"loss": 0.17621511220932007,
	"mean_token_accuracy": 0.9345238208770752,
	"num_tokens": 494668.0,
	"step": 356
	},
	{
	"entropy": 0.19578416645526886,
	"epoch": 0.05505011565150347,
	"grad_norm": 1.8828125,
	"learning_rate": 1.1847346260271647e-05,
	"loss": 0.183770090341568,
	"mean_token_accuracy": 0.9346092343330383,
	"num_tokens": 495930.0,
	"step": 357
	},
	{
	"entropy": 0.22412899136543274,
	"epoch": 0.05520431765612953,
	"grad_norm": 1.828125,
	"learning_rate": 1.1709054531626313e-05,
	"loss": 0.2516805827617645,
	"mean_token_accuracy": 0.9137670397758484,
	"num_tokens": 497260.0,
	"step": 358
	},
	{
	"entropy": 0.2025316208600998,
	"epoch": 0.05535851966075559,
	"grad_norm": 1.3203125,
	"learning_rate": 1.1571327427856177e-05,
	"loss": 0.19299444556236267,
	"mean_token_accuracy": 0.9367007613182068,
	"num_tokens": 498832.0,
	"step": 359
	},
	{
	"entropy": 0.2235983908176422,
	"epoch": 0.05551272166538165,
	"grad_norm": 1.5859375,
	"learning_rate": 1.1434170799872947e-05,
	"loss": 0.200628861784935,
	"mean_token_accuracy": 0.929682195186615,
	"num_tokens": 500319.0,
	"step": 360
	},
	{
	"entropy": 0.28108713030815125,
	"epoch": 0.05566692367000771,
	"grad_norm": 2.40625,
	"learning_rate": 1.1297590474353464e-05,
	"loss": 0.2882252335548401,
	"mean_token_accuracy": 0.8986828923225403,
	"num_tokens": 501314.0,
	"step": 361
	},
	{
	"entropy": 0.21756984293460846,
	"epoch": 0.05582112567463377,
	"grad_norm": 2.125,
	"learning_rate": 1.116159225349213e-05,
	"loss": 0.23450873792171478,
	"mean_token_accuracy": 0.9163208603858948,
	"num_tokens": 502768.0,
	"step": 362
	},
	{
	"entropy": 0.2556920051574707,
	"epoch": 0.05597532767925983,
	"grad_norm": 2.453125,
	"learning_rate": 1.1026181914754388e-05,
	"loss": 0.2757260203361511,
	"mean_token_accuracy": 0.9049859046936035,
	"num_tokens": 503839.0,
	"step": 363
	},
	{
	"entropy": 0.21779917180538177,
	"epoch": 0.05612952968388589,
	"grad_norm": 1.953125,
	"learning_rate": 1.089136521063137e-05,
	"loss": 0.22174124419689178,
	"mean_token_accuracy": 0.9221984148025513,
	"num_tokens": 505248.0,
	"step": 364
	},
	{
	"entropy": 0.3109717071056366,
	"epoch": 0.05628373168851195,
	"grad_norm": 2.578125,
	"learning_rate": 1.075714786839542e-05,
	"loss": 0.2979055345058441,
	"mean_token_accuracy": 0.8831614851951599,
	"num_tokens": 506129.0,
	"step": 365
	},
	{
	"entropy": 0.22565557062625885,
	"epoch": 0.05643793369313801,
	"grad_norm": 1.859375,
	"learning_rate": 1.0623535589856887e-05,
	"loss": 0.23962406814098358,
	"mean_token_accuracy": 0.9183965921401978,
	"num_tokens": 507534.0,
	"step": 366
	},
	{
	"entropy": 0.16417403519153595,
	"epoch": 0.05659213569776407,
	"grad_norm": 2.25,
	"learning_rate": 1.0490534051121808e-05,
	"loss": 0.16284841299057007,
	"mean_token_accuracy": 0.937706708908081,
	"num_tokens": 509356.0,
	"step": 367
	},
	{
	"entropy": 0.18802893161773682,
	"epoch": 0.05674633770239013,
	"grad_norm": 1.6640625,
	"learning_rate": 1.0358148902350853e-05,
	"loss": 0.19001488387584686,
	"mean_token_accuracy": 0.930488646030426,
	"num_tokens": 510817.0,
	"step": 368
	},
	{
	"entropy": 0.22402897477149963,
	"epoch": 0.05690053970701619,
	"grad_norm": 2.125,
	"learning_rate": 1.0226385767519259e-05,
	"loss": 0.228716179728508,
	"mean_token_accuracy": 0.924344539642334,
	"num_tokens": 512160.0,
	"step": 369
	},
	{
	"entropy": 0.24438747763633728,
	"epoch": 0.05705474171164225,
	"grad_norm": 1.984375,
	"learning_rate": 1.0095250244177887e-05,
	"loss": 0.22704952955245972,
	"mean_token_accuracy": 0.918749988079071,
	"num_tokens": 513288.0,
	"step": 370
	},
	{
	"entropy": 0.23192906379699707,
	"epoch": 0.057208943716268314,
	"grad_norm": 1.96875,
	"learning_rate": 9.964747903215513e-06,
	"loss": 0.22084636986255646,
	"mean_token_accuracy": 0.929665744304657,
	"num_tokens": 514732.0,
	"step": 371
	},
	{
	"entropy": 0.1626010537147522,
	"epoch": 0.05736314572089437,
	"grad_norm": 1.3203125,
	"learning_rate": 9.834884288622054e-06,
	"loss": 0.15189611911773682,
	"mean_token_accuracy": 0.941209077835083,
	"num_tokens": 516543.0,
	"step": 372
	},
	{
	"entropy": 0.16602161526679993,
	"epoch": 0.05751734772552043,
	"grad_norm": 1.3828125,
	"learning_rate": 9.705664917253143e-06,
	"loss": 0.18036378920078278,
	"mean_token_accuracy": 0.9382113814353943,
	"num_tokens": 518396.0,
	"step": 373
	},
	{
	"entropy": 0.16473768651485443,
	"epoch": 0.057671549730146494,
	"grad_norm": 1.3046875,
	"learning_rate": 9.577095278595694e-06,
	"loss": 0.15197424590587616,
	"mean_token_accuracy": 0.9414084553718567,
	"num_tokens": 520179.0,
	"step": 374
	},
	{
	"entropy": 0.1879141479730606,
	"epoch": 0.05782575173477255,
	"grad_norm": 1.8046875,
	"learning_rate": 9.449180834534749e-06,
	"loss": 0.18156398832798004,
	"mean_token_accuracy": 0.9304715991020203,
	"num_tokens": 521841.0,
	"step": 375
	},
	{
	"entropy": 0.2549605369567871,
	"epoch": 0.05797995373939861,
	"grad_norm": 2.203125,
	"learning_rate": 9.321927019121435e-06,
	"loss": 0.257169634103775,
	"mean_token_accuracy": 0.9048386812210083,
	"num_tokens": 523089.0,
	"step": 376
	},
	{
	"entropy": 0.18407224118709564,
	"epoch": 0.058134155744024675,
	"grad_norm": 1.609375,
	"learning_rate": 9.195339238342071e-06,
	"loss": 0.18074241280555725,
	"mean_token_accuracy": 0.936096727848053,
	"num_tokens": 524834.0,
	"step": 377
	},
	{
	"entropy": 0.21801158785820007,
	"epoch": 0.05828835774865073,
	"grad_norm": 1.9609375,
	"learning_rate": 9.069422869888583e-06,
	"loss": 0.22194962203502655,
	"mean_token_accuracy": 0.923652708530426,
	"num_tokens": 526178.0,
	"step": 378
	},
	{
	"entropy": 0.18715234100818634,
	"epoch": 0.05844255975327679,
	"grad_norm": 1.34375,
	"learning_rate": 8.944183262929984e-06,
	"loss": 0.17807839810848236,
	"mean_token_accuracy": 0.9365825057029724,
	"num_tokens": 527889.0,
	"step": 379
	},
	{
	"entropy": 0.196278914809227,
	"epoch": 0.058596761757902856,
	"grad_norm": 1.6953125,
	"learning_rate": 8.819625737885187e-06,
	"loss": 0.20651084184646606,
	"mean_token_accuracy": 0.9256097674369812,
	"num_tokens": 529537.0,
	"step": 380
	},
	{
	"entropy": 0.35177287459373474,
	"epoch": 0.05875096376252891,
	"grad_norm": 3.296875,
	"learning_rate": 8.695755586196924e-06,
	"loss": 0.385383665561676,
	"mean_token_accuracy": 0.8580645322799683,
	"num_tokens": 530475.0,
	"step": 381
	},
	{
	"entropy": 0.25344812870025635,
	"epoch": 0.058905165767154974,
	"grad_norm": 2.078125,
	"learning_rate": 8.572578070107016e-06,
	"loss": 0.25393110513687134,
	"mean_token_accuracy": 0.917894721031189,
	"num_tokens": 531433.0,
	"step": 382
	},
	{
	"entropy": 0.3020297884941101,
	"epoch": 0.059059367771781036,
	"grad_norm": 2.359375,
	"learning_rate": 8.450098422432787e-06,
	"loss": 0.3018152415752411,
	"mean_token_accuracy": 0.9065510630607605,
	"num_tokens": 532479.0,
	"step": 383
	},
	{
	"entropy": 0.15192678570747375,
	"epoch": 0.05921356977640709,
	"grad_norm": 1.4296875,
	"learning_rate": 8.328321846344755e-06,
	"loss": 0.1450488418340683,
	"mean_token_accuracy": 0.9468623399734497,
	"num_tokens": 534463.0,
	"step": 384
	},
	{
	"epoch": 0.05921356977640709,
	"eval_entropy": 0.22466930076044206,
	"eval_loss": 0.22621265053749084,
	"eval_mean_token_accuracy": 0.9194652596760912,
	"eval_num_tokens": 534463.0,
	"eval_runtime": 34.9665,
	"eval_samples_per_second": 78.103,
	"eval_steps_per_second": 9.781,
	"step": 384
	},
	{
	"entropy": 0.18735887110233307,
	"epoch": 0.059367771781033155,
	"grad_norm": 1.375,
	"learning_rate": 8.207253515145625e-06,
	"loss": 0.18456675112247467,
	"mean_token_accuracy": 0.9276748299598694,
	"num_tokens": 536144.0,
	"step": 385
	},
	{
	"entropy": 0.2384348064661026,
	"epoch": 0.05952197378565921,
	"grad_norm": 1.9375,
	"learning_rate": 8.086898572050494e-06,
	"loss": 0.24932722747325897,
	"mean_token_accuracy": 0.9125475287437439,
	"num_tokens": 537467.0,
	"step": 386
	},
	{
	"entropy": 0.21620430052280426,
	"epoch": 0.05967617579028527,
	"grad_norm": 1.8515625,
	"learning_rate": 7.967262129968378e-06,
	"loss": 0.20638106763362885,
	"mean_token_accuracy": 0.9262917637825012,
	"num_tokens": 538791.0,
	"step": 387
	},
	{
	"entropy": 0.22282716631889343,
	"epoch": 0.059830377794911335,
	"grad_norm": 1.8203125,
	"learning_rate": 7.848349271284952e-06,
	"loss": 0.24068771302700043,
	"mean_token_accuracy": 0.911854088306427,
	"num_tokens": 540115.0,
	"step": 388
	},
	{
	"entropy": 0.19987352192401886,
	"epoch": 0.05998457979953739,
	"grad_norm": 1.7109375,
	"learning_rate": 7.730165047646723e-06,
	"loss": 0.19121116399765015,
	"mean_token_accuracy": 0.93138587474823,
	"num_tokens": 541595.0,
	"step": 389
	},
	{
	"entropy": 0.2530774772167206,
	"epoch": 0.06013878180416345,
	"grad_norm": 2.484375,
	"learning_rate": 7.612714479746347e-06,
	"loss": 0.250463604927063,
	"mean_token_accuracy": 0.9078303575515747,
	"num_tokens": 542829.0,
	"step": 390
	},
	{
	"entropy": 0.2623169720172882,
	"epoch": 0.060292983808789516,
	"grad_norm": 2.515625,
	"learning_rate": 7.4960025571094025e-06,
	"loss": 0.27675166726112366,
	"mean_token_accuracy": 0.9017013311386108,
	"num_tokens": 543895.0,
	"step": 391
	},
	{
	"entropy": 0.2155791074037552,
	"epoch": 0.06044718581341557,
	"grad_norm": 1.7890625,
	"learning_rate": 7.380034237882394e-06,
	"loss": 0.21280765533447266,
	"mean_token_accuracy": 0.9217687249183655,
	"num_tokens": 545373.0,
	"step": 392
	},
	{
	"entropy": 0.3150392770767212,
	"epoch": 0.060601387818041634,
	"grad_norm": 2.5,
	"learning_rate": 7.264814448622106e-06,
	"loss": 0.3080776035785675,
	"mean_token_accuracy": 0.898815929889679,
	"num_tokens": 546310.0,
	"step": 393
	},
	{
	"entropy": 0.19685329496860504,
	"epoch": 0.0607555898226677,
	"grad_norm": 2.125,
	"learning_rate": 7.150348084086367e-06,
	"loss": 0.22213543951511383,
	"mean_token_accuracy": 0.9212239384651184,
	"num_tokens": 547854.0,
	"step": 394
	},
	{
	"entropy": 0.1816016435623169,
	"epoch": 0.06090979182729375,
	"grad_norm": 1.4140625,
	"learning_rate": 7.036640007026038e-06,
	"loss": 0.17253060638904572,
	"mean_token_accuracy": 0.9350804090499878,
	"num_tokens": 549541.0,
	"step": 395
	},
	{
	"entropy": 0.19817869365215302,
	"epoch": 0.061063993831919815,
	"grad_norm": 1.7890625,
	"learning_rate": 6.923695047978502e-06,
	"loss": 0.191897913813591,
	"mean_token_accuracy": 0.9271523356437683,
	"num_tokens": 551059.0,
	"step": 396
	},
	{
	"entropy": 0.24792121350765228,
	"epoch": 0.06121819583654588,
	"grad_norm": 2.25,
	"learning_rate": 6.811518005062423e-06,
	"loss": 0.2625022828578949,
	"mean_token_accuracy": 0.9022988677024841,
	"num_tokens": 552111.0,
	"step": 397
	},
	{
	"entropy": 0.24607616662979126,
	"epoch": 0.06137239784117193,
	"grad_norm": 2.28125,
	"learning_rate": 6.700113643773892e-06,
	"loss": 0.22993192076683044,
	"mean_token_accuracy": 0.9271889328956604,
	"num_tokens": 553204.0,
	"step": 398
	},
	{
	"entropy": 0.25920623540878296,
	"epoch": 0.061526599845797995,
	"grad_norm": 2.453125,
	"learning_rate": 6.589486696784028e-06,
	"loss": 0.27900075912475586,
	"mean_token_accuracy": 0.9022931456565857,
	"num_tokens": 554215.0,
	"step": 399
	},
	{
	"entropy": 0.28530606627464294,
	"epoch": 0.06168080185042406,
	"grad_norm": 2.4375,
	"learning_rate": 6.47964186373787e-06,
	"loss": 0.2928396165370941,
	"mean_token_accuracy": 0.8845500946044922,
	"num_tokens": 555401.0,
	"step": 400
	},
	{
	"entropy": 0.2927665114402771,
	"epoch": 0.061835003855050114,
	"grad_norm": 2.25,
	"learning_rate": 6.370583811054778e-06,
	"loss": 0.2968969941139221,
	"mean_token_accuracy": 0.9039433598518372,
	"num_tokens": 556398.0,
	"step": 401
	},
	{
	"entropy": 0.23018132150173187,
	"epoch": 0.061989205859676176,
	"grad_norm": 1.96875,
	"learning_rate": 6.262317171730167e-06,
	"loss": 0.23996573686599731,
	"mean_token_accuracy": 0.9214015007019043,
	"num_tokens": 557462.0,
	"step": 402
	},
	{
	"entropy": 0.25166183710098267,
	"epoch": 0.06214340786430224,
	"grad_norm": 2.0,
	"learning_rate": 6.154846545138695e-06,
	"loss": 0.2649187445640564,
	"mean_token_accuracy": 0.9033687710762024,
	"num_tokens": 558598.0,
	"step": 403
	},
	{
	"entropy": 0.23649781942367554,
	"epoch": 0.062297609868928294,
	"grad_norm": 2.15625,
	"learning_rate": 6.048176496838856e-06,
	"loss": 0.21528743207454681,
	"mean_token_accuracy": 0.9269746541976929,
	"num_tokens": 559948.0,
	"step": 404
	},
	{
	"entropy": 0.22737731039524078,
	"epoch": 0.06245181187355436,
	"grad_norm": 1.796875,
	"learning_rate": 5.9423115583790604e-06,
	"loss": 0.21719223260879517,
	"mean_token_accuracy": 0.9225531816482544,
	"num_tokens": 561131.0,
	"step": 405
	},
	{
	"entropy": 0.21060694754123688,
	"epoch": 0.06260601387818042,
	"grad_norm": 1.4453125,
	"learning_rate": 5.8372562271051e-06,
	"loss": 0.19261834025382996,
	"mean_token_accuracy": 0.9304878115653992,
	"num_tokens": 562779.0,
	"step": 406
	},
	{
	"entropy": 0.24134337902069092,
	"epoch": 0.06276021588280647,
	"grad_norm": 1.8671875,
	"learning_rate": 5.733014965969091e-06,
	"loss": 0.2224052995443344,
	"mean_token_accuracy": 0.9310910701751709,
	"num_tokens": 564006.0,
	"step": 407
	},
	{
	"entropy": 0.19692017138004303,
	"epoch": 0.06291441788743253,
	"grad_norm": 1.6328125,
	"learning_rate": 5.629592203339909e-06,
	"loss": 0.18327265977859497,
	"mean_token_accuracy": 0.9346548914909363,
	"num_tokens": 565376.0,
	"step": 408
	},
	{
	"entropy": 0.2016250342130661,
	"epoch": 0.0630686198920586,
	"grad_norm": 1.4765625,
	"learning_rate": 5.526992332815012e-06,
	"loss": 0.20120908319950104,
	"mean_token_accuracy": 0.9263085126876831,
	"num_tokens": 566836.0,
	"step": 409
	},
	{
	"entropy": 0.14676110446453094,
	"epoch": 0.06322282189668466,
	"grad_norm": 1.3046875,
	"learning_rate": 5.4252197130338525e-06,
	"loss": 0.1583862602710724,
	"mean_token_accuracy": 0.9458128213882446,
	"num_tokens": 569280.0,
	"step": 410
	},
	{
	"entropy": 0.1877201646566391,
	"epoch": 0.06337702390131071,
	"grad_norm": 2.09375,
	"learning_rate": 5.3242786674926545e-06,
	"loss": 0.18557564914226532,
	"mean_token_accuracy": 0.9334638118743896,
	"num_tokens": 570821.0,
	"step": 411
	},
	{
	"entropy": 0.21993833780288696,
	"epoch": 0.06353122590593678,
	"grad_norm": 1.7421875,
	"learning_rate": 5.224173484360798e-06,
	"loss": 0.19618681073188782,
	"mean_token_accuracy": 0.9358024597167969,
	"num_tokens": 572044.0,
	"step": 412
	},
	{
	"entropy": 0.20039010047912598,
	"epoch": 0.06368542791056284,
	"grad_norm": 1.3671875,
	"learning_rate": 5.124908416298615e-06,
	"loss": 0.18724791705608368,
	"mean_token_accuracy": 0.9329929947853088,
	"num_tokens": 573619.0,
	"step": 413
	},
	{
	"entropy": 0.21013715863227844,
	"epoch": 0.06383962991518889,
	"grad_norm": 1.796875,
	"learning_rate": 5.026487680276723e-06,
	"loss": 0.21998311579227448,
	"mean_token_accuracy": 0.9184691905975342,
	"num_tokens": 574829.0,
	"step": 414
	},
	{
	"entropy": 0.26953125,
	"epoch": 0.06399383191981496,
	"grad_norm": 2.171875,
	"learning_rate": 4.928915457396913e-06,
	"loss": 0.26942914724349976,
	"mean_token_accuracy": 0.9191489219665527,
	"num_tokens": 576012.0,
	"step": 415
	},
	{
	"entropy": 0.23597829043865204,
	"epoch": 0.06414803392444102,
	"grad_norm": 1.84375,
	"learning_rate": 4.832195892714489e-06,
	"loss": 0.22428561747074127,
	"mean_token_accuracy": 0.9230215549468994,
	"num_tokens": 577410.0,
	"step": 416
	},
	{
	"entropy": 0.28713032603263855,
	"epoch": 0.06430223592906707,
	"grad_norm": 2.0625,
	"learning_rate": 4.736333095062228e-06,
	"loss": 0.2505059242248535,
	"mean_token_accuracy": 0.9073724150657654,
	"num_tokens": 578476.0,
	"step": 417
	},
	{
	"entropy": 0.2858028709888458,
	"epoch": 0.06445643793369314,
	"grad_norm": 2.015625,
	"learning_rate": 4.641331136875768e-06,
	"loss": 0.2911134958267212,
	"mean_token_accuracy": 0.9045093059539795,
	"num_tokens": 579615.0,
	"step": 418
	},
	{
	"entropy": 0.282069593667984,
	"epoch": 0.0646106399383192,
	"grad_norm": 2.09375,
	"learning_rate": 4.547194054020651e-06,
	"loss": 0.27553999423980713,
	"mean_token_accuracy": 0.90444016456604,
	"num_tokens": 580659.0,
	"step": 419
	},
	{
	"entropy": 0.22959555685520172,
	"epoch": 0.06476484194294525,
	"grad_norm": 1.9453125,
	"learning_rate": 4.453925845620854e-06,
	"loss": 0.22032871842384338,
	"mean_token_accuracy": 0.9136531352996826,
	"num_tokens": 582022.0,
	"step": 420
	},
	{
	"entropy": 0.2052592635154724,
	"epoch": 0.06491904394757132,
	"grad_norm": 1.7734375,
	"learning_rate": 4.361530473888889e-06,
	"loss": 0.20798712968826294,
	"mean_token_accuracy": 0.9232394099235535,
	"num_tokens": 583450.0,
	"step": 421
	},
	{
	"entropy": 0.32572290301322937,
	"epoch": 0.06507324595219738,
	"grad_norm": 2.578125,
	"learning_rate": 4.270011863957507e-06,
	"loss": 0.33982253074645996,
	"mean_token_accuracy": 0.8741418719291687,
	"num_tokens": 584332.0,
	"step": 422
	},
	{
	"entropy": 0.3089931607246399,
	"epoch": 0.06522744795682343,
	"grad_norm": 2.578125,
	"learning_rate": 4.179373903712913e-06,
	"loss": 0.30327266454696655,
	"mean_token_accuracy": 0.8930232524871826,
	"num_tokens": 585200.0,
	"step": 423
	},
	{
	"entropy": 0.19629529118537903,
	"epoch": 0.0653816499614495,
	"grad_norm": 1.703125,
	"learning_rate": 4.089620443629652e-06,
	"loss": 0.2054092288017273,
	"mean_token_accuracy": 0.9246435761451721,
	"num_tokens": 586681.0,
	"step": 424
	},
	{
	"entropy": 0.18628910183906555,
	"epoch": 0.06553585196607556,
	"grad_norm": 1.3359375,
	"learning_rate": 4.000755296606973e-06,
	"loss": 0.1760605424642563,
	"mean_token_accuracy": 0.9416413307189941,
	"num_tokens": 588334.0,
	"step": 425
	},
	{
	"entropy": 0.194645494222641,
	"epoch": 0.06569005397070161,
	"grad_norm": 1.90625,
	"learning_rate": 3.912782237806903e-06,
	"loss": 0.19329358637332916,
	"mean_token_accuracy": 0.9218025207519531,
	"num_tokens": 589851.0,
	"step": 426
	},
	{
	"entropy": 0.19448570907115936,
	"epoch": 0.06584425597532768,
	"grad_norm": 1.671875,
	"learning_rate": 3.825705004493849e-06,
	"loss": 0.18638762831687927,
	"mean_token_accuracy": 0.9315856695175171,
	"num_tokens": 591423.0,
	"step": 427
	},
	{
	"entropy": 0.26799967885017395,
	"epoch": 0.06599845797995374,
	"grad_norm": 2.125,
	"learning_rate": 3.739527295875811e-06,
	"loss": 0.2695932686328888,
	"mean_token_accuracy": 0.9055441617965698,
	"num_tokens": 592405.0,
	"step": 428
	},
	{
	"entropy": 0.20886771380901337,
	"epoch": 0.0661526599845798,
	"grad_norm": 1.875,
	"learning_rate": 3.6542527729472836e-06,
	"loss": 0.22071963548660278,
	"mean_token_accuracy": 0.9178168177604675,
	"num_tokens": 594007.0,
	"step": 429
	},
	{
	"entropy": 0.19780333340168,
	"epoch": 0.06630686198920586,
	"grad_norm": 1.4296875,
	"learning_rate": 3.5698850583336663e-06,
	"loss": 0.19298632442951202,
	"mean_token_accuracy": 0.9317794442176819,
	"num_tokens": 595774.0,
	"step": 430
	},
	{
	"entropy": 0.2335851490497589,
	"epoch": 0.06646106399383192,
	"grad_norm": 1.5859375,
	"learning_rate": 3.4864277361374264e-06,
	"loss": 0.21905845403671265,
	"mean_token_accuracy": 0.9286743402481079,
	"num_tokens": 597170.0,
	"step": 431
	},
	{
	"entropy": 0.17323604226112366,
	"epoch": 0.06661526599845798,
	"grad_norm": 1.640625,
	"learning_rate": 3.4038843517858075e-06,
	"loss": 0.17967088520526886,
	"mean_token_accuracy": 0.9360523819923401,
	"num_tokens": 599164.0,
	"step": 432
	},
	{
	"entropy": 0.2514375150203705,
	"epoch": 0.06676946800308405,
	"grad_norm": 1.8125,
	"learning_rate": 3.3222584118802192e-06,
	"loss": 0.2490684688091278,
	"mean_token_accuracy": 0.9187192320823669,
	"num_tokens": 600390.0,
	"step": 433
	},
	{
	"entropy": 0.22465308010578156,
	"epoch": 0.0669236700077101,
	"grad_norm": 2.515625,
	"learning_rate": 3.241553384047258e-06,
	"loss": 0.26371464133262634,
	"mean_token_accuracy": 0.9116766452789307,
	"num_tokens": 601734.0,
	"step": 434
	},
	{
	"entropy": 0.20948569476604462,
	"epoch": 0.06707787201233616,
	"grad_norm": 1.5703125,
	"learning_rate": 3.1617726967914235e-06,
	"loss": 0.21372012794017792,
	"mean_token_accuracy": 0.9316811561584473,
	"num_tokens": 603235.0,
	"step": 435
	},
	{
	"entropy": 0.20347538590431213,
	"epoch": 0.06723207401696223,
	"grad_norm": 1.6796875,
	"learning_rate": 3.0829197393494548e-06,
	"loss": 0.17981462180614471,
	"mean_token_accuracy": 0.9269624352455139,
	"num_tokens": 604708.0,
	"step": 436
	},
	{
	"entropy": 0.23263585567474365,
	"epoch": 0.06738627602158828,
	"grad_norm": 2.1875,
	"learning_rate": 3.004997861546327e-06,
	"loss": 0.23778997361660004,
	"mean_token_accuracy": 0.9214986562728882,
	"num_tokens": 605837.0,
	"step": 437
	},
	{
	"entropy": 0.23302724957466125,
	"epoch": 0.06754047802621434,
	"grad_norm": 2.203125,
	"learning_rate": 2.9280103736529896e-06,
	"loss": 0.23127038776874542,
	"mean_token_accuracy": 0.9103972911834717,
	"num_tokens": 607028.0,
	"step": 438
	},
	{
	"entropy": 0.18138211965560913,
	"epoch": 0.0676946800308404,
	"grad_norm": 1.4140625,
	"learning_rate": 2.8519605462456965e-06,
	"loss": 0.1681656837463379,
	"mean_token_accuracy": 0.9345430731773376,
	"num_tokens": 608579.0,
	"step": 439
	},
	{
	"entropy": 0.17149963974952698,
	"epoch": 0.06784888203546646,
	"grad_norm": 1.6171875,
	"learning_rate": 2.776851610067094e-06,
	"loss": 0.1811680942773819,
	"mean_token_accuracy": 0.932692289352417,
	"num_tokens": 610563.0,
	"step": 440
	},
	{
	"entropy": 0.15687499940395355,
	"epoch": 0.06800308404009252,
	"grad_norm": 1.34375,
	"learning_rate": 2.7026867558889694e-06,
	"loss": 0.15128004550933838,
	"mean_token_accuracy": 0.9400107264518738,
	"num_tokens": 612438.0,
	"step": 441
	},
	{
	"entropy": 0.22530966997146606,
	"epoch": 0.06815728604471859,
	"grad_norm": 2.046875,
	"learning_rate": 2.6294691343766718e-06,
	"loss": 0.22919264435768127,
	"mean_token_accuracy": 0.9237637519836426,
	"num_tokens": 613902.0,
	"step": 442
	},
	{
	"entropy": 0.21813379228115082,
	"epoch": 0.06831148804934464,
	"grad_norm": 1.7890625,
	"learning_rate": 2.557201855955316e-06,
	"loss": 0.20722565054893494,
	"mean_token_accuracy": 0.9286713004112244,
	"num_tokens": 615340.0,
	"step": 443
	},
	{
	"entropy": 0.22816047072410583,
	"epoch": 0.0684656900539707,
	"grad_norm": 1.7890625,
	"learning_rate": 2.4858879906775904e-06,
	"loss": 0.2418501079082489,
	"mean_token_accuracy": 0.9141337275505066,
	"num_tokens": 616664.0,
	"step": 444
	},
	{
	"entropy": 0.24174243211746216,
	"epoch": 0.06861989205859677,
	"grad_norm": 1.7421875,
	"learning_rate": 2.4155305680933938e-06,
	"loss": 0.24712735414505005,
	"mean_token_accuracy": 0.9127676486968994,
	"num_tokens": 617933.0,
	"step": 445
	},
	{
	"entropy": 0.23680631816387177,
	"epoch": 0.06877409406322282,
	"grad_norm": 2.15625,
	"learning_rate": 2.3461325771210683e-06,
	"loss": 0.24274389445781708,
	"mean_token_accuracy": 0.9137291312217712,
	"num_tokens": 619019.0,
	"step": 446
	},
	{
	"entropy": 0.21051788330078125,
	"epoch": 0.06892829606784888,
	"grad_norm": 1.5703125,
	"learning_rate": 2.2776969659205005e-06,
	"loss": 0.19205066561698914,
	"mean_token_accuracy": 0.9310897588729858,
	"num_tokens": 620275.0,
	"step": 447
	},
	{
	"entropy": 0.19069823622703552,
	"epoch": 0.06908249807247495,
	"grad_norm": 1.640625,
	"learning_rate": 2.2102266417677985e-06,
	"loss": 0.193171888589859,
	"mean_token_accuracy": 0.9300353527069092,
	"num_tokens": 621698.0,
	"step": 448
	},
	{
	"entropy": 0.26176121830940247,
	"epoch": 0.069236700077101,
	"grad_norm": 2.203125,
	"learning_rate": 2.143724470931846e-06,
	"loss": 0.2646713852882385,
	"mean_token_accuracy": 0.9019434452056885,
	"num_tokens": 622838.0,
	"step": 449
	},
	{
	"entropy": 0.37524735927581787,
	"epoch": 0.06939090208172706,
	"grad_norm": 3.421875,
	"learning_rate": 2.0781932785525122e-06,
	"loss": 0.3872081935405731,
	"mean_token_accuracy": 0.8746479153633118,
	"num_tokens": 623556.0,
	"step": 450
	},
	{
	"entropy": 0.20446714758872986,
	"epoch": 0.06954510408635313,
	"grad_norm": 1.984375,
	"learning_rate": 2.013635848520626e-06,
	"loss": 0.21962465345859528,
	"mean_token_accuracy": 0.9238095283508301,
	"num_tokens": 624824.0,
	"step": 451
	},
	{
	"entropy": 0.18340152502059937,
	"epoch": 0.06969930609097919,
	"grad_norm": 1.6796875,
	"learning_rate": 1.9500549233597453e-06,
	"loss": 0.1832038313150406,
	"mean_token_accuracy": 0.9371029138565063,
	"num_tokens": 626406.0,
	"step": 452
	},
	{
	"entropy": 0.3325141668319702,
	"epoch": 0.06985350809560524,
	"grad_norm": 3.046875,
	"learning_rate": 1.8874532041095989e-06,
	"loss": 0.34842032194137573,
	"mean_token_accuracy": 0.8773234486579895,
	"num_tokens": 627221.0,
	"step": 453
	},
	{
	"entropy": 0.20056799054145813,
	"epoch": 0.0700077101002313,
	"grad_norm": 1.59375,
	"learning_rate": 1.825833350211395e-06,
	"loss": 0.1930190622806549,
	"mean_token_accuracy": 0.9300291538238525,
	"num_tokens": 628944.0,
	"step": 454
	},
	{
	"entropy": 0.3074391484260559,
	"epoch": 0.07016191210485737,
	"grad_norm": 2.671875,
	"learning_rate": 1.7651979793947949e-06,
	"loss": 0.320962131023407,
	"mean_token_accuracy": 0.8794258236885071,
	"num_tokens": 629997.0,
	"step": 455
	},
	{
	"entropy": 0.2851220667362213,
	"epoch": 0.07031611410948342,
	"grad_norm": 2.4375,
	"learning_rate": 1.705549667566747e-06,
	"loss": 0.305853009223938,
	"mean_token_accuracy": 0.884324312210083,
	"num_tokens": 630930.0,
	"step": 456
	},
	{
	"entropy": 0.213734969496727,
	"epoch": 0.07047031611410948,
	"grad_norm": 1.875,
	"learning_rate": 1.6468909487020318e-06,
	"loss": 0.21344000101089478,
	"mean_token_accuracy": 0.9156540632247925,
	"num_tokens": 632337.0,
	"step": 457
	},
	{
	"entropy": 0.23210836946964264,
	"epoch": 0.07062451811873555,
	"grad_norm": 1.8984375,
	"learning_rate": 1.5892243147356128e-06,
	"loss": 0.22123272716999054,
	"mean_token_accuracy": 0.921897828578949,
	"num_tokens": 633715.0,
	"step": 458
	},
	{
	"entropy": 0.2013556957244873,
	"epoch": 0.0707787201233616,
	"grad_norm": 1.90625,
	"learning_rate": 1.5325522154568006e-06,
	"loss": 0.2120433896780014,
	"mean_token_accuracy": 0.9267473220825195,
	"num_tokens": 635211.0,
	"step": 459
	},
	{
	"entropy": 0.1748819798231125,
	"epoch": 0.07093292212798766,
	"grad_norm": 1.40625,
	"learning_rate": 1.4768770584051433e-06,
	"loss": 0.16574399173259735,
	"mean_token_accuracy": 0.9330986142158508,
	"num_tokens": 636923.0,
	"step": 460
	},
	{
	"entropy": 0.20135805010795593,
	"epoch": 0.07108712413261373,
	"grad_norm": 1.59375,
	"learning_rate": 1.422201208768187e-06,
	"loss": 0.20329774916172028,
	"mean_token_accuracy": 0.9288026094436646,
	"num_tokens": 638476.0,
	"step": 461
	},
	{
	"entropy": 0.19482704997062683,
	"epoch": 0.07124132613723978,
	"grad_norm": 1.5,
	"learning_rate": 1.3685269892809715e-06,
	"loss": 0.18484120070934296,
	"mean_token_accuracy": 0.9365351796150208,
	"num_tokens": 640233.0,
	"step": 462
	},
	{
	"entropy": 0.2483380138874054,
	"epoch": 0.07139552814186584,
	"grad_norm": 2.453125,
	"learning_rate": 1.315856680127367e-06,
	"loss": 0.2574044167995453,
	"mean_token_accuracy": 0.9011474251747131,
	"num_tokens": 641374.0,
	"step": 463
	},
	{
	"entropy": 0.25926902890205383,
	"epoch": 0.07154973014649191,
	"grad_norm": 2.03125,
	"learning_rate": 1.2641925188432102e-06,
	"loss": 0.2751407325267792,
	"mean_token_accuracy": 0.9096437692642212,
	"num_tokens": 642533.0,
	"step": 464
	},
	{
	"entropy": 0.19511115550994873,
	"epoch": 0.07170393215111796,
	"grad_norm": 1.7265625,
	"learning_rate": 1.2135367002212321e-06,
	"loss": 0.19707168638706207,
	"mean_token_accuracy": 0.9302915334701538,
	"num_tokens": 644119.0,
	"step": 465
	},
	{
	"entropy": 0.2082238495349884,
	"epoch": 0.07185813415574402,
	"grad_norm": 1.828125,
	"learning_rate": 1.1638913762178489e-06,
	"loss": 0.2105921357870102,
	"mean_token_accuracy": 0.9202454090118408,
	"num_tokens": 645431.0,
	"step": 466
	},
	{
	"entropy": 0.19069121778011322,
	"epoch": 0.07201233616037009,
	"grad_norm": 1.6796875,
	"learning_rate": 1.1152586558617118e-06,
	"loss": 0.17696255445480347,
	"mean_token_accuracy": 0.9442567825317383,
	"num_tokens": 647215.0,
	"step": 467
	},
	{
	"entropy": 0.22916826605796814,
	"epoch": 0.07216653816499614,
	"grad_norm": 1.7890625,
	"learning_rate": 1.0676406051641357e-06,
	"loss": 0.22586072981357574,
	"mean_token_accuracy": 0.9183526039123535,
	"num_tokens": 648607.0,
	"step": 468
	},
	{
	"entropy": 0.26740562915802,
	"epoch": 0.0723207401696222,
	"grad_norm": 2.125,
	"learning_rate": 1.0210392470313078e-06,
	"loss": 0.2589561343193054,
	"mean_token_accuracy": 0.9052631855010986,
	"num_tokens": 649660.0,
	"step": 469
	},
	{
	"entropy": 0.22609063982963562,
	"epoch": 0.07247494217424827,
	"grad_norm": 1.859375,
	"learning_rate": 9.754565611783812e-07,
	"loss": 0.23183754086494446,
	"mean_token_accuracy": 0.9105263352394104,
	"num_tokens": 650998.0,
	"step": 470
	},
	{
	"entropy": 0.2637474536895752,
	"epoch": 0.07262914417887432,
	"grad_norm": 2.15625,
	"learning_rate": 9.308944840453415e-07,
	"loss": 0.2506449520587921,
	"mean_token_accuracy": 0.9153633713722229,
	"num_tokens": 652093.0,
	"step": 471
	},
	{
	"entropy": 0.2541276514530182,
	"epoch": 0.07278334618350038,
	"grad_norm": 2.125,
	"learning_rate": 8.873549087147604e-07,
	"loss": 0.25114259123802185,
	"mean_token_accuracy": 0.9045345783233643,
	"num_tokens": 653358.0,
	"step": 472
	},
	{
	"entropy": 0.20104283094406128,
	"epoch": 0.07293754818812645,
	"grad_norm": 1.5234375,
	"learning_rate": 8.44839684831375e-07,
	"loss": 0.18859422206878662,
	"mean_token_accuracy": 0.9310559034347534,
	"num_tokens": 654976.0,
	"step": 473
	},
	{
	"entropy": 0.23548080027103424,
	"epoch": 0.0730917501927525,
	"grad_norm": 2.125,
	"learning_rate": 8.03350618523499e-07,
	"loss": 0.2508711516857147,
	"mean_token_accuracy": 0.9083601236343384,
	"num_tokens": 656228.0,
	"step": 474
	},
	{
	"entropy": 0.2388007789850235,
	"epoch": 0.07324595219737856,
	"grad_norm": 1.9609375,
	"learning_rate": 7.628894723263086e-07,
	"loss": 0.25423818826675415,
	"mean_token_accuracy": 0.9074475765228271,
	"num_tokens": 657619.0,
	"step": 475
	},
	{
	"entropy": 0.2098216712474823,
	"epoch": 0.07340015420200463,
	"grad_norm": 1.6640625,
	"learning_rate": 7.234579651069578e-07,
	"loss": 0.19636894762516022,
	"mean_token_accuracy": 0.9344852566719055,
	"num_tokens": 659016.0,
	"step": 476
	},
	{
	"entropy": 0.19445836544036865,
	"epoch": 0.07355435620663069,
	"grad_norm": 1.4296875,
	"learning_rate": 6.850577719915624e-07,
	"loss": 0.18777857720851898,
	"mean_token_accuracy": 0.9340922832489014,
	"num_tokens": 660693.0,
	"step": 477
	},
	{
	"entropy": 0.2021363377571106,
	"epoch": 0.07370855821125674,
	"grad_norm": 1.65625,
	"learning_rate": 6.47690524294034e-07,
	"loss": 0.1869696080684662,
	"mean_token_accuracy": 0.9333333373069763,
	"num_tokens": 662111.0,
	"step": 478
	},
	{
	"entropy": 0.19528843462467194,
	"epoch": 0.07386276021588281,
	"grad_norm": 2.03125,
	"learning_rate": 6.113578094467775e-07,
	"loss": 0.17778527736663818,
	"mean_token_accuracy": 0.9368270039558411,
	"num_tokens": 663512.0,
	"step": 479
	},
	{
	"entropy": 0.17402714490890503,
	"epoch": 0.07401696222050887,
	"grad_norm": 1.2734375,
	"learning_rate": 5.760611709332648e-07,
	"loss": 0.15594635903835297,
	"mean_token_accuracy": 0.9421712756156921,
	"num_tokens": 665353.0,
	"step": 480
	},
	{
	"entropy": 0.14156945049762726,
	"epoch": 0.07417116422513492,
	"grad_norm": 1.1640625,
	"learning_rate": 5.418021082224472e-07,
	"loss": 0.1273384541273117,
	"mean_token_accuracy": 0.9454138875007629,
	"num_tokens": 667596.0,
	"step": 481
	},
	{
	"entropy": 0.15703719854354858,
	"epoch": 0.07432536622976099,
	"grad_norm": 1.4140625,
	"learning_rate": 5.08582076705072e-07,
	"loss": 0.15257099270820618,
	"mean_token_accuracy": 0.9451599717140198,
	"num_tokens": 670011.0,
	"step": 482
	},
	{
	"entropy": 0.15173302590847015,
	"epoch": 0.07447956823438705,
	"grad_norm": 1.359375,
	"learning_rate": 4.764024876318357e-07,
	"loss": 0.14840558171272278,
	"mean_token_accuracy": 0.9457720518112183,
	"num_tokens": 672195.0,
	"step": 483
	},
	{
	"entropy": 0.251803457736969,
	"epoch": 0.0746337702390131,
	"grad_norm": 2.140625,
	"learning_rate": 4.4526470805345554e-07,
	"loss": 0.23033595085144043,
	"mean_token_accuracy": 0.9138405323028564,
	"num_tokens": 673294.0,
	"step": 484
	},
	{
	"entropy": 0.22149844467639923,
	"epoch": 0.07478797224363917,
	"grad_norm": 1.671875,
	"learning_rate": 4.1517006076257914e-07,
	"loss": 0.20876595377922058,
	"mean_token_accuracy": 0.920634925365448,
	"num_tokens": 674751.0,
	"step": 485
	},
	{
	"entropy": 0.19992657005786896,
	"epoch": 0.07494217424826523,
	"grad_norm": 1.609375,
	"learning_rate": 3.861198242375852e-07,
	"loss": 0.20208041369915009,
	"mean_token_accuracy": 0.9220055937767029,
	"num_tokens": 676195.0,
	"step": 486
	},
	{
	"entropy": 0.2647709846496582,
	"epoch": 0.07509637625289128,
	"grad_norm": 2.09375,
	"learning_rate": 3.581152325882825e-07,
	"loss": 0.26581087708473206,
	"mean_token_accuracy": 0.9089347124099731,
	"num_tokens": 677367.0,
	"step": 487
	},
	{
	"entropy": 0.18075726926326752,
	"epoch": 0.07525057825751735,
	"grad_norm": 1.7109375,
	"learning_rate": 3.311574755034796e-07,
	"loss": 0.19126133620738983,
	"mean_token_accuracy": 0.9318181872367859,
	"num_tokens": 678959.0,
	"step": 488
	},
	{
	"entropy": 0.23724618554115295,
	"epoch": 0.07540478026214341,
	"grad_norm": 2.25,
	"learning_rate": 3.0524769820044487e-07,
	"loss": 0.23674722015857697,
	"mean_token_accuracy": 0.9180327653884888,
	"num_tokens": 680248.0,
	"step": 489
	},
	{
	"entropy": 0.22051914036273956,
	"epoch": 0.07555898226676946,
	"grad_norm": 1.8828125,
	"learning_rate": 2.8038700137624495e-07,
	"loss": 0.2116030901670456,
	"mean_token_accuracy": 0.9300605058670044,
	"num_tokens": 681743.0,
	"step": 490
	},
	{
	"entropy": 0.1757911741733551,
	"epoch": 0.07571318427139553,
	"grad_norm": 1.6015625,
	"learning_rate": 2.5657644116100497e-07,
	"loss": 0.17098675668239594,
	"mean_token_accuracy": 0.9406231641769409,
	"num_tokens": 683452.0,
	"step": 491
	},
	{
	"entropy": 0.18268117308616638,
	"epoch": 0.07586738627602159,
	"grad_norm": 1.4140625,
	"learning_rate": 2.338170290730246e-07,
	"loss": 0.17703530192375183,
	"mean_token_accuracy": 0.9361584782600403,
	"num_tokens": 685277.0,
	"step": 492
	},
	{
	"entropy": 0.19099417328834534,
	"epoch": 0.07602158828064765,
	"grad_norm": 1.5,
	"learning_rate": 2.1210973197582085e-07,
	"loss": 0.19510860741138458,
	"mean_token_accuracy": 0.9316887855529785,
	"num_tokens": 686866.0,
	"step": 493
	},
	{
	"entropy": 0.21786467730998993,
	"epoch": 0.07617579028527371,
	"grad_norm": 2.078125,
	"learning_rate": 1.9145547203703597e-07,
	"loss": 0.2253967970609665,
	"mean_token_accuracy": 0.9227994084358215,
	"num_tokens": 688260.0,
	"step": 494
	},
	{
	"entropy": 0.22731785476207733,
	"epoch": 0.07632999228989977,
	"grad_norm": 1.8203125,
	"learning_rate": 1.7185512668927706e-07,
	"loss": 0.21878266334533691,
	"mean_token_accuracy": 0.9235293865203857,
	"num_tokens": 689628.0,
	"step": 495
	},
	{
	"entropy": 0.31587833166122437,
	"epoch": 0.07648419429452583,
	"grad_norm": 2.515625,
	"learning_rate": 1.533095285928432e-07,
	"loss": 0.31676945090293884,
	"mean_token_accuracy": 0.8903688788414001,
	"num_tokens": 690612.0,
	"step": 496
	},
	{
	"entropy": 0.22072257101535797,
	"epoch": 0.0766383962991519,
	"grad_norm": 1.875,
	"learning_rate": 1.3581946560033142e-07,
	"loss": 0.20424997806549072,
	"mean_token_accuracy": 0.9260969758033752,
	"num_tokens": 691919.0,
	"step": 497
	},
	{
	"entropy": 0.2378959059715271,
	"epoch": 0.07679259830377795,
	"grad_norm": 2.125,
	"learning_rate": 1.1938568072319412e-07,
	"loss": 0.23960573971271515,
	"mean_token_accuracy": 0.908172607421875,
	"num_tokens": 693016.0,
	"step": 498
	},
	{
	"entropy": 0.18599998950958252,
	"epoch": 0.076946800308404,
	"grad_norm": 1.4453125,
	"learning_rate": 1.0400887210015586e-07,
	"loss": 0.17737571895122528,
	"mean_token_accuracy": 0.9337517619132996,
	"num_tokens": 694458.0,
	"step": 499
	},
	{
	"entropy": 0.1896909922361374,
	"epoch": 0.07710100231303008,
	"grad_norm": 1.5546875,
	"learning_rate": 8.968969296756224e-08,
	"loss": 0.1934422105550766,
	"mean_token_accuracy": 0.9257456064224243,
	"num_tokens": 696109.0,
	"step": 500
	},
	{
	"entropy": 0.18347270786762238,
	"epoch": 0.07725520431765613,
	"grad_norm": 1.5,
	"learning_rate": 7.642875163162977e-08,
	"loss": 0.17866890132427216,
	"mean_token_accuracy": 0.9312201142311096,
	"num_tokens": 697789.0,
	"step": 501
	},
	{
	"entropy": 0.27496322989463806,
	"epoch": 0.07740940632228219,
	"grad_norm": 2.375,
	"learning_rate": 6.422661144259989e-08,
	"loss": 0.2631693482398987,
	"mean_token_accuracy": 0.9099326729774475,
	"num_tokens": 698985.0,
	"step": 502
	},
	{
	"entropy": 0.21727091073989868,
	"epoch": 0.07756360832690826,
	"grad_norm": 1.984375,
	"learning_rate": 5.308379077080816e-08,
	"loss": 0.22967125475406647,
	"mean_token_accuracy": 0.9191842675209045,
	"num_tokens": 700317.0,
	"step": 503
	},
	{
	"entropy": 0.21876828372478485,
	"epoch": 0.07771781033153431,
	"grad_norm": 1.8359375,
	"learning_rate": 4.300076298466571e-08,
	"loss": 0.22112873196601868,
	"mean_token_accuracy": 0.9281525015830994,
	"num_tokens": 701689.0,
	"step": 504
	},
	{
	"entropy": 0.1745622456073761,
	"epoch": 0.07787201233616037,
	"grad_norm": 1.140625,
	"learning_rate": 3.3977956430547576e-08,
	"loss": 0.1722312867641449,
	"mean_token_accuracy": 0.9407705664634705,
	"num_tokens": 703436.0,
	"step": 505
	},
	{
	"entropy": 0.22518332302570343,
	"epoch": 0.07802621434078642,
	"grad_norm": 1.7421875,
	"learning_rate": 2.6015754414593363e-08,
	"loss": 0.22960630059242249,
	"mean_token_accuracy": 0.9271809458732605,
	"num_tokens": 704831.0,
	"step": 506
	},
	{
	"entropy": 0.2924734055995941,
	"epoch": 0.07818041634541249,
	"grad_norm": 2.609375,
	"learning_rate": 1.911449518643138e-08,
	"loss": 0.28948456048965454,
	"mean_token_accuracy": 0.8898043036460876,
	"num_tokens": 705810.0,
	"step": 507
	},
	{
	"entropy": 0.29374387860298157,
	"epoch": 0.07833461835003855,
	"grad_norm": 2.53125,
	"learning_rate": 1.3274471924798471e-08,
	"loss": 0.2914823293685913,
	"mean_token_accuracy": 0.9072463512420654,
	"num_tokens": 706853.0,
	"step": 508
	},
	{
	"entropy": 0.18828892707824707,
	"epoch": 0.0784888203546646,
	"grad_norm": 1.5390625,
	"learning_rate": 8.495932725094414e-09,
	"loss": 0.19034327566623688,
	"mean_token_accuracy": 0.9341492056846619,
	"num_tokens": 708577.0,
	"step": 509
	},
	{
	"entropy": 0.3254898488521576,
	"epoch": 0.07864302235929067,
	"grad_norm": 2.6875,
	"learning_rate": 4.779080588834806e-09,
	"loss": 0.3536283075809479,
	"mean_token_accuracy": 0.8856015801429749,
	"num_tokens": 709599.0,
	"step": 510
	},
	{
	"entropy": 0.19601193070411682,
	"epoch": 0.07879722436391673,
	"grad_norm": 1.71875,
	"learning_rate": 2.124073415030181e-09,
	"loss": 0.19777625799179077,
	"mean_token_accuracy": 0.9288975596427917,
	"num_tokens": 711140.0,
	"step": 511
	},
	{
	"entropy": 0.22275681793689728,
	"epoch": 0.07895142636854278,
	"grad_norm": 2.234375,
	"learning_rate": 5.310239934885885e-10,
	"loss": 0.23580928146839142,
	"mean_token_accuracy": 0.9170305728912354,
	"num_tokens": 712522.0,
	"step": 512
	},
	{
	"epoch": 0.07895142636854278,
	"eval_entropy": 0.22568650308408236,
	"eval_loss": 0.22544851899147034,
	"eval_mean_token_accuracy": 0.919665330160431,
	"eval_num_tokens": 712522.0,
	"eval_runtime": 34.9909,
	"eval_samples_per_second": 78.049,
	"eval_steps_per_second": 9.774,
	"step": 512
	}
	],
	"logging_steps": 1,
	"max_steps": 512,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 128,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4536491036033024e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}