Upload checkpoint-1500

af3bc52 verified 5 months ago

28 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.29329096908224367,
	"eval_steps": 500,
	"global_step": 1500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.2905268957838416,
	"epoch": 0.0031284370035439325,
	"grad_norm": 0.43689030408859253,
	"learning_rate": 9.999787808528638e-05,
	"loss": 1.7852,
	"mean_token_accuracy": 0.6027710330672562,
	"num_tokens": 524288.0,
	"step": 16
	},
	{
	"entropy": 1.3333816397935152,
	"epoch": 0.006256874007087865,
	"grad_norm": 0.5030925273895264,
	"learning_rate": 9.99909372761763e-05,
	"loss": 1.2521,
	"mean_token_accuracy": 0.6930539021268487,
	"num_tokens": 1048576.0,
	"step": 32
	},
	{
	"entropy": 0.8592402129434049,
	"epoch": 0.009385311010631798,
	"grad_norm": 0.17196309566497803,
	"learning_rate": 9.99791688121494e-05,
	"loss": 0.8735,
	"mean_token_accuracy": 0.789072047919035,
	"num_tokens": 1572864.0,
	"step": 48
	},
	{
	"entropy": 0.8306971751153469,
	"epoch": 0.01251374801417573,
	"grad_norm": 0.18978707492351532,
	"learning_rate": 9.996257382969333e-05,
	"loss": 0.8334,
	"mean_token_accuracy": 0.7984222243539989,
	"num_tokens": 2096964.0,
	"step": 64
	},
	{
	"entropy": 0.7896183831617236,
	"epoch": 0.015642185017719662,
	"grad_norm": 0.13939695060253143,
	"learning_rate": 9.994115393139555e-05,
	"loss": 0.7922,
	"mean_token_accuracy": 0.8059685812331736,
	"num_tokens": 2621252.0,
	"step": 80
	},
	{
	"entropy": 0.7537235538475215,
	"epoch": 0.018770622021263596,
	"grad_norm": 0.14827103912830353,
	"learning_rate": 9.991491118578856e-05,
	"loss": 0.7564,
	"mean_token_accuracy": 0.8114575678482652,
	"num_tokens": 3145540.0,
	"step": 96
	},
	{
	"entropy": 0.7533294446766376,
	"epoch": 0.02189905902480753,
	"grad_norm": 0.14420101046562195,
	"learning_rate": 9.988384812715006e-05,
	"loss": 0.7549,
	"mean_token_accuracy": 0.8126546451821923,
	"num_tokens": 3669828.0,
	"step": 112
	},
	{
	"entropy": 0.735235239379108,
	"epoch": 0.02502749602835146,
	"grad_norm": 0.15388034284114838,
	"learning_rate": 9.984796775525836e-05,
	"loss": 0.7378,
	"mean_token_accuracy": 0.813876539003104,
	"num_tokens": 4194116.0,
	"step": 128
	},
	{
	"entropy": 0.745816265232861,
	"epoch": 0.028155933031895394,
	"grad_norm": 0.16290415823459625,
	"learning_rate": 9.980727353510257e-05,
	"loss": 0.7469,
	"mean_token_accuracy": 0.8129773042164743,
	"num_tokens": 4718404.0,
	"step": 144
	},
	{
	"entropy": 0.7049960081931204,
	"epoch": 0.031284370035439324,
	"grad_norm": 0.16859838366508484,
	"learning_rate": 9.976176939654804e-05,
	"loss": 0.7068,
	"mean_token_accuracy": 0.8205063017085195,
	"num_tokens": 5242421.0,
	"step": 160
	},
	{
	"entropy": 0.7164251236245036,
	"epoch": 0.03441280703898326,
	"grad_norm": 0.18480005860328674,
	"learning_rate": 9.971145973395684e-05,
	"loss": 0.7162,
	"mean_token_accuracy": 0.8197130090557039,
	"num_tokens": 5766709.0,
	"step": 176
	},
	{
	"entropy": 0.7345189340412617,
	"epoch": 0.03754124404252719,
	"grad_norm": 0.20077235996723175,
	"learning_rate": 9.965634940576338e-05,
	"loss": 0.7373,
	"mean_token_accuracy": 0.8166410801932216,
	"num_tokens": 6290997.0,
	"step": 192
	},
	{
	"entropy": 0.6868870840407908,
	"epoch": 0.040669681046071125,
	"grad_norm": 0.19620533287525177,
	"learning_rate": 9.959644373400523e-05,
	"loss": 0.6877,
	"mean_token_accuracy": 0.8243126338347793,
	"num_tokens": 6814838.0,
	"step": 208
	},
	{
	"entropy": 0.7020489743445069,
	"epoch": 0.04379811804961506,
	"grad_norm": 0.21126843988895416,
	"learning_rate": 9.953174850380918e-05,
	"loss": 0.7008,
	"mean_token_accuracy": 0.8215000284835696,
	"num_tokens": 7339126.0,
	"step": 224
	},
	{
	"entropy": 0.6887436110991985,
	"epoch": 0.046926555053158986,
	"grad_norm": 0.20873498916625977,
	"learning_rate": 9.946226996283258e-05,
	"loss": 0.6878,
	"mean_token_accuracy": 0.825064530596137,
	"num_tokens": 7863414.0,
	"step": 240
	},
	{
	"entropy": 0.6778992149047554,
	"epoch": 0.05005499205670292,
	"grad_norm": 0.20576342940330505,
	"learning_rate": 9.938801482065998e-05,
	"loss": 0.6807,
	"mean_token_accuracy": 0.8253566385246813,
	"num_tokens": 8387702.0,
	"step": 256
	},
	{
	"entropy": 0.6773952257353812,
	"epoch": 0.05318342906024685,
	"grad_norm": 0.2139802724123001,
	"learning_rate": 9.930899024815517e-05,
	"loss": 0.6734,
	"mean_token_accuracy": 0.8275064108893275,
	"num_tokens": 8911990.0,
	"step": 272
	},
	{
	"entropy": 0.6875678761862218,
	"epoch": 0.05631186606379079,
	"grad_norm": 0.22833411395549774,
	"learning_rate": 9.922520387676868e-05,
	"loss": 0.6866,
	"mean_token_accuracy": 0.8259179475717247,
	"num_tokens": 9436278.0,
	"step": 288
	},
	{
	"entropy": 0.6587484122719616,
	"epoch": 0.05944030306733472,
	"grad_norm": 0.23073996603488922,
	"learning_rate": 9.91366637978009e-05,
	"loss": 0.6573,
	"mean_token_accuracy": 0.8297159126959741,
	"num_tokens": 9960272.0,
	"step": 304
	},
	{
	"entropy": 0.6715414742939174,
	"epoch": 0.06256874007087865,
	"grad_norm": 0.2512345612049103,
	"learning_rate": 9.904337856162053e-05,
	"loss": 0.6645,
	"mean_token_accuracy": 0.8285545711405575,
	"num_tokens": 10484560.0,
	"step": 320
	},
	{
	"entropy": 0.6463351501151919,
	"epoch": 0.06569717707442259,
	"grad_norm": 0.2298312485218048,
	"learning_rate": 9.894535717683902e-05,
	"loss": 0.6429,
	"mean_token_accuracy": 0.8320847055874765,
	"num_tokens": 11008848.0,
	"step": 336
	},
	{
	"entropy": 0.6667697406373918,
	"epoch": 0.06882561407796652,
	"grad_norm": 0.22004173696041107,
	"learning_rate": 9.884260910944053e-05,
	"loss": 0.6681,
	"mean_token_accuracy": 0.8278767997398973,
	"num_tokens": 11533136.0,
	"step": 352
	},
	{
	"entropy": 0.6179311077576131,
	"epoch": 0.07195405108151044,
	"grad_norm": 0.22624558210372925,
	"learning_rate": 9.873514428186778e-05,
	"loss": 0.6173,
	"mean_token_accuracy": 0.8369016530923545,
	"num_tokens": 12057424.0,
	"step": 368
	},
	{
	"entropy": 0.6683201459236443,
	"epoch": 0.07508248808505438,
	"grad_norm": 0.24455475807189941,
	"learning_rate": 9.862297307206392e-05,
	"loss": 0.667,
	"mean_token_accuracy": 0.828629030380398,
	"num_tokens": 12581712.0,
	"step": 384
	},
	{
	"entropy": 0.6426783930510283,
	"epoch": 0.07821092508859831,
	"grad_norm": 0.23066706955432892,
	"learning_rate": 9.850610631247019e-05,
	"loss": 0.6415,
	"mean_token_accuracy": 0.8333791512995958,
	"num_tokens": 13106000.0,
	"step": 400
	},
	{
	"entropy": 0.6531911985948682,
	"epoch": 0.08133936209214225,
	"grad_norm": 0.24164645373821259,
	"learning_rate": 9.838455528897998e-05,
	"loss": 0.6551,
	"mean_token_accuracy": 0.8303816900588572,
	"num_tokens": 13630288.0,
	"step": 416
	},
	{
	"entropy": 0.6194327082484961,
	"epoch": 0.08446779909568618,
	"grad_norm": 0.23268474638462067,
	"learning_rate": 9.82583317398488e-05,
	"loss": 0.6175,
	"mean_token_accuracy": 0.8367584650404751,
	"num_tokens": 14154576.0,
	"step": 432
	},
	{
	"entropy": 0.6329398893285543,
	"epoch": 0.08759623609923012,
	"grad_norm": 0.24408580362796783,
	"learning_rate": 9.81274478545608e-05,
	"loss": 0.6325,
	"mean_token_accuracy": 0.8347576032392681,
	"num_tokens": 14678864.0,
	"step": 448
	},
	{
	"entropy": 0.6229353230446577,
	"epoch": 0.09072467310277404,
	"grad_norm": 0.24314868450164795,
	"learning_rate": 9.79919162726516e-05,
	"loss": 0.6222,
	"mean_token_accuracy": 0.8371938765048981,
	"num_tokens": 15203026.0,
	"step": 464
	},
	{
	"entropy": 0.6139514590613544,
	"epoch": 0.09385311010631797,
	"grad_norm": 0.25224220752716064,
	"learning_rate": 9.785175008248768e-05,
	"loss": 0.614,
	"mean_token_accuracy": 0.838007087353617,
	"num_tokens": 15727314.0,
	"step": 480
	},
	{
	"entropy": 0.6109699255321175,
	"epoch": 0.09698154710986191,
	"grad_norm": 0.24364836513996124,
	"learning_rate": 9.770696282000244e-05,
	"loss": 0.6106,
	"mean_token_accuracy": 0.8386371252126992,
	"num_tokens": 16251602.0,
	"step": 496
	},
	{
	"entropy": 0.6176430773921311,
	"epoch": 0.10010998411340584,
	"grad_norm": 0.2621923089027405,
	"learning_rate": 9.755756846738902e-05,
	"loss": 0.615,
	"mean_token_accuracy": 0.8376702214591205,
	"num_tokens": 16775637.0,
	"step": 512
	},
	{
	"entropy": 0.6160387259442359,
	"epoch": 0.10323842111694978,
	"grad_norm": 0.2385210245847702,
	"learning_rate": 9.740358145174998e-05,
	"loss": 0.6184,
	"mean_token_accuracy": 0.8375125988386571,
	"num_tokens": 17299925.0,
	"step": 528
	},
	{
	"entropy": 0.6175491204485297,
	"epoch": 0.1063668581204937,
	"grad_norm": 0.2511584460735321,
	"learning_rate": 9.724501664370418e-05,
	"loss": 0.617,
	"mean_token_accuracy": 0.8368921047076583,
	"num_tokens": 17824213.0,
	"step": 544
	},
	{
	"entropy": 0.6241217039059848,
	"epoch": 0.10949529512403763,
	"grad_norm": 0.25787243247032166,
	"learning_rate": 9.708188935595059e-05,
	"loss": 0.6254,
	"mean_token_accuracy": 0.8372699371539056,
	"num_tokens": 18348187.0,
	"step": 560
	},
	{
	"entropy": 0.6261336030438542,
	"epoch": 0.11262373212758157,
	"grad_norm": 0.2410293072462082,
	"learning_rate": 9.691421534178966e-05,
	"loss": 0.6246,
	"mean_token_accuracy": 0.8367050038650632,
	"num_tokens": 18872475.0,
	"step": 576
	},
	{
	"entropy": 0.6158532982226461,
	"epoch": 0.1157521691311255,
	"grad_norm": 0.25348979234695435,
	"learning_rate": 9.674201079360188e-05,
	"loss": 0.6152,
	"mean_token_accuracy": 0.8399296645075083,
	"num_tokens": 19396763.0,
	"step": 592
	},
	{
	"entropy": 0.601322092814371,
	"epoch": 0.11888060613466944,
	"grad_norm": 0.2700308859348297,
	"learning_rate": 9.656529234128418e-05,
	"loss": 0.6021,
	"mean_token_accuracy": 0.8411092776805162,
	"num_tokens": 19920930.0,
	"step": 608
	},
	{
	"entropy": 0.6039648232981563,
	"epoch": 0.12200904313821337,
	"grad_norm": 0.24755984544754028,
	"learning_rate": 9.638407705064392e-05,
	"loss": 0.6039,
	"mean_token_accuracy": 0.8405463420785964,
	"num_tokens": 20445218.0,
	"step": 624
	},
	{
	"entropy": 0.608759083552286,
	"epoch": 0.1251374801417573,
	"grad_norm": 0.26475900411605835,
	"learning_rate": 9.619838242175083e-05,
	"loss": 0.6077,
	"mean_token_accuracy": 0.8407429889775813,
	"num_tokens": 20969506.0,
	"step": 640
	},
	{
	"entropy": 0.5959294943604618,
	"epoch": 0.12826591714530122,
	"grad_norm": 0.24157044291496277,
	"learning_rate": 9.600822638724705e-05,
	"loss": 0.5964,
	"mean_token_accuracy": 0.8421691716648638,
	"num_tokens": 21493794.0,
	"step": 656
	},
	{
	"entropy": 0.5929773084353656,
	"epoch": 0.13139435414884518,
	"grad_norm": 0.2490786910057068,
	"learning_rate": 9.581362731061536e-05,
	"loss": 0.5924,
	"mean_token_accuracy": 0.8422665409743786,
	"num_tokens": 22018082.0,
	"step": 672
	},
	{
	"entropy": 0.5856014562305063,
	"epoch": 0.1345227911523891,
	"grad_norm": 0.26487597823143005,
	"learning_rate": 9.561460398440577e-05,
	"loss": 0.5845,
	"mean_token_accuracy": 0.8448229790665209,
	"num_tokens": 22542370.0,
	"step": 688
	},
	{
	"entropy": 0.5972939203493297,
	"epoch": 0.13765122815593303,
	"grad_norm": 0.2536788582801819,
	"learning_rate": 9.54111756284207e-05,
	"loss": 0.5979,
	"mean_token_accuracy": 0.8417689246125519,
	"num_tokens": 23066518.0,
	"step": 704
	},
	{
	"entropy": 0.5793864431325346,
	"epoch": 0.14077966515947696,
	"grad_norm": 0.2498546540737152,
	"learning_rate": 9.520336188785905e-05,
	"loss": 0.5797,
	"mean_token_accuracy": 0.8449356239289045,
	"num_tokens": 23590806.0,
	"step": 720
	},
	{
	"entropy": 0.5852908829692751,
	"epoch": 0.14390810216302088,
	"grad_norm": 0.2533164322376251,
	"learning_rate": 9.499118283141887e-05,
	"loss": 0.5851,
	"mean_token_accuracy": 0.8440230167470872,
	"num_tokens": 24115094.0,
	"step": 736
	},
	{
	"entropy": 0.5853700931183994,
	"epoch": 0.14703653916656484,
	"grad_norm": 0.2594294250011444,
	"learning_rate": 9.477465894935939e-05,
	"loss": 0.5833,
	"mean_token_accuracy": 0.8439973699860275,
	"num_tokens": 24638793.0,
	"step": 752
	},
	{
	"entropy": 0.5820769551210105,
	"epoch": 0.15016497617010877,
	"grad_norm": 0.26996445655822754,
	"learning_rate": 9.455381115152234e-05,
	"loss": 0.5813,
	"mean_token_accuracy": 0.84427694324404,
	"num_tokens": 25163081.0,
	"step": 768
	},
	{
	"entropy": 0.5865267035551369,
	"epoch": 0.1532934131736527,
	"grad_norm": 0.2632192075252533,
	"learning_rate": 9.432866076531248e-05,
	"loss": 0.5865,
	"mean_token_accuracy": 0.843591536860913,
	"num_tokens": 25687369.0,
	"step": 784
	},
	{
	"entropy": 0.5832636400591582,
	"epoch": 0.15642185017719662,
	"grad_norm": 0.2748562693595886,
	"learning_rate": 9.409922953363824e-05,
	"loss": 0.5814,
	"mean_token_accuracy": 0.8445194149389863,
	"num_tokens": 26211657.0,
	"step": 800
	},
	{
	"entropy": 0.5827851279173046,
	"epoch": 0.15955028718074055,
	"grad_norm": 0.27480757236480713,
	"learning_rate": 9.386553961281179e-05,
	"loss": 0.5829,
	"mean_token_accuracy": 0.8449146216735244,
	"num_tokens": 26735945.0,
	"step": 816
	},
	{
	"entropy": 0.5730462830979377,
	"epoch": 0.1626787241842845,
	"grad_norm": 0.26577237248420715,
	"learning_rate": 9.362761357040956e-05,
	"loss": 0.5748,
	"mean_token_accuracy": 0.8454892951995134,
	"num_tokens": 27260233.0,
	"step": 832
	},
	{
	"entropy": 0.5673604859039187,
	"epoch": 0.16580716118782843,
	"grad_norm": 0.27280473709106445,
	"learning_rate": 9.338547438309269e-05,
	"loss": 0.5659,
	"mean_token_accuracy": 0.8469823002815247,
	"num_tokens": 27784521.0,
	"step": 848
	},
	{
	"entropy": 0.5737447079736739,
	"epoch": 0.16893559819137235,
	"grad_norm": 0.243574321269989,
	"learning_rate": 9.313914543438835e-05,
	"loss": 0.5735,
	"mean_token_accuracy": 0.8462529699318111,
	"num_tokens": 28308797.0,
	"step": 864
	},
	{
	"entropy": 0.5753675031010062,
	"epoch": 0.17206403519491628,
	"grad_norm": 0.2583043575286865,
	"learning_rate": 9.288865051243142e-05,
	"loss": 0.5747,
	"mean_token_accuracy": 0.8464267165400088,
	"num_tokens": 28833085.0,
	"step": 880
	},
	{
	"entropy": 0.5841653808020055,
	"epoch": 0.17519247219846024,
	"grad_norm": 0.2513315677642822,
	"learning_rate": 9.263401380766739e-05,
	"loss": 0.5837,
	"mean_token_accuracy": 0.8444525892846286,
	"num_tokens": 29357373.0,
	"step": 896
	},
	{
	"entropy": 0.5843619098886847,
	"epoch": 0.17832090920200416,
	"grad_norm": 0.2498634308576584,
	"learning_rate": 9.237525991051615e-05,
	"loss": 0.5848,
	"mean_token_accuracy": 0.8453418002463877,
	"num_tokens": 29881380.0,
	"step": 912
	},
	{
	"entropy": 0.5886711834464222,
	"epoch": 0.1814493462055481,
	"grad_norm": 0.25676679611206055,
	"learning_rate": 9.211241380899739e-05,
	"loss": 0.589,
	"mean_token_accuracy": 0.8431676919572055,
	"num_tokens": 30405668.0,
	"step": 928
	},
	{
	"entropy": 0.5667355505283922,
	"epoch": 0.18457778320909202,
	"grad_norm": 0.2631304860115051,
	"learning_rate": 9.184550088631741e-05,
	"loss": 0.5636,
	"mean_token_accuracy": 0.8479502676054835,
	"num_tokens": 30929956.0,
	"step": 944
	},
	{
	"entropy": 0.5632404731586576,
	"epoch": 0.18770622021263594,
	"grad_norm": 0.24389183521270752,
	"learning_rate": 9.157454691841789e-05,
	"loss": 0.5652,
	"mean_token_accuracy": 0.8481321800500154,
	"num_tokens": 31453452.0,
	"step": 960
	},
	{
	"entropy": 0.5674644499085844,
	"epoch": 0.1908346572161799,
	"grad_norm": 0.25306281447410583,
	"learning_rate": 9.129957807148666e-05,
	"loss": 0.5651,
	"mean_token_accuracy": 0.8487979606725276,
	"num_tokens": 31977740.0,
	"step": 976
	},
	{
	"entropy": 0.5516653840895742,
	"epoch": 0.19396309421972383,
	"grad_norm": 0.26283109188079834,
	"learning_rate": 9.102062089943086e-05,
	"loss": 0.5535,
	"mean_token_accuracy": 0.8500809515826404,
	"num_tokens": 32502028.0,
	"step": 992
	},
	{
	"entropy": 0.561382147250697,
	"epoch": 0.19709153122326775,
	"grad_norm": 0.25755682587623596,
	"learning_rate": 9.07377023413126e-05,
	"loss": 0.5586,
	"mean_token_accuracy": 0.8493707147426903,
	"num_tokens": 33025959.0,
	"step": 1008
	},
	{
	"entropy": 0.5676966737955809,
	"epoch": 0.20021996822681168,
	"grad_norm": 0.25775137543678284,
	"learning_rate": 9.045084971874738e-05,
	"loss": 0.5671,
	"mean_token_accuracy": 0.847740254830569,
	"num_tokens": 33550247.0,
	"step": 1024
	},
	{
	"entropy": 0.5602117348462343,
	"epoch": 0.2033484052303556,
	"grad_norm": 0.25713664293289185,
	"learning_rate": 9.016009073326571e-05,
	"loss": 0.5619,
	"mean_token_accuracy": 0.8491683504544199,
	"num_tokens": 34074535.0,
	"step": 1040
	},
	{
	"entropy": 0.58018215931952,
	"epoch": 0.20647684223389956,
	"grad_norm": 0.2585735619068146,
	"learning_rate": 8.986545346363792e-05,
	"loss": 0.5792,
	"mean_token_accuracy": 0.8453449127264321,
	"num_tokens": 34598649.0,
	"step": 1056
	},
	{
	"entropy": 0.5575782191008329,
	"epoch": 0.2096052792374435,
	"grad_norm": 0.2617577612400055,
	"learning_rate": 8.956696636316255e-05,
	"loss": 0.5558,
	"mean_token_accuracy": 0.8505983497016132,
	"num_tokens": 35122937.0,
	"step": 1072
	},
	{
	"entropy": 0.5580868402030319,
	"epoch": 0.2127337162409874,
	"grad_norm": 0.2838793992996216,
	"learning_rate": 8.926465825691865e-05,
	"loss": 0.5585,
	"mean_token_accuracy": 0.8499568556435406,
	"num_tokens": 35647225.0,
	"step": 1088
	},
	{
	"entropy": 0.571673326427117,
	"epoch": 0.21586215324453134,
	"grad_norm": 0.26587942242622375,
	"learning_rate": 8.895855833898207e-05,
	"loss": 0.5705,
	"mean_token_accuracy": 0.8471988807432353,
	"num_tokens": 36171427.0,
	"step": 1104
	},
	{
	"entropy": 0.568238423904404,
	"epoch": 0.21899059024807527,
	"grad_norm": 0.24594295024871826,
	"learning_rate": 8.864869616960625e-05,
	"loss": 0.5682,
	"mean_token_accuracy": 0.8479999089613557,
	"num_tokens": 36695715.0,
	"step": 1120
	},
	{
	"entropy": 0.5731002090033144,
	"epoch": 0.22211902725161922,
	"grad_norm": 0.25455793738365173,
	"learning_rate": 8.833510167236747e-05,
	"loss": 0.5732,
	"mean_token_accuracy": 0.8478013505227864,
	"num_tokens": 37220003.0,
	"step": 1136
	},
	{
	"entropy": 0.5481538840103894,
	"epoch": 0.22524746425516315,
	"grad_norm": 0.26975589990615845,
	"learning_rate": 8.801780513127513e-05,
	"loss": 0.5475,
	"mean_token_accuracy": 0.8506444320082664,
	"num_tokens": 37743882.0,
	"step": 1152
	},
	{
	"entropy": 0.5527894860133529,
	"epoch": 0.22837590125870708,
	"grad_norm": 0.2522968053817749,
	"learning_rate": 8.769683718784734e-05,
	"loss": 0.5516,
	"mean_token_accuracy": 0.8505086144432425,
	"num_tokens": 38268170.0,
	"step": 1168
	},
	{
	"entropy": 0.5540862991474569,
	"epoch": 0.231504338262251,
	"grad_norm": 0.2609933912754059,
	"learning_rate": 8.737222883815164e-05,
	"loss": 0.5526,
	"mean_token_accuracy": 0.8506460795179009,
	"num_tokens": 38792458.0,
	"step": 1184
	},
	{
	"entropy": 0.555841225432232,
	"epoch": 0.23463277526579493,
	"grad_norm": 0.2725919187068939,
	"learning_rate": 8.704401142981184e-05,
	"loss": 0.5554,
	"mean_token_accuracy": 0.8496399251744151,
	"num_tokens": 39316746.0,
	"step": 1200
	},
	{
	"entropy": 0.5415672848466784,
	"epoch": 0.23776121226933888,
	"grad_norm": 0.2661166191101074,
	"learning_rate": 8.671221665898073e-05,
	"loss": 0.5435,
	"mean_token_accuracy": 0.8517133295536041,
	"num_tokens": 39841034.0,
	"step": 1216
	},
	{
	"entropy": 0.5415612279903144,
	"epoch": 0.2408896492728828,
	"grad_norm": 0.25321218371391296,
	"learning_rate": 8.637687656727913e-05,
	"loss": 0.5406,
	"mean_token_accuracy": 0.8533380702137947,
	"num_tokens": 40365322.0,
	"step": 1232
	},
	{
	"entropy": 0.5538674369454384,
	"epoch": 0.24401808627642674,
	"grad_norm": 0.2791917622089386,
	"learning_rate": 8.60380235387016e-05,
	"loss": 0.5518,
	"mean_token_accuracy": 0.8515777760185301,
	"num_tokens": 40889610.0,
	"step": 1248
	},
	{
	"entropy": 0.5463056627195328,
	"epoch": 0.24714652327997066,
	"grad_norm": 0.2911370098590851,
	"learning_rate": 8.569569029648923e-05,
	"loss": 0.5462,
	"mean_token_accuracy": 0.8518756083212793,
	"num_tokens": 41413898.0,
	"step": 1264
	},
	{
	"entropy": 0.5479311102535576,
	"epoch": 0.2502749602835146,
	"grad_norm": 0.26030269265174866,
	"learning_rate": 8.53499098999693e-05,
	"loss": 0.5497,
	"mean_token_accuracy": 0.8511806610040367,
	"num_tokens": 41938186.0,
	"step": 1280
	},
	{
	"entropy": 0.5538808973506093,
	"epoch": 0.2534033972870585,
	"grad_norm": 0.26965585350990295,
	"learning_rate": 8.500071574136295e-05,
	"loss": 0.5537,
	"mean_token_accuracy": 0.8513314896263182,
	"num_tokens": 42462474.0,
	"step": 1296
	},
	{
	"entropy": 0.5512072397395968,
	"epoch": 0.25653183429060245,
	"grad_norm": 0.24840131402015686,
	"learning_rate": 8.46481415425604e-05,
	"loss": 0.5487,
	"mean_token_accuracy": 0.8515388667583466,
	"num_tokens": 42986398.0,
	"step": 1312
	},
	{
	"entropy": 0.5752683402970433,
	"epoch": 0.2596602712941464,
	"grad_norm": 0.26552262902259827,
	"learning_rate": 8.429222135186427e-05,
	"loss": 0.5776,
	"mean_token_accuracy": 0.8456897586584091,
	"num_tokens": 43510686.0,
	"step": 1328
	},
	{
	"entropy": 0.5338181289844215,
	"epoch": 0.26278870829769035,
	"grad_norm": 0.2537406086921692,
	"learning_rate": 8.393298954070178e-05,
	"loss": 0.5323,
	"mean_token_accuracy": 0.8548826249316335,
	"num_tokens": 44034974.0,
	"step": 1344
	},
	{
	"entropy": 0.5521234918851405,
	"epoch": 0.2659171453012343,
	"grad_norm": 0.2752557098865509,
	"learning_rate": 8.357048080030522e-05,
	"loss": 0.5512,
	"mean_token_accuracy": 0.851849777624011,
	"num_tokens": 44559253.0,
	"step": 1360
	},
	{
	"entropy": 0.5413030001800507,
	"epoch": 0.2690455823047782,
	"grad_norm": 0.2753056585788727,
	"learning_rate": 8.320473013836196e-05,
	"loss": 0.5387,
	"mean_token_accuracy": 0.8531146934255958,
	"num_tokens": 45083541.0,
	"step": 1376
	},
	{
	"entropy": 0.5636138301342726,
	"epoch": 0.27217401930832213,
	"grad_norm": 0.2751758396625519,
	"learning_rate": 8.283577287563367e-05,
	"loss": 0.5662,
	"mean_token_accuracy": 0.8482500137761235,
	"num_tokens": 45607829.0,
	"step": 1392
	},
	{
	"entropy": 0.5462560928426683,
	"epoch": 0.27530245631186606,
	"grad_norm": 0.2786915898323059,
	"learning_rate": 8.246364464254539e-05,
	"loss": 0.5458,
	"mean_token_accuracy": 0.8512360248714685,
	"num_tokens": 46132117.0,
	"step": 1408
	},
	{
	"entropy": 0.5498062786646187,
	"epoch": 0.27843089331541,
	"grad_norm": 0.28462111949920654,
	"learning_rate": 8.20883813757447e-05,
	"loss": 0.5479,
	"mean_token_accuracy": 0.851142474450171,
	"num_tokens": 46656405.0,
	"step": 1424
	},
	{
	"entropy": 0.561028536176309,
	"epoch": 0.2815593303189539,
	"grad_norm": 0.28582215309143066,
	"learning_rate": 8.171001931463122e-05,
	"loss": 0.56,
	"mean_token_accuracy": 0.8496361062861979,
	"num_tokens": 47180693.0,
	"step": 1440
	},
	{
	"entropy": 0.5402022732887417,
	"epoch": 0.28468776732249784,
	"grad_norm": 0.25975897908210754,
	"learning_rate": 8.132859499785707e-05,
	"loss": 0.5393,
	"mean_token_accuracy": 0.8542964975349605,
	"num_tokens": 47704981.0,
	"step": 1456
	},
	{
	"entropy": 0.5573246807325631,
	"epoch": 0.28781620432604177,
	"grad_norm": 0.2716176211833954,
	"learning_rate": 8.094414525979822e-05,
	"loss": 0.56,
	"mean_token_accuracy": 0.8493000832386315,
	"num_tokens": 48229269.0,
	"step": 1472
	},
	{
	"entropy": 0.5363587085157633,
	"epoch": 0.29094464132958575,
	"grad_norm": 0.26990601420402527,
	"learning_rate": 8.055670722699736e-05,
	"loss": 0.5353,
	"mean_token_accuracy": 0.8545466028153896,
	"num_tokens": 48753557.0,
	"step": 1488
	}
	],
	"logging_steps": 16,
	"max_steps": 5115,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.1754438561418445e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}