sublim-phase4-combo-01 / trainer_state.json

Upload final checkpoint (checkpoint-804)

89099d4 verified about 1 month ago

231 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 804,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.1308949291706085,
	"epoch": 0.0037313432835820895,
	"grad_norm": 1.683108925819397,
	"learning_rate": 0.0002,
	"loss": 2.489936590194702,
	"mean_token_accuracy": 0.5359140038490295,
	"num_tokens": 16356.0,
	"step": 1
	},
	{
	"entropy": 1.2256053388118744,
	"epoch": 0.007462686567164179,
	"grad_norm": 1.5088376998901367,
	"learning_rate": 0.0002,
	"loss": 2.162245273590088,
	"mean_token_accuracy": 0.5673863738775253,
	"num_tokens": 32718.0,
	"step": 2
	},
	{
	"entropy": 1.4011717438697815,
	"epoch": 0.011194029850746268,
	"grad_norm": 1.1495057344436646,
	"learning_rate": 0.0002,
	"loss": 1.7410045862197876,
	"mean_token_accuracy": 0.5877877026796341,
	"num_tokens": 49086.0,
	"step": 3
	},
	{
	"entropy": 1.3629191517829895,
	"epoch": 0.014925373134328358,
	"grad_norm": 0.909584105014801,
	"learning_rate": 0.0002,
	"loss": 1.410053014755249,
	"mean_token_accuracy": 0.6416480243206024,
	"num_tokens": 65483.0,
	"step": 4
	},
	{
	"entropy": 1.345184564590454,
	"epoch": 0.018656716417910446,
	"grad_norm": 1.1788593530654907,
	"learning_rate": 0.0002,
	"loss": 1.2843377590179443,
	"mean_token_accuracy": 0.6425914913415909,
	"num_tokens": 81705.0,
	"step": 5
	},
	{
	"entropy": 1.2523848712444305,
	"epoch": 0.022388059701492536,
	"grad_norm": 0.7064197659492493,
	"learning_rate": 0.0002,
	"loss": 1.175342082977295,
	"mean_token_accuracy": 0.6635853946208954,
	"num_tokens": 97918.0,
	"step": 6
	},
	{
	"entropy": 1.199697583913803,
	"epoch": 0.026119402985074626,
	"grad_norm": 0.4158240854740143,
	"learning_rate": 0.0002,
	"loss": 1.1010812520980835,
	"mean_token_accuracy": 0.6607878506183624,
	"num_tokens": 114455.0,
	"step": 7
	},
	{
	"entropy": 1.0897426307201385,
	"epoch": 0.029850746268656716,
	"grad_norm": 0.4258277118206024,
	"learning_rate": 0.0002,
	"loss": 1.0245436429977417,
	"mean_token_accuracy": 0.682918444275856,
	"num_tokens": 130921.0,
	"step": 8
	},
	{
	"entropy": 0.9851540327072144,
	"epoch": 0.033582089552238806,
	"grad_norm": 0.6931905150413513,
	"learning_rate": 0.0002,
	"loss": 0.972236692905426,
	"mean_token_accuracy": 0.690200999379158,
	"num_tokens": 147028.0,
	"step": 9
	},
	{
	"entropy": 0.9809075742959976,
	"epoch": 0.03731343283582089,
	"grad_norm": 0.4386370778083801,
	"learning_rate": 0.0002,
	"loss": 0.9174745082855225,
	"mean_token_accuracy": 0.6927480399608612,
	"num_tokens": 163432.0,
	"step": 10
	},
	{
	"entropy": 0.911684438586235,
	"epoch": 0.041044776119402986,
	"grad_norm": 4.369440078735352,
	"learning_rate": 0.0002,
	"loss": 0.8261430263519287,
	"mean_token_accuracy": 0.7205553501844406,
	"num_tokens": 179455.0,
	"step": 11
	},
	{
	"entropy": 0.8916845321655273,
	"epoch": 0.04477611940298507,
	"grad_norm": 0.5139093399047852,
	"learning_rate": 0.0002,
	"loss": 0.8168894648551941,
	"mean_token_accuracy": 0.714234933257103,
	"num_tokens": 195668.0,
	"step": 12
	},
	{
	"entropy": 0.8192363679409027,
	"epoch": 0.048507462686567165,
	"grad_norm": 0.5154215097427368,
	"learning_rate": 0.0002,
	"loss": 0.7735035419464111,
	"mean_token_accuracy": 0.7252469956874847,
	"num_tokens": 211417.0,
	"step": 13
	},
	{
	"entropy": 0.8060386925935745,
	"epoch": 0.05223880597014925,
	"grad_norm": 0.3869208097457886,
	"learning_rate": 0.0002,
	"loss": 0.7496379017829895,
	"mean_token_accuracy": 0.7249694466590881,
	"num_tokens": 228014.0,
	"step": 14
	},
	{
	"entropy": 0.7358367741107941,
	"epoch": 0.055970149253731345,
	"grad_norm": 0.3804072439670563,
	"learning_rate": 0.0002,
	"loss": 0.7129448652267456,
	"mean_token_accuracy": 0.7322827130556107,
	"num_tokens": 244548.0,
	"step": 15
	},
	{
	"entropy": 0.6891884654760361,
	"epoch": 0.05970149253731343,
	"grad_norm": 0.4262757897377014,
	"learning_rate": 0.0002,
	"loss": 0.7087160348892212,
	"mean_token_accuracy": 0.7325101941823959,
	"num_tokens": 260927.0,
	"step": 16
	},
	{
	"entropy": 0.6646793335676193,
	"epoch": 0.06343283582089553,
	"grad_norm": 0.3463515639305115,
	"learning_rate": 0.0002,
	"loss": 0.6711890697479248,
	"mean_token_accuracy": 0.743767574429512,
	"num_tokens": 277478.0,
	"step": 17
	},
	{
	"entropy": 0.6615253239870071,
	"epoch": 0.06716417910447761,
	"grad_norm": 0.3623281419277191,
	"learning_rate": 0.0002,
	"loss": 0.6425697803497314,
	"mean_token_accuracy": 0.7528071999549866,
	"num_tokens": 293828.0,
	"step": 18
	},
	{
	"entropy": 0.6510400027036667,
	"epoch": 0.0708955223880597,
	"grad_norm": 0.3351263701915741,
	"learning_rate": 0.0002,
	"loss": 0.6357494592666626,
	"mean_token_accuracy": 0.7543895989656448,
	"num_tokens": 309962.0,
	"step": 19
	},
	{
	"entropy": 0.6420271843671799,
	"epoch": 0.07462686567164178,
	"grad_norm": 0.3311758041381836,
	"learning_rate": 0.0002,
	"loss": 0.6307370662689209,
	"mean_token_accuracy": 0.7545324862003326,
	"num_tokens": 326597.0,
	"step": 20
	},
	{
	"entropy": 0.6174459308385849,
	"epoch": 0.07835820895522388,
	"grad_norm": 0.35250842571258545,
	"learning_rate": 0.0002,
	"loss": 0.6103197336196899,
	"mean_token_accuracy": 0.7592763751745224,
	"num_tokens": 342917.0,
	"step": 21
	},
	{
	"entropy": 0.6289893835783005,
	"epoch": 0.08208955223880597,
	"grad_norm": 0.25894996523857117,
	"learning_rate": 0.0002,
	"loss": 0.6157230734825134,
	"mean_token_accuracy": 0.7587940841913223,
	"num_tokens": 359567.0,
	"step": 22
	},
	{
	"entropy": 0.6118573248386383,
	"epoch": 0.08582089552238806,
	"grad_norm": 0.29135045409202576,
	"learning_rate": 0.0002,
	"loss": 0.6002258658409119,
	"mean_token_accuracy": 0.7654120922088623,
	"num_tokens": 375565.0,
	"step": 23
	},
	{
	"entropy": 0.5791880339384079,
	"epoch": 0.08955223880597014,
	"grad_norm": 0.2720821499824524,
	"learning_rate": 0.0002,
	"loss": 0.5813120603561401,
	"mean_token_accuracy": 0.7713776230812073,
	"num_tokens": 391864.0,
	"step": 24
	},
	{
	"entropy": 0.6053604930639267,
	"epoch": 0.09328358208955224,
	"grad_norm": 0.2560279667377472,
	"learning_rate": 0.0002,
	"loss": 0.6105175018310547,
	"mean_token_accuracy": 0.7615619450807571,
	"num_tokens": 408354.0,
	"step": 25
	},
	{
	"entropy": 0.5867195874452591,
	"epoch": 0.09701492537313433,
	"grad_norm": 0.22600652277469635,
	"learning_rate": 0.0002,
	"loss": 0.5860370993614197,
	"mean_token_accuracy": 0.7677419036626816,
	"num_tokens": 424712.0,
	"step": 26
	},
	{
	"entropy": 0.5918123573064804,
	"epoch": 0.10074626865671642,
	"grad_norm": 0.256405770778656,
	"learning_rate": 0.0002,
	"loss": 0.5865331888198853,
	"mean_token_accuracy": 0.7698597609996796,
	"num_tokens": 441249.0,
	"step": 27
	},
	{
	"entropy": 0.5696172267198563,
	"epoch": 0.1044776119402985,
	"grad_norm": 0.22032174468040466,
	"learning_rate": 0.0002,
	"loss": 0.5604762434959412,
	"mean_token_accuracy": 0.7779532968997955,
	"num_tokens": 457602.0,
	"step": 28
	},
	{
	"entropy": 0.5602490454912186,
	"epoch": 0.10820895522388059,
	"grad_norm": 0.20871949195861816,
	"learning_rate": 0.0002,
	"loss": 0.5587727427482605,
	"mean_token_accuracy": 0.7771614342927933,
	"num_tokens": 473785.0,
	"step": 29
	},
	{
	"entropy": 0.5850763767957687,
	"epoch": 0.11194029850746269,
	"grad_norm": 0.23072806000709534,
	"learning_rate": 0.0002,
	"loss": 0.5962345004081726,
	"mean_token_accuracy": 0.762176513671875,
	"num_tokens": 490054.0,
	"step": 30
	},
	{
	"entropy": 0.5698783695697784,
	"epoch": 0.11567164179104478,
	"grad_norm": 0.20846784114837646,
	"learning_rate": 0.0002,
	"loss": 0.5793903470039368,
	"mean_token_accuracy": 0.7701146155595779,
	"num_tokens": 506525.0,
	"step": 31
	},
	{
	"entropy": 0.5649833828210831,
	"epoch": 0.11940298507462686,
	"grad_norm": 0.20395582914352417,
	"learning_rate": 0.0002,
	"loss": 0.5709314942359924,
	"mean_token_accuracy": 0.7762356698513031,
	"num_tokens": 522952.0,
	"step": 32
	},
	{
	"entropy": 0.5790712088346481,
	"epoch": 0.12313432835820895,
	"grad_norm": 0.21085898578166962,
	"learning_rate": 0.0002,
	"loss": 0.5755910873413086,
	"mean_token_accuracy": 0.7691536694765091,
	"num_tokens": 539151.0,
	"step": 33
	},
	{
	"entropy": 0.5798842161893845,
	"epoch": 0.12686567164179105,
	"grad_norm": 0.1799822747707367,
	"learning_rate": 0.0002,
	"loss": 0.5749096274375916,
	"mean_token_accuracy": 0.7671291828155518,
	"num_tokens": 555566.0,
	"step": 34
	},
	{
	"entropy": 0.568429708480835,
	"epoch": 0.13059701492537312,
	"grad_norm": 0.21928845345973969,
	"learning_rate": 0.0002,
	"loss": 0.5717220306396484,
	"mean_token_accuracy": 0.771720290184021,
	"num_tokens": 572125.0,
	"step": 35
	},
	{
	"entropy": 0.5658127665519714,
	"epoch": 0.13432835820895522,
	"grad_norm": 0.22536930441856384,
	"learning_rate": 0.0002,
	"loss": 0.5656446218490601,
	"mean_token_accuracy": 0.7756934762001038,
	"num_tokens": 588539.0,
	"step": 36
	},
	{
	"entropy": 0.5779189765453339,
	"epoch": 0.13805970149253732,
	"grad_norm": 0.18143770098686218,
	"learning_rate": 0.0002,
	"loss": 0.5782102942466736,
	"mean_token_accuracy": 0.768736332654953,
	"num_tokens": 604927.0,
	"step": 37
	},
	{
	"entropy": 0.5695452243089676,
	"epoch": 0.1417910447761194,
	"grad_norm": 0.18897166848182678,
	"learning_rate": 0.0002,
	"loss": 0.5745816230773926,
	"mean_token_accuracy": 0.7676017582416534,
	"num_tokens": 621213.0,
	"step": 38
	},
	{
	"entropy": 0.5704480558633804,
	"epoch": 0.1455223880597015,
	"grad_norm": 0.20254790782928467,
	"learning_rate": 0.0002,
	"loss": 0.573440432548523,
	"mean_token_accuracy": 0.769940122961998,
	"num_tokens": 637694.0,
	"step": 39
	},
	{
	"entropy": 0.5526881515979767,
	"epoch": 0.14925373134328357,
	"grad_norm": 0.2001330703496933,
	"learning_rate": 0.0002,
	"loss": 0.5598679780960083,
	"mean_token_accuracy": 0.7767495959997177,
	"num_tokens": 653791.0,
	"step": 40
	},
	{
	"entropy": 0.572973906993866,
	"epoch": 0.15298507462686567,
	"grad_norm": 0.1802511364221573,
	"learning_rate": 0.0002,
	"loss": 0.5720363855361938,
	"mean_token_accuracy": 0.7737791240215302,
	"num_tokens": 669970.0,
	"step": 41
	},
	{
	"entropy": 0.5880100876092911,
	"epoch": 0.15671641791044777,
	"grad_norm": 0.190653994679451,
	"learning_rate": 0.0002,
	"loss": 0.5839952826499939,
	"mean_token_accuracy": 0.7667653411626816,
	"num_tokens": 686164.0,
	"step": 42
	},
	{
	"entropy": 0.5611717849969864,
	"epoch": 0.16044776119402984,
	"grad_norm": 0.18095986545085907,
	"learning_rate": 0.0002,
	"loss": 0.5529768466949463,
	"mean_token_accuracy": 0.7791769355535507,
	"num_tokens": 702271.0,
	"step": 43
	},
	{
	"entropy": 0.5776362270116806,
	"epoch": 0.16417910447761194,
	"grad_norm": 0.20184266567230225,
	"learning_rate": 0.0002,
	"loss": 0.572957456111908,
	"mean_token_accuracy": 0.772771418094635,
	"num_tokens": 718759.0,
	"step": 44
	},
	{
	"entropy": 0.5637746602296829,
	"epoch": 0.16791044776119404,
	"grad_norm": 0.16902145743370056,
	"learning_rate": 0.0002,
	"loss": 0.564084529876709,
	"mean_token_accuracy": 0.7736680209636688,
	"num_tokens": 735087.0,
	"step": 45
	},
	{
	"entropy": 0.5521982908248901,
	"epoch": 0.17164179104477612,
	"grad_norm": 0.16458934545516968,
	"learning_rate": 0.0002,
	"loss": 0.5616670846939087,
	"mean_token_accuracy": 0.7762537449598312,
	"num_tokens": 751513.0,
	"step": 46
	},
	{
	"entropy": 0.5518182516098022,
	"epoch": 0.17537313432835822,
	"grad_norm": 0.22303543984889984,
	"learning_rate": 0.0002,
	"loss": 0.5712406039237976,
	"mean_token_accuracy": 0.7692597359418869,
	"num_tokens": 767651.0,
	"step": 47
	},
	{
	"entropy": 0.5570991486310959,
	"epoch": 0.1791044776119403,
	"grad_norm": 0.1629144549369812,
	"learning_rate": 0.0002,
	"loss": 0.5624895095825195,
	"mean_token_accuracy": 0.7735912799835205,
	"num_tokens": 783757.0,
	"step": 48
	},
	{
	"entropy": 0.549803838133812,
	"epoch": 0.1828358208955224,
	"grad_norm": 0.1366954892873764,
	"learning_rate": 0.0002,
	"loss": 0.5442911982536316,
	"mean_token_accuracy": 0.7778248488903046,
	"num_tokens": 800127.0,
	"step": 49
	},
	{
	"entropy": 0.5679125189781189,
	"epoch": 0.1865671641791045,
	"grad_norm": 0.1564488559961319,
	"learning_rate": 0.0002,
	"loss": 0.5563010573387146,
	"mean_token_accuracy": 0.7781310826539993,
	"num_tokens": 816490.0,
	"step": 50
	},
	{
	"entropy": 0.5595380216836929,
	"epoch": 0.19029850746268656,
	"grad_norm": 0.1663539558649063,
	"learning_rate": 0.0002,
	"loss": 0.5474997758865356,
	"mean_token_accuracy": 0.778365820646286,
	"num_tokens": 832576.0,
	"step": 51
	},
	{
	"entropy": 0.5542885512113571,
	"epoch": 0.19402985074626866,
	"grad_norm": 0.15933850407600403,
	"learning_rate": 0.0002,
	"loss": 0.5465819239616394,
	"mean_token_accuracy": 0.781011700630188,
	"num_tokens": 848529.0,
	"step": 52
	},
	{
	"entropy": 0.570631816983223,
	"epoch": 0.19776119402985073,
	"grad_norm": 0.15335530042648315,
	"learning_rate": 0.0002,
	"loss": 0.5733448266983032,
	"mean_token_accuracy": 0.7690710127353668,
	"num_tokens": 864787.0,
	"step": 53
	},
	{
	"entropy": 0.5657172054052353,
	"epoch": 0.20149253731343283,
	"grad_norm": 0.15320488810539246,
	"learning_rate": 0.0002,
	"loss": 0.5716187357902527,
	"mean_token_accuracy": 0.7727480232715607,
	"num_tokens": 881120.0,
	"step": 54
	},
	{
	"entropy": 0.5566735565662384,
	"epoch": 0.20522388059701493,
	"grad_norm": 0.174886554479599,
	"learning_rate": 0.0002,
	"loss": 0.5643004775047302,
	"mean_token_accuracy": 0.7743579894304276,
	"num_tokens": 897598.0,
	"step": 55
	},
	{
	"entropy": 0.5483224838972092,
	"epoch": 0.208955223880597,
	"grad_norm": 0.14539019763469696,
	"learning_rate": 0.0002,
	"loss": 0.5542981028556824,
	"mean_token_accuracy": 0.7777313590049744,
	"num_tokens": 913970.0,
	"step": 56
	},
	{
	"entropy": 0.5746322274208069,
	"epoch": 0.2126865671641791,
	"grad_norm": 0.1465657502412796,
	"learning_rate": 0.0002,
	"loss": 0.5676500201225281,
	"mean_token_accuracy": 0.7716732025146484,
	"num_tokens": 930515.0,
	"step": 57
	},
	{
	"entropy": 0.5645405799150467,
	"epoch": 0.21641791044776118,
	"grad_norm": 0.17157647013664246,
	"learning_rate": 0.0002,
	"loss": 0.554180383682251,
	"mean_token_accuracy": 0.7776309847831726,
	"num_tokens": 946699.0,
	"step": 58
	},
	{
	"entropy": 0.5437158495187759,
	"epoch": 0.22014925373134328,
	"grad_norm": 0.14779002964496613,
	"learning_rate": 0.0002,
	"loss": 0.5412948131561279,
	"mean_token_accuracy": 0.7830284535884857,
	"num_tokens": 962929.0,
	"step": 59
	},
	{
	"entropy": 0.5478496849536896,
	"epoch": 0.22388059701492538,
	"grad_norm": 0.16550469398498535,
	"learning_rate": 0.0002,
	"loss": 0.546680212020874,
	"mean_token_accuracy": 0.7801186293363571,
	"num_tokens": 979336.0,
	"step": 60
	},
	{
	"entropy": 0.5491016507148743,
	"epoch": 0.22761194029850745,
	"grad_norm": 0.17403647303581238,
	"learning_rate": 0.0002,
	"loss": 0.5650719404220581,
	"mean_token_accuracy": 0.7729975134134293,
	"num_tokens": 995774.0,
	"step": 61
	},
	{
	"entropy": 0.5622769743204117,
	"epoch": 0.23134328358208955,
	"grad_norm": 0.17750802636146545,
	"learning_rate": 0.0002,
	"loss": 0.5718308687210083,
	"mean_token_accuracy": 0.7699476927518845,
	"num_tokens": 1012510.0,
	"step": 62
	},
	{
	"entropy": 0.5333654135465622,
	"epoch": 0.23507462686567165,
	"grad_norm": 0.13930155336856842,
	"learning_rate": 0.0002,
	"loss": 0.5345954895019531,
	"mean_token_accuracy": 0.7855408787727356,
	"num_tokens": 1028613.0,
	"step": 63
	},
	{
	"entropy": 0.5784197896718979,
	"epoch": 0.23880597014925373,
	"grad_norm": 0.16901279985904694,
	"learning_rate": 0.0002,
	"loss": 0.56936115026474,
	"mean_token_accuracy": 0.7703966796398163,
	"num_tokens": 1045046.0,
	"step": 64
	},
	{
	"entropy": 0.5690423101186752,
	"epoch": 0.24253731343283583,
	"grad_norm": 0.16224578022956848,
	"learning_rate": 0.0002,
	"loss": 0.559661865234375,
	"mean_token_accuracy": 0.7719420939683914,
	"num_tokens": 1061419.0,
	"step": 65
	},
	{
	"entropy": 0.5822959691286087,
	"epoch": 0.2462686567164179,
	"grad_norm": 0.16501320898532867,
	"learning_rate": 0.0002,
	"loss": 0.5733515620231628,
	"mean_token_accuracy": 0.7682919055223465,
	"num_tokens": 1077724.0,
	"step": 66
	},
	{
	"entropy": 0.5663120746612549,
	"epoch": 0.25,
	"grad_norm": 0.15710598230361938,
	"learning_rate": 0.0002,
	"loss": 0.5739370584487915,
	"mean_token_accuracy": 0.7685963213443756,
	"num_tokens": 1094309.0,
	"step": 67
	},
	{
	"entropy": 0.5416915565729141,
	"epoch": 0.2537313432835821,
	"grad_norm": 0.1652906835079193,
	"learning_rate": 0.0002,
	"loss": 0.5546884536743164,
	"mean_token_accuracy": 0.7781604677438736,
	"num_tokens": 1110812.0,
	"step": 68
	},
	{
	"entropy": 0.5604560673236847,
	"epoch": 0.2574626865671642,
	"grad_norm": 0.1823517084121704,
	"learning_rate": 0.0002,
	"loss": 0.565848708152771,
	"mean_token_accuracy": 0.7732205092906952,
	"num_tokens": 1126983.0,
	"step": 69
	},
	{
	"entropy": 0.5681725591421127,
	"epoch": 0.26119402985074625,
	"grad_norm": 0.15536344051361084,
	"learning_rate": 0.0002,
	"loss": 0.5707790851593018,
	"mean_token_accuracy": 0.7711602002382278,
	"num_tokens": 1143690.0,
	"step": 70
	},
	{
	"entropy": 0.5554168075323105,
	"epoch": 0.26492537313432835,
	"grad_norm": 0.1691257208585739,
	"learning_rate": 0.0002,
	"loss": 0.5645061135292053,
	"mean_token_accuracy": 0.7751206457614899,
	"num_tokens": 1159930.0,
	"step": 71
	},
	{
	"entropy": 0.5698556303977966,
	"epoch": 0.26865671641791045,
	"grad_norm": 0.17756199836730957,
	"learning_rate": 0.0002,
	"loss": 0.5670963525772095,
	"mean_token_accuracy": 0.7744691073894501,
	"num_tokens": 1176287.0,
	"step": 72
	},
	{
	"entropy": 0.558213621377945,
	"epoch": 0.27238805970149255,
	"grad_norm": 0.14214132726192474,
	"learning_rate": 0.0002,
	"loss": 0.5565056204795837,
	"mean_token_accuracy": 0.7759946286678314,
	"num_tokens": 1192733.0,
	"step": 73
	},
	{
	"entropy": 0.5587260574102402,
	"epoch": 0.27611940298507465,
	"grad_norm": 0.1475045531988144,
	"learning_rate": 0.0002,
	"loss": 0.5534224510192871,
	"mean_token_accuracy": 0.7787353843450546,
	"num_tokens": 1209413.0,
	"step": 74
	},
	{
	"entropy": 0.5601568818092346,
	"epoch": 0.2798507462686567,
	"grad_norm": 0.17161411046981812,
	"learning_rate": 0.0002,
	"loss": 0.5623729825019836,
	"mean_token_accuracy": 0.773567259311676,
	"num_tokens": 1225838.0,
	"step": 75
	},
	{
	"entropy": 0.5421780049800873,
	"epoch": 0.2835820895522388,
	"grad_norm": 0.1444474756717682,
	"learning_rate": 0.0002,
	"loss": 0.5297126173973083,
	"mean_token_accuracy": 0.7893946915864944,
	"num_tokens": 1242213.0,
	"step": 76
	},
	{
	"entropy": 0.5718793421983719,
	"epoch": 0.2873134328358209,
	"grad_norm": 0.14322321116924286,
	"learning_rate": 0.0002,
	"loss": 0.5714331865310669,
	"mean_token_accuracy": 0.7688785791397095,
	"num_tokens": 1258461.0,
	"step": 77
	},
	{
	"entropy": 0.5419993549585342,
	"epoch": 0.291044776119403,
	"grad_norm": 0.1524474024772644,
	"learning_rate": 0.0002,
	"loss": 0.5490943193435669,
	"mean_token_accuracy": 0.779272273182869,
	"num_tokens": 1274449.0,
	"step": 78
	},
	{
	"entropy": 0.5585939884185791,
	"epoch": 0.2947761194029851,
	"grad_norm": 0.1510787457227707,
	"learning_rate": 0.0002,
	"loss": 0.5654528141021729,
	"mean_token_accuracy": 0.772942066192627,
	"num_tokens": 1290949.0,
	"step": 79
	},
	{
	"entropy": 0.563146710395813,
	"epoch": 0.29850746268656714,
	"grad_norm": 0.1482156217098236,
	"learning_rate": 0.0002,
	"loss": 0.5777900218963623,
	"mean_token_accuracy": 0.7702645510435104,
	"num_tokens": 1307187.0,
	"step": 80
	},
	{
	"entropy": 0.5600180923938751,
	"epoch": 0.30223880597014924,
	"grad_norm": 0.15022550523281097,
	"learning_rate": 0.0002,
	"loss": 0.5632287859916687,
	"mean_token_accuracy": 0.7716066837310791,
	"num_tokens": 1323407.0,
	"step": 81
	},
	{
	"entropy": 0.5598095804452896,
	"epoch": 0.30597014925373134,
	"grad_norm": 0.1322828084230423,
	"learning_rate": 0.0002,
	"loss": 0.5537106394767761,
	"mean_token_accuracy": 0.7764421850442886,
	"num_tokens": 1339664.0,
	"step": 82
	},
	{
	"entropy": 0.5458928942680359,
	"epoch": 0.30970149253731344,
	"grad_norm": 0.1319894790649414,
	"learning_rate": 0.0002,
	"loss": 0.5423555374145508,
	"mean_token_accuracy": 0.7807362526655197,
	"num_tokens": 1356260.0,
	"step": 83
	},
	{
	"entropy": 0.5659633129835129,
	"epoch": 0.31343283582089554,
	"grad_norm": 0.13246627151966095,
	"learning_rate": 0.0002,
	"loss": 0.557287335395813,
	"mean_token_accuracy": 0.7743117958307266,
	"num_tokens": 1372821.0,
	"step": 84
	},
	{
	"entropy": 0.5452462434768677,
	"epoch": 0.31716417910447764,
	"grad_norm": 0.16196919977664948,
	"learning_rate": 0.0002,
	"loss": 0.543107271194458,
	"mean_token_accuracy": 0.7795177549123764,
	"num_tokens": 1388889.0,
	"step": 85
	},
	{
	"entropy": 0.5466109812259674,
	"epoch": 0.3208955223880597,
	"grad_norm": 0.12639470398426056,
	"learning_rate": 0.0002,
	"loss": 0.5396162271499634,
	"mean_token_accuracy": 0.7834953665733337,
	"num_tokens": 1405139.0,
	"step": 86
	},
	{
	"entropy": 0.551815465092659,
	"epoch": 0.3246268656716418,
	"grad_norm": 0.18058188259601593,
	"learning_rate": 0.0002,
	"loss": 0.5637637972831726,
	"mean_token_accuracy": 0.7716487348079681,
	"num_tokens": 1421439.0,
	"step": 87
	},
	{
	"entropy": 0.543148547410965,
	"epoch": 0.3283582089552239,
	"grad_norm": 0.14002034068107605,
	"learning_rate": 0.0002,
	"loss": 0.549104630947113,
	"mean_token_accuracy": 0.7779115587472916,
	"num_tokens": 1437695.0,
	"step": 88
	},
	{
	"entropy": 0.5655066221952438,
	"epoch": 0.332089552238806,
	"grad_norm": 0.13395759463310242,
	"learning_rate": 0.0002,
	"loss": 0.5683454871177673,
	"mean_token_accuracy": 0.7728030234575272,
	"num_tokens": 1453991.0,
	"step": 89
	},
	{
	"entropy": 0.5676597952842712,
	"epoch": 0.3358208955223881,
	"grad_norm": 0.14229720830917358,
	"learning_rate": 0.0002,
	"loss": 0.5701878070831299,
	"mean_token_accuracy": 0.7698987573385239,
	"num_tokens": 1470371.0,
	"step": 90
	},
	{
	"entropy": 0.5576249063014984,
	"epoch": 0.33955223880597013,
	"grad_norm": 0.1365518420934677,
	"learning_rate": 0.0002,
	"loss": 0.560733437538147,
	"mean_token_accuracy": 0.7742054760456085,
	"num_tokens": 1486891.0,
	"step": 91
	},
	{
	"entropy": 0.5476901531219482,
	"epoch": 0.34328358208955223,
	"grad_norm": 0.12286433577537537,
	"learning_rate": 0.0002,
	"loss": 0.5540446639060974,
	"mean_token_accuracy": 0.7757776081562042,
	"num_tokens": 1503153.0,
	"step": 92
	},
	{
	"entropy": 0.5445209294557571,
	"epoch": 0.34701492537313433,
	"grad_norm": 0.13203619420528412,
	"learning_rate": 0.0002,
	"loss": 0.5416238903999329,
	"mean_token_accuracy": 0.7820428013801575,
	"num_tokens": 1519248.0,
	"step": 93
	},
	{
	"entropy": 0.5732006430625916,
	"epoch": 0.35074626865671643,
	"grad_norm": 0.14288392663002014,
	"learning_rate": 0.0002,
	"loss": 0.5734184980392456,
	"mean_token_accuracy": 0.7677003741264343,
	"num_tokens": 1535616.0,
	"step": 94
	},
	{
	"entropy": 0.5645585656166077,
	"epoch": 0.35447761194029853,
	"grad_norm": 0.1253618448972702,
	"learning_rate": 0.0002,
	"loss": 0.5549549460411072,
	"mean_token_accuracy": 0.7756840586662292,
	"num_tokens": 1552040.0,
	"step": 95
	},
	{
	"entropy": 0.5686955749988556,
	"epoch": 0.3582089552238806,
	"grad_norm": 0.12725889682769775,
	"learning_rate": 0.0002,
	"loss": 0.573272705078125,
	"mean_token_accuracy": 0.7684734165668488,
	"num_tokens": 1568381.0,
	"step": 96
	},
	{
	"entropy": 0.547907680273056,
	"epoch": 0.3619402985074627,
	"grad_norm": 0.13573119044303894,
	"learning_rate": 0.0002,
	"loss": 0.5526182055473328,
	"mean_token_accuracy": 0.7779877185821533,
	"num_tokens": 1584726.0,
	"step": 97
	},
	{
	"entropy": 0.5658805668354034,
	"epoch": 0.3656716417910448,
	"grad_norm": 0.13501696288585663,
	"learning_rate": 0.0002,
	"loss": 0.5696231722831726,
	"mean_token_accuracy": 0.7706904113292694,
	"num_tokens": 1601142.0,
	"step": 98
	},
	{
	"entropy": 0.5553559362888336,
	"epoch": 0.3694029850746269,
	"grad_norm": 0.12036850303411484,
	"learning_rate": 0.0002,
	"loss": 0.5520588159561157,
	"mean_token_accuracy": 0.7781549990177155,
	"num_tokens": 1617184.0,
	"step": 99
	},
	{
	"entropy": 0.5559379458427429,
	"epoch": 0.373134328358209,
	"grad_norm": 0.12556730210781097,
	"learning_rate": 0.0002,
	"loss": 0.5582664608955383,
	"mean_token_accuracy": 0.7744826525449753,
	"num_tokens": 1633573.0,
	"step": 100
	},
	{
	"entropy": 0.5321817249059677,
	"epoch": 0.376865671641791,
	"grad_norm": 0.1410171091556549,
	"learning_rate": 0.0002,
	"loss": 0.531158447265625,
	"mean_token_accuracy": 0.7867954224348068,
	"num_tokens": 1649580.0,
	"step": 101
	},
	{
	"entropy": 0.5629207491874695,
	"epoch": 0.3805970149253731,
	"grad_norm": 0.1320696920156479,
	"learning_rate": 0.0002,
	"loss": 0.5548203587532043,
	"mean_token_accuracy": 0.777129277586937,
	"num_tokens": 1665914.0,
	"step": 102
	},
	{
	"entropy": 0.5625062435865402,
	"epoch": 0.3843283582089552,
	"grad_norm": 0.15022383630275726,
	"learning_rate": 0.0002,
	"loss": 0.559231698513031,
	"mean_token_accuracy": 0.7755367606878281,
	"num_tokens": 1682572.0,
	"step": 103
	},
	{
	"entropy": 0.55105359852314,
	"epoch": 0.3880597014925373,
	"grad_norm": 0.13816320896148682,
	"learning_rate": 0.0002,
	"loss": 0.5513999462127686,
	"mean_token_accuracy": 0.7777303904294968,
	"num_tokens": 1698800.0,
	"step": 104
	},
	{
	"entropy": 0.5433051884174347,
	"epoch": 0.3917910447761194,
	"grad_norm": 0.13852182030677795,
	"learning_rate": 0.0002,
	"loss": 0.5473951101303101,
	"mean_token_accuracy": 0.7787780612707138,
	"num_tokens": 1715089.0,
	"step": 105
	},
	{
	"entropy": 0.5638341754674911,
	"epoch": 0.39552238805970147,
	"grad_norm": 0.13244302570819855,
	"learning_rate": 0.0002,
	"loss": 0.5711042284965515,
	"mean_token_accuracy": 0.7705479264259338,
	"num_tokens": 1731289.0,
	"step": 106
	},
	{
	"entropy": 0.5590131878852844,
	"epoch": 0.39925373134328357,
	"grad_norm": 0.14187560975551605,
	"learning_rate": 0.0002,
	"loss": 0.5588455200195312,
	"mean_token_accuracy": 0.775245189666748,
	"num_tokens": 1747777.0,
	"step": 107
	},
	{
	"entropy": 0.5456477552652359,
	"epoch": 0.40298507462686567,
	"grad_norm": 0.12155073136091232,
	"learning_rate": 0.0002,
	"loss": 0.5477449297904968,
	"mean_token_accuracy": 0.7793276309967041,
	"num_tokens": 1764099.0,
	"step": 108
	},
	{
	"entropy": 0.5533221960067749,
	"epoch": 0.40671641791044777,
	"grad_norm": 0.14932067692279816,
	"learning_rate": 0.0002,
	"loss": 0.550473153591156,
	"mean_token_accuracy": 0.7792102247476578,
	"num_tokens": 1780092.0,
	"step": 109
	},
	{
	"entropy": 0.5685938596725464,
	"epoch": 0.41044776119402987,
	"grad_norm": 0.11824015527963638,
	"learning_rate": 0.0002,
	"loss": 0.567302942276001,
	"mean_token_accuracy": 0.768885999917984,
	"num_tokens": 1796553.0,
	"step": 110
	},
	{
	"entropy": 0.558070957660675,
	"epoch": 0.4141791044776119,
	"grad_norm": 0.13145862519741058,
	"learning_rate": 0.0002,
	"loss": 0.5594078302383423,
	"mean_token_accuracy": 0.7714920043945312,
	"num_tokens": 1812976.0,
	"step": 111
	},
	{
	"entropy": 0.5445801764726639,
	"epoch": 0.417910447761194,
	"grad_norm": 0.1538373976945877,
	"learning_rate": 0.0002,
	"loss": 0.5507169365882874,
	"mean_token_accuracy": 0.7795748263597488,
	"num_tokens": 1829496.0,
	"step": 112
	},
	{
	"entropy": 0.5546134263277054,
	"epoch": 0.4216417910447761,
	"grad_norm": 0.14499837160110474,
	"learning_rate": 0.0002,
	"loss": 0.5621107816696167,
	"mean_token_accuracy": 0.772913932800293,
	"num_tokens": 1845899.0,
	"step": 113
	},
	{
	"entropy": 0.5376207381486893,
	"epoch": 0.4253731343283582,
	"grad_norm": 0.12395139783620834,
	"learning_rate": 0.0002,
	"loss": 0.5408076643943787,
	"mean_token_accuracy": 0.7826146930456161,
	"num_tokens": 1862102.0,
	"step": 114
	},
	{
	"entropy": 0.5709025114774704,
	"epoch": 0.4291044776119403,
	"grad_norm": 0.14900445938110352,
	"learning_rate": 0.0002,
	"loss": 0.5688319206237793,
	"mean_token_accuracy": 0.7712048441171646,
	"num_tokens": 1878466.0,
	"step": 115
	},
	{
	"entropy": 0.5531350374221802,
	"epoch": 0.43283582089552236,
	"grad_norm": 0.14944979548454285,
	"learning_rate": 0.0002,
	"loss": 0.5533212423324585,
	"mean_token_accuracy": 0.7762057036161423,
	"num_tokens": 1894613.0,
	"step": 116
	},
	{
	"entropy": 0.5613852292299271,
	"epoch": 0.43656716417910446,
	"grad_norm": 0.14122174680233002,
	"learning_rate": 0.0002,
	"loss": 0.5625326633453369,
	"mean_token_accuracy": 0.7721518725156784,
	"num_tokens": 1910791.0,
	"step": 117
	},
	{
	"entropy": 0.5606949478387833,
	"epoch": 0.44029850746268656,
	"grad_norm": 0.11353051662445068,
	"learning_rate": 0.0002,
	"loss": 0.5561124682426453,
	"mean_token_accuracy": 0.7774701118469238,
	"num_tokens": 1927342.0,
	"step": 118
	},
	{
	"entropy": 0.5748601853847504,
	"epoch": 0.44402985074626866,
	"grad_norm": 0.13328969478607178,
	"learning_rate": 0.0002,
	"loss": 0.5738563537597656,
	"mean_token_accuracy": 0.7660426646471024,
	"num_tokens": 1944009.0,
	"step": 119
	},
	{
	"entropy": 0.5331175327301025,
	"epoch": 0.44776119402985076,
	"grad_norm": 0.14304570853710175,
	"learning_rate": 0.0002,
	"loss": 0.535332441329956,
	"mean_token_accuracy": 0.7843142002820969,
	"num_tokens": 1960275.0,
	"step": 120
	},
	{
	"entropy": 0.5579216629266739,
	"epoch": 0.45149253731343286,
	"grad_norm": 0.12545879185199738,
	"learning_rate": 0.0002,
	"loss": 0.5590261220932007,
	"mean_token_accuracy": 0.7733252346515656,
	"num_tokens": 1976578.0,
	"step": 121
	},
	{
	"entropy": 0.5593921393156052,
	"epoch": 0.4552238805970149,
	"grad_norm": 0.13857485353946686,
	"learning_rate": 0.0002,
	"loss": 0.5631604194641113,
	"mean_token_accuracy": 0.7736008018255234,
	"num_tokens": 1993053.0,
	"step": 122
	},
	{
	"entropy": 0.5660806745290756,
	"epoch": 0.458955223880597,
	"grad_norm": 0.11944495886564255,
	"learning_rate": 0.0002,
	"loss": 0.5569764375686646,
	"mean_token_accuracy": 0.7737946212291718,
	"num_tokens": 2009442.0,
	"step": 123
	},
	{
	"entropy": 0.5681817382574081,
	"epoch": 0.4626865671641791,
	"grad_norm": 0.14172527194023132,
	"learning_rate": 0.0002,
	"loss": 0.5605779886245728,
	"mean_token_accuracy": 0.7750114947557449,
	"num_tokens": 2025901.0,
	"step": 124
	},
	{
	"entropy": 0.5467974990606308,
	"epoch": 0.4664179104477612,
	"grad_norm": 0.1252705603837967,
	"learning_rate": 0.0002,
	"loss": 0.5515766739845276,
	"mean_token_accuracy": 0.7760580778121948,
	"num_tokens": 2042208.0,
	"step": 125
	},
	{
	"entropy": 0.5420515686273575,
	"epoch": 0.4701492537313433,
	"grad_norm": 0.13870663940906525,
	"learning_rate": 0.0002,
	"loss": 0.5480060577392578,
	"mean_token_accuracy": 0.7764822095632553,
	"num_tokens": 2058681.0,
	"step": 126
	},
	{
	"entropy": 0.5362897217273712,
	"epoch": 0.47388059701492535,
	"grad_norm": 0.13995425403118134,
	"learning_rate": 0.0002,
	"loss": 0.5513206720352173,
	"mean_token_accuracy": 0.7750497758388519,
	"num_tokens": 2075000.0,
	"step": 127
	},
	{
	"entropy": 0.5329284965991974,
	"epoch": 0.47761194029850745,
	"grad_norm": 0.16524387896060944,
	"learning_rate": 0.0002,
	"loss": 0.5436174273490906,
	"mean_token_accuracy": 0.7792856246232986,
	"num_tokens": 2091221.0,
	"step": 128
	},
	{
	"entropy": 0.5539916902780533,
	"epoch": 0.48134328358208955,
	"grad_norm": 0.12479358166456223,
	"learning_rate": 0.0002,
	"loss": 0.5608515739440918,
	"mean_token_accuracy": 0.7734991759061813,
	"num_tokens": 2107664.0,
	"step": 129
	},
	{
	"entropy": 0.5594889521598816,
	"epoch": 0.48507462686567165,
	"grad_norm": 0.14481139183044434,
	"learning_rate": 0.0002,
	"loss": 0.5508875846862793,
	"mean_token_accuracy": 0.7767421901226044,
	"num_tokens": 2123952.0,
	"step": 130
	},
	{
	"entropy": 0.5442296341061592,
	"epoch": 0.48880597014925375,
	"grad_norm": 0.12281627953052521,
	"learning_rate": 0.0002,
	"loss": 0.5368722677230835,
	"mean_token_accuracy": 0.7826971709728241,
	"num_tokens": 2139985.0,
	"step": 131
	},
	{
	"entropy": 0.562851145863533,
	"epoch": 0.4925373134328358,
	"grad_norm": 0.14453750848770142,
	"learning_rate": 0.0002,
	"loss": 0.5439143180847168,
	"mean_token_accuracy": 0.7809209376573563,
	"num_tokens": 2156312.0,
	"step": 132
	},
	{
	"entropy": 0.5531761199235916,
	"epoch": 0.4962686567164179,
	"grad_norm": 0.13650745153427124,
	"learning_rate": 0.0002,
	"loss": 0.5565841197967529,
	"mean_token_accuracy": 0.7758718878030777,
	"num_tokens": 2172756.0,
	"step": 133
	},
	{
	"entropy": 0.5456132292747498,
	"epoch": 0.5,
	"grad_norm": 0.13749481737613678,
	"learning_rate": 0.0002,
	"loss": 0.5540860295295715,
	"mean_token_accuracy": 0.7755758464336395,
	"num_tokens": 2189086.0,
	"step": 134
	},
	{
	"entropy": 0.5647578835487366,
	"epoch": 0.503731343283582,
	"grad_norm": 0.145718514919281,
	"learning_rate": 0.0002,
	"loss": 0.5744016766548157,
	"mean_token_accuracy": 0.7706383019685745,
	"num_tokens": 2205658.0,
	"step": 135
	},
	{
	"entropy": 0.5253579095005989,
	"epoch": 0.5074626865671642,
	"grad_norm": 0.1236543357372284,
	"learning_rate": 0.0002,
	"loss": 0.5327446460723877,
	"mean_token_accuracy": 0.7834168970584869,
	"num_tokens": 2221900.0,
	"step": 136
	},
	{
	"entropy": 0.5625722110271454,
	"epoch": 0.5111940298507462,
	"grad_norm": 0.1114581972360611,
	"learning_rate": 0.0002,
	"loss": 0.5667597651481628,
	"mean_token_accuracy": 0.7699635177850723,
	"num_tokens": 2238309.0,
	"step": 137
	},
	{
	"entropy": 0.5476242303848267,
	"epoch": 0.5149253731343284,
	"grad_norm": 0.1360960304737091,
	"learning_rate": 0.0002,
	"loss": 0.5452396273612976,
	"mean_token_accuracy": 0.7796155512332916,
	"num_tokens": 2254713.0,
	"step": 138
	},
	{
	"entropy": 0.5573885440826416,
	"epoch": 0.5186567164179104,
	"grad_norm": 0.11950599402189255,
	"learning_rate": 0.0002,
	"loss": 0.5531854629516602,
	"mean_token_accuracy": 0.7765035033226013,
	"num_tokens": 2271164.0,
	"step": 139
	},
	{
	"entropy": 0.5644345581531525,
	"epoch": 0.5223880597014925,
	"grad_norm": 0.11840134114027023,
	"learning_rate": 0.0002,
	"loss": 0.5575224161148071,
	"mean_token_accuracy": 0.7718838900327682,
	"num_tokens": 2287762.0,
	"step": 140
	},
	{
	"entropy": 0.5466153174638748,
	"epoch": 0.5261194029850746,
	"grad_norm": 0.1688532829284668,
	"learning_rate": 0.0002,
	"loss": 0.5499178171157837,
	"mean_token_accuracy": 0.777469664812088,
	"num_tokens": 2304348.0,
	"step": 141
	},
	{
	"entropy": 0.5427221059799194,
	"epoch": 0.5298507462686567,
	"grad_norm": 0.14760567247867584,
	"learning_rate": 0.0002,
	"loss": 0.5492222905158997,
	"mean_token_accuracy": 0.778323158621788,
	"num_tokens": 2320490.0,
	"step": 142
	},
	{
	"entropy": 0.5470593422651291,
	"epoch": 0.5335820895522388,
	"grad_norm": 0.19991202652454376,
	"learning_rate": 0.0002,
	"loss": 0.5513626933097839,
	"mean_token_accuracy": 0.7774471044540405,
	"num_tokens": 2337221.0,
	"step": 143
	},
	{
	"entropy": 0.5426470190286636,
	"epoch": 0.5373134328358209,
	"grad_norm": 0.11571265757083893,
	"learning_rate": 0.0002,
	"loss": 0.5405253767967224,
	"mean_token_accuracy": 0.7813504189252853,
	"num_tokens": 2353353.0,
	"step": 144
	},
	{
	"entropy": 0.5667431056499481,
	"epoch": 0.5410447761194029,
	"grad_norm": 0.12742455303668976,
	"learning_rate": 0.0002,
	"loss": 0.5593273043632507,
	"mean_token_accuracy": 0.7729441076517105,
	"num_tokens": 2369753.0,
	"step": 145
	},
	{
	"entropy": 0.5697275847196579,
	"epoch": 0.5447761194029851,
	"grad_norm": 0.1348797082901001,
	"learning_rate": 0.0002,
	"loss": 0.5684511661529541,
	"mean_token_accuracy": 0.7724753767251968,
	"num_tokens": 2386156.0,
	"step": 146
	},
	{
	"entropy": 0.5411224067211151,
	"epoch": 0.5485074626865671,
	"grad_norm": 0.1279442012310028,
	"learning_rate": 0.0002,
	"loss": 0.5420435667037964,
	"mean_token_accuracy": 0.782076433300972,
	"num_tokens": 2402488.0,
	"step": 147
	},
	{
	"entropy": 0.5458887368440628,
	"epoch": 0.5522388059701493,
	"grad_norm": 0.15301373600959778,
	"learning_rate": 0.0002,
	"loss": 0.5421918630599976,
	"mean_token_accuracy": 0.7805485129356384,
	"num_tokens": 2418800.0,
	"step": 148
	},
	{
	"entropy": 0.5494910031557083,
	"epoch": 0.5559701492537313,
	"grad_norm": 0.13024193048477173,
	"learning_rate": 0.0002,
	"loss": 0.5560234189033508,
	"mean_token_accuracy": 0.7752619981765747,
	"num_tokens": 2435229.0,
	"step": 149
	},
	{
	"entropy": 0.5497897416353226,
	"epoch": 0.5597014925373134,
	"grad_norm": 0.140470951795578,
	"learning_rate": 0.0002,
	"loss": 0.5513492226600647,
	"mean_token_accuracy": 0.775757297873497,
	"num_tokens": 2451762.0,
	"step": 150
	},
	{
	"entropy": 0.5479221642017365,
	"epoch": 0.5634328358208955,
	"grad_norm": 0.11884977668523788,
	"learning_rate": 0.0002,
	"loss": 0.5478861331939697,
	"mean_token_accuracy": 0.782090038061142,
	"num_tokens": 2468180.0,
	"step": 151
	},
	{
	"entropy": 0.5405495166778564,
	"epoch": 0.5671641791044776,
	"grad_norm": 0.12883080542087555,
	"learning_rate": 0.0002,
	"loss": 0.5406085252761841,
	"mean_token_accuracy": 0.7832252681255341,
	"num_tokens": 2484444.0,
	"step": 152
	},
	{
	"entropy": 0.5454452037811279,
	"epoch": 0.5708955223880597,
	"grad_norm": 0.12270363420248032,
	"learning_rate": 0.0002,
	"loss": 0.5502068400382996,
	"mean_token_accuracy": 0.7790153920650482,
	"num_tokens": 2500846.0,
	"step": 153
	},
	{
	"entropy": 0.5570302158594131,
	"epoch": 0.5746268656716418,
	"grad_norm": 0.1269625872373581,
	"learning_rate": 0.0002,
	"loss": 0.5548018217086792,
	"mean_token_accuracy": 0.778030514717102,
	"num_tokens": 2517083.0,
	"step": 154
	},
	{
	"entropy": 0.5605379194021225,
	"epoch": 0.5783582089552238,
	"grad_norm": 0.1287340223789215,
	"learning_rate": 0.0002,
	"loss": 0.561842143535614,
	"mean_token_accuracy": 0.7721278667449951,
	"num_tokens": 2533804.0,
	"step": 155
	},
	{
	"entropy": 0.5481511801481247,
	"epoch": 0.582089552238806,
	"grad_norm": 0.13460931181907654,
	"learning_rate": 0.0002,
	"loss": 0.5473400950431824,
	"mean_token_accuracy": 0.7798450142145157,
	"num_tokens": 2550301.0,
	"step": 156
	},
	{
	"entropy": 0.5569665729999542,
	"epoch": 0.585820895522388,
	"grad_norm": 0.1167525053024292,
	"learning_rate": 0.0002,
	"loss": 0.5591033697128296,
	"mean_token_accuracy": 0.7743667513132095,
	"num_tokens": 2566630.0,
	"step": 157
	},
	{
	"entropy": 0.5529917627573013,
	"epoch": 0.5895522388059702,
	"grad_norm": 0.1454092264175415,
	"learning_rate": 0.0002,
	"loss": 0.5575821399688721,
	"mean_token_accuracy": 0.7714344263076782,
	"num_tokens": 2583278.0,
	"step": 158
	},
	{
	"entropy": 0.5369462221860886,
	"epoch": 0.5932835820895522,
	"grad_norm": 0.12713587284088135,
	"learning_rate": 0.0002,
	"loss": 0.541353702545166,
	"mean_token_accuracy": 0.7810934484004974,
	"num_tokens": 2599680.0,
	"step": 159
	},
	{
	"entropy": 0.5471956133842468,
	"epoch": 0.5970149253731343,
	"grad_norm": 0.1193249523639679,
	"learning_rate": 0.0002,
	"loss": 0.544399619102478,
	"mean_token_accuracy": 0.777627244591713,
	"num_tokens": 2615971.0,
	"step": 160
	},
	{
	"entropy": 0.5561826080083847,
	"epoch": 0.6007462686567164,
	"grad_norm": 0.1412789523601532,
	"learning_rate": 0.0002,
	"loss": 0.5533403754234314,
	"mean_token_accuracy": 0.774614229798317,
	"num_tokens": 2632402.0,
	"step": 161
	},
	{
	"entropy": 0.5589349567890167,
	"epoch": 0.6044776119402985,
	"grad_norm": 0.12422283738851547,
	"learning_rate": 0.0002,
	"loss": 0.5584982633590698,
	"mean_token_accuracy": 0.772629901766777,
	"num_tokens": 2648936.0,
	"step": 162
	},
	{
	"entropy": 0.5598675608634949,
	"epoch": 0.6082089552238806,
	"grad_norm": 0.14433413743972778,
	"learning_rate": 0.0002,
	"loss": 0.5596426725387573,
	"mean_token_accuracy": 0.7740431576967239,
	"num_tokens": 2665475.0,
	"step": 163
	},
	{
	"entropy": 0.5221775621175766,
	"epoch": 0.6119402985074627,
	"grad_norm": 0.12392512708902359,
	"learning_rate": 0.0002,
	"loss": 0.5226801037788391,
	"mean_token_accuracy": 0.7883991152048111,
	"num_tokens": 2681739.0,
	"step": 164
	},
	{
	"entropy": 0.5390211492776871,
	"epoch": 0.6156716417910447,
	"grad_norm": 0.1389789581298828,
	"learning_rate": 0.0002,
	"loss": 0.5467759370803833,
	"mean_token_accuracy": 0.7787502557039261,
	"num_tokens": 2698224.0,
	"step": 165
	},
	{
	"entropy": 0.5343765914440155,
	"epoch": 0.6194029850746269,
	"grad_norm": 0.15462790429592133,
	"learning_rate": 0.0002,
	"loss": 0.5523170232772827,
	"mean_token_accuracy": 0.7789429575204849,
	"num_tokens": 2714480.0,
	"step": 166
	},
	{
	"entropy": 0.5412632822990417,
	"epoch": 0.6231343283582089,
	"grad_norm": 0.13078634440898895,
	"learning_rate": 0.0002,
	"loss": 0.5461232662200928,
	"mean_token_accuracy": 0.7796546518802643,
	"num_tokens": 2730804.0,
	"step": 167
	},
	{
	"entropy": 0.5592486709356308,
	"epoch": 0.6268656716417911,
	"grad_norm": 0.11671686917543411,
	"learning_rate": 0.0002,
	"loss": 0.5556939244270325,
	"mean_token_accuracy": 0.7750763148069382,
	"num_tokens": 2747189.0,
	"step": 168
	},
	{
	"entropy": 0.5645984709262848,
	"epoch": 0.6305970149253731,
	"grad_norm": 0.11404155939817429,
	"learning_rate": 0.0002,
	"loss": 0.5586551427841187,
	"mean_token_accuracy": 0.7756913602352142,
	"num_tokens": 2763561.0,
	"step": 169
	},
	{
	"entropy": 0.5689886808395386,
	"epoch": 0.6343283582089553,
	"grad_norm": 0.13602924346923828,
	"learning_rate": 0.0002,
	"loss": 0.571495771408081,
	"mean_token_accuracy": 0.7653735727071762,
	"num_tokens": 2780048.0,
	"step": 170
	},
	{
	"entropy": 0.56998710334301,
	"epoch": 0.6380597014925373,
	"grad_norm": 0.15131747722625732,
	"learning_rate": 0.0002,
	"loss": 0.5685769319534302,
	"mean_token_accuracy": 0.770746722817421,
	"num_tokens": 2796401.0,
	"step": 171
	},
	{
	"entropy": 0.5340622663497925,
	"epoch": 0.6417910447761194,
	"grad_norm": 0.10990842431783676,
	"learning_rate": 0.0002,
	"loss": 0.5300686955451965,
	"mean_token_accuracy": 0.7831304669380188,
	"num_tokens": 2812688.0,
	"step": 172
	},
	{
	"entropy": 0.5546266734600067,
	"epoch": 0.6455223880597015,
	"grad_norm": 0.14243000745773315,
	"learning_rate": 0.0002,
	"loss": 0.5531081557273865,
	"mean_token_accuracy": 0.7720183730125427,
	"num_tokens": 2828912.0,
	"step": 173
	},
	{
	"entropy": 0.530887708067894,
	"epoch": 0.6492537313432836,
	"grad_norm": 0.14285673201084137,
	"learning_rate": 0.0002,
	"loss": 0.5329350233078003,
	"mean_token_accuracy": 0.7844198048114777,
	"num_tokens": 2845032.0,
	"step": 174
	},
	{
	"entropy": 0.5529126077890396,
	"epoch": 0.6529850746268657,
	"grad_norm": 0.12663516402244568,
	"learning_rate": 0.0002,
	"loss": 0.5582675337791443,
	"mean_token_accuracy": 0.775692343711853,
	"num_tokens": 2861233.0,
	"step": 175
	},
	{
	"entropy": 0.5530151873826981,
	"epoch": 0.6567164179104478,
	"grad_norm": 0.1777547299861908,
	"learning_rate": 0.0002,
	"loss": 0.5580370426177979,
	"mean_token_accuracy": 0.7773808538913727,
	"num_tokens": 2877595.0,
	"step": 176
	},
	{
	"entropy": 0.5517453551292419,
	"epoch": 0.6604477611940298,
	"grad_norm": 0.12728020548820496,
	"learning_rate": 0.0002,
	"loss": 0.549347996711731,
	"mean_token_accuracy": 0.7813896834850311,
	"num_tokens": 2893885.0,
	"step": 177
	},
	{
	"entropy": 0.5581229478120804,
	"epoch": 0.664179104477612,
	"grad_norm": 0.12608157098293304,
	"learning_rate": 0.0002,
	"loss": 0.5528551936149597,
	"mean_token_accuracy": 0.774133637547493,
	"num_tokens": 2910402.0,
	"step": 178
	},
	{
	"entropy": 0.5545129030942917,
	"epoch": 0.667910447761194,
	"grad_norm": 0.14164696633815765,
	"learning_rate": 0.0002,
	"loss": 0.5471103191375732,
	"mean_token_accuracy": 0.7807044833898544,
	"num_tokens": 2927020.0,
	"step": 179
	},
	{
	"entropy": 0.5679615437984467,
	"epoch": 0.6716417910447762,
	"grad_norm": 0.11040110141038895,
	"learning_rate": 0.0002,
	"loss": 0.5661795139312744,
	"mean_token_accuracy": 0.7697756141424179,
	"num_tokens": 2943445.0,
	"step": 180
	},
	{
	"entropy": 0.5358923226594925,
	"epoch": 0.6753731343283582,
	"grad_norm": 0.12206491082906723,
	"learning_rate": 0.0002,
	"loss": 0.5459122061729431,
	"mean_token_accuracy": 0.7805617302656174,
	"num_tokens": 2959987.0,
	"step": 181
	},
	{
	"entropy": 0.5579689890146255,
	"epoch": 0.6791044776119403,
	"grad_norm": 0.14179477095603943,
	"learning_rate": 0.0002,
	"loss": 0.5636488199234009,
	"mean_token_accuracy": 0.7736007869243622,
	"num_tokens": 2976751.0,
	"step": 182
	},
	{
	"entropy": 0.5510261654853821,
	"epoch": 0.6828358208955224,
	"grad_norm": 0.12091591209173203,
	"learning_rate": 0.0002,
	"loss": 0.561327338218689,
	"mean_token_accuracy": 0.776558443903923,
	"num_tokens": 2993041.0,
	"step": 183
	},
	{
	"entropy": 0.5457663834095001,
	"epoch": 0.6865671641791045,
	"grad_norm": 0.12697891891002655,
	"learning_rate": 0.0002,
	"loss": 0.5465325117111206,
	"mean_token_accuracy": 0.7786546349525452,
	"num_tokens": 3009436.0,
	"step": 184
	},
	{
	"entropy": 0.5649427324533463,
	"epoch": 0.6902985074626866,
	"grad_norm": 0.13892695307731628,
	"learning_rate": 0.0002,
	"loss": 0.5654124617576599,
	"mean_token_accuracy": 0.7703604251146317,
	"num_tokens": 3025787.0,
	"step": 185
	},
	{
	"entropy": 0.5688793361186981,
	"epoch": 0.6940298507462687,
	"grad_norm": 0.11656537652015686,
	"learning_rate": 0.0002,
	"loss": 0.5590483546257019,
	"mean_token_accuracy": 0.7758390307426453,
	"num_tokens": 3042147.0,
	"step": 186
	},
	{
	"entropy": 0.5568420886993408,
	"epoch": 0.6977611940298507,
	"grad_norm": 0.1266399472951889,
	"learning_rate": 0.0002,
	"loss": 0.5490051507949829,
	"mean_token_accuracy": 0.7778443545103073,
	"num_tokens": 3058479.0,
	"step": 187
	},
	{
	"entropy": 0.5504391342401505,
	"epoch": 0.7014925373134329,
	"grad_norm": 0.15510344505310059,
	"learning_rate": 0.0002,
	"loss": 0.5499662756919861,
	"mean_token_accuracy": 0.7750896066427231,
	"num_tokens": 3074684.0,
	"step": 188
	},
	{
	"entropy": 0.5515661090612411,
	"epoch": 0.7052238805970149,
	"grad_norm": 0.1378200650215149,
	"learning_rate": 0.0002,
	"loss": 0.5564606189727783,
	"mean_token_accuracy": 0.7740965932607651,
	"num_tokens": 3091070.0,
	"step": 189
	},
	{
	"entropy": 0.5522360950708389,
	"epoch": 0.7089552238805971,
	"grad_norm": 0.1490645706653595,
	"learning_rate": 0.0002,
	"loss": 0.5577459335327148,
	"mean_token_accuracy": 0.7747645527124405,
	"num_tokens": 3107501.0,
	"step": 190
	},
	{
	"entropy": 0.5528729557991028,
	"epoch": 0.7126865671641791,
	"grad_norm": 0.14538180828094482,
	"learning_rate": 0.0002,
	"loss": 0.5618550777435303,
	"mean_token_accuracy": 0.7729964852333069,
	"num_tokens": 3123822.0,
	"step": 191
	},
	{
	"entropy": 0.5486249774694443,
	"epoch": 0.7164179104477612,
	"grad_norm": 0.12265278398990631,
	"learning_rate": 0.0002,
	"loss": 0.5423588752746582,
	"mean_token_accuracy": 0.7789205312728882,
	"num_tokens": 3140334.0,
	"step": 192
	},
	{
	"entropy": 0.5567969381809235,
	"epoch": 0.7201492537313433,
	"grad_norm": 0.13273917138576508,
	"learning_rate": 0.0002,
	"loss": 0.5613058805465698,
	"mean_token_accuracy": 0.7748401314020157,
	"num_tokens": 3156490.0,
	"step": 193
	},
	{
	"entropy": 0.558370977640152,
	"epoch": 0.7238805970149254,
	"grad_norm": 0.1269926130771637,
	"learning_rate": 0.0002,
	"loss": 0.548975944519043,
	"mean_token_accuracy": 0.7803195267915726,
	"num_tokens": 3172917.0,
	"step": 194
	},
	{
	"entropy": 0.5645796656608582,
	"epoch": 0.7276119402985075,
	"grad_norm": 0.12320506572723389,
	"learning_rate": 0.0002,
	"loss": 0.5635199546813965,
	"mean_token_accuracy": 0.773562416434288,
	"num_tokens": 3189322.0,
	"step": 195
	},
	{
	"entropy": 0.5316331535577774,
	"epoch": 0.7313432835820896,
	"grad_norm": 0.1522948294878006,
	"learning_rate": 0.0002,
	"loss": 0.5410732626914978,
	"mean_token_accuracy": 0.7790966629981995,
	"num_tokens": 3205551.0,
	"step": 196
	},
	{
	"entropy": 0.5493949502706528,
	"epoch": 0.7350746268656716,
	"grad_norm": 0.119343101978302,
	"learning_rate": 0.0002,
	"loss": 0.5500541925430298,
	"mean_token_accuracy": 0.7768760919570923,
	"num_tokens": 3222029.0,
	"step": 197
	},
	{
	"entropy": 0.5477159917354584,
	"epoch": 0.7388059701492538,
	"grad_norm": 0.119729183614254,
	"learning_rate": 0.0002,
	"loss": 0.5477977991104126,
	"mean_token_accuracy": 0.7788135707378387,
	"num_tokens": 3238421.0,
	"step": 198
	},
	{
	"entropy": 0.5607248842716217,
	"epoch": 0.7425373134328358,
	"grad_norm": 0.13485661149024963,
	"learning_rate": 0.0002,
	"loss": 0.5701273083686829,
	"mean_token_accuracy": 0.7674471586942673,
	"num_tokens": 3254789.0,
	"step": 199
	},
	{
	"entropy": 0.5362051874399185,
	"epoch": 0.746268656716418,
	"grad_norm": 0.11599450558423996,
	"learning_rate": 0.0002,
	"loss": 0.5382620692253113,
	"mean_token_accuracy": 0.7804013192653656,
	"num_tokens": 3270902.0,
	"step": 200
	},
	{
	"entropy": 0.5385442525148392,
	"epoch": 0.75,
	"grad_norm": 0.11722157150506973,
	"learning_rate": 0.0002,
	"loss": 0.5425242185592651,
	"mean_token_accuracy": 0.7779103666543961,
	"num_tokens": 3287148.0,
	"step": 201
	},
	{
	"entropy": 0.5608718395233154,
	"epoch": 0.753731343283582,
	"grad_norm": 0.11743324995040894,
	"learning_rate": 0.0002,
	"loss": 0.5605480670928955,
	"mean_token_accuracy": 0.7718753963708878,
	"num_tokens": 3303602.0,
	"step": 202
	},
	{
	"entropy": 0.5647395998239517,
	"epoch": 0.7574626865671642,
	"grad_norm": 0.12360575795173645,
	"learning_rate": 0.0002,
	"loss": 0.565830409526825,
	"mean_token_accuracy": 0.7734925150871277,
	"num_tokens": 3319914.0,
	"step": 203
	},
	{
	"entropy": 0.5613357871770859,
	"epoch": 0.7611940298507462,
	"grad_norm": 0.12299378216266632,
	"learning_rate": 0.0002,
	"loss": 0.5502001643180847,
	"mean_token_accuracy": 0.7780173420906067,
	"num_tokens": 3336266.0,
	"step": 204
	},
	{
	"entropy": 0.5557620376348495,
	"epoch": 0.7649253731343284,
	"grad_norm": 0.13515423238277435,
	"learning_rate": 0.0002,
	"loss": 0.5513977408409119,
	"mean_token_accuracy": 0.7768134474754333,
	"num_tokens": 3352828.0,
	"step": 205
	},
	{
	"entropy": 0.5312158316373825,
	"epoch": 0.7686567164179104,
	"grad_norm": 0.1245652511715889,
	"learning_rate": 0.0002,
	"loss": 0.5331584215164185,
	"mean_token_accuracy": 0.783508375287056,
	"num_tokens": 3368900.0,
	"step": 206
	},
	{
	"entropy": 0.5540332049131393,
	"epoch": 0.7723880597014925,
	"grad_norm": 0.12260495871305466,
	"learning_rate": 0.0002,
	"loss": 0.5610563158988953,
	"mean_token_accuracy": 0.772364541888237,
	"num_tokens": 3385392.0,
	"step": 207
	},
	{
	"entropy": 0.5408795922994614,
	"epoch": 0.7761194029850746,
	"grad_norm": 0.1623620092868805,
	"learning_rate": 0.0002,
	"loss": 0.5433046221733093,
	"mean_token_accuracy": 0.7798032164573669,
	"num_tokens": 3401604.0,
	"step": 208
	},
	{
	"entropy": 0.5390565246343613,
	"epoch": 0.7798507462686567,
	"grad_norm": 0.13042029738426208,
	"learning_rate": 0.0002,
	"loss": 0.5478684902191162,
	"mean_token_accuracy": 0.7792101353406906,
	"num_tokens": 3417639.0,
	"step": 209
	},
	{
	"entropy": 0.5241924300789833,
	"epoch": 0.7835820895522388,
	"grad_norm": 0.13064046204090118,
	"learning_rate": 0.0002,
	"loss": 0.5299482941627502,
	"mean_token_accuracy": 0.7843270599842072,
	"num_tokens": 3433827.0,
	"step": 210
	},
	{
	"entropy": 0.545391634106636,
	"epoch": 0.7873134328358209,
	"grad_norm": 0.14404848217964172,
	"learning_rate": 0.0002,
	"loss": 0.539533257484436,
	"mean_token_accuracy": 0.7797930389642715,
	"num_tokens": 3450075.0,
	"step": 211
	},
	{
	"entropy": 0.5748691409826279,
	"epoch": 0.7910447761194029,
	"grad_norm": 0.13996216654777527,
	"learning_rate": 0.0002,
	"loss": 0.5611885786056519,
	"mean_token_accuracy": 0.7745807766914368,
	"num_tokens": 3466557.0,
	"step": 212
	},
	{
	"entropy": 0.5685983300209045,
	"epoch": 0.7947761194029851,
	"grad_norm": 0.12288983166217804,
	"learning_rate": 0.0002,
	"loss": 0.5553888082504272,
	"mean_token_accuracy": 0.7752144187688828,
	"num_tokens": 3482978.0,
	"step": 213
	},
	{
	"entropy": 0.5502497553825378,
	"epoch": 0.7985074626865671,
	"grad_norm": 0.12848587334156036,
	"learning_rate": 0.0002,
	"loss": 0.549103856086731,
	"mean_token_accuracy": 0.7791820466518402,
	"num_tokens": 3499378.0,
	"step": 214
	},
	{
	"entropy": 0.5424053594470024,
	"epoch": 0.8022388059701493,
	"grad_norm": 0.12519471347332,
	"learning_rate": 0.0002,
	"loss": 0.5496050119400024,
	"mean_token_accuracy": 0.7755117863416672,
	"num_tokens": 3515899.0,
	"step": 215
	},
	{
	"entropy": 0.5332234650850296,
	"epoch": 0.8059701492537313,
	"grad_norm": 0.17385068535804749,
	"learning_rate": 0.0002,
	"loss": 0.5551385283470154,
	"mean_token_accuracy": 0.7749006897211075,
	"num_tokens": 3532197.0,
	"step": 216
	},
	{
	"entropy": 0.5355218946933746,
	"epoch": 0.8097014925373134,
	"grad_norm": 0.1355784386396408,
	"learning_rate": 0.0002,
	"loss": 0.5417052507400513,
	"mean_token_accuracy": 0.7785830944776535,
	"num_tokens": 3548584.0,
	"step": 217
	},
	{
	"entropy": 0.545543447136879,
	"epoch": 0.8134328358208955,
	"grad_norm": 0.10903589427471161,
	"learning_rate": 0.0002,
	"loss": 0.5351961255073547,
	"mean_token_accuracy": 0.7840810418128967,
	"num_tokens": 3564973.0,
	"step": 218
	},
	{
	"entropy": 0.5678307712078094,
	"epoch": 0.8171641791044776,
	"grad_norm": 0.13619016110897064,
	"learning_rate": 0.0002,
	"loss": 0.5577275156974792,
	"mean_token_accuracy": 0.7739268988370895,
	"num_tokens": 3581436.0,
	"step": 219
	},
	{
	"entropy": 0.5452380776405334,
	"epoch": 0.8208955223880597,
	"grad_norm": 0.12011487782001495,
	"learning_rate": 0.0002,
	"loss": 0.5431472063064575,
	"mean_token_accuracy": 0.7790575325489044,
	"num_tokens": 3597661.0,
	"step": 220
	},
	{
	"entropy": 0.5536454021930695,
	"epoch": 0.8246268656716418,
	"grad_norm": 0.10391338169574738,
	"learning_rate": 0.0002,
	"loss": 0.5514202117919922,
	"mean_token_accuracy": 0.7758155465126038,
	"num_tokens": 3614221.0,
	"step": 221
	},
	{
	"entropy": 0.5350385755300522,
	"epoch": 0.8283582089552238,
	"grad_norm": 0.1497930884361267,
	"learning_rate": 0.0002,
	"loss": 0.5447626709938049,
	"mean_token_accuracy": 0.778772234916687,
	"num_tokens": 3630441.0,
	"step": 222
	},
	{
	"entropy": 0.5551132708787918,
	"epoch": 0.832089552238806,
	"grad_norm": 0.12266736477613449,
	"learning_rate": 0.0002,
	"loss": 0.558661937713623,
	"mean_token_accuracy": 0.773910716176033,
	"num_tokens": 3647039.0,
	"step": 223
	},
	{
	"entropy": 0.5643535554409027,
	"epoch": 0.835820895522388,
	"grad_norm": 0.11532776802778244,
	"learning_rate": 0.0002,
	"loss": 0.5642860531806946,
	"mean_token_accuracy": 0.7725937813520432,
	"num_tokens": 3663412.0,
	"step": 224
	},
	{
	"entropy": 0.5549684166908264,
	"epoch": 0.8395522388059702,
	"grad_norm": 0.12639960646629333,
	"learning_rate": 0.0002,
	"loss": 0.5532217025756836,
	"mean_token_accuracy": 0.7739283442497253,
	"num_tokens": 3679945.0,
	"step": 225
	},
	{
	"entropy": 0.560679629445076,
	"epoch": 0.8432835820895522,
	"grad_norm": 0.13600312173366547,
	"learning_rate": 0.0002,
	"loss": 0.5514844059944153,
	"mean_token_accuracy": 0.7773452550172806,
	"num_tokens": 3696613.0,
	"step": 226
	},
	{
	"entropy": 0.5458584129810333,
	"epoch": 0.8470149253731343,
	"grad_norm": 0.10419101268053055,
	"learning_rate": 0.0002,
	"loss": 0.5424168109893799,
	"mean_token_accuracy": 0.7833174467086792,
	"num_tokens": 3713158.0,
	"step": 227
	},
	{
	"entropy": 0.542242094874382,
	"epoch": 0.8507462686567164,
	"grad_norm": 0.1483229100704193,
	"learning_rate": 0.0002,
	"loss": 0.5505244731903076,
	"mean_token_accuracy": 0.7768149822950363,
	"num_tokens": 3729484.0,
	"step": 228
	},
	{
	"entropy": 0.5342283248901367,
	"epoch": 0.8544776119402985,
	"grad_norm": 0.16167280077934265,
	"learning_rate": 0.0002,
	"loss": 0.5423468947410583,
	"mean_token_accuracy": 0.781244620680809,
	"num_tokens": 3745710.0,
	"step": 229
	},
	{
	"entropy": 0.5557206273078918,
	"epoch": 0.8582089552238806,
	"grad_norm": 0.10992418974637985,
	"learning_rate": 0.0002,
	"loss": 0.5555332899093628,
	"mean_token_accuracy": 0.7740505337715149,
	"num_tokens": 3761974.0,
	"step": 230
	},
	{
	"entropy": 0.5301929265260696,
	"epoch": 0.8619402985074627,
	"grad_norm": 0.20067644119262695,
	"learning_rate": 0.0002,
	"loss": 0.5325175523757935,
	"mean_token_accuracy": 0.7839723825454712,
	"num_tokens": 3777980.0,
	"step": 231
	},
	{
	"entropy": 0.5519733354449272,
	"epoch": 0.8656716417910447,
	"grad_norm": 0.11584831774234772,
	"learning_rate": 0.0002,
	"loss": 0.547998309135437,
	"mean_token_accuracy": 0.7752280086278915,
	"num_tokens": 3794210.0,
	"step": 232
	},
	{
	"entropy": 0.5573844611644745,
	"epoch": 0.8694029850746269,
	"grad_norm": 0.14681567251682281,
	"learning_rate": 0.0002,
	"loss": 0.5630576014518738,
	"mean_token_accuracy": 0.7713348120450974,
	"num_tokens": 3810625.0,
	"step": 233
	},
	{
	"entropy": 0.5614193379878998,
	"epoch": 0.8731343283582089,
	"grad_norm": 0.3717029392719269,
	"learning_rate": 0.0002,
	"loss": 0.5614831447601318,
	"mean_token_accuracy": 0.7718814015388489,
	"num_tokens": 3826871.0,
	"step": 234
	},
	{
	"entropy": 0.5552587062120438,
	"epoch": 0.8768656716417911,
	"grad_norm": 0.1315956562757492,
	"learning_rate": 0.0002,
	"loss": 0.5541540384292603,
	"mean_token_accuracy": 0.7746177315711975,
	"num_tokens": 3843187.0,
	"step": 235
	},
	{
	"entropy": 0.5387386232614517,
	"epoch": 0.8805970149253731,
	"grad_norm": 0.4729621112346649,
	"learning_rate": 0.0002,
	"loss": 0.5513001084327698,
	"mean_token_accuracy": 0.777639240026474,
	"num_tokens": 3859659.0,
	"step": 236
	},
	{
	"entropy": 0.5589011460542679,
	"epoch": 0.8843283582089553,
	"grad_norm": 0.11313692480325699,
	"learning_rate": 0.0002,
	"loss": 0.550857424736023,
	"mean_token_accuracy": 0.7776817381381989,
	"num_tokens": 3876082.0,
	"step": 237
	},
	{
	"entropy": 0.5506832748651505,
	"epoch": 0.8880597014925373,
	"grad_norm": 0.15838703513145447,
	"learning_rate": 0.0002,
	"loss": 0.5493965148925781,
	"mean_token_accuracy": 0.774595633149147,
	"num_tokens": 3892310.0,
	"step": 238
	},
	{
	"entropy": 0.5482196658849716,
	"epoch": 0.8917910447761194,
	"grad_norm": 0.16354775428771973,
	"learning_rate": 0.0002,
	"loss": 0.549696147441864,
	"mean_token_accuracy": 0.7784011512994766,
	"num_tokens": 3908561.0,
	"step": 239
	},
	{
	"entropy": 0.5474406778812408,
	"epoch": 0.8955223880597015,
	"grad_norm": 0.11488547921180725,
	"learning_rate": 0.0002,
	"loss": 0.5442180037498474,
	"mean_token_accuracy": 0.7787186056375504,
	"num_tokens": 3924971.0,
	"step": 240
	},
	{
	"entropy": 0.5576506555080414,
	"epoch": 0.8992537313432836,
	"grad_norm": 0.11725704371929169,
	"learning_rate": 0.0002,
	"loss": 0.5556765794754028,
	"mean_token_accuracy": 0.7754130512475967,
	"num_tokens": 3941384.0,
	"step": 241
	},
	{
	"entropy": 0.5686157792806625,
	"epoch": 0.9029850746268657,
	"grad_norm": 0.1209690198302269,
	"learning_rate": 0.0002,
	"loss": 0.5740119218826294,
	"mean_token_accuracy": 0.7644337117671967,
	"num_tokens": 3957527.0,
	"step": 242
	},
	{
	"entropy": 0.5520821809768677,
	"epoch": 0.9067164179104478,
	"grad_norm": 0.1097254753112793,
	"learning_rate": 0.0002,
	"loss": 0.5524159669876099,
	"mean_token_accuracy": 0.7778758704662323,
	"num_tokens": 3973803.0,
	"step": 243
	},
	{
	"entropy": 0.5603332817554474,
	"epoch": 0.9104477611940298,
	"grad_norm": 0.13421349227428436,
	"learning_rate": 0.0002,
	"loss": 0.5633103251457214,
	"mean_token_accuracy": 0.7723569422960281,
	"num_tokens": 3990124.0,
	"step": 244
	},
	{
	"entropy": 0.5404402911663055,
	"epoch": 0.914179104477612,
	"grad_norm": 0.12017542868852615,
	"learning_rate": 0.0002,
	"loss": 0.5424325466156006,
	"mean_token_accuracy": 0.7823856174945831,
	"num_tokens": 4006560.0,
	"step": 245
	},
	{
	"entropy": 0.5605191737413406,
	"epoch": 0.917910447761194,
	"grad_norm": 0.14128640294075012,
	"learning_rate": 0.0002,
	"loss": 0.5602733492851257,
	"mean_token_accuracy": 0.7735545933246613,
	"num_tokens": 4022966.0,
	"step": 246
	},
	{
	"entropy": 0.5599958896636963,
	"epoch": 0.9216417910447762,
	"grad_norm": 0.11880706995725632,
	"learning_rate": 0.0002,
	"loss": 0.5598034858703613,
	"mean_token_accuracy": 0.7717109471559525,
	"num_tokens": 4039261.0,
	"step": 247
	},
	{
	"entropy": 0.5408921539783478,
	"epoch": 0.9253731343283582,
	"grad_norm": 0.12040922045707703,
	"learning_rate": 0.0002,
	"loss": 0.5460969805717468,
	"mean_token_accuracy": 0.7793735712766647,
	"num_tokens": 4055343.0,
	"step": 248
	},
	{
	"entropy": 0.5573666542768478,
	"epoch": 0.9291044776119403,
	"grad_norm": 0.12093377858400345,
	"learning_rate": 0.0002,
	"loss": 0.556143045425415,
	"mean_token_accuracy": 0.7752596288919449,
	"num_tokens": 4071770.0,
	"step": 249
	},
	{
	"entropy": 0.563015878200531,
	"epoch": 0.9328358208955224,
	"grad_norm": 0.11447741836309433,
	"learning_rate": 0.0002,
	"loss": 0.5647203922271729,
	"mean_token_accuracy": 0.7692370861768723,
	"num_tokens": 4088034.0,
	"step": 250
	},
	{
	"entropy": 0.548077866435051,
	"epoch": 0.9365671641791045,
	"grad_norm": 0.11981664597988129,
	"learning_rate": 0.0002,
	"loss": 0.5454928278923035,
	"mean_token_accuracy": 0.7787458151578903,
	"num_tokens": 4104196.0,
	"step": 251
	},
	{
	"entropy": 0.5375737547874451,
	"epoch": 0.9402985074626866,
	"grad_norm": 0.12071040272712708,
	"learning_rate": 0.0002,
	"loss": 0.5404340028762817,
	"mean_token_accuracy": 0.7799674719572067,
	"num_tokens": 4120470.0,
	"step": 252
	},
	{
	"entropy": 0.547912061214447,
	"epoch": 0.9440298507462687,
	"grad_norm": 0.12739375233650208,
	"learning_rate": 0.0002,
	"loss": 0.5530076026916504,
	"mean_token_accuracy": 0.7753598988056183,
	"num_tokens": 4136885.0,
	"step": 253
	},
	{
	"entropy": 0.5538879930973053,
	"epoch": 0.9477611940298507,
	"grad_norm": 0.12144653499126434,
	"learning_rate": 0.0002,
	"loss": 0.5514186024665833,
	"mean_token_accuracy": 0.7753842920064926,
	"num_tokens": 4153216.0,
	"step": 254
	},
	{
	"entropy": 0.5411302447319031,
	"epoch": 0.9514925373134329,
	"grad_norm": 0.11099912226200104,
	"learning_rate": 0.0002,
	"loss": 0.5385034084320068,
	"mean_token_accuracy": 0.7812628000974655,
	"num_tokens": 4169402.0,
	"step": 255
	},
	{
	"entropy": 0.5564829558134079,
	"epoch": 0.9552238805970149,
	"grad_norm": 0.12310667335987091,
	"learning_rate": 0.0002,
	"loss": 0.5534285306930542,
	"mean_token_accuracy": 0.7745526880025864,
	"num_tokens": 4185847.0,
	"step": 256
	},
	{
	"entropy": 0.5459543019533157,
	"epoch": 0.9589552238805971,
	"grad_norm": 0.1408655047416687,
	"learning_rate": 0.0002,
	"loss": 0.539636492729187,
	"mean_token_accuracy": 0.7817695140838623,
	"num_tokens": 4202324.0,
	"step": 257
	},
	{
	"entropy": 0.5483512580394745,
	"epoch": 0.9626865671641791,
	"grad_norm": 0.1329817920923233,
	"learning_rate": 0.0002,
	"loss": 0.5545552968978882,
	"mean_token_accuracy": 0.7754471302032471,
	"num_tokens": 4218485.0,
	"step": 258
	},
	{
	"entropy": 0.5507388859987259,
	"epoch": 0.9664179104477612,
	"grad_norm": 0.14522868394851685,
	"learning_rate": 0.0002,
	"loss": 0.5539411306381226,
	"mean_token_accuracy": 0.776690736413002,
	"num_tokens": 4234830.0,
	"step": 259
	},
	{
	"entropy": 0.5551155656576157,
	"epoch": 0.9701492537313433,
	"grad_norm": 0.1110503152012825,
	"learning_rate": 0.0002,
	"loss": 0.5517114996910095,
	"mean_token_accuracy": 0.7778125107288361,
	"num_tokens": 4251249.0,
	"step": 260
	},
	{
	"entropy": 0.5606275051832199,
	"epoch": 0.9738805970149254,
	"grad_norm": 0.11907053738832474,
	"learning_rate": 0.0002,
	"loss": 0.5583968162536621,
	"mean_token_accuracy": 0.7729120701551437,
	"num_tokens": 4267571.0,
	"step": 261
	},
	{
	"entropy": 0.5697215348482132,
	"epoch": 0.9776119402985075,
	"grad_norm": 0.11226138472557068,
	"learning_rate": 0.0002,
	"loss": 0.5654243230819702,
	"mean_token_accuracy": 0.7697847783565521,
	"num_tokens": 4283938.0,
	"step": 262
	},
	{
	"entropy": 0.5614341050386429,
	"epoch": 0.9813432835820896,
	"grad_norm": 0.12085731327533722,
	"learning_rate": 0.0002,
	"loss": 0.5629435777664185,
	"mean_token_accuracy": 0.7714052200317383,
	"num_tokens": 4300727.0,
	"step": 263
	},
	{
	"entropy": 0.5495717078447342,
	"epoch": 0.9850746268656716,
	"grad_norm": 0.1363348811864853,
	"learning_rate": 0.0002,
	"loss": 0.5549257397651672,
	"mean_token_accuracy": 0.7735868841409683,
	"num_tokens": 4316903.0,
	"step": 264
	},
	{
	"entropy": 0.5352297425270081,
	"epoch": 0.9888059701492538,
	"grad_norm": 0.1429988294839859,
	"learning_rate": 0.0002,
	"loss": 0.5460555553436279,
	"mean_token_accuracy": 0.7814377993345261,
	"num_tokens": 4333143.0,
	"step": 265
	},
	{
	"entropy": 0.5603132396936417,
	"epoch": 0.9925373134328358,
	"grad_norm": 0.14986178278923035,
	"learning_rate": 0.0002,
	"loss": 0.5551425218582153,
	"mean_token_accuracy": 0.7773159593343735,
	"num_tokens": 4349576.0,
	"step": 266
	},
	{
	"entropy": 0.5535064339637756,
	"epoch": 0.996268656716418,
	"grad_norm": 0.1105998232960701,
	"learning_rate": 0.0002,
	"loss": 0.5442855954170227,
	"mean_token_accuracy": 0.7821661084890366,
	"num_tokens": 4365977.0,
	"step": 267
	},
	{
	"entropy": 0.5614945888519287,
	"epoch": 1.0,
	"grad_norm": 0.12907235324382782,
	"learning_rate": 0.0002,
	"loss": 0.5476444959640503,
	"mean_token_accuracy": 0.7792651057243347,
	"num_tokens": 4382526.0,
	"step": 268
	},
	{
	"entropy": 0.548059806227684,
	"epoch": 1.0037313432835822,
	"grad_norm": 0.12145893275737762,
	"learning_rate": 0.0002,
	"loss": 0.5402656197547913,
	"mean_token_accuracy": 0.7813442945480347,
	"num_tokens": 4399005.0,
	"step": 269
	},
	{
	"entropy": 0.5212839543819427,
	"epoch": 1.007462686567164,
	"grad_norm": 0.1396404206752777,
	"learning_rate": 0.0002,
	"loss": 0.5315491557121277,
	"mean_token_accuracy": 0.7839601635932922,
	"num_tokens": 4415205.0,
	"step": 270
	},
	{
	"entropy": 0.5132785737514496,
	"epoch": 1.0111940298507462,
	"grad_norm": 0.1433689296245575,
	"learning_rate": 0.0002,
	"loss": 0.5299959778785706,
	"mean_token_accuracy": 0.7853466272354126,
	"num_tokens": 4431512.0,
	"step": 271
	},
	{
	"entropy": 0.5394517332315445,
	"epoch": 1.0149253731343284,
	"grad_norm": 0.11504881829023361,
	"learning_rate": 0.0002,
	"loss": 0.5439318418502808,
	"mean_token_accuracy": 0.7786544561386108,
	"num_tokens": 4447878.0,
	"step": 272
	},
	{
	"entropy": 0.5173204094171524,
	"epoch": 1.0186567164179103,
	"grad_norm": 0.12369395047426224,
	"learning_rate": 0.0002,
	"loss": 0.525097668170929,
	"mean_token_accuracy": 0.7878104597330093,
	"num_tokens": 4464069.0,
	"step": 273
	},
	{
	"entropy": 0.5443273782730103,
	"epoch": 1.0223880597014925,
	"grad_norm": 0.12611854076385498,
	"learning_rate": 0.0002,
	"loss": 0.5425093770027161,
	"mean_token_accuracy": 0.7833482921123505,
	"num_tokens": 4480510.0,
	"step": 274
	},
	{
	"entropy": 0.5319035351276398,
	"epoch": 1.0261194029850746,
	"grad_norm": 0.11637023091316223,
	"learning_rate": 0.0002,
	"loss": 0.5231828093528748,
	"mean_token_accuracy": 0.788045197725296,
	"num_tokens": 4496734.0,
	"step": 275
	},
	{
	"entropy": 0.5645869076251984,
	"epoch": 1.0298507462686568,
	"grad_norm": 0.11970556527376175,
	"learning_rate": 0.0002,
	"loss": 0.556399405002594,
	"mean_token_accuracy": 0.7753234058618546,
	"num_tokens": 4513272.0,
	"step": 276
	},
	{
	"entropy": 0.5412048548460007,
	"epoch": 1.0335820895522387,
	"grad_norm": 0.12889669835567474,
	"learning_rate": 0.0002,
	"loss": 0.5352495908737183,
	"mean_token_accuracy": 0.7822704613208771,
	"num_tokens": 4529760.0,
	"step": 277
	},
	{
	"entropy": 0.5433377772569656,
	"epoch": 1.037313432835821,
	"grad_norm": 0.15610089898109436,
	"learning_rate": 0.0002,
	"loss": 0.5424712896347046,
	"mean_token_accuracy": 0.7791996449232101,
	"num_tokens": 4546065.0,
	"step": 278
	},
	{
	"entropy": 0.5367715954780579,
	"epoch": 1.041044776119403,
	"grad_norm": 0.1712978631258011,
	"learning_rate": 0.0002,
	"loss": 0.5500761270523071,
	"mean_token_accuracy": 0.7774211019277573,
	"num_tokens": 4562404.0,
	"step": 279
	},
	{
	"entropy": 0.5348818898200989,
	"epoch": 1.044776119402985,
	"grad_norm": 0.14415498077869415,
	"learning_rate": 0.0002,
	"loss": 0.5458697080612183,
	"mean_token_accuracy": 0.7776882946491241,
	"num_tokens": 4578594.0,
	"step": 280
	},
	{
	"entropy": 0.5394753366708755,
	"epoch": 1.0485074626865671,
	"grad_norm": 0.17060807347297668,
	"learning_rate": 0.0002,
	"loss": 0.5428628921508789,
	"mean_token_accuracy": 0.7797123193740845,
	"num_tokens": 4594918.0,
	"step": 281
	},
	{
	"entropy": 0.5477339029312134,
	"epoch": 1.0522388059701493,
	"grad_norm": 0.12646426260471344,
	"learning_rate": 0.0002,
	"loss": 0.5376375913619995,
	"mean_token_accuracy": 0.7846843749284744,
	"num_tokens": 4611225.0,
	"step": 282
	},
	{
	"entropy": 0.553899347782135,
	"epoch": 1.0559701492537314,
	"grad_norm": 0.14560198783874512,
	"learning_rate": 0.0002,
	"loss": 0.5442871451377869,
	"mean_token_accuracy": 0.779757484793663,
	"num_tokens": 4627515.0,
	"step": 283
	},
	{
	"entropy": 0.544152095913887,
	"epoch": 1.0597014925373134,
	"grad_norm": 0.14532814919948578,
	"learning_rate": 0.0002,
	"loss": 0.5495354533195496,
	"mean_token_accuracy": 0.7756282091140747,
	"num_tokens": 4644151.0,
	"step": 284
	},
	{
	"entropy": 0.5467684864997864,
	"epoch": 1.0634328358208955,
	"grad_norm": 0.14399303495883942,
	"learning_rate": 0.0002,
	"loss": 0.5551741123199463,
	"mean_token_accuracy": 0.7747452855110168,
	"num_tokens": 4660349.0,
	"step": 285
	},
	{
	"entropy": 0.5328090041875839,
	"epoch": 1.0671641791044777,
	"grad_norm": 0.1490914672613144,
	"learning_rate": 0.0002,
	"loss": 0.5371617674827576,
	"mean_token_accuracy": 0.7852603644132614,
	"num_tokens": 4676682.0,
	"step": 286
	},
	{
	"entropy": 0.5549953877925873,
	"epoch": 1.0708955223880596,
	"grad_norm": 0.13986609876155853,
	"learning_rate": 0.0002,
	"loss": 0.5485588312149048,
	"mean_token_accuracy": 0.7786588221788406,
	"num_tokens": 4693087.0,
	"step": 287
	},
	{
	"entropy": 0.5441232770681381,
	"epoch": 1.0746268656716418,
	"grad_norm": 0.13744987547397614,
	"learning_rate": 0.0002,
	"loss": 0.5352811813354492,
	"mean_token_accuracy": 0.7830296456813812,
	"num_tokens": 4709482.0,
	"step": 288
	},
	{
	"entropy": 0.5388935655355453,
	"epoch": 1.078358208955224,
	"grad_norm": 0.12793688476085663,
	"learning_rate": 0.0002,
	"loss": 0.5364757776260376,
	"mean_token_accuracy": 0.780993863940239,
	"num_tokens": 4725929.0,
	"step": 289
	},
	{
	"entropy": 0.5281359702348709,
	"epoch": 1.0820895522388059,
	"grad_norm": 0.11734890192747116,
	"learning_rate": 0.0002,
	"loss": 0.5293084979057312,
	"mean_token_accuracy": 0.7876105159521103,
	"num_tokens": 4742317.0,
	"step": 290
	},
	{
	"entropy": 0.5459820628166199,
	"epoch": 1.085820895522388,
	"grad_norm": 0.12839624285697937,
	"learning_rate": 0.0002,
	"loss": 0.5461269617080688,
	"mean_token_accuracy": 0.7763439863920212,
	"num_tokens": 4758682.0,
	"step": 291
	},
	{
	"entropy": 0.5111119300127029,
	"epoch": 1.0895522388059702,
	"grad_norm": 0.1377914845943451,
	"learning_rate": 0.0002,
	"loss": 0.5165018439292908,
	"mean_token_accuracy": 0.792814165353775,
	"num_tokens": 4775165.0,
	"step": 292
	},
	{
	"entropy": 0.5256515890359879,
	"epoch": 1.0932835820895523,
	"grad_norm": 0.13310879468917847,
	"learning_rate": 0.0002,
	"loss": 0.5263264179229736,
	"mean_token_accuracy": 0.7891132682561874,
	"num_tokens": 4791249.0,
	"step": 293
	},
	{
	"entropy": 0.5361033976078033,
	"epoch": 1.0970149253731343,
	"grad_norm": 0.11920680850744247,
	"learning_rate": 0.0002,
	"loss": 0.5344924926757812,
	"mean_token_accuracy": 0.7844657897949219,
	"num_tokens": 4807722.0,
	"step": 294
	},
	{
	"entropy": 0.547529011964798,
	"epoch": 1.1007462686567164,
	"grad_norm": 0.15012222528457642,
	"learning_rate": 0.0002,
	"loss": 0.5434770584106445,
	"mean_token_accuracy": 0.7794990837574005,
	"num_tokens": 4824221.0,
	"step": 295
	},
	{
	"entropy": 0.5387088805437088,
	"epoch": 1.1044776119402986,
	"grad_norm": 0.11607323586940765,
	"learning_rate": 0.0002,
	"loss": 0.5379114151000977,
	"mean_token_accuracy": 0.7820580452680588,
	"num_tokens": 4840561.0,
	"step": 296
	},
	{
	"entropy": 0.5285296589136124,
	"epoch": 1.1082089552238805,
	"grad_norm": 0.16472671926021576,
	"learning_rate": 0.0002,
	"loss": 0.5286039710044861,
	"mean_token_accuracy": 0.7859488725662231,
	"num_tokens": 4856739.0,
	"step": 297
	},
	{
	"entropy": 0.5467464625835419,
	"epoch": 1.1119402985074627,
	"grad_norm": 0.12136011570692062,
	"learning_rate": 0.0002,
	"loss": 0.5486158132553101,
	"mean_token_accuracy": 0.7766989320516586,
	"num_tokens": 4873254.0,
	"step": 298
	},
	{
	"entropy": 0.5323450714349747,
	"epoch": 1.1156716417910448,
	"grad_norm": 0.15763746201992035,
	"learning_rate": 0.0002,
	"loss": 0.53644198179245,
	"mean_token_accuracy": 0.7847353965044022,
	"num_tokens": 4889763.0,
	"step": 299
	},
	{
	"entropy": 0.5294622331857681,
	"epoch": 1.1194029850746268,
	"grad_norm": 0.14253245294094086,
	"learning_rate": 0.0002,
	"loss": 0.5327939987182617,
	"mean_token_accuracy": 0.7873322665691376,
	"num_tokens": 4905780.0,
	"step": 300
	},
	{
	"entropy": 0.5500210523605347,
	"epoch": 1.123134328358209,
	"grad_norm": 0.1611548215150833,
	"learning_rate": 0.0002,
	"loss": 0.55262291431427,
	"mean_token_accuracy": 0.7771656811237335,
	"num_tokens": 4921935.0,
	"step": 301
	},
	{
	"entropy": 0.5608504116535187,
	"epoch": 1.126865671641791,
	"grad_norm": 0.14609341323375702,
	"learning_rate": 0.0002,
	"loss": 0.5597085952758789,
	"mean_token_accuracy": 0.773489698767662,
	"num_tokens": 4938566.0,
	"step": 302
	},
	{
	"entropy": 0.541571170091629,
	"epoch": 1.1305970149253732,
	"grad_norm": 0.11906211823225021,
	"learning_rate": 0.0002,
	"loss": 0.541067361831665,
	"mean_token_accuracy": 0.7795013040304184,
	"num_tokens": 4954995.0,
	"step": 303
	},
	{
	"entropy": 0.5374023020267487,
	"epoch": 1.1343283582089552,
	"grad_norm": 0.191620334982872,
	"learning_rate": 0.0002,
	"loss": 0.540854811668396,
	"mean_token_accuracy": 0.783530056476593,
	"num_tokens": 4971285.0,
	"step": 304
	},
	{
	"entropy": 0.5237517058849335,
	"epoch": 1.1380597014925373,
	"grad_norm": 0.13355116546154022,
	"learning_rate": 0.0002,
	"loss": 0.5256230235099792,
	"mean_token_accuracy": 0.7869999557733536,
	"num_tokens": 4987629.0,
	"step": 305
	},
	{
	"entropy": 0.5161513015627861,
	"epoch": 1.1417910447761195,
	"grad_norm": 0.14180561900138855,
	"learning_rate": 0.0002,
	"loss": 0.5189639925956726,
	"mean_token_accuracy": 0.7884562611579895,
	"num_tokens": 5003816.0,
	"step": 306
	},
	{
	"entropy": 0.5333078503608704,
	"epoch": 1.1455223880597014,
	"grad_norm": 0.11995179206132889,
	"learning_rate": 0.0002,
	"loss": 0.5338060259819031,
	"mean_token_accuracy": 0.7834619730710983,
	"num_tokens": 5020179.0,
	"step": 307
	},
	{
	"entropy": 0.5374015420675278,
	"epoch": 1.1492537313432836,
	"grad_norm": 0.14065897464752197,
	"learning_rate": 0.0002,
	"loss": 0.541375994682312,
	"mean_token_accuracy": 0.7836798280477524,
	"num_tokens": 5036421.0,
	"step": 308
	},
	{
	"entropy": 0.5318789333105087,
	"epoch": 1.1529850746268657,
	"grad_norm": 0.15007704496383667,
	"learning_rate": 0.0002,
	"loss": 0.5320872664451599,
	"mean_token_accuracy": 0.7854835838079453,
	"num_tokens": 5052767.0,
	"step": 309
	},
	{
	"entropy": 0.5555961728096008,
	"epoch": 1.1567164179104479,
	"grad_norm": 0.12327966094017029,
	"learning_rate": 0.0002,
	"loss": 0.5514441728591919,
	"mean_token_accuracy": 0.775398313999176,
	"num_tokens": 5069219.0,
	"step": 310
	},
	{
	"entropy": 0.5369515269994736,
	"epoch": 1.1604477611940298,
	"grad_norm": 0.13790592551231384,
	"learning_rate": 0.0002,
	"loss": 0.5307064652442932,
	"mean_token_accuracy": 0.7870743423700333,
	"num_tokens": 5085637.0,
	"step": 311
	},
	{
	"entropy": 0.5395635664463043,
	"epoch": 1.164179104477612,
	"grad_norm": 0.12657856941223145,
	"learning_rate": 0.0002,
	"loss": 0.539893388748169,
	"mean_token_accuracy": 0.7809743881225586,
	"num_tokens": 5101984.0,
	"step": 312
	},
	{
	"entropy": 0.5528725534677505,
	"epoch": 1.1679104477611941,
	"grad_norm": 0.15744967758655548,
	"learning_rate": 0.0002,
	"loss": 0.5551643967628479,
	"mean_token_accuracy": 0.7749461233615875,
	"num_tokens": 5118457.0,
	"step": 313
	},
	{
	"entropy": 0.5547244101762772,
	"epoch": 1.171641791044776,
	"grad_norm": 0.14667753875255585,
	"learning_rate": 0.0002,
	"loss": 0.5545704364776611,
	"mean_token_accuracy": 0.7767890095710754,
	"num_tokens": 5135070.0,
	"step": 314
	},
	{
	"entropy": 0.5513405501842499,
	"epoch": 1.1753731343283582,
	"grad_norm": 0.13363401591777802,
	"learning_rate": 0.0002,
	"loss": 0.5478935241699219,
	"mean_token_accuracy": 0.7782707363367081,
	"num_tokens": 5151457.0,
	"step": 315
	},
	{
	"entropy": 0.5504343062639236,
	"epoch": 1.1791044776119404,
	"grad_norm": 0.14427515864372253,
	"learning_rate": 0.0002,
	"loss": 0.5503411293029785,
	"mean_token_accuracy": 0.7759760916233063,
	"num_tokens": 5167918.0,
	"step": 316
	},
	{
	"entropy": 0.5411941558122635,
	"epoch": 1.1828358208955223,
	"grad_norm": 0.13475076854228973,
	"learning_rate": 0.0002,
	"loss": 0.5334619283676147,
	"mean_token_accuracy": 0.7848760634660721,
	"num_tokens": 5184250.0,
	"step": 317
	},
	{
	"entropy": 0.5534447133541107,
	"epoch": 1.1865671641791045,
	"grad_norm": 0.14666007459163666,
	"learning_rate": 0.0002,
	"loss": 0.5606579184532166,
	"mean_token_accuracy": 0.7732094079256058,
	"num_tokens": 5200728.0,
	"step": 318
	},
	{
	"entropy": 0.5172414779663086,
	"epoch": 1.1902985074626866,
	"grad_norm": 0.1494058072566986,
	"learning_rate": 0.0002,
	"loss": 0.5262372493743896,
	"mean_token_accuracy": 0.787101224064827,
	"num_tokens": 5216948.0,
	"step": 319
	},
	{
	"entropy": 0.5277577340602875,
	"epoch": 1.1940298507462686,
	"grad_norm": 0.15135720372200012,
	"learning_rate": 0.0002,
	"loss": 0.5401796102523804,
	"mean_token_accuracy": 0.7809148728847504,
	"num_tokens": 5233422.0,
	"step": 320
	},
	{
	"entropy": 0.5246866941452026,
	"epoch": 1.1977611940298507,
	"grad_norm": 0.12589603662490845,
	"learning_rate": 0.0002,
	"loss": 0.5281919836997986,
	"mean_token_accuracy": 0.7868399173021317,
	"num_tokens": 5249730.0,
	"step": 321
	},
	{
	"entropy": 0.5274995267391205,
	"epoch": 1.2014925373134329,
	"grad_norm": 0.11834204196929932,
	"learning_rate": 0.0002,
	"loss": 0.5278512835502625,
	"mean_token_accuracy": 0.7852350920438766,
	"num_tokens": 5266115.0,
	"step": 322
	},
	{
	"entropy": 0.5320824682712555,
	"epoch": 1.205223880597015,
	"grad_norm": 0.13883750140666962,
	"learning_rate": 0.0002,
	"loss": 0.5280960202217102,
	"mean_token_accuracy": 0.7858837693929672,
	"num_tokens": 5282462.0,
	"step": 323
	},
	{
	"entropy": 0.5404033660888672,
	"epoch": 1.208955223880597,
	"grad_norm": 0.13842950761318207,
	"learning_rate": 0.0002,
	"loss": 0.5391522645950317,
	"mean_token_accuracy": 0.7815057188272476,
	"num_tokens": 5299103.0,
	"step": 324
	},
	{
	"entropy": 0.5260981917381287,
	"epoch": 1.212686567164179,
	"grad_norm": 0.14888468384742737,
	"learning_rate": 0.0002,
	"loss": 0.5250783562660217,
	"mean_token_accuracy": 0.7861860394477844,
	"num_tokens": 5315339.0,
	"step": 325
	},
	{
	"entropy": 0.5244043916463852,
	"epoch": 1.2164179104477613,
	"grad_norm": 0.12871688604354858,
	"learning_rate": 0.0002,
	"loss": 0.5234277844429016,
	"mean_token_accuracy": 0.787299633026123,
	"num_tokens": 5331854.0,
	"step": 326
	},
	{
	"entropy": 0.5336845368146896,
	"epoch": 1.2201492537313432,
	"grad_norm": 0.1279512345790863,
	"learning_rate": 0.0002,
	"loss": 0.5357816815376282,
	"mean_token_accuracy": 0.7811597734689713,
	"num_tokens": 5348268.0,
	"step": 327
	},
	{
	"entropy": 0.5396746844053268,
	"epoch": 1.2238805970149254,
	"grad_norm": 0.1272435188293457,
	"learning_rate": 0.0002,
	"loss": 0.5367811322212219,
	"mean_token_accuracy": 0.7815662026405334,
	"num_tokens": 5364832.0,
	"step": 328
	},
	{
	"entropy": 0.5355321317911148,
	"epoch": 1.2276119402985075,
	"grad_norm": 0.12457006424665451,
	"learning_rate": 0.0002,
	"loss": 0.5324679613113403,
	"mean_token_accuracy": 0.7855342030525208,
	"num_tokens": 5381181.0,
	"step": 329
	},
	{
	"entropy": 0.5404689311981201,
	"epoch": 1.2313432835820897,
	"grad_norm": 0.1616295725107193,
	"learning_rate": 0.0002,
	"loss": 0.5461254715919495,
	"mean_token_accuracy": 0.7793011963367462,
	"num_tokens": 5397689.0,
	"step": 330
	},
	{
	"entropy": 0.5573465675115585,
	"epoch": 1.2350746268656716,
	"grad_norm": 0.1567206233739853,
	"learning_rate": 0.0002,
	"loss": 0.5680751204490662,
	"mean_token_accuracy": 0.7683437466621399,
	"num_tokens": 5414063.0,
	"step": 331
	},
	{
	"entropy": 0.5585090219974518,
	"epoch": 1.2388059701492538,
	"grad_norm": 0.13362006843090057,
	"learning_rate": 0.0002,
	"loss": 0.5544182658195496,
	"mean_token_accuracy": 0.7759232968091965,
	"num_tokens": 5430545.0,
	"step": 332
	},
	{
	"entropy": 0.5479722023010254,
	"epoch": 1.242537313432836,
	"grad_norm": 0.16734908521175385,
	"learning_rate": 0.0002,
	"loss": 0.5447990298271179,
	"mean_token_accuracy": 0.7797949612140656,
	"num_tokens": 5446700.0,
	"step": 333
	},
	{
	"entropy": 0.5607796311378479,
	"epoch": 1.2462686567164178,
	"grad_norm": 0.1450573354959488,
	"learning_rate": 0.0002,
	"loss": 0.556632936000824,
	"mean_token_accuracy": 0.7769130021333694,
	"num_tokens": 5463137.0,
	"step": 334
	},
	{
	"entropy": 0.5538843423128128,
	"epoch": 1.25,
	"grad_norm": 0.12896743416786194,
	"learning_rate": 0.0002,
	"loss": 0.5562998056411743,
	"mean_token_accuracy": 0.7745624631643295,
	"num_tokens": 5479659.0,
	"step": 335
	},
	{
	"entropy": 0.5309284329414368,
	"epoch": 1.2537313432835822,
	"grad_norm": 0.1323668360710144,
	"learning_rate": 0.0002,
	"loss": 0.5389367341995239,
	"mean_token_accuracy": 0.7794619351625443,
	"num_tokens": 5495884.0,
	"step": 336
	},
	{
	"entropy": 0.5279457420110703,
	"epoch": 1.2574626865671643,
	"grad_norm": 0.16464678943157196,
	"learning_rate": 0.0002,
	"loss": 0.540420413017273,
	"mean_token_accuracy": 0.7797137498855591,
	"num_tokens": 5512288.0,
	"step": 337
	},
	{
	"entropy": 0.5431296676397324,
	"epoch": 1.2611940298507462,
	"grad_norm": 0.15366457402706146,
	"learning_rate": 0.0002,
	"loss": 0.5533568263053894,
	"mean_token_accuracy": 0.7777420580387115,
	"num_tokens": 5528739.0,
	"step": 338
	},
	{
	"entropy": 0.5533888936042786,
	"epoch": 1.2649253731343284,
	"grad_norm": 0.15439164638519287,
	"learning_rate": 0.0002,
	"loss": 0.5407285690307617,
	"mean_token_accuracy": 0.7848910838365555,
	"num_tokens": 5545180.0,
	"step": 339
	},
	{
	"entropy": 0.5363039374351501,
	"epoch": 1.2686567164179103,
	"grad_norm": 0.14024227857589722,
	"learning_rate": 0.0002,
	"loss": 0.5247921943664551,
	"mean_token_accuracy": 0.7866441905498505,
	"num_tokens": 5561365.0,
	"step": 340
	},
	{
	"entropy": 0.5282331109046936,
	"epoch": 1.2723880597014925,
	"grad_norm": 0.15727277100086212,
	"learning_rate": 0.0002,
	"loss": 0.5256697535514832,
	"mean_token_accuracy": 0.7857891470193863,
	"num_tokens": 5577609.0,
	"step": 341
	},
	{
	"entropy": 0.5532326549291611,
	"epoch": 1.2761194029850746,
	"grad_norm": 0.14312665164470673,
	"learning_rate": 0.0002,
	"loss": 0.5558714866638184,
	"mean_token_accuracy": 0.776502713561058,
	"num_tokens": 5593922.0,
	"step": 342
	},
	{
	"entropy": 0.5117308422923088,
	"epoch": 1.2798507462686568,
	"grad_norm": 0.13982926309108734,
	"learning_rate": 0.0002,
	"loss": 0.5216178894042969,
	"mean_token_accuracy": 0.7898732572793961,
	"num_tokens": 5610160.0,
	"step": 343
	},
	{
	"entropy": 0.5327529311180115,
	"epoch": 1.2835820895522387,
	"grad_norm": 0.1600239872932434,
	"learning_rate": 0.0002,
	"loss": 0.54588383436203,
	"mean_token_accuracy": 0.7827021777629852,
	"num_tokens": 5626483.0,
	"step": 344
	},
	{
	"entropy": 0.5456168502569199,
	"epoch": 1.287313432835821,
	"grad_norm": 0.1314232498407364,
	"learning_rate": 0.0002,
	"loss": 0.5445138216018677,
	"mean_token_accuracy": 0.7821621298789978,
	"num_tokens": 5642705.0,
	"step": 345
	},
	{
	"entropy": 0.5568868517875671,
	"epoch": 1.291044776119403,
	"grad_norm": 0.12736710906028748,
	"learning_rate": 0.0002,
	"loss": 0.5469453930854797,
	"mean_token_accuracy": 0.7784760594367981,
	"num_tokens": 5659144.0,
	"step": 346
	},
	{
	"entropy": 0.5525211989879608,
	"epoch": 1.294776119402985,
	"grad_norm": 0.11654646694660187,
	"learning_rate": 0.0002,
	"loss": 0.542698323726654,
	"mean_token_accuracy": 0.7785234600305557,
	"num_tokens": 5675452.0,
	"step": 347
	},
	{
	"entropy": 0.5460808724164963,
	"epoch": 1.2985074626865671,
	"grad_norm": 0.1318521350622177,
	"learning_rate": 0.0002,
	"loss": 0.5390938520431519,
	"mean_token_accuracy": 0.7815311253070831,
	"num_tokens": 5691735.0,
	"step": 348
	},
	{
	"entropy": 0.5437112301588058,
	"epoch": 1.3022388059701493,
	"grad_norm": 0.13485990464687347,
	"learning_rate": 0.0002,
	"loss": 0.5420966148376465,
	"mean_token_accuracy": 0.7827932983636856,
	"num_tokens": 5708102.0,
	"step": 349
	},
	{
	"entropy": 0.5493648052215576,
	"epoch": 1.3059701492537314,
	"grad_norm": 0.14354610443115234,
	"learning_rate": 0.0002,
	"loss": 0.5561747550964355,
	"mean_token_accuracy": 0.7761517763137817,
	"num_tokens": 5724350.0,
	"step": 350
	},
	{
	"entropy": 0.5344854891300201,
	"epoch": 1.3097014925373134,
	"grad_norm": 0.15943452715873718,
	"learning_rate": 0.0002,
	"loss": 0.5391569137573242,
	"mean_token_accuracy": 0.7805770933628082,
	"num_tokens": 5740954.0,
	"step": 351
	},
	{
	"entropy": 0.5242450833320618,
	"epoch": 1.3134328358208955,
	"grad_norm": 0.13654360175132751,
	"learning_rate": 0.0002,
	"loss": 0.5292847156524658,
	"mean_token_accuracy": 0.784620076417923,
	"num_tokens": 5757385.0,
	"step": 352
	},
	{
	"entropy": 0.5383377820253372,
	"epoch": 1.3171641791044777,
	"grad_norm": 0.13651302456855774,
	"learning_rate": 0.0002,
	"loss": 0.5413467288017273,
	"mean_token_accuracy": 0.7786675840616226,
	"num_tokens": 5773852.0,
	"step": 353
	},
	{
	"entropy": 0.5402452051639557,
	"epoch": 1.3208955223880596,
	"grad_norm": 0.13241973519325256,
	"learning_rate": 0.0002,
	"loss": 0.5419248938560486,
	"mean_token_accuracy": 0.778145432472229,
	"num_tokens": 5790055.0,
	"step": 354
	},
	{
	"entropy": 0.5536379665136337,
	"epoch": 1.3246268656716418,
	"grad_norm": 0.13762575387954712,
	"learning_rate": 0.0002,
	"loss": 0.5484678745269775,
	"mean_token_accuracy": 0.7766116708517075,
	"num_tokens": 5806738.0,
	"step": 355
	},
	{
	"entropy": 0.5532735884189606,
	"epoch": 1.328358208955224,
	"grad_norm": 0.12154927849769592,
	"learning_rate": 0.0002,
	"loss": 0.5548056960105896,
	"mean_token_accuracy": 0.7753622978925705,
	"num_tokens": 5823183.0,
	"step": 356
	},
	{
	"entropy": 0.5448320060968399,
	"epoch": 1.332089552238806,
	"grad_norm": 0.144795224070549,
	"learning_rate": 0.0002,
	"loss": 0.5448752641677856,
	"mean_token_accuracy": 0.7790551483631134,
	"num_tokens": 5839499.0,
	"step": 357
	},
	{
	"entropy": 0.5511485040187836,
	"epoch": 1.335820895522388,
	"grad_norm": 0.13511039316654205,
	"learning_rate": 0.0002,
	"loss": 0.5528499484062195,
	"mean_token_accuracy": 0.776659682393074,
	"num_tokens": 5855921.0,
	"step": 358
	},
	{
	"entropy": 0.5290715843439102,
	"epoch": 1.3395522388059702,
	"grad_norm": 0.11837369203567505,
	"learning_rate": 0.0002,
	"loss": 0.5328022241592407,
	"mean_token_accuracy": 0.7826089113950729,
	"num_tokens": 5872142.0,
	"step": 359
	},
	{
	"entropy": 0.5363620519638062,
	"epoch": 1.3432835820895521,
	"grad_norm": 0.12029700726270676,
	"learning_rate": 0.0002,
	"loss": 0.534315824508667,
	"mean_token_accuracy": 0.7845976501703262,
	"num_tokens": 5888484.0,
	"step": 360
	},
	{
	"entropy": 0.5347290933132172,
	"epoch": 1.3470149253731343,
	"grad_norm": 0.13828180730342865,
	"learning_rate": 0.0002,
	"loss": 0.5338245630264282,
	"mean_token_accuracy": 0.7808255851268768,
	"num_tokens": 5904613.0,
	"step": 361
	},
	{
	"entropy": 0.5324546545743942,
	"epoch": 1.3507462686567164,
	"grad_norm": 0.12894095480442047,
	"learning_rate": 0.0002,
	"loss": 0.5361336469650269,
	"mean_token_accuracy": 0.7821396291255951,
	"num_tokens": 5920864.0,
	"step": 362
	},
	{
	"entropy": 0.5308556854724884,
	"epoch": 1.3544776119402986,
	"grad_norm": 0.11929216980934143,
	"learning_rate": 0.0002,
	"loss": 0.5275416374206543,
	"mean_token_accuracy": 0.7852365076541901,
	"num_tokens": 5937108.0,
	"step": 363
	},
	{
	"entropy": 0.53159399330616,
	"epoch": 1.3582089552238805,
	"grad_norm": 0.14378131926059723,
	"learning_rate": 0.0002,
	"loss": 0.5424759387969971,
	"mean_token_accuracy": 0.7792777568101883,
	"num_tokens": 5953233.0,
	"step": 364
	},
	{
	"entropy": 0.5450653731822968,
	"epoch": 1.3619402985074627,
	"grad_norm": 0.14581741392612457,
	"learning_rate": 0.0002,
	"loss": 0.5530756115913391,
	"mean_token_accuracy": 0.7765647917985916,
	"num_tokens": 5969681.0,
	"step": 365
	},
	{
	"entropy": 0.5418213754892349,
	"epoch": 1.3656716417910448,
	"grad_norm": 0.13764694333076477,
	"learning_rate": 0.0002,
	"loss": 0.5494720935821533,
	"mean_token_accuracy": 0.7783620804548264,
	"num_tokens": 5985895.0,
	"step": 366
	},
	{
	"entropy": 0.5528892427682877,
	"epoch": 1.3694029850746268,
	"grad_norm": 0.14292745292186737,
	"learning_rate": 0.0002,
	"loss": 0.5427901148796082,
	"mean_token_accuracy": 0.7794772684574127,
	"num_tokens": 6002104.0,
	"step": 367
	},
	{
	"entropy": 0.5515422970056534,
	"epoch": 1.373134328358209,
	"grad_norm": 0.12165708839893341,
	"learning_rate": 0.0002,
	"loss": 0.5388676524162292,
	"mean_token_accuracy": 0.7821601629257202,
	"num_tokens": 6018297.0,
	"step": 368
	},
	{
	"entropy": 0.5522115230560303,
	"epoch": 1.376865671641791,
	"grad_norm": 0.16414624452590942,
	"learning_rate": 0.0002,
	"loss": 0.5514496564865112,
	"mean_token_accuracy": 0.7735963463783264,
	"num_tokens": 6034469.0,
	"step": 369
	},
	{
	"entropy": 0.5200467556715012,
	"epoch": 1.3805970149253732,
	"grad_norm": 0.11550547927618027,
	"learning_rate": 0.0002,
	"loss": 0.5164188146591187,
	"mean_token_accuracy": 0.7926855981349945,
	"num_tokens": 6050831.0,
	"step": 370
	},
	{
	"entropy": 0.5372455269098282,
	"epoch": 1.3843283582089552,
	"grad_norm": 0.15535052120685577,
	"learning_rate": 0.0002,
	"loss": 0.5430443286895752,
	"mean_token_accuracy": 0.7787685394287109,
	"num_tokens": 6067185.0,
	"step": 371
	},
	{
	"entropy": 0.5356560945510864,
	"epoch": 1.3880597014925373,
	"grad_norm": 0.13415579497814178,
	"learning_rate": 0.0002,
	"loss": 0.5381686091423035,
	"mean_token_accuracy": 0.7826534509658813,
	"num_tokens": 6083549.0,
	"step": 372
	},
	{
	"entropy": 0.5160757750272751,
	"epoch": 1.3917910447761195,
	"grad_norm": 0.21146361529827118,
	"learning_rate": 0.0002,
	"loss": 0.5265405774116516,
	"mean_token_accuracy": 0.7884284406900406,
	"num_tokens": 6099748.0,
	"step": 373
	},
	{
	"entropy": 0.5486676543951035,
	"epoch": 1.3955223880597014,
	"grad_norm": 0.17727814614772797,
	"learning_rate": 0.0002,
	"loss": 0.5486956834793091,
	"mean_token_accuracy": 0.774789959192276,
	"num_tokens": 6116173.0,
	"step": 374
	},
	{
	"entropy": 0.5379186123609543,
	"epoch": 1.3992537313432836,
	"grad_norm": 0.14094142615795135,
	"learning_rate": 0.0002,
	"loss": 0.5390832424163818,
	"mean_token_accuracy": 0.7824152857065201,
	"num_tokens": 6132499.0,
	"step": 375
	},
	{
	"entropy": 0.5322713851928711,
	"epoch": 1.4029850746268657,
	"grad_norm": 0.20512345433235168,
	"learning_rate": 0.0002,
	"loss": 0.5319615602493286,
	"mean_token_accuracy": 0.7856654673814774,
	"num_tokens": 6148777.0,
	"step": 376
	},
	{
	"entropy": 0.5522319674491882,
	"epoch": 1.4067164179104479,
	"grad_norm": 0.23706185817718506,
	"learning_rate": 0.0002,
	"loss": 0.5542993545532227,
	"mean_token_accuracy": 0.7750299721956253,
	"num_tokens": 6165444.0,
	"step": 377
	},
	{
	"entropy": 0.5360774844884872,
	"epoch": 1.4104477611940298,
	"grad_norm": 0.11965668946504593,
	"learning_rate": 0.0002,
	"loss": 0.5302645564079285,
	"mean_token_accuracy": 0.7849837243556976,
	"num_tokens": 6181897.0,
	"step": 378
	},
	{
	"entropy": 0.546858549118042,
	"epoch": 1.414179104477612,
	"grad_norm": 0.16231459379196167,
	"learning_rate": 0.0002,
	"loss": 0.5448977947235107,
	"mean_token_accuracy": 0.7800662368535995,
	"num_tokens": 6198254.0,
	"step": 379
	},
	{
	"entropy": 0.5505042523145676,
	"epoch": 1.417910447761194,
	"grad_norm": 0.16832560300827026,
	"learning_rate": 0.0002,
	"loss": 0.560795247554779,
	"mean_token_accuracy": 0.7732271403074265,
	"num_tokens": 6214773.0,
	"step": 380
	},
	{
	"entropy": 0.5255255252122879,
	"epoch": 1.421641791044776,
	"grad_norm": 0.14621268212795258,
	"learning_rate": 0.0002,
	"loss": 0.5310673117637634,
	"mean_token_accuracy": 0.7856626063585281,
	"num_tokens": 6230937.0,
	"step": 381
	},
	{
	"entropy": 0.550481304526329,
	"epoch": 1.4253731343283582,
	"grad_norm": 0.13561075925827026,
	"learning_rate": 0.0002,
	"loss": 0.552341103553772,
	"mean_token_accuracy": 0.7767930179834366,
	"num_tokens": 6247144.0,
	"step": 382
	},
	{
	"entropy": 0.5227905362844467,
	"epoch": 1.4291044776119404,
	"grad_norm": 0.13489387929439545,
	"learning_rate": 0.0002,
	"loss": 0.523324191570282,
	"mean_token_accuracy": 0.7840524315834045,
	"num_tokens": 6263392.0,
	"step": 383
	},
	{
	"entropy": 0.5366068184375763,
	"epoch": 1.4328358208955223,
	"grad_norm": 0.14153233170509338,
	"learning_rate": 0.0002,
	"loss": 0.5320409536361694,
	"mean_token_accuracy": 0.7857052683830261,
	"num_tokens": 6279611.0,
	"step": 384
	},
	{
	"entropy": 0.5510872900485992,
	"epoch": 1.4365671641791045,
	"grad_norm": 0.16421180963516235,
	"learning_rate": 0.0002,
	"loss": 0.5412197709083557,
	"mean_token_accuracy": 0.7806995958089828,
	"num_tokens": 6296025.0,
	"step": 385
	},
	{
	"entropy": 0.5504460334777832,
	"epoch": 1.4402985074626866,
	"grad_norm": 0.12805409729480743,
	"learning_rate": 0.0002,
	"loss": 0.5456997156143188,
	"mean_token_accuracy": 0.7775121033191681,
	"num_tokens": 6312415.0,
	"step": 386
	},
	{
	"entropy": 0.5504113882780075,
	"epoch": 1.4440298507462686,
	"grad_norm": 0.1690564602613449,
	"learning_rate": 0.0002,
	"loss": 0.5432727932929993,
	"mean_token_accuracy": 0.7804221510887146,
	"num_tokens": 6328728.0,
	"step": 387
	},
	{
	"entropy": 0.5279664844274521,
	"epoch": 1.4477611940298507,
	"grad_norm": 0.14327631890773773,
	"learning_rate": 0.0002,
	"loss": 0.5324951410293579,
	"mean_token_accuracy": 0.7857986390590668,
	"num_tokens": 6344947.0,
	"step": 388
	},
	{
	"entropy": 0.529266320168972,
	"epoch": 1.4514925373134329,
	"grad_norm": 0.14441367983818054,
	"learning_rate": 0.0002,
	"loss": 0.5360409021377563,
	"mean_token_accuracy": 0.7844860553741455,
	"num_tokens": 6361481.0,
	"step": 389
	},
	{
	"entropy": 0.5474697202444077,
	"epoch": 1.455223880597015,
	"grad_norm": 0.17411169409751892,
	"learning_rate": 0.0002,
	"loss": 0.553131103515625,
	"mean_token_accuracy": 0.774516150355339,
	"num_tokens": 6378114.0,
	"step": 390
	},
	{
	"entropy": 0.53204146027565,
	"epoch": 1.458955223880597,
	"grad_norm": 0.13096541166305542,
	"learning_rate": 0.0002,
	"loss": 0.5311554074287415,
	"mean_token_accuracy": 0.7832191288471222,
	"num_tokens": 6394618.0,
	"step": 391
	},
	{
	"entropy": 0.5468081682920456,
	"epoch": 1.462686567164179,
	"grad_norm": 0.1281428337097168,
	"learning_rate": 0.0002,
	"loss": 0.5487358570098877,
	"mean_token_accuracy": 0.7784566432237625,
	"num_tokens": 6411033.0,
	"step": 392
	},
	{
	"entropy": 0.5141153857111931,
	"epoch": 1.4664179104477613,
	"grad_norm": 0.12739789485931396,
	"learning_rate": 0.0002,
	"loss": 0.5161206126213074,
	"mean_token_accuracy": 0.7879614979028702,
	"num_tokens": 6427279.0,
	"step": 393
	},
	{
	"entropy": 0.5423916280269623,
	"epoch": 1.4701492537313432,
	"grad_norm": 0.13173308968544006,
	"learning_rate": 0.0002,
	"loss": 0.5459262132644653,
	"mean_token_accuracy": 0.7773706614971161,
	"num_tokens": 6443618.0,
	"step": 394
	},
	{
	"entropy": 0.5373747050762177,
	"epoch": 1.4738805970149254,
	"grad_norm": 0.13537272810935974,
	"learning_rate": 0.0002,
	"loss": 0.5413709878921509,
	"mean_token_accuracy": 0.7808920592069626,
	"num_tokens": 6459976.0,
	"step": 395
	},
	{
	"entropy": 0.5321269482374191,
	"epoch": 1.4776119402985075,
	"grad_norm": 0.14240136742591858,
	"learning_rate": 0.0002,
	"loss": 0.5354140400886536,
	"mean_token_accuracy": 0.7839590162038803,
	"num_tokens": 6476177.0,
	"step": 396
	},
	{
	"entropy": 0.5257603526115417,
	"epoch": 1.4813432835820897,
	"grad_norm": 0.13054870069026947,
	"learning_rate": 0.0002,
	"loss": 0.5284422636032104,
	"mean_token_accuracy": 0.7869588881731033,
	"num_tokens": 6492490.0,
	"step": 397
	},
	{
	"entropy": 0.5265851616859436,
	"epoch": 1.4850746268656716,
	"grad_norm": 0.13740919530391693,
	"learning_rate": 0.0002,
	"loss": 0.526134192943573,
	"mean_token_accuracy": 0.7872523069381714,
	"num_tokens": 6508878.0,
	"step": 398
	},
	{
	"entropy": 0.5212059766054153,
	"epoch": 1.4888059701492538,
	"grad_norm": 0.13339075446128845,
	"learning_rate": 0.0002,
	"loss": 0.5221821665763855,
	"mean_token_accuracy": 0.7905861139297485,
	"num_tokens": 6525084.0,
	"step": 399
	},
	{
	"entropy": 0.537382185459137,
	"epoch": 1.4925373134328357,
	"grad_norm": 0.13736183941364288,
	"learning_rate": 0.0002,
	"loss": 0.5351852774620056,
	"mean_token_accuracy": 0.7818522453308105,
	"num_tokens": 6541545.0,
	"step": 400
	},
	{
	"entropy": 0.5340493619441986,
	"epoch": 1.4962686567164178,
	"grad_norm": 0.1368023306131363,
	"learning_rate": 0.0002,
	"loss": 0.5317674279212952,
	"mean_token_accuracy": 0.7867089211940765,
	"num_tokens": 6557867.0,
	"step": 401
	},
	{
	"entropy": 0.5713642686605453,
	"epoch": 1.5,
	"grad_norm": 0.12573114037513733,
	"learning_rate": 0.0002,
	"loss": 0.5638826489448547,
	"mean_token_accuracy": 0.773875430226326,
	"num_tokens": 6574428.0,
	"step": 402
	},
	{
	"entropy": 0.5415615439414978,
	"epoch": 1.5037313432835822,
	"grad_norm": 0.14824476838111877,
	"learning_rate": 0.0002,
	"loss": 0.5452718734741211,
	"mean_token_accuracy": 0.7793742418289185,
	"num_tokens": 6590740.0,
	"step": 403
	},
	{
	"entropy": 0.5316762626171112,
	"epoch": 1.5074626865671643,
	"grad_norm": 0.13510265946388245,
	"learning_rate": 0.0002,
	"loss": 0.5399596691131592,
	"mean_token_accuracy": 0.7803886234760284,
	"num_tokens": 6606963.0,
	"step": 404
	},
	{
	"entropy": 0.5310466289520264,
	"epoch": 1.5111940298507462,
	"grad_norm": 0.1413303166627884,
	"learning_rate": 0.0002,
	"loss": 0.532017707824707,
	"mean_token_accuracy": 0.7846063524484634,
	"num_tokens": 6623504.0,
	"step": 405
	},
	{
	"entropy": 0.5623253732919693,
	"epoch": 1.5149253731343284,
	"grad_norm": 0.1327054351568222,
	"learning_rate": 0.0002,
	"loss": 0.5590583682060242,
	"mean_token_accuracy": 0.7741520255804062,
	"num_tokens": 6639880.0,
	"step": 406
	},
	{
	"entropy": 0.5222483575344086,
	"epoch": 1.5186567164179103,
	"grad_norm": 0.14219273626804352,
	"learning_rate": 0.0002,
	"loss": 0.5221630930900574,
	"mean_token_accuracy": 0.7884060740470886,
	"num_tokens": 6656372.0,
	"step": 407
	},
	{
	"entropy": 0.5361650884151459,
	"epoch": 1.5223880597014925,
	"grad_norm": 0.14150315523147583,
	"learning_rate": 0.0002,
	"loss": 0.5426543951034546,
	"mean_token_accuracy": 0.7794915586709976,
	"num_tokens": 6672460.0,
	"step": 408
	},
	{
	"entropy": 0.5405853539705276,
	"epoch": 1.5261194029850746,
	"grad_norm": 0.12867780029773712,
	"learning_rate": 0.0002,
	"loss": 0.545219361782074,
	"mean_token_accuracy": 0.7802143394947052,
	"num_tokens": 6688740.0,
	"step": 409
	},
	{
	"entropy": 0.5196312442421913,
	"epoch": 1.5298507462686568,
	"grad_norm": 0.12933768332004547,
	"learning_rate": 0.0002,
	"loss": 0.524722695350647,
	"mean_token_accuracy": 0.7893691807985306,
	"num_tokens": 6704798.0,
	"step": 410
	},
	{
	"entropy": 0.5358741357922554,
	"epoch": 1.533582089552239,
	"grad_norm": 0.14841386675834656,
	"learning_rate": 0.0002,
	"loss": 0.5425981879234314,
	"mean_token_accuracy": 0.7796852141618729,
	"num_tokens": 6720982.0,
	"step": 411
	},
	{
	"entropy": 0.5389422178268433,
	"epoch": 1.537313432835821,
	"grad_norm": 0.12372686713933945,
	"learning_rate": 0.0002,
	"loss": 0.5368393063545227,
	"mean_token_accuracy": 0.7788573652505875,
	"num_tokens": 6737135.0,
	"step": 412
	},
	{
	"entropy": 0.5395499765872955,
	"epoch": 1.5410447761194028,
	"grad_norm": 0.1355394721031189,
	"learning_rate": 0.0002,
	"loss": 0.5324706435203552,
	"mean_token_accuracy": 0.7823397219181061,
	"num_tokens": 6753507.0,
	"step": 413
	},
	{
	"entropy": 0.5506737977266312,
	"epoch": 1.544776119402985,
	"grad_norm": 0.11822586506605148,
	"learning_rate": 0.0002,
	"loss": 0.5447027087211609,
	"mean_token_accuracy": 0.7776395529508591,
	"num_tokens": 6769726.0,
	"step": 414
	},
	{
	"entropy": 0.5393240600824356,
	"epoch": 1.5485074626865671,
	"grad_norm": 0.1220259889960289,
	"learning_rate": 0.0002,
	"loss": 0.5348957180976868,
	"mean_token_accuracy": 0.7820345014333725,
	"num_tokens": 6786148.0,
	"step": 415
	},
	{
	"entropy": 0.5258119255304337,
	"epoch": 1.5522388059701493,
	"grad_norm": 0.15211379528045654,
	"learning_rate": 0.0002,
	"loss": 0.5274648666381836,
	"mean_token_accuracy": 0.7861866801977158,
	"num_tokens": 6802290.0,
	"step": 416
	},
	{
	"entropy": 0.5310887396335602,
	"epoch": 1.5559701492537314,
	"grad_norm": 0.1319982260465622,
	"learning_rate": 0.0002,
	"loss": 0.5339083075523376,
	"mean_token_accuracy": 0.7847474962472916,
	"num_tokens": 6818697.0,
	"step": 417
	},
	{
	"entropy": 0.5216883644461632,
	"epoch": 1.5597014925373134,
	"grad_norm": 0.13150501251220703,
	"learning_rate": 0.0002,
	"loss": 0.5250256061553955,
	"mean_token_accuracy": 0.7854708880186081,
	"num_tokens": 6834860.0,
	"step": 418
	},
	{
	"entropy": 0.5280915200710297,
	"epoch": 1.5634328358208955,
	"grad_norm": 0.13087767362594604,
	"learning_rate": 0.0002,
	"loss": 0.5294699668884277,
	"mean_token_accuracy": 0.7844147831201553,
	"num_tokens": 6850977.0,
	"step": 419
	},
	{
	"entropy": 0.5455043911933899,
	"epoch": 1.5671641791044775,
	"grad_norm": 0.13152527809143066,
	"learning_rate": 0.0002,
	"loss": 0.5411855578422546,
	"mean_token_accuracy": 0.7831065207719803,
	"num_tokens": 6867436.0,
	"step": 420
	},
	{
	"entropy": 0.5421444773674011,
	"epoch": 1.5708955223880596,
	"grad_norm": 0.12552635371685028,
	"learning_rate": 0.0002,
	"loss": 0.5404070615768433,
	"mean_token_accuracy": 0.7799917608499527,
	"num_tokens": 6883739.0,
	"step": 421
	},
	{
	"entropy": 0.5469988659024239,
	"epoch": 1.5746268656716418,
	"grad_norm": 0.12713049352169037,
	"learning_rate": 0.0002,
	"loss": 0.5506969690322876,
	"mean_token_accuracy": 0.7773310244083405,
	"num_tokens": 6899931.0,
	"step": 422
	},
	{
	"entropy": 0.5409539192914963,
	"epoch": 1.578358208955224,
	"grad_norm": 0.12043388932943344,
	"learning_rate": 0.0002,
	"loss": 0.5393781661987305,
	"mean_token_accuracy": 0.7821668684482574,
	"num_tokens": 6916555.0,
	"step": 423
	},
	{
	"entropy": 0.5323537066578865,
	"epoch": 1.582089552238806,
	"grad_norm": 0.15053188800811768,
	"learning_rate": 0.0002,
	"loss": 0.5387845039367676,
	"mean_token_accuracy": 0.7825682461261749,
	"num_tokens": 6932929.0,
	"step": 424
	},
	{
	"entropy": 0.5519883185625076,
	"epoch": 1.585820895522388,
	"grad_norm": 0.1525130718946457,
	"learning_rate": 0.0002,
	"loss": 0.56787109375,
	"mean_token_accuracy": 0.7703519463539124,
	"num_tokens": 6949313.0,
	"step": 425
	},
	{
	"entropy": 0.5393707901239395,
	"epoch": 1.5895522388059702,
	"grad_norm": 0.14073340594768524,
	"learning_rate": 0.0002,
	"loss": 0.5375410914421082,
	"mean_token_accuracy": 0.7814988791942596,
	"num_tokens": 6965684.0,
	"step": 426
	},
	{
	"entropy": 0.5354568511247635,
	"epoch": 1.5932835820895521,
	"grad_norm": 0.13749349117279053,
	"learning_rate": 0.0002,
	"loss": 0.5318333506584167,
	"mean_token_accuracy": 0.7864338159561157,
	"num_tokens": 6982013.0,
	"step": 427
	},
	{
	"entropy": 0.5405145287513733,
	"epoch": 1.5970149253731343,
	"grad_norm": 0.12070662528276443,
	"learning_rate": 0.0002,
	"loss": 0.5362390279769897,
	"mean_token_accuracy": 0.7832798510789871,
	"num_tokens": 6998503.0,
	"step": 428
	},
	{
	"entropy": 0.5447606593370438,
	"epoch": 1.6007462686567164,
	"grad_norm": 0.1386427879333496,
	"learning_rate": 0.0002,
	"loss": 0.5441482663154602,
	"mean_token_accuracy": 0.778590589761734,
	"num_tokens": 7014770.0,
	"step": 429
	},
	{
	"entropy": 0.5470203310251236,
	"epoch": 1.6044776119402986,
	"grad_norm": 0.13212502002716064,
	"learning_rate": 0.0002,
	"loss": 0.5490391850471497,
	"mean_token_accuracy": 0.7765385806560516,
	"num_tokens": 7030922.0,
	"step": 430
	},
	{
	"entropy": 0.5170739889144897,
	"epoch": 1.6082089552238807,
	"grad_norm": 0.13961301743984222,
	"learning_rate": 0.0002,
	"loss": 0.5210376381874084,
	"mean_token_accuracy": 0.7884235680103302,
	"num_tokens": 7047216.0,
	"step": 431
	},
	{
	"entropy": 0.5377417504787445,
	"epoch": 1.6119402985074627,
	"grad_norm": 0.13901281356811523,
	"learning_rate": 0.0002,
	"loss": 0.5376747846603394,
	"mean_token_accuracy": 0.7830623835325241,
	"num_tokens": 7063307.0,
	"step": 432
	},
	{
	"entropy": 0.5414564162492752,
	"epoch": 1.6156716417910446,
	"grad_norm": 0.1463043987751007,
	"learning_rate": 0.0002,
	"loss": 0.5473238825798035,
	"mean_token_accuracy": 0.7770842909812927,
	"num_tokens": 7079707.0,
	"step": 433
	},
	{
	"entropy": 0.5415572673082352,
	"epoch": 1.6194029850746268,
	"grad_norm": 0.11891120672225952,
	"learning_rate": 0.0002,
	"loss": 0.5387373566627502,
	"mean_token_accuracy": 0.779969111084938,
	"num_tokens": 7095980.0,
	"step": 434
	},
	{
	"entropy": 0.5542661100625992,
	"epoch": 1.623134328358209,
	"grad_norm": 0.13271500170230865,
	"learning_rate": 0.0002,
	"loss": 0.5507120490074158,
	"mean_token_accuracy": 0.7779867500066757,
	"num_tokens": 7112556.0,
	"step": 435
	},
	{
	"entropy": 0.54887755215168,
	"epoch": 1.626865671641791,
	"grad_norm": 0.13373985886573792,
	"learning_rate": 0.0002,
	"loss": 0.5447692275047302,
	"mean_token_accuracy": 0.7798765897750854,
	"num_tokens": 7128802.0,
	"step": 436
	},
	{
	"entropy": 0.5222520381212234,
	"epoch": 1.6305970149253732,
	"grad_norm": 0.1277901828289032,
	"learning_rate": 0.0002,
	"loss": 0.5239554643630981,
	"mean_token_accuracy": 0.785177692770958,
	"num_tokens": 7145060.0,
	"step": 437
	},
	{
	"entropy": 0.53469417989254,
	"epoch": 1.6343283582089554,
	"grad_norm": 0.20547546446323395,
	"learning_rate": 0.0002,
	"loss": 0.5367586612701416,
	"mean_token_accuracy": 0.7803931534290314,
	"num_tokens": 7161527.0,
	"step": 438
	},
	{
	"entropy": 0.521802693605423,
	"epoch": 1.6380597014925373,
	"grad_norm": 0.16560786962509155,
	"learning_rate": 0.0002,
	"loss": 0.5228012204170227,
	"mean_token_accuracy": 0.7887944877147675,
	"num_tokens": 7178091.0,
	"step": 439
	},
	{
	"entropy": 0.5338825434446335,
	"epoch": 1.6417910447761193,
	"grad_norm": 0.1590629667043686,
	"learning_rate": 0.0002,
	"loss": 0.5402793288230896,
	"mean_token_accuracy": 0.7781020998954773,
	"num_tokens": 7194244.0,
	"step": 440
	},
	{
	"entropy": 0.5395276695489883,
	"epoch": 1.6455223880597014,
	"grad_norm": 0.14088116586208344,
	"learning_rate": 0.0002,
	"loss": 0.5401326417922974,
	"mean_token_accuracy": 0.781720831990242,
	"num_tokens": 7210451.0,
	"step": 441
	},
	{
	"entropy": 0.5567539632320404,
	"epoch": 1.6492537313432836,
	"grad_norm": 0.19292442500591278,
	"learning_rate": 0.0002,
	"loss": 0.5627314448356628,
	"mean_token_accuracy": 0.7719661146402359,
	"num_tokens": 7226996.0,
	"step": 442
	},
	{
	"entropy": 0.534116804599762,
	"epoch": 1.6529850746268657,
	"grad_norm": 0.1254442036151886,
	"learning_rate": 0.0002,
	"loss": 0.533519983291626,
	"mean_token_accuracy": 0.7840958386659622,
	"num_tokens": 7243430.0,
	"step": 443
	},
	{
	"entropy": 0.5330116599798203,
	"epoch": 1.6567164179104479,
	"grad_norm": 0.1718529760837555,
	"learning_rate": 0.0002,
	"loss": 0.5330148339271545,
	"mean_token_accuracy": 0.7830322086811066,
	"num_tokens": 7259764.0,
	"step": 444
	},
	{
	"entropy": 0.5424318462610245,
	"epoch": 1.6604477611940298,
	"grad_norm": 0.13064436614513397,
	"learning_rate": 0.0002,
	"loss": 0.5422405004501343,
	"mean_token_accuracy": 0.7796443551778793,
	"num_tokens": 7276147.0,
	"step": 445
	},
	{
	"entropy": 0.555829331278801,
	"epoch": 1.664179104477612,
	"grad_norm": 0.12649741768836975,
	"learning_rate": 0.0002,
	"loss": 0.5439899563789368,
	"mean_token_accuracy": 0.7798557877540588,
	"num_tokens": 7292719.0,
	"step": 446
	},
	{
	"entropy": 0.5564119815826416,
	"epoch": 1.667910447761194,
	"grad_norm": 0.140034019947052,
	"learning_rate": 0.0002,
	"loss": 0.5546625256538391,
	"mean_token_accuracy": 0.7761601060628891,
	"num_tokens": 7309242.0,
	"step": 447
	},
	{
	"entropy": 0.5416673123836517,
	"epoch": 1.671641791044776,
	"grad_norm": 0.1388692855834961,
	"learning_rate": 0.0002,
	"loss": 0.541693389415741,
	"mean_token_accuracy": 0.7807905972003937,
	"num_tokens": 7325872.0,
	"step": 448
	},
	{
	"entropy": 0.5325654745101929,
	"epoch": 1.6753731343283582,
	"grad_norm": 0.1330399215221405,
	"learning_rate": 0.0002,
	"loss": 0.5375967025756836,
	"mean_token_accuracy": 0.780772253870964,
	"num_tokens": 7342461.0,
	"step": 449
	},
	{
	"entropy": 0.5460408478975296,
	"epoch": 1.6791044776119404,
	"grad_norm": 0.1698281317949295,
	"learning_rate": 0.0002,
	"loss": 0.5483989119529724,
	"mean_token_accuracy": 0.7757564038038254,
	"num_tokens": 7358926.0,
	"step": 450
	},
	{
	"entropy": 0.5587185472249985,
	"epoch": 1.6828358208955225,
	"grad_norm": 0.150365948677063,
	"learning_rate": 0.0002,
	"loss": 0.5607273578643799,
	"mean_token_accuracy": 0.7735442072153091,
	"num_tokens": 7375472.0,
	"step": 451
	},
	{
	"entropy": 0.5546591132879257,
	"epoch": 1.6865671641791045,
	"grad_norm": 0.13346362113952637,
	"learning_rate": 0.0002,
	"loss": 0.5498383045196533,
	"mean_token_accuracy": 0.7771503031253815,
	"num_tokens": 7391758.0,
	"step": 452
	},
	{
	"entropy": 0.5380023121833801,
	"epoch": 1.6902985074626866,
	"grad_norm": 0.15642641484737396,
	"learning_rate": 0.0002,
	"loss": 0.540310263633728,
	"mean_token_accuracy": 0.7800187021493912,
	"num_tokens": 7407943.0,
	"step": 453
	},
	{
	"entropy": 0.5107243284583092,
	"epoch": 1.6940298507462686,
	"grad_norm": 0.1413007378578186,
	"learning_rate": 0.0002,
	"loss": 0.5198100209236145,
	"mean_token_accuracy": 0.7903516441583633,
	"num_tokens": 7424142.0,
	"step": 454
	},
	{
	"entropy": 0.5318749994039536,
	"epoch": 1.6977611940298507,
	"grad_norm": 0.13885854184627533,
	"learning_rate": 0.0002,
	"loss": 0.5412630438804626,
	"mean_token_accuracy": 0.7793916463851929,
	"num_tokens": 7440451.0,
	"step": 455
	},
	{
	"entropy": 0.5525089502334595,
	"epoch": 1.7014925373134329,
	"grad_norm": 0.12943100929260254,
	"learning_rate": 0.0002,
	"loss": 0.5551573634147644,
	"mean_token_accuracy": 0.7760037779808044,
	"num_tokens": 7456977.0,
	"step": 456
	},
	{
	"entropy": 0.5402176976203918,
	"epoch": 1.705223880597015,
	"grad_norm": 0.15211442112922668,
	"learning_rate": 0.0002,
	"loss": 0.5398398041725159,
	"mean_token_accuracy": 0.779134064912796,
	"num_tokens": 7473154.0,
	"step": 457
	},
	{
	"entropy": 0.5625119209289551,
	"epoch": 1.7089552238805972,
	"grad_norm": 0.12840458750724792,
	"learning_rate": 0.0002,
	"loss": 0.5544787645339966,
	"mean_token_accuracy": 0.7756093442440033,
	"num_tokens": 7489492.0,
	"step": 458
	},
	{
	"entropy": 0.5442609488964081,
	"epoch": 1.712686567164179,
	"grad_norm": 0.13839711248874664,
	"learning_rate": 0.0002,
	"loss": 0.5437784194946289,
	"mean_token_accuracy": 0.7818922996520996,
	"num_tokens": 7505874.0,
	"step": 459
	},
	{
	"entropy": 0.5575658231973648,
	"epoch": 1.716417910447761,
	"grad_norm": 0.14238221943378448,
	"learning_rate": 0.0002,
	"loss": 0.5612136125564575,
	"mean_token_accuracy": 0.7718513458967209,
	"num_tokens": 7522288.0,
	"step": 460
	},
	{
	"entropy": 0.535207062959671,
	"epoch": 1.7201492537313432,
	"grad_norm": 0.13308024406433105,
	"learning_rate": 0.0002,
	"loss": 0.5384257435798645,
	"mean_token_accuracy": 0.7802019715309143,
	"num_tokens": 7538764.0,
	"step": 461
	},
	{
	"entropy": 0.5290672108530998,
	"epoch": 1.7238805970149254,
	"grad_norm": 0.14699077606201172,
	"learning_rate": 0.0002,
	"loss": 0.533920168876648,
	"mean_token_accuracy": 0.7809716016054153,
	"num_tokens": 7555048.0,
	"step": 462
	},
	{
	"entropy": 0.5349759012460709,
	"epoch": 1.7276119402985075,
	"grad_norm": 0.13993169367313385,
	"learning_rate": 0.0002,
	"loss": 0.5397127866744995,
	"mean_token_accuracy": 0.781706914305687,
	"num_tokens": 7571331.0,
	"step": 463
	},
	{
	"entropy": 0.5471459329128265,
	"epoch": 1.7313432835820897,
	"grad_norm": 0.1270606368780136,
	"learning_rate": 0.0002,
	"loss": 0.5457655191421509,
	"mean_token_accuracy": 0.7785040736198425,
	"num_tokens": 7587268.0,
	"step": 464
	},
	{
	"entropy": 0.5576677769422531,
	"epoch": 1.7350746268656716,
	"grad_norm": 0.13001851737499237,
	"learning_rate": 0.0002,
	"loss": 0.5535344481468201,
	"mean_token_accuracy": 0.7747954726219177,
	"num_tokens": 7603468.0,
	"step": 465
	},
	{
	"entropy": 0.5527965128421783,
	"epoch": 1.7388059701492538,
	"grad_norm": 0.11191874742507935,
	"learning_rate": 0.0002,
	"loss": 0.5493273138999939,
	"mean_token_accuracy": 0.7783663272857666,
	"num_tokens": 7619861.0,
	"step": 466
	},
	{
	"entropy": 0.5458428710699081,
	"epoch": 1.7425373134328357,
	"grad_norm": 0.12890613079071045,
	"learning_rate": 0.0002,
	"loss": 0.5422653555870056,
	"mean_token_accuracy": 0.7804641127586365,
	"num_tokens": 7636365.0,
	"step": 467
	},
	{
	"entropy": 0.5396646112203598,
	"epoch": 1.7462686567164178,
	"grad_norm": 0.14643065631389618,
	"learning_rate": 0.0002,
	"loss": 0.540531575679779,
	"mean_token_accuracy": 0.7787915468215942,
	"num_tokens": 7652695.0,
	"step": 468
	},
	{
	"entropy": 0.5489283800125122,
	"epoch": 1.75,
	"grad_norm": 0.12856297194957733,
	"learning_rate": 0.0002,
	"loss": 0.5493489503860474,
	"mean_token_accuracy": 0.7765475660562515,
	"num_tokens": 7669417.0,
	"step": 469
	},
	{
	"entropy": 0.5371540188789368,
	"epoch": 1.7537313432835822,
	"grad_norm": 0.1448490023612976,
	"learning_rate": 0.0002,
	"loss": 0.5445014238357544,
	"mean_token_accuracy": 0.7786155045032501,
	"num_tokens": 7685950.0,
	"step": 470
	},
	{
	"entropy": 0.5441175699234009,
	"epoch": 1.7574626865671643,
	"grad_norm": 0.1417449563741684,
	"learning_rate": 0.0002,
	"loss": 0.5456334352493286,
	"mean_token_accuracy": 0.7806714922189713,
	"num_tokens": 7702096.0,
	"step": 471
	},
	{
	"entropy": 0.534687414765358,
	"epoch": 1.7611940298507462,
	"grad_norm": 0.13397443294525146,
	"learning_rate": 0.0002,
	"loss": 0.5369069576263428,
	"mean_token_accuracy": 0.7817386239767075,
	"num_tokens": 7718461.0,
	"step": 472
	},
	{
	"entropy": 0.5490274131298065,
	"epoch": 1.7649253731343284,
	"grad_norm": 0.1352432817220688,
	"learning_rate": 0.0002,
	"loss": 0.5512405633926392,
	"mean_token_accuracy": 0.7781344056129456,
	"num_tokens": 7734927.0,
	"step": 473
	},
	{
	"entropy": 0.5476491898298264,
	"epoch": 1.7686567164179103,
	"grad_norm": 0.13750651478767395,
	"learning_rate": 0.0002,
	"loss": 0.5536763668060303,
	"mean_token_accuracy": 0.7743410021066666,
	"num_tokens": 7751415.0,
	"step": 474
	},
	{
	"entropy": 0.524419367313385,
	"epoch": 1.7723880597014925,
	"grad_norm": 0.13306710124015808,
	"learning_rate": 0.0002,
	"loss": 0.5263890624046326,
	"mean_token_accuracy": 0.7842015773057938,
	"num_tokens": 7767584.0,
	"step": 475
	},
	{
	"entropy": 0.5515109747648239,
	"epoch": 1.7761194029850746,
	"grad_norm": 0.13014942407608032,
	"learning_rate": 0.0002,
	"loss": 0.546906590461731,
	"mean_token_accuracy": 0.7791758924722672,
	"num_tokens": 7783929.0,
	"step": 476
	},
	{
	"entropy": 0.5460219085216522,
	"epoch": 1.7798507462686568,
	"grad_norm": 0.12750543653964996,
	"learning_rate": 0.0002,
	"loss": 0.5416713953018188,
	"mean_token_accuracy": 0.7796966135501862,
	"num_tokens": 7800322.0,
	"step": 477
	},
	{
	"entropy": 0.5496509969234467,
	"epoch": 1.783582089552239,
	"grad_norm": 0.14019764959812164,
	"learning_rate": 0.0002,
	"loss": 0.5501259565353394,
	"mean_token_accuracy": 0.7778430730104446,
	"num_tokens": 7816728.0,
	"step": 478
	},
	{
	"entropy": 0.5484806597232819,
	"epoch": 1.787313432835821,
	"grad_norm": 0.12671294808387756,
	"learning_rate": 0.0002,
	"loss": 0.546718418598175,
	"mean_token_accuracy": 0.7767283469438553,
	"num_tokens": 7833182.0,
	"step": 479
	},
	{
	"entropy": 0.5313283354043961,
	"epoch": 1.7910447761194028,
	"grad_norm": 0.16472716629505157,
	"learning_rate": 0.0002,
	"loss": 0.5414275527000427,
	"mean_token_accuracy": 0.7815513163805008,
	"num_tokens": 7849402.0,
	"step": 480
	},
	{
	"entropy": 0.516701802611351,
	"epoch": 1.794776119402985,
	"grad_norm": 0.157722607254982,
	"learning_rate": 0.0002,
	"loss": 0.5291575789451599,
	"mean_token_accuracy": 0.7844545841217041,
	"num_tokens": 7865503.0,
	"step": 481
	},
	{
	"entropy": 0.5476036965847015,
	"epoch": 1.7985074626865671,
	"grad_norm": 0.16708603501319885,
	"learning_rate": 0.0002,
	"loss": 0.5535966157913208,
	"mean_token_accuracy": 0.7750539481639862,
	"num_tokens": 7881822.0,
	"step": 482
	},
	{
	"entropy": 0.5405763983726501,
	"epoch": 1.8022388059701493,
	"grad_norm": 0.12333223968744278,
	"learning_rate": 0.0002,
	"loss": 0.5385177731513977,
	"mean_token_accuracy": 0.7838984429836273,
	"num_tokens": 7898111.0,
	"step": 483
	},
	{
	"entropy": 0.5573789775371552,
	"epoch": 1.8059701492537314,
	"grad_norm": 0.14407449960708618,
	"learning_rate": 0.0002,
	"loss": 0.541386067867279,
	"mean_token_accuracy": 0.7797874957323074,
	"num_tokens": 7914518.0,
	"step": 484
	},
	{
	"entropy": 0.5439587533473969,
	"epoch": 1.8097014925373134,
	"grad_norm": 0.1654428094625473,
	"learning_rate": 0.0002,
	"loss": 0.5336223244667053,
	"mean_token_accuracy": 0.7846554070711136,
	"num_tokens": 7930884.0,
	"step": 485
	},
	{
	"entropy": 0.536734089255333,
	"epoch": 1.8134328358208955,
	"grad_norm": 0.15028727054595947,
	"learning_rate": 0.0002,
	"loss": 0.5363267660140991,
	"mean_token_accuracy": 0.786723256111145,
	"num_tokens": 7947486.0,
	"step": 486
	},
	{
	"entropy": 0.5316303819417953,
	"epoch": 1.8171641791044775,
	"grad_norm": 0.2185370773077011,
	"learning_rate": 0.0002,
	"loss": 0.5426980257034302,
	"mean_token_accuracy": 0.7816258370876312,
	"num_tokens": 7963754.0,
	"step": 487
	},
	{
	"entropy": 0.5372888445854187,
	"epoch": 1.8208955223880596,
	"grad_norm": 0.14039121568202972,
	"learning_rate": 0.0002,
	"loss": 0.5452357530593872,
	"mean_token_accuracy": 0.7777333706617355,
	"num_tokens": 7980178.0,
	"step": 488
	},
	{
	"entropy": 0.561303973197937,
	"epoch": 1.8246268656716418,
	"grad_norm": 0.2095021903514862,
	"learning_rate": 0.0002,
	"loss": 0.5606201887130737,
	"mean_token_accuracy": 0.7701640874147415,
	"num_tokens": 7996414.0,
	"step": 489
	},
	{
	"entropy": 0.5401351600885391,
	"epoch": 1.828358208955224,
	"grad_norm": 0.13168978691101074,
	"learning_rate": 0.0002,
	"loss": 0.5416175723075867,
	"mean_token_accuracy": 0.7801533341407776,
	"num_tokens": 8012578.0,
	"step": 490
	},
	{
	"entropy": 0.5480149686336517,
	"epoch": 1.832089552238806,
	"grad_norm": 0.18209180235862732,
	"learning_rate": 0.0002,
	"loss": 0.5433698892593384,
	"mean_token_accuracy": 0.7793498337268829,
	"num_tokens": 8029063.0,
	"step": 491
	},
	{
	"entropy": 0.5556472986936569,
	"epoch": 1.835820895522388,
	"grad_norm": 0.14936800301074982,
	"learning_rate": 0.0002,
	"loss": 0.5554640293121338,
	"mean_token_accuracy": 0.7756128907203674,
	"num_tokens": 8045335.0,
	"step": 492
	},
	{
	"entropy": 0.551779106259346,
	"epoch": 1.8395522388059702,
	"grad_norm": 0.16466236114501953,
	"learning_rate": 0.0002,
	"loss": 0.5527586936950684,
	"mean_token_accuracy": 0.7768742144107819,
	"num_tokens": 8061746.0,
	"step": 493
	},
	{
	"entropy": 0.5395959764719009,
	"epoch": 1.8432835820895521,
	"grad_norm": 0.17139406502246857,
	"learning_rate": 0.0002,
	"loss": 0.5481644868850708,
	"mean_token_accuracy": 0.7803965657949448,
	"num_tokens": 8078227.0,
	"step": 494
	},
	{
	"entropy": 0.544280469417572,
	"epoch": 1.8470149253731343,
	"grad_norm": 0.14393140375614166,
	"learning_rate": 0.0002,
	"loss": 0.55059415102005,
	"mean_token_accuracy": 0.7759814560413361,
	"num_tokens": 8094667.0,
	"step": 495
	},
	{
	"entropy": 0.5303434431552887,
	"epoch": 1.8507462686567164,
	"grad_norm": 0.16556651890277863,
	"learning_rate": 0.0002,
	"loss": 0.530941903591156,
	"mean_token_accuracy": 0.7859343141317368,
	"num_tokens": 8110787.0,
	"step": 496
	},
	{
	"entropy": 0.5236229598522186,
	"epoch": 1.8544776119402986,
	"grad_norm": 0.12482267618179321,
	"learning_rate": 0.0002,
	"loss": 0.5197535753250122,
	"mean_token_accuracy": 0.7890704125165939,
	"num_tokens": 8127133.0,
	"step": 497
	},
	{
	"entropy": 0.5396426022052765,
	"epoch": 1.8582089552238807,
	"grad_norm": 0.1538504958152771,
	"learning_rate": 0.0002,
	"loss": 0.5361296534538269,
	"mean_token_accuracy": 0.7814654260873795,
	"num_tokens": 8143434.0,
	"step": 498
	},
	{
	"entropy": 0.5484279841184616,
	"epoch": 1.8619402985074627,
	"grad_norm": 0.14813822507858276,
	"learning_rate": 0.0002,
	"loss": 0.5464996695518494,
	"mean_token_accuracy": 0.7787739634513855,
	"num_tokens": 8159903.0,
	"step": 499
	},
	{
	"entropy": 0.519238218665123,
	"epoch": 1.8656716417910446,
	"grad_norm": 0.13267366588115692,
	"learning_rate": 0.0002,
	"loss": 0.5259124040603638,
	"mean_token_accuracy": 0.7888814806938171,
	"num_tokens": 8176179.0,
	"step": 500
	},
	{
	"entropy": 0.5393799841403961,
	"epoch": 1.8694029850746268,
	"grad_norm": 0.1923193484544754,
	"learning_rate": 0.0002,
	"loss": 0.5401571989059448,
	"mean_token_accuracy": 0.7801343649625778,
	"num_tokens": 8192554.0,
	"step": 501
	},
	{
	"entropy": 0.532251313328743,
	"epoch": 1.873134328358209,
	"grad_norm": 0.13894309103488922,
	"learning_rate": 0.0002,
	"loss": 0.527220606803894,
	"mean_token_accuracy": 0.7864662110805511,
	"num_tokens": 8208849.0,
	"step": 502
	},
	{
	"entropy": 0.5306680351495743,
	"epoch": 1.876865671641791,
	"grad_norm": 0.1474749892950058,
	"learning_rate": 0.0002,
	"loss": 0.5287739038467407,
	"mean_token_accuracy": 0.7855399250984192,
	"num_tokens": 8225218.0,
	"step": 503
	},
	{
	"entropy": 0.5300537943840027,
	"epoch": 1.8805970149253732,
	"grad_norm": 0.1491105705499649,
	"learning_rate": 0.0002,
	"loss": 0.5314114093780518,
	"mean_token_accuracy": 0.7854063659906387,
	"num_tokens": 8241422.0,
	"step": 504
	},
	{
	"entropy": 0.5309967398643494,
	"epoch": 1.8843283582089554,
	"grad_norm": 0.15464921295642853,
	"learning_rate": 0.0002,
	"loss": 0.5415985584259033,
	"mean_token_accuracy": 0.7829921096563339,
	"num_tokens": 8257677.0,
	"step": 505
	},
	{
	"entropy": 0.5376427173614502,
	"epoch": 1.8880597014925373,
	"grad_norm": 0.1445028930902481,
	"learning_rate": 0.0002,
	"loss": 0.5402049422264099,
	"mean_token_accuracy": 0.781824991106987,
	"num_tokens": 8274079.0,
	"step": 506
	},
	{
	"entropy": 0.5335574001073837,
	"epoch": 1.8917910447761193,
	"grad_norm": 0.12303903698921204,
	"learning_rate": 0.0002,
	"loss": 0.530457079410553,
	"mean_token_accuracy": 0.7857005745172501,
	"num_tokens": 8290576.0,
	"step": 507
	},
	{
	"entropy": 0.5357225090265274,
	"epoch": 1.8955223880597014,
	"grad_norm": 0.14474186301231384,
	"learning_rate": 0.0002,
	"loss": 0.5326468348503113,
	"mean_token_accuracy": 0.7827298194169998,
	"num_tokens": 8306959.0,
	"step": 508
	},
	{
	"entropy": 0.5418558418750763,
	"epoch": 1.8992537313432836,
	"grad_norm": 0.13205651938915253,
	"learning_rate": 0.0002,
	"loss": 0.5394735932350159,
	"mean_token_accuracy": 0.7811231166124344,
	"num_tokens": 8323198.0,
	"step": 509
	},
	{
	"entropy": 0.5494632720947266,
	"epoch": 1.9029850746268657,
	"grad_norm": 0.13867227733135223,
	"learning_rate": 0.0002,
	"loss": 0.5512980818748474,
	"mean_token_accuracy": 0.7792128920555115,
	"num_tokens": 8339407.0,
	"step": 510
	},
	{
	"entropy": 0.527800902724266,
	"epoch": 1.9067164179104479,
	"grad_norm": 0.1300196498632431,
	"learning_rate": 0.0002,
	"loss": 0.5310680866241455,
	"mean_token_accuracy": 0.7856706976890564,
	"num_tokens": 8355694.0,
	"step": 511
	},
	{
	"entropy": 0.5433302372694016,
	"epoch": 1.9104477611940298,
	"grad_norm": 0.16294771432876587,
	"learning_rate": 0.0002,
	"loss": 0.5532437562942505,
	"mean_token_accuracy": 0.7759810388088226,
	"num_tokens": 8371710.0,
	"step": 512
	},
	{
	"entropy": 0.5244318097829819,
	"epoch": 1.914179104477612,
	"grad_norm": 0.13300037384033203,
	"learning_rate": 0.0002,
	"loss": 0.5271862149238586,
	"mean_token_accuracy": 0.7844917327165604,
	"num_tokens": 8387964.0,
	"step": 513
	},
	{
	"entropy": 0.5421733111143112,
	"epoch": 1.917910447761194,
	"grad_norm": 0.12434980273246765,
	"learning_rate": 0.0002,
	"loss": 0.5377052426338196,
	"mean_token_accuracy": 0.7836858928203583,
	"num_tokens": 8404373.0,
	"step": 514
	},
	{
	"entropy": 0.5615102648735046,
	"epoch": 1.921641791044776,
	"grad_norm": 0.1264066845178604,
	"learning_rate": 0.0002,
	"loss": 0.558891236782074,
	"mean_token_accuracy": 0.7723990976810455,
	"num_tokens": 8420907.0,
	"step": 515
	},
	{
	"entropy": 0.5428318381309509,
	"epoch": 1.9253731343283582,
	"grad_norm": 0.13190090656280518,
	"learning_rate": 0.0002,
	"loss": 0.5374886393547058,
	"mean_token_accuracy": 0.7830605953931808,
	"num_tokens": 8437255.0,
	"step": 516
	},
	{
	"entropy": 0.5324592739343643,
	"epoch": 1.9291044776119404,
	"grad_norm": 0.13782039284706116,
	"learning_rate": 0.0002,
	"loss": 0.5368908643722534,
	"mean_token_accuracy": 0.7810968607664108,
	"num_tokens": 8453657.0,
	"step": 517
	},
	{
	"entropy": 0.563809260725975,
	"epoch": 1.9328358208955225,
	"grad_norm": 0.11932537704706192,
	"learning_rate": 0.0002,
	"loss": 0.5596674680709839,
	"mean_token_accuracy": 0.7723207473754883,
	"num_tokens": 8470566.0,
	"step": 518
	},
	{
	"entropy": 0.550938680768013,
	"epoch": 1.9365671641791045,
	"grad_norm": 0.13882781565189362,
	"learning_rate": 0.0002,
	"loss": 0.5502666234970093,
	"mean_token_accuracy": 0.7773875147104263,
	"num_tokens": 8486896.0,
	"step": 519
	},
	{
	"entropy": 0.5509646236896515,
	"epoch": 1.9402985074626866,
	"grad_norm": 0.11496590822935104,
	"learning_rate": 0.0002,
	"loss": 0.5537518262863159,
	"mean_token_accuracy": 0.7762430608272552,
	"num_tokens": 8503486.0,
	"step": 520
	},
	{
	"entropy": 0.5208418220281601,
	"epoch": 1.9440298507462686,
	"grad_norm": 0.12605132162570953,
	"learning_rate": 0.0002,
	"loss": 0.5253016948699951,
	"mean_token_accuracy": 0.7866884917020798,
	"num_tokens": 8519722.0,
	"step": 521
	},
	{
	"entropy": 0.5348703861236572,
	"epoch": 1.9477611940298507,
	"grad_norm": 0.13436545431613922,
	"learning_rate": 0.0002,
	"loss": 0.5429031252861023,
	"mean_token_accuracy": 0.7784363180398941,
	"num_tokens": 8536094.0,
	"step": 522
	},
	{
	"entropy": 0.5374516993761063,
	"epoch": 1.9514925373134329,
	"grad_norm": 0.1355811506509781,
	"learning_rate": 0.0002,
	"loss": 0.5394662618637085,
	"mean_token_accuracy": 0.7806121855974197,
	"num_tokens": 8552288.0,
	"step": 523
	},
	{
	"entropy": 0.5625811666250229,
	"epoch": 1.955223880597015,
	"grad_norm": 0.11836230754852295,
	"learning_rate": 0.0002,
	"loss": 0.5579893589019775,
	"mean_token_accuracy": 0.7714975476264954,
	"num_tokens": 8568760.0,
	"step": 524
	},
	{
	"entropy": 0.5421487241983414,
	"epoch": 1.9589552238805972,
	"grad_norm": 0.1359013170003891,
	"learning_rate": 0.0002,
	"loss": 0.5385461449623108,
	"mean_token_accuracy": 0.7821292132139206,
	"num_tokens": 8585317.0,
	"step": 525
	},
	{
	"entropy": 0.5259972438216209,
	"epoch": 1.962686567164179,
	"grad_norm": 0.1390962302684784,
	"learning_rate": 0.0002,
	"loss": 0.5276076793670654,
	"mean_token_accuracy": 0.785026952624321,
	"num_tokens": 8601637.0,
	"step": 526
	},
	{
	"entropy": 0.5354560762643814,
	"epoch": 1.966417910447761,
	"grad_norm": 0.13758784532546997,
	"learning_rate": 0.0002,
	"loss": 0.5364598035812378,
	"mean_token_accuracy": 0.782847136259079,
	"num_tokens": 8617902.0,
	"step": 527
	},
	{
	"entropy": 0.5353007912635803,
	"epoch": 1.9701492537313432,
	"grad_norm": 0.16679321229457855,
	"learning_rate": 0.0002,
	"loss": 0.5458345413208008,
	"mean_token_accuracy": 0.7779222279787064,
	"num_tokens": 8634235.0,
	"step": 528
	},
	{
	"entropy": 0.5326858758926392,
	"epoch": 1.9738805970149254,
	"grad_norm": 0.1427498161792755,
	"learning_rate": 0.0002,
	"loss": 0.5339992642402649,
	"mean_token_accuracy": 0.7820619940757751,
	"num_tokens": 8650417.0,
	"step": 529
	},
	{
	"entropy": 0.5444169491529465,
	"epoch": 1.9776119402985075,
	"grad_norm": 0.12751619517803192,
	"learning_rate": 0.0002,
	"loss": 0.5337543487548828,
	"mean_token_accuracy": 0.7827389687299728,
	"num_tokens": 8666763.0,
	"step": 530
	},
	{
	"entropy": 0.5495491325855255,
	"epoch": 1.9813432835820897,
	"grad_norm": 0.13329073786735535,
	"learning_rate": 0.0002,
	"loss": 0.5403661131858826,
	"mean_token_accuracy": 0.7817551493644714,
	"num_tokens": 8683086.0,
	"step": 531
	},
	{
	"entropy": 0.545268103480339,
	"epoch": 1.9850746268656716,
	"grad_norm": 0.1334519237279892,
	"learning_rate": 0.0002,
	"loss": 0.5446645021438599,
	"mean_token_accuracy": 0.7789036780595779,
	"num_tokens": 8699314.0,
	"step": 532
	},
	{
	"entropy": 0.5360117256641388,
	"epoch": 1.9888059701492538,
	"grad_norm": 0.1417427510023117,
	"learning_rate": 0.0002,
	"loss": 0.5377262830734253,
	"mean_token_accuracy": 0.782628983259201,
	"num_tokens": 8715712.0,
	"step": 533
	},
	{
	"entropy": 0.539160817861557,
	"epoch": 1.9925373134328357,
	"grad_norm": 0.13969334959983826,
	"learning_rate": 0.0002,
	"loss": 0.5430911779403687,
	"mean_token_accuracy": 0.7803932130336761,
	"num_tokens": 8732278.0,
	"step": 534
	},
	{
	"entropy": 0.5323211252689362,
	"epoch": 1.9962686567164178,
	"grad_norm": 0.13230480253696442,
	"learning_rate": 0.0002,
	"loss": 0.5352569818496704,
	"mean_token_accuracy": 0.7800516188144684,
	"num_tokens": 8748639.0,
	"step": 535
	},
	{
	"entropy": 0.5396020114421844,
	"epoch": 2.0,
	"grad_norm": 0.13588403165340424,
	"learning_rate": 0.0002,
	"loss": 0.5420472025871277,
	"mean_token_accuracy": 0.7812368422746658,
	"num_tokens": 8765023.0,
	"step": 536
	},
	{
	"entropy": 0.5363707542419434,
	"epoch": 2.003731343283582,
	"grad_norm": 0.13683520257472992,
	"learning_rate": 0.0002,
	"loss": 0.5242169499397278,
	"mean_token_accuracy": 0.7884830236434937,
	"num_tokens": 8781503.0,
	"step": 537
	},
	{
	"entropy": 0.5355663001537323,
	"epoch": 2.0074626865671643,
	"grad_norm": 0.1606767475605011,
	"learning_rate": 0.0002,
	"loss": 0.5340245962142944,
	"mean_token_accuracy": 0.7837463468313217,
	"num_tokens": 8797833.0,
	"step": 538
	},
	{
	"entropy": 0.5198972821235657,
	"epoch": 2.0111940298507465,
	"grad_norm": 0.1832306683063507,
	"learning_rate": 0.0002,
	"loss": 0.5226503014564514,
	"mean_token_accuracy": 0.7878277599811554,
	"num_tokens": 8814387.0,
	"step": 539
	},
	{
	"entropy": 0.5145581886172295,
	"epoch": 2.014925373134328,
	"grad_norm": 0.14004163444042206,
	"learning_rate": 0.0002,
	"loss": 0.5142262578010559,
	"mean_token_accuracy": 0.7930136620998383,
	"num_tokens": 8830769.0,
	"step": 540
	},
	{
	"entropy": 0.518964596092701,
	"epoch": 2.0186567164179103,
	"grad_norm": 0.2391389012336731,
	"learning_rate": 0.0002,
	"loss": 0.5318617224693298,
	"mean_token_accuracy": 0.7879888862371445,
	"num_tokens": 8847079.0,
	"step": 541
	},
	{
	"entropy": 0.5112362876534462,
	"epoch": 2.0223880597014925,
	"grad_norm": 0.1571192741394043,
	"learning_rate": 0.0002,
	"loss": 0.5111895799636841,
	"mean_token_accuracy": 0.7941466271877289,
	"num_tokens": 8863455.0,
	"step": 542
	},
	{
	"entropy": 0.5289383679628372,
	"epoch": 2.0261194029850746,
	"grad_norm": 0.18859665095806122,
	"learning_rate": 0.0002,
	"loss": 0.5321269035339355,
	"mean_token_accuracy": 0.7850861251354218,
	"num_tokens": 8879933.0,
	"step": 543
	},
	{
	"entropy": 0.5038495659828186,
	"epoch": 2.029850746268657,
	"grad_norm": 0.1459927260875702,
	"learning_rate": 0.0002,
	"loss": 0.5009663105010986,
	"mean_token_accuracy": 0.800191804766655,
	"num_tokens": 8896279.0,
	"step": 544
	},
	{
	"entropy": 0.5393158346414566,
	"epoch": 2.033582089552239,
	"grad_norm": 0.18940559029579163,
	"learning_rate": 0.0002,
	"loss": 0.5331785678863525,
	"mean_token_accuracy": 0.785183385014534,
	"num_tokens": 8912807.0,
	"step": 545
	},
	{
	"entropy": 0.5186864137649536,
	"epoch": 2.0373134328358207,
	"grad_norm": 0.13405749201774597,
	"learning_rate": 0.0002,
	"loss": 0.5130364894866943,
	"mean_token_accuracy": 0.7902890145778656,
	"num_tokens": 8929085.0,
	"step": 546
	},
	{
	"entropy": 0.517152339220047,
	"epoch": 2.041044776119403,
	"grad_norm": 0.2357271909713745,
	"learning_rate": 0.0002,
	"loss": 0.5223183631896973,
	"mean_token_accuracy": 0.7909936606884003,
	"num_tokens": 8945205.0,
	"step": 547
	},
	{
	"entropy": 0.504429779946804,
	"epoch": 2.044776119402985,
	"grad_norm": 0.16896866261959076,
	"learning_rate": 0.0002,
	"loss": 0.5084525942802429,
	"mean_token_accuracy": 0.7927258014678955,
	"num_tokens": 8961586.0,
	"step": 548
	},
	{
	"entropy": 0.5195313468575478,
	"epoch": 2.048507462686567,
	"grad_norm": 0.16998501121997833,
	"learning_rate": 0.0002,
	"loss": 0.5220100283622742,
	"mean_token_accuracy": 0.7873262912034988,
	"num_tokens": 8978096.0,
	"step": 549
	},
	{
	"entropy": 0.5092991963028908,
	"epoch": 2.0522388059701493,
	"grad_norm": 0.18961496651172638,
	"learning_rate": 0.0002,
	"loss": 0.5134435892105103,
	"mean_token_accuracy": 0.7906353622674942,
	"num_tokens": 8994217.0,
	"step": 550
	},
	{
	"entropy": 0.5130208507180214,
	"epoch": 2.0559701492537314,
	"grad_norm": 0.15812328457832336,
	"learning_rate": 0.0002,
	"loss": 0.5057437419891357,
	"mean_token_accuracy": 0.7933137118816376,
	"num_tokens": 9010450.0,
	"step": 551
	},
	{
	"entropy": 0.5244034826755524,
	"epoch": 2.0597014925373136,
	"grad_norm": 0.17014764249324799,
	"learning_rate": 0.0002,
	"loss": 0.5208017230033875,
	"mean_token_accuracy": 0.7864028364419937,
	"num_tokens": 9026690.0,
	"step": 552
	},
	{
	"entropy": 0.524794228374958,
	"epoch": 2.0634328358208953,
	"grad_norm": 0.1528615653514862,
	"learning_rate": 0.0002,
	"loss": 0.5251787900924683,
	"mean_token_accuracy": 0.7868095934391022,
	"num_tokens": 9042889.0,
	"step": 553
	},
	{
	"entropy": 0.525935024023056,
	"epoch": 2.0671641791044775,
	"grad_norm": 0.1623958796262741,
	"learning_rate": 0.0002,
	"loss": 0.5336424708366394,
	"mean_token_accuracy": 0.7855145633220673,
	"num_tokens": 9059267.0,
	"step": 554
	},
	{
	"entropy": 0.5195625573396683,
	"epoch": 2.0708955223880596,
	"grad_norm": 0.17523802816867828,
	"learning_rate": 0.0002,
	"loss": 0.5209751725196838,
	"mean_token_accuracy": 0.7891881316900253,
	"num_tokens": 9075744.0,
	"step": 555
	},
	{
	"entropy": 0.5318533927202225,
	"epoch": 2.074626865671642,
	"grad_norm": 0.16624799370765686,
	"learning_rate": 0.0002,
	"loss": 0.5274427533149719,
	"mean_token_accuracy": 0.7851865887641907,
	"num_tokens": 9092196.0,
	"step": 556
	},
	{
	"entropy": 0.5313673615455627,
	"epoch": 2.078358208955224,
	"grad_norm": 0.16823066771030426,
	"learning_rate": 0.0002,
	"loss": 0.5263111591339111,
	"mean_token_accuracy": 0.7885167598724365,
	"num_tokens": 9108431.0,
	"step": 557
	},
	{
	"entropy": 0.518197163939476,
	"epoch": 2.082089552238806,
	"grad_norm": 0.18068267405033112,
	"learning_rate": 0.0002,
	"loss": 0.5193851590156555,
	"mean_token_accuracy": 0.7903801500797272,
	"num_tokens": 9124741.0,
	"step": 558
	},
	{
	"entropy": 0.5107997804880142,
	"epoch": 2.0858208955223883,
	"grad_norm": 0.15915489196777344,
	"learning_rate": 0.0002,
	"loss": 0.5146846771240234,
	"mean_token_accuracy": 0.7921037524938583,
	"num_tokens": 9141112.0,
	"step": 559
	},
	{
	"entropy": 0.5317652374505997,
	"epoch": 2.08955223880597,
	"grad_norm": 0.18767035007476807,
	"learning_rate": 0.0002,
	"loss": 0.5400185585021973,
	"mean_token_accuracy": 0.7800605148077011,
	"num_tokens": 9157563.0,
	"step": 560
	},
	{
	"entropy": 0.5086512267589569,
	"epoch": 2.093283582089552,
	"grad_norm": 0.1544736921787262,
	"learning_rate": 0.0002,
	"loss": 0.508223831653595,
	"mean_token_accuracy": 0.7939174175262451,
	"num_tokens": 9173854.0,
	"step": 561
	},
	{
	"entropy": 0.52768574655056,
	"epoch": 2.0970149253731343,
	"grad_norm": 0.17799650132656097,
	"learning_rate": 0.0002,
	"loss": 0.5289405584335327,
	"mean_token_accuracy": 0.7851383984088898,
	"num_tokens": 9190112.0,
	"step": 562
	},
	{
	"entropy": 0.5307039618492126,
	"epoch": 2.1007462686567164,
	"grad_norm": 0.1469665914773941,
	"learning_rate": 0.0002,
	"loss": 0.5241371989250183,
	"mean_token_accuracy": 0.7877105623483658,
	"num_tokens": 9206476.0,
	"step": 563
	},
	{
	"entropy": 0.517830565571785,
	"epoch": 2.1044776119402986,
	"grad_norm": 0.1440608948469162,
	"learning_rate": 0.0002,
	"loss": 0.5123553276062012,
	"mean_token_accuracy": 0.7936355024576187,
	"num_tokens": 9222843.0,
	"step": 564
	},
	{
	"entropy": 0.523407056927681,
	"epoch": 2.1082089552238807,
	"grad_norm": 0.21014799177646637,
	"learning_rate": 0.0002,
	"loss": 0.5186851620674133,
	"mean_token_accuracy": 0.792457640171051,
	"num_tokens": 9239327.0,
	"step": 565
	},
	{
	"entropy": 0.5128730833530426,
	"epoch": 2.111940298507463,
	"grad_norm": 0.2577928602695465,
	"learning_rate": 0.0002,
	"loss": 0.5269497632980347,
	"mean_token_accuracy": 0.7877898067235947,
	"num_tokens": 9255586.0,
	"step": 566
	},
	{
	"entropy": 0.5238759815692902,
	"epoch": 2.1156716417910446,
	"grad_norm": 0.1416473388671875,
	"learning_rate": 0.0002,
	"loss": 0.5266433954238892,
	"mean_token_accuracy": 0.7873618602752686,
	"num_tokens": 9272236.0,
	"step": 567
	},
	{
	"entropy": 0.5273244455456734,
	"epoch": 2.1194029850746268,
	"grad_norm": 0.1742546260356903,
	"learning_rate": 0.0002,
	"loss": 0.5227883458137512,
	"mean_token_accuracy": 0.7893139868974686,
	"num_tokens": 9288429.0,
	"step": 568
	},
	{
	"entropy": 0.5123281329870224,
	"epoch": 2.123134328358209,
	"grad_norm": 0.17472973465919495,
	"learning_rate": 0.0002,
	"loss": 0.5086967945098877,
	"mean_token_accuracy": 0.7941555231809616,
	"num_tokens": 9304696.0,
	"step": 569
	},
	{
	"entropy": 0.5038742050528526,
	"epoch": 2.126865671641791,
	"grad_norm": 0.15990978479385376,
	"learning_rate": 0.0002,
	"loss": 0.5093705058097839,
	"mean_token_accuracy": 0.7927817106246948,
	"num_tokens": 9320823.0,
	"step": 570
	},
	{
	"entropy": 0.5118470937013626,
	"epoch": 2.1305970149253732,
	"grad_norm": 0.15983271598815918,
	"learning_rate": 0.0002,
	"loss": 0.5105957388877869,
	"mean_token_accuracy": 0.7947766035795212,
	"num_tokens": 9337178.0,
	"step": 571
	},
	{
	"entropy": 0.5117835849523544,
	"epoch": 2.1343283582089554,
	"grad_norm": 0.17154565453529358,
	"learning_rate": 0.0002,
	"loss": 0.5166530609130859,
	"mean_token_accuracy": 0.7898510247468948,
	"num_tokens": 9353541.0,
	"step": 572
	},
	{
	"entropy": 0.524290457367897,
	"epoch": 2.138059701492537,
	"grad_norm": 0.1809605062007904,
	"learning_rate": 0.0002,
	"loss": 0.5276108980178833,
	"mean_token_accuracy": 0.7894007414579391,
	"num_tokens": 9370257.0,
	"step": 573
	},
	{
	"entropy": 0.5326485335826874,
	"epoch": 2.1417910447761193,
	"grad_norm": 0.17269255220890045,
	"learning_rate": 0.0002,
	"loss": 0.5320166349411011,
	"mean_token_accuracy": 0.7842083424329758,
	"num_tokens": 9386645.0,
	"step": 574
	},
	{
	"entropy": 0.5396575331687927,
	"epoch": 2.1455223880597014,
	"grad_norm": 0.19763849675655365,
	"learning_rate": 0.0002,
	"loss": 0.5302010774612427,
	"mean_token_accuracy": 0.7843988239765167,
	"num_tokens": 9403107.0,
	"step": 575
	},
	{
	"entropy": 0.53758405148983,
	"epoch": 2.1492537313432836,
	"grad_norm": 0.1403210610151291,
	"learning_rate": 0.0002,
	"loss": 0.5297962427139282,
	"mean_token_accuracy": 0.7875841557979584,
	"num_tokens": 9419679.0,
	"step": 576
	},
	{
	"entropy": 0.5233541131019592,
	"epoch": 2.1529850746268657,
	"grad_norm": 0.18504074215888977,
	"learning_rate": 0.0002,
	"loss": 0.5262290835380554,
	"mean_token_accuracy": 0.7859254032373428,
	"num_tokens": 9436038.0,
	"step": 577
	},
	{
	"entropy": 0.5059448033571243,
	"epoch": 2.156716417910448,
	"grad_norm": 0.18249362707138062,
	"learning_rate": 0.0002,
	"loss": 0.5139797329902649,
	"mean_token_accuracy": 0.7936645895242691,
	"num_tokens": 9452416.0,
	"step": 578
	},
	{
	"entropy": 0.5189633667469025,
	"epoch": 2.16044776119403,
	"grad_norm": 0.21265490353107452,
	"learning_rate": 0.0002,
	"loss": 0.533969521522522,
	"mean_token_accuracy": 0.7854558378458023,
	"num_tokens": 9468830.0,
	"step": 579
	},
	{
	"entropy": 0.5293581038713455,
	"epoch": 2.1641791044776117,
	"grad_norm": 0.16064560413360596,
	"learning_rate": 0.0002,
	"loss": 0.5302042961120605,
	"mean_token_accuracy": 0.7855220139026642,
	"num_tokens": 9485369.0,
	"step": 580
	},
	{
	"entropy": 0.5367814004421234,
	"epoch": 2.167910447761194,
	"grad_norm": 0.1988399475812912,
	"learning_rate": 0.0002,
	"loss": 0.5316881537437439,
	"mean_token_accuracy": 0.7867899537086487,
	"num_tokens": 9501506.0,
	"step": 581
	},
	{
	"entropy": 0.530438095331192,
	"epoch": 2.171641791044776,
	"grad_norm": 0.16211427748203278,
	"learning_rate": 0.0002,
	"loss": 0.5204508304595947,
	"mean_token_accuracy": 0.7928901314735413,
	"num_tokens": 9517998.0,
	"step": 582
	},
	{
	"entropy": 0.538342297077179,
	"epoch": 2.175373134328358,
	"grad_norm": 0.200654536485672,
	"learning_rate": 0.0002,
	"loss": 0.5368824005126953,
	"mean_token_accuracy": 0.7828831076622009,
	"num_tokens": 9534418.0,
	"step": 583
	},
	{
	"entropy": 0.5067318677902222,
	"epoch": 2.1791044776119404,
	"grad_norm": 0.18536439538002014,
	"learning_rate": 0.0002,
	"loss": 0.5152954459190369,
	"mean_token_accuracy": 0.7947442531585693,
	"num_tokens": 9550929.0,
	"step": 584
	},
	{
	"entropy": 0.5143613219261169,
	"epoch": 2.1828358208955225,
	"grad_norm": 0.18734246492385864,
	"learning_rate": 0.0002,
	"loss": 0.5320346355438232,
	"mean_token_accuracy": 0.7830832600593567,
	"num_tokens": 9567052.0,
	"step": 585
	},
	{
	"entropy": 0.5134065821766853,
	"epoch": 2.1865671641791047,
	"grad_norm": 0.1658649444580078,
	"learning_rate": 0.0002,
	"loss": 0.5137937664985657,
	"mean_token_accuracy": 0.792109802365303,
	"num_tokens": 9583328.0,
	"step": 586
	},
	{
	"entropy": 0.5145891755819321,
	"epoch": 2.1902985074626864,
	"grad_norm": 0.20381639897823334,
	"learning_rate": 0.0002,
	"loss": 0.5113189220428467,
	"mean_token_accuracy": 0.791796863079071,
	"num_tokens": 9599639.0,
	"step": 587
	},
	{
	"entropy": 0.5297699421644211,
	"epoch": 2.1940298507462686,
	"grad_norm": 0.1610771119594574,
	"learning_rate": 0.0002,
	"loss": 0.5239428877830505,
	"mean_token_accuracy": 0.7868966311216354,
	"num_tokens": 9616107.0,
	"step": 588
	},
	{
	"entropy": 0.5139229521155357,
	"epoch": 2.1977611940298507,
	"grad_norm": 0.16601988673210144,
	"learning_rate": 0.0002,
	"loss": 0.5093111991882324,
	"mean_token_accuracy": 0.7953454554080963,
	"num_tokens": 9632478.0,
	"step": 589
	},
	{
	"entropy": 0.5277693122625351,
	"epoch": 2.201492537313433,
	"grad_norm": 0.15310561656951904,
	"learning_rate": 0.0002,
	"loss": 0.5306464433670044,
	"mean_token_accuracy": 0.785234808921814,
	"num_tokens": 9648606.0,
	"step": 590
	},
	{
	"entropy": 0.5277083218097687,
	"epoch": 2.205223880597015,
	"grad_norm": 0.17894159257411957,
	"learning_rate": 0.0002,
	"loss": 0.5229562520980835,
	"mean_token_accuracy": 0.7855621576309204,
	"num_tokens": 9664853.0,
	"step": 591
	},
	{
	"entropy": 0.5369253158569336,
	"epoch": 2.208955223880597,
	"grad_norm": 0.17260174453258514,
	"learning_rate": 0.0002,
	"loss": 0.5379320383071899,
	"mean_token_accuracy": 0.785187691450119,
	"num_tokens": 9681395.0,
	"step": 592
	},
	{
	"entropy": 0.51601941883564,
	"epoch": 2.2126865671641793,
	"grad_norm": 0.19144131243228912,
	"learning_rate": 0.0002,
	"loss": 0.525420606136322,
	"mean_token_accuracy": 0.7879699319601059,
	"num_tokens": 9697832.0,
	"step": 593
	},
	{
	"entropy": 0.5305543690919876,
	"epoch": 2.216417910447761,
	"grad_norm": 0.152136892080307,
	"learning_rate": 0.0002,
	"loss": 0.5263657569885254,
	"mean_token_accuracy": 0.7852640599012375,
	"num_tokens": 9714327.0,
	"step": 594
	},
	{
	"entropy": 0.5374766737222672,
	"epoch": 2.220149253731343,
	"grad_norm": 0.18577203154563904,
	"learning_rate": 0.0002,
	"loss": 0.538034975528717,
	"mean_token_accuracy": 0.7831636220216751,
	"num_tokens": 9730796.0,
	"step": 595
	},
	{
	"entropy": 0.5116140991449356,
	"epoch": 2.2238805970149254,
	"grad_norm": 0.15658536553382874,
	"learning_rate": 0.0002,
	"loss": 0.5068283081054688,
	"mean_token_accuracy": 0.7946771383285522,
	"num_tokens": 9747017.0,
	"step": 596
	},
	{
	"entropy": 0.5136987864971161,
	"epoch": 2.2276119402985075,
	"grad_norm": 0.15834017097949982,
	"learning_rate": 0.0002,
	"loss": 0.518505334854126,
	"mean_token_accuracy": 0.7908380329608917,
	"num_tokens": 9763200.0,
	"step": 597
	},
	{
	"entropy": 0.48786860704421997,
	"epoch": 2.2313432835820897,
	"grad_norm": 0.16836979985237122,
	"learning_rate": 0.0002,
	"loss": 0.4918700158596039,
	"mean_token_accuracy": 0.8017545938491821,
	"num_tokens": 9779342.0,
	"step": 598
	},
	{
	"entropy": 0.511562891304493,
	"epoch": 2.235074626865672,
	"grad_norm": 0.19002674520015717,
	"learning_rate": 0.0002,
	"loss": 0.5156916975975037,
	"mean_token_accuracy": 0.7910201996564865,
	"num_tokens": 9795546.0,
	"step": 599
	},
	{
	"entropy": 0.5209366902709007,
	"epoch": 2.2388059701492535,
	"grad_norm": 0.17156340181827545,
	"learning_rate": 0.0002,
	"loss": 0.515453040599823,
	"mean_token_accuracy": 0.7911808788776398,
	"num_tokens": 9811678.0,
	"step": 600
	},
	{
	"entropy": 0.5190790444612503,
	"epoch": 2.2425373134328357,
	"grad_norm": 0.16390037536621094,
	"learning_rate": 0.0002,
	"loss": 0.5197610259056091,
	"mean_token_accuracy": 0.791000559926033,
	"num_tokens": 9827971.0,
	"step": 601
	},
	{
	"entropy": 0.534053236246109,
	"epoch": 2.246268656716418,
	"grad_norm": 0.17688144743442535,
	"learning_rate": 0.0002,
	"loss": 0.5342822074890137,
	"mean_token_accuracy": 0.7848292291164398,
	"num_tokens": 9844391.0,
	"step": 602
	},
	{
	"entropy": 0.5072491243481636,
	"epoch": 2.25,
	"grad_norm": 0.15552373230457306,
	"learning_rate": 0.0002,
	"loss": 0.5125934481620789,
	"mean_token_accuracy": 0.79164819419384,
	"num_tokens": 9860695.0,
	"step": 603
	},
	{
	"entropy": 0.5196588039398193,
	"epoch": 2.253731343283582,
	"grad_norm": 0.20500463247299194,
	"learning_rate": 0.0002,
	"loss": 0.5203579664230347,
	"mean_token_accuracy": 0.7872295528650284,
	"num_tokens": 9876962.0,
	"step": 604
	},
	{
	"entropy": 0.5224801748991013,
	"epoch": 2.2574626865671643,
	"grad_norm": 0.16438624262809753,
	"learning_rate": 0.0002,
	"loss": 0.517778217792511,
	"mean_token_accuracy": 0.7902567535638809,
	"num_tokens": 9893378.0,
	"step": 605
	},
	{
	"entropy": 0.5315049141645432,
	"epoch": 2.2611940298507465,
	"grad_norm": 0.19314803183078766,
	"learning_rate": 0.0002,
	"loss": 0.5378735065460205,
	"mean_token_accuracy": 0.7826669216156006,
	"num_tokens": 9909658.0,
	"step": 606
	},
	{
	"entropy": 0.5268717259168625,
	"epoch": 2.264925373134328,
	"grad_norm": 0.1703607141971588,
	"learning_rate": 0.0002,
	"loss": 0.5323152542114258,
	"mean_token_accuracy": 0.7835480719804764,
	"num_tokens": 9926026.0,
	"step": 607
	},
	{
	"entropy": 0.5275075733661652,
	"epoch": 2.2686567164179103,
	"grad_norm": 0.1891828328371048,
	"learning_rate": 0.0002,
	"loss": 0.523108959197998,
	"mean_token_accuracy": 0.7864743769168854,
	"num_tokens": 9942362.0,
	"step": 608
	},
	{
	"entropy": 0.5301201939582825,
	"epoch": 2.2723880597014925,
	"grad_norm": 0.16404391825199127,
	"learning_rate": 0.0002,
	"loss": 0.5282193422317505,
	"mean_token_accuracy": 0.7837762832641602,
	"num_tokens": 9958517.0,
	"step": 609
	},
	{
	"entropy": 0.5198077484965324,
	"epoch": 2.2761194029850746,
	"grad_norm": 0.1796608716249466,
	"learning_rate": 0.0002,
	"loss": 0.5138813853263855,
	"mean_token_accuracy": 0.7904112935066223,
	"num_tokens": 9974864.0,
	"step": 610
	},
	{
	"entropy": 0.5151881948113441,
	"epoch": 2.279850746268657,
	"grad_norm": 0.1921297013759613,
	"learning_rate": 0.0002,
	"loss": 0.5276269912719727,
	"mean_token_accuracy": 0.7861463725566864,
	"num_tokens": 9990982.0,
	"step": 611
	},
	{
	"entropy": 0.5268184095621109,
	"epoch": 2.283582089552239,
	"grad_norm": 0.3107461929321289,
	"learning_rate": 0.0002,
	"loss": 0.5354833006858826,
	"mean_token_accuracy": 0.7860495001077652,
	"num_tokens": 10007390.0,
	"step": 612
	},
	{
	"entropy": 0.5362572968006134,
	"epoch": 2.2873134328358207,
	"grad_norm": 0.2291727513074875,
	"learning_rate": 0.0002,
	"loss": 0.5278795957565308,
	"mean_token_accuracy": 0.7864319235086441,
	"num_tokens": 10023741.0,
	"step": 613
	},
	{
	"entropy": 0.5297401547431946,
	"epoch": 2.291044776119403,
	"grad_norm": 0.22683671116828918,
	"learning_rate": 0.0002,
	"loss": 0.5257067680358887,
	"mean_token_accuracy": 0.7868115305900574,
	"num_tokens": 10040185.0,
	"step": 614
	},
	{
	"entropy": 0.5152234882116318,
	"epoch": 2.294776119402985,
	"grad_norm": 0.20225822925567627,
	"learning_rate": 0.0002,
	"loss": 0.5109996795654297,
	"mean_token_accuracy": 0.7922611236572266,
	"num_tokens": 10056416.0,
	"step": 615
	},
	{
	"entropy": 0.5397164672613144,
	"epoch": 2.298507462686567,
	"grad_norm": 0.21879570186138153,
	"learning_rate": 0.0002,
	"loss": 0.53910893201828,
	"mean_token_accuracy": 0.7829782217741013,
	"num_tokens": 10073119.0,
	"step": 616
	},
	{
	"entropy": 0.523445226252079,
	"epoch": 2.3022388059701493,
	"grad_norm": 0.2043614238500595,
	"learning_rate": 0.0002,
	"loss": 0.5277411341667175,
	"mean_token_accuracy": 0.7879920601844788,
	"num_tokens": 10089539.0,
	"step": 617
	},
	{
	"entropy": 0.5420306473970413,
	"epoch": 2.3059701492537314,
	"grad_norm": 0.16890020668506622,
	"learning_rate": 0.0002,
	"loss": 0.5416600704193115,
	"mean_token_accuracy": 0.7815042287111282,
	"num_tokens": 10105674.0,
	"step": 618
	},
	{
	"entropy": 0.5223758220672607,
	"epoch": 2.3097014925373136,
	"grad_norm": 0.187328040599823,
	"learning_rate": 0.0002,
	"loss": 0.5208746790885925,
	"mean_token_accuracy": 0.7938240319490433,
	"num_tokens": 10121685.0,
	"step": 619
	},
	{
	"entropy": 0.5317254960536957,
	"epoch": 2.3134328358208958,
	"grad_norm": 0.17246371507644653,
	"learning_rate": 0.0002,
	"loss": 0.5258828997612,
	"mean_token_accuracy": 0.7855419665575027,
	"num_tokens": 10138380.0,
	"step": 620
	},
	{
	"entropy": 0.510456420481205,
	"epoch": 2.3171641791044775,
	"grad_norm": 0.17611362040042877,
	"learning_rate": 0.0002,
	"loss": 0.5174400806427002,
	"mean_token_accuracy": 0.790027379989624,
	"num_tokens": 10154639.0,
	"step": 621
	},
	{
	"entropy": 0.5146428272128105,
	"epoch": 2.3208955223880596,
	"grad_norm": 0.19471095502376556,
	"learning_rate": 0.0002,
	"loss": 0.5222116708755493,
	"mean_token_accuracy": 0.7890471816062927,
	"num_tokens": 10170992.0,
	"step": 622
	},
	{
	"entropy": 0.5554968118667603,
	"epoch": 2.324626865671642,
	"grad_norm": 0.15456657111644745,
	"learning_rate": 0.0002,
	"loss": 0.5553091168403625,
	"mean_token_accuracy": 0.7767172753810883,
	"num_tokens": 10187415.0,
	"step": 623
	},
	{
	"entropy": 0.5297296196222305,
	"epoch": 2.328358208955224,
	"grad_norm": 0.17202581465244293,
	"learning_rate": 0.0002,
	"loss": 0.5306862592697144,
	"mean_token_accuracy": 0.7859676033258438,
	"num_tokens": 10204041.0,
	"step": 624
	},
	{
	"entropy": 0.5107762217521667,
	"epoch": 2.332089552238806,
	"grad_norm": 0.17404352128505707,
	"learning_rate": 0.0002,
	"loss": 0.5129390358924866,
	"mean_token_accuracy": 0.7931138426065445,
	"num_tokens": 10220300.0,
	"step": 625
	},
	{
	"entropy": 0.5258396938443184,
	"epoch": 2.3358208955223883,
	"grad_norm": 0.18174229562282562,
	"learning_rate": 0.0002,
	"loss": 0.5229369401931763,
	"mean_token_accuracy": 0.7888091504573822,
	"num_tokens": 10236649.0,
	"step": 626
	},
	{
	"entropy": 0.5380365252494812,
	"epoch": 2.33955223880597,
	"grad_norm": 0.17537739872932434,
	"learning_rate": 0.0002,
	"loss": 0.5373145937919617,
	"mean_token_accuracy": 0.7832024991512299,
	"num_tokens": 10252909.0,
	"step": 627
	},
	{
	"entropy": 0.5075801610946655,
	"epoch": 2.343283582089552,
	"grad_norm": 0.22284290194511414,
	"learning_rate": 0.0002,
	"loss": 0.511396586894989,
	"mean_token_accuracy": 0.7928276360034943,
	"num_tokens": 10269280.0,
	"step": 628
	},
	{
	"entropy": 0.5164258778095245,
	"epoch": 2.3470149253731343,
	"grad_norm": 0.18526744842529297,
	"learning_rate": 0.0002,
	"loss": 0.5178982019424438,
	"mean_token_accuracy": 0.7898775935173035,
	"num_tokens": 10285761.0,
	"step": 629
	},
	{
	"entropy": 0.5200358033180237,
	"epoch": 2.3507462686567164,
	"grad_norm": 0.20576190948486328,
	"learning_rate": 0.0002,
	"loss": 0.5253298878669739,
	"mean_token_accuracy": 0.7885328382253647,
	"num_tokens": 10301941.0,
	"step": 630
	},
	{
	"entropy": 0.5383775234222412,
	"epoch": 2.3544776119402986,
	"grad_norm": 0.17617975175380707,
	"learning_rate": 0.0002,
	"loss": 0.5448250770568848,
	"mean_token_accuracy": 0.782653346657753,
	"num_tokens": 10318486.0,
	"step": 631
	},
	{
	"entropy": 0.5118822678923607,
	"epoch": 2.3582089552238807,
	"grad_norm": 0.18932130932807922,
	"learning_rate": 0.0002,
	"loss": 0.5223209857940674,
	"mean_token_accuracy": 0.7917590737342834,
	"num_tokens": 10334530.0,
	"step": 632
	},
	{
	"entropy": 0.5191465318202972,
	"epoch": 2.361940298507463,
	"grad_norm": 0.18021032214164734,
	"learning_rate": 0.0002,
	"loss": 0.5152462124824524,
	"mean_token_accuracy": 0.791267067193985,
	"num_tokens": 10350724.0,
	"step": 633
	},
	{
	"entropy": 0.5144938305020332,
	"epoch": 2.3656716417910446,
	"grad_norm": 0.15109598636627197,
	"learning_rate": 0.0002,
	"loss": 0.4982617497444153,
	"mean_token_accuracy": 0.7967542856931686,
	"num_tokens": 10366875.0,
	"step": 634
	},
	{
	"entropy": 0.5065358951687813,
	"epoch": 2.3694029850746268,
	"grad_norm": 0.18718236684799194,
	"learning_rate": 0.0002,
	"loss": 0.4973527193069458,
	"mean_token_accuracy": 0.8017638623714447,
	"num_tokens": 10383005.0,
	"step": 635
	},
	{
	"entropy": 0.530413880944252,
	"epoch": 2.373134328358209,
	"grad_norm": 0.1718485951423645,
	"learning_rate": 0.0002,
	"loss": 0.5324255228042603,
	"mean_token_accuracy": 0.7831610143184662,
	"num_tokens": 10399588.0,
	"step": 636
	},
	{
	"entropy": 0.5436315685510635,
	"epoch": 2.376865671641791,
	"grad_norm": 0.20064882934093475,
	"learning_rate": 0.0002,
	"loss": 0.5518239140510559,
	"mean_token_accuracy": 0.7763282507658005,
	"num_tokens": 10416058.0,
	"step": 637
	},
	{
	"entropy": 0.5224271416664124,
	"epoch": 2.3805970149253732,
	"grad_norm": 0.18303366005420685,
	"learning_rate": 0.0002,
	"loss": 0.5248957872390747,
	"mean_token_accuracy": 0.7867279052734375,
	"num_tokens": 10432139.0,
	"step": 638
	},
	{
	"entropy": 0.5115847885608673,
	"epoch": 2.3843283582089554,
	"grad_norm": 0.18415044248104095,
	"learning_rate": 0.0002,
	"loss": 0.5158942937850952,
	"mean_token_accuracy": 0.7931726425886154,
	"num_tokens": 10448181.0,
	"step": 639
	},
	{
	"entropy": 0.5335763245820999,
	"epoch": 2.388059701492537,
	"grad_norm": 0.17970694601535797,
	"learning_rate": 0.0002,
	"loss": 0.5286952257156372,
	"mean_token_accuracy": 0.7878449261188507,
	"num_tokens": 10464583.0,
	"step": 640
	},
	{
	"entropy": 0.5233506336808205,
	"epoch": 2.3917910447761193,
	"grad_norm": 0.19122423231601715,
	"learning_rate": 0.0002,
	"loss": 0.5172105431556702,
	"mean_token_accuracy": 0.7892956882715225,
	"num_tokens": 10481023.0,
	"step": 641
	},
	{
	"entropy": 0.5129317939281464,
	"epoch": 2.3955223880597014,
	"grad_norm": 0.16389286518096924,
	"learning_rate": 0.0002,
	"loss": 0.5165532231330872,
	"mean_token_accuracy": 0.7895939499139786,
	"num_tokens": 10497404.0,
	"step": 642
	},
	{
	"entropy": 0.5067487806081772,
	"epoch": 2.3992537313432836,
	"grad_norm": 0.17685648798942566,
	"learning_rate": 0.0002,
	"loss": 0.5114090442657471,
	"mean_token_accuracy": 0.79579958319664,
	"num_tokens": 10513777.0,
	"step": 643
	},
	{
	"entropy": 0.5056411698460579,
	"epoch": 2.4029850746268657,
	"grad_norm": 0.20632798969745636,
	"learning_rate": 0.0002,
	"loss": 0.512579083442688,
	"mean_token_accuracy": 0.7917985171079636,
	"num_tokens": 10530002.0,
	"step": 644
	},
	{
	"entropy": 0.503575325012207,
	"epoch": 2.406716417910448,
	"grad_norm": 0.18627490103244781,
	"learning_rate": 0.0002,
	"loss": 0.5137442350387573,
	"mean_token_accuracy": 0.7893558740615845,
	"num_tokens": 10546273.0,
	"step": 645
	},
	{
	"entropy": 0.5291843265295029,
	"epoch": 2.41044776119403,
	"grad_norm": 0.16846197843551636,
	"learning_rate": 0.0002,
	"loss": 0.5265457630157471,
	"mean_token_accuracy": 0.7875650376081467,
	"num_tokens": 10562590.0,
	"step": 646
	},
	{
	"entropy": 0.5421585887670517,
	"epoch": 2.4141791044776117,
	"grad_norm": 0.17224395275115967,
	"learning_rate": 0.0002,
	"loss": 0.5339004993438721,
	"mean_token_accuracy": 0.7843624651432037,
	"num_tokens": 10578951.0,
	"step": 647
	},
	{
	"entropy": 0.5322060137987137,
	"epoch": 2.417910447761194,
	"grad_norm": 0.15629476308822632,
	"learning_rate": 0.0002,
	"loss": 0.5219835638999939,
	"mean_token_accuracy": 0.7886752039194107,
	"num_tokens": 10595214.0,
	"step": 648
	},
	{
	"entropy": 0.5281577706336975,
	"epoch": 2.421641791044776,
	"grad_norm": 0.18105372786521912,
	"learning_rate": 0.0002,
	"loss": 0.5306849479675293,
	"mean_token_accuracy": 0.7853680700063705,
	"num_tokens": 10611701.0,
	"step": 649
	},
	{
	"entropy": 0.5248554199934006,
	"epoch": 2.425373134328358,
	"grad_norm": 0.16688814759254456,
	"learning_rate": 0.0002,
	"loss": 0.5278753638267517,
	"mean_token_accuracy": 0.7852373868227005,
	"num_tokens": 10628217.0,
	"step": 650
	},
	{
	"entropy": 0.5284415632486343,
	"epoch": 2.4291044776119404,
	"grad_norm": 0.1766011267900467,
	"learning_rate": 0.0002,
	"loss": 0.5336297750473022,
	"mean_token_accuracy": 0.7854758203029633,
	"num_tokens": 10644808.0,
	"step": 651
	},
	{
	"entropy": 0.522301472723484,
	"epoch": 2.4328358208955225,
	"grad_norm": 0.1673455685377121,
	"learning_rate": 0.0002,
	"loss": 0.5260990262031555,
	"mean_token_accuracy": 0.7875321805477142,
	"num_tokens": 10661415.0,
	"step": 652
	},
	{
	"entropy": 0.5340454131364822,
	"epoch": 2.4365671641791042,
	"grad_norm": 0.1705857813358307,
	"learning_rate": 0.0002,
	"loss": 0.5287991166114807,
	"mean_token_accuracy": 0.7848271727561951,
	"num_tokens": 10678098.0,
	"step": 653
	},
	{
	"entropy": 0.5536000281572342,
	"epoch": 2.4402985074626864,
	"grad_norm": 0.16633524000644684,
	"learning_rate": 0.0002,
	"loss": 0.5458575487136841,
	"mean_token_accuracy": 0.7790239751338959,
	"num_tokens": 10694453.0,
	"step": 654
	},
	{
	"entropy": 0.5396594703197479,
	"epoch": 2.4440298507462686,
	"grad_norm": 0.1658376157283783,
	"learning_rate": 0.0002,
	"loss": 0.5348730683326721,
	"mean_token_accuracy": 0.7840123027563095,
	"num_tokens": 10710682.0,
	"step": 655
	},
	{
	"entropy": 0.5132960826158524,
	"epoch": 2.4477611940298507,
	"grad_norm": 0.16822409629821777,
	"learning_rate": 0.0002,
	"loss": 0.5173973441123962,
	"mean_token_accuracy": 0.7915854156017303,
	"num_tokens": 10726882.0,
	"step": 656
	},
	{
	"entropy": 0.504063256084919,
	"epoch": 2.451492537313433,
	"grad_norm": 0.21201510727405548,
	"learning_rate": 0.0002,
	"loss": 0.5162043571472168,
	"mean_token_accuracy": 0.7916038483381271,
	"num_tokens": 10743326.0,
	"step": 657
	},
	{
	"entropy": 0.5151261985301971,
	"epoch": 2.455223880597015,
	"grad_norm": 0.22159790992736816,
	"learning_rate": 0.0002,
	"loss": 0.5307928323745728,
	"mean_token_accuracy": 0.783583402633667,
	"num_tokens": 10759068.0,
	"step": 658
	},
	{
	"entropy": 0.5228653997182846,
	"epoch": 2.458955223880597,
	"grad_norm": 0.1764376312494278,
	"learning_rate": 0.0002,
	"loss": 0.526711106300354,
	"mean_token_accuracy": 0.785754069685936,
	"num_tokens": 10775538.0,
	"step": 659
	},
	{
	"entropy": 0.5352444350719452,
	"epoch": 2.4626865671641793,
	"grad_norm": 0.1673639416694641,
	"learning_rate": 0.0002,
	"loss": 0.53009432554245,
	"mean_token_accuracy": 0.7853073179721832,
	"num_tokens": 10791878.0,
	"step": 660
	},
	{
	"entropy": 0.5250429213047028,
	"epoch": 2.466417910447761,
	"grad_norm": 0.1584668755531311,
	"learning_rate": 0.0002,
	"loss": 0.5163600444793701,
	"mean_token_accuracy": 0.7921949625015259,
	"num_tokens": 10808194.0,
	"step": 661
	},
	{
	"entropy": 0.531511977314949,
	"epoch": 2.470149253731343,
	"grad_norm": 0.15331409871578217,
	"learning_rate": 0.0002,
	"loss": 0.52297043800354,
	"mean_token_accuracy": 0.7875395864248276,
	"num_tokens": 10824487.0,
	"step": 662
	},
	{
	"entropy": 0.5337095707654953,
	"epoch": 2.4738805970149254,
	"grad_norm": 0.1537831574678421,
	"learning_rate": 0.0002,
	"loss": 0.5269461870193481,
	"mean_token_accuracy": 0.7883634269237518,
	"num_tokens": 10840768.0,
	"step": 663
	},
	{
	"entropy": 0.5136477053165436,
	"epoch": 2.4776119402985075,
	"grad_norm": 0.1710546612739563,
	"learning_rate": 0.0002,
	"loss": 0.5147293210029602,
	"mean_token_accuracy": 0.790741965174675,
	"num_tokens": 10857093.0,
	"step": 664
	},
	{
	"entropy": 0.5279193222522736,
	"epoch": 2.4813432835820897,
	"grad_norm": 0.18926194310188293,
	"learning_rate": 0.0002,
	"loss": 0.5373238921165466,
	"mean_token_accuracy": 0.7801239043474197,
	"num_tokens": 10873516.0,
	"step": 665
	},
	{
	"entropy": 0.5202833041548729,
	"epoch": 2.485074626865672,
	"grad_norm": 0.18720589578151703,
	"learning_rate": 0.0002,
	"loss": 0.5260710120201111,
	"mean_token_accuracy": 0.7854216694831848,
	"num_tokens": 10889866.0,
	"step": 666
	},
	{
	"entropy": 0.5342879593372345,
	"epoch": 2.4888059701492535,
	"grad_norm": 0.16395018994808197,
	"learning_rate": 0.0002,
	"loss": 0.5291630625724792,
	"mean_token_accuracy": 0.786442369222641,
	"num_tokens": 10906265.0,
	"step": 667
	},
	{
	"entropy": 0.5179769471287727,
	"epoch": 2.4925373134328357,
	"grad_norm": 0.18135614693164825,
	"learning_rate": 0.0002,
	"loss": 0.5105394721031189,
	"mean_token_accuracy": 0.7919545620679855,
	"num_tokens": 10922859.0,
	"step": 668
	},
	{
	"entropy": 0.5149218291044235,
	"epoch": 2.496268656716418,
	"grad_norm": 0.16995131969451904,
	"learning_rate": 0.0002,
	"loss": 0.5147515535354614,
	"mean_token_accuracy": 0.7931389808654785,
	"num_tokens": 10938918.0,
	"step": 669
	},
	{
	"entropy": 0.5330513119697571,
	"epoch": 2.5,
	"grad_norm": 0.1602948158979416,
	"learning_rate": 0.0002,
	"loss": 0.5284178256988525,
	"mean_token_accuracy": 0.7882454097270966,
	"num_tokens": 10955263.0,
	"step": 670
	},
	{
	"entropy": 0.5100918263196945,
	"epoch": 2.503731343283582,
	"grad_norm": 0.1638704538345337,
	"learning_rate": 0.0002,
	"loss": 0.5109102725982666,
	"mean_token_accuracy": 0.7914802730083466,
	"num_tokens": 10971573.0,
	"step": 671
	},
	{
	"entropy": 0.5232444852590561,
	"epoch": 2.5074626865671643,
	"grad_norm": 0.17863468825817108,
	"learning_rate": 0.0002,
	"loss": 0.527701735496521,
	"mean_token_accuracy": 0.7854352295398712,
	"num_tokens": 10987693.0,
	"step": 672
	},
	{
	"entropy": 0.5050330087542534,
	"epoch": 2.5111940298507465,
	"grad_norm": 0.18801726400852203,
	"learning_rate": 0.0002,
	"loss": 0.5186895728111267,
	"mean_token_accuracy": 0.7896755188703537,
	"num_tokens": 11003802.0,
	"step": 673
	},
	{
	"entropy": 0.5354911088943481,
	"epoch": 2.5149253731343286,
	"grad_norm": 0.1630580574274063,
	"learning_rate": 0.0002,
	"loss": 0.5393661856651306,
	"mean_token_accuracy": 0.7806737869977951,
	"num_tokens": 11020382.0,
	"step": 674
	},
	{
	"entropy": 0.5103952214121819,
	"epoch": 2.5186567164179103,
	"grad_norm": 0.16479070484638214,
	"learning_rate": 0.0002,
	"loss": 0.5052312016487122,
	"mean_token_accuracy": 0.79300656914711,
	"num_tokens": 11036684.0,
	"step": 675
	},
	{
	"entropy": 0.5548539459705353,
	"epoch": 2.5223880597014925,
	"grad_norm": 0.15993361175060272,
	"learning_rate": 0.0002,
	"loss": 0.5424168109893799,
	"mean_token_accuracy": 0.7810866236686707,
	"num_tokens": 11053105.0,
	"step": 676
	},
	{
	"entropy": 0.5318550616502762,
	"epoch": 2.5261194029850746,
	"grad_norm": 0.17689482867717743,
	"learning_rate": 0.0002,
	"loss": 0.5247601270675659,
	"mean_token_accuracy": 0.7856518179178238,
	"num_tokens": 11069578.0,
	"step": 677
	},
	{
	"entropy": 0.5139466673135757,
	"epoch": 2.529850746268657,
	"grad_norm": 0.17671139538288116,
	"learning_rate": 0.0002,
	"loss": 0.5161247253417969,
	"mean_token_accuracy": 0.7908915132284164,
	"num_tokens": 11085697.0,
	"step": 678
	},
	{
	"entropy": 0.5080201476812363,
	"epoch": 2.533582089552239,
	"grad_norm": 0.2036965787410736,
	"learning_rate": 0.0002,
	"loss": 0.5175144672393799,
	"mean_token_accuracy": 0.791350468993187,
	"num_tokens": 11101902.0,
	"step": 679
	},
	{
	"entropy": 0.5312675833702087,
	"epoch": 2.5373134328358207,
	"grad_norm": 0.19512657821178436,
	"learning_rate": 0.0002,
	"loss": 0.5406134128570557,
	"mean_token_accuracy": 0.7809882313013077,
	"num_tokens": 11118259.0,
	"step": 680
	},
	{
	"entropy": 0.5147824436426163,
	"epoch": 2.541044776119403,
	"grad_norm": 0.223260298371315,
	"learning_rate": 0.0002,
	"loss": 0.5146397948265076,
	"mean_token_accuracy": 0.7933319509029388,
	"num_tokens": 11134757.0,
	"step": 681
	},
	{
	"entropy": 0.5265121906995773,
	"epoch": 2.544776119402985,
	"grad_norm": 0.17229494452476501,
	"learning_rate": 0.0002,
	"loss": 0.5215858221054077,
	"mean_token_accuracy": 0.7878258526325226,
	"num_tokens": 11150969.0,
	"step": 682
	},
	{
	"entropy": 0.5460138469934464,
	"epoch": 2.548507462686567,
	"grad_norm": 0.16450214385986328,
	"learning_rate": 0.0002,
	"loss": 0.5474146604537964,
	"mean_token_accuracy": 0.7795809954404831,
	"num_tokens": 11167094.0,
	"step": 683
	},
	{
	"entropy": 0.5366989523172379,
	"epoch": 2.5522388059701493,
	"grad_norm": 0.20410536229610443,
	"learning_rate": 0.0002,
	"loss": 0.5371419787406921,
	"mean_token_accuracy": 0.7853393852710724,
	"num_tokens": 11183515.0,
	"step": 684
	},
	{
	"entropy": 0.5475771278142929,
	"epoch": 2.5559701492537314,
	"grad_norm": 0.1698704957962036,
	"learning_rate": 0.0002,
	"loss": 0.5460457801818848,
	"mean_token_accuracy": 0.781210407614708,
	"num_tokens": 11200139.0,
	"step": 685
	},
	{
	"entropy": 0.5389831364154816,
	"epoch": 2.5597014925373136,
	"grad_norm": 0.22744543850421906,
	"learning_rate": 0.0002,
	"loss": 0.5387647747993469,
	"mean_token_accuracy": 0.7828833609819412,
	"num_tokens": 11216497.0,
	"step": 686
	},
	{
	"entropy": 0.531368613243103,
	"epoch": 2.5634328358208958,
	"grad_norm": 0.17488178610801697,
	"learning_rate": 0.0002,
	"loss": 0.5309722423553467,
	"mean_token_accuracy": 0.7842755913734436,
	"num_tokens": 11232676.0,
	"step": 687
	},
	{
	"entropy": 0.5410369485616684,
	"epoch": 2.5671641791044775,
	"grad_norm": 0.1710905283689499,
	"learning_rate": 0.0002,
	"loss": 0.5380433797836304,
	"mean_token_accuracy": 0.7851070165634155,
	"num_tokens": 11249092.0,
	"step": 688
	},
	{
	"entropy": 0.5218508541584015,
	"epoch": 2.5708955223880596,
	"grad_norm": 0.2351209968328476,
	"learning_rate": 0.0002,
	"loss": 0.5304785966873169,
	"mean_token_accuracy": 0.7837776988744736,
	"num_tokens": 11265168.0,
	"step": 689
	},
	{
	"entropy": 0.5149262696504593,
	"epoch": 2.574626865671642,
	"grad_norm": 0.15611964464187622,
	"learning_rate": 0.0002,
	"loss": 0.5160297155380249,
	"mean_token_accuracy": 0.7932045161724091,
	"num_tokens": 11281641.0,
	"step": 690
	},
	{
	"entropy": 0.5153379887342453,
	"epoch": 2.578358208955224,
	"grad_norm": 0.23146718740463257,
	"learning_rate": 0.0002,
	"loss": 0.5226321220397949,
	"mean_token_accuracy": 0.787521630525589,
	"num_tokens": 11298142.0,
	"step": 691
	},
	{
	"entropy": 0.5393347591161728,
	"epoch": 2.582089552238806,
	"grad_norm": 0.16657157242298126,
	"learning_rate": 0.0002,
	"loss": 0.5344167351722717,
	"mean_token_accuracy": 0.7832511067390442,
	"num_tokens": 11314425.0,
	"step": 692
	},
	{
	"entropy": 0.5284578949213028,
	"epoch": 2.585820895522388,
	"grad_norm": 0.2301884889602661,
	"learning_rate": 0.0002,
	"loss": 0.5258397459983826,
	"mean_token_accuracy": 0.787845253944397,
	"num_tokens": 11330672.0,
	"step": 693
	},
	{
	"entropy": 0.5345947295427322,
	"epoch": 2.58955223880597,
	"grad_norm": 0.17253969609737396,
	"learning_rate": 0.0002,
	"loss": 0.5329262018203735,
	"mean_token_accuracy": 0.783668577671051,
	"num_tokens": 11346999.0,
	"step": 694
	},
	{
	"entropy": 0.5287525057792664,
	"epoch": 2.593283582089552,
	"grad_norm": 0.1584477573633194,
	"learning_rate": 0.0002,
	"loss": 0.5283543467521667,
	"mean_token_accuracy": 0.7880005240440369,
	"num_tokens": 11363488.0,
	"step": 695
	},
	{
	"entropy": 0.5259083658456802,
	"epoch": 2.5970149253731343,
	"grad_norm": 0.18429915606975555,
	"learning_rate": 0.0002,
	"loss": 0.5257930159568787,
	"mean_token_accuracy": 0.7871210873126984,
	"num_tokens": 11379993.0,
	"step": 696
	},
	{
	"entropy": 0.5198669880628586,
	"epoch": 2.6007462686567164,
	"grad_norm": 0.19845134019851685,
	"learning_rate": 0.0002,
	"loss": 0.5221295356750488,
	"mean_token_accuracy": 0.7895113527774811,
	"num_tokens": 11396236.0,
	"step": 697
	},
	{
	"entropy": 0.5398612767457962,
	"epoch": 2.6044776119402986,
	"grad_norm": 0.19270583987236023,
	"learning_rate": 0.0002,
	"loss": 0.5429852604866028,
	"mean_token_accuracy": 0.7811529338359833,
	"num_tokens": 11412613.0,
	"step": 698
	},
	{
	"entropy": 0.5187375992536545,
	"epoch": 2.6082089552238807,
	"grad_norm": 0.18094319105148315,
	"learning_rate": 0.0002,
	"loss": 0.5167657136917114,
	"mean_token_accuracy": 0.790035143494606,
	"num_tokens": 11428870.0,
	"step": 699
	},
	{
	"entropy": 0.5331326425075531,
	"epoch": 2.611940298507463,
	"grad_norm": 0.16809140145778656,
	"learning_rate": 0.0002,
	"loss": 0.5311716794967651,
	"mean_token_accuracy": 0.7813376784324646,
	"num_tokens": 11445541.0,
	"step": 700
	},
	{
	"entropy": 0.5317347943782806,
	"epoch": 2.6156716417910446,
	"grad_norm": 0.2061910331249237,
	"learning_rate": 0.0002,
	"loss": 0.5366970896720886,
	"mean_token_accuracy": 0.7823969423770905,
	"num_tokens": 11461869.0,
	"step": 701
	},
	{
	"entropy": 0.5304048359394073,
	"epoch": 2.6194029850746268,
	"grad_norm": 0.15473014116287231,
	"learning_rate": 0.0002,
	"loss": 0.5267943143844604,
	"mean_token_accuracy": 0.7864733040332794,
	"num_tokens": 11478245.0,
	"step": 702
	},
	{
	"entropy": 0.528009369969368,
	"epoch": 2.623134328358209,
	"grad_norm": 0.2206811010837555,
	"learning_rate": 0.0002,
	"loss": 0.528520941734314,
	"mean_token_accuracy": 0.7848467379808426,
	"num_tokens": 11494601.0,
	"step": 703
	},
	{
	"entropy": 0.5367393791675568,
	"epoch": 2.626865671641791,
	"grad_norm": 0.17169888317584991,
	"learning_rate": 0.0002,
	"loss": 0.5352901816368103,
	"mean_token_accuracy": 0.7826301157474518,
	"num_tokens": 11510824.0,
	"step": 704
	},
	{
	"entropy": 0.5446508675813675,
	"epoch": 2.6305970149253732,
	"grad_norm": 0.23117929697036743,
	"learning_rate": 0.0002,
	"loss": 0.5552783608436584,
	"mean_token_accuracy": 0.7762233018875122,
	"num_tokens": 11527111.0,
	"step": 705
	},
	{
	"entropy": 0.5259118974208832,
	"epoch": 2.6343283582089554,
	"grad_norm": 0.17237775027751923,
	"learning_rate": 0.0002,
	"loss": 0.5258082747459412,
	"mean_token_accuracy": 0.7888418883085251,
	"num_tokens": 11543508.0,
	"step": 706
	},
	{
	"entropy": 0.5134415403008461,
	"epoch": 2.638059701492537,
	"grad_norm": 0.1968804895877838,
	"learning_rate": 0.0002,
	"loss": 0.516159176826477,
	"mean_token_accuracy": 0.7919125109910965,
	"num_tokens": 11559764.0,
	"step": 707
	},
	{
	"entropy": 0.5164712592959404,
	"epoch": 2.6417910447761193,
	"grad_norm": 0.18034212291240692,
	"learning_rate": 0.0002,
	"loss": 0.5184696316719055,
	"mean_token_accuracy": 0.7913271486759186,
	"num_tokens": 11576280.0,
	"step": 708
	},
	{
	"entropy": 0.5396228730678558,
	"epoch": 2.6455223880597014,
	"grad_norm": 0.16111285984516144,
	"learning_rate": 0.0002,
	"loss": 0.536095142364502,
	"mean_token_accuracy": 0.7845699042081833,
	"num_tokens": 11592548.0,
	"step": 709
	},
	{
	"entropy": 0.5335683822631836,
	"epoch": 2.6492537313432836,
	"grad_norm": 0.18878330290317535,
	"learning_rate": 0.0002,
	"loss": 0.533022403717041,
	"mean_token_accuracy": 0.7858745902776718,
	"num_tokens": 11608718.0,
	"step": 710
	},
	{
	"entropy": 0.5291629135608673,
	"epoch": 2.6529850746268657,
	"grad_norm": 0.15525634586811066,
	"learning_rate": 0.0002,
	"loss": 0.5270857214927673,
	"mean_token_accuracy": 0.7867603600025177,
	"num_tokens": 11624984.0,
	"step": 711
	},
	{
	"entropy": 0.5291008502244949,
	"epoch": 2.656716417910448,
	"grad_norm": 0.2215014100074768,
	"learning_rate": 0.0002,
	"loss": 0.5335924029350281,
	"mean_token_accuracy": 0.7852614969015121,
	"num_tokens": 11641414.0,
	"step": 712
	},
	{
	"entropy": 0.5195610374212265,
	"epoch": 2.66044776119403,
	"grad_norm": 0.1840248554944992,
	"learning_rate": 0.0002,
	"loss": 0.5272573828697205,
	"mean_token_accuracy": 0.7856255769729614,
	"num_tokens": 11657606.0,
	"step": 713
	},
	{
	"entropy": 0.5212601721286774,
	"epoch": 2.664179104477612,
	"grad_norm": 0.2194834053516388,
	"learning_rate": 0.0002,
	"loss": 0.5225985050201416,
	"mean_token_accuracy": 0.7896359115839005,
	"num_tokens": 11673978.0,
	"step": 714
	},
	{
	"entropy": 0.5267243683338165,
	"epoch": 2.667910447761194,
	"grad_norm": 0.18111757934093475,
	"learning_rate": 0.0002,
	"loss": 0.5297276973724365,
	"mean_token_accuracy": 0.7850082814693451,
	"num_tokens": 11690084.0,
	"step": 715
	},
	{
	"entropy": 0.5318636000156403,
	"epoch": 2.671641791044776,
	"grad_norm": 0.1797971874475479,
	"learning_rate": 0.0002,
	"loss": 0.5307915806770325,
	"mean_token_accuracy": 0.7851123064756393,
	"num_tokens": 11706504.0,
	"step": 716
	},
	{
	"entropy": 0.5428463369607925,
	"epoch": 2.675373134328358,
	"grad_norm": 0.1636015772819519,
	"learning_rate": 0.0002,
	"loss": 0.534479558467865,
	"mean_token_accuracy": 0.7838175147771835,
	"num_tokens": 11722988.0,
	"step": 717
	},
	{
	"entropy": 0.5360075086355209,
	"epoch": 2.6791044776119404,
	"grad_norm": 0.15919257700443268,
	"learning_rate": 0.0002,
	"loss": 0.5305730700492859,
	"mean_token_accuracy": 0.7855097204446793,
	"num_tokens": 11739438.0,
	"step": 718
	},
	{
	"entropy": 0.5359227359294891,
	"epoch": 2.6828358208955225,
	"grad_norm": 0.14643317461013794,
	"learning_rate": 0.0002,
	"loss": 0.532948911190033,
	"mean_token_accuracy": 0.7826716750860214,
	"num_tokens": 11755793.0,
	"step": 719
	},
	{
	"entropy": 0.508900836110115,
	"epoch": 2.6865671641791042,
	"grad_norm": 0.18424049019813538,
	"learning_rate": 0.0002,
	"loss": 0.5087383985519409,
	"mean_token_accuracy": 0.7960971295833588,
	"num_tokens": 11772140.0,
	"step": 720
	},
	{
	"entropy": 0.5278252959251404,
	"epoch": 2.6902985074626864,
	"grad_norm": 0.16620668768882751,
	"learning_rate": 0.0002,
	"loss": 0.5323323011398315,
	"mean_token_accuracy": 0.7838071584701538,
	"num_tokens": 11788187.0,
	"step": 721
	},
	{
	"entropy": 0.5286207944154739,
	"epoch": 2.6940298507462686,
	"grad_norm": 0.18285532295703888,
	"learning_rate": 0.0002,
	"loss": 0.5379830598831177,
	"mean_token_accuracy": 0.7834362238645554,
	"num_tokens": 11804853.0,
	"step": 722
	},
	{
	"entropy": 0.5304315537214279,
	"epoch": 2.6977611940298507,
	"grad_norm": 0.1528841108083725,
	"learning_rate": 0.0002,
	"loss": 0.53291916847229,
	"mean_token_accuracy": 0.7848697453737259,
	"num_tokens": 11821372.0,
	"step": 723
	},
	{
	"entropy": 0.5269036293029785,
	"epoch": 2.701492537313433,
	"grad_norm": 0.16717489063739777,
	"learning_rate": 0.0002,
	"loss": 0.5263969898223877,
	"mean_token_accuracy": 0.7880866229534149,
	"num_tokens": 11837581.0,
	"step": 724
	},
	{
	"entropy": 0.5256982818245888,
	"epoch": 2.705223880597015,
	"grad_norm": 0.15457774698734283,
	"learning_rate": 0.0002,
	"loss": 0.5219148993492126,
	"mean_token_accuracy": 0.7873740494251251,
	"num_tokens": 11853896.0,
	"step": 725
	},
	{
	"entropy": 0.534528449177742,
	"epoch": 2.708955223880597,
	"grad_norm": 0.15566900372505188,
	"learning_rate": 0.0002,
	"loss": 0.5313507318496704,
	"mean_token_accuracy": 0.7871876060962677,
	"num_tokens": 11869979.0,
	"step": 726
	},
	{
	"entropy": 0.5365303605794907,
	"epoch": 2.7126865671641793,
	"grad_norm": 0.16134414076805115,
	"learning_rate": 0.0002,
	"loss": 0.5403051972389221,
	"mean_token_accuracy": 0.7792389243841171,
	"num_tokens": 11886540.0,
	"step": 727
	},
	{
	"entropy": 0.5314591228961945,
	"epoch": 2.716417910447761,
	"grad_norm": 0.20206789672374725,
	"learning_rate": 0.0002,
	"loss": 0.5367040038108826,
	"mean_token_accuracy": 0.785218358039856,
	"num_tokens": 11902636.0,
	"step": 728
	},
	{
	"entropy": 0.5247315615415573,
	"epoch": 2.720149253731343,
	"grad_norm": 0.17510657012462616,
	"learning_rate": 0.0002,
	"loss": 0.5183426141738892,
	"mean_token_accuracy": 0.7929788678884506,
	"num_tokens": 11918809.0,
	"step": 729
	},
	{
	"entropy": 0.531570702791214,
	"epoch": 2.7238805970149254,
	"grad_norm": 0.19654951989650726,
	"learning_rate": 0.0002,
	"loss": 0.5312444567680359,
	"mean_token_accuracy": 0.7852945178747177,
	"num_tokens": 11934918.0,
	"step": 730
	},
	{
	"entropy": 0.5167503207921982,
	"epoch": 2.7276119402985075,
	"grad_norm": 0.18647317588329315,
	"learning_rate": 0.0002,
	"loss": 0.521633505821228,
	"mean_token_accuracy": 0.7868699729442596,
	"num_tokens": 11951418.0,
	"step": 731
	},
	{
	"entropy": 0.5409902930259705,
	"epoch": 2.7313432835820897,
	"grad_norm": 0.16911281645298004,
	"learning_rate": 0.0002,
	"loss": 0.5437517166137695,
	"mean_token_accuracy": 0.7801080495119095,
	"num_tokens": 11967971.0,
	"step": 732
	},
	{
	"entropy": 0.5430471152067184,
	"epoch": 2.7350746268656714,
	"grad_norm": 0.15203061699867249,
	"learning_rate": 0.0002,
	"loss": 0.5399286150932312,
	"mean_token_accuracy": 0.7798464447259903,
	"num_tokens": 11984465.0,
	"step": 733
	},
	{
	"entropy": 0.5305036455392838,
	"epoch": 2.7388059701492535,
	"grad_norm": 0.19002215564250946,
	"learning_rate": 0.0002,
	"loss": 0.526854932308197,
	"mean_token_accuracy": 0.788349375128746,
	"num_tokens": 12000894.0,
	"step": 734
	},
	{
	"entropy": 0.5385335683822632,
	"epoch": 2.7425373134328357,
	"grad_norm": 0.1556226909160614,
	"learning_rate": 0.0002,
	"loss": 0.536300003528595,
	"mean_token_accuracy": 0.7823566943407059,
	"num_tokens": 12017341.0,
	"step": 735
	},
	{
	"entropy": 0.5280898958444595,
	"epoch": 2.746268656716418,
	"grad_norm": 0.22629927098751068,
	"learning_rate": 0.0002,
	"loss": 0.5357972979545593,
	"mean_token_accuracy": 0.7819354236125946,
	"num_tokens": 12033592.0,
	"step": 736
	},
	{
	"entropy": 0.5210496559739113,
	"epoch": 2.75,
	"grad_norm": 0.14672952890396118,
	"learning_rate": 0.0002,
	"loss": 0.5192467570304871,
	"mean_token_accuracy": 0.7897329777479172,
	"num_tokens": 12050029.0,
	"step": 737
	},
	{
	"entropy": 0.5315113514661789,
	"epoch": 2.753731343283582,
	"grad_norm": 0.179401695728302,
	"learning_rate": 0.0002,
	"loss": 0.5297517776489258,
	"mean_token_accuracy": 0.7900628596544266,
	"num_tokens": 12066356.0,
	"step": 738
	},
	{
	"entropy": 0.5152995735406876,
	"epoch": 2.7574626865671643,
	"grad_norm": 0.20404104888439178,
	"learning_rate": 0.0002,
	"loss": 0.523341953754425,
	"mean_token_accuracy": 0.7902668565511703,
	"num_tokens": 12082476.0,
	"step": 739
	},
	{
	"entropy": 0.5357868671417236,
	"epoch": 2.7611940298507465,
	"grad_norm": 0.21347877383232117,
	"learning_rate": 0.0002,
	"loss": 0.5397475361824036,
	"mean_token_accuracy": 0.7817140519618988,
	"num_tokens": 12098813.0,
	"step": 740
	},
	{
	"entropy": 0.5294998437166214,
	"epoch": 2.7649253731343286,
	"grad_norm": 0.19437092542648315,
	"learning_rate": 0.0002,
	"loss": 0.5309361219406128,
	"mean_token_accuracy": 0.785544291138649,
	"num_tokens": 12115108.0,
	"step": 741
	},
	{
	"entropy": 0.5339842438697815,
	"epoch": 2.7686567164179103,
	"grad_norm": 0.211222842335701,
	"learning_rate": 0.0002,
	"loss": 0.5336329340934753,
	"mean_token_accuracy": 0.7840461581945419,
	"num_tokens": 12131657.0,
	"step": 742
	},
	{
	"entropy": 0.5063766092061996,
	"epoch": 2.7723880597014925,
	"grad_norm": 0.18974091112613678,
	"learning_rate": 0.0002,
	"loss": 0.5003129243850708,
	"mean_token_accuracy": 0.7983057200908661,
	"num_tokens": 12147977.0,
	"step": 743
	},
	{
	"entropy": 0.5348393470048904,
	"epoch": 2.7761194029850746,
	"grad_norm": 0.17940539121627808,
	"learning_rate": 0.0002,
	"loss": 0.5325519442558289,
	"mean_token_accuracy": 0.7843880504369736,
	"num_tokens": 12164476.0,
	"step": 744
	},
	{
	"entropy": 0.5319767147302628,
	"epoch": 2.779850746268657,
	"grad_norm": 0.21841664612293243,
	"learning_rate": 0.0002,
	"loss": 0.5384219884872437,
	"mean_token_accuracy": 0.7829115390777588,
	"num_tokens": 12180665.0,
	"step": 745
	},
	{
	"entropy": 0.5276842713356018,
	"epoch": 2.783582089552239,
	"grad_norm": 0.15762406587600708,
	"learning_rate": 0.0002,
	"loss": 0.5222536325454712,
	"mean_token_accuracy": 0.7876606732606888,
	"num_tokens": 12196994.0,
	"step": 746
	},
	{
	"entropy": 0.5283003747463226,
	"epoch": 2.7873134328358207,
	"grad_norm": 0.1740235984325409,
	"learning_rate": 0.0002,
	"loss": 0.5262863039970398,
	"mean_token_accuracy": 0.7871444076299667,
	"num_tokens": 12213146.0,
	"step": 747
	},
	{
	"entropy": 0.5243652537465096,
	"epoch": 2.791044776119403,
	"grad_norm": 0.17303697764873505,
	"learning_rate": 0.0002,
	"loss": 0.5288724303245544,
	"mean_token_accuracy": 0.7889265865087509,
	"num_tokens": 12229495.0,
	"step": 748
	},
	{
	"entropy": 0.5307216495275497,
	"epoch": 2.794776119402985,
	"grad_norm": 0.17367562651634216,
	"learning_rate": 0.0002,
	"loss": 0.5350364446640015,
	"mean_token_accuracy": 0.7828467786312103,
	"num_tokens": 12245731.0,
	"step": 749
	},
	{
	"entropy": 0.5053429380059242,
	"epoch": 2.798507462686567,
	"grad_norm": 0.18273597955703735,
	"learning_rate": 0.0002,
	"loss": 0.5170458555221558,
	"mean_token_accuracy": 0.7908547967672348,
	"num_tokens": 12261995.0,
	"step": 750
	},
	{
	"entropy": 0.5304894745349884,
	"epoch": 2.8022388059701493,
	"grad_norm": 0.19946977496147156,
	"learning_rate": 0.0002,
	"loss": 0.5361734628677368,
	"mean_token_accuracy": 0.7829707115888596,
	"num_tokens": 12278393.0,
	"step": 751
	},
	{
	"entropy": 0.5383865833282471,
	"epoch": 2.8059701492537314,
	"grad_norm": 0.18991155922412872,
	"learning_rate": 0.0002,
	"loss": 0.5307108163833618,
	"mean_token_accuracy": 0.7821619510650635,
	"num_tokens": 12294798.0,
	"step": 752
	},
	{
	"entropy": 0.5184406042098999,
	"epoch": 2.8097014925373136,
	"grad_norm": 0.1910092979669571,
	"learning_rate": 0.0002,
	"loss": 0.5096916556358337,
	"mean_token_accuracy": 0.7956021875143051,
	"num_tokens": 12311283.0,
	"step": 753
	},
	{
	"entropy": 0.5503049492835999,
	"epoch": 2.8134328358208958,
	"grad_norm": 0.16047552227973938,
	"learning_rate": 0.0002,
	"loss": 0.5400866270065308,
	"mean_token_accuracy": 0.781381756067276,
	"num_tokens": 12327796.0,
	"step": 754
	},
	{
	"entropy": 0.5367267429828644,
	"epoch": 2.8171641791044775,
	"grad_norm": 0.17214973270893097,
	"learning_rate": 0.0002,
	"loss": 0.533517062664032,
	"mean_token_accuracy": 0.7842586189508438,
	"num_tokens": 12344276.0,
	"step": 755
	},
	{
	"entropy": 0.5231245383620262,
	"epoch": 2.8208955223880596,
	"grad_norm": 0.20261810719966888,
	"learning_rate": 0.0002,
	"loss": 0.5310981869697571,
	"mean_token_accuracy": 0.7863229364156723,
	"num_tokens": 12360664.0,
	"step": 756
	},
	{
	"entropy": 0.5025655254721642,
	"epoch": 2.824626865671642,
	"grad_norm": 0.23269020020961761,
	"learning_rate": 0.0002,
	"loss": 0.5136131644248962,
	"mean_token_accuracy": 0.7932915538549423,
	"num_tokens": 12377108.0,
	"step": 757
	},
	{
	"entropy": 0.5385118275880814,
	"epoch": 2.828358208955224,
	"grad_norm": 0.17557309567928314,
	"learning_rate": 0.0002,
	"loss": 0.5468243956565857,
	"mean_token_accuracy": 0.7773942649364471,
	"num_tokens": 12393477.0,
	"step": 758
	},
	{
	"entropy": 0.5556999295949936,
	"epoch": 2.832089552238806,
	"grad_norm": 0.18836821615695953,
	"learning_rate": 0.0002,
	"loss": 0.5542982816696167,
	"mean_token_accuracy": 0.7759236544370651,
	"num_tokens": 12409945.0,
	"step": 759
	},
	{
	"entropy": 0.5397951006889343,
	"epoch": 2.835820895522388,
	"grad_norm": 0.16869579255580902,
	"learning_rate": 0.0002,
	"loss": 0.5345804691314697,
	"mean_token_accuracy": 0.7828676253557205,
	"num_tokens": 12426172.0,
	"step": 760
	},
	{
	"entropy": 0.5465898215770721,
	"epoch": 2.83955223880597,
	"grad_norm": 0.1971413791179657,
	"learning_rate": 0.0002,
	"loss": 0.5406813621520996,
	"mean_token_accuracy": 0.7830551862716675,
	"num_tokens": 12442539.0,
	"step": 761
	},
	{
	"entropy": 0.5412090718746185,
	"epoch": 2.843283582089552,
	"grad_norm": 0.16916459798812866,
	"learning_rate": 0.0002,
	"loss": 0.5298109650611877,
	"mean_token_accuracy": 0.7871081382036209,
	"num_tokens": 12458926.0,
	"step": 762
	},
	{
	"entropy": 0.5222381502389908,
	"epoch": 2.8470149253731343,
	"grad_norm": 0.19241978228092194,
	"learning_rate": 0.0002,
	"loss": 0.5193473100662231,
	"mean_token_accuracy": 0.7926554083824158,
	"num_tokens": 12475192.0,
	"step": 763
	},
	{
	"entropy": 0.5114666819572449,
	"epoch": 2.8507462686567164,
	"grad_norm": 0.2026778608560562,
	"learning_rate": 0.0002,
	"loss": 0.5210025906562805,
	"mean_token_accuracy": 0.7880990207195282,
	"num_tokens": 12491486.0,
	"step": 764
	},
	{
	"entropy": 0.5318130105733871,
	"epoch": 2.8544776119402986,
	"grad_norm": 0.18366879224777222,
	"learning_rate": 0.0002,
	"loss": 0.5408880710601807,
	"mean_token_accuracy": 0.7821989059448242,
	"num_tokens": 12508110.0,
	"step": 765
	},
	{
	"entropy": 0.5178861618041992,
	"epoch": 2.8582089552238807,
	"grad_norm": 0.22393299639225006,
	"learning_rate": 0.0002,
	"loss": 0.5233381986618042,
	"mean_token_accuracy": 0.7875554710626602,
	"num_tokens": 12524419.0,
	"step": 766
	},
	{
	"entropy": 0.5129977464675903,
	"epoch": 2.861940298507463,
	"grad_norm": 0.16486415266990662,
	"learning_rate": 0.0002,
	"loss": 0.5123316645622253,
	"mean_token_accuracy": 0.7945219725370407,
	"num_tokens": 12540623.0,
	"step": 767
	},
	{
	"entropy": 0.5352810174226761,
	"epoch": 2.8656716417910446,
	"grad_norm": 0.16391848027706146,
	"learning_rate": 0.0002,
	"loss": 0.5287078619003296,
	"mean_token_accuracy": 0.7864142656326294,
	"num_tokens": 12556769.0,
	"step": 768
	},
	{
	"entropy": 0.5213837772607803,
	"epoch": 2.8694029850746268,
	"grad_norm": 0.15605109930038452,
	"learning_rate": 0.0002,
	"loss": 0.5177993774414062,
	"mean_token_accuracy": 0.791528195142746,
	"num_tokens": 12572975.0,
	"step": 769
	},
	{
	"entropy": 0.5254454612731934,
	"epoch": 2.873134328358209,
	"grad_norm": 0.17228880524635315,
	"learning_rate": 0.0002,
	"loss": 0.5218878388404846,
	"mean_token_accuracy": 0.790112167596817,
	"num_tokens": 12589664.0,
	"step": 770
	},
	{
	"entropy": 0.5180996954441071,
	"epoch": 2.876865671641791,
	"grad_norm": 0.1603233963251114,
	"learning_rate": 0.0002,
	"loss": 0.5153653621673584,
	"mean_token_accuracy": 0.7935372442007065,
	"num_tokens": 12606393.0,
	"step": 771
	},
	{
	"entropy": 0.5220412835478783,
	"epoch": 2.8805970149253732,
	"grad_norm": 0.19191837310791016,
	"learning_rate": 0.0002,
	"loss": 0.5350449085235596,
	"mean_token_accuracy": 0.7817320823669434,
	"num_tokens": 12622915.0,
	"step": 772
	},
	{
	"entropy": 0.5260520726442337,
	"epoch": 2.8843283582089554,
	"grad_norm": 0.1964220553636551,
	"learning_rate": 0.0002,
	"loss": 0.5347790718078613,
	"mean_token_accuracy": 0.7870497107505798,
	"num_tokens": 12639438.0,
	"step": 773
	},
	{
	"entropy": 0.5259631350636482,
	"epoch": 2.888059701492537,
	"grad_norm": 0.1590423583984375,
	"learning_rate": 0.0002,
	"loss": 0.5264297723770142,
	"mean_token_accuracy": 0.7856660634279251,
	"num_tokens": 12656043.0,
	"step": 774
	},
	{
	"entropy": 0.5494396686553955,
	"epoch": 2.8917910447761193,
	"grad_norm": 0.166259765625,
	"learning_rate": 0.0002,
	"loss": 0.541179895401001,
	"mean_token_accuracy": 0.7822139710187912,
	"num_tokens": 12672530.0,
	"step": 775
	},
	{
	"entropy": 0.5362062454223633,
	"epoch": 2.8955223880597014,
	"grad_norm": 0.16349440813064575,
	"learning_rate": 0.0002,
	"loss": 0.530780017375946,
	"mean_token_accuracy": 0.7863557487726212,
	"num_tokens": 12689021.0,
	"step": 776
	},
	{
	"entropy": 0.5223592668771744,
	"epoch": 2.8992537313432836,
	"grad_norm": 0.15761977434158325,
	"learning_rate": 0.0002,
	"loss": 0.5155429244041443,
	"mean_token_accuracy": 0.7907254546880722,
	"num_tokens": 12705262.0,
	"step": 777
	},
	{
	"entropy": 0.5258801132440567,
	"epoch": 2.9029850746268657,
	"grad_norm": 0.1883028894662857,
	"learning_rate": 0.0002,
	"loss": 0.529833972454071,
	"mean_token_accuracy": 0.7863512486219406,
	"num_tokens": 12721511.0,
	"step": 778
	},
	{
	"entropy": 0.5216899961233139,
	"epoch": 2.906716417910448,
	"grad_norm": 0.16059532761573792,
	"learning_rate": 0.0002,
	"loss": 0.522499680519104,
	"mean_token_accuracy": 0.7899018228054047,
	"num_tokens": 12738089.0,
	"step": 779
	},
	{
	"entropy": 0.520403303205967,
	"epoch": 2.91044776119403,
	"grad_norm": 0.1771392673254013,
	"learning_rate": 0.0002,
	"loss": 0.5236196517944336,
	"mean_token_accuracy": 0.7879007905721664,
	"num_tokens": 12754592.0,
	"step": 780
	},
	{
	"entropy": 0.5242541432380676,
	"epoch": 2.914179104477612,
	"grad_norm": 0.17634879052639008,
	"learning_rate": 0.0002,
	"loss": 0.5289914011955261,
	"mean_token_accuracy": 0.7824440151453018,
	"num_tokens": 12770734.0,
	"step": 781
	},
	{
	"entropy": 0.5201637446880341,
	"epoch": 2.917910447761194,
	"grad_norm": 0.17048649489879608,
	"learning_rate": 0.0002,
	"loss": 0.5211310386657715,
	"mean_token_accuracy": 0.7937574684619904,
	"num_tokens": 12787160.0,
	"step": 782
	},
	{
	"entropy": 0.5204057991504669,
	"epoch": 2.921641791044776,
	"grad_norm": 0.15417909622192383,
	"learning_rate": 0.0002,
	"loss": 0.517360508441925,
	"mean_token_accuracy": 0.7929933965206146,
	"num_tokens": 12803683.0,
	"step": 783
	},
	{
	"entropy": 0.545757845044136,
	"epoch": 2.925373134328358,
	"grad_norm": 0.1549869030714035,
	"learning_rate": 0.0002,
	"loss": 0.5414532423019409,
	"mean_token_accuracy": 0.7788090705871582,
	"num_tokens": 12819951.0,
	"step": 784
	},
	{
	"entropy": 0.5228646248579025,
	"epoch": 2.9291044776119404,
	"grad_norm": 0.15743686258792877,
	"learning_rate": 0.0002,
	"loss": 0.516430675983429,
	"mean_token_accuracy": 0.7925095409154892,
	"num_tokens": 12836413.0,
	"step": 785
	},
	{
	"entropy": 0.5214046537876129,
	"epoch": 2.9328358208955225,
	"grad_norm": 0.16672447323799133,
	"learning_rate": 0.0002,
	"loss": 0.5222574472427368,
	"mean_token_accuracy": 0.7870719730854034,
	"num_tokens": 12852872.0,
	"step": 786
	},
	{
	"entropy": 0.5317943245172501,
	"epoch": 2.9365671641791042,
	"grad_norm": 0.21642933785915375,
	"learning_rate": 0.0002,
	"loss": 0.5372959971427917,
	"mean_token_accuracy": 0.7832164466381073,
	"num_tokens": 12869405.0,
	"step": 787
	},
	{
	"entropy": 0.5113082602620125,
	"epoch": 2.9402985074626864,
	"grad_norm": 0.22133168578147888,
	"learning_rate": 0.0002,
	"loss": 0.522553563117981,
	"mean_token_accuracy": 0.7871409952640533,
	"num_tokens": 12885593.0,
	"step": 788
	},
	{
	"entropy": 0.5275594145059586,
	"epoch": 2.9440298507462686,
	"grad_norm": 0.20494818687438965,
	"learning_rate": 0.0002,
	"loss": 0.5326835513114929,
	"mean_token_accuracy": 0.7843892127275467,
	"num_tokens": 12901950.0,
	"step": 789
	},
	{
	"entropy": 0.5371553599834442,
	"epoch": 2.9477611940298507,
	"grad_norm": 0.16483525931835175,
	"learning_rate": 0.0002,
	"loss": 0.5343260765075684,
	"mean_token_accuracy": 0.7844540178775787,
	"num_tokens": 12918538.0,
	"step": 790
	},
	{
	"entropy": 0.5248367339372635,
	"epoch": 2.951492537313433,
	"grad_norm": 0.20370911061763763,
	"learning_rate": 0.0002,
	"loss": 0.5262700915336609,
	"mean_token_accuracy": 0.7856797575950623,
	"num_tokens": 12935041.0,
	"step": 791
	},
	{
	"entropy": 0.5536757409572601,
	"epoch": 2.955223880597015,
	"grad_norm": 0.15302392840385437,
	"learning_rate": 0.0002,
	"loss": 0.5451865196228027,
	"mean_token_accuracy": 0.781255841255188,
	"num_tokens": 12951793.0,
	"step": 792
	},
	{
	"entropy": 0.5070596486330032,
	"epoch": 2.958955223880597,
	"grad_norm": 0.20451144874095917,
	"learning_rate": 0.0002,
	"loss": 0.5115755796432495,
	"mean_token_accuracy": 0.7904744446277618,
	"num_tokens": 12968060.0,
	"step": 793
	},
	{
	"entropy": 0.5260060653090477,
	"epoch": 2.9626865671641793,
	"grad_norm": 0.16183388233184814,
	"learning_rate": 0.0002,
	"loss": 0.5244185328483582,
	"mean_token_accuracy": 0.7878494709730148,
	"num_tokens": 12984541.0,
	"step": 794
	},
	{
	"entropy": 0.5389718413352966,
	"epoch": 2.966417910447761,
	"grad_norm": 0.17704468965530396,
	"learning_rate": 0.0002,
	"loss": 0.5415879487991333,
	"mean_token_accuracy": 0.7840642035007477,
	"num_tokens": 13000817.0,
	"step": 795
	},
	{
	"entropy": 0.5400192737579346,
	"epoch": 2.970149253731343,
	"grad_norm": 0.16612157225608826,
	"learning_rate": 0.0002,
	"loss": 0.5336055755615234,
	"mean_token_accuracy": 0.7857667803764343,
	"num_tokens": 13016973.0,
	"step": 796
	},
	{
	"entropy": 0.5179389715194702,
	"epoch": 2.9738805970149254,
	"grad_norm": 0.16657505929470062,
	"learning_rate": 0.0002,
	"loss": 0.5218580365180969,
	"mean_token_accuracy": 0.7903915345668793,
	"num_tokens": 13033299.0,
	"step": 797
	},
	{
	"entropy": 0.5229775831103325,
	"epoch": 2.9776119402985075,
	"grad_norm": 0.1601499617099762,
	"learning_rate": 0.0002,
	"loss": 0.5244333744049072,
	"mean_token_accuracy": 0.7875324189662933,
	"num_tokens": 13049754.0,
	"step": 798
	},
	{
	"entropy": 0.5364563912153244,
	"epoch": 2.9813432835820897,
	"grad_norm": 0.17928777635097504,
	"learning_rate": 0.0002,
	"loss": 0.5421883463859558,
	"mean_token_accuracy": 0.7822880148887634,
	"num_tokens": 13066045.0,
	"step": 799
	},
	{
	"entropy": 0.5202258825302124,
	"epoch": 2.9850746268656714,
	"grad_norm": 0.1714518666267395,
	"learning_rate": 0.0002,
	"loss": 0.5221466422080994,
	"mean_token_accuracy": 0.7896016389131546,
	"num_tokens": 13082398.0,
	"step": 800
	},
	{
	"entropy": 0.526955708861351,
	"epoch": 2.9888059701492535,
	"grad_norm": 0.1565951555967331,
	"learning_rate": 0.0002,
	"loss": 0.521065354347229,
	"mean_token_accuracy": 0.7919437438249588,
	"num_tokens": 13098966.0,
	"step": 801
	},
	{
	"entropy": 0.5393194705247879,
	"epoch": 2.9925373134328357,
	"grad_norm": 0.1675749570131302,
	"learning_rate": 0.0002,
	"loss": 0.5336388945579529,
	"mean_token_accuracy": 0.7851084172725677,
	"num_tokens": 13115333.0,
	"step": 802
	},
	{
	"entropy": 0.5270961374044418,
	"epoch": 2.996268656716418,
	"grad_norm": 0.17216360569000244,
	"learning_rate": 0.0002,
	"loss": 0.5220625400543213,
	"mean_token_accuracy": 0.7888612896203995,
	"num_tokens": 13131491.0,
	"step": 803
	},
	{
	"entropy": 0.5005228817462921,
	"epoch": 3.0,
	"grad_norm": 0.1877554953098297,
	"learning_rate": 0.0002,
	"loss": 0.5059037208557129,
	"mean_token_accuracy": 0.797055795788765,
	"num_tokens": 13147551.0,
	"step": 804
	}
	],
	"logging_steps": 1,
	"max_steps": 804,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2254562163611402e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}