Upload final checkpoint (checkpoint-946)

9fcfc7e verified 2 months ago

273 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.5430711610486894,
	"eval_steps": 500,
	"global_step": 946,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.124472439289093,
	"epoch": 0.003745318352059925,
	"grad_norm": 0.4064895212650299,
	"learning_rate": 0.0002,
	"loss": 2.4620742797851562,
	"mean_token_accuracy": 0.5437362492084503,
	"num_tokens": 16219.0,
	"step": 1
	},
	{
	"entropy": 1.2432018220424652,
	"epoch": 0.00749063670411985,
	"grad_norm": 0.37879112362861633,
	"learning_rate": 0.0002,
	"loss": 2.1651668548583984,
	"mean_token_accuracy": 0.5638100206851959,
	"num_tokens": 32451.0,
	"step": 2
	},
	{
	"entropy": 1.4062562882900238,
	"epoch": 0.011235955056179775,
	"grad_norm": 0.28845661878585815,
	"learning_rate": 0.0002,
	"loss": 1.7072796821594238,
	"mean_token_accuracy": 0.5924695134162903,
	"num_tokens": 48696.0,
	"step": 3
	},
	{
	"entropy": 1.3798817992210388,
	"epoch": 0.0149812734082397,
	"grad_norm": 0.2335132509469986,
	"learning_rate": 0.0002,
	"loss": 1.4192372560501099,
	"mean_token_accuracy": 0.6366562396287918,
	"num_tokens": 65149.0,
	"step": 4
	},
	{
	"entropy": 1.3547163307666779,
	"epoch": 0.018726591760299626,
	"grad_norm": 0.27531901001930237,
	"learning_rate": 0.0002,
	"loss": 1.2890108823776245,
	"mean_token_accuracy": 0.639111116528511,
	"num_tokens": 81615.0,
	"step": 5
	},
	{
	"entropy": 1.2633765935897827,
	"epoch": 0.02247191011235955,
	"grad_norm": 0.15004344284534454,
	"learning_rate": 0.0002,
	"loss": 1.1727904081344604,
	"mean_token_accuracy": 0.6589455008506775,
	"num_tokens": 98238.0,
	"step": 6
	},
	{
	"entropy": 1.1859196424484253,
	"epoch": 0.026217228464419477,
	"grad_norm": 0.10320489853620529,
	"learning_rate": 0.0002,
	"loss": 1.0918691158294678,
	"mean_token_accuracy": 0.6676707565784454,
	"num_tokens": 114444.0,
	"step": 7
	},
	{
	"entropy": 1.1146739721298218,
	"epoch": 0.0299625468164794,
	"grad_norm": 0.1199173703789711,
	"learning_rate": 0.0002,
	"loss": 1.0362448692321777,
	"mean_token_accuracy": 0.6752683073282242,
	"num_tokens": 130761.0,
	"step": 8
	},
	{
	"entropy": 1.0335184335708618,
	"epoch": 0.033707865168539325,
	"grad_norm": 0.12563136219978333,
	"learning_rate": 0.0002,
	"loss": 0.9962326288223267,
	"mean_token_accuracy": 0.6880597323179245,
	"num_tokens": 147021.0,
	"step": 9
	},
	{
	"entropy": 0.9865177571773529,
	"epoch": 0.03745318352059925,
	"grad_norm": 0.1199953481554985,
	"learning_rate": 0.0002,
	"loss": 0.9303470849990845,
	"mean_token_accuracy": 0.6944610327482224,
	"num_tokens": 163123.0,
	"step": 10
	},
	{
	"entropy": 0.9654616415500641,
	"epoch": 0.04119850187265917,
	"grad_norm": 0.11374429613351822,
	"learning_rate": 0.0002,
	"loss": 0.8831573724746704,
	"mean_token_accuracy": 0.7051983922719955,
	"num_tokens": 179185.0,
	"step": 11
	},
	{
	"entropy": 0.9084527641534805,
	"epoch": 0.0449438202247191,
	"grad_norm": 0.11104491353034973,
	"learning_rate": 0.0002,
	"loss": 0.8112745881080627,
	"mean_token_accuracy": 0.717003270983696,
	"num_tokens": 195302.0,
	"step": 12
	},
	{
	"entropy": 0.8792405873537064,
	"epoch": 0.04868913857677903,
	"grad_norm": 0.29082274436950684,
	"learning_rate": 0.0002,
	"loss": 0.798420250415802,
	"mean_token_accuracy": 0.7170884907245636,
	"num_tokens": 211890.0,
	"step": 13
	},
	{
	"entropy": 0.8252373337745667,
	"epoch": 0.052434456928838954,
	"grad_norm": 0.10816927999258041,
	"learning_rate": 0.0002,
	"loss": 0.7828125357627869,
	"mean_token_accuracy": 0.7214709371328354,
	"num_tokens": 228238.0,
	"step": 14
	},
	{
	"entropy": 0.7244665324687958,
	"epoch": 0.056179775280898875,
	"grad_norm": 0.11618702858686447,
	"learning_rate": 0.0002,
	"loss": 0.7206279635429382,
	"mean_token_accuracy": 0.7338205277919769,
	"num_tokens": 244371.0,
	"step": 15
	},
	{
	"entropy": 0.6871565729379654,
	"epoch": 0.0599250936329588,
	"grad_norm": 0.1065768375992775,
	"learning_rate": 0.0002,
	"loss": 0.7100083827972412,
	"mean_token_accuracy": 0.7358262836933136,
	"num_tokens": 260726.0,
	"step": 16
	},
	{
	"entropy": 0.6935696750879288,
	"epoch": 0.06367041198501873,
	"grad_norm": 0.08450760692358017,
	"learning_rate": 0.0002,
	"loss": 0.6838802695274353,
	"mean_token_accuracy": 0.7416488826274872,
	"num_tokens": 277122.0,
	"step": 17
	},
	{
	"entropy": 0.6860368996858597,
	"epoch": 0.06741573033707865,
	"grad_norm": 0.08516346663236618,
	"learning_rate": 0.0002,
	"loss": 0.6765270829200745,
	"mean_token_accuracy": 0.7396037727594376,
	"num_tokens": 293596.0,
	"step": 18
	},
	{
	"entropy": 0.6689740270376205,
	"epoch": 0.07116104868913857,
	"grad_norm": 0.08950749784708023,
	"learning_rate": 0.0002,
	"loss": 0.6559870839118958,
	"mean_token_accuracy": 0.7492983937263489,
	"num_tokens": 309758.0,
	"step": 19
	},
	{
	"entropy": 0.6853971034288406,
	"epoch": 0.0749063670411985,
	"grad_norm": 0.08301156759262085,
	"learning_rate": 0.0002,
	"loss": 0.6591368913650513,
	"mean_token_accuracy": 0.7445396035909653,
	"num_tokens": 326199.0,
	"step": 20
	},
	{
	"entropy": 0.6475548148155212,
	"epoch": 0.07865168539325842,
	"grad_norm": 0.07257863134145737,
	"learning_rate": 0.0002,
	"loss": 0.6322771906852722,
	"mean_token_accuracy": 0.7570293545722961,
	"num_tokens": 342706.0,
	"step": 21
	},
	{
	"entropy": 0.62291419506073,
	"epoch": 0.08239700374531835,
	"grad_norm": 0.07468358427286148,
	"learning_rate": 0.0002,
	"loss": 0.6161096096038818,
	"mean_token_accuracy": 0.7579571604728699,
	"num_tokens": 358967.0,
	"step": 22
	},
	{
	"entropy": 0.6039848625659943,
	"epoch": 0.08614232209737828,
	"grad_norm": 0.06657886505126953,
	"learning_rate": 0.0002,
	"loss": 0.5981277823448181,
	"mean_token_accuracy": 0.7673389315605164,
	"num_tokens": 375372.0,
	"step": 23
	},
	{
	"entropy": 0.6231608390808105,
	"epoch": 0.0898876404494382,
	"grad_norm": 0.06528797745704651,
	"learning_rate": 0.0002,
	"loss": 0.6185131072998047,
	"mean_token_accuracy": 0.7547510862350464,
	"num_tokens": 391535.0,
	"step": 24
	},
	{
	"entropy": 0.6286156177520752,
	"epoch": 0.09363295880149813,
	"grad_norm": 0.06431519240140915,
	"learning_rate": 0.0002,
	"loss": 0.6217876672744751,
	"mean_token_accuracy": 0.7541641592979431,
	"num_tokens": 407808.0,
	"step": 25
	},
	{
	"entropy": 0.6126427948474884,
	"epoch": 0.09737827715355805,
	"grad_norm": 0.06216903775930405,
	"learning_rate": 0.0002,
	"loss": 0.6070841550827026,
	"mean_token_accuracy": 0.759774461388588,
	"num_tokens": 424098.0,
	"step": 26
	},
	{
	"entropy": 0.6149384081363678,
	"epoch": 0.10112359550561797,
	"grad_norm": 0.06437912583351135,
	"learning_rate": 0.0002,
	"loss": 0.6078751087188721,
	"mean_token_accuracy": 0.7595006227493286,
	"num_tokens": 440539.0,
	"step": 27
	},
	{
	"entropy": 0.6091344654560089,
	"epoch": 0.10486891385767791,
	"grad_norm": 0.06495340913534164,
	"learning_rate": 0.0002,
	"loss": 0.6011782884597778,
	"mean_token_accuracy": 0.7595006972551346,
	"num_tokens": 456799.0,
	"step": 28
	},
	{
	"entropy": 0.608646497130394,
	"epoch": 0.10861423220973783,
	"grad_norm": 0.059445418417453766,
	"learning_rate": 0.0002,
	"loss": 0.6044275164604187,
	"mean_token_accuracy": 0.7600021511316299,
	"num_tokens": 473089.0,
	"step": 29
	},
	{
	"entropy": 0.6043040752410889,
	"epoch": 0.11235955056179775,
	"grad_norm": 0.06593701243400574,
	"learning_rate": 0.0002,
	"loss": 0.6045087575912476,
	"mean_token_accuracy": 0.7567310333251953,
	"num_tokens": 489490.0,
	"step": 30
	},
	{
	"entropy": 0.5747391283512115,
	"epoch": 0.11610486891385768,
	"grad_norm": 0.06415696442127228,
	"learning_rate": 0.0002,
	"loss": 0.5873428583145142,
	"mean_token_accuracy": 0.7674129754304886,
	"num_tokens": 505809.0,
	"step": 31
	},
	{
	"entropy": 0.5926542580127716,
	"epoch": 0.1198501872659176,
	"grad_norm": 0.051249004900455475,
	"learning_rate": 0.0002,
	"loss": 0.598324179649353,
	"mean_token_accuracy": 0.759703740477562,
	"num_tokens": 522016.0,
	"step": 32
	},
	{
	"entropy": 0.5886886864900589,
	"epoch": 0.12359550561797752,
	"grad_norm": 0.05292005091905594,
	"learning_rate": 0.0002,
	"loss": 0.5881145596504211,
	"mean_token_accuracy": 0.7697232961654663,
	"num_tokens": 538100.0,
	"step": 33
	},
	{
	"entropy": 0.5867745727300644,
	"epoch": 0.12734082397003746,
	"grad_norm": 0.04721912741661072,
	"learning_rate": 0.0002,
	"loss": 0.5836299061775208,
	"mean_token_accuracy": 0.768671840429306,
	"num_tokens": 554234.0,
	"step": 34
	},
	{
	"entropy": 0.5881127417087555,
	"epoch": 0.13108614232209737,
	"grad_norm": 0.05805843323469162,
	"learning_rate": 0.0002,
	"loss": 0.5897107124328613,
	"mean_token_accuracy": 0.7657543420791626,
	"num_tokens": 570565.0,
	"step": 35
	},
	{
	"entropy": 0.5939383208751678,
	"epoch": 0.1348314606741573,
	"grad_norm": 0.0569508820772171,
	"learning_rate": 0.0002,
	"loss": 0.5897835493087769,
	"mean_token_accuracy": 0.7598359882831573,
	"num_tokens": 586816.0,
	"step": 36
	},
	{
	"entropy": 0.5979506522417068,
	"epoch": 0.13857677902621723,
	"grad_norm": 0.05739126354455948,
	"learning_rate": 0.0002,
	"loss": 0.5949404835700989,
	"mean_token_accuracy": 0.7612607926130295,
	"num_tokens": 603019.0,
	"step": 37
	},
	{
	"entropy": 0.5742268264293671,
	"epoch": 0.14232209737827714,
	"grad_norm": 0.047265954315662384,
	"learning_rate": 0.0002,
	"loss": 0.5759380459785461,
	"mean_token_accuracy": 0.7693933397531509,
	"num_tokens": 619295.0,
	"step": 38
	},
	{
	"entropy": 0.5710775703191757,
	"epoch": 0.14606741573033707,
	"grad_norm": 0.05281650274991989,
	"learning_rate": 0.0002,
	"loss": 0.5691424608230591,
	"mean_token_accuracy": 0.7704602777957916,
	"num_tokens": 635365.0,
	"step": 39
	},
	{
	"entropy": 0.582334503531456,
	"epoch": 0.149812734082397,
	"grad_norm": 0.055993299931287766,
	"learning_rate": 0.0002,
	"loss": 0.5809962749481201,
	"mean_token_accuracy": 0.7662668973207474,
	"num_tokens": 651665.0,
	"step": 40
	},
	{
	"entropy": 0.5551325976848602,
	"epoch": 0.15355805243445692,
	"grad_norm": 0.04340814799070358,
	"learning_rate": 0.0002,
	"loss": 0.557377815246582,
	"mean_token_accuracy": 0.7778407037258148,
	"num_tokens": 667809.0,
	"step": 41
	},
	{
	"entropy": 0.5822649896144867,
	"epoch": 0.15730337078651685,
	"grad_norm": 0.04575135186314583,
	"learning_rate": 0.0002,
	"loss": 0.5827720165252686,
	"mean_token_accuracy": 0.7657051831483841,
	"num_tokens": 683923.0,
	"step": 42
	},
	{
	"entropy": 0.55968376994133,
	"epoch": 0.16104868913857678,
	"grad_norm": 0.04552368074655533,
	"learning_rate": 0.0002,
	"loss": 0.5598254799842834,
	"mean_token_accuracy": 0.7764519304037094,
	"num_tokens": 700197.0,
	"step": 43
	},
	{
	"entropy": 0.5671757161617279,
	"epoch": 0.1647940074906367,
	"grad_norm": 0.04587964341044426,
	"learning_rate": 0.0002,
	"loss": 0.5750178694725037,
	"mean_token_accuracy": 0.7700542360544205,
	"num_tokens": 716432.0,
	"step": 44
	},
	{
	"entropy": 0.5685836523771286,
	"epoch": 0.16853932584269662,
	"grad_norm": 0.03833606839179993,
	"learning_rate": 0.0002,
	"loss": 0.5728627443313599,
	"mean_token_accuracy": 0.7676915228366852,
	"num_tokens": 732768.0,
	"step": 45
	},
	{
	"entropy": 0.5726271122694016,
	"epoch": 0.17228464419475656,
	"grad_norm": 0.04773888736963272,
	"learning_rate": 0.0002,
	"loss": 0.5737521052360535,
	"mean_token_accuracy": 0.7691973745822906,
	"num_tokens": 748991.0,
	"step": 46
	},
	{
	"entropy": 0.5940001755952835,
	"epoch": 0.1760299625468165,
	"grad_norm": 0.035074397921562195,
	"learning_rate": 0.0002,
	"loss": 0.58332759141922,
	"mean_token_accuracy": 0.7648619115352631,
	"num_tokens": 765572.0,
	"step": 47
	},
	{
	"entropy": 0.5897164344787598,
	"epoch": 0.1797752808988764,
	"grad_norm": 0.037994541227817535,
	"learning_rate": 0.0002,
	"loss": 0.5864952802658081,
	"mean_token_accuracy": 0.7641548812389374,
	"num_tokens": 782005.0,
	"step": 48
	},
	{
	"entropy": 0.5744329988956451,
	"epoch": 0.18352059925093633,
	"grad_norm": 0.040346939116716385,
	"learning_rate": 0.0002,
	"loss": 0.5669541954994202,
	"mean_token_accuracy": 0.770287498831749,
	"num_tokens": 798604.0,
	"step": 49
	},
	{
	"entropy": 0.5779913067817688,
	"epoch": 0.18726591760299627,
	"grad_norm": 0.036969687789678574,
	"learning_rate": 0.0002,
	"loss": 0.5797433257102966,
	"mean_token_accuracy": 0.7645184099674225,
	"num_tokens": 814871.0,
	"step": 50
	},
	{
	"entropy": 0.5663889348506927,
	"epoch": 0.19101123595505617,
	"grad_norm": 0.03604266792535782,
	"learning_rate": 0.0002,
	"loss": 0.5714061260223389,
	"mean_token_accuracy": 0.7704311609268188,
	"num_tokens": 831246.0,
	"step": 51
	},
	{
	"entropy": 0.561771884560585,
	"epoch": 0.1947565543071161,
	"grad_norm": 0.04034798592329025,
	"learning_rate": 0.0002,
	"loss": 0.5732511878013611,
	"mean_token_accuracy": 0.7705236822366714,
	"num_tokens": 847825.0,
	"step": 52
	},
	{
	"entropy": 0.5677134096622467,
	"epoch": 0.19850187265917604,
	"grad_norm": 0.03827312961220741,
	"learning_rate": 0.0002,
	"loss": 0.5743907690048218,
	"mean_token_accuracy": 0.7655002921819687,
	"num_tokens": 864255.0,
	"step": 53
	},
	{
	"entropy": 0.563701331615448,
	"epoch": 0.20224719101123595,
	"grad_norm": 0.04143316298723221,
	"learning_rate": 0.0002,
	"loss": 0.5607832074165344,
	"mean_token_accuracy": 0.772660031914711,
	"num_tokens": 880665.0,
	"step": 54
	},
	{
	"entropy": 0.5692192316055298,
	"epoch": 0.20599250936329588,
	"grad_norm": 0.03400753438472748,
	"learning_rate": 0.0002,
	"loss": 0.5670974254608154,
	"mean_token_accuracy": 0.769247904419899,
	"num_tokens": 896987.0,
	"step": 55
	},
	{
	"entropy": 0.5776625126600266,
	"epoch": 0.20973782771535582,
	"grad_norm": 0.035431839525699615,
	"learning_rate": 0.0002,
	"loss": 0.5733675360679626,
	"mean_token_accuracy": 0.7692834436893463,
	"num_tokens": 913582.0,
	"step": 56
	},
	{
	"entropy": 0.5626319646835327,
	"epoch": 0.21348314606741572,
	"grad_norm": 0.03843431547284126,
	"learning_rate": 0.0002,
	"loss": 0.5641550421714783,
	"mean_token_accuracy": 0.7710368186235428,
	"num_tokens": 929972.0,
	"step": 57
	},
	{
	"entropy": 0.5526942014694214,
	"epoch": 0.21722846441947566,
	"grad_norm": 0.03771563246846199,
	"learning_rate": 0.0002,
	"loss": 0.5567817687988281,
	"mean_token_accuracy": 0.7731232047080994,
	"num_tokens": 945888.0,
	"step": 58
	},
	{
	"entropy": 0.5716714560985565,
	"epoch": 0.2209737827715356,
	"grad_norm": 0.036766648292541504,
	"learning_rate": 0.0002,
	"loss": 0.5660452246665955,
	"mean_token_accuracy": 0.7728052884340286,
	"num_tokens": 962278.0,
	"step": 59
	},
	{
	"entropy": 0.568805992603302,
	"epoch": 0.2247191011235955,
	"grad_norm": 0.035415392369031906,
	"learning_rate": 0.0002,
	"loss": 0.5717817544937134,
	"mean_token_accuracy": 0.7711138129234314,
	"num_tokens": 978682.0,
	"step": 60
	},
	{
	"entropy": 0.5708261281251907,
	"epoch": 0.22846441947565543,
	"grad_norm": 0.03432939946651459,
	"learning_rate": 0.0002,
	"loss": 0.5735772252082825,
	"mean_token_accuracy": 0.7677555531263351,
	"num_tokens": 994945.0,
	"step": 61
	},
	{
	"entropy": 0.5660677701234818,
	"epoch": 0.23220973782771537,
	"grad_norm": 0.041112665086984634,
	"learning_rate": 0.0002,
	"loss": 0.5750763416290283,
	"mean_token_accuracy": 0.7678538411855698,
	"num_tokens": 1011319.0,
	"step": 62
	},
	{
	"entropy": 0.5581584423780441,
	"epoch": 0.23595505617977527,
	"grad_norm": 0.03535327687859535,
	"learning_rate": 0.0002,
	"loss": 0.5653359889984131,
	"mean_token_accuracy": 0.7709096819162369,
	"num_tokens": 1027780.0,
	"step": 63
	},
	{
	"entropy": 0.5639653205871582,
	"epoch": 0.2397003745318352,
	"grad_norm": 0.03404325619339943,
	"learning_rate": 0.0002,
	"loss": 0.5576256513595581,
	"mean_token_accuracy": 0.7768308818340302,
	"num_tokens": 1044141.0,
	"step": 64
	},
	{
	"entropy": 0.5733215659856796,
	"epoch": 0.24344569288389514,
	"grad_norm": 0.041786711663007736,
	"learning_rate": 0.0002,
	"loss": 0.5677163600921631,
	"mean_token_accuracy": 0.768655464053154,
	"num_tokens": 1060152.0,
	"step": 65
	},
	{
	"entropy": 0.5721775144338608,
	"epoch": 0.24719101123595505,
	"grad_norm": 0.037091247737407684,
	"learning_rate": 0.0002,
	"loss": 0.5689237713813782,
	"mean_token_accuracy": 0.769687607884407,
	"num_tokens": 1076350.0,
	"step": 66
	},
	{
	"entropy": 0.5711842328310013,
	"epoch": 0.250936329588015,
	"grad_norm": 0.03522708639502525,
	"learning_rate": 0.0002,
	"loss": 0.567720890045166,
	"mean_token_accuracy": 0.7711529284715652,
	"num_tokens": 1092839.0,
	"step": 67
	},
	{
	"entropy": 0.5565171837806702,
	"epoch": 0.2546816479400749,
	"grad_norm": 0.038917530328035355,
	"learning_rate": 0.0002,
	"loss": 0.5597351789474487,
	"mean_token_accuracy": 0.7759623378515244,
	"num_tokens": 1109005.0,
	"step": 68
	},
	{
	"entropy": 0.5430796295404434,
	"epoch": 0.25842696629213485,
	"grad_norm": 0.034353867173194885,
	"learning_rate": 0.0002,
	"loss": 0.5536048412322998,
	"mean_token_accuracy": 0.7768301516771317,
	"num_tokens": 1125051.0,
	"step": 69
	},
	{
	"entropy": 0.5550204813480377,
	"epoch": 0.26217228464419473,
	"grad_norm": 0.03845667093992233,
	"learning_rate": 0.0002,
	"loss": 0.5609036087989807,
	"mean_token_accuracy": 0.7741425037384033,
	"num_tokens": 1141333.0,
	"step": 70
	},
	{
	"entropy": 0.5524102747440338,
	"epoch": 0.26591760299625467,
	"grad_norm": 0.0383320152759552,
	"learning_rate": 0.0002,
	"loss": 0.5493491291999817,
	"mean_token_accuracy": 0.7784009873867035,
	"num_tokens": 1157440.0,
	"step": 71
	},
	{
	"entropy": 0.5607451796531677,
	"epoch": 0.2696629213483146,
	"grad_norm": 0.0344189889729023,
	"learning_rate": 0.0002,
	"loss": 0.5574801564216614,
	"mean_token_accuracy": 0.7733150720596313,
	"num_tokens": 1173721.0,
	"step": 72
	},
	{
	"entropy": 0.5708478391170502,
	"epoch": 0.27340823970037453,
	"grad_norm": 0.03608883544802666,
	"learning_rate": 0.0002,
	"loss": 0.5691329836845398,
	"mean_token_accuracy": 0.7706348299980164,
	"num_tokens": 1189995.0,
	"step": 73
	},
	{
	"entropy": 0.5674006342887878,
	"epoch": 0.27715355805243447,
	"grad_norm": 0.03380035236477852,
	"learning_rate": 0.0002,
	"loss": 0.5687033534049988,
	"mean_token_accuracy": 0.7686747610569,
	"num_tokens": 1206546.0,
	"step": 74
	},
	{
	"entropy": 0.5619117617607117,
	"epoch": 0.2808988764044944,
	"grad_norm": 0.033374786376953125,
	"learning_rate": 0.0002,
	"loss": 0.5617104768753052,
	"mean_token_accuracy": 0.774394765496254,
	"num_tokens": 1222857.0,
	"step": 75
	},
	{
	"entropy": 0.553475558757782,
	"epoch": 0.2846441947565543,
	"grad_norm": 0.03828837722539902,
	"learning_rate": 0.0002,
	"loss": 0.5524560809135437,
	"mean_token_accuracy": 0.7749378681182861,
	"num_tokens": 1239289.0,
	"step": 76
	},
	{
	"entropy": 0.5745554566383362,
	"epoch": 0.2883895131086142,
	"grad_norm": 0.03621216490864754,
	"learning_rate": 0.0002,
	"loss": 0.5808500051498413,
	"mean_token_accuracy": 0.7678203135728836,
	"num_tokens": 1255521.0,
	"step": 77
	},
	{
	"entropy": 0.5676577985286713,
	"epoch": 0.29213483146067415,
	"grad_norm": 0.03588660806417465,
	"learning_rate": 0.0002,
	"loss": 0.5705655813217163,
	"mean_token_accuracy": 0.7692013084888458,
	"num_tokens": 1271794.0,
	"step": 78
	},
	{
	"entropy": 0.578361302614212,
	"epoch": 0.2958801498127341,
	"grad_norm": 0.03781484439969063,
	"learning_rate": 0.0002,
	"loss": 0.5760793089866638,
	"mean_token_accuracy": 0.7664260119199753,
	"num_tokens": 1288356.0,
	"step": 79
	},
	{
	"entropy": 0.5593062490224838,
	"epoch": 0.299625468164794,
	"grad_norm": 0.03217354416847229,
	"learning_rate": 0.0002,
	"loss": 0.5657471418380737,
	"mean_token_accuracy": 0.7739468365907669,
	"num_tokens": 1304492.0,
	"step": 80
	},
	{
	"entropy": 0.5666437745094299,
	"epoch": 0.30337078651685395,
	"grad_norm": 0.03268091008067131,
	"learning_rate": 0.0002,
	"loss": 0.5716702938079834,
	"mean_token_accuracy": 0.7679993361234665,
	"num_tokens": 1320914.0,
	"step": 81
	},
	{
	"entropy": 0.5685661137104034,
	"epoch": 0.30711610486891383,
	"grad_norm": 0.03592272475361824,
	"learning_rate": 0.0002,
	"loss": 0.5758165717124939,
	"mean_token_accuracy": 0.7661760449409485,
	"num_tokens": 1337161.0,
	"step": 82
	},
	{
	"entropy": 0.5707727521657944,
	"epoch": 0.31086142322097376,
	"grad_norm": 0.032845061272382736,
	"learning_rate": 0.0002,
	"loss": 0.5710837841033936,
	"mean_token_accuracy": 0.7702731043100357,
	"num_tokens": 1353376.0,
	"step": 83
	},
	{
	"entropy": 0.5628758817911148,
	"epoch": 0.3146067415730337,
	"grad_norm": 0.029750632122159004,
	"learning_rate": 0.0002,
	"loss": 0.5637022852897644,
	"mean_token_accuracy": 0.7708846777677536,
	"num_tokens": 1369870.0,
	"step": 84
	},
	{
	"entropy": 0.5795712918043137,
	"epoch": 0.31835205992509363,
	"grad_norm": 0.03464500606060028,
	"learning_rate": 0.0002,
	"loss": 0.5780152082443237,
	"mean_token_accuracy": 0.7670614421367645,
	"num_tokens": 1386403.0,
	"step": 85
	},
	{
	"entropy": 0.5554608702659607,
	"epoch": 0.32209737827715357,
	"grad_norm": 0.03547544404864311,
	"learning_rate": 0.0002,
	"loss": 0.5557012557983398,
	"mean_token_accuracy": 0.7721797376871109,
	"num_tokens": 1402494.0,
	"step": 86
	},
	{
	"entropy": 0.5579323172569275,
	"epoch": 0.3258426966292135,
	"grad_norm": 0.03288840129971504,
	"learning_rate": 0.0002,
	"loss": 0.560955286026001,
	"mean_token_accuracy": 0.7751947343349457,
	"num_tokens": 1418821.0,
	"step": 87
	},
	{
	"entropy": 0.5543566048145294,
	"epoch": 0.3295880149812734,
	"grad_norm": 0.04169093072414398,
	"learning_rate": 0.0002,
	"loss": 0.5500882267951965,
	"mean_token_accuracy": 0.7791634202003479,
	"num_tokens": 1434993.0,
	"step": 88
	},
	{
	"entropy": 0.5734467208385468,
	"epoch": 0.3333333333333333,
	"grad_norm": 0.04577335715293884,
	"learning_rate": 0.0002,
	"loss": 0.5629557371139526,
	"mean_token_accuracy": 0.7727752029895782,
	"num_tokens": 1451307.0,
	"step": 89
	},
	{
	"entropy": 0.5726543813943863,
	"epoch": 0.33707865168539325,
	"grad_norm": 0.0342593714594841,
	"learning_rate": 0.0002,
	"loss": 0.5802106261253357,
	"mean_token_accuracy": 0.7650935351848602,
	"num_tokens": 1467745.0,
	"step": 90
	},
	{
	"entropy": 0.551667258143425,
	"epoch": 0.3408239700374532,
	"grad_norm": 0.03779289126396179,
	"learning_rate": 0.0002,
	"loss": 0.562962532043457,
	"mean_token_accuracy": 0.7722999006509781,
	"num_tokens": 1483931.0,
	"step": 91
	},
	{
	"entropy": 0.5500118583440781,
	"epoch": 0.3445692883895131,
	"grad_norm": 0.04092314839363098,
	"learning_rate": 0.0002,
	"loss": 0.5627440810203552,
	"mean_token_accuracy": 0.7718297243118286,
	"num_tokens": 1500272.0,
	"step": 92
	},
	{
	"entropy": 0.5528086423873901,
	"epoch": 0.34831460674157305,
	"grad_norm": 0.03680623322725296,
	"learning_rate": 0.0002,
	"loss": 0.5555366277694702,
	"mean_token_accuracy": 0.7774850875139236,
	"num_tokens": 1516853.0,
	"step": 93
	},
	{
	"entropy": 0.5520536154508591,
	"epoch": 0.352059925093633,
	"grad_norm": 0.037777166813611984,
	"learning_rate": 0.0002,
	"loss": 0.5425198078155518,
	"mean_token_accuracy": 0.7793015986680984,
	"num_tokens": 1533333.0,
	"step": 94
	},
	{
	"entropy": 0.5685165077447891,
	"epoch": 0.35580524344569286,
	"grad_norm": 0.04140891879796982,
	"learning_rate": 0.0002,
	"loss": 0.5641899108886719,
	"mean_token_accuracy": 0.7713409811258316,
	"num_tokens": 1549757.0,
	"step": 95
	},
	{
	"entropy": 0.5465481728315353,
	"epoch": 0.3595505617977528,
	"grad_norm": 0.035262562334537506,
	"learning_rate": 0.0002,
	"loss": 0.5490474104881287,
	"mean_token_accuracy": 0.7827550321817398,
	"num_tokens": 1565996.0,
	"step": 96
	},
	{
	"entropy": 0.5831216871738434,
	"epoch": 0.36329588014981273,
	"grad_norm": 0.036104101687669754,
	"learning_rate": 0.0002,
	"loss": 0.589984118938446,
	"mean_token_accuracy": 0.7600380033254623,
	"num_tokens": 1582215.0,
	"step": 97
	},
	{
	"entropy": 0.5677650719881058,
	"epoch": 0.36704119850187267,
	"grad_norm": 0.03766894340515137,
	"learning_rate": 0.0002,
	"loss": 0.5645126104354858,
	"mean_token_accuracy": 0.7706596851348877,
	"num_tokens": 1598452.0,
	"step": 98
	},
	{
	"entropy": 0.5670180022716522,
	"epoch": 0.3707865168539326,
	"grad_norm": 0.031464677304029465,
	"learning_rate": 0.0002,
	"loss": 0.5694231986999512,
	"mean_token_accuracy": 0.7699034363031387,
	"num_tokens": 1614973.0,
	"step": 99
	},
	{
	"entropy": 0.556086465716362,
	"epoch": 0.37453183520599254,
	"grad_norm": 0.03442725911736488,
	"learning_rate": 0.0002,
	"loss": 0.5548810958862305,
	"mean_token_accuracy": 0.7733764350414276,
	"num_tokens": 1631172.0,
	"step": 100
	},
	{
	"entropy": 0.5800606608390808,
	"epoch": 0.3782771535580524,
	"grad_norm": 0.03572804853320122,
	"learning_rate": 0.0002,
	"loss": 0.5861737728118896,
	"mean_token_accuracy": 0.7624654024839401,
	"num_tokens": 1647621.0,
	"step": 101
	},
	{
	"entropy": 0.5482688248157501,
	"epoch": 0.38202247191011235,
	"grad_norm": 0.03775500878691673,
	"learning_rate": 0.0002,
	"loss": 0.5594941973686218,
	"mean_token_accuracy": 0.7744353115558624,
	"num_tokens": 1663895.0,
	"step": 102
	},
	{
	"entropy": 0.563491478562355,
	"epoch": 0.3857677902621723,
	"grad_norm": 0.031457267701625824,
	"learning_rate": 0.0002,
	"loss": 0.564830482006073,
	"mean_token_accuracy": 0.7690578252077103,
	"num_tokens": 1680534.0,
	"step": 103
	},
	{
	"entropy": 0.564789205789566,
	"epoch": 0.3895131086142322,
	"grad_norm": 0.035452548414468765,
	"learning_rate": 0.0002,
	"loss": 0.560291588306427,
	"mean_token_accuracy": 0.7735853344202042,
	"num_tokens": 1696770.0,
	"step": 104
	},
	{
	"entropy": 0.5566727668046951,
	"epoch": 0.39325842696629215,
	"grad_norm": 0.03198615834116936,
	"learning_rate": 0.0002,
	"loss": 0.5535395741462708,
	"mean_token_accuracy": 0.7722934931516647,
	"num_tokens": 1713024.0,
	"step": 105
	},
	{
	"entropy": 0.5578596889972687,
	"epoch": 0.3970037453183521,
	"grad_norm": 0.03393879160284996,
	"learning_rate": 0.0002,
	"loss": 0.5627562999725342,
	"mean_token_accuracy": 0.7742809951305389,
	"num_tokens": 1729333.0,
	"step": 106
	},
	{
	"entropy": 0.5788154900074005,
	"epoch": 0.40074906367041196,
	"grad_norm": 0.033935144543647766,
	"learning_rate": 0.0002,
	"loss": 0.580773115158081,
	"mean_token_accuracy": 0.7651670575141907,
	"num_tokens": 1745611.0,
	"step": 107
	},
	{
	"entropy": 0.5737199634313583,
	"epoch": 0.4044943820224719,
	"grad_norm": 0.03252919018268585,
	"learning_rate": 0.0002,
	"loss": 0.5751349925994873,
	"mean_token_accuracy": 0.7671079486608505,
	"num_tokens": 1762357.0,
	"step": 108
	},
	{
	"entropy": 0.5651296824216843,
	"epoch": 0.40823970037453183,
	"grad_norm": 0.028949161991477013,
	"learning_rate": 0.0002,
	"loss": 0.5604527592658997,
	"mean_token_accuracy": 0.7729825675487518,
	"num_tokens": 1778752.0,
	"step": 109
	},
	{
	"entropy": 0.5504195243120193,
	"epoch": 0.41198501872659177,
	"grad_norm": 0.028210768476128578,
	"learning_rate": 0.0002,
	"loss": 0.549246072769165,
	"mean_token_accuracy": 0.7782431095838547,
	"num_tokens": 1794998.0,
	"step": 110
	},
	{
	"entropy": 0.5765475034713745,
	"epoch": 0.4157303370786517,
	"grad_norm": 0.02785623073577881,
	"learning_rate": 0.0002,
	"loss": 0.5748263597488403,
	"mean_token_accuracy": 0.7663502544164658,
	"num_tokens": 1811522.0,
	"step": 111
	},
	{
	"entropy": 0.5662956237792969,
	"epoch": 0.41947565543071164,
	"grad_norm": 0.027803661301732063,
	"learning_rate": 0.0002,
	"loss": 0.5678505897521973,
	"mean_token_accuracy": 0.769574448466301,
	"num_tokens": 1827911.0,
	"step": 112
	},
	{
	"entropy": 0.554324135184288,
	"epoch": 0.4232209737827715,
	"grad_norm": 0.03252230957150459,
	"learning_rate": 0.0002,
	"loss": 0.5648460984230042,
	"mean_token_accuracy": 0.7699959129095078,
	"num_tokens": 1844234.0,
	"step": 113
	},
	{
	"entropy": 0.5458608418703079,
	"epoch": 0.42696629213483145,
	"grad_norm": 0.027507655322551727,
	"learning_rate": 0.0002,
	"loss": 0.5496413111686707,
	"mean_token_accuracy": 0.7775106579065323,
	"num_tokens": 1860498.0,
	"step": 114
	},
	{
	"entropy": 0.5563929826021194,
	"epoch": 0.4307116104868914,
	"grad_norm": 0.03014312870800495,
	"learning_rate": 0.0002,
	"loss": 0.5582830905914307,
	"mean_token_accuracy": 0.7708972990512848,
	"num_tokens": 1876571.0,
	"step": 115
	},
	{
	"entropy": 0.5650668740272522,
	"epoch": 0.4344569288389513,
	"grad_norm": 0.032711341977119446,
	"learning_rate": 0.0002,
	"loss": 0.5640538930892944,
	"mean_token_accuracy": 0.7726383656263351,
	"num_tokens": 1893031.0,
	"step": 116
	},
	{
	"entropy": 0.5807255804538727,
	"epoch": 0.43820224719101125,
	"grad_norm": 0.04059470072388649,
	"learning_rate": 0.0002,
	"loss": 0.5742425918579102,
	"mean_token_accuracy": 0.7666837275028229,
	"num_tokens": 1909366.0,
	"step": 117
	},
	{
	"entropy": 0.5798581689596176,
	"epoch": 0.4419475655430712,
	"grad_norm": 0.03380719944834709,
	"learning_rate": 0.0002,
	"loss": 0.5788700580596924,
	"mean_token_accuracy": 0.7679527401924133,
	"num_tokens": 1925898.0,
	"step": 118
	},
	{
	"entropy": 0.5766737908124924,
	"epoch": 0.44569288389513106,
	"grad_norm": 0.030183367431163788,
	"learning_rate": 0.0002,
	"loss": 0.5766640901565552,
	"mean_token_accuracy": 0.7679651975631714,
	"num_tokens": 1942401.0,
	"step": 119
	},
	{
	"entropy": 0.5603433847427368,
	"epoch": 0.449438202247191,
	"grad_norm": 0.0362340547144413,
	"learning_rate": 0.0002,
	"loss": 0.5619690418243408,
	"mean_token_accuracy": 0.7730819880962372,
	"num_tokens": 1958720.0,
	"step": 120
	},
	{
	"entropy": 0.5559201538562775,
	"epoch": 0.45318352059925093,
	"grad_norm": 0.034683868288993835,
	"learning_rate": 0.0002,
	"loss": 0.5595064163208008,
	"mean_token_accuracy": 0.7748750001192093,
	"num_tokens": 1975119.0,
	"step": 121
	},
	{
	"entropy": 0.5641336888074875,
	"epoch": 0.45692883895131087,
	"grad_norm": 0.034222401678562164,
	"learning_rate": 0.0002,
	"loss": 0.5678452849388123,
	"mean_token_accuracy": 0.7732732445001602,
	"num_tokens": 1991506.0,
	"step": 122
	},
	{
	"entropy": 0.5829679220914841,
	"epoch": 0.4606741573033708,
	"grad_norm": 0.034026652574539185,
	"learning_rate": 0.0002,
	"loss": 0.5875802040100098,
	"mean_token_accuracy": 0.7611493021249771,
	"num_tokens": 2007947.0,
	"step": 123
	},
	{
	"entropy": 0.5581521540880203,
	"epoch": 0.46441947565543074,
	"grad_norm": 0.025140831246972084,
	"learning_rate": 0.0002,
	"loss": 0.5602667927742004,
	"mean_token_accuracy": 0.7735796868801117,
	"num_tokens": 2024401.0,
	"step": 124
	},
	{
	"entropy": 0.5715497881174088,
	"epoch": 0.4681647940074906,
	"grad_norm": 0.029785403981804848,
	"learning_rate": 0.0002,
	"loss": 0.5672232508659363,
	"mean_token_accuracy": 0.7685857713222504,
	"num_tokens": 2040631.0,
	"step": 125
	},
	{
	"entropy": 0.5607001930475235,
	"epoch": 0.47191011235955055,
	"grad_norm": 0.04235680401325226,
	"learning_rate": 0.0002,
	"loss": 0.5650739073753357,
	"mean_token_accuracy": 0.7696276903152466,
	"num_tokens": 2056536.0,
	"step": 126
	},
	{
	"entropy": 0.5663832724094391,
	"epoch": 0.4756554307116105,
	"grad_norm": 0.03530610725283623,
	"learning_rate": 0.0002,
	"loss": 0.5653817653656006,
	"mean_token_accuracy": 0.771982342004776,
	"num_tokens": 2072694.0,
	"step": 127
	},
	{
	"entropy": 0.5544104427099228,
	"epoch": 0.4794007490636704,
	"grad_norm": 0.02733522094786167,
	"learning_rate": 0.0002,
	"loss": 0.5605688095092773,
	"mean_token_accuracy": 0.7723411917686462,
	"num_tokens": 2089137.0,
	"step": 128
	},
	{
	"entropy": 0.5275053828954697,
	"epoch": 0.48314606741573035,
	"grad_norm": 0.04322921857237816,
	"learning_rate": 0.0002,
	"loss": 0.5484553575515747,
	"mean_token_accuracy": 0.7770342081785202,
	"num_tokens": 2105149.0,
	"step": 129
	},
	{
	"entropy": 0.5561497956514359,
	"epoch": 0.4868913857677903,
	"grad_norm": 0.038827862590551376,
	"learning_rate": 0.0002,
	"loss": 0.55650395154953,
	"mean_token_accuracy": 0.7764105200767517,
	"num_tokens": 2121463.0,
	"step": 130
	},
	{
	"entropy": 0.5783034265041351,
	"epoch": 0.49063670411985016,
	"grad_norm": 0.029603557661175728,
	"learning_rate": 0.0002,
	"loss": 0.5703758001327515,
	"mean_token_accuracy": 0.7689076513051987,
	"num_tokens": 2137873.0,
	"step": 131
	},
	{
	"entropy": 0.5802958011627197,
	"epoch": 0.4943820224719101,
	"grad_norm": 0.03336755558848381,
	"learning_rate": 0.0002,
	"loss": 0.5750676989555359,
	"mean_token_accuracy": 0.7685631215572357,
	"num_tokens": 2154043.0,
	"step": 132
	},
	{
	"entropy": 0.5565105229616165,
	"epoch": 0.49812734082397003,
	"grad_norm": 0.03589406609535217,
	"learning_rate": 0.0002,
	"loss": 0.5438498258590698,
	"mean_token_accuracy": 0.7815204560756683,
	"num_tokens": 2170057.0,
	"step": 133
	},
	{
	"entropy": 0.5716612040996552,
	"epoch": 0.50187265917603,
	"grad_norm": 0.03452189266681671,
	"learning_rate": 0.0002,
	"loss": 0.5778107047080994,
	"mean_token_accuracy": 0.7688381224870682,
	"num_tokens": 2186386.0,
	"step": 134
	},
	{
	"entropy": 0.561384916305542,
	"epoch": 0.5056179775280899,
	"grad_norm": 0.03864321857690811,
	"learning_rate": 0.0002,
	"loss": 0.5704262256622314,
	"mean_token_accuracy": 0.7647197097539902,
	"num_tokens": 2202441.0,
	"step": 135
	},
	{
	"entropy": 0.5625592470169067,
	"epoch": 0.5093632958801498,
	"grad_norm": 0.029244674369692802,
	"learning_rate": 0.0002,
	"loss": 0.5618846416473389,
	"mean_token_accuracy": 0.7706502974033356,
	"num_tokens": 2218642.0,
	"step": 136
	},
	{
	"entropy": 0.557224690914154,
	"epoch": 0.5131086142322098,
	"grad_norm": 0.03010115958750248,
	"learning_rate": 0.0002,
	"loss": 0.5529860854148865,
	"mean_token_accuracy": 0.7745790481567383,
	"num_tokens": 2234941.0,
	"step": 137
	},
	{
	"entropy": 0.5669968128204346,
	"epoch": 0.5168539325842697,
	"grad_norm": 0.030734272673726082,
	"learning_rate": 0.0002,
	"loss": 0.563121497631073,
	"mean_token_accuracy": 0.7691874206066132,
	"num_tokens": 2251132.0,
	"step": 138
	},
	{
	"entropy": 0.5601507127285004,
	"epoch": 0.5205992509363296,
	"grad_norm": 0.03075527958571911,
	"learning_rate": 0.0002,
	"loss": 0.5602597594261169,
	"mean_token_accuracy": 0.7736657857894897,
	"num_tokens": 2267424.0,
	"step": 139
	},
	{
	"entropy": 0.5564019232988358,
	"epoch": 0.5243445692883895,
	"grad_norm": 0.03025938756763935,
	"learning_rate": 0.0002,
	"loss": 0.5628267526626587,
	"mean_token_accuracy": 0.771067887544632,
	"num_tokens": 2283849.0,
	"step": 140
	},
	{
	"entropy": 0.5395451635122299,
	"epoch": 0.5280898876404494,
	"grad_norm": 0.03199173882603645,
	"learning_rate": 0.0002,
	"loss": 0.5487725734710693,
	"mean_token_accuracy": 0.7775663435459137,
	"num_tokens": 2299872.0,
	"step": 141
	},
	{
	"entropy": 0.5526085048913956,
	"epoch": 0.5318352059925093,
	"grad_norm": 0.030539415776729584,
	"learning_rate": 0.0002,
	"loss": 0.5591868162155151,
	"mean_token_accuracy": 0.7733905166387558,
	"num_tokens": 2316381.0,
	"step": 142
	},
	{
	"entropy": 0.5586904883384705,
	"epoch": 0.5355805243445693,
	"grad_norm": 0.03167688101530075,
	"learning_rate": 0.0002,
	"loss": 0.5590608716011047,
	"mean_token_accuracy": 0.7722269594669342,
	"num_tokens": 2332636.0,
	"step": 143
	},
	{
	"entropy": 0.5568670481443405,
	"epoch": 0.5393258426966292,
	"grad_norm": 0.02876191958785057,
	"learning_rate": 0.0002,
	"loss": 0.5519507527351379,
	"mean_token_accuracy": 0.776704877614975,
	"num_tokens": 2348823.0,
	"step": 144
	},
	{
	"entropy": 0.5536152571439743,
	"epoch": 0.5430711610486891,
	"grad_norm": 0.026966845616698265,
	"learning_rate": 0.0002,
	"loss": 0.5451969504356384,
	"mean_token_accuracy": 0.7772984057664871,
	"num_tokens": 2365018.0,
	"step": 145
	},
	{
	"entropy": 0.55972820520401,
	"epoch": 0.5468164794007491,
	"grad_norm": 0.028171516954898834,
	"learning_rate": 0.0002,
	"loss": 0.5568036437034607,
	"mean_token_accuracy": 0.7727039009332657,
	"num_tokens": 2381199.0,
	"step": 146
	},
	{
	"entropy": 0.5505439043045044,
	"epoch": 0.550561797752809,
	"grad_norm": 0.02772362343966961,
	"learning_rate": 0.0002,
	"loss": 0.5527427792549133,
	"mean_token_accuracy": 0.7765008956193924,
	"num_tokens": 2397235.0,
	"step": 147
	},
	{
	"entropy": 0.5575017333030701,
	"epoch": 0.5543071161048689,
	"grad_norm": 0.030587337911128998,
	"learning_rate": 0.0002,
	"loss": 0.5631366968154907,
	"mean_token_accuracy": 0.7698703855276108,
	"num_tokens": 2413454.0,
	"step": 148
	},
	{
	"entropy": 0.5469523966312408,
	"epoch": 0.5580524344569289,
	"grad_norm": 0.0317547544836998,
	"learning_rate": 0.0002,
	"loss": 0.554557740688324,
	"mean_token_accuracy": 0.776221752166748,
	"num_tokens": 2429888.0,
	"step": 149
	},
	{
	"entropy": 0.5393165349960327,
	"epoch": 0.5617977528089888,
	"grad_norm": 0.028293034061789513,
	"learning_rate": 0.0002,
	"loss": 0.538506269454956,
	"mean_token_accuracy": 0.7823521643877029,
	"num_tokens": 2446146.0,
	"step": 150
	},
	{
	"entropy": 0.5640445649623871,
	"epoch": 0.5655430711610487,
	"grad_norm": 0.027342529967427254,
	"learning_rate": 0.0002,
	"loss": 0.5663660764694214,
	"mean_token_accuracy": 0.7686634063720703,
	"num_tokens": 2462436.0,
	"step": 151
	},
	{
	"entropy": 0.5660315603017807,
	"epoch": 0.5692883895131086,
	"grad_norm": 0.029160011559724808,
	"learning_rate": 0.0002,
	"loss": 0.5658541917800903,
	"mean_token_accuracy": 0.7699626982212067,
	"num_tokens": 2478983.0,
	"step": 152
	},
	{
	"entropy": 0.5457171052694321,
	"epoch": 0.5730337078651685,
	"grad_norm": 0.029130199924111366,
	"learning_rate": 0.0002,
	"loss": 0.5439150929450989,
	"mean_token_accuracy": 0.7802361398935318,
	"num_tokens": 2495263.0,
	"step": 153
	},
	{
	"entropy": 0.5504166930913925,
	"epoch": 0.5767790262172284,
	"grad_norm": 0.03016018122434616,
	"learning_rate": 0.0002,
	"loss": 0.5510883331298828,
	"mean_token_accuracy": 0.775614932179451,
	"num_tokens": 2511475.0,
	"step": 154
	},
	{
	"entropy": 0.5550555139780045,
	"epoch": 0.5805243445692884,
	"grad_norm": 0.03134196624159813,
	"learning_rate": 0.0002,
	"loss": 0.5607972145080566,
	"mean_token_accuracy": 0.7707046419382095,
	"num_tokens": 2527673.0,
	"step": 155
	},
	{
	"entropy": 0.5454694628715515,
	"epoch": 0.5842696629213483,
	"grad_norm": 0.0311669260263443,
	"learning_rate": 0.0002,
	"loss": 0.5492562651634216,
	"mean_token_accuracy": 0.779202476143837,
	"num_tokens": 2543853.0,
	"step": 156
	},
	{
	"entropy": 0.5742276608943939,
	"epoch": 0.5880149812734082,
	"grad_norm": 0.027328435331583023,
	"learning_rate": 0.0002,
	"loss": 0.5779210329055786,
	"mean_token_accuracy": 0.765041321516037,
	"num_tokens": 2560115.0,
	"step": 157
	},
	{
	"entropy": 0.5670003890991211,
	"epoch": 0.5917602996254682,
	"grad_norm": 0.02951730042695999,
	"learning_rate": 0.0002,
	"loss": 0.5664114952087402,
	"mean_token_accuracy": 0.7700729966163635,
	"num_tokens": 2576322.0,
	"step": 158
	},
	{
	"entropy": 0.5762516111135483,
	"epoch": 0.5955056179775281,
	"grad_norm": 0.029969869181513786,
	"learning_rate": 0.0002,
	"loss": 0.5735501050949097,
	"mean_token_accuracy": 0.7683756053447723,
	"num_tokens": 2592455.0,
	"step": 159
	},
	{
	"entropy": 0.5583818256855011,
	"epoch": 0.599250936329588,
	"grad_norm": 0.02687755413353443,
	"learning_rate": 0.0002,
	"loss": 0.5561562776565552,
	"mean_token_accuracy": 0.7738349288702011,
	"num_tokens": 2608647.0,
	"step": 160
	},
	{
	"entropy": 0.5745189636945724,
	"epoch": 0.602996254681648,
	"grad_norm": 0.03188227489590645,
	"learning_rate": 0.0002,
	"loss": 0.573383092880249,
	"mean_token_accuracy": 0.7658237218856812,
	"num_tokens": 2624851.0,
	"step": 161
	},
	{
	"entropy": 0.5701076835393906,
	"epoch": 0.6067415730337079,
	"grad_norm": 0.03216436505317688,
	"learning_rate": 0.0002,
	"loss": 0.5696204900741577,
	"mean_token_accuracy": 0.7674751281738281,
	"num_tokens": 2641365.0,
	"step": 162
	},
	{
	"entropy": 0.548926368355751,
	"epoch": 0.6104868913857678,
	"grad_norm": 0.02745572291314602,
	"learning_rate": 0.0002,
	"loss": 0.5530045032501221,
	"mean_token_accuracy": 0.7764343470335007,
	"num_tokens": 2657724.0,
	"step": 163
	},
	{
	"entropy": 0.5748997032642365,
	"epoch": 0.6142322097378277,
	"grad_norm": 0.03055480308830738,
	"learning_rate": 0.0002,
	"loss": 0.5857313275337219,
	"mean_token_accuracy": 0.7639760226011276,
	"num_tokens": 2674255.0,
	"step": 164
	},
	{
	"entropy": 0.5685756206512451,
	"epoch": 0.6179775280898876,
	"grad_norm": 0.030725592747330666,
	"learning_rate": 0.0002,
	"loss": 0.5727284550666809,
	"mean_token_accuracy": 0.7686582803726196,
	"num_tokens": 2690670.0,
	"step": 165
	},
	{
	"entropy": 0.547265499830246,
	"epoch": 0.6217228464419475,
	"grad_norm": 0.028982795774936676,
	"learning_rate": 0.0002,
	"loss": 0.5458434820175171,
	"mean_token_accuracy": 0.7764610648155212,
	"num_tokens": 2706990.0,
	"step": 166
	},
	{
	"entropy": 0.5669321566820145,
	"epoch": 0.6254681647940075,
	"grad_norm": 0.02999156154692173,
	"learning_rate": 0.0002,
	"loss": 0.5610904097557068,
	"mean_token_accuracy": 0.7703774124383926,
	"num_tokens": 2723382.0,
	"step": 167
	},
	{
	"entropy": 0.5631402879953384,
	"epoch": 0.6292134831460674,
	"grad_norm": 0.02727295272052288,
	"learning_rate": 0.0002,
	"loss": 0.5610119700431824,
	"mean_token_accuracy": 0.7734928578138351,
	"num_tokens": 2739673.0,
	"step": 168
	},
	{
	"entropy": 0.5462162643671036,
	"epoch": 0.6329588014981273,
	"grad_norm": 0.03161296248435974,
	"learning_rate": 0.0002,
	"loss": 0.5594881772994995,
	"mean_token_accuracy": 0.7721333503723145,
	"num_tokens": 2756004.0,
	"step": 169
	},
	{
	"entropy": 0.5525806844234467,
	"epoch": 0.6367041198501873,
	"grad_norm": 0.028923675417900085,
	"learning_rate": 0.0002,
	"loss": 0.5581262707710266,
	"mean_token_accuracy": 0.7746219336986542,
	"num_tokens": 2772131.0,
	"step": 170
	},
	{
	"entropy": 0.5815936326980591,
	"epoch": 0.6404494382022472,
	"grad_norm": 0.029989033937454224,
	"learning_rate": 0.0002,
	"loss": 0.5781337022781372,
	"mean_token_accuracy": 0.7642954289913177,
	"num_tokens": 2788556.0,
	"step": 171
	},
	{
	"entropy": 0.5742616653442383,
	"epoch": 0.6441947565543071,
	"grad_norm": 0.03870734944939613,
	"learning_rate": 0.0002,
	"loss": 0.5799432992935181,
	"mean_token_accuracy": 0.7655478119850159,
	"num_tokens": 2804635.0,
	"step": 172
	},
	{
	"entropy": 0.576400488615036,
	"epoch": 0.6479400749063671,
	"grad_norm": 0.02596936747431755,
	"learning_rate": 0.0002,
	"loss": 0.5705851912498474,
	"mean_token_accuracy": 0.7653899490833282,
	"num_tokens": 2821201.0,
	"step": 173
	},
	{
	"entropy": 0.5751689076423645,
	"epoch": 0.651685393258427,
	"grad_norm": 0.02525261603295803,
	"learning_rate": 0.0002,
	"loss": 0.5706028938293457,
	"mean_token_accuracy": 0.7693078964948654,
	"num_tokens": 2837952.0,
	"step": 174
	},
	{
	"entropy": 0.557927280664444,
	"epoch": 0.6554307116104869,
	"grad_norm": 0.025947891175746918,
	"learning_rate": 0.0002,
	"loss": 0.55954509973526,
	"mean_token_accuracy": 0.7710674405097961,
	"num_tokens": 2854247.0,
	"step": 175
	},
	{
	"entropy": 0.5340227037668228,
	"epoch": 0.6591760299625468,
	"grad_norm": 0.03157508745789528,
	"learning_rate": 0.0002,
	"loss": 0.5432956218719482,
	"mean_token_accuracy": 0.7804963290691376,
	"num_tokens": 2870169.0,
	"step": 176
	},
	{
	"entropy": 0.5522671341896057,
	"epoch": 0.6629213483146067,
	"grad_norm": 0.027346299961209297,
	"learning_rate": 0.0002,
	"loss": 0.5591444969177246,
	"mean_token_accuracy": 0.7712446004152298,
	"num_tokens": 2886516.0,
	"step": 177
	},
	{
	"entropy": 0.5393896102905273,
	"epoch": 0.6666666666666666,
	"grad_norm": 0.027576690539717674,
	"learning_rate": 0.0002,
	"loss": 0.5416374206542969,
	"mean_token_accuracy": 0.7780617028474808,
	"num_tokens": 2902729.0,
	"step": 178
	},
	{
	"entropy": 0.5685822814702988,
	"epoch": 0.6704119850187266,
	"grad_norm": 0.03415964916348457,
	"learning_rate": 0.0002,
	"loss": 0.5774993300437927,
	"mean_token_accuracy": 0.7654603570699692,
	"num_tokens": 2919059.0,
	"step": 179
	},
	{
	"entropy": 0.5473489463329315,
	"epoch": 0.6741573033707865,
	"grad_norm": 0.03175094723701477,
	"learning_rate": 0.0002,
	"loss": 0.5478240847587585,
	"mean_token_accuracy": 0.7771035730838776,
	"num_tokens": 2935209.0,
	"step": 180
	},
	{
	"entropy": 0.5505825132131577,
	"epoch": 0.6779026217228464,
	"grad_norm": 0.027963241562247276,
	"learning_rate": 0.0002,
	"loss": 0.5473360419273376,
	"mean_token_accuracy": 0.7776090204715729,
	"num_tokens": 2951643.0,
	"step": 181
	},
	{
	"entropy": 0.5541345179080963,
	"epoch": 0.6816479400749064,
	"grad_norm": 0.03300129622220993,
	"learning_rate": 0.0002,
	"loss": 0.5419403910636902,
	"mean_token_accuracy": 0.7789575755596161,
	"num_tokens": 2967938.0,
	"step": 182
	},
	{
	"entropy": 0.5639268904924393,
	"epoch": 0.6853932584269663,
	"grad_norm": 0.032656021416187286,
	"learning_rate": 0.0002,
	"loss": 0.5597264170646667,
	"mean_token_accuracy": 0.7759947925806046,
	"num_tokens": 2984230.0,
	"step": 183
	},
	{
	"entropy": 0.5538647770881653,
	"epoch": 0.6891385767790262,
	"grad_norm": 0.03382604569196701,
	"learning_rate": 0.0002,
	"loss": 0.5666002631187439,
	"mean_token_accuracy": 0.7692589312791824,
	"num_tokens": 3000607.0,
	"step": 184
	},
	{
	"entropy": 0.5578113794326782,
	"epoch": 0.6928838951310862,
	"grad_norm": 0.03644486889243126,
	"learning_rate": 0.0002,
	"loss": 0.5739911198616028,
	"mean_token_accuracy": 0.7684497386217117,
	"num_tokens": 3017077.0,
	"step": 185
	},
	{
	"entropy": 0.5290449112653732,
	"epoch": 0.6966292134831461,
	"grad_norm": 0.027713051065802574,
	"learning_rate": 0.0002,
	"loss": 0.5355228781700134,
	"mean_token_accuracy": 0.7826152592897415,
	"num_tokens": 3032996.0,
	"step": 186
	},
	{
	"entropy": 0.5759813338518143,
	"epoch": 0.700374531835206,
	"grad_norm": 0.03057127632200718,
	"learning_rate": 0.0002,
	"loss": 0.569280743598938,
	"mean_token_accuracy": 0.7680912464857101,
	"num_tokens": 3049460.0,
	"step": 187
	},
	{
	"entropy": 0.5720777213573456,
	"epoch": 0.704119850187266,
	"grad_norm": 0.02572391740977764,
	"learning_rate": 0.0002,
	"loss": 0.5658439993858337,
	"mean_token_accuracy": 0.7709487825632095,
	"num_tokens": 3065672.0,
	"step": 188
	},
	{
	"entropy": 0.5517766922712326,
	"epoch": 0.7078651685393258,
	"grad_norm": 0.029554082080721855,
	"learning_rate": 0.0002,
	"loss": 0.5389034748077393,
	"mean_token_accuracy": 0.7830005586147308,
	"num_tokens": 3082173.0,
	"step": 189
	},
	{
	"entropy": 0.5635267347097397,
	"epoch": 0.7116104868913857,
	"grad_norm": 0.025442970916628838,
	"learning_rate": 0.0002,
	"loss": 0.5614153742790222,
	"mean_token_accuracy": 0.7708731889724731,
	"num_tokens": 3098727.0,
	"step": 190
	},
	{
	"entropy": 0.5624646097421646,
	"epoch": 0.7153558052434457,
	"grad_norm": 0.03501886874437332,
	"learning_rate": 0.0002,
	"loss": 0.5751168727874756,
	"mean_token_accuracy": 0.7674457877874374,
	"num_tokens": 3115031.0,
	"step": 191
	},
	{
	"entropy": 0.5412020832300186,
	"epoch": 0.7191011235955056,
	"grad_norm": 0.029673364013433456,
	"learning_rate": 0.0002,
	"loss": 0.5503013730049133,
	"mean_token_accuracy": 0.780591607093811,
	"num_tokens": 3131271.0,
	"step": 192
	},
	{
	"entropy": 0.557359516620636,
	"epoch": 0.7228464419475655,
	"grad_norm": 0.025931306183338165,
	"learning_rate": 0.0002,
	"loss": 0.559468150138855,
	"mean_token_accuracy": 0.7729436904191971,
	"num_tokens": 3147732.0,
	"step": 193
	},
	{
	"entropy": 0.5394045114517212,
	"epoch": 0.7265917602996255,
	"grad_norm": 0.0292246975004673,
	"learning_rate": 0.0002,
	"loss": 0.5409769415855408,
	"mean_token_accuracy": 0.7795000076293945,
	"num_tokens": 3163963.0,
	"step": 194
	},
	{
	"entropy": 0.5587436705827713,
	"epoch": 0.7303370786516854,
	"grad_norm": 0.03306795284152031,
	"learning_rate": 0.0002,
	"loss": 0.5556156039237976,
	"mean_token_accuracy": 0.7742602825164795,
	"num_tokens": 3179928.0,
	"step": 195
	},
	{
	"entropy": 0.558687686920166,
	"epoch": 0.7340823970037453,
	"grad_norm": 0.025363627821207047,
	"learning_rate": 0.0002,
	"loss": 0.5573633909225464,
	"mean_token_accuracy": 0.7759020626544952,
	"num_tokens": 3196142.0,
	"step": 196
	},
	{
	"entropy": 0.545383557677269,
	"epoch": 0.7378277153558053,
	"grad_norm": 0.027863260358572006,
	"learning_rate": 0.0002,
	"loss": 0.5485226511955261,
	"mean_token_accuracy": 0.7776659727096558,
	"num_tokens": 3212565.0,
	"step": 197
	},
	{
	"entropy": 0.5556656569242477,
	"epoch": 0.7415730337078652,
	"grad_norm": 0.035580288618803024,
	"learning_rate": 0.0002,
	"loss": 0.5673390626907349,
	"mean_token_accuracy": 0.7700339257717133,
	"num_tokens": 3228915.0,
	"step": 198
	},
	{
	"entropy": 0.5520624220371246,
	"epoch": 0.7453183520599251,
	"grad_norm": 0.02862994559109211,
	"learning_rate": 0.0002,
	"loss": 0.5494414567947388,
	"mean_token_accuracy": 0.7801119983196259,
	"num_tokens": 3245273.0,
	"step": 199
	},
	{
	"entropy": 0.5758003443479538,
	"epoch": 0.7490636704119851,
	"grad_norm": 0.0339261032640934,
	"learning_rate": 0.0002,
	"loss": 0.5687139630317688,
	"mean_token_accuracy": 0.7678625285625458,
	"num_tokens": 3261785.0,
	"step": 200
	},
	{
	"entropy": 0.568912148475647,
	"epoch": 0.7528089887640449,
	"grad_norm": 0.029947372153401375,
	"learning_rate": 0.0002,
	"loss": 0.5638163089752197,
	"mean_token_accuracy": 0.77249875664711,
	"num_tokens": 3278313.0,
	"step": 201
	},
	{
	"entropy": 0.5490483492612839,
	"epoch": 0.7565543071161048,
	"grad_norm": 0.02934352308511734,
	"learning_rate": 0.0002,
	"loss": 0.5535009503364563,
	"mean_token_accuracy": 0.7746146768331528,
	"num_tokens": 3294575.0,
	"step": 202
	},
	{
	"entropy": 0.560209795832634,
	"epoch": 0.7602996254681648,
	"grad_norm": 0.031990889459848404,
	"learning_rate": 0.0002,
	"loss": 0.5637909770011902,
	"mean_token_accuracy": 0.7735392153263092,
	"num_tokens": 3310679.0,
	"step": 203
	},
	{
	"entropy": 0.5573873072862625,
	"epoch": 0.7640449438202247,
	"grad_norm": 0.02812575176358223,
	"learning_rate": 0.0002,
	"loss": 0.5629784464836121,
	"mean_token_accuracy": 0.7686379998922348,
	"num_tokens": 3327065.0,
	"step": 204
	},
	{
	"entropy": 0.534591019153595,
	"epoch": 0.7677902621722846,
	"grad_norm": 0.03412024676799774,
	"learning_rate": 0.0002,
	"loss": 0.546525239944458,
	"mean_token_accuracy": 0.7761467695236206,
	"num_tokens": 3343404.0,
	"step": 205
	},
	{
	"entropy": 0.5677939504384995,
	"epoch": 0.7715355805243446,
	"grad_norm": 0.02933080866932869,
	"learning_rate": 0.0002,
	"loss": 0.5688956379890442,
	"mean_token_accuracy": 0.7702508270740509,
	"num_tokens": 3359958.0,
	"step": 206
	},
	{
	"entropy": 0.582836389541626,
	"epoch": 0.7752808988764045,
	"grad_norm": 0.027001049369573593,
	"learning_rate": 0.0002,
	"loss": 0.5772212147712708,
	"mean_token_accuracy": 0.7654514610767365,
	"num_tokens": 3376426.0,
	"step": 207
	},
	{
	"entropy": 0.5876192450523376,
	"epoch": 0.7790262172284644,
	"grad_norm": 0.031185103580355644,
	"learning_rate": 0.0002,
	"loss": 0.5810344219207764,
	"mean_token_accuracy": 0.7651431113481522,
	"num_tokens": 3392821.0,
	"step": 208
	},
	{
	"entropy": 0.5676351487636566,
	"epoch": 0.7827715355805244,
	"grad_norm": 0.02849467284977436,
	"learning_rate": 0.0002,
	"loss": 0.5602158904075623,
	"mean_token_accuracy": 0.771087646484375,
	"num_tokens": 3409137.0,
	"step": 209
	},
	{
	"entropy": 0.5598850250244141,
	"epoch": 0.7865168539325843,
	"grad_norm": 0.028652694076299667,
	"learning_rate": 0.0002,
	"loss": 0.5560476779937744,
	"mean_token_accuracy": 0.7744726985692978,
	"num_tokens": 3425346.0,
	"step": 210
	},
	{
	"entropy": 0.5631076842546463,
	"epoch": 0.7902621722846442,
	"grad_norm": 0.03177965059876442,
	"learning_rate": 0.0002,
	"loss": 0.5703850984573364,
	"mean_token_accuracy": 0.7688238769769669,
	"num_tokens": 3441766.0,
	"step": 211
	},
	{
	"entropy": 0.5571614354848862,
	"epoch": 0.7940074906367042,
	"grad_norm": 0.035387102514505386,
	"learning_rate": 0.0002,
	"loss": 0.5680047869682312,
	"mean_token_accuracy": 0.7702172994613647,
	"num_tokens": 3458303.0,
	"step": 212
	},
	{
	"entropy": 0.5512831062078476,
	"epoch": 0.797752808988764,
	"grad_norm": 0.02970981039106846,
	"learning_rate": 0.0002,
	"loss": 0.5541270971298218,
	"mean_token_accuracy": 0.7740521878004074,
	"num_tokens": 3474455.0,
	"step": 213
	},
	{
	"entropy": 0.5604052096605301,
	"epoch": 0.8014981273408239,
	"grad_norm": 0.028583871200680733,
	"learning_rate": 0.0002,
	"loss": 0.5585545301437378,
	"mean_token_accuracy": 0.7712778151035309,
	"num_tokens": 3490567.0,
	"step": 214
	},
	{
	"entropy": 0.5531798452138901,
	"epoch": 0.8052434456928839,
	"grad_norm": 0.027284301817417145,
	"learning_rate": 0.0002,
	"loss": 0.5523191690444946,
	"mean_token_accuracy": 0.7744116485118866,
	"num_tokens": 3506697.0,
	"step": 215
	},
	{
	"entropy": 0.5611687004566193,
	"epoch": 0.8089887640449438,
	"grad_norm": 0.030331265181303024,
	"learning_rate": 0.0002,
	"loss": 0.5599703192710876,
	"mean_token_accuracy": 0.7741329371929169,
	"num_tokens": 3523064.0,
	"step": 216
	},
	{
	"entropy": 0.5679153800010681,
	"epoch": 0.8127340823970037,
	"grad_norm": 0.028981544077396393,
	"learning_rate": 0.0002,
	"loss": 0.5729029178619385,
	"mean_token_accuracy": 0.7667650431394577,
	"num_tokens": 3539143.0,
	"step": 217
	},
	{
	"entropy": 0.5438763052225113,
	"epoch": 0.8164794007490637,
	"grad_norm": 0.02691890485584736,
	"learning_rate": 0.0002,
	"loss": 0.5485566854476929,
	"mean_token_accuracy": 0.7739608585834503,
	"num_tokens": 3555565.0,
	"step": 218
	},
	{
	"entropy": 0.5619954615831375,
	"epoch": 0.8202247191011236,
	"grad_norm": 0.026171443983912468,
	"learning_rate": 0.0002,
	"loss": 0.5637154579162598,
	"mean_token_accuracy": 0.7711703032255173,
	"num_tokens": 3571906.0,
	"step": 219
	},
	{
	"entropy": 0.5464108288288116,
	"epoch": 0.8239700374531835,
	"grad_norm": 0.02858656644821167,
	"learning_rate": 0.0002,
	"loss": 0.5461940169334412,
	"mean_token_accuracy": 0.7789376378059387,
	"num_tokens": 3588158.0,
	"step": 220
	},
	{
	"entropy": 0.5636538565158844,
	"epoch": 0.8277153558052435,
	"grad_norm": 0.02787981554865837,
	"learning_rate": 0.0002,
	"loss": 0.5658812522888184,
	"mean_token_accuracy": 0.7694707363843918,
	"num_tokens": 3604701.0,
	"step": 221
	},
	{
	"entropy": 0.5738235861063004,
	"epoch": 0.8314606741573034,
	"grad_norm": 0.03107610158622265,
	"learning_rate": 0.0002,
	"loss": 0.5720517635345459,
	"mean_token_accuracy": 0.767520397901535,
	"num_tokens": 3621041.0,
	"step": 222
	},
	{
	"entropy": 0.5418261587619781,
	"epoch": 0.8352059925093633,
	"grad_norm": 0.030757945030927658,
	"learning_rate": 0.0002,
	"loss": 0.5468308925628662,
	"mean_token_accuracy": 0.7743646949529648,
	"num_tokens": 3637338.0,
	"step": 223
	},
	{
	"entropy": 0.5567242801189423,
	"epoch": 0.8389513108614233,
	"grad_norm": 0.031262289732694626,
	"learning_rate": 0.0002,
	"loss": 0.5633231997489929,
	"mean_token_accuracy": 0.7722140103578568,
	"num_tokens": 3653872.0,
	"step": 224
	},
	{
	"entropy": 0.5542743653059006,
	"epoch": 0.8426966292134831,
	"grad_norm": 0.03351176902651787,
	"learning_rate": 0.0002,
	"loss": 0.5574679374694824,
	"mean_token_accuracy": 0.7744366973638535,
	"num_tokens": 3670013.0,
	"step": 225
	},
	{
	"entropy": 0.5486074835062027,
	"epoch": 0.846441947565543,
	"grad_norm": 0.0312609001994133,
	"learning_rate": 0.0002,
	"loss": 0.545890748500824,
	"mean_token_accuracy": 0.7778652608394623,
	"num_tokens": 3686275.0,
	"step": 226
	},
	{
	"entropy": 0.5650633871555328,
	"epoch": 0.850187265917603,
	"grad_norm": 0.028242582455277443,
	"learning_rate": 0.0002,
	"loss": 0.5587697625160217,
	"mean_token_accuracy": 0.7728594094514847,
	"num_tokens": 3702890.0,
	"step": 227
	},
	{
	"entropy": 0.5442924797534943,
	"epoch": 0.8539325842696629,
	"grad_norm": 0.03206290304660797,
	"learning_rate": 0.0002,
	"loss": 0.5438553690910339,
	"mean_token_accuracy": 0.7799272388219833,
	"num_tokens": 3719196.0,
	"step": 228
	},
	{
	"entropy": 0.5688119828701019,
	"epoch": 0.8576779026217228,
	"grad_norm": 0.031068341806530952,
	"learning_rate": 0.0002,
	"loss": 0.5722005367279053,
	"mean_token_accuracy": 0.7658038288354874,
	"num_tokens": 3735614.0,
	"step": 229
	},
	{
	"entropy": 0.5671662837266922,
	"epoch": 0.8614232209737828,
	"grad_norm": 0.03664137050509453,
	"learning_rate": 0.0002,
	"loss": 0.5779143571853638,
	"mean_token_accuracy": 0.7624872028827667,
	"num_tokens": 3751617.0,
	"step": 230
	},
	{
	"entropy": 0.5505847632884979,
	"epoch": 0.8651685393258427,
	"grad_norm": 0.031469304114580154,
	"learning_rate": 0.0002,
	"loss": 0.5520802140235901,
	"mean_token_accuracy": 0.7765519469976425,
	"num_tokens": 3768020.0,
	"step": 231
	},
	{
	"entropy": 0.5407437533140182,
	"epoch": 0.8689138576779026,
	"grad_norm": 0.03157830610871315,
	"learning_rate": 0.0002,
	"loss": 0.53821861743927,
	"mean_token_accuracy": 0.7832015603780746,
	"num_tokens": 3784206.0,
	"step": 232
	},
	{
	"entropy": 0.5574967563152313,
	"epoch": 0.8726591760299626,
	"grad_norm": 0.03071594052016735,
	"learning_rate": 0.0002,
	"loss": 0.5562031865119934,
	"mean_token_accuracy": 0.7721244394779205,
	"num_tokens": 3800616.0,
	"step": 233
	},
	{
	"entropy": 0.5378725826740265,
	"epoch": 0.8764044943820225,
	"grad_norm": 0.030823221430182457,
	"learning_rate": 0.0002,
	"loss": 0.5407513380050659,
	"mean_token_accuracy": 0.7836541086435318,
	"num_tokens": 3816842.0,
	"step": 234
	},
	{
	"entropy": 0.5592721700668335,
	"epoch": 0.8801498127340824,
	"grad_norm": 0.03175733983516693,
	"learning_rate": 0.0002,
	"loss": 0.5660021305084229,
	"mean_token_accuracy": 0.7676839083433151,
	"num_tokens": 3833206.0,
	"step": 235
	},
	{
	"entropy": 0.5588899403810501,
	"epoch": 0.8838951310861424,
	"grad_norm": 0.03060559183359146,
	"learning_rate": 0.0002,
	"loss": 0.5651678442955017,
	"mean_token_accuracy": 0.7706761956214905,
	"num_tokens": 3849556.0,
	"step": 236
	},
	{
	"entropy": 0.5560838133096695,
	"epoch": 0.8876404494382022,
	"grad_norm": 0.03011494129896164,
	"learning_rate": 0.0002,
	"loss": 0.5619899034500122,
	"mean_token_accuracy": 0.7695688903331757,
	"num_tokens": 3865973.0,
	"step": 237
	},
	{
	"entropy": 0.572941854596138,
	"epoch": 0.8913857677902621,
	"grad_norm": 0.02626178041100502,
	"learning_rate": 0.0002,
	"loss": 0.5712540149688721,
	"mean_token_accuracy": 0.7688916623592377,
	"num_tokens": 3882349.0,
	"step": 238
	},
	{
	"entropy": 0.5688192397356033,
	"epoch": 0.8951310861423221,
	"grad_norm": 0.0268928874284029,
	"learning_rate": 0.0002,
	"loss": 0.562833309173584,
	"mean_token_accuracy": 0.7708128988742828,
	"num_tokens": 3898536.0,
	"step": 239
	},
	{
	"entropy": 0.5633461475372314,
	"epoch": 0.898876404494382,
	"grad_norm": 0.029186321422457695,
	"learning_rate": 0.0002,
	"loss": 0.5525766611099243,
	"mean_token_accuracy": 0.7749095112085342,
	"num_tokens": 3914950.0,
	"step": 240
	},
	{
	"entropy": 0.5715253502130508,
	"epoch": 0.9026217228464419,
	"grad_norm": 0.029228920117020607,
	"learning_rate": 0.0002,
	"loss": 0.5710093975067139,
	"mean_token_accuracy": 0.7693532109260559,
	"num_tokens": 3931161.0,
	"step": 241
	},
	{
	"entropy": 0.5170925259590149,
	"epoch": 0.9063670411985019,
	"grad_norm": 0.03571123257279396,
	"learning_rate": 0.0002,
	"loss": 0.52873295545578,
	"mean_token_accuracy": 0.7879834473133087,
	"num_tokens": 3947256.0,
	"step": 242
	},
	{
	"entropy": 0.5353554487228394,
	"epoch": 0.9101123595505618,
	"grad_norm": 0.031091809272766113,
	"learning_rate": 0.0002,
	"loss": 0.5437985062599182,
	"mean_token_accuracy": 0.7802935838699341,
	"num_tokens": 3963703.0,
	"step": 243
	},
	{
	"entropy": 0.5593858063220978,
	"epoch": 0.9138576779026217,
	"grad_norm": 0.028724675998091698,
	"learning_rate": 0.0002,
	"loss": 0.5654380321502686,
	"mean_token_accuracy": 0.766664981842041,
	"num_tokens": 3980237.0,
	"step": 244
	},
	{
	"entropy": 0.5452692359685898,
	"epoch": 0.9176029962546817,
	"grad_norm": 0.032008957117795944,
	"learning_rate": 0.0002,
	"loss": 0.5489979982376099,
	"mean_token_accuracy": 0.7783998996019363,
	"num_tokens": 3996411.0,
	"step": 245
	},
	{
	"entropy": 0.5732362270355225,
	"epoch": 0.9213483146067416,
	"grad_norm": 0.026769591495394707,
	"learning_rate": 0.0002,
	"loss": 0.5739398002624512,
	"mean_token_accuracy": 0.7671795785427094,
	"num_tokens": 4012857.0,
	"step": 246
	},
	{
	"entropy": 0.5656879991292953,
	"epoch": 0.9250936329588015,
	"grad_norm": 0.03197095915675163,
	"learning_rate": 0.0002,
	"loss": 0.563187301158905,
	"mean_token_accuracy": 0.7670102566480637,
	"num_tokens": 4029053.0,
	"step": 247
	},
	{
	"entropy": 0.5575947314500809,
	"epoch": 0.9288389513108615,
	"grad_norm": 0.02987116388976574,
	"learning_rate": 0.0002,
	"loss": 0.5625151991844177,
	"mean_token_accuracy": 0.7722823321819305,
	"num_tokens": 4045520.0,
	"step": 248
	},
	{
	"entropy": 0.5391925573348999,
	"epoch": 0.9325842696629213,
	"grad_norm": 0.03071737289428711,
	"learning_rate": 0.0002,
	"loss": 0.5494749546051025,
	"mean_token_accuracy": 0.7774742394685745,
	"num_tokens": 4061722.0,
	"step": 249
	},
	{
	"entropy": 0.5374163240194321,
	"epoch": 0.9363295880149812,
	"grad_norm": 0.03443381190299988,
	"learning_rate": 0.0002,
	"loss": 0.5430468916893005,
	"mean_token_accuracy": 0.7767436355352402,
	"num_tokens": 4077909.0,
	"step": 250
	},
	{
	"entropy": 0.563934788107872,
	"epoch": 0.9400749063670412,
	"grad_norm": 0.03456362709403038,
	"learning_rate": 0.0002,
	"loss": 0.5705171227455139,
	"mean_token_accuracy": 0.7667582482099533,
	"num_tokens": 4094266.0,
	"step": 251
	},
	{
	"entropy": 0.5498995631933212,
	"epoch": 0.9438202247191011,
	"grad_norm": 0.03230346366763115,
	"learning_rate": 0.0002,
	"loss": 0.5477432012557983,
	"mean_token_accuracy": 0.7797223627567291,
	"num_tokens": 4110154.0,
	"step": 252
	},
	{
	"entropy": 0.5815821886062622,
	"epoch": 0.947565543071161,
	"grad_norm": 0.030871113762259483,
	"learning_rate": 0.0002,
	"loss": 0.5757232904434204,
	"mean_token_accuracy": 0.7643865346908569,
	"num_tokens": 4126298.0,
	"step": 253
	},
	{
	"entropy": 0.568855032324791,
	"epoch": 0.951310861423221,
	"grad_norm": 0.03128105401992798,
	"learning_rate": 0.0002,
	"loss": 0.5623528361320496,
	"mean_token_accuracy": 0.7733433544635773,
	"num_tokens": 4142423.0,
	"step": 254
	},
	{
	"entropy": 0.5580300092697144,
	"epoch": 0.9550561797752809,
	"grad_norm": 0.028919901698827744,
	"learning_rate": 0.0002,
	"loss": 0.5540750026702881,
	"mean_token_accuracy": 0.7751399129629135,
	"num_tokens": 4158616.0,
	"step": 255
	},
	{
	"entropy": 0.5586510896682739,
	"epoch": 0.9588014981273408,
	"grad_norm": 0.028054876253008842,
	"learning_rate": 0.0002,
	"loss": 0.5566189289093018,
	"mean_token_accuracy": 0.771488219499588,
	"num_tokens": 4174981.0,
	"step": 256
	},
	{
	"entropy": 0.5506493747234344,
	"epoch": 0.9625468164794008,
	"grad_norm": 0.028799347579479218,
	"learning_rate": 0.0002,
	"loss": 0.5535633563995361,
	"mean_token_accuracy": 0.7742148786783218,
	"num_tokens": 4191446.0,
	"step": 257
	},
	{
	"entropy": 0.5423731654882431,
	"epoch": 0.9662921348314607,
	"grad_norm": 0.033325713127851486,
	"learning_rate": 0.0002,
	"loss": 0.5534674525260925,
	"mean_token_accuracy": 0.773481622338295,
	"num_tokens": 4207545.0,
	"step": 258
	},
	{
	"entropy": 0.5463626831769943,
	"epoch": 0.9700374531835206,
	"grad_norm": 0.029474180191755295,
	"learning_rate": 0.0002,
	"loss": 0.5469580888748169,
	"mean_token_accuracy": 0.778034508228302,
	"num_tokens": 4223705.0,
	"step": 259
	},
	{
	"entropy": 0.5447346717119217,
	"epoch": 0.9737827715355806,
	"grad_norm": 0.02612573839724064,
	"learning_rate": 0.0002,
	"loss": 0.5400044322013855,
	"mean_token_accuracy": 0.7802340239286423,
	"num_tokens": 4240129.0,
	"step": 260
	},
	{
	"entropy": 0.5821470022201538,
	"epoch": 0.9775280898876404,
	"grad_norm": 0.030348099768161774,
	"learning_rate": 0.0002,
	"loss": 0.5687776803970337,
	"mean_token_accuracy": 0.7688710540533066,
	"num_tokens": 4256543.0,
	"step": 261
	},
	{
	"entropy": 0.5551526695489883,
	"epoch": 0.9812734082397003,
	"grad_norm": 0.027197403833270073,
	"learning_rate": 0.0002,
	"loss": 0.5550498962402344,
	"mean_token_accuracy": 0.7730266898870468,
	"num_tokens": 4272850.0,
	"step": 262
	},
	{
	"entropy": 0.558951735496521,
	"epoch": 0.9850187265917603,
	"grad_norm": 0.02930772304534912,
	"learning_rate": 0.0002,
	"loss": 0.568732738494873,
	"mean_token_accuracy": 0.7649472206830978,
	"num_tokens": 4288981.0,
	"step": 263
	},
	{
	"entropy": 0.5453519076108932,
	"epoch": 0.9887640449438202,
	"grad_norm": 0.03282203525304794,
	"learning_rate": 0.0002,
	"loss": 0.5584692358970642,
	"mean_token_accuracy": 0.7731108516454697,
	"num_tokens": 4305020.0,
	"step": 264
	},
	{
	"entropy": 0.5550204813480377,
	"epoch": 0.9925093632958801,
	"grad_norm": 0.030776405707001686,
	"learning_rate": 0.0002,
	"loss": 0.5647276639938354,
	"mean_token_accuracy": 0.7714035212993622,
	"num_tokens": 4321505.0,
	"step": 265
	},
	{
	"entropy": 0.5713452994823456,
	"epoch": 0.9962546816479401,
	"grad_norm": 0.027741121128201485,
	"learning_rate": 0.0002,
	"loss": 0.5671746134757996,
	"mean_token_accuracy": 0.77179254591465,
	"num_tokens": 4337819.0,
	"step": 266
	},
	{
	"entropy": 0.5695875138044357,
	"epoch": 1.0,
	"grad_norm": 0.03063138760626316,
	"learning_rate": 0.0002,
	"loss": 0.5631532669067383,
	"mean_token_accuracy": 0.7723733484745026,
	"num_tokens": 4354077.0,
	"step": 267
	},
	{
	"entropy": 0.5564615577459335,
	"epoch": 1.00374531835206,
	"grad_norm": 0.02938828431069851,
	"learning_rate": 0.0002,
	"loss": 0.5473178625106812,
	"mean_token_accuracy": 0.7778049558401108,
	"num_tokens": 4370546.0,
	"step": 268
	},
	{
	"entropy": 0.5574217587709427,
	"epoch": 1.0074906367041199,
	"grad_norm": 0.029280902817845345,
	"learning_rate": 0.0002,
	"loss": 0.5522539019584656,
	"mean_token_accuracy": 0.774829238653183,
	"num_tokens": 4386769.0,
	"step": 269
	},
	{
	"entropy": 0.5274022594094276,
	"epoch": 1.0112359550561798,
	"grad_norm": 0.03879232704639435,
	"learning_rate": 0.0002,
	"loss": 0.5378210544586182,
	"mean_token_accuracy": 0.7831418812274933,
	"num_tokens": 4402982.0,
	"step": 270
	},
	{
	"entropy": 0.5290966331958771,
	"epoch": 1.0149812734082397,
	"grad_norm": 0.03839439898729324,
	"learning_rate": 0.0002,
	"loss": 0.5428091883659363,
	"mean_token_accuracy": 0.7794705182313919,
	"num_tokens": 4418967.0,
	"step": 271
	},
	{
	"entropy": 0.5340720564126968,
	"epoch": 1.0187265917602997,
	"grad_norm": 0.027254262939095497,
	"learning_rate": 0.0002,
	"loss": 0.5355733633041382,
	"mean_token_accuracy": 0.7818265557289124,
	"num_tokens": 4435204.0,
	"step": 272
	},
	{
	"entropy": 0.5440738946199417,
	"epoch": 1.0224719101123596,
	"grad_norm": 0.03392236679792404,
	"learning_rate": 0.0002,
	"loss": 0.5456275939941406,
	"mean_token_accuracy": 0.780282586812973,
	"num_tokens": 4451432.0,
	"step": 273
	},
	{
	"entropy": 0.5574818104505539,
	"epoch": 1.0262172284644195,
	"grad_norm": 0.026871202513575554,
	"learning_rate": 0.0002,
	"loss": 0.5559114217758179,
	"mean_token_accuracy": 0.777089074254036,
	"num_tokens": 4467766.0,
	"step": 274
	},
	{
	"entropy": 0.5488097965717316,
	"epoch": 1.0299625468164795,
	"grad_norm": 0.029019974172115326,
	"learning_rate": 0.0002,
	"loss": 0.5336285829544067,
	"mean_token_accuracy": 0.7849163711071014,
	"num_tokens": 4483969.0,
	"step": 275
	},
	{
	"entropy": 0.5530442148447037,
	"epoch": 1.0337078651685394,
	"grad_norm": 0.02914772555232048,
	"learning_rate": 0.0002,
	"loss": 0.5511333346366882,
	"mean_token_accuracy": 0.7753048241138458,
	"num_tokens": 4500202.0,
	"step": 276
	},
	{
	"entropy": 0.5580654293298721,
	"epoch": 1.0374531835205993,
	"grad_norm": 0.02970791608095169,
	"learning_rate": 0.0002,
	"loss": 0.5622603297233582,
	"mean_token_accuracy": 0.7713205814361572,
	"num_tokens": 4516619.0,
	"step": 277
	},
	{
	"entropy": 0.5405817478895187,
	"epoch": 1.0411985018726593,
	"grad_norm": 0.0317082442343235,
	"learning_rate": 0.0002,
	"loss": 0.5510064363479614,
	"mean_token_accuracy": 0.7750898003578186,
	"num_tokens": 4532787.0,
	"step": 278
	},
	{
	"entropy": 0.529707208275795,
	"epoch": 1.0449438202247192,
	"grad_norm": 0.032039616256952286,
	"learning_rate": 0.0002,
	"loss": 0.5385198593139648,
	"mean_token_accuracy": 0.7802569419145584,
	"num_tokens": 4549095.0,
	"step": 279
	},
	{
	"entropy": 0.536220982670784,
	"epoch": 1.048689138576779,
	"grad_norm": 0.03247847780585289,
	"learning_rate": 0.0002,
	"loss": 0.5422552824020386,
	"mean_token_accuracy": 0.7777614146471024,
	"num_tokens": 4565068.0,
	"step": 280
	},
	{
	"entropy": 0.5643364787101746,
	"epoch": 1.0524344569288389,
	"grad_norm": 0.03038158267736435,
	"learning_rate": 0.0002,
	"loss": 0.5526927709579468,
	"mean_token_accuracy": 0.7772861868143082,
	"num_tokens": 4581362.0,
	"step": 281
	},
	{
	"entropy": 0.5710341036319733,
	"epoch": 1.0561797752808988,
	"grad_norm": 0.029375184327363968,
	"learning_rate": 0.0002,
	"loss": 0.5627338290214539,
	"mean_token_accuracy": 0.7716031968593597,
	"num_tokens": 4598044.0,
	"step": 282
	},
	{
	"entropy": 0.5661873072385788,
	"epoch": 1.0599250936329587,
	"grad_norm": 0.029537923634052277,
	"learning_rate": 0.0002,
	"loss": 0.5619353652000427,
	"mean_token_accuracy": 0.7722314894199371,
	"num_tokens": 4614605.0,
	"step": 283
	},
	{
	"entropy": 0.545825719833374,
	"epoch": 1.0636704119850187,
	"grad_norm": 0.028511304408311844,
	"learning_rate": 0.0002,
	"loss": 0.5431419610977173,
	"mean_token_accuracy": 0.7778640240430832,
	"num_tokens": 4630914.0,
	"step": 284
	},
	{
	"entropy": 0.5331753790378571,
	"epoch": 1.0674157303370786,
	"grad_norm": 0.032436709851026535,
	"learning_rate": 0.0002,
	"loss": 0.5459548830986023,
	"mean_token_accuracy": 0.7751310169696808,
	"num_tokens": 4647234.0,
	"step": 285
	},
	{
	"entropy": 0.5640293508768082,
	"epoch": 1.0711610486891385,
	"grad_norm": 0.0322943851351738,
	"learning_rate": 0.0002,
	"loss": 0.5726660490036011,
	"mean_token_accuracy": 0.76516292989254,
	"num_tokens": 4663828.0,
	"step": 286
	},
	{
	"entropy": 0.5655198693275452,
	"epoch": 1.0749063670411985,
	"grad_norm": 0.028429750353097916,
	"learning_rate": 0.0002,
	"loss": 0.5707299709320068,
	"mean_token_accuracy": 0.7665908485651016,
	"num_tokens": 4680191.0,
	"step": 287
	},
	{
	"entropy": 0.5641037821769714,
	"epoch": 1.0786516853932584,
	"grad_norm": 0.02850640006363392,
	"learning_rate": 0.0002,
	"loss": 0.5591652393341064,
	"mean_token_accuracy": 0.7727868556976318,
	"num_tokens": 4696297.0,
	"step": 288
	},
	{
	"entropy": 0.5585228204727173,
	"epoch": 1.0823970037453183,
	"grad_norm": 0.03052029199898243,
	"learning_rate": 0.0002,
	"loss": 0.5535526275634766,
	"mean_token_accuracy": 0.7758607268333435,
	"num_tokens": 4712608.0,
	"step": 289
	},
	{
	"entropy": 0.5454631745815277,
	"epoch": 1.0861423220973783,
	"grad_norm": 0.02904430776834488,
	"learning_rate": 0.0002,
	"loss": 0.5463353395462036,
	"mean_token_accuracy": 0.7812290787696838,
	"num_tokens": 4728702.0,
	"step": 290
	},
	{
	"entropy": 0.547488197684288,
	"epoch": 1.0898876404494382,
	"grad_norm": 0.02964003197848797,
	"learning_rate": 0.0002,
	"loss": 0.5422903299331665,
	"mean_token_accuracy": 0.7805432081222534,
	"num_tokens": 4745177.0,
	"step": 291
	},
	{
	"entropy": 0.5354203134775162,
	"epoch": 1.0936329588014981,
	"grad_norm": 0.036443792283535004,
	"learning_rate": 0.0002,
	"loss": 0.5374300479888916,
	"mean_token_accuracy": 0.7797484993934631,
	"num_tokens": 4761143.0,
	"step": 292
	},
	{
	"entropy": 0.5536107122898102,
	"epoch": 1.097378277153558,
	"grad_norm": 0.028762439265847206,
	"learning_rate": 0.0002,
	"loss": 0.5621394515037537,
	"mean_token_accuracy": 0.7706074863672256,
	"num_tokens": 4777282.0,
	"step": 293
	},
	{
	"entropy": 0.5409039855003357,
	"epoch": 1.101123595505618,
	"grad_norm": 0.03404904156923294,
	"learning_rate": 0.0002,
	"loss": 0.5510942339897156,
	"mean_token_accuracy": 0.7781406044960022,
	"num_tokens": 4793365.0,
	"step": 294
	},
	{
	"entropy": 0.5496554970741272,
	"epoch": 1.104868913857678,
	"grad_norm": 0.03300090506672859,
	"learning_rate": 0.0002,
	"loss": 0.5508947372436523,
	"mean_token_accuracy": 0.7776678502559662,
	"num_tokens": 4809752.0,
	"step": 295
	},
	{
	"entropy": 0.5615599453449249,
	"epoch": 1.1086142322097379,
	"grad_norm": 0.02708325907588005,
	"learning_rate": 0.0002,
	"loss": 0.5569652915000916,
	"mean_token_accuracy": 0.7737039029598236,
	"num_tokens": 4826077.0,
	"step": 296
	},
	{
	"entropy": 0.5593246519565582,
	"epoch": 1.1123595505617978,
	"grad_norm": 0.03139323368668556,
	"learning_rate": 0.0002,
	"loss": 0.5524771809577942,
	"mean_token_accuracy": 0.7745187878608704,
	"num_tokens": 4842333.0,
	"step": 297
	},
	{
	"entropy": 0.5454850494861603,
	"epoch": 1.1161048689138577,
	"grad_norm": 0.02898702770471573,
	"learning_rate": 0.0002,
	"loss": 0.5425970554351807,
	"mean_token_accuracy": 0.7789193391799927,
	"num_tokens": 4858558.0,
	"step": 298
	},
	{
	"entropy": 0.538344144821167,
	"epoch": 1.1198501872659177,
	"grad_norm": 0.029788950458168983,
	"learning_rate": 0.0002,
	"loss": 0.5424114465713501,
	"mean_token_accuracy": 0.7777515351772308,
	"num_tokens": 4874826.0,
	"step": 299
	},
	{
	"entropy": 0.5260975658893585,
	"epoch": 1.1235955056179776,
	"grad_norm": 0.03646169230341911,
	"learning_rate": 0.0002,
	"loss": 0.5355998277664185,
	"mean_token_accuracy": 0.7840575128793716,
	"num_tokens": 4890978.0,
	"step": 300
	},
	{
	"entropy": 0.5369604676961899,
	"epoch": 1.1273408239700375,
	"grad_norm": 0.03131569176912308,
	"learning_rate": 0.0002,
	"loss": 0.540716290473938,
	"mean_token_accuracy": 0.780446395277977,
	"num_tokens": 4907064.0,
	"step": 301
	},
	{
	"entropy": 0.5605516880750656,
	"epoch": 1.1310861423220975,
	"grad_norm": 0.034511223435401917,
	"learning_rate": 0.0002,
	"loss": 0.5577893257141113,
	"mean_token_accuracy": 0.7730138152837753,
	"num_tokens": 4923266.0,
	"step": 302
	},
	{
	"entropy": 0.5472770929336548,
	"epoch": 1.1348314606741572,
	"grad_norm": 0.0347181111574173,
	"learning_rate": 0.0002,
	"loss": 0.5447498559951782,
	"mean_token_accuracy": 0.7790001332759857,
	"num_tokens": 4939554.0,
	"step": 303
	},
	{
	"entropy": 0.5580919533967972,
	"epoch": 1.1385767790262173,
	"grad_norm": 0.029458722099661827,
	"learning_rate": 0.0002,
	"loss": 0.5602295994758606,
	"mean_token_accuracy": 0.7698655724525452,
	"num_tokens": 4955864.0,
	"step": 304
	},
	{
	"entropy": 0.5566238462924957,
	"epoch": 1.142322097378277,
	"grad_norm": 0.03371216729283333,
	"learning_rate": 0.0002,
	"loss": 0.5516577363014221,
	"mean_token_accuracy": 0.7762005478143692,
	"num_tokens": 4972145.0,
	"step": 305
	},
	{
	"entropy": 0.5444543808698654,
	"epoch": 1.146067415730337,
	"grad_norm": 0.03240659460425377,
	"learning_rate": 0.0002,
	"loss": 0.5465469360351562,
	"mean_token_accuracy": 0.7778800278902054,
	"num_tokens": 4988600.0,
	"step": 306
	},
	{
	"entropy": 0.5197838395833969,
	"epoch": 1.149812734082397,
	"grad_norm": 0.03453533351421356,
	"learning_rate": 0.0002,
	"loss": 0.52244633436203,
	"mean_token_accuracy": 0.7865428030490875,
	"num_tokens": 5004593.0,
	"step": 307
	},
	{
	"entropy": 0.5355952382087708,
	"epoch": 1.1535580524344569,
	"grad_norm": 0.02796328440308571,
	"learning_rate": 0.0002,
	"loss": 0.5417516231536865,
	"mean_token_accuracy": 0.778742790222168,
	"num_tokens": 5020798.0,
	"step": 308
	},
	{
	"entropy": 0.5339494347572327,
	"epoch": 1.1573033707865168,
	"grad_norm": 0.031283531337976456,
	"learning_rate": 0.0002,
	"loss": 0.5422439575195312,
	"mean_token_accuracy": 0.7790778428316116,
	"num_tokens": 5037095.0,
	"step": 309
	},
	{
	"entropy": 0.5599728673696518,
	"epoch": 1.1610486891385767,
	"grad_norm": 0.029156681150197983,
	"learning_rate": 0.0002,
	"loss": 0.5628546476364136,
	"mean_token_accuracy": 0.7709409445524216,
	"num_tokens": 5053556.0,
	"step": 310
	},
	{
	"entropy": 0.5527057945728302,
	"epoch": 1.1647940074906367,
	"grad_norm": 0.028000809252262115,
	"learning_rate": 0.0002,
	"loss": 0.5457457900047302,
	"mean_token_accuracy": 0.7764673084020615,
	"num_tokens": 5069817.0,
	"step": 311
	},
	{
	"entropy": 0.5439251810312271,
	"epoch": 1.1685393258426966,
	"grad_norm": 0.027509242296218872,
	"learning_rate": 0.0002,
	"loss": 0.5400040149688721,
	"mean_token_accuracy": 0.7789120823144913,
	"num_tokens": 5086044.0,
	"step": 312
	},
	{
	"entropy": 0.561322957277298,
	"epoch": 1.1722846441947565,
	"grad_norm": 0.030032532289624214,
	"learning_rate": 0.0002,
	"loss": 0.5588545799255371,
	"mean_token_accuracy": 0.7742930203676224,
	"num_tokens": 5102685.0,
	"step": 313
	},
	{
	"entropy": 0.5458335727453232,
	"epoch": 1.1760299625468165,
	"grad_norm": 0.029963059350848198,
	"learning_rate": 0.0002,
	"loss": 0.5477938055992126,
	"mean_token_accuracy": 0.777193009853363,
	"num_tokens": 5119294.0,
	"step": 314
	},
	{
	"entropy": 0.5545150190591812,
	"epoch": 1.1797752808988764,
	"grad_norm": 0.03310168907046318,
	"learning_rate": 0.0002,
	"loss": 0.5611361265182495,
	"mean_token_accuracy": 0.7725827246904373,
	"num_tokens": 5135795.0,
	"step": 315
	},
	{
	"entropy": 0.5393262058496475,
	"epoch": 1.1835205992509363,
	"grad_norm": 0.02876197174191475,
	"learning_rate": 0.0002,
	"loss": 0.5395398139953613,
	"mean_token_accuracy": 0.781178891658783,
	"num_tokens": 5151936.0,
	"step": 316
	},
	{
	"entropy": 0.5356467962265015,
	"epoch": 1.1872659176029963,
	"grad_norm": 0.029216231778264046,
	"learning_rate": 0.0002,
	"loss": 0.5275884866714478,
	"mean_token_accuracy": 0.7844340801239014,
	"num_tokens": 5168072.0,
	"step": 317
	},
	{
	"entropy": 0.5539442598819733,
	"epoch": 1.1910112359550562,
	"grad_norm": 0.029222887009382248,
	"learning_rate": 0.0002,
	"loss": 0.5549959540367126,
	"mean_token_accuracy": 0.7750978469848633,
	"num_tokens": 5184280.0,
	"step": 318
	},
	{
	"entropy": 0.5316408574581146,
	"epoch": 1.1947565543071161,
	"grad_norm": 0.03008115477859974,
	"learning_rate": 0.0002,
	"loss": 0.536407470703125,
	"mean_token_accuracy": 0.7843799740076065,
	"num_tokens": 5200364.0,
	"step": 319
	},
	{
	"entropy": 0.5335765928030014,
	"epoch": 1.198501872659176,
	"grad_norm": 0.030437173321843147,
	"learning_rate": 0.0002,
	"loss": 0.5371608734130859,
	"mean_token_accuracy": 0.7834146469831467,
	"num_tokens": 5216503.0,
	"step": 320
	},
	{
	"entropy": 0.5507327914237976,
	"epoch": 1.202247191011236,
	"grad_norm": 0.030706282705068588,
	"learning_rate": 0.0002,
	"loss": 0.5528247356414795,
	"mean_token_accuracy": 0.7763889282941818,
	"num_tokens": 5232896.0,
	"step": 321
	},
	{
	"entropy": 0.5600829422473907,
	"epoch": 1.205992509363296,
	"grad_norm": 0.03131498023867607,
	"learning_rate": 0.0002,
	"loss": 0.559609055519104,
	"mean_token_accuracy": 0.7688225358724594,
	"num_tokens": 5249400.0,
	"step": 322
	},
	{
	"entropy": 0.5482848882675171,
	"epoch": 1.2097378277153559,
	"grad_norm": 0.030239688232541084,
	"learning_rate": 0.0002,
	"loss": 0.5498725771903992,
	"mean_token_accuracy": 0.7751806825399399,
	"num_tokens": 5265595.0,
	"step": 323
	},
	{
	"entropy": 0.5517048090696335,
	"epoch": 1.2134831460674158,
	"grad_norm": 0.03668053448200226,
	"learning_rate": 0.0002,
	"loss": 0.5480911135673523,
	"mean_token_accuracy": 0.7757556736469269,
	"num_tokens": 5281774.0,
	"step": 324
	},
	{
	"entropy": 0.5576729625463486,
	"epoch": 1.2172284644194757,
	"grad_norm": 0.028534850105643272,
	"learning_rate": 0.0002,
	"loss": 0.5513843894004822,
	"mean_token_accuracy": 0.7748550176620483,
	"num_tokens": 5297913.0,
	"step": 325
	},
	{
	"entropy": 0.5390013605356216,
	"epoch": 1.2209737827715357,
	"grad_norm": 0.03146135434508324,
	"learning_rate": 0.0002,
	"loss": 0.539669930934906,
	"mean_token_accuracy": 0.7778647989034653,
	"num_tokens": 5314070.0,
	"step": 326
	},
	{
	"entropy": 0.5463844388723373,
	"epoch": 1.2247191011235956,
	"grad_norm": 0.03442573919892311,
	"learning_rate": 0.0002,
	"loss": 0.5508401393890381,
	"mean_token_accuracy": 0.774851381778717,
	"num_tokens": 5330361.0,
	"step": 327
	},
	{
	"entropy": 0.5308734029531479,
	"epoch": 1.2284644194756553,
	"grad_norm": 0.03126746043562889,
	"learning_rate": 0.0002,
	"loss": 0.5370399951934814,
	"mean_token_accuracy": 0.7805522531270981,
	"num_tokens": 5346367.0,
	"step": 328
	},
	{
	"entropy": 0.5443529635667801,
	"epoch": 1.2322097378277155,
	"grad_norm": 0.028079699724912643,
	"learning_rate": 0.0002,
	"loss": 0.5469828248023987,
	"mean_token_accuracy": 0.7801272124052048,
	"num_tokens": 5362795.0,
	"step": 329
	},
	{
	"entropy": 0.5508403033018112,
	"epoch": 1.2359550561797752,
	"grad_norm": 0.03308681398630142,
	"learning_rate": 0.0002,
	"loss": 0.5537492632865906,
	"mean_token_accuracy": 0.776117667555809,
	"num_tokens": 5378892.0,
	"step": 330
	},
	{
	"entropy": 0.547036200761795,
	"epoch": 1.2397003745318351,
	"grad_norm": 0.030657080933451653,
	"learning_rate": 0.0002,
	"loss": 0.5473320484161377,
	"mean_token_accuracy": 0.7783585488796234,
	"num_tokens": 5395182.0,
	"step": 331
	},
	{
	"entropy": 0.5384639650583267,
	"epoch": 1.243445692883895,
	"grad_norm": 0.03128959983587265,
	"learning_rate": 0.0002,
	"loss": 0.5418936610221863,
	"mean_token_accuracy": 0.7789008319377899,
	"num_tokens": 5411728.0,
	"step": 332
	},
	{
	"entropy": 0.5433261394500732,
	"epoch": 1.247191011235955,
	"grad_norm": 0.02972225658595562,
	"learning_rate": 0.0002,
	"loss": 0.5430710315704346,
	"mean_token_accuracy": 0.7793088257312775,
	"num_tokens": 5427990.0,
	"step": 333
	},
	{
	"entropy": 0.5405146926641464,
	"epoch": 1.250936329588015,
	"grad_norm": 0.028844943270087242,
	"learning_rate": 0.0002,
	"loss": 0.538284957408905,
	"mean_token_accuracy": 0.7814860939979553,
	"num_tokens": 5443961.0,
	"step": 334
	},
	{
	"entropy": 0.5582905858755112,
	"epoch": 1.2546816479400749,
	"grad_norm": 0.0356195829808712,
	"learning_rate": 0.0002,
	"loss": 0.558274507522583,
	"mean_token_accuracy": 0.772399827837944,
	"num_tokens": 5460135.0,
	"step": 335
	},
	{
	"entropy": 0.5524656623601913,
	"epoch": 1.2584269662921348,
	"grad_norm": 0.02986624464392662,
	"learning_rate": 0.0002,
	"loss": 0.5503432750701904,
	"mean_token_accuracy": 0.7768993377685547,
	"num_tokens": 5476448.0,
	"step": 336
	},
	{
	"entropy": 0.553261786699295,
	"epoch": 1.2621722846441947,
	"grad_norm": 0.03385454788804054,
	"learning_rate": 0.0002,
	"loss": 0.5513902902603149,
	"mean_token_accuracy": 0.7756227403879166,
	"num_tokens": 5492657.0,
	"step": 337
	},
	{
	"entropy": 0.5534822195768356,
	"epoch": 1.2659176029962547,
	"grad_norm": 0.03496600687503815,
	"learning_rate": 0.0002,
	"loss": 0.5570470690727234,
	"mean_token_accuracy": 0.7745380252599716,
	"num_tokens": 5508936.0,
	"step": 338
	},
	{
	"entropy": 0.5206775590777397,
	"epoch": 1.2696629213483146,
	"grad_norm": 0.038312628865242004,
	"learning_rate": 0.0002,
	"loss": 0.531387209892273,
	"mean_token_accuracy": 0.7818328887224197,
	"num_tokens": 5525150.0,
	"step": 339
	},
	{
	"entropy": 0.5372405052185059,
	"epoch": 1.2734082397003745,
	"grad_norm": 0.03226601704955101,
	"learning_rate": 0.0002,
	"loss": 0.5414312481880188,
	"mean_token_accuracy": 0.7806438505649567,
	"num_tokens": 5541125.0,
	"step": 340
	},
	{
	"entropy": 0.5670074820518494,
	"epoch": 1.2771535580524345,
	"grad_norm": 0.032290343195199966,
	"learning_rate": 0.0002,
	"loss": 0.5651661157608032,
	"mean_token_accuracy": 0.768811360001564,
	"num_tokens": 5557589.0,
	"step": 341
	},
	{
	"entropy": 0.5581976920366287,
	"epoch": 1.2808988764044944,
	"grad_norm": 0.035112183541059494,
	"learning_rate": 0.0002,
	"loss": 0.5540149211883545,
	"mean_token_accuracy": 0.7756919115781784,
	"num_tokens": 5574011.0,
	"step": 342
	},
	{
	"entropy": 0.5480058342218399,
	"epoch": 1.2846441947565543,
	"grad_norm": 0.029269572347402573,
	"learning_rate": 0.0002,
	"loss": 0.5497134923934937,
	"mean_token_accuracy": 0.7775010466575623,
	"num_tokens": 5590227.0,
	"step": 343
	},
	{
	"entropy": 0.5551355630159378,
	"epoch": 1.2883895131086143,
	"grad_norm": 0.03512820973992348,
	"learning_rate": 0.0002,
	"loss": 0.5613937377929688,
	"mean_token_accuracy": 0.77100470662117,
	"num_tokens": 5606436.0,
	"step": 344
	},
	{
	"entropy": 0.5681823641061783,
	"epoch": 1.2921348314606742,
	"grad_norm": 0.028890319168567657,
	"learning_rate": 0.0002,
	"loss": 0.5653828382492065,
	"mean_token_accuracy": 0.7733339965343475,
	"num_tokens": 5622955.0,
	"step": 345
	},
	{
	"entropy": 0.5512849390506744,
	"epoch": 1.2958801498127341,
	"grad_norm": 0.03168505057692528,
	"learning_rate": 0.0002,
	"loss": 0.5475208759307861,
	"mean_token_accuracy": 0.778771311044693,
	"num_tokens": 5639583.0,
	"step": 346
	},
	{
	"entropy": 0.5361000895500183,
	"epoch": 1.299625468164794,
	"grad_norm": 0.03995742276310921,
	"learning_rate": 0.0002,
	"loss": 0.5435983538627625,
	"mean_token_accuracy": 0.7801041901111603,
	"num_tokens": 5655726.0,
	"step": 347
	},
	{
	"entropy": 0.5335006862878799,
	"epoch": 1.303370786516854,
	"grad_norm": 0.03385796397924423,
	"learning_rate": 0.0002,
	"loss": 0.5360836982727051,
	"mean_token_accuracy": 0.7803510278463364,
	"num_tokens": 5671935.0,
	"step": 348
	},
	{
	"entropy": 0.5649213343858719,
	"epoch": 1.3071161048689137,
	"grad_norm": 0.03367312625050545,
	"learning_rate": 0.0002,
	"loss": 0.5654204487800598,
	"mean_token_accuracy": 0.7698808759450912,
	"num_tokens": 5688484.0,
	"step": 349
	},
	{
	"entropy": 0.5636743903160095,
	"epoch": 1.3108614232209739,
	"grad_norm": 0.028330491855740547,
	"learning_rate": 0.0002,
	"loss": 0.564975380897522,
	"mean_token_accuracy": 0.769644483923912,
	"num_tokens": 5704874.0,
	"step": 350
	},
	{
	"entropy": 0.5439984649419785,
	"epoch": 1.3146067415730336,
	"grad_norm": 0.030180098488926888,
	"learning_rate": 0.0002,
	"loss": 0.540916383266449,
	"mean_token_accuracy": 0.7806600630283356,
	"num_tokens": 5721250.0,
	"step": 351
	},
	{
	"entropy": 0.5403287261724472,
	"epoch": 1.3183520599250937,
	"grad_norm": 0.03425198793411255,
	"learning_rate": 0.0002,
	"loss": 0.5408051609992981,
	"mean_token_accuracy": 0.7801858931779861,
	"num_tokens": 5737303.0,
	"step": 352
	},
	{
	"entropy": 0.5534793436527252,
	"epoch": 1.3220973782771535,
	"grad_norm": 0.029101019725203514,
	"learning_rate": 0.0002,
	"loss": 0.5576366782188416,
	"mean_token_accuracy": 0.773370087146759,
	"num_tokens": 5753786.0,
	"step": 353
	},
	{
	"entropy": 0.5410192608833313,
	"epoch": 1.3258426966292136,
	"grad_norm": 0.0356539785861969,
	"learning_rate": 0.0002,
	"loss": 0.5408055186271667,
	"mean_token_accuracy": 0.7814153283834457,
	"num_tokens": 5769926.0,
	"step": 354
	},
	{
	"entropy": 0.5472375005483627,
	"epoch": 1.3295880149812733,
	"grad_norm": 0.03288782387971878,
	"learning_rate": 0.0002,
	"loss": 0.5537273287773132,
	"mean_token_accuracy": 0.7744840979576111,
	"num_tokens": 5785998.0,
	"step": 355
	},
	{
	"entropy": 0.5556980893015862,
	"epoch": 1.3333333333333333,
	"grad_norm": 0.038231220096349716,
	"learning_rate": 0.0002,
	"loss": 0.558592677116394,
	"mean_token_accuracy": 0.7744520753622055,
	"num_tokens": 5802256.0,
	"step": 356
	},
	{
	"entropy": 0.5668211281299591,
	"epoch": 1.3370786516853932,
	"grad_norm": 0.02924768440425396,
	"learning_rate": 0.0002,
	"loss": 0.5691797733306885,
	"mean_token_accuracy": 0.7683669775724411,
	"num_tokens": 5818757.0,
	"step": 357
	},
	{
	"entropy": 0.549320325255394,
	"epoch": 1.3408239700374531,
	"grad_norm": 0.03099512681365013,
	"learning_rate": 0.0002,
	"loss": 0.551908016204834,
	"mean_token_accuracy": 0.7755500972270966,
	"num_tokens": 5835041.0,
	"step": 358
	},
	{
	"entropy": 0.5573329776525497,
	"epoch": 1.344569288389513,
	"grad_norm": 0.028519438579678535,
	"learning_rate": 0.0002,
	"loss": 0.5581731796264648,
	"mean_token_accuracy": 0.7729284316301346,
	"num_tokens": 5851618.0,
	"step": 359
	},
	{
	"entropy": 0.5377827435731888,
	"epoch": 1.348314606741573,
	"grad_norm": 0.03338128328323364,
	"learning_rate": 0.0002,
	"loss": 0.5362961888313293,
	"mean_token_accuracy": 0.7824237793684006,
	"num_tokens": 5867600.0,
	"step": 360
	},
	{
	"entropy": 0.549625426530838,
	"epoch": 1.352059925093633,
	"grad_norm": 0.032118137925863266,
	"learning_rate": 0.0002,
	"loss": 0.5464169979095459,
	"mean_token_accuracy": 0.779940128326416,
	"num_tokens": 5883550.0,
	"step": 361
	},
	{
	"entropy": 0.5563124269247055,
	"epoch": 1.3558052434456929,
	"grad_norm": 0.028186708688735962,
	"learning_rate": 0.0002,
	"loss": 0.5525781512260437,
	"mean_token_accuracy": 0.7742565721273422,
	"num_tokens": 5900020.0,
	"step": 362
	},
	{
	"entropy": 0.5396654903888702,
	"epoch": 1.3595505617977528,
	"grad_norm": 0.03306869789958,
	"learning_rate": 0.0002,
	"loss": 0.5485842227935791,
	"mean_token_accuracy": 0.7763185799121857,
	"num_tokens": 5916563.0,
	"step": 363
	},
	{
	"entropy": 0.5324016958475113,
	"epoch": 1.3632958801498127,
	"grad_norm": 0.030485033988952637,
	"learning_rate": 0.0002,
	"loss": 0.5407555103302002,
	"mean_token_accuracy": 0.7805987000465393,
	"num_tokens": 5932915.0,
	"step": 364
	},
	{
	"entropy": 0.5415676534175873,
	"epoch": 1.3670411985018727,
	"grad_norm": 0.032210033386945724,
	"learning_rate": 0.0002,
	"loss": 0.5420053601264954,
	"mean_token_accuracy": 0.7789227366447449,
	"num_tokens": 5949294.0,
	"step": 365
	},
	{
	"entropy": 0.5479710251092911,
	"epoch": 1.3707865168539326,
	"grad_norm": 0.030770668759942055,
	"learning_rate": 0.0002,
	"loss": 0.5442653894424438,
	"mean_token_accuracy": 0.7809406220912933,
	"num_tokens": 5965688.0,
	"step": 366
	},
	{
	"entropy": 0.5611272603273392,
	"epoch": 1.3745318352059925,
	"grad_norm": 0.030032480135560036,
	"learning_rate": 0.0002,
	"loss": 0.5458992719650269,
	"mean_token_accuracy": 0.7793887704610825,
	"num_tokens": 5982353.0,
	"step": 367
	},
	{
	"entropy": 0.5711783468723297,
	"epoch": 1.3782771535580525,
	"grad_norm": 0.030471278354525566,
	"learning_rate": 0.0002,
	"loss": 0.5689231157302856,
	"mean_token_accuracy": 0.7691554129123688,
	"num_tokens": 5998928.0,
	"step": 368
	},
	{
	"entropy": 0.5704734623432159,
	"epoch": 1.3820224719101124,
	"grad_norm": 0.0308744665235281,
	"learning_rate": 0.0002,
	"loss": 0.5704200267791748,
	"mean_token_accuracy": 0.7696904093027115,
	"num_tokens": 6015488.0,
	"step": 369
	},
	{
	"entropy": 0.540970042347908,
	"epoch": 1.3857677902621723,
	"grad_norm": 0.029789667576551437,
	"learning_rate": 0.0002,
	"loss": 0.5435522794723511,
	"mean_token_accuracy": 0.7803212404251099,
	"num_tokens": 6032273.0,
	"step": 370
	},
	{
	"entropy": 0.5323564112186432,
	"epoch": 1.3895131086142323,
	"grad_norm": 0.03373701870441437,
	"learning_rate": 0.0002,
	"loss": 0.5415207147598267,
	"mean_token_accuracy": 0.7777475565671921,
	"num_tokens": 6048761.0,
	"step": 371
	},
	{
	"entropy": 0.5275064408779144,
	"epoch": 1.3932584269662922,
	"grad_norm": 0.03547370806336403,
	"learning_rate": 0.0002,
	"loss": 0.540917694568634,
	"mean_token_accuracy": 0.7795429080724716,
	"num_tokens": 6064848.0,
	"step": 372
	},
	{
	"entropy": 0.5497806072235107,
	"epoch": 1.3970037453183521,
	"grad_norm": 0.03201119974255562,
	"learning_rate": 0.0002,
	"loss": 0.552889347076416,
	"mean_token_accuracy": 0.7745427489280701,
	"num_tokens": 6081258.0,
	"step": 373
	},
	{
	"entropy": 0.5175323188304901,
	"epoch": 1.4007490636704119,
	"grad_norm": 0.03368834778666496,
	"learning_rate": 0.0002,
	"loss": 0.5198505520820618,
	"mean_token_accuracy": 0.7878732234239578,
	"num_tokens": 6097172.0,
	"step": 374
	},
	{
	"entropy": 0.5441398918628693,
	"epoch": 1.404494382022472,
	"grad_norm": 0.03139437735080719,
	"learning_rate": 0.0002,
	"loss": 0.5445310473442078,
	"mean_token_accuracy": 0.780688688158989,
	"num_tokens": 6113446.0,
	"step": 375
	},
	{
	"entropy": 0.5468717068433762,
	"epoch": 1.4082397003745317,
	"grad_norm": 0.03169120475649834,
	"learning_rate": 0.0002,
	"loss": 0.5426516532897949,
	"mean_token_accuracy": 0.776495024561882,
	"num_tokens": 6129738.0,
	"step": 376
	},
	{
	"entropy": 0.5554005056619644,
	"epoch": 1.4119850187265919,
	"grad_norm": 0.03649836778640747,
	"learning_rate": 0.0002,
	"loss": 0.5584489703178406,
	"mean_token_accuracy": 0.7743981927633286,
	"num_tokens": 6146138.0,
	"step": 377
	},
	{
	"entropy": 0.545359656214714,
	"epoch": 1.4157303370786516,
	"grad_norm": 0.0333530455827713,
	"learning_rate": 0.0002,
	"loss": 0.547561526298523,
	"mean_token_accuracy": 0.7772817760705948,
	"num_tokens": 6162466.0,
	"step": 378
	},
	{
	"entropy": 0.5366268008947372,
	"epoch": 1.4194756554307117,
	"grad_norm": 0.0315176397562027,
	"learning_rate": 0.0002,
	"loss": 0.5370338559150696,
	"mean_token_accuracy": 0.7830789685249329,
	"num_tokens": 6178827.0,
	"step": 379
	},
	{
	"entropy": 0.5343760550022125,
	"epoch": 1.4232209737827715,
	"grad_norm": 0.03283468633890152,
	"learning_rate": 0.0002,
	"loss": 0.5403618812561035,
	"mean_token_accuracy": 0.7811573594808578,
	"num_tokens": 6195014.0,
	"step": 380
	},
	{
	"entropy": 0.5374447852373123,
	"epoch": 1.4269662921348314,
	"grad_norm": 0.03712209314107895,
	"learning_rate": 0.0002,
	"loss": 0.5359081625938416,
	"mean_token_accuracy": 0.7824594676494598,
	"num_tokens": 6211204.0,
	"step": 381
	},
	{
	"entropy": 0.5647163391113281,
	"epoch": 1.4307116104868913,
	"grad_norm": 0.030612658709287643,
	"learning_rate": 0.0002,
	"loss": 0.5665347576141357,
	"mean_token_accuracy": 0.7709782868623734,
	"num_tokens": 6227439.0,
	"step": 382
	},
	{
	"entropy": 0.5584586560726166,
	"epoch": 1.4344569288389513,
	"grad_norm": 0.03545604646205902,
	"learning_rate": 0.0002,
	"loss": 0.5592620372772217,
	"mean_token_accuracy": 0.7708311080932617,
	"num_tokens": 6243909.0,
	"step": 383
	},
	{
	"entropy": 0.5563389509916306,
	"epoch": 1.4382022471910112,
	"grad_norm": 0.031707633286714554,
	"learning_rate": 0.0002,
	"loss": 0.5574153065681458,
	"mean_token_accuracy": 0.7749636173248291,
	"num_tokens": 6260228.0,
	"step": 384
	},
	{
	"entropy": 0.5361679270863533,
	"epoch": 1.4419475655430711,
	"grad_norm": 0.030576881021261215,
	"learning_rate": 0.0002,
	"loss": 0.5358593463897705,
	"mean_token_accuracy": 0.7815472632646561,
	"num_tokens": 6276438.0,
	"step": 385
	},
	{
	"entropy": 0.5404613763093948,
	"epoch": 1.445692883895131,
	"grad_norm": 0.0397074818611145,
	"learning_rate": 0.0002,
	"loss": 0.5409061908721924,
	"mean_token_accuracy": 0.7812814116477966,
	"num_tokens": 6292854.0,
	"step": 386
	},
	{
	"entropy": 0.5539507865905762,
	"epoch": 1.449438202247191,
	"grad_norm": 0.027634674683213234,
	"learning_rate": 0.0002,
	"loss": 0.551899254322052,
	"mean_token_accuracy": 0.7763891369104385,
	"num_tokens": 6309146.0,
	"step": 387
	},
	{
	"entropy": 0.5406185388565063,
	"epoch": 1.453183520599251,
	"grad_norm": 0.03658418357372284,
	"learning_rate": 0.0002,
	"loss": 0.5376873016357422,
	"mean_token_accuracy": 0.7802905589342117,
	"num_tokens": 6325371.0,
	"step": 388
	},
	{
	"entropy": 0.5515788942575455,
	"epoch": 1.4569288389513109,
	"grad_norm": 0.029648393392562866,
	"learning_rate": 0.0002,
	"loss": 0.5481655597686768,
	"mean_token_accuracy": 0.7753021568059921,
	"num_tokens": 6341504.0,
	"step": 389
	},
	{
	"entropy": 0.5403069257736206,
	"epoch": 1.4606741573033708,
	"grad_norm": 0.0300885122269392,
	"learning_rate": 0.0002,
	"loss": 0.5417286157608032,
	"mean_token_accuracy": 0.7805690169334412,
	"num_tokens": 6357574.0,
	"step": 390
	},
	{
	"entropy": 0.5320965051651001,
	"epoch": 1.4644194756554307,
	"grad_norm": 0.04233168438076973,
	"learning_rate": 0.0002,
	"loss": 0.542140543460846,
	"mean_token_accuracy": 0.7790813148021698,
	"num_tokens": 6373603.0,
	"step": 391
	},
	{
	"entropy": 0.5370313972234726,
	"epoch": 1.4681647940074907,
	"grad_norm": 0.03608033061027527,
	"learning_rate": 0.0002,
	"loss": 0.5452749133110046,
	"mean_token_accuracy": 0.7784496247768402,
	"num_tokens": 6389874.0,
	"step": 392
	},
	{
	"entropy": 0.5391117632389069,
	"epoch": 1.4719101123595506,
	"grad_norm": 0.044416990131139755,
	"learning_rate": 0.0002,
	"loss": 0.5447070598602295,
	"mean_token_accuracy": 0.7758590877056122,
	"num_tokens": 6406014.0,
	"step": 393
	},
	{
	"entropy": 0.5536396950483322,
	"epoch": 1.4756554307116105,
	"grad_norm": 0.028598185628652573,
	"learning_rate": 0.0002,
	"loss": 0.5509454011917114,
	"mean_token_accuracy": 0.7754955738782883,
	"num_tokens": 6422526.0,
	"step": 394
	},
	{
	"entropy": 0.5600528717041016,
	"epoch": 1.4794007490636705,
	"grad_norm": 0.03587036579847336,
	"learning_rate": 0.0002,
	"loss": 0.5511722564697266,
	"mean_token_accuracy": 0.7756818234920502,
	"num_tokens": 6438826.0,
	"step": 395
	},
	{
	"entropy": 0.5635561943054199,
	"epoch": 1.4831460674157304,
	"grad_norm": 0.04037458822131157,
	"learning_rate": 0.0002,
	"loss": 0.5569745898246765,
	"mean_token_accuracy": 0.7768395692110062,
	"num_tokens": 6455392.0,
	"step": 396
	},
	{
	"entropy": 0.5546122640371323,
	"epoch": 1.4868913857677903,
	"grad_norm": 0.03193597123026848,
	"learning_rate": 0.0002,
	"loss": 0.5528469085693359,
	"mean_token_accuracy": 0.7737569063901901,
	"num_tokens": 6471908.0,
	"step": 397
	},
	{
	"entropy": 0.540926069021225,
	"epoch": 1.4906367041198503,
	"grad_norm": 0.03908224403858185,
	"learning_rate": 0.0002,
	"loss": 0.5521141290664673,
	"mean_token_accuracy": 0.7775756865739822,
	"num_tokens": 6487958.0,
	"step": 398
	},
	{
	"entropy": 0.5474519431591034,
	"epoch": 1.49438202247191,
	"grad_norm": 0.04104601964354515,
	"learning_rate": 0.0002,
	"loss": 0.5533535480499268,
	"mean_token_accuracy": 0.7748162597417831,
	"num_tokens": 6504634.0,
	"step": 399
	},
	{
	"entropy": 0.5560764372348785,
	"epoch": 1.4981273408239701,
	"grad_norm": 0.0360972136259079,
	"learning_rate": 0.0002,
	"loss": 0.5614410042762756,
	"mean_token_accuracy": 0.770107239484787,
	"num_tokens": 6521072.0,
	"step": 400
	},
	{
	"entropy": 0.5673471540212631,
	"epoch": 1.5018726591760299,
	"grad_norm": 0.04004177823662758,
	"learning_rate": 0.0002,
	"loss": 0.5589927434921265,
	"mean_token_accuracy": 0.7734557241201401,
	"num_tokens": 6537361.0,
	"step": 401
	},
	{
	"entropy": 0.5486087501049042,
	"epoch": 1.50561797752809,
	"grad_norm": 0.030557790771126747,
	"learning_rate": 0.0002,
	"loss": 0.5393815040588379,
	"mean_token_accuracy": 0.7784638553857803,
	"num_tokens": 6553620.0,
	"step": 402
	},
	{
	"entropy": 0.5486248284578323,
	"epoch": 1.5093632958801497,
	"grad_norm": 0.03941396623849869,
	"learning_rate": 0.0002,
	"loss": 0.5509032011032104,
	"mean_token_accuracy": 0.7800426781177521,
	"num_tokens": 6569936.0,
	"step": 403
	},
	{
	"entropy": 0.558304026722908,
	"epoch": 1.5131086142322099,
	"grad_norm": 0.03858976438641548,
	"learning_rate": 0.0002,
	"loss": 0.566615104675293,
	"mean_token_accuracy": 0.7677357494831085,
	"num_tokens": 6586223.0,
	"step": 404
	},
	{
	"entropy": 0.5375211238861084,
	"epoch": 1.5168539325842696,
	"grad_norm": 0.0333857461810112,
	"learning_rate": 0.0002,
	"loss": 0.546052873134613,
	"mean_token_accuracy": 0.779136061668396,
	"num_tokens": 6602626.0,
	"step": 405
	},
	{
	"entropy": 0.545025646686554,
	"epoch": 1.5205992509363297,
	"grad_norm": 0.03882851079106331,
	"learning_rate": 0.0002,
	"loss": 0.5526992678642273,
	"mean_token_accuracy": 0.7757603526115417,
	"num_tokens": 6618970.0,
	"step": 406
	},
	{
	"entropy": 0.5616021603345871,
	"epoch": 1.5243445692883895,
	"grad_norm": 0.029704444110393524,
	"learning_rate": 0.0002,
	"loss": 0.5617290139198303,
	"mean_token_accuracy": 0.771888017654419,
	"num_tokens": 6635712.0,
	"step": 407
	},
	{
	"entropy": 0.5517143756151199,
	"epoch": 1.5280898876404494,
	"grad_norm": 0.029841486364603043,
	"learning_rate": 0.0002,
	"loss": 0.5455192923545837,
	"mean_token_accuracy": 0.7790273427963257,
	"num_tokens": 6652005.0,
	"step": 408
	},
	{
	"entropy": 0.5481491684913635,
	"epoch": 1.5318352059925093,
	"grad_norm": 0.03239016607403755,
	"learning_rate": 0.0002,
	"loss": 0.5448024272918701,
	"mean_token_accuracy": 0.7801620662212372,
	"num_tokens": 6668365.0,
	"step": 409
	},
	{
	"entropy": 0.5385047048330307,
	"epoch": 1.5355805243445693,
	"grad_norm": 0.029611637815833092,
	"learning_rate": 0.0002,
	"loss": 0.5335633754730225,
	"mean_token_accuracy": 0.785701259970665,
	"num_tokens": 6684708.0,
	"step": 410
	},
	{
	"entropy": 0.558298259973526,
	"epoch": 1.5393258426966292,
	"grad_norm": 0.030493013560771942,
	"learning_rate": 0.0002,
	"loss": 0.5560066103935242,
	"mean_token_accuracy": 0.7725876718759537,
	"num_tokens": 6701142.0,
	"step": 411
	},
	{
	"entropy": 0.5395427197217941,
	"epoch": 1.5430711610486891,
	"grad_norm": 0.032578032463788986,
	"learning_rate": 0.0002,
	"loss": 0.5449746251106262,
	"mean_token_accuracy": 0.7762585133314133,
	"num_tokens": 6717233.0,
	"step": 412
	},
	{
	"entropy": 0.5387013256549835,
	"epoch": 1.546816479400749,
	"grad_norm": 0.0333687961101532,
	"learning_rate": 0.0002,
	"loss": 0.5403171181678772,
	"mean_token_accuracy": 0.7810612767934799,
	"num_tokens": 6733228.0,
	"step": 413
	},
	{
	"entropy": 0.5673456788063049,
	"epoch": 1.550561797752809,
	"grad_norm": 0.036015916615724564,
	"learning_rate": 0.0002,
	"loss": 0.5735532641410828,
	"mean_token_accuracy": 0.7664827108383179,
	"num_tokens": 6749423.0,
	"step": 414
	},
	{
	"entropy": 0.5494605153799057,
	"epoch": 1.554307116104869,
	"grad_norm": 0.02719104290008545,
	"learning_rate": 0.0002,
	"loss": 0.5493685007095337,
	"mean_token_accuracy": 0.776999905705452,
	"num_tokens": 6765893.0,
	"step": 415
	},
	{
	"entropy": 0.5593840181827545,
	"epoch": 1.5580524344569289,
	"grad_norm": 0.03425523266196251,
	"learning_rate": 0.0002,
	"loss": 0.5553128719329834,
	"mean_token_accuracy": 0.7735365033149719,
	"num_tokens": 6782271.0,
	"step": 416
	},
	{
	"entropy": 0.5617495179176331,
	"epoch": 1.5617977528089888,
	"grad_norm": 0.032372213900089264,
	"learning_rate": 0.0002,
	"loss": 0.5606021881103516,
	"mean_token_accuracy": 0.7721095532178879,
	"num_tokens": 6798813.0,
	"step": 417
	},
	{
	"entropy": 0.5550025552511215,
	"epoch": 1.5655430711610487,
	"grad_norm": 0.029182737693190575,
	"learning_rate": 0.0002,
	"loss": 0.5564966201782227,
	"mean_token_accuracy": 0.7731625586748123,
	"num_tokens": 6815405.0,
	"step": 418
	},
	{
	"entropy": 0.5605382174253464,
	"epoch": 1.5692883895131087,
	"grad_norm": 0.030886612832546234,
	"learning_rate": 0.0002,
	"loss": 0.5631057024002075,
	"mean_token_accuracy": 0.7716924250125885,
	"num_tokens": 6831974.0,
	"step": 419
	},
	{
	"entropy": 0.5414248704910278,
	"epoch": 1.5730337078651684,
	"grad_norm": 0.03267752379179001,
	"learning_rate": 0.0002,
	"loss": 0.5522453188896179,
	"mean_token_accuracy": 0.7731709033250809,
	"num_tokens": 6848314.0,
	"step": 420
	},
	{
	"entropy": 0.5514931678771973,
	"epoch": 1.5767790262172285,
	"grad_norm": 0.03168710321187973,
	"learning_rate": 0.0002,
	"loss": 0.5525091886520386,
	"mean_token_accuracy": 0.7754202336072922,
	"num_tokens": 6864671.0,
	"step": 421
	},
	{
	"entropy": 0.5639499425888062,
	"epoch": 1.5805243445692883,
	"grad_norm": 0.032651759684085846,
	"learning_rate": 0.0002,
	"loss": 0.5697652697563171,
	"mean_token_accuracy": 0.7682019621133804,
	"num_tokens": 6881061.0,
	"step": 422
	},
	{
	"entropy": 0.5544054210186005,
	"epoch": 1.5842696629213484,
	"grad_norm": 0.03449453413486481,
	"learning_rate": 0.0002,
	"loss": 0.5507102012634277,
	"mean_token_accuracy": 0.775859922170639,
	"num_tokens": 6897314.0,
	"step": 423
	},
	{
	"entropy": 0.5711345225572586,
	"epoch": 1.5880149812734081,
	"grad_norm": 0.03847847133874893,
	"learning_rate": 0.0002,
	"loss": 0.5732009410858154,
	"mean_token_accuracy": 0.7667471021413803,
	"num_tokens": 6913609.0,
	"step": 424
	},
	{
	"entropy": 0.5389959663152695,
	"epoch": 1.5917602996254683,
	"grad_norm": 0.03514353558421135,
	"learning_rate": 0.0002,
	"loss": 0.5444454550743103,
	"mean_token_accuracy": 0.7799976915121078,
	"num_tokens": 6929936.0,
	"step": 425
	},
	{
	"entropy": 0.5668403804302216,
	"epoch": 1.595505617977528,
	"grad_norm": 0.035787779837846756,
	"learning_rate": 0.0002,
	"loss": 0.5658587217330933,
	"mean_token_accuracy": 0.7714453637599945,
	"num_tokens": 6946824.0,
	"step": 426
	},
	{
	"entropy": 0.5508380085229874,
	"epoch": 1.5992509363295881,
	"grad_norm": 0.03445902094244957,
	"learning_rate": 0.0002,
	"loss": 0.5547541975975037,
	"mean_token_accuracy": 0.7770363837480545,
	"num_tokens": 6962968.0,
	"step": 427
	},
	{
	"entropy": 0.5622916221618652,
	"epoch": 1.6029962546816479,
	"grad_norm": 0.033641569316387177,
	"learning_rate": 0.0002,
	"loss": 0.5611415505409241,
	"mean_token_accuracy": 0.7717165648937225,
	"num_tokens": 6979281.0,
	"step": 428
	},
	{
	"entropy": 0.5456431210041046,
	"epoch": 1.606741573033708,
	"grad_norm": 0.030943863093852997,
	"learning_rate": 0.0002,
	"loss": 0.5433369278907776,
	"mean_token_accuracy": 0.77703957259655,
	"num_tokens": 6995448.0,
	"step": 429
	},
	{
	"entropy": 0.5349363088607788,
	"epoch": 1.6104868913857677,
	"grad_norm": 0.029584866017103195,
	"learning_rate": 0.0002,
	"loss": 0.528792142868042,
	"mean_token_accuracy": 0.7852742522954941,
	"num_tokens": 7011578.0,
	"step": 430
	},
	{
	"entropy": 0.52534219622612,
	"epoch": 1.6142322097378277,
	"grad_norm": 0.031122464686632156,
	"learning_rate": 0.0002,
	"loss": 0.5248501300811768,
	"mean_token_accuracy": 0.7855943292379379,
	"num_tokens": 7027819.0,
	"step": 431
	},
	{
	"entropy": 0.5471996814012527,
	"epoch": 1.6179775280898876,
	"grad_norm": 0.03317458927631378,
	"learning_rate": 0.0002,
	"loss": 0.5547217726707458,
	"mean_token_accuracy": 0.776124969124794,
	"num_tokens": 7044215.0,
	"step": 432
	},
	{
	"entropy": 0.5501783192157745,
	"epoch": 1.6217228464419475,
	"grad_norm": 0.028514394536614418,
	"learning_rate": 0.0002,
	"loss": 0.5524763464927673,
	"mean_token_accuracy": 0.773967519402504,
	"num_tokens": 7060557.0,
	"step": 433
	},
	{
	"entropy": 0.5516121089458466,
	"epoch": 1.6254681647940075,
	"grad_norm": 0.037680886685848236,
	"learning_rate": 0.0002,
	"loss": 0.5547643899917603,
	"mean_token_accuracy": 0.7772052437067032,
	"num_tokens": 7076827.0,
	"step": 434
	},
	{
	"entropy": 0.5446216315031052,
	"epoch": 1.6292134831460674,
	"grad_norm": 0.025961318984627724,
	"learning_rate": 0.0002,
	"loss": 0.540472149848938,
	"mean_token_accuracy": 0.7827950567007065,
	"num_tokens": 7093240.0,
	"step": 435
	},
	{
	"entropy": 0.5542737692594528,
	"epoch": 1.6329588014981273,
	"grad_norm": 0.03385328873991966,
	"learning_rate": 0.0002,
	"loss": 0.5622321963310242,
	"mean_token_accuracy": 0.7715137451887131,
	"num_tokens": 7109763.0,
	"step": 436
	},
	{
	"entropy": 0.5479970276355743,
	"epoch": 1.6367041198501873,
	"grad_norm": 0.027666250243782997,
	"learning_rate": 0.0002,
	"loss": 0.5450934767723083,
	"mean_token_accuracy": 0.7789344042539597,
	"num_tokens": 7125965.0,
	"step": 437
	},
	{
	"entropy": 0.5606249123811722,
	"epoch": 1.6404494382022472,
	"grad_norm": 0.028965814039111137,
	"learning_rate": 0.0002,
	"loss": 0.5618120431900024,
	"mean_token_accuracy": 0.7737310230731964,
	"num_tokens": 7142275.0,
	"step": 438
	},
	{
	"entropy": 0.5434140264987946,
	"epoch": 1.6441947565543071,
	"grad_norm": 0.03233455866575241,
	"learning_rate": 0.0002,
	"loss": 0.5448483824729919,
	"mean_token_accuracy": 0.7776681929826736,
	"num_tokens": 7158681.0,
	"step": 439
	},
	{
	"entropy": 0.5462686270475388,
	"epoch": 1.647940074906367,
	"grad_norm": 0.030159825459122658,
	"learning_rate": 0.0002,
	"loss": 0.5512958765029907,
	"mean_token_accuracy": 0.7788191735744476,
	"num_tokens": 7174999.0,
	"step": 440
	},
	{
	"entropy": 0.5655659884214401,
	"epoch": 1.651685393258427,
	"grad_norm": 0.0356375053524971,
	"learning_rate": 0.0002,
	"loss": 0.5668036937713623,
	"mean_token_accuracy": 0.7672240734100342,
	"num_tokens": 7191451.0,
	"step": 441
	},
	{
	"entropy": 0.5439184606075287,
	"epoch": 1.655430711610487,
	"grad_norm": 0.03394126892089844,
	"learning_rate": 0.0002,
	"loss": 0.5443013906478882,
	"mean_token_accuracy": 0.7794349491596222,
	"num_tokens": 7207657.0,
	"step": 442
	},
	{
	"entropy": 0.5462498217821121,
	"epoch": 1.6591760299625467,
	"grad_norm": 0.03115757368505001,
	"learning_rate": 0.0002,
	"loss": 0.5484351515769958,
	"mean_token_accuracy": 0.7759426087141037,
	"num_tokens": 7223926.0,
	"step": 443
	},
	{
	"entropy": 0.5479519367218018,
	"epoch": 1.6629213483146068,
	"grad_norm": 0.03686544671654701,
	"learning_rate": 0.0002,
	"loss": 0.5487886071205139,
	"mean_token_accuracy": 0.7793583422899246,
	"num_tokens": 7239926.0,
	"step": 444
	},
	{
	"entropy": 0.5571880787611008,
	"epoch": 1.6666666666666665,
	"grad_norm": 0.029902130365371704,
	"learning_rate": 0.0002,
	"loss": 0.5566808581352234,
	"mean_token_accuracy": 0.7738562673330307,
	"num_tokens": 7256365.0,
	"step": 445
	},
	{
	"entropy": 0.5606496781110764,
	"epoch": 1.6704119850187267,
	"grad_norm": 0.03581070154905319,
	"learning_rate": 0.0002,
	"loss": 0.5646023750305176,
	"mean_token_accuracy": 0.7700021713972092,
	"num_tokens": 7272415.0,
	"step": 446
	},
	{
	"entropy": 0.5493645370006561,
	"epoch": 1.6741573033707864,
	"grad_norm": 0.034732386469841,
	"learning_rate": 0.0002,
	"loss": 0.5556433796882629,
	"mean_token_accuracy": 0.7724722027778625,
	"num_tokens": 7288442.0,
	"step": 447
	},
	{
	"entropy": 0.5454504191875458,
	"epoch": 1.6779026217228465,
	"grad_norm": 0.031994741410017014,
	"learning_rate": 0.0002,
	"loss": 0.5455131530761719,
	"mean_token_accuracy": 0.7786727547645569,
	"num_tokens": 7304778.0,
	"step": 448
	},
	{
	"entropy": 0.5480805784463882,
	"epoch": 1.6816479400749063,
	"grad_norm": 0.029919426888227463,
	"learning_rate": 0.0002,
	"loss": 0.5464503765106201,
	"mean_token_accuracy": 0.7800304591655731,
	"num_tokens": 7320989.0,
	"step": 449
	},
	{
	"entropy": 0.5258940905332565,
	"epoch": 1.6853932584269664,
	"grad_norm": 0.032200053334236145,
	"learning_rate": 0.0002,
	"loss": 0.5228010416030884,
	"mean_token_accuracy": 0.7870291918516159,
	"num_tokens": 7337145.0,
	"step": 450
	},
	{
	"entropy": 0.545346587896347,
	"epoch": 1.6891385767790261,
	"grad_norm": 0.037810057401657104,
	"learning_rate": 0.0002,
	"loss": 0.5497158765792847,
	"mean_token_accuracy": 0.7733957171440125,
	"num_tokens": 7353380.0,
	"step": 451
	},
	{
	"entropy": 0.5455152243375778,
	"epoch": 1.6928838951310863,
	"grad_norm": 0.036783650517463684,
	"learning_rate": 0.0002,
	"loss": 0.547383725643158,
	"mean_token_accuracy": 0.7792070508003235,
	"num_tokens": 7369718.0,
	"step": 452
	},
	{
	"entropy": 0.5610679686069489,
	"epoch": 1.696629213483146,
	"grad_norm": 0.032883401960134506,
	"learning_rate": 0.0002,
	"loss": 0.5691272616386414,
	"mean_token_accuracy": 0.7677329927682877,
	"num_tokens": 7385896.0,
	"step": 453
	},
	{
	"entropy": 0.5505604892969131,
	"epoch": 1.7003745318352061,
	"grad_norm": 0.03284638375043869,
	"learning_rate": 0.0002,
	"loss": 0.5511571168899536,
	"mean_token_accuracy": 0.7760978639125824,
	"num_tokens": 7402228.0,
	"step": 454
	},
	{
	"entropy": 0.5650221109390259,
	"epoch": 1.7041198501872659,
	"grad_norm": 0.02887006103992462,
	"learning_rate": 0.0002,
	"loss": 0.5633357763290405,
	"mean_token_accuracy": 0.7709190398454666,
	"num_tokens": 7418506.0,
	"step": 455
	},
	{
	"entropy": 0.5511359125375748,
	"epoch": 1.7078651685393258,
	"grad_norm": 0.02897547371685505,
	"learning_rate": 0.0002,
	"loss": 0.5476655960083008,
	"mean_token_accuracy": 0.7766725867986679,
	"num_tokens": 7434993.0,
	"step": 456
	},
	{
	"entropy": 0.5589297413825989,
	"epoch": 1.7116104868913857,
	"grad_norm": 0.03913537412881851,
	"learning_rate": 0.0002,
	"loss": 0.562713623046875,
	"mean_token_accuracy": 0.7716452181339264,
	"num_tokens": 7451420.0,
	"step": 457
	},
	{
	"entropy": 0.5587479770183563,
	"epoch": 1.7153558052434457,
	"grad_norm": 0.0281817764043808,
	"learning_rate": 0.0002,
	"loss": 0.5552535057067871,
	"mean_token_accuracy": 0.7717525810003281,
	"num_tokens": 7467745.0,
	"step": 458
	},
	{
	"entropy": 0.5426507443189621,
	"epoch": 1.7191011235955056,
	"grad_norm": 0.03837720304727554,
	"learning_rate": 0.0002,
	"loss": 0.5466030836105347,
	"mean_token_accuracy": 0.7787178158760071,
	"num_tokens": 7484044.0,
	"step": 459
	},
	{
	"entropy": 0.548772931098938,
	"epoch": 1.7228464419475655,
	"grad_norm": 0.034067291766405106,
	"learning_rate": 0.0002,
	"loss": 0.5531357526779175,
	"mean_token_accuracy": 0.7748309075832367,
	"num_tokens": 7500332.0,
	"step": 460
	},
	{
	"entropy": 0.5564078390598297,
	"epoch": 1.7265917602996255,
	"grad_norm": 0.03204013407230377,
	"learning_rate": 0.0002,
	"loss": 0.5560243725776672,
	"mean_token_accuracy": 0.7740551978349686,
	"num_tokens": 7516660.0,
	"step": 461
	},
	{
	"entropy": 0.5405488759279251,
	"epoch": 1.7303370786516854,
	"grad_norm": 0.030630316585302353,
	"learning_rate": 0.0002,
	"loss": 0.5395958423614502,
	"mean_token_accuracy": 0.7782745659351349,
	"num_tokens": 7532934.0,
	"step": 462
	},
	{
	"entropy": 0.5496814846992493,
	"epoch": 1.7340823970037453,
	"grad_norm": 0.03725660592317581,
	"learning_rate": 0.0002,
	"loss": 0.5496969223022461,
	"mean_token_accuracy": 0.7755606472492218,
	"num_tokens": 7549291.0,
	"step": 463
	},
	{
	"entropy": 0.5522442013025284,
	"epoch": 1.7378277153558053,
	"grad_norm": 0.039360832422971725,
	"learning_rate": 0.0002,
	"loss": 0.5475296378135681,
	"mean_token_accuracy": 0.7740370631217957,
	"num_tokens": 7565370.0,
	"step": 464
	},
	{
	"entropy": 0.5205198004841805,
	"epoch": 1.7415730337078652,
	"grad_norm": 0.029320131987333298,
	"learning_rate": 0.0002,
	"loss": 0.5181597471237183,
	"mean_token_accuracy": 0.789748415350914,
	"num_tokens": 7581731.0,
	"step": 465
	},
	{
	"entropy": 0.5322981476783752,
	"epoch": 1.7453183520599251,
	"grad_norm": 0.03633226826786995,
	"learning_rate": 0.0002,
	"loss": 0.5413781404495239,
	"mean_token_accuracy": 0.7808037847280502,
	"num_tokens": 7597822.0,
	"step": 466
	},
	{
	"entropy": 0.524602085351944,
	"epoch": 1.749063670411985,
	"grad_norm": 0.04402731731534004,
	"learning_rate": 0.0002,
	"loss": 0.532406210899353,
	"mean_token_accuracy": 0.7855067849159241,
	"num_tokens": 7613933.0,
	"step": 467
	},
	{
	"entropy": 0.5708600282669067,
	"epoch": 1.7528089887640448,
	"grad_norm": 0.0357418954372406,
	"learning_rate": 0.0002,
	"loss": 0.5712512731552124,
	"mean_token_accuracy": 0.7683784365653992,
	"num_tokens": 7630331.0,
	"step": 468
	},
	{
	"entropy": 0.5579233318567276,
	"epoch": 1.756554307116105,
	"grad_norm": 0.15994992852210999,
	"learning_rate": 0.0002,
	"loss": 0.5615707635879517,
	"mean_token_accuracy": 0.7749305069446564,
	"num_tokens": 7646666.0,
	"step": 469
	},
	{
	"entropy": 0.5672501176595688,
	"epoch": 1.7602996254681647,
	"grad_norm": 0.18223144114017487,
	"learning_rate": 0.0002,
	"loss": 0.5922040939331055,
	"mean_token_accuracy": 0.767003208398819,
	"num_tokens": 7663024.0,
	"step": 470
	},
	{
	"entropy": 0.5853898674249649,
	"epoch": 1.7640449438202248,
	"grad_norm": 0.19322983920574188,
	"learning_rate": 0.0002,
	"loss": 0.5716003179550171,
	"mean_token_accuracy": 0.7706755697727203,
	"num_tokens": 7679445.0,
	"step": 471
	},
	{
	"entropy": 0.5652599781751633,
	"epoch": 1.7677902621722845,
	"grad_norm": 0.040028076618909836,
	"learning_rate": 0.0002,
	"loss": 0.5545145869255066,
	"mean_token_accuracy": 0.7762533873319626,
	"num_tokens": 7695863.0,
	"step": 472
	},
	{
	"entropy": 0.5655337423086166,
	"epoch": 1.7715355805243447,
	"grad_norm": 0.03808818385004997,
	"learning_rate": 0.0002,
	"loss": 0.5697377324104309,
	"mean_token_accuracy": 0.7698807120323181,
	"num_tokens": 7712117.0,
	"step": 473
	},
	{
	"entropy": 0.531586229801178,
	"epoch": 1.7752808988764044,
	"grad_norm": 0.03700399026274681,
	"learning_rate": 0.0002,
	"loss": 0.5407450199127197,
	"mean_token_accuracy": 0.7823738306760788,
	"num_tokens": 7728324.0,
	"step": 474
	},
	{
	"entropy": 0.5400687605142593,
	"epoch": 1.7790262172284645,
	"grad_norm": 0.04493065923452377,
	"learning_rate": 0.0002,
	"loss": 0.5463284254074097,
	"mean_token_accuracy": 0.778341680765152,
	"num_tokens": 7744642.0,
	"step": 475
	},
	{
	"entropy": 0.5348718762397766,
	"epoch": 1.7827715355805243,
	"grad_norm": 0.032796818763017654,
	"learning_rate": 0.0002,
	"loss": 0.53885817527771,
	"mean_token_accuracy": 0.7798904478549957,
	"num_tokens": 7761144.0,
	"step": 476
	},
	{
	"entropy": 0.5612788051366806,
	"epoch": 1.7865168539325844,
	"grad_norm": 0.03454861417412758,
	"learning_rate": 0.0002,
	"loss": 0.5585771799087524,
	"mean_token_accuracy": 0.7730214893817902,
	"num_tokens": 7777603.0,
	"step": 477
	},
	{
	"entropy": 0.5655092746019363,
	"epoch": 1.7902621722846441,
	"grad_norm": 0.04326882213354111,
	"learning_rate": 0.0002,
	"loss": 0.5594231486320496,
	"mean_token_accuracy": 0.7714511156082153,
	"num_tokens": 7794017.0,
	"step": 478
	},
	{
	"entropy": 0.5740013867616653,
	"epoch": 1.7940074906367043,
	"grad_norm": 0.03586514666676521,
	"learning_rate": 0.0002,
	"loss": 0.5665684342384338,
	"mean_token_accuracy": 0.7693835347890854,
	"num_tokens": 7810410.0,
	"step": 479
	},
	{
	"entropy": 0.5689022541046143,
	"epoch": 1.797752808988764,
	"grad_norm": 0.03453454375267029,
	"learning_rate": 0.0002,
	"loss": 0.5640177130699158,
	"mean_token_accuracy": 0.7688567489385605,
	"num_tokens": 7826878.0,
	"step": 480
	},
	{
	"entropy": 0.5344455689191818,
	"epoch": 1.801498127340824,
	"grad_norm": 0.04154738038778305,
	"learning_rate": 0.0002,
	"loss": 0.5412873029708862,
	"mean_token_accuracy": 0.7843961417675018,
	"num_tokens": 7842957.0,
	"step": 481
	},
	{
	"entropy": 0.5326808393001556,
	"epoch": 1.8052434456928839,
	"grad_norm": 0.03772249072790146,
	"learning_rate": 0.0002,
	"loss": 0.5458777546882629,
	"mean_token_accuracy": 0.7775137424468994,
	"num_tokens": 7859243.0,
	"step": 482
	},
	{
	"entropy": 0.552602618932724,
	"epoch": 1.8089887640449438,
	"grad_norm": 0.03419940546154976,
	"learning_rate": 0.0002,
	"loss": 0.5563470721244812,
	"mean_token_accuracy": 0.7756804972887039,
	"num_tokens": 7875641.0,
	"step": 483
	},
	{
	"entropy": 0.5412130802869797,
	"epoch": 1.8127340823970037,
	"grad_norm": 0.033059973269701004,
	"learning_rate": 0.0002,
	"loss": 0.540538489818573,
	"mean_token_accuracy": 0.782319188117981,
	"num_tokens": 7891954.0,
	"step": 484
	},
	{
	"entropy": 0.5559896975755692,
	"epoch": 1.8164794007490637,
	"grad_norm": 0.03472665324807167,
	"learning_rate": 0.0002,
	"loss": 0.5544817447662354,
	"mean_token_accuracy": 0.7753840684890747,
	"num_tokens": 7908283.0,
	"step": 485
	},
	{
	"entropy": 0.5695093274116516,
	"epoch": 1.8202247191011236,
	"grad_norm": 0.0319642499089241,
	"learning_rate": 0.0002,
	"loss": 0.5608171224594116,
	"mean_token_accuracy": 0.7743540853261948,
	"num_tokens": 7924627.0,
	"step": 486
	},
	{
	"entropy": 0.5412854105234146,
	"epoch": 1.8239700374531835,
	"grad_norm": 0.032578784972429276,
	"learning_rate": 0.0002,
	"loss": 0.5386444330215454,
	"mean_token_accuracy": 0.7795344591140747,
	"num_tokens": 7940814.0,
	"step": 487
	},
	{
	"entropy": 0.5442286729812622,
	"epoch": 1.8277153558052435,
	"grad_norm": 0.03279658779501915,
	"learning_rate": 0.0002,
	"loss": 0.553512454032898,
	"mean_token_accuracy": 0.7744518220424652,
	"num_tokens": 7957133.0,
	"step": 488
	},
	{
	"entropy": 0.544167771935463,
	"epoch": 1.8314606741573034,
	"grad_norm": 0.034980904310941696,
	"learning_rate": 0.0002,
	"loss": 0.5495878458023071,
	"mean_token_accuracy": 0.7794477045536041,
	"num_tokens": 7973367.0,
	"step": 489
	},
	{
	"entropy": 0.5514913648366928,
	"epoch": 1.8352059925093633,
	"grad_norm": 0.0437743179500103,
	"learning_rate": 0.0002,
	"loss": 0.5581385493278503,
	"mean_token_accuracy": 0.7734484821557999,
	"num_tokens": 7989443.0,
	"step": 490
	},
	{
	"entropy": 0.5721138119697571,
	"epoch": 1.8389513108614233,
	"grad_norm": 0.032419200986623764,
	"learning_rate": 0.0002,
	"loss": 0.5644645094871521,
	"mean_token_accuracy": 0.7717173397541046,
	"num_tokens": 8005817.0,
	"step": 491
	},
	{
	"entropy": 0.5577604025602341,
	"epoch": 1.8426966292134832,
	"grad_norm": 0.04115711897611618,
	"learning_rate": 0.0002,
	"loss": 0.5619987845420837,
	"mean_token_accuracy": 0.77156862616539,
	"num_tokens": 8022160.0,
	"step": 492
	},
	{
	"entropy": 0.5528861582279205,
	"epoch": 1.846441947565543,
	"grad_norm": 0.029432786628603935,
	"learning_rate": 0.0002,
	"loss": 0.5476526618003845,
	"mean_token_accuracy": 0.7781069427728653,
	"num_tokens": 8038591.0,
	"step": 493
	},
	{
	"entropy": 0.5558982342481613,
	"epoch": 1.850187265917603,
	"grad_norm": 0.036472100764513016,
	"learning_rate": 0.0002,
	"loss": 0.5545116662979126,
	"mean_token_accuracy": 0.776875764131546,
	"num_tokens": 8054879.0,
	"step": 494
	},
	{
	"entropy": 0.5589891523122787,
	"epoch": 1.8539325842696628,
	"grad_norm": 0.02796117588877678,
	"learning_rate": 0.0002,
	"loss": 0.5532379746437073,
	"mean_token_accuracy": 0.7751499116420746,
	"num_tokens": 8071227.0,
	"step": 495
	},
	{
	"entropy": 0.5462375283241272,
	"epoch": 1.857677902621723,
	"grad_norm": 0.0307608712464571,
	"learning_rate": 0.0002,
	"loss": 0.5444692373275757,
	"mean_token_accuracy": 0.7788323760032654,
	"num_tokens": 8087424.0,
	"step": 496
	},
	{
	"entropy": 0.562559187412262,
	"epoch": 1.8614232209737827,
	"grad_norm": 0.03130098804831505,
	"learning_rate": 0.0002,
	"loss": 0.5660312175750732,
	"mean_token_accuracy": 0.7673315852880478,
	"num_tokens": 8104163.0,
	"step": 497
	},
	{
	"entropy": 0.5469489693641663,
	"epoch": 1.8651685393258428,
	"grad_norm": 0.031797025352716446,
	"learning_rate": 0.0002,
	"loss": 0.5592264533042908,
	"mean_token_accuracy": 0.7764750421047211,
	"num_tokens": 8120483.0,
	"step": 498
	},
	{
	"entropy": 0.5529169142246246,
	"epoch": 1.8689138576779025,
	"grad_norm": 0.0395452156662941,
	"learning_rate": 0.0002,
	"loss": 0.5562450885772705,
	"mean_token_accuracy": 0.7762233167886734,
	"num_tokens": 8136774.0,
	"step": 499
	},
	{
	"entropy": 0.5619923919439316,
	"epoch": 1.8726591760299627,
	"grad_norm": 0.03070960007607937,
	"learning_rate": 0.0002,
	"loss": 0.5671469569206238,
	"mean_token_accuracy": 0.7695633620023727,
	"num_tokens": 8152950.0,
	"step": 500
	},
	{
	"entropy": 0.571450412273407,
	"epoch": 1.8764044943820224,
	"grad_norm": 0.03263135999441147,
	"learning_rate": 0.0002,
	"loss": 0.5684110522270203,
	"mean_token_accuracy": 0.7683538943529129,
	"num_tokens": 8169231.0,
	"step": 501
	},
	{
	"entropy": 0.5732105523347855,
	"epoch": 1.8801498127340825,
	"grad_norm": 0.04209841415286064,
	"learning_rate": 0.0002,
	"loss": 0.571649968624115,
	"mean_token_accuracy": 0.7642921954393387,
	"num_tokens": 8185562.0,
	"step": 502
	},
	{
	"entropy": 0.5685284435749054,
	"epoch": 1.8838951310861423,
	"grad_norm": 0.03377389535307884,
	"learning_rate": 0.0002,
	"loss": 0.56586092710495,
	"mean_token_accuracy": 0.7697953432798386,
	"num_tokens": 8201808.0,
	"step": 503
	},
	{
	"entropy": 0.5590908825397491,
	"epoch": 1.8876404494382022,
	"grad_norm": 0.0385461188852787,
	"learning_rate": 0.0002,
	"loss": 0.5578455924987793,
	"mean_token_accuracy": 0.7730644196271896,
	"num_tokens": 8217945.0,
	"step": 504
	},
	{
	"entropy": 0.5606498569250107,
	"epoch": 1.8913857677902621,
	"grad_norm": 0.03381400555372238,
	"learning_rate": 0.0002,
	"loss": 0.5585749745368958,
	"mean_token_accuracy": 0.7752718329429626,
	"num_tokens": 8234181.0,
	"step": 505
	},
	{
	"entropy": 0.5511593520641327,
	"epoch": 1.895131086142322,
	"grad_norm": 0.04427889734506607,
	"learning_rate": 0.0002,
	"loss": 0.5605770349502563,
	"mean_token_accuracy": 0.7708971202373505,
	"num_tokens": 8250412.0,
	"step": 506
	},
	{
	"entropy": 0.5558828562498093,
	"epoch": 1.898876404494382,
	"grad_norm": 0.032851386815309525,
	"learning_rate": 0.0002,
	"loss": 0.5588455200195312,
	"mean_token_accuracy": 0.7729152590036392,
	"num_tokens": 8266940.0,
	"step": 507
	},
	{
	"entropy": 0.5533877611160278,
	"epoch": 1.902621722846442,
	"grad_norm": 0.034889817237854004,
	"learning_rate": 0.0002,
	"loss": 0.5531287789344788,
	"mean_token_accuracy": 0.7766410559415817,
	"num_tokens": 8283192.0,
	"step": 508
	},
	{
	"entropy": 0.55963134765625,
	"epoch": 1.9063670411985019,
	"grad_norm": 0.03460029140114784,
	"learning_rate": 0.0002,
	"loss": 0.5557897686958313,
	"mean_token_accuracy": 0.7736343890428543,
	"num_tokens": 8299357.0,
	"step": 509
	},
	{
	"entropy": 0.5412601754069328,
	"epoch": 1.9101123595505618,
	"grad_norm": 0.032328344881534576,
	"learning_rate": 0.0002,
	"loss": 0.5438541173934937,
	"mean_token_accuracy": 0.7753017991781235,
	"num_tokens": 8315841.0,
	"step": 510
	},
	{
	"entropy": 0.5540103167295456,
	"epoch": 1.9138576779026217,
	"grad_norm": 0.03002399578690529,
	"learning_rate": 0.0002,
	"loss": 0.5542548894882202,
	"mean_token_accuracy": 0.7737881243228912,
	"num_tokens": 8332181.0,
	"step": 511
	},
	{
	"entropy": 0.5422029197216034,
	"epoch": 1.9176029962546817,
	"grad_norm": 0.034409623593091965,
	"learning_rate": 0.0002,
	"loss": 0.5453910231590271,
	"mean_token_accuracy": 0.7794903218746185,
	"num_tokens": 8348319.0,
	"step": 512
	},
	{
	"entropy": 0.5566486120223999,
	"epoch": 1.9213483146067416,
	"grad_norm": 0.030252845957875252,
	"learning_rate": 0.0002,
	"loss": 0.5601068735122681,
	"mean_token_accuracy": 0.7728803753852844,
	"num_tokens": 8364457.0,
	"step": 513
	},
	{
	"entropy": 0.5523079186677933,
	"epoch": 1.9250936329588015,
	"grad_norm": 0.02711205929517746,
	"learning_rate": 0.0002,
	"loss": 0.5482505559921265,
	"mean_token_accuracy": 0.7751948684453964,
	"num_tokens": 8380923.0,
	"step": 514
	},
	{
	"entropy": 0.5604666918516159,
	"epoch": 1.9288389513108615,
	"grad_norm": 0.032180819660425186,
	"learning_rate": 0.0002,
	"loss": 0.5568802356719971,
	"mean_token_accuracy": 0.7695084065198898,
	"num_tokens": 8397239.0,
	"step": 515
	},
	{
	"entropy": 0.5643311589956284,
	"epoch": 1.9325842696629212,
	"grad_norm": 0.03032456897199154,
	"learning_rate": 0.0002,
	"loss": 0.5628493428230286,
	"mean_token_accuracy": 0.7717900723218918,
	"num_tokens": 8413791.0,
	"step": 516
	},
	{
	"entropy": 0.5468644499778748,
	"epoch": 1.9363295880149813,
	"grad_norm": 0.03036642260849476,
	"learning_rate": 0.0002,
	"loss": 0.5469942688941956,
	"mean_token_accuracy": 0.7763982564210892,
	"num_tokens": 8429973.0,
	"step": 517
	},
	{
	"entropy": 0.5639230608940125,
	"epoch": 1.940074906367041,
	"grad_norm": 0.03586732968688011,
	"learning_rate": 0.0002,
	"loss": 0.5693802237510681,
	"mean_token_accuracy": 0.7674274742603302,
	"num_tokens": 8446632.0,
	"step": 518
	},
	{
	"entropy": 0.552105188369751,
	"epoch": 1.9438202247191012,
	"grad_norm": 0.028923669829964638,
	"learning_rate": 0.0002,
	"loss": 0.5536226630210876,
	"mean_token_accuracy": 0.7770767658948898,
	"num_tokens": 8462861.0,
	"step": 519
	},
	{
	"entropy": 0.546203225851059,
	"epoch": 1.947565543071161,
	"grad_norm": 0.03517064452171326,
	"learning_rate": 0.0002,
	"loss": 0.5486375689506531,
	"mean_token_accuracy": 0.7788794338703156,
	"num_tokens": 8479188.0,
	"step": 520
	},
	{
	"entropy": 0.5571713298559189,
	"epoch": 1.951310861423221,
	"grad_norm": 0.03267424926161766,
	"learning_rate": 0.0002,
	"loss": 0.5605846047401428,
	"mean_token_accuracy": 0.7741213738918304,
	"num_tokens": 8495441.0,
	"step": 521
	},
	{
	"entropy": 0.5428985059261322,
	"epoch": 1.9550561797752808,
	"grad_norm": 0.03182944655418396,
	"learning_rate": 0.0002,
	"loss": 0.5459189414978027,
	"mean_token_accuracy": 0.7793070673942566,
	"num_tokens": 8511788.0,
	"step": 522
	},
	{
	"entropy": 0.5454448312520981,
	"epoch": 1.958801498127341,
	"grad_norm": 0.033397775143384933,
	"learning_rate": 0.0002,
	"loss": 0.5454107522964478,
	"mean_token_accuracy": 0.7772410660982132,
	"num_tokens": 8528152.0,
	"step": 523
	},
	{
	"entropy": 0.5469843745231628,
	"epoch": 1.9625468164794007,
	"grad_norm": 0.030805334448814392,
	"learning_rate": 0.0002,
	"loss": 0.5417147874832153,
	"mean_token_accuracy": 0.7786692380905151,
	"num_tokens": 8544780.0,
	"step": 524
	},
	{
	"entropy": 0.5402656495571136,
	"epoch": 1.9662921348314608,
	"grad_norm": 0.030130336061120033,
	"learning_rate": 0.0002,
	"loss": 0.5425636768341064,
	"mean_token_accuracy": 0.7805010080337524,
	"num_tokens": 8561035.0,
	"step": 525
	},
	{
	"entropy": 0.5509428530931473,
	"epoch": 1.9700374531835205,
	"grad_norm": 0.0316033698618412,
	"learning_rate": 0.0002,
	"loss": 0.5516440272331238,
	"mean_token_accuracy": 0.775515004992485,
	"num_tokens": 8577541.0,
	"step": 526
	},
	{
	"entropy": 0.5449865013360977,
	"epoch": 1.9737827715355807,
	"grad_norm": 0.03625763952732086,
	"learning_rate": 0.0002,
	"loss": 0.5528845191001892,
	"mean_token_accuracy": 0.7754436731338501,
	"num_tokens": 8593925.0,
	"step": 527
	},
	{
	"entropy": 0.563062384724617,
	"epoch": 1.9775280898876404,
	"grad_norm": 0.029838701710104942,
	"learning_rate": 0.0002,
	"loss": 0.5591800808906555,
	"mean_token_accuracy": 0.7732478529214859,
	"num_tokens": 8610524.0,
	"step": 528
	},
	{
	"entropy": 0.5514681190252304,
	"epoch": 1.9812734082397003,
	"grad_norm": 0.03368176147341728,
	"learning_rate": 0.0002,
	"loss": 0.548831582069397,
	"mean_token_accuracy": 0.7749605923891068,
	"num_tokens": 8626872.0,
	"step": 529
	},
	{
	"entropy": 0.5520317405462265,
	"epoch": 1.9850187265917603,
	"grad_norm": 0.03429826721549034,
	"learning_rate": 0.0002,
	"loss": 0.5514442324638367,
	"mean_token_accuracy": 0.7730523347854614,
	"num_tokens": 8642960.0,
	"step": 530
	},
	{
	"entropy": 0.5669658333063126,
	"epoch": 1.9887640449438202,
	"grad_norm": 0.0307292602956295,
	"learning_rate": 0.0002,
	"loss": 0.5723692178726196,
	"mean_token_accuracy": 0.7651190161705017,
	"num_tokens": 8659084.0,
	"step": 531
	},
	{
	"entropy": 0.5609945952892303,
	"epoch": 1.9925093632958801,
	"grad_norm": 0.036607109010219574,
	"learning_rate": 0.0002,
	"loss": 0.5636897683143616,
	"mean_token_accuracy": 0.7701397836208344,
	"num_tokens": 8675587.0,
	"step": 532
	},
	{
	"entropy": 0.5549340695142746,
	"epoch": 1.99625468164794,
	"grad_norm": 0.03215758502483368,
	"learning_rate": 0.0002,
	"loss": 0.5516895651817322,
	"mean_token_accuracy": 0.7737619578838348,
	"num_tokens": 8691850.0,
	"step": 533
	},
	{
	"entropy": 0.5620461255311966,
	"epoch": 2.0,
	"grad_norm": 0.028028611093759537,
	"learning_rate": 0.0002,
	"loss": 0.5578765869140625,
	"mean_token_accuracy": 0.7716735005378723,
	"num_tokens": 8708236.0,
	"step": 534
	},
	{
	"entropy": 0.557419016957283,
	"epoch": 2.0037453183520597,
	"grad_norm": 0.03629058599472046,
	"learning_rate": 0.0002,
	"loss": 0.5479042530059814,
	"mean_token_accuracy": 0.7768302410840988,
	"num_tokens": 8724656.0,
	"step": 535
	},
	{
	"entropy": 0.5507587045431137,
	"epoch": 2.00749063670412,
	"grad_norm": 0.032850366085767746,
	"learning_rate": 0.0002,
	"loss": 0.5528382062911987,
	"mean_token_accuracy": 0.7756710648536682,
	"num_tokens": 8741046.0,
	"step": 536
	},
	{
	"entropy": 0.5404622703790665,
	"epoch": 2.0112359550561796,
	"grad_norm": 0.031562913209199905,
	"learning_rate": 0.0002,
	"loss": 0.5380600094795227,
	"mean_token_accuracy": 0.7781912684440613,
	"num_tokens": 8757535.0,
	"step": 537
	},
	{
	"entropy": 0.5316804945468903,
	"epoch": 2.0149812734082397,
	"grad_norm": 0.03351443260908127,
	"learning_rate": 0.0002,
	"loss": 0.5359355807304382,
	"mean_token_accuracy": 0.7827723175287247,
	"num_tokens": 8773824.0,
	"step": 538
	},
	{
	"entropy": 0.5419723987579346,
	"epoch": 2.0187265917602994,
	"grad_norm": 0.03948935121297836,
	"learning_rate": 0.0002,
	"loss": 0.5471257567405701,
	"mean_token_accuracy": 0.7790137678384781,
	"num_tokens": 8790095.0,
	"step": 539
	},
	{
	"entropy": 0.5343683362007141,
	"epoch": 2.0224719101123596,
	"grad_norm": 0.031161192804574966,
	"learning_rate": 0.0002,
	"loss": 0.5309802889823914,
	"mean_token_accuracy": 0.7821521759033203,
	"num_tokens": 8806510.0,
	"step": 540
	},
	{
	"entropy": 0.5364920198917389,
	"epoch": 2.0262172284644193,
	"grad_norm": 0.03507857769727707,
	"learning_rate": 0.0002,
	"loss": 0.5324068069458008,
	"mean_token_accuracy": 0.7870013862848282,
	"num_tokens": 8822654.0,
	"step": 541
	},
	{
	"entropy": 0.5483170747756958,
	"epoch": 2.0299625468164795,
	"grad_norm": 0.03222345933318138,
	"learning_rate": 0.0002,
	"loss": 0.549699068069458,
	"mean_token_accuracy": 0.7751237750053406,
	"num_tokens": 8839285.0,
	"step": 542
	},
	{
	"entropy": 0.5425759255886078,
	"epoch": 2.033707865168539,
	"grad_norm": 0.03227977082133293,
	"learning_rate": 0.0002,
	"loss": 0.5380892753601074,
	"mean_token_accuracy": 0.7839174568653107,
	"num_tokens": 8855507.0,
	"step": 543
	},
	{
	"entropy": 0.5272768065333366,
	"epoch": 2.0374531835205993,
	"grad_norm": 0.03487760201096535,
	"learning_rate": 0.0002,
	"loss": 0.5265735387802124,
	"mean_token_accuracy": 0.7857347279787064,
	"num_tokens": 8871873.0,
	"step": 544
	},
	{
	"entropy": 0.5219558328390121,
	"epoch": 2.041198501872659,
	"grad_norm": 0.035983484238386154,
	"learning_rate": 0.0002,
	"loss": 0.5337969660758972,
	"mean_token_accuracy": 0.7834839969873428,
	"num_tokens": 8887984.0,
	"step": 545
	},
	{
	"entropy": 0.5376651287078857,
	"epoch": 2.044943820224719,
	"grad_norm": 0.038352932780981064,
	"learning_rate": 0.0002,
	"loss": 0.5438427329063416,
	"mean_token_accuracy": 0.7784269452095032,
	"num_tokens": 8904216.0,
	"step": 546
	},
	{
	"entropy": 0.5456122606992722,
	"epoch": 2.048689138576779,
	"grad_norm": 0.036168649792671204,
	"learning_rate": 0.0002,
	"loss": 0.5431267023086548,
	"mean_token_accuracy": 0.7829999178647995,
	"num_tokens": 8920617.0,
	"step": 547
	},
	{
	"entropy": 0.5304486304521561,
	"epoch": 2.052434456928839,
	"grad_norm": 0.03324899077415466,
	"learning_rate": 0.0002,
	"loss": 0.5289336442947388,
	"mean_token_accuracy": 0.7849617451429367,
	"num_tokens": 8936835.0,
	"step": 548
	},
	{
	"entropy": 0.5275251343846321,
	"epoch": 2.056179775280899,
	"grad_norm": 0.03898227587342262,
	"learning_rate": 0.0002,
	"loss": 0.530302882194519,
	"mean_token_accuracy": 0.7835600972175598,
	"num_tokens": 8953009.0,
	"step": 549
	},
	{
	"entropy": 0.5530034005641937,
	"epoch": 2.059925093632959,
	"grad_norm": 0.038006141781806946,
	"learning_rate": 0.0002,
	"loss": 0.5494067072868347,
	"mean_token_accuracy": 0.7755949050188065,
	"num_tokens": 8969428.0,
	"step": 550
	},
	{
	"entropy": 0.5418991297483444,
	"epoch": 2.0636704119850187,
	"grad_norm": 0.03261435031890869,
	"learning_rate": 0.0002,
	"loss": 0.5322299003601074,
	"mean_token_accuracy": 0.7837673723697662,
	"num_tokens": 8985844.0,
	"step": 551
	},
	{
	"entropy": 0.5309967398643494,
	"epoch": 2.067415730337079,
	"grad_norm": 0.03797997906804085,
	"learning_rate": 0.0002,
	"loss": 0.5291654467582703,
	"mean_token_accuracy": 0.7849747538566589,
	"num_tokens": 9002169.0,
	"step": 552
	},
	{
	"entropy": 0.5188492685556412,
	"epoch": 2.0711610486891385,
	"grad_norm": 0.038583919405937195,
	"learning_rate": 0.0002,
	"loss": 0.5282660722732544,
	"mean_token_accuracy": 0.7870546579360962,
	"num_tokens": 9018570.0,
	"step": 553
	},
	{
	"entropy": 0.534794494509697,
	"epoch": 2.0749063670411987,
	"grad_norm": 0.03449336439371109,
	"learning_rate": 0.0002,
	"loss": 0.5352678298950195,
	"mean_token_accuracy": 0.7845733165740967,
	"num_tokens": 9034788.0,
	"step": 554
	},
	{
	"entropy": 0.5308385342359543,
	"epoch": 2.0786516853932584,
	"grad_norm": 0.03845726326107979,
	"learning_rate": 0.0002,
	"loss": 0.5325117111206055,
	"mean_token_accuracy": 0.7835551649332047,
	"num_tokens": 9051109.0,
	"step": 555
	},
	{
	"entropy": 0.5309025943279266,
	"epoch": 2.0823970037453186,
	"grad_norm": 0.03809129074215889,
	"learning_rate": 0.0002,
	"loss": 0.5253363847732544,
	"mean_token_accuracy": 0.7868698537349701,
	"num_tokens": 9067268.0,
	"step": 556
	},
	{
	"entropy": 0.5575416088104248,
	"epoch": 2.0861423220973783,
	"grad_norm": 0.034367915242910385,
	"learning_rate": 0.0002,
	"loss": 0.5523205995559692,
	"mean_token_accuracy": 0.7749448716640472,
	"num_tokens": 9083891.0,
	"step": 557
	},
	{
	"entropy": 0.53434719145298,
	"epoch": 2.0898876404494384,
	"grad_norm": 0.03826329484581947,
	"learning_rate": 0.0002,
	"loss": 0.5409042835235596,
	"mean_token_accuracy": 0.7785179018974304,
	"num_tokens": 9100370.0,
	"step": 558
	},
	{
	"entropy": 0.5194257721304893,
	"epoch": 2.093632958801498,
	"grad_norm": 0.03882572054862976,
	"learning_rate": 0.0002,
	"loss": 0.5238875150680542,
	"mean_token_accuracy": 0.7858750522136688,
	"num_tokens": 9116506.0,
	"step": 559
	},
	{
	"entropy": 0.5331729799509048,
	"epoch": 2.097378277153558,
	"grad_norm": 0.045005545020103455,
	"learning_rate": 0.0002,
	"loss": 0.5285134315490723,
	"mean_token_accuracy": 0.7852654755115509,
	"num_tokens": 9132871.0,
	"step": 560
	},
	{
	"entropy": 0.5405212640762329,
	"epoch": 2.101123595505618,
	"grad_norm": 0.04780491814017296,
	"learning_rate": 0.0002,
	"loss": 0.5461173057556152,
	"mean_token_accuracy": 0.7770982980728149,
	"num_tokens": 9149174.0,
	"step": 561
	},
	{
	"entropy": 0.5288062691688538,
	"epoch": 2.1048689138576777,
	"grad_norm": 0.04940470680594444,
	"learning_rate": 0.0002,
	"loss": 0.5337265729904175,
	"mean_token_accuracy": 0.7846069186925888,
	"num_tokens": 9165316.0,
	"step": 562
	},
	{
	"entropy": 0.531680166721344,
	"epoch": 2.108614232209738,
	"grad_norm": 0.05061717331409454,
	"learning_rate": 0.0002,
	"loss": 0.5271866321563721,
	"mean_token_accuracy": 0.7854976505041122,
	"num_tokens": 9181482.0,
	"step": 563
	},
	{
	"entropy": 0.5314291417598724,
	"epoch": 2.1123595505617976,
	"grad_norm": 0.0397643968462944,
	"learning_rate": 0.0002,
	"loss": 0.5271567702293396,
	"mean_token_accuracy": 0.7851341366767883,
	"num_tokens": 9197662.0,
	"step": 564
	},
	{
	"entropy": 0.5252021998167038,
	"epoch": 2.1161048689138577,
	"grad_norm": 0.041956719011068344,
	"learning_rate": 0.0002,
	"loss": 0.5281031727790833,
	"mean_token_accuracy": 0.7877316772937775,
	"num_tokens": 9214001.0,
	"step": 565
	},
	{
	"entropy": 0.5378998965024948,
	"epoch": 2.1198501872659175,
	"grad_norm": 0.03963020071387291,
	"learning_rate": 0.0002,
	"loss": 0.5432679653167725,
	"mean_token_accuracy": 0.7765485197305679,
	"num_tokens": 9230298.0,
	"step": 566
	},
	{
	"entropy": 0.5449769049882889,
	"epoch": 2.1235955056179776,
	"grad_norm": 0.04862145707011223,
	"learning_rate": 0.0002,
	"loss": 0.5481102466583252,
	"mean_token_accuracy": 0.7771643400192261,
	"num_tokens": 9246648.0,
	"step": 567
	},
	{
	"entropy": 0.5432566553354263,
	"epoch": 2.1273408239700373,
	"grad_norm": 0.03826707601547241,
	"learning_rate": 0.0002,
	"loss": 0.5354676246643066,
	"mean_token_accuracy": 0.7808031290769577,
	"num_tokens": 9263059.0,
	"step": 568
	},
	{
	"entropy": 0.5395092964172363,
	"epoch": 2.1310861423220975,
	"grad_norm": 0.04806908592581749,
	"learning_rate": 0.0002,
	"loss": 0.5348396897315979,
	"mean_token_accuracy": 0.7838325351476669,
	"num_tokens": 9279690.0,
	"step": 569
	},
	{
	"entropy": 0.512074276804924,
	"epoch": 2.134831460674157,
	"grad_norm": 0.034932930022478104,
	"learning_rate": 0.0002,
	"loss": 0.5059640407562256,
	"mean_token_accuracy": 0.7954477220773697,
	"num_tokens": 9296053.0,
	"step": 570
	},
	{
	"entropy": 0.5317389219999313,
	"epoch": 2.1385767790262173,
	"grad_norm": 0.054850984364748,
	"learning_rate": 0.0002,
	"loss": 0.5419769287109375,
	"mean_token_accuracy": 0.7804836332798004,
	"num_tokens": 9312250.0,
	"step": 571
	},
	{
	"entropy": 0.523776650428772,
	"epoch": 2.142322097378277,
	"grad_norm": 0.03885575383901596,
	"learning_rate": 0.0002,
	"loss": 0.5337730050086975,
	"mean_token_accuracy": 0.7821401208639145,
	"num_tokens": 9328588.0,
	"step": 572
	},
	{
	"entropy": 0.5306317359209061,
	"epoch": 2.146067415730337,
	"grad_norm": 0.04031698405742645,
	"learning_rate": 0.0002,
	"loss": 0.5285602807998657,
	"mean_token_accuracy": 0.7860189080238342,
	"num_tokens": 9344771.0,
	"step": 573
	},
	{
	"entropy": 0.5253511220216751,
	"epoch": 2.149812734082397,
	"grad_norm": 0.03704000264406204,
	"learning_rate": 0.0002,
	"loss": 0.519854724407196,
	"mean_token_accuracy": 0.7907343953847885,
	"num_tokens": 9360913.0,
	"step": 574
	},
	{
	"entropy": 0.5498696267604828,
	"epoch": 2.153558052434457,
	"grad_norm": 0.03690071031451225,
	"learning_rate": 0.0002,
	"loss": 0.5417680144309998,
	"mean_token_accuracy": 0.7790531069040298,
	"num_tokens": 9377532.0,
	"step": 575
	},
	{
	"entropy": 0.5402537435293198,
	"epoch": 2.157303370786517,
	"grad_norm": 0.0378306582570076,
	"learning_rate": 0.0002,
	"loss": 0.541071891784668,
	"mean_token_accuracy": 0.7788532823324203,
	"num_tokens": 9393830.0,
	"step": 576
	},
	{
	"entropy": 0.5282108932733536,
	"epoch": 2.161048689138577,
	"grad_norm": 0.04091333597898483,
	"learning_rate": 0.0002,
	"loss": 0.5348851084709167,
	"mean_token_accuracy": 0.7821558713912964,
	"num_tokens": 9410274.0,
	"step": 577
	},
	{
	"entropy": 0.5303814560174942,
	"epoch": 2.1647940074906367,
	"grad_norm": 0.03591841831803322,
	"learning_rate": 0.0002,
	"loss": 0.5331617593765259,
	"mean_token_accuracy": 0.7818120270967484,
	"num_tokens": 9426511.0,
	"step": 578
	},
	{
	"entropy": 0.5272700041532516,
	"epoch": 2.168539325842697,
	"grad_norm": 0.03997735306620598,
	"learning_rate": 0.0002,
	"loss": 0.5334488153457642,
	"mean_token_accuracy": 0.7814541161060333,
	"num_tokens": 9442897.0,
	"step": 579
	},
	{
	"entropy": 0.5336402952671051,
	"epoch": 2.1722846441947565,
	"grad_norm": 0.0450415313243866,
	"learning_rate": 0.0002,
	"loss": 0.5275048017501831,
	"mean_token_accuracy": 0.7864081561565399,
	"num_tokens": 9459023.0,
	"step": 580
	},
	{
	"entropy": 0.538782149553299,
	"epoch": 2.1760299625468167,
	"grad_norm": 0.03600127249956131,
	"learning_rate": 0.0002,
	"loss": 0.5313720107078552,
	"mean_token_accuracy": 0.7847412079572678,
	"num_tokens": 9475337.0,
	"step": 581
	},
	{
	"entropy": 0.5273982435464859,
	"epoch": 2.1797752808988764,
	"grad_norm": 0.04744241386651993,
	"learning_rate": 0.0002,
	"loss": 0.5319021344184875,
	"mean_token_accuracy": 0.7850695848464966,
	"num_tokens": 9491529.0,
	"step": 582
	},
	{
	"entropy": 0.5370319783687592,
	"epoch": 2.1835205992509366,
	"grad_norm": 0.035024821758270264,
	"learning_rate": 0.0002,
	"loss": 0.5342311859130859,
	"mean_token_accuracy": 0.7830409854650497,
	"num_tokens": 9508099.0,
	"step": 583
	},
	{
	"entropy": 0.5350894033908844,
	"epoch": 2.1872659176029963,
	"grad_norm": 0.04598443582653999,
	"learning_rate": 0.0002,
	"loss": 0.5383565425872803,
	"mean_token_accuracy": 0.7810914367437363,
	"num_tokens": 9524506.0,
	"step": 584
	},
	{
	"entropy": 0.5270723178982735,
	"epoch": 2.191011235955056,
	"grad_norm": 0.03489379957318306,
	"learning_rate": 0.0002,
	"loss": 0.5261937379837036,
	"mean_token_accuracy": 0.7874008566141129,
	"num_tokens": 9540868.0,
	"step": 585
	},
	{
	"entropy": 0.5187418013811111,
	"epoch": 2.194756554307116,
	"grad_norm": 0.04006824642419815,
	"learning_rate": 0.0002,
	"loss": 0.516140341758728,
	"mean_token_accuracy": 0.7876712679862976,
	"num_tokens": 9557109.0,
	"step": 586
	},
	{
	"entropy": 0.5397524982690811,
	"epoch": 2.198501872659176,
	"grad_norm": 0.037596385926008224,
	"learning_rate": 0.0002,
	"loss": 0.5337037444114685,
	"mean_token_accuracy": 0.7848425805568695,
	"num_tokens": 9573451.0,
	"step": 587
	},
	{
	"entropy": 0.542935311794281,
	"epoch": 2.202247191011236,
	"grad_norm": 0.05163532868027687,
	"learning_rate": 0.0002,
	"loss": 0.548254668712616,
	"mean_token_accuracy": 0.7771319299936295,
	"num_tokens": 9589800.0,
	"step": 588
	},
	{
	"entropy": 0.524966299533844,
	"epoch": 2.2059925093632957,
	"grad_norm": 0.04678061604499817,
	"learning_rate": 0.0002,
	"loss": 0.537632405757904,
	"mean_token_accuracy": 0.7821167409420013,
	"num_tokens": 9606180.0,
	"step": 589
	},
	{
	"entropy": 0.5223182588815689,
	"epoch": 2.209737827715356,
	"grad_norm": 0.04918593540787697,
	"learning_rate": 0.0002,
	"loss": 0.5256946086883545,
	"mean_token_accuracy": 0.7862184792757034,
	"num_tokens": 9622319.0,
	"step": 590
	},
	{
	"entropy": 0.545245572924614,
	"epoch": 2.2134831460674156,
	"grad_norm": 0.044536106288433075,
	"learning_rate": 0.0002,
	"loss": 0.5387803316116333,
	"mean_token_accuracy": 0.7820178419351578,
	"num_tokens": 9638605.0,
	"step": 591
	},
	{
	"entropy": 0.5572000294923782,
	"epoch": 2.2172284644194757,
	"grad_norm": 0.04941220581531525,
	"learning_rate": 0.0002,
	"loss": 0.5500818490982056,
	"mean_token_accuracy": 0.7780845314264297,
	"num_tokens": 9655041.0,
	"step": 592
	},
	{
	"entropy": 0.524405911564827,
	"epoch": 2.2209737827715355,
	"grad_norm": 0.04783201217651367,
	"learning_rate": 0.0002,
	"loss": 0.5203397870063782,
	"mean_token_accuracy": 0.7880013734102249,
	"num_tokens": 9671239.0,
	"step": 593
	},
	{
	"entropy": 0.5252467542886734,
	"epoch": 2.2247191011235956,
	"grad_norm": 0.04301263764500618,
	"learning_rate": 0.0002,
	"loss": 0.5267080664634705,
	"mean_token_accuracy": 0.7888626754283905,
	"num_tokens": 9687363.0,
	"step": 594
	},
	{
	"entropy": 0.53339484333992,
	"epoch": 2.2284644194756553,
	"grad_norm": 0.05318563058972359,
	"learning_rate": 0.0002,
	"loss": 0.5481151342391968,
	"mean_token_accuracy": 0.7762688100337982,
	"num_tokens": 9703829.0,
	"step": 595
	},
	{
	"entropy": 0.5450247228145599,
	"epoch": 2.2322097378277155,
	"grad_norm": 0.03796645253896713,
	"learning_rate": 0.0002,
	"loss": 0.5463745594024658,
	"mean_token_accuracy": 0.7799876779317856,
	"num_tokens": 9720055.0,
	"step": 596
	},
	{
	"entropy": 0.5355545580387115,
	"epoch": 2.235955056179775,
	"grad_norm": 0.04619521647691727,
	"learning_rate": 0.0002,
	"loss": 0.5383350253105164,
	"mean_token_accuracy": 0.7803421318531036,
	"num_tokens": 9736065.0,
	"step": 597
	},
	{
	"entropy": 0.5393659174442291,
	"epoch": 2.2397003745318353,
	"grad_norm": 0.04189852997660637,
	"learning_rate": 0.0002,
	"loss": 0.5408390760421753,
	"mean_token_accuracy": 0.7799636572599411,
	"num_tokens": 9752285.0,
	"step": 598
	},
	{
	"entropy": 0.5505337119102478,
	"epoch": 2.243445692883895,
	"grad_norm": 0.04415363445878029,
	"learning_rate": 0.0002,
	"loss": 0.5492491722106934,
	"mean_token_accuracy": 0.7789665758609772,
	"num_tokens": 9768797.0,
	"step": 599
	},
	{
	"entropy": 0.5322769433259964,
	"epoch": 2.247191011235955,
	"grad_norm": 0.0446348674595356,
	"learning_rate": 0.0002,
	"loss": 0.5362676978111267,
	"mean_token_accuracy": 0.7827903628349304,
	"num_tokens": 9785259.0,
	"step": 600
	},
	{
	"entropy": 0.5283399671316147,
	"epoch": 2.250936329588015,
	"grad_norm": 0.04350518435239792,
	"learning_rate": 0.0002,
	"loss": 0.5263485312461853,
	"mean_token_accuracy": 0.7854094952344894,
	"num_tokens": 9801683.0,
	"step": 601
	},
	{
	"entropy": 0.5155128389596939,
	"epoch": 2.254681647940075,
	"grad_norm": 0.049416691064834595,
	"learning_rate": 0.0002,
	"loss": 0.5274794101715088,
	"mean_token_accuracy": 0.7866163551807404,
	"num_tokens": 9817897.0,
	"step": 602
	},
	{
	"entropy": 0.555690124630928,
	"epoch": 2.258426966292135,
	"grad_norm": 0.042244087904691696,
	"learning_rate": 0.0002,
	"loss": 0.5587432384490967,
	"mean_token_accuracy": 0.7742861956357956,
	"num_tokens": 9834109.0,
	"step": 603
	},
	{
	"entropy": 0.5449231714010239,
	"epoch": 2.262172284644195,
	"grad_norm": 0.04214772582054138,
	"learning_rate": 0.0002,
	"loss": 0.5424601435661316,
	"mean_token_accuracy": 0.7795074135065079,
	"num_tokens": 9850508.0,
	"step": 604
	},
	{
	"entropy": 0.551129087805748,
	"epoch": 2.2659176029962547,
	"grad_norm": 0.04242361709475517,
	"learning_rate": 0.0002,
	"loss": 0.5350391268730164,
	"mean_token_accuracy": 0.7817512005567551,
	"num_tokens": 9866973.0,
	"step": 605
	},
	{
	"entropy": 0.5557906329631805,
	"epoch": 2.2696629213483144,
	"grad_norm": 0.04337119311094284,
	"learning_rate": 0.0002,
	"loss": 0.5464892387390137,
	"mean_token_accuracy": 0.7796575874090195,
	"num_tokens": 9883567.0,
	"step": 606
	},
	{
	"entropy": 0.5241350680589676,
	"epoch": 2.2734082397003745,
	"grad_norm": 0.04597577825188637,
	"learning_rate": 0.0002,
	"loss": 0.5339911580085754,
	"mean_token_accuracy": 0.784000501036644,
	"num_tokens": 9899884.0,
	"step": 607
	},
	{
	"entropy": 0.5317652076482773,
	"epoch": 2.2771535580524347,
	"grad_norm": 0.06419555842876434,
	"learning_rate": 0.0002,
	"loss": 0.5507545471191406,
	"mean_token_accuracy": 0.7757140696048737,
	"num_tokens": 9916225.0,
	"step": 608
	},
	{
	"entropy": 0.520916298031807,
	"epoch": 2.2808988764044944,
	"grad_norm": 0.0413593053817749,
	"learning_rate": 0.0002,
	"loss": 0.5282008051872253,
	"mean_token_accuracy": 0.7836293429136276,
	"num_tokens": 9932137.0,
	"step": 609
	},
	{
	"entropy": 0.550976499915123,
	"epoch": 2.284644194756554,
	"grad_norm": 0.04407277703285217,
	"learning_rate": 0.0002,
	"loss": 0.5476412177085876,
	"mean_token_accuracy": 0.7784940898418427,
	"num_tokens": 9948364.0,
	"step": 610
	},
	{
	"entropy": 0.5534344464540482,
	"epoch": 2.2883895131086143,
	"grad_norm": 0.036215297877788544,
	"learning_rate": 0.0002,
	"loss": 0.5448459386825562,
	"mean_token_accuracy": 0.7809607535600662,
	"num_tokens": 9964781.0,
	"step": 611
	},
	{
	"entropy": 0.540510505437851,
	"epoch": 2.292134831460674,
	"grad_norm": 0.037168748676776886,
	"learning_rate": 0.0002,
	"loss": 0.5290323495864868,
	"mean_token_accuracy": 0.7844896763563156,
	"num_tokens": 9980949.0,
	"step": 612
	},
	{
	"entropy": 0.537270799279213,
	"epoch": 2.295880149812734,
	"grad_norm": 0.0456305667757988,
	"learning_rate": 0.0002,
	"loss": 0.5368558764457703,
	"mean_token_accuracy": 0.781862810254097,
	"num_tokens": 9997181.0,
	"step": 613
	},
	{
	"entropy": 0.529745414853096,
	"epoch": 2.299625468164794,
	"grad_norm": 0.04219827800989151,
	"learning_rate": 0.0002,
	"loss": 0.5287020206451416,
	"mean_token_accuracy": 0.7848487794399261,
	"num_tokens": 10013303.0,
	"step": 614
	},
	{
	"entropy": 0.5297169536352158,
	"epoch": 2.303370786516854,
	"grad_norm": 0.05070658028125763,
	"learning_rate": 0.0002,
	"loss": 0.5422332286834717,
	"mean_token_accuracy": 0.7800150513648987,
	"num_tokens": 10029569.0,
	"step": 615
	},
	{
	"entropy": 0.5271121859550476,
	"epoch": 2.3071161048689137,
	"grad_norm": 0.04743409901857376,
	"learning_rate": 0.0002,
	"loss": 0.5323826670646667,
	"mean_token_accuracy": 0.7835269123315811,
	"num_tokens": 10045920.0,
	"step": 616
	},
	{
	"entropy": 0.5429159998893738,
	"epoch": 2.310861423220974,
	"grad_norm": 0.04348791018128395,
	"learning_rate": 0.0002,
	"loss": 0.5469599962234497,
	"mean_token_accuracy": 0.777765229344368,
	"num_tokens": 10062068.0,
	"step": 617
	},
	{
	"entropy": 0.5268895328044891,
	"epoch": 2.3146067415730336,
	"grad_norm": 0.046540766954422,
	"learning_rate": 0.0002,
	"loss": 0.5318824052810669,
	"mean_token_accuracy": 0.784139409661293,
	"num_tokens": 10078035.0,
	"step": 618
	},
	{
	"entropy": 0.5406851470470428,
	"epoch": 2.3183520599250937,
	"grad_norm": 0.03879360482096672,
	"learning_rate": 0.0002,
	"loss": 0.5327763557434082,
	"mean_token_accuracy": 0.7838515788316727,
	"num_tokens": 10094069.0,
	"step": 619
	},
	{
	"entropy": 0.5550850629806519,
	"epoch": 2.3220973782771535,
	"grad_norm": 0.04021632671356201,
	"learning_rate": 0.0002,
	"loss": 0.544082760810852,
	"mean_token_accuracy": 0.7794292271137238,
	"num_tokens": 10110562.0,
	"step": 620
	},
	{
	"entropy": 0.5633902698755264,
	"epoch": 2.3258426966292136,
	"grad_norm": 0.03872428461909294,
	"learning_rate": 0.0002,
	"loss": 0.5591956973075867,
	"mean_token_accuracy": 0.7731619328260422,
	"num_tokens": 10127313.0,
	"step": 621
	},
	{
	"entropy": 0.526028499007225,
	"epoch": 2.3295880149812733,
	"grad_norm": 0.04169732704758644,
	"learning_rate": 0.0002,
	"loss": 0.5296715497970581,
	"mean_token_accuracy": 0.7846156656742096,
	"num_tokens": 10143539.0,
	"step": 622
	},
	{
	"entropy": 0.5621512830257416,
	"epoch": 2.3333333333333335,
	"grad_norm": 0.03567031770944595,
	"learning_rate": 0.0002,
	"loss": 0.5641921758651733,
	"mean_token_accuracy": 0.7724113464355469,
	"num_tokens": 10159890.0,
	"step": 623
	},
	{
	"entropy": 0.5621916353702545,
	"epoch": 2.337078651685393,
	"grad_norm": 0.044719185680150986,
	"learning_rate": 0.0002,
	"loss": 0.5658475756645203,
	"mean_token_accuracy": 0.768171489238739,
	"num_tokens": 10176303.0,
	"step": 624
	},
	{
	"entropy": 0.5397062003612518,
	"epoch": 2.3408239700374533,
	"grad_norm": 0.03938845917582512,
	"learning_rate": 0.0002,
	"loss": 0.5410289168357849,
	"mean_token_accuracy": 0.7816459834575653,
	"num_tokens": 10192725.0,
	"step": 625
	},
	{
	"entropy": 0.5308454632759094,
	"epoch": 2.344569288389513,
	"grad_norm": 0.0393369197845459,
	"learning_rate": 0.0002,
	"loss": 0.5327979326248169,
	"mean_token_accuracy": 0.7836434692144394,
	"num_tokens": 10208900.0,
	"step": 626
	},
	{
	"entropy": 0.5351555794477463,
	"epoch": 2.348314606741573,
	"grad_norm": 0.044483788311481476,
	"learning_rate": 0.0002,
	"loss": 0.537283182144165,
	"mean_token_accuracy": 0.784860372543335,
	"num_tokens": 10224853.0,
	"step": 627
	},
	{
	"entropy": 0.5380195677280426,
	"epoch": 2.352059925093633,
	"grad_norm": 0.04018259420990944,
	"learning_rate": 0.0002,
	"loss": 0.5401010513305664,
	"mean_token_accuracy": 0.7777950018644333,
	"num_tokens": 10241181.0,
	"step": 628
	},
	{
	"entropy": 0.5319711565971375,
	"epoch": 2.355805243445693,
	"grad_norm": 0.052694015204906464,
	"learning_rate": 0.0002,
	"loss": 0.5327081680297852,
	"mean_token_accuracy": 0.7857355177402496,
	"num_tokens": 10257569.0,
	"step": 629
	},
	{
	"entropy": 0.5219532996416092,
	"epoch": 2.359550561797753,
	"grad_norm": 0.0513097383081913,
	"learning_rate": 0.0002,
	"loss": 0.5344624519348145,
	"mean_token_accuracy": 0.781092032790184,
	"num_tokens": 10273502.0,
	"step": 630
	},
	{
	"entropy": 0.5303360670804977,
	"epoch": 2.3632958801498125,
	"grad_norm": 0.05031297355890274,
	"learning_rate": 0.0002,
	"loss": 0.5381285548210144,
	"mean_token_accuracy": 0.7818425595760345,
	"num_tokens": 10289765.0,
	"step": 631
	},
	{
	"entropy": 0.5247592329978943,
	"epoch": 2.3670411985018727,
	"grad_norm": 0.040263328701257706,
	"learning_rate": 0.0002,
	"loss": 0.5220550298690796,
	"mean_token_accuracy": 0.786396861076355,
	"num_tokens": 10306027.0,
	"step": 632
	},
	{
	"entropy": 0.5546284765005112,
	"epoch": 2.370786516853933,
	"grad_norm": 0.04438352584838867,
	"learning_rate": 0.0002,
	"loss": 0.5477085113525391,
	"mean_token_accuracy": 0.7770822197198868,
	"num_tokens": 10322169.0,
	"step": 633
	},
	{
	"entropy": 0.5496452152729034,
	"epoch": 2.3745318352059925,
	"grad_norm": 0.048432301729917526,
	"learning_rate": 0.0002,
	"loss": 0.5438807606697083,
	"mean_token_accuracy": 0.780827596783638,
	"num_tokens": 10338568.0,
	"step": 634
	},
	{
	"entropy": 0.5297926962375641,
	"epoch": 2.3782771535580522,
	"grad_norm": 0.03634348511695862,
	"learning_rate": 0.0002,
	"loss": 0.5239929556846619,
	"mean_token_accuracy": 0.7896489948034286,
	"num_tokens": 10354708.0,
	"step": 635
	},
	{
	"entropy": 0.5366943925619125,
	"epoch": 2.3820224719101124,
	"grad_norm": 0.051037952303886414,
	"learning_rate": 0.0002,
	"loss": 0.5460379123687744,
	"mean_token_accuracy": 0.7777325063943863,
	"num_tokens": 10371358.0,
	"step": 636
	},
	{
	"entropy": 0.5219292491674423,
	"epoch": 2.385767790262172,
	"grad_norm": 0.03863009437918663,
	"learning_rate": 0.0002,
	"loss": 0.5266265273094177,
	"mean_token_accuracy": 0.7879810929298401,
	"num_tokens": 10387500.0,
	"step": 637
	},
	{
	"entropy": 0.5288277566432953,
	"epoch": 2.3895131086142323,
	"grad_norm": 0.05099929869174957,
	"learning_rate": 0.0002,
	"loss": 0.5307456851005554,
	"mean_token_accuracy": 0.7841700166463852,
	"num_tokens": 10404042.0,
	"step": 638
	},
	{
	"entropy": 0.5441994965076447,
	"epoch": 2.393258426966292,
	"grad_norm": 0.03832423314452171,
	"learning_rate": 0.0002,
	"loss": 0.5406984090805054,
	"mean_token_accuracy": 0.7822638154029846,
	"num_tokens": 10420308.0,
	"step": 639
	},
	{
	"entropy": 0.5474298596382141,
	"epoch": 2.397003745318352,
	"grad_norm": 0.03593610227108002,
	"learning_rate": 0.0002,
	"loss": 0.5448755025863647,
	"mean_token_accuracy": 0.7769681811332703,
	"num_tokens": 10436473.0,
	"step": 640
	},
	{
	"entropy": 0.5544268637895584,
	"epoch": 2.400749063670412,
	"grad_norm": 0.05683998391032219,
	"learning_rate": 0.0002,
	"loss": 0.5575302839279175,
	"mean_token_accuracy": 0.7728745937347412,
	"num_tokens": 10453006.0,
	"step": 641
	},
	{
	"entropy": 0.5459371656179428,
	"epoch": 2.404494382022472,
	"grad_norm": 0.041604217141866684,
	"learning_rate": 0.0002,
	"loss": 0.5482038855552673,
	"mean_token_accuracy": 0.7801420837640762,
	"num_tokens": 10469281.0,
	"step": 642
	},
	{
	"entropy": 0.5380865782499313,
	"epoch": 2.4082397003745317,
	"grad_norm": 0.05113884434103966,
	"learning_rate": 0.0002,
	"loss": 0.5394017696380615,
	"mean_token_accuracy": 0.7834807485342026,
	"num_tokens": 10485666.0,
	"step": 643
	},
	{
	"entropy": 0.549991711974144,
	"epoch": 2.411985018726592,
	"grad_norm": 0.03647167235612869,
	"learning_rate": 0.0002,
	"loss": 0.553663969039917,
	"mean_token_accuracy": 0.774835467338562,
	"num_tokens": 10501890.0,
	"step": 644
	},
	{
	"entropy": 0.5480955541133881,
	"epoch": 2.4157303370786516,
	"grad_norm": 0.04493939131498337,
	"learning_rate": 0.0002,
	"loss": 0.5466475486755371,
	"mean_token_accuracy": 0.7790014296770096,
	"num_tokens": 10518311.0,
	"step": 645
	},
	{
	"entropy": 0.5469405502080917,
	"epoch": 2.4194756554307117,
	"grad_norm": 0.040811046957969666,
	"learning_rate": 0.0002,
	"loss": 0.5483651161193848,
	"mean_token_accuracy": 0.7788845151662827,
	"num_tokens": 10534519.0,
	"step": 646
	},
	{
	"entropy": 0.542740598320961,
	"epoch": 2.4232209737827715,
	"grad_norm": 0.045434851199388504,
	"learning_rate": 0.0002,
	"loss": 0.5396543741226196,
	"mean_token_accuracy": 0.7790694683790207,
	"num_tokens": 10550595.0,
	"step": 647
	},
	{
	"entropy": 0.535121500492096,
	"epoch": 2.4269662921348316,
	"grad_norm": 0.04115886241197586,
	"learning_rate": 0.0002,
	"loss": 0.5374845266342163,
	"mean_token_accuracy": 0.7803627252578735,
	"num_tokens": 10566917.0,
	"step": 648
	},
	{
	"entropy": 0.5375159233808517,
	"epoch": 2.4307116104868913,
	"grad_norm": 0.04332772269845009,
	"learning_rate": 0.0002,
	"loss": 0.5381888151168823,
	"mean_token_accuracy": 0.7793711423873901,
	"num_tokens": 10583313.0,
	"step": 649
	},
	{
	"entropy": 0.5432725697755814,
	"epoch": 2.4344569288389515,
	"grad_norm": 0.041510697454214096,
	"learning_rate": 0.0002,
	"loss": 0.5448310375213623,
	"mean_token_accuracy": 0.7758618593215942,
	"num_tokens": 10599510.0,
	"step": 650
	},
	{
	"entropy": 0.5411451011896133,
	"epoch": 2.438202247191011,
	"grad_norm": 0.04265889525413513,
	"learning_rate": 0.0002,
	"loss": 0.5466779470443726,
	"mean_token_accuracy": 0.7779202163219452,
	"num_tokens": 10615799.0,
	"step": 651
	},
	{
	"entropy": 0.535615861415863,
	"epoch": 2.4419475655430714,
	"grad_norm": 0.04081408306956291,
	"learning_rate": 0.0002,
	"loss": 0.539250373840332,
	"mean_token_accuracy": 0.7790500521659851,
	"num_tokens": 10632054.0,
	"step": 652
	},
	{
	"entropy": 0.5231917202472687,
	"epoch": 2.445692883895131,
	"grad_norm": 0.037281572818756104,
	"learning_rate": 0.0002,
	"loss": 0.5242350101470947,
	"mean_token_accuracy": 0.7875235080718994,
	"num_tokens": 10648293.0,
	"step": 653
	},
	{
	"entropy": 0.5311395078897476,
	"epoch": 2.449438202247191,
	"grad_norm": 0.04048464447259903,
	"learning_rate": 0.0002,
	"loss": 0.5264798402786255,
	"mean_token_accuracy": 0.7850567251443863,
	"num_tokens": 10664249.0,
	"step": 654
	},
	{
	"entropy": 0.5295854657888412,
	"epoch": 2.453183520599251,
	"grad_norm": 0.042382705956697464,
	"learning_rate": 0.0002,
	"loss": 0.5322737097740173,
	"mean_token_accuracy": 0.7859133034944534,
	"num_tokens": 10680711.0,
	"step": 655
	},
	{
	"entropy": 0.5250136256217957,
	"epoch": 2.4569288389513106,
	"grad_norm": 0.047354746609926224,
	"learning_rate": 0.0002,
	"loss": 0.524110734462738,
	"mean_token_accuracy": 0.7874706089496613,
	"num_tokens": 10696903.0,
	"step": 656
	},
	{
	"entropy": 0.5428455919027328,
	"epoch": 2.460674157303371,
	"grad_norm": 0.04214261844754219,
	"learning_rate": 0.0002,
	"loss": 0.5400563478469849,
	"mean_token_accuracy": 0.7825742065906525,
	"num_tokens": 10713018.0,
	"step": 657
	},
	{
	"entropy": 0.5570447146892548,
	"epoch": 2.464419475655431,
	"grad_norm": 0.04198653623461723,
	"learning_rate": 0.0002,
	"loss": 0.5468944907188416,
	"mean_token_accuracy": 0.7801797240972519,
	"num_tokens": 10729583.0,
	"step": 658
	},
	{
	"entropy": 0.5350753366947174,
	"epoch": 2.4681647940074907,
	"grad_norm": 0.03751063346862793,
	"learning_rate": 0.0002,
	"loss": 0.5351656675338745,
	"mean_token_accuracy": 0.7814910113811493,
	"num_tokens": 10746077.0,
	"step": 659
	},
	{
	"entropy": 0.5235352218151093,
	"epoch": 2.4719101123595504,
	"grad_norm": 0.040084533393383026,
	"learning_rate": 0.0002,
	"loss": 0.531356692314148,
	"mean_token_accuracy": 0.7839406430721283,
	"num_tokens": 10762311.0,
	"step": 660
	},
	{
	"entropy": 0.5389134883880615,
	"epoch": 2.4756554307116105,
	"grad_norm": 0.05371229350566864,
	"learning_rate": 0.0002,
	"loss": 0.5532786250114441,
	"mean_token_accuracy": 0.7754277139902115,
	"num_tokens": 10778652.0,
	"step": 661
	},
	{
	"entropy": 0.5187595188617706,
	"epoch": 2.4794007490636703,
	"grad_norm": 0.03975149244070053,
	"learning_rate": 0.0002,
	"loss": 0.5151571035385132,
	"mean_token_accuracy": 0.7930901050567627,
	"num_tokens": 10794746.0,
	"step": 662
	},
	{
	"entropy": 0.5426436811685562,
	"epoch": 2.4831460674157304,
	"grad_norm": 0.03997328504920006,
	"learning_rate": 0.0002,
	"loss": 0.5403225421905518,
	"mean_token_accuracy": 0.7798904031515121,
	"num_tokens": 10811033.0,
	"step": 663
	},
	{
	"entropy": 0.5267360359430313,
	"epoch": 2.48689138576779,
	"grad_norm": 0.043838318437337875,
	"learning_rate": 0.0002,
	"loss": 0.526395320892334,
	"mean_token_accuracy": 0.7879899889230728,
	"num_tokens": 10827129.0,
	"step": 664
	},
	{
	"entropy": 0.5509849190711975,
	"epoch": 2.4906367041198503,
	"grad_norm": 0.037469275295734406,
	"learning_rate": 0.0002,
	"loss": 0.5411713719367981,
	"mean_token_accuracy": 0.7808174937963486,
	"num_tokens": 10843435.0,
	"step": 665
	},
	{
	"entropy": 0.5449976474046707,
	"epoch": 2.49438202247191,
	"grad_norm": 0.05326893553137779,
	"learning_rate": 0.0002,
	"loss": 0.5467808842658997,
	"mean_token_accuracy": 0.7777620851993561,
	"num_tokens": 10859523.0,
	"step": 666
	},
	{
	"entropy": 0.5301449000835419,
	"epoch": 2.49812734082397,
	"grad_norm": 0.04426975175738335,
	"learning_rate": 0.0002,
	"loss": 0.5359491109848022,
	"mean_token_accuracy": 0.7841154336929321,
	"num_tokens": 10875805.0,
	"step": 667
	},
	{
	"entropy": 0.5325603634119034,
	"epoch": 2.50187265917603,
	"grad_norm": 0.04210103675723076,
	"learning_rate": 0.0002,
	"loss": 0.5365734100341797,
	"mean_token_accuracy": 0.782084509730339,
	"num_tokens": 10892315.0,
	"step": 668
	},
	{
	"entropy": 0.5456321388483047,
	"epoch": 2.50561797752809,
	"grad_norm": 0.03740176558494568,
	"learning_rate": 0.0002,
	"loss": 0.5444263219833374,
	"mean_token_accuracy": 0.7780910581350327,
	"num_tokens": 10908850.0,
	"step": 669
	},
	{
	"entropy": 0.5338556170463562,
	"epoch": 2.5093632958801497,
	"grad_norm": 0.04143742844462395,
	"learning_rate": 0.0002,
	"loss": 0.5300049185752869,
	"mean_token_accuracy": 0.787174180150032,
	"num_tokens": 10925106.0,
	"step": 670
	},
	{
	"entropy": 0.5515117049217224,
	"epoch": 2.51310861423221,
	"grad_norm": 0.03918025270104408,
	"learning_rate": 0.0002,
	"loss": 0.542182445526123,
	"mean_token_accuracy": 0.7806340008974075,
	"num_tokens": 10941543.0,
	"step": 671
	},
	{
	"entropy": 0.5549922436475754,
	"epoch": 2.5168539325842696,
	"grad_norm": 0.04009648784995079,
	"learning_rate": 0.0002,
	"loss": 0.5559307932853699,
	"mean_token_accuracy": 0.7725488841533661,
	"num_tokens": 10957817.0,
	"step": 672
	},
	{
	"entropy": 0.539954200387001,
	"epoch": 2.5205992509363297,
	"grad_norm": 0.04543929174542427,
	"learning_rate": 0.0002,
	"loss": 0.5482618808746338,
	"mean_token_accuracy": 0.7789554446935654,
	"num_tokens": 10974119.0,
	"step": 673
	},
	{
	"entropy": 0.5211862847208977,
	"epoch": 2.5243445692883895,
	"grad_norm": 0.0385296531021595,
	"learning_rate": 0.0002,
	"loss": 0.5304719805717468,
	"mean_token_accuracy": 0.7863713204860687,
	"num_tokens": 10990490.0,
	"step": 674
	},
	{
	"entropy": 0.5547338724136353,
	"epoch": 2.5280898876404496,
	"grad_norm": 0.047472305595874786,
	"learning_rate": 0.0002,
	"loss": 0.5596637725830078,
	"mean_token_accuracy": 0.771984726190567,
	"num_tokens": 11007150.0,
	"step": 675
	},
	{
	"entropy": 0.5423361957073212,
	"epoch": 2.5318352059925093,
	"grad_norm": 0.03454773128032684,
	"learning_rate": 0.0002,
	"loss": 0.5381237268447876,
	"mean_token_accuracy": 0.7808732390403748,
	"num_tokens": 11023385.0,
	"step": 676
	},
	{
	"entropy": 0.5561535805463791,
	"epoch": 2.535580524344569,
	"grad_norm": 0.03847538307309151,
	"learning_rate": 0.0002,
	"loss": 0.5428014993667603,
	"mean_token_accuracy": 0.7786359935998917,
	"num_tokens": 11039943.0,
	"step": 677
	},
	{
	"entropy": 0.544300451874733,
	"epoch": 2.539325842696629,
	"grad_norm": 0.04131785407662392,
	"learning_rate": 0.0002,
	"loss": 0.5334832668304443,
	"mean_token_accuracy": 0.7851458042860031,
	"num_tokens": 11056430.0,
	"step": 678
	},
	{
	"entropy": 0.5311527848243713,
	"epoch": 2.5430711610486894,
	"grad_norm": 0.03951219096779823,
	"learning_rate": 0.0002,
	"loss": 0.5389747023582458,
	"mean_token_accuracy": 0.7813056856393814,
	"num_tokens": 11072776.0,
	"step": 679
	},
	{
	"entropy": 0.5290235728025436,
	"epoch": 2.546816479400749,
	"grad_norm": 0.0438111387193203,
	"learning_rate": 0.0002,
	"loss": 0.5451354384422302,
	"mean_token_accuracy": 0.7777683436870575,
	"num_tokens": 11088991.0,
	"step": 680
	},
	{
	"entropy": 0.5291692391037941,
	"epoch": 2.550561797752809,
	"grad_norm": 0.039012420922517776,
	"learning_rate": 0.0002,
	"loss": 0.5386437773704529,
	"mean_token_accuracy": 0.7806796282529831,
	"num_tokens": 11105235.0,
	"step": 681
	},
	{
	"entropy": 0.5217102319002151,
	"epoch": 2.554307116104869,
	"grad_norm": 0.04288937896490097,
	"learning_rate": 0.0002,
	"loss": 0.5323805809020996,
	"mean_token_accuracy": 0.7835096120834351,
	"num_tokens": 11121333.0,
	"step": 682
	},
	{
	"entropy": 0.5252867043018341,
	"epoch": 2.558052434456929,
	"grad_norm": 0.0371013842523098,
	"learning_rate": 0.0002,
	"loss": 0.5191121101379395,
	"mean_token_accuracy": 0.7874591499567032,
	"num_tokens": 11137249.0,
	"step": 683
	},
	{
	"entropy": 0.5371126532554626,
	"epoch": 2.561797752808989,
	"grad_norm": 0.03830140084028244,
	"learning_rate": 0.0002,
	"loss": 0.5264033675193787,
	"mean_token_accuracy": 0.7881854623556137,
	"num_tokens": 11153699.0,
	"step": 684
	},
	{
	"entropy": 0.5386142879724503,
	"epoch": 2.5655430711610485,
	"grad_norm": 0.035421278327703476,
	"learning_rate": 0.0002,
	"loss": 0.5367159247398376,
	"mean_token_accuracy": 0.7793221473693848,
	"num_tokens": 11170196.0,
	"step": 685
	},
	{
	"entropy": 0.5483710169792175,
	"epoch": 2.5692883895131087,
	"grad_norm": 0.04288771376013756,
	"learning_rate": 0.0002,
	"loss": 0.5506448149681091,
	"mean_token_accuracy": 0.7785434424877167,
	"num_tokens": 11186770.0,
	"step": 686
	},
	{
	"entropy": 0.5472489446401596,
	"epoch": 2.5730337078651684,
	"grad_norm": 0.04111029580235481,
	"learning_rate": 0.0002,
	"loss": 0.5503485798835754,
	"mean_token_accuracy": 0.7765214443206787,
	"num_tokens": 11203191.0,
	"step": 687
	},
	{
	"entropy": 0.523987427353859,
	"epoch": 2.5767790262172285,
	"grad_norm": 0.04419523477554321,
	"learning_rate": 0.0002,
	"loss": 0.5254223942756653,
	"mean_token_accuracy": 0.7858942598104477,
	"num_tokens": 11219530.0,
	"step": 688
	},
	{
	"entropy": 0.5482724606990814,
	"epoch": 2.5805243445692883,
	"grad_norm": 0.0384112112224102,
	"learning_rate": 0.0002,
	"loss": 0.5467587113380432,
	"mean_token_accuracy": 0.7784788310527802,
	"num_tokens": 11236013.0,
	"step": 689
	},
	{
	"entropy": 0.5410710424184799,
	"epoch": 2.5842696629213484,
	"grad_norm": 0.04548390954732895,
	"learning_rate": 0.0002,
	"loss": 0.5361588001251221,
	"mean_token_accuracy": 0.7842984944581985,
	"num_tokens": 11252349.0,
	"step": 690
	},
	{
	"entropy": 0.5413189381361008,
	"epoch": 2.588014981273408,
	"grad_norm": 0.03719467297196388,
	"learning_rate": 0.0002,
	"loss": 0.5372804403305054,
	"mean_token_accuracy": 0.7805864661931992,
	"num_tokens": 11268637.0,
	"step": 691
	},
	{
	"entropy": 0.5587044954299927,
	"epoch": 2.5917602996254683,
	"grad_norm": 0.03943658620119095,
	"learning_rate": 0.0002,
	"loss": 0.556570291519165,
	"mean_token_accuracy": 0.7712628394365311,
	"num_tokens": 11284973.0,
	"step": 692
	},
	{
	"entropy": 0.5220051556825638,
	"epoch": 2.595505617977528,
	"grad_norm": 0.04577549174427986,
	"learning_rate": 0.0002,
	"loss": 0.5235053896903992,
	"mean_token_accuracy": 0.7874717712402344,
	"num_tokens": 11301234.0,
	"step": 693
	},
	{
	"entropy": 0.5253131091594696,
	"epoch": 2.599250936329588,
	"grad_norm": 0.055322322994470596,
	"learning_rate": 0.0002,
	"loss": 0.539014458656311,
	"mean_token_accuracy": 0.7832715809345245,
	"num_tokens": 11317622.0,
	"step": 694
	},
	{
	"entropy": 0.529956579208374,
	"epoch": 2.602996254681648,
	"grad_norm": 0.04555559530854225,
	"learning_rate": 0.0002,
	"loss": 0.5358556509017944,
	"mean_token_accuracy": 0.7829083502292633,
	"num_tokens": 11334260.0,
	"step": 695
	},
	{
	"entropy": 0.5464101433753967,
	"epoch": 2.606741573033708,
	"grad_norm": 0.04112941771745682,
	"learning_rate": 0.0002,
	"loss": 0.5475582480430603,
	"mean_token_accuracy": 0.780443549156189,
	"num_tokens": 11350510.0,
	"step": 696
	},
	{
	"entropy": 0.5290370956063271,
	"epoch": 2.6104868913857677,
	"grad_norm": 0.03645879402756691,
	"learning_rate": 0.0002,
	"loss": 0.5310324430465698,
	"mean_token_accuracy": 0.7870594263076782,
	"num_tokens": 11366960.0,
	"step": 697
	},
	{
	"entropy": 0.5584116280078888,
	"epoch": 2.6142322097378274,
	"grad_norm": 0.03702421113848686,
	"learning_rate": 0.0002,
	"loss": 0.5555626153945923,
	"mean_token_accuracy": 0.7766379117965698,
	"num_tokens": 11383705.0,
	"step": 698
	},
	{
	"entropy": 0.5311998277902603,
	"epoch": 2.6179775280898876,
	"grad_norm": 0.039902858436107635,
	"learning_rate": 0.0002,
	"loss": 0.5329570770263672,
	"mean_token_accuracy": 0.7843590825796127,
	"num_tokens": 11399770.0,
	"step": 699
	},
	{
	"entropy": 0.5450660437345505,
	"epoch": 2.6217228464419478,
	"grad_norm": 0.040915053337812424,
	"learning_rate": 0.0002,
	"loss": 0.5421010851860046,
	"mean_token_accuracy": 0.7778819799423218,
	"num_tokens": 11416143.0,
	"step": 700
	},
	{
	"entropy": 0.5301565080881119,
	"epoch": 2.6254681647940075,
	"grad_norm": 0.04668205976486206,
	"learning_rate": 0.0002,
	"loss": 0.542178750038147,
	"mean_token_accuracy": 0.7808790653944016,
	"num_tokens": 11432391.0,
	"step": 701
	},
	{
	"entropy": 0.5262583941221237,
	"epoch": 2.629213483146067,
	"grad_norm": 0.044074323028326035,
	"learning_rate": 0.0002,
	"loss": 0.528965413570404,
	"mean_token_accuracy": 0.7844109088182449,
	"num_tokens": 11448787.0,
	"step": 702
	},
	{
	"entropy": 0.5375534892082214,
	"epoch": 2.6329588014981273,
	"grad_norm": 0.046261075884103775,
	"learning_rate": 0.0002,
	"loss": 0.5426000952720642,
	"mean_token_accuracy": 0.7772792726755142,
	"num_tokens": 11464834.0,
	"step": 703
	},
	{
	"entropy": 0.5281456708908081,
	"epoch": 2.6367041198501875,
	"grad_norm": 0.04074921831488609,
	"learning_rate": 0.0002,
	"loss": 0.5224668979644775,
	"mean_token_accuracy": 0.7867994755506516,
	"num_tokens": 11481010.0,
	"step": 704
	},
	{
	"entropy": 0.5607274174690247,
	"epoch": 2.640449438202247,
	"grad_norm": 0.04910429194569588,
	"learning_rate": 0.0002,
	"loss": 0.5609941482543945,
	"mean_token_accuracy": 0.7746099084615707,
	"num_tokens": 11497290.0,
	"step": 705
	},
	{
	"entropy": 0.5405243337154388,
	"epoch": 2.644194756554307,
	"grad_norm": 0.042494796216487885,
	"learning_rate": 0.0002,
	"loss": 0.5373457670211792,
	"mean_token_accuracy": 0.7792738676071167,
	"num_tokens": 11513583.0,
	"step": 706
	},
	{
	"entropy": 0.5465130656957626,
	"epoch": 2.647940074906367,
	"grad_norm": 0.051266275346279144,
	"learning_rate": 0.0002,
	"loss": 0.5519081950187683,
	"mean_token_accuracy": 0.7757825553417206,
	"num_tokens": 11530012.0,
	"step": 707
	},
	{
	"entropy": 0.5431560575962067,
	"epoch": 2.6516853932584272,
	"grad_norm": 0.03533034771680832,
	"learning_rate": 0.0002,
	"loss": 0.5461572408676147,
	"mean_token_accuracy": 0.7784530967473984,
	"num_tokens": 11546456.0,
	"step": 708
	},
	{
	"entropy": 0.5154132097959518,
	"epoch": 2.655430711610487,
	"grad_norm": 0.04611873999238014,
	"learning_rate": 0.0002,
	"loss": 0.5180613398551941,
	"mean_token_accuracy": 0.7888959646224976,
	"num_tokens": 11562883.0,
	"step": 709
	},
	{
	"entropy": 0.5712718665599823,
	"epoch": 2.6591760299625467,
	"grad_norm": 0.03861664608120918,
	"learning_rate": 0.0002,
	"loss": 0.5646159052848816,
	"mean_token_accuracy": 0.7710563838481903,
	"num_tokens": 11579392.0,
	"step": 710
	},
	{
	"entropy": 0.5572114437818527,
	"epoch": 2.662921348314607,
	"grad_norm": 0.04512866213917732,
	"learning_rate": 0.0002,
	"loss": 0.551059901714325,
	"mean_token_accuracy": 0.7758464813232422,
	"num_tokens": 11595937.0,
	"step": 711
	},
	{
	"entropy": 0.5336201041936874,
	"epoch": 2.6666666666666665,
	"grad_norm": 0.042362719774246216,
	"learning_rate": 0.0002,
	"loss": 0.5347069501876831,
	"mean_token_accuracy": 0.7828791737556458,
	"num_tokens": 11612066.0,
	"step": 712
	},
	{
	"entropy": 0.5221793055534363,
	"epoch": 2.6704119850187267,
	"grad_norm": 0.04037570580840111,
	"learning_rate": 0.0002,
	"loss": 0.523446261882782,
	"mean_token_accuracy": 0.7888407558202744,
	"num_tokens": 11628437.0,
	"step": 713
	},
	{
	"entropy": 0.5422008782625198,
	"epoch": 2.6741573033707864,
	"grad_norm": 0.04662792757153511,
	"learning_rate": 0.0002,
	"loss": 0.555385947227478,
	"mean_token_accuracy": 0.7747650295495987,
	"num_tokens": 11644722.0,
	"step": 714
	},
	{
	"entropy": 0.5356374382972717,
	"epoch": 2.6779026217228465,
	"grad_norm": 0.03770140931010246,
	"learning_rate": 0.0002,
	"loss": 0.5397407412528992,
	"mean_token_accuracy": 0.77961665391922,
	"num_tokens": 11661403.0,
	"step": 715
	},
	{
	"entropy": 0.5477268397808075,
	"epoch": 2.6816479400749063,
	"grad_norm": 0.04137538745999336,
	"learning_rate": 0.0002,
	"loss": 0.5421797633171082,
	"mean_token_accuracy": 0.7774805575609207,
	"num_tokens": 11677740.0,
	"step": 716
	},
	{
	"entropy": 0.5390584021806717,
	"epoch": 2.6853932584269664,
	"grad_norm": 0.04397116228938103,
	"learning_rate": 0.0002,
	"loss": 0.5323628187179565,
	"mean_token_accuracy": 0.7813891172409058,
	"num_tokens": 11693755.0,
	"step": 717
	},
	{
	"entropy": 0.5430156886577606,
	"epoch": 2.689138576779026,
	"grad_norm": 0.03867118060588837,
	"learning_rate": 0.0002,
	"loss": 0.5338262319564819,
	"mean_token_accuracy": 0.7821642309427261,
	"num_tokens": 11710311.0,
	"step": 718
	},
	{
	"entropy": 0.5369475930929184,
	"epoch": 2.6928838951310863,
	"grad_norm": 0.03773213177919388,
	"learning_rate": 0.0002,
	"loss": 0.5436868071556091,
	"mean_token_accuracy": 0.7776243984699249,
	"num_tokens": 11726751.0,
	"step": 719
	},
	{
	"entropy": 0.5204776674509048,
	"epoch": 2.696629213483146,
	"grad_norm": 0.045796290040016174,
	"learning_rate": 0.0002,
	"loss": 0.5366164445877075,
	"mean_token_accuracy": 0.7829219549894333,
	"num_tokens": 11743104.0,
	"step": 720
	},
	{
	"entropy": 0.5444348156452179,
	"epoch": 2.700374531835206,
	"grad_norm": 0.041639544069767,
	"learning_rate": 0.0002,
	"loss": 0.5522270202636719,
	"mean_token_accuracy": 0.7758014649152756,
	"num_tokens": 11759143.0,
	"step": 721
	},
	{
	"entropy": 0.5301756113767624,
	"epoch": 2.704119850187266,
	"grad_norm": 0.04008952155709267,
	"learning_rate": 0.0002,
	"loss": 0.5239149928092957,
	"mean_token_accuracy": 0.7852831333875656,
	"num_tokens": 11775647.0,
	"step": 722
	},
	{
	"entropy": 0.5141435042023659,
	"epoch": 2.7078651685393256,
	"grad_norm": 0.03991787135601044,
	"learning_rate": 0.0002,
	"loss": 0.5066305994987488,
	"mean_token_accuracy": 0.7961233854293823,
	"num_tokens": 11791695.0,
	"step": 723
	},
	{
	"entropy": 0.5294996351003647,
	"epoch": 2.7116104868913857,
	"grad_norm": 0.03514706343412399,
	"learning_rate": 0.0002,
	"loss": 0.5277984738349915,
	"mean_token_accuracy": 0.7842394113540649,
	"num_tokens": 11807908.0,
	"step": 724
	},
	{
	"entropy": 0.553158238530159,
	"epoch": 2.715355805243446,
	"grad_norm": 0.0371016301214695,
	"learning_rate": 0.0002,
	"loss": 0.5542132258415222,
	"mean_token_accuracy": 0.7742846459150314,
	"num_tokens": 11824455.0,
	"step": 725
	},
	{
	"entropy": 0.5377026200294495,
	"epoch": 2.7191011235955056,
	"grad_norm": 0.04648866876959801,
	"learning_rate": 0.0002,
	"loss": 0.5486031770706177,
	"mean_token_accuracy": 0.7776967585086823,
	"num_tokens": 11840615.0,
	"step": 726
	},
	{
	"entropy": 0.5500117689371109,
	"epoch": 2.7228464419475653,
	"grad_norm": 0.03958411142230034,
	"learning_rate": 0.0002,
	"loss": 0.5574382543563843,
	"mean_token_accuracy": 0.7707358449697495,
	"num_tokens": 11856804.0,
	"step": 727
	},
	{
	"entropy": 0.5287734270095825,
	"epoch": 2.7265917602996255,
	"grad_norm": 0.039377059787511826,
	"learning_rate": 0.0002,
	"loss": 0.5284842848777771,
	"mean_token_accuracy": 0.7842006385326385,
	"num_tokens": 11872824.0,
	"step": 728
	},
	{
	"entropy": 0.5455043613910675,
	"epoch": 2.7303370786516856,
	"grad_norm": 0.038099173456430435,
	"learning_rate": 0.0002,
	"loss": 0.5363825559616089,
	"mean_token_accuracy": 0.7839681655168533,
	"num_tokens": 11889236.0,
	"step": 729
	},
	{
	"entropy": 0.5231508985161781,
	"epoch": 2.7340823970037453,
	"grad_norm": 0.04386546462774277,
	"learning_rate": 0.0002,
	"loss": 0.5231119394302368,
	"mean_token_accuracy": 0.7876169681549072,
	"num_tokens": 11905504.0,
	"step": 730
	},
	{
	"entropy": 0.5425267070531845,
	"epoch": 2.737827715355805,
	"grad_norm": 0.03880799189209938,
	"learning_rate": 0.0002,
	"loss": 0.5381489992141724,
	"mean_token_accuracy": 0.7835936099290848,
	"num_tokens": 11922030.0,
	"step": 731
	},
	{
	"entropy": 0.5379330962896347,
	"epoch": 2.741573033707865,
	"grad_norm": 0.04163983464241028,
	"learning_rate": 0.0002,
	"loss": 0.5459231734275818,
	"mean_token_accuracy": 0.7755035907030106,
	"num_tokens": 11938351.0,
	"step": 732
	},
	{
	"entropy": 0.5344593375921249,
	"epoch": 2.7453183520599254,
	"grad_norm": 0.03764946386218071,
	"learning_rate": 0.0002,
	"loss": 0.5335820913314819,
	"mean_token_accuracy": 0.7851902097463608,
	"num_tokens": 11954720.0,
	"step": 733
	},
	{
	"entropy": 0.5275440439581871,
	"epoch": 2.749063670411985,
	"grad_norm": 0.041039030998945236,
	"learning_rate": 0.0002,
	"loss": 0.5316729545593262,
	"mean_token_accuracy": 0.784284695982933,
	"num_tokens": 11970943.0,
	"step": 734
	},
	{
	"entropy": 0.5440046042203903,
	"epoch": 2.752808988764045,
	"grad_norm": 0.03777683153748512,
	"learning_rate": 0.0002,
	"loss": 0.5479453802108765,
	"mean_token_accuracy": 0.7796096056699753,
	"num_tokens": 11987274.0,
	"step": 735
	},
	{
	"entropy": 0.5314242094755173,
	"epoch": 2.756554307116105,
	"grad_norm": 0.04298453778028488,
	"learning_rate": 0.0002,
	"loss": 0.5360277891159058,
	"mean_token_accuracy": 0.7836730033159256,
	"num_tokens": 12003645.0,
	"step": 736
	},
	{
	"entropy": 0.5434319823980331,
	"epoch": 2.7602996254681647,
	"grad_norm": 0.038422685116529465,
	"learning_rate": 0.0002,
	"loss": 0.5429157614707947,
	"mean_token_accuracy": 0.7770098298788071,
	"num_tokens": 12020104.0,
	"step": 737
	},
	{
	"entropy": 0.5382603704929352,
	"epoch": 2.764044943820225,
	"grad_norm": 0.04176581650972366,
	"learning_rate": 0.0002,
	"loss": 0.5365764498710632,
	"mean_token_accuracy": 0.7839252799749374,
	"num_tokens": 12036423.0,
	"step": 738
	},
	{
	"entropy": 0.5331043303012848,
	"epoch": 2.7677902621722845,
	"grad_norm": 0.04350239410996437,
	"learning_rate": 0.0002,
	"loss": 0.5356451272964478,
	"mean_token_accuracy": 0.7829470187425613,
	"num_tokens": 12052564.0,
	"step": 739
	},
	{
	"entropy": 0.5245354026556015,
	"epoch": 2.7715355805243447,
	"grad_norm": 0.04295556619763374,
	"learning_rate": 0.0002,
	"loss": 0.5335471034049988,
	"mean_token_accuracy": 0.7844749689102173,
	"num_tokens": 12068677.0,
	"step": 740
	},
	{
	"entropy": 0.5476740896701813,
	"epoch": 2.7752808988764044,
	"grad_norm": 0.04540206119418144,
	"learning_rate": 0.0002,
	"loss": 0.552383542060852,
	"mean_token_accuracy": 0.7785235494375229,
	"num_tokens": 12085174.0,
	"step": 741
	},
	{
	"entropy": 0.5276885330677032,
	"epoch": 2.7790262172284645,
	"grad_norm": 0.03786449506878853,
	"learning_rate": 0.0002,
	"loss": 0.5295007228851318,
	"mean_token_accuracy": 0.7848162055015564,
	"num_tokens": 12101546.0,
	"step": 742
	},
	{
	"entropy": 0.5504680871963501,
	"epoch": 2.7827715355805243,
	"grad_norm": 0.04417780414223671,
	"learning_rate": 0.0002,
	"loss": 0.5459782481193542,
	"mean_token_accuracy": 0.7778183221817017,
	"num_tokens": 12117833.0,
	"step": 743
	},
	{
	"entropy": 0.5514437556266785,
	"epoch": 2.7865168539325844,
	"grad_norm": 0.03677407279610634,
	"learning_rate": 0.0002,
	"loss": 0.5444294810295105,
	"mean_token_accuracy": 0.7822880744934082,
	"num_tokens": 12134076.0,
	"step": 744
	},
	{
	"entropy": 0.544072225689888,
	"epoch": 2.790262172284644,
	"grad_norm": 0.04843369498848915,
	"learning_rate": 0.0002,
	"loss": 0.5418300628662109,
	"mean_token_accuracy": 0.7809806764125824,
	"num_tokens": 12149991.0,
	"step": 745
	},
	{
	"entropy": 0.5447394847869873,
	"epoch": 2.7940074906367043,
	"grad_norm": 0.04489225894212723,
	"learning_rate": 0.0002,
	"loss": 0.5485548377037048,
	"mean_token_accuracy": 0.7752929180860519,
	"num_tokens": 12166319.0,
	"step": 746
	},
	{
	"entropy": 0.5193701684474945,
	"epoch": 2.797752808988764,
	"grad_norm": 0.04051094502210617,
	"learning_rate": 0.0002,
	"loss": 0.5254422426223755,
	"mean_token_accuracy": 0.7868325263261795,
	"num_tokens": 12182585.0,
	"step": 747
	},
	{
	"entropy": 0.533800944685936,
	"epoch": 2.8014981273408237,
	"grad_norm": 0.03557295724749565,
	"learning_rate": 0.0002,
	"loss": 0.5316165089607239,
	"mean_token_accuracy": 0.7825881540775299,
	"num_tokens": 12198769.0,
	"step": 748
	},
	{
	"entropy": 0.534054160118103,
	"epoch": 2.805243445692884,
	"grad_norm": 0.04074644669890404,
	"learning_rate": 0.0002,
	"loss": 0.5342618823051453,
	"mean_token_accuracy": 0.7828291058540344,
	"num_tokens": 12215003.0,
	"step": 749
	},
	{
	"entropy": 0.5486414730548859,
	"epoch": 2.808988764044944,
	"grad_norm": 0.04066525399684906,
	"learning_rate": 0.0002,
	"loss": 0.5566014647483826,
	"mean_token_accuracy": 0.7741669267416,
	"num_tokens": 12231307.0,
	"step": 750
	},
	{
	"entropy": 0.5236565172672272,
	"epoch": 2.8127340823970037,
	"grad_norm": 0.03859638050198555,
	"learning_rate": 0.0002,
	"loss": 0.5243086218833923,
	"mean_token_accuracy": 0.7863422483205795,
	"num_tokens": 12247563.0,
	"step": 751
	},
	{
	"entropy": 0.5354926288127899,
	"epoch": 2.8164794007490634,
	"grad_norm": 0.040070392191410065,
	"learning_rate": 0.0002,
	"loss": 0.5424857139587402,
	"mean_token_accuracy": 0.7793509066104889,
	"num_tokens": 12263768.0,
	"step": 752
	},
	{
	"entropy": 0.5465504974126816,
	"epoch": 2.8202247191011236,
	"grad_norm": 0.04251793026924133,
	"learning_rate": 0.0002,
	"loss": 0.5422512292861938,
	"mean_token_accuracy": 0.7784619033336639,
	"num_tokens": 12280224.0,
	"step": 753
	},
	{
	"entropy": 0.5511007905006409,
	"epoch": 2.8239700374531838,
	"grad_norm": 0.03704281151294708,
	"learning_rate": 0.0002,
	"loss": 0.5432584285736084,
	"mean_token_accuracy": 0.7793723195791245,
	"num_tokens": 12296720.0,
	"step": 754
	},
	{
	"entropy": 0.5557062178850174,
	"epoch": 2.8277153558052435,
	"grad_norm": 0.04253645986318588,
	"learning_rate": 0.0002,
	"loss": 0.5526583194732666,
	"mean_token_accuracy": 0.7777480781078339,
	"num_tokens": 12313013.0,
	"step": 755
	},
	{
	"entropy": 0.5158669054508209,
	"epoch": 2.831460674157303,
	"grad_norm": 0.036200929433107376,
	"learning_rate": 0.0002,
	"loss": 0.5140800476074219,
	"mean_token_accuracy": 0.7922120690345764,
	"num_tokens": 12328987.0,
	"step": 756
	},
	{
	"entropy": 0.5495094060897827,
	"epoch": 2.8352059925093633,
	"grad_norm": 0.04025623947381973,
	"learning_rate": 0.0002,
	"loss": 0.5524377226829529,
	"mean_token_accuracy": 0.7765700370073318,
	"num_tokens": 12345487.0,
	"step": 757
	},
	{
	"entropy": 0.5472595542669296,
	"epoch": 2.8389513108614235,
	"grad_norm": 0.037925150245428085,
	"learning_rate": 0.0002,
	"loss": 0.5513643622398376,
	"mean_token_accuracy": 0.7754906117916107,
	"num_tokens": 12362003.0,
	"step": 758
	},
	{
	"entropy": 0.5349185019731522,
	"epoch": 2.842696629213483,
	"grad_norm": 0.04107813537120819,
	"learning_rate": 0.0002,
	"loss": 0.5352935791015625,
	"mean_token_accuracy": 0.785232812166214,
	"num_tokens": 12378308.0,
	"step": 759
	},
	{
	"entropy": 0.5332917869091034,
	"epoch": 2.846441947565543,
	"grad_norm": 0.0485457181930542,
	"learning_rate": 0.0002,
	"loss": 0.5407130122184753,
	"mean_token_accuracy": 0.7778820097446442,
	"num_tokens": 12394745.0,
	"step": 760
	},
	{
	"entropy": 0.5373108834028244,
	"epoch": 2.850187265917603,
	"grad_norm": 0.045551612973213196,
	"learning_rate": 0.0002,
	"loss": 0.5431134104728699,
	"mean_token_accuracy": 0.7788770198822021,
	"num_tokens": 12410653.0,
	"step": 761
	},
	{
	"entropy": 0.5553153157234192,
	"epoch": 2.853932584269663,
	"grad_norm": 0.042994849383831024,
	"learning_rate": 0.0002,
	"loss": 0.5521018505096436,
	"mean_token_accuracy": 0.7741047441959381,
	"num_tokens": 12426820.0,
	"step": 762
	},
	{
	"entropy": 0.5405306816101074,
	"epoch": 2.857677902621723,
	"grad_norm": 0.03894044831395149,
	"learning_rate": 0.0002,
	"loss": 0.5416905283927917,
	"mean_token_accuracy": 0.7816338688135147,
	"num_tokens": 12443026.0,
	"step": 763
	},
	{
	"entropy": 0.5384278744459152,
	"epoch": 2.8614232209737827,
	"grad_norm": 0.04121169447898865,
	"learning_rate": 0.0002,
	"loss": 0.5407273769378662,
	"mean_token_accuracy": 0.7787628769874573,
	"num_tokens": 12459216.0,
	"step": 764
	},
	{
	"entropy": 0.5316817611455917,
	"epoch": 2.865168539325843,
	"grad_norm": 0.05211913585662842,
	"learning_rate": 0.0002,
	"loss": 0.5382348895072937,
	"mean_token_accuracy": 0.7807497531175613,
	"num_tokens": 12475540.0,
	"step": 765
	},
	{
	"entropy": 0.5411743521690369,
	"epoch": 2.8689138576779025,
	"grad_norm": 0.05021794140338898,
	"learning_rate": 0.0002,
	"loss": 0.5549106001853943,
	"mean_token_accuracy": 0.7732493728399277,
	"num_tokens": 12491791.0,
	"step": 766
	},
	{
	"entropy": 0.5427963435649872,
	"epoch": 2.8726591760299627,
	"grad_norm": 0.048997581005096436,
	"learning_rate": 0.0002,
	"loss": 0.5405234694480896,
	"mean_token_accuracy": 0.7799372375011444,
	"num_tokens": 12508102.0,
	"step": 767
	},
	{
	"entropy": 0.5702031701803207,
	"epoch": 2.8764044943820224,
	"grad_norm": 0.035217706114053726,
	"learning_rate": 0.0002,
	"loss": 0.5628358721733093,
	"mean_token_accuracy": 0.7744450867176056,
	"num_tokens": 12524674.0,
	"step": 768
	},
	{
	"entropy": 0.5263065099716187,
	"epoch": 2.8801498127340825,
	"grad_norm": 0.04417087137699127,
	"learning_rate": 0.0002,
	"loss": 0.5192127227783203,
	"mean_token_accuracy": 0.7900556176900864,
	"num_tokens": 12540700.0,
	"step": 769
	},
	{
	"entropy": 0.5679396241903305,
	"epoch": 2.8838951310861423,
	"grad_norm": 0.038472775369882584,
	"learning_rate": 0.0002,
	"loss": 0.5629768967628479,
	"mean_token_accuracy": 0.7697183936834335,
	"num_tokens": 12557124.0,
	"step": 770
	},
	{
	"entropy": 0.541569247841835,
	"epoch": 2.8876404494382024,
	"grad_norm": 0.04340888932347298,
	"learning_rate": 0.0002,
	"loss": 0.5380176901817322,
	"mean_token_accuracy": 0.7819050699472427,
	"num_tokens": 12573582.0,
	"step": 771
	},
	{
	"entropy": 0.5244268327951431,
	"epoch": 2.891385767790262,
	"grad_norm": 0.043049633502960205,
	"learning_rate": 0.0002,
	"loss": 0.5338467955589294,
	"mean_token_accuracy": 0.7832711786031723,
	"num_tokens": 12589568.0,
	"step": 772
	},
	{
	"entropy": 0.5213008224964142,
	"epoch": 2.895131086142322,
	"grad_norm": 0.05456610396504402,
	"learning_rate": 0.0002,
	"loss": 0.5332724452018738,
	"mean_token_accuracy": 0.7851873487234116,
	"num_tokens": 12605650.0,
	"step": 773
	},
	{
	"entropy": 0.5455889403820038,
	"epoch": 2.898876404494382,
	"grad_norm": 0.04193198308348656,
	"learning_rate": 0.0002,
	"loss": 0.5584859251976013,
	"mean_token_accuracy": 0.7724700570106506,
	"num_tokens": 12621922.0,
	"step": 774
	},
	{
	"entropy": 0.5487163811922073,
	"epoch": 2.902621722846442,
	"grad_norm": 0.03447289392352104,
	"learning_rate": 0.0002,
	"loss": 0.5422307252883911,
	"mean_token_accuracy": 0.779036745429039,
	"num_tokens": 12638171.0,
	"step": 775
	},
	{
	"entropy": 0.5613754689693451,
	"epoch": 2.906367041198502,
	"grad_norm": 0.03812362253665924,
	"learning_rate": 0.0002,
	"loss": 0.5491812229156494,
	"mean_token_accuracy": 0.7774574309587479,
	"num_tokens": 12654497.0,
	"step": 776
	},
	{
	"entropy": 0.5419997125864029,
	"epoch": 2.9101123595505616,
	"grad_norm": 0.03889596462249756,
	"learning_rate": 0.0002,
	"loss": 0.5366528630256653,
	"mean_token_accuracy": 0.7796314209699631,
	"num_tokens": 12671014.0,
	"step": 777
	},
	{
	"entropy": 0.5404350906610489,
	"epoch": 2.9138576779026217,
	"grad_norm": 0.03634997084736824,
	"learning_rate": 0.0002,
	"loss": 0.5370875000953674,
	"mean_token_accuracy": 0.7817376554012299,
	"num_tokens": 12687252.0,
	"step": 778
	},
	{
	"entropy": 0.5554278641939163,
	"epoch": 2.917602996254682,
	"grad_norm": 0.04131067916750908,
	"learning_rate": 0.0002,
	"loss": 0.5544486045837402,
	"mean_token_accuracy": 0.774728998541832,
	"num_tokens": 12703762.0,
	"step": 779
	},
	{
	"entropy": 0.5132855176925659,
	"epoch": 2.9213483146067416,
	"grad_norm": 0.041993558406829834,
	"learning_rate": 0.0002,
	"loss": 0.5225546360015869,
	"mean_token_accuracy": 0.7885993123054504,
	"num_tokens": 12720070.0,
	"step": 780
	},
	{
	"entropy": 0.5195116326212883,
	"epoch": 2.9250936329588013,
	"grad_norm": 0.045502807945013046,
	"learning_rate": 0.0002,
	"loss": 0.5276657938957214,
	"mean_token_accuracy": 0.7835886776447296,
	"num_tokens": 12736079.0,
	"step": 781
	},
	{
	"entropy": 0.5291299819946289,
	"epoch": 2.9288389513108615,
	"grad_norm": 0.04560597985982895,
	"learning_rate": 0.0002,
	"loss": 0.5367044806480408,
	"mean_token_accuracy": 0.7813848108053207,
	"num_tokens": 12752163.0,
	"step": 782
	},
	{
	"entropy": 0.5446918457746506,
	"epoch": 2.932584269662921,
	"grad_norm": 0.04057231545448303,
	"learning_rate": 0.0002,
	"loss": 0.5368906259536743,
	"mean_token_accuracy": 0.7825321704149246,
	"num_tokens": 12768377.0,
	"step": 783
	},
	{
	"entropy": 0.5624755024909973,
	"epoch": 2.9363295880149813,
	"grad_norm": 0.04997701197862625,
	"learning_rate": 0.0002,
	"loss": 0.5559151768684387,
	"mean_token_accuracy": 0.7733145207166672,
	"num_tokens": 12784692.0,
	"step": 784
	},
	{
	"entropy": 0.5384950041770935,
	"epoch": 2.940074906367041,
	"grad_norm": 0.04062885046005249,
	"learning_rate": 0.0002,
	"loss": 0.536974310874939,
	"mean_token_accuracy": 0.7846025824546814,
	"num_tokens": 12800887.0,
	"step": 785
	},
	{
	"entropy": 0.5255657434463501,
	"epoch": 2.943820224719101,
	"grad_norm": 0.044986989349126816,
	"learning_rate": 0.0002,
	"loss": 0.5352227091789246,
	"mean_token_accuracy": 0.7826129198074341,
	"num_tokens": 12817261.0,
	"step": 786
	},
	{
	"entropy": 0.532112181186676,
	"epoch": 2.947565543071161,
	"grad_norm": 0.04506840929389,
	"learning_rate": 0.0002,
	"loss": 0.5401644110679626,
	"mean_token_accuracy": 0.7819447070360184,
	"num_tokens": 12833628.0,
	"step": 787
	},
	{
	"entropy": 0.5532176345586777,
	"epoch": 2.951310861423221,
	"grad_norm": 0.047445181757211685,
	"learning_rate": 0.0002,
	"loss": 0.5567490458488464,
	"mean_token_accuracy": 0.7756209075450897,
	"num_tokens": 12850048.0,
	"step": 788
	},
	{
	"entropy": 0.5571421086788177,
	"epoch": 2.955056179775281,
	"grad_norm": 0.03836369141936302,
	"learning_rate": 0.0002,
	"loss": 0.5471166968345642,
	"mean_token_accuracy": 0.7780868262052536,
	"num_tokens": 12866382.0,
	"step": 789
	},
	{
	"entropy": 0.5684118866920471,
	"epoch": 2.958801498127341,
	"grad_norm": 0.03691793233156204,
	"learning_rate": 0.0002,
	"loss": 0.5584673285484314,
	"mean_token_accuracy": 0.7734033614397049,
	"num_tokens": 12882861.0,
	"step": 790
	},
	{
	"entropy": 0.5417571067810059,
	"epoch": 2.9625468164794007,
	"grad_norm": 0.03854163736104965,
	"learning_rate": 0.0002,
	"loss": 0.5380803346633911,
	"mean_token_accuracy": 0.7819686830043793,
	"num_tokens": 12898999.0,
	"step": 791
	},
	{
	"entropy": 0.5183953493833542,
	"epoch": 2.966292134831461,
	"grad_norm": 0.04670790210366249,
	"learning_rate": 0.0002,
	"loss": 0.527891993522644,
	"mean_token_accuracy": 0.7858579158782959,
	"num_tokens": 12915160.0,
	"step": 792
	},
	{
	"entropy": 0.5315932035446167,
	"epoch": 2.9700374531835205,
	"grad_norm": 0.05011628568172455,
	"learning_rate": 0.0002,
	"loss": 0.5408577919006348,
	"mean_token_accuracy": 0.7781645357608795,
	"num_tokens": 12931387.0,
	"step": 793
	},
	{
	"entropy": 0.533274233341217,
	"epoch": 2.9737827715355807,
	"grad_norm": 0.038501009345054626,
	"learning_rate": 0.0002,
	"loss": 0.5422831773757935,
	"mean_token_accuracy": 0.7777345776557922,
	"num_tokens": 12947630.0,
	"step": 794
	},
	{
	"entropy": 0.5588134974241257,
	"epoch": 2.9775280898876404,
	"grad_norm": 0.04206021502614021,
	"learning_rate": 0.0002,
	"loss": 0.5564273595809937,
	"mean_token_accuracy": 0.7733636498451233,
	"num_tokens": 12964026.0,
	"step": 795
	},
	{
	"entropy": 0.5579260289669037,
	"epoch": 2.9812734082397006,
	"grad_norm": 0.04490978643298149,
	"learning_rate": 0.0002,
	"loss": 0.5504725575447083,
	"mean_token_accuracy": 0.7786446362733841,
	"num_tokens": 12980554.0,
	"step": 796
	},
	{
	"entropy": 0.541483461856842,
	"epoch": 2.9850187265917603,
	"grad_norm": 0.03570273146033287,
	"learning_rate": 0.0002,
	"loss": 0.5293324589729309,
	"mean_token_accuracy": 0.783537819981575,
	"num_tokens": 12996979.0,
	"step": 797
	},
	{
	"entropy": 0.5362358242273331,
	"epoch": 2.98876404494382,
	"grad_norm": 0.04825478047132492,
	"learning_rate": 0.0002,
	"loss": 0.5365868210792542,
	"mean_token_accuracy": 0.7838873118162155,
	"num_tokens": 13013323.0,
	"step": 798
	},
	{
	"entropy": 0.5404023975133896,
	"epoch": 2.99250936329588,
	"grad_norm": 0.04962825030088425,
	"learning_rate": 0.0002,
	"loss": 0.5480868816375732,
	"mean_token_accuracy": 0.7763252705335617,
	"num_tokens": 13029636.0,
	"step": 799
	},
	{
	"entropy": 0.5300639569759369,
	"epoch": 2.9962546816479403,
	"grad_norm": 0.042783528566360474,
	"learning_rate": 0.0002,
	"loss": 0.5343177318572998,
	"mean_token_accuracy": 0.7828411161899567,
	"num_tokens": 13046055.0,
	"step": 800
	},
	{
	"entropy": 0.5252282693982124,
	"epoch": 3.0,
	"grad_norm": 0.049276161938905716,
	"learning_rate": 0.0002,
	"loss": 0.5320798754692078,
	"mean_token_accuracy": 0.7844677865505219,
	"num_tokens": 13062401.0,
	"step": 801
	},
	{
	"entropy": 0.545697808265686,
	"epoch": 3.0037453183520597,
	"grad_norm": 0.04111013561487198,
	"learning_rate": 0.0002,
	"loss": 0.5242352485656738,
	"mean_token_accuracy": 0.7881960570812225,
	"num_tokens": 13078838.0,
	"step": 802
	},
	{
	"entropy": 0.5105714052915573,
	"epoch": 3.00749063670412,
	"grad_norm": 0.050722841173410416,
	"learning_rate": 0.0002,
	"loss": 0.49721649289131165,
	"mean_token_accuracy": 0.7984847724437714,
	"num_tokens": 13095019.0,
	"step": 803
	},
	{
	"entropy": 0.518198661506176,
	"epoch": 3.0112359550561796,
	"grad_norm": 0.05298876017332077,
	"learning_rate": 0.0002,
	"loss": 0.5273076891899109,
	"mean_token_accuracy": 0.7871041893959045,
	"num_tokens": 13111294.0,
	"step": 804
	},
	{
	"entropy": 0.48655156791210175,
	"epoch": 3.0149812734082397,
	"grad_norm": 0.05474111810326576,
	"learning_rate": 0.0002,
	"loss": 0.5008523464202881,
	"mean_token_accuracy": 0.79793781042099,
	"num_tokens": 13127173.0,
	"step": 805
	},
	{
	"entropy": 0.4898255914449692,
	"epoch": 3.0187265917602994,
	"grad_norm": 0.05198859050869942,
	"learning_rate": 0.0002,
	"loss": 0.502049446105957,
	"mean_token_accuracy": 0.7997064739465714,
	"num_tokens": 13143319.0,
	"step": 806
	},
	{
	"entropy": 0.5108759626746178,
	"epoch": 3.0224719101123596,
	"grad_norm": 0.050299011170864105,
	"learning_rate": 0.0002,
	"loss": 0.5128780603408813,
	"mean_token_accuracy": 0.7923674434423447,
	"num_tokens": 13159544.0,
	"step": 807
	},
	{
	"entropy": 0.5222347229719162,
	"epoch": 3.0262172284644193,
	"grad_norm": 0.047297973185777664,
	"learning_rate": 0.0002,
	"loss": 0.5127148628234863,
	"mean_token_accuracy": 0.7936184853315353,
	"num_tokens": 13175745.0,
	"step": 808
	},
	{
	"entropy": 0.5319055169820786,
	"epoch": 3.0299625468164795,
	"grad_norm": 0.043087251484394073,
	"learning_rate": 0.0002,
	"loss": 0.5200571417808533,
	"mean_token_accuracy": 0.789368748664856,
	"num_tokens": 13192098.0,
	"step": 809
	},
	{
	"entropy": 0.5223256945610046,
	"epoch": 3.033707865168539,
	"grad_norm": 0.045950714498758316,
	"learning_rate": 0.0002,
	"loss": 0.5118798613548279,
	"mean_token_accuracy": 0.7952196598052979,
	"num_tokens": 13208503.0,
	"step": 810
	},
	{
	"entropy": 0.5253837034106255,
	"epoch": 3.0374531835205993,
	"grad_norm": 0.051792871206998825,
	"learning_rate": 0.0002,
	"loss": 0.5294127464294434,
	"mean_token_accuracy": 0.7874963134527206,
	"num_tokens": 13224945.0,
	"step": 811
	},
	{
	"entropy": 0.5031881630420685,
	"epoch": 3.041198501872659,
	"grad_norm": 0.05261905863881111,
	"learning_rate": 0.0002,
	"loss": 0.5030893087387085,
	"mean_token_accuracy": 0.796674519777298,
	"num_tokens": 13241369.0,
	"step": 812
	},
	{
	"entropy": 0.5100391805171967,
	"epoch": 3.044943820224719,
	"grad_norm": 0.05024467036128044,
	"learning_rate": 0.0002,
	"loss": 0.5141370296478271,
	"mean_token_accuracy": 0.7916264235973358,
	"num_tokens": 13257754.0,
	"step": 813
	},
	{
	"entropy": 0.5079550594091415,
	"epoch": 3.048689138576779,
	"grad_norm": 0.05758948624134064,
	"learning_rate": 0.0002,
	"loss": 0.512941300868988,
	"mean_token_accuracy": 0.7929425090551376,
	"num_tokens": 13273994.0,
	"step": 814
	},
	{
	"entropy": 0.513673685491085,
	"epoch": 3.052434456928839,
	"grad_norm": 0.04496518149971962,
	"learning_rate": 0.0002,
	"loss": 0.5110280513763428,
	"mean_token_accuracy": 0.7918824106454849,
	"num_tokens": 13290072.0,
	"step": 815
	},
	{
	"entropy": 0.5141152441501617,
	"epoch": 3.056179775280899,
	"grad_norm": 0.0500110387802124,
	"learning_rate": 0.0002,
	"loss": 0.5101944804191589,
	"mean_token_accuracy": 0.7915782928466797,
	"num_tokens": 13306210.0,
	"step": 816
	},
	{
	"entropy": 0.5212079957127571,
	"epoch": 3.059925093632959,
	"grad_norm": 0.048487596213817596,
	"learning_rate": 0.0002,
	"loss": 0.5181204080581665,
	"mean_token_accuracy": 0.791895255446434,
	"num_tokens": 13322810.0,
	"step": 817
	},
	{
	"entropy": 0.5105150416493416,
	"epoch": 3.0636704119850187,
	"grad_norm": 0.04949360713362694,
	"learning_rate": 0.0002,
	"loss": 0.5145678520202637,
	"mean_token_accuracy": 0.7915669232606888,
	"num_tokens": 13339105.0,
	"step": 818
	},
	{
	"entropy": 0.5000638663768768,
	"epoch": 3.067415730337079,
	"grad_norm": 0.05010031536221504,
	"learning_rate": 0.0002,
	"loss": 0.5040720701217651,
	"mean_token_accuracy": 0.7957489788532257,
	"num_tokens": 13355562.0,
	"step": 819
	},
	{
	"entropy": 0.4990030825138092,
	"epoch": 3.0711610486891385,
	"grad_norm": 0.04833959415555,
	"learning_rate": 0.0002,
	"loss": 0.5016943216323853,
	"mean_token_accuracy": 0.795589417219162,
	"num_tokens": 13371584.0,
	"step": 820
	},
	{
	"entropy": 0.49931125342845917,
	"epoch": 3.0749063670411987,
	"grad_norm": 0.0536712147295475,
	"learning_rate": 0.0002,
	"loss": 0.5040884017944336,
	"mean_token_accuracy": 0.7980391532182693,
	"num_tokens": 13387562.0,
	"step": 821
	},
	{
	"entropy": 0.522365540266037,
	"epoch": 3.0786516853932584,
	"grad_norm": 0.05137619003653526,
	"learning_rate": 0.0002,
	"loss": 0.5167077779769897,
	"mean_token_accuracy": 0.7917557954788208,
	"num_tokens": 13403730.0,
	"step": 822
	},
	{
	"entropy": 0.5068316459655762,
	"epoch": 3.0823970037453186,
	"grad_norm": 0.05163760110735893,
	"learning_rate": 0.0002,
	"loss": 0.5044561624526978,
	"mean_token_accuracy": 0.7993681281805038,
	"num_tokens": 13419918.0,
	"step": 823
	},
	{
	"entropy": 0.49808672070503235,
	"epoch": 3.0861423220973783,
	"grad_norm": 0.06049012020230293,
	"learning_rate": 0.0002,
	"loss": 0.5022746920585632,
	"mean_token_accuracy": 0.7967248558998108,
	"num_tokens": 13435959.0,
	"step": 824
	},
	{
	"entropy": 0.514209657907486,
	"epoch": 3.0898876404494384,
	"grad_norm": 0.04543498158454895,
	"learning_rate": 0.0002,
	"loss": 0.5144035220146179,
	"mean_token_accuracy": 0.789142832159996,
	"num_tokens": 13452229.0,
	"step": 825
	},
	{
	"entropy": 0.5195358544588089,
	"epoch": 3.093632958801498,
	"grad_norm": 0.057822633534669876,
	"learning_rate": 0.0002,
	"loss": 0.5155280828475952,
	"mean_token_accuracy": 0.7921741157770157,
	"num_tokens": 13468667.0,
	"step": 826
	},
	{
	"entropy": 0.507283978164196,
	"epoch": 3.097378277153558,
	"grad_norm": 0.05148691684007645,
	"learning_rate": 0.0002,
	"loss": 0.504961371421814,
	"mean_token_accuracy": 0.7980248332023621,
	"num_tokens": 13484964.0,
	"step": 827
	},
	{
	"entropy": 0.5191457867622375,
	"epoch": 3.101123595505618,
	"grad_norm": 0.045027829706668854,
	"learning_rate": 0.0002,
	"loss": 0.5200563669204712,
	"mean_token_accuracy": 0.7913502901792526,
	"num_tokens": 13501449.0,
	"step": 828
	},
	{
	"entropy": 0.5351596623659134,
	"epoch": 3.1048689138576777,
	"grad_norm": 0.05001077800989151,
	"learning_rate": 0.0002,
	"loss": 0.5278201699256897,
	"mean_token_accuracy": 0.7879630476236343,
	"num_tokens": 13517966.0,
	"step": 829
	},
	{
	"entropy": 0.5123812630772591,
	"epoch": 3.108614232209738,
	"grad_norm": 0.0483224131166935,
	"learning_rate": 0.0002,
	"loss": 0.5094588398933411,
	"mean_token_accuracy": 0.794407531619072,
	"num_tokens": 13534307.0,
	"step": 830
	},
	{
	"entropy": 0.5005150064826012,
	"epoch": 3.1123595505617976,
	"grad_norm": 0.06896387785673141,
	"learning_rate": 0.0002,
	"loss": 0.5081024169921875,
	"mean_token_accuracy": 0.7954099476337433,
	"num_tokens": 13550484.0,
	"step": 831
	},
	{
	"entropy": 0.5042895451188087,
	"epoch": 3.1161048689138577,
	"grad_norm": 0.058579690754413605,
	"learning_rate": 0.0002,
	"loss": 0.508193850517273,
	"mean_token_accuracy": 0.793841764330864,
	"num_tokens": 13566708.0,
	"step": 832
	},
	{
	"entropy": 0.49759114533662796,
	"epoch": 3.1198501872659175,
	"grad_norm": 0.07416244596242905,
	"learning_rate": 0.0002,
	"loss": 0.5042813420295715,
	"mean_token_accuracy": 0.7976614087820053,
	"num_tokens": 13582827.0,
	"step": 833
	},
	{
	"entropy": 0.5223132967948914,
	"epoch": 3.1235955056179776,
	"grad_norm": 0.06452949345111847,
	"learning_rate": 0.0002,
	"loss": 0.5273835062980652,
	"mean_token_accuracy": 0.7855038046836853,
	"num_tokens": 13599052.0,
	"step": 834
	},
	{
	"entropy": 0.5274243950843811,
	"epoch": 3.1273408239700373,
	"grad_norm": 0.05534323304891586,
	"learning_rate": 0.0002,
	"loss": 0.527578592300415,
	"mean_token_accuracy": 0.7877459824085236,
	"num_tokens": 13615363.0,
	"step": 835
	},
	{
	"entropy": 0.5254645645618439,
	"epoch": 3.1310861423220975,
	"grad_norm": 0.05036141723394394,
	"learning_rate": 0.0002,
	"loss": 0.5162075161933899,
	"mean_token_accuracy": 0.7924645841121674,
	"num_tokens": 13631656.0,
	"step": 836
	},
	{
	"entropy": 0.519648090004921,
	"epoch": 3.134831460674157,
	"grad_norm": 0.05153921991586685,
	"learning_rate": 0.0002,
	"loss": 0.5139608383178711,
	"mean_token_accuracy": 0.7937669306993484,
	"num_tokens": 13648061.0,
	"step": 837
	},
	{
	"entropy": 0.5104959607124329,
	"epoch": 3.1385767790262173,
	"grad_norm": 0.0628538653254509,
	"learning_rate": 0.0002,
	"loss": 0.5201999545097351,
	"mean_token_accuracy": 0.7901795506477356,
	"num_tokens": 13664398.0,
	"step": 838
	},
	{
	"entropy": 0.5013151913881302,
	"epoch": 3.142322097378277,
	"grad_norm": 0.05778926610946655,
	"learning_rate": 0.0002,
	"loss": 0.5063536763191223,
	"mean_token_accuracy": 0.7938642650842667,
	"num_tokens": 13680563.0,
	"step": 839
	},
	{
	"entropy": 0.5136759728193283,
	"epoch": 3.146067415730337,
	"grad_norm": 0.0481521412730217,
	"learning_rate": 0.0002,
	"loss": 0.5169215202331543,
	"mean_token_accuracy": 0.7936979234218597,
	"num_tokens": 13696943.0,
	"step": 840
	},
	{
	"entropy": 0.5035114511847496,
	"epoch": 3.149812734082397,
	"grad_norm": 0.052551548928022385,
	"learning_rate": 0.0002,
	"loss": 0.5094401240348816,
	"mean_token_accuracy": 0.7950234562158585,
	"num_tokens": 13713121.0,
	"step": 841
	},
	{
	"entropy": 0.5143017992377281,
	"epoch": 3.153558052434457,
	"grad_norm": 0.051041699945926666,
	"learning_rate": 0.0002,
	"loss": 0.5074518322944641,
	"mean_token_accuracy": 0.7948710173368454,
	"num_tokens": 13729464.0,
	"step": 842
	},
	{
	"entropy": 0.5306706875562668,
	"epoch": 3.157303370786517,
	"grad_norm": 0.0463450625538826,
	"learning_rate": 0.0002,
	"loss": 0.5219502449035645,
	"mean_token_accuracy": 0.7893195748329163,
	"num_tokens": 13746493.0,
	"step": 843
	},
	{
	"entropy": 0.5117569044232368,
	"epoch": 3.161048689138577,
	"grad_norm": 0.06164409592747688,
	"learning_rate": 0.0002,
	"loss": 0.5158479809761047,
	"mean_token_accuracy": 0.7911277264356613,
	"num_tokens": 13762823.0,
	"step": 844
	},
	{
	"entropy": 0.5204734578728676,
	"epoch": 3.1647940074906367,
	"grad_norm": 0.054356031119823456,
	"learning_rate": 0.0002,
	"loss": 0.5212512016296387,
	"mean_token_accuracy": 0.7890127152204514,
	"num_tokens": 13779000.0,
	"step": 845
	},
	{
	"entropy": 0.5199745744466782,
	"epoch": 3.168539325842697,
	"grad_norm": 0.0607718862593174,
	"learning_rate": 0.0002,
	"loss": 0.5160431265830994,
	"mean_token_accuracy": 0.7902602553367615,
	"num_tokens": 13794975.0,
	"step": 846
	},
	{
	"entropy": 0.4987589195370674,
	"epoch": 3.1722846441947565,
	"grad_norm": 0.04878820478916168,
	"learning_rate": 0.0002,
	"loss": 0.5000798106193542,
	"mean_token_accuracy": 0.7972550392150879,
	"num_tokens": 13811158.0,
	"step": 847
	},
	{
	"entropy": 0.5230295807123184,
	"epoch": 3.1760299625468167,
	"grad_norm": 0.06623463332653046,
	"learning_rate": 0.0002,
	"loss": 0.5327509641647339,
	"mean_token_accuracy": 0.7841638922691345,
	"num_tokens": 13827505.0,
	"step": 848
	},
	{
	"entropy": 0.5071290284395218,
	"epoch": 3.1797752808988764,
	"grad_norm": 0.05458921194076538,
	"learning_rate": 0.0002,
	"loss": 0.506171464920044,
	"mean_token_accuracy": 0.796265110373497,
	"num_tokens": 13843820.0,
	"step": 849
	},
	{
	"entropy": 0.5068354383111,
	"epoch": 3.1835205992509366,
	"grad_norm": 0.07471395283937454,
	"learning_rate": 0.0002,
	"loss": 0.5159043669700623,
	"mean_token_accuracy": 0.7950875610113144,
	"num_tokens": 13860049.0,
	"step": 850
	},
	{
	"entropy": 0.5165606439113617,
	"epoch": 3.1872659176029963,
	"grad_norm": 0.04287557676434517,
	"learning_rate": 0.0002,
	"loss": 0.5090954303741455,
	"mean_token_accuracy": 0.7943407446146011,
	"num_tokens": 13876269.0,
	"step": 851
	},
	{
	"entropy": 0.5112441331148148,
	"epoch": 3.191011235955056,
	"grad_norm": 0.055288348346948624,
	"learning_rate": 0.0002,
	"loss": 0.5097154974937439,
	"mean_token_accuracy": 0.7928614467382431,
	"num_tokens": 13892237.0,
	"step": 852
	},
	{
	"entropy": 0.5263922363519669,
	"epoch": 3.194756554307116,
	"grad_norm": 0.05795539170503616,
	"learning_rate": 0.0002,
	"loss": 0.5299734473228455,
	"mean_token_accuracy": 0.7866927832365036,
	"num_tokens": 13908834.0,
	"step": 853
	},
	{
	"entropy": 0.5262639820575714,
	"epoch": 3.198501872659176,
	"grad_norm": 0.04974358528852463,
	"learning_rate": 0.0002,
	"loss": 0.5219104290008545,
	"mean_token_accuracy": 0.789173498749733,
	"num_tokens": 13925285.0,
	"step": 854
	},
	{
	"entropy": 0.5375918298959732,
	"epoch": 3.202247191011236,
	"grad_norm": 0.05287981405854225,
	"learning_rate": 0.0002,
	"loss": 0.538820207118988,
	"mean_token_accuracy": 0.7783188968896866,
	"num_tokens": 13941531.0,
	"step": 855
	},
	{
	"entropy": 0.5262509882450104,
	"epoch": 3.2059925093632957,
	"grad_norm": 0.050868358463048935,
	"learning_rate": 0.0002,
	"loss": 0.5281128883361816,
	"mean_token_accuracy": 0.78641077876091,
	"num_tokens": 13957808.0,
	"step": 856
	},
	{
	"entropy": 0.5126873999834061,
	"epoch": 3.209737827715356,
	"grad_norm": 0.053514108061790466,
	"learning_rate": 0.0002,
	"loss": 0.5147566795349121,
	"mean_token_accuracy": 0.7941258400678635,
	"num_tokens": 13974052.0,
	"step": 857
	},
	{
	"entropy": 0.5275673717260361,
	"epoch": 3.2134831460674156,
	"grad_norm": 0.05271236225962639,
	"learning_rate": 0.0002,
	"loss": 0.5292813777923584,
	"mean_token_accuracy": 0.7857562899589539,
	"num_tokens": 13990343.0,
	"step": 858
	},
	{
	"entropy": 0.5242348462343216,
	"epoch": 3.2172284644194757,
	"grad_norm": 0.07179221510887146,
	"learning_rate": 0.0002,
	"loss": 0.5286028981208801,
	"mean_token_accuracy": 0.7894574105739594,
	"num_tokens": 14006625.0,
	"step": 859
	},
	{
	"entropy": 0.5096549838781357,
	"epoch": 3.2209737827715355,
	"grad_norm": 0.049610402435064316,
	"learning_rate": 0.0002,
	"loss": 0.5049244165420532,
	"mean_token_accuracy": 0.7980163246393204,
	"num_tokens": 14022899.0,
	"step": 860
	},
	{
	"entropy": 0.5015261322259903,
	"epoch": 3.2247191011235956,
	"grad_norm": 0.05947711691260338,
	"learning_rate": 0.0002,
	"loss": 0.4989194869995117,
	"mean_token_accuracy": 0.7979766577482224,
	"num_tokens": 14039443.0,
	"step": 861
	},
	{
	"entropy": 0.507699728012085,
	"epoch": 3.2284644194756553,
	"grad_norm": 0.04882875084877014,
	"learning_rate": 0.0002,
	"loss": 0.507795512676239,
	"mean_token_accuracy": 0.7962815016508102,
	"num_tokens": 14055656.0,
	"step": 862
	},
	{
	"entropy": 0.5021291598677635,
	"epoch": 3.2322097378277155,
	"grad_norm": 0.061408963054418564,
	"learning_rate": 0.0002,
	"loss": 0.5129059553146362,
	"mean_token_accuracy": 0.7919183075428009,
	"num_tokens": 14071999.0,
	"step": 863
	},
	{
	"entropy": 0.520720586180687,
	"epoch": 3.235955056179775,
	"grad_norm": 0.06845266371965408,
	"learning_rate": 0.0002,
	"loss": 0.5275195837020874,
	"mean_token_accuracy": 0.786097377538681,
	"num_tokens": 14088181.0,
	"step": 864
	},
	{
	"entropy": 0.5245565697550774,
	"epoch": 3.2397003745318353,
	"grad_norm": 0.05512849986553192,
	"learning_rate": 0.0002,
	"loss": 0.5164670944213867,
	"mean_token_accuracy": 0.7922011315822601,
	"num_tokens": 14104382.0,
	"step": 865
	},
	{
	"entropy": 0.523853063583374,
	"epoch": 3.243445692883895,
	"grad_norm": 0.05168979614973068,
	"learning_rate": 0.0002,
	"loss": 0.5198615789413452,
	"mean_token_accuracy": 0.7894517928361893,
	"num_tokens": 14120589.0,
	"step": 866
	},
	{
	"entropy": 0.5336069017648697,
	"epoch": 3.247191011235955,
	"grad_norm": 0.04658959433436394,
	"learning_rate": 0.0002,
	"loss": 0.5296441912651062,
	"mean_token_accuracy": 0.7839891761541367,
	"num_tokens": 14137115.0,
	"step": 867
	},
	{
	"entropy": 0.5032267719507217,
	"epoch": 3.250936329588015,
	"grad_norm": 0.06418543308973312,
	"learning_rate": 0.0002,
	"loss": 0.5041000843048096,
	"mean_token_accuracy": 0.7958316802978516,
	"num_tokens": 14153324.0,
	"step": 868
	},
	{
	"entropy": 0.5415874123573303,
	"epoch": 3.254681647940075,
	"grad_norm": 0.05481120944023132,
	"learning_rate": 0.0002,
	"loss": 0.5544674396514893,
	"mean_token_accuracy": 0.7752077877521515,
	"num_tokens": 14169770.0,
	"step": 869
	},
	{
	"entropy": 0.5231891572475433,
	"epoch": 3.258426966292135,
	"grad_norm": 0.055172860622406006,
	"learning_rate": 0.0002,
	"loss": 0.527195930480957,
	"mean_token_accuracy": 0.7866710424423218,
	"num_tokens": 14186252.0,
	"step": 870
	},
	{
	"entropy": 0.522189661860466,
	"epoch": 3.262172284644195,
	"grad_norm": 0.058594439178705215,
	"learning_rate": 0.0002,
	"loss": 0.5187022686004639,
	"mean_token_accuracy": 0.7929898500442505,
	"num_tokens": 14202621.0,
	"step": 871
	},
	{
	"entropy": 0.5282062888145447,
	"epoch": 3.2659176029962547,
	"grad_norm": 0.05134856328368187,
	"learning_rate": 0.0002,
	"loss": 0.5219106674194336,
	"mean_token_accuracy": 0.7889548540115356,
	"num_tokens": 14218830.0,
	"step": 872
	},
	{
	"entropy": 0.5150680243968964,
	"epoch": 3.2696629213483144,
	"grad_norm": 0.05508032441139221,
	"learning_rate": 0.0002,
	"loss": 0.5112281441688538,
	"mean_token_accuracy": 0.7931530773639679,
	"num_tokens": 14234888.0,
	"step": 873
	},
	{
	"entropy": 0.5219835788011551,
	"epoch": 3.2734082397003745,
	"grad_norm": 0.05464804917573929,
	"learning_rate": 0.0002,
	"loss": 0.524517297744751,
	"mean_token_accuracy": 0.7871863842010498,
	"num_tokens": 14251240.0,
	"step": 874
	},
	{
	"entropy": 0.5211943238973618,
	"epoch": 3.2771535580524347,
	"grad_norm": 0.06844772398471832,
	"learning_rate": 0.0002,
	"loss": 0.5394464731216431,
	"mean_token_accuracy": 0.7814126461744308,
	"num_tokens": 14267612.0,
	"step": 875
	},
	{
	"entropy": 0.5181123912334442,
	"epoch": 3.2808988764044944,
	"grad_norm": 0.04897969216108322,
	"learning_rate": 0.0002,
	"loss": 0.5221361517906189,
	"mean_token_accuracy": 0.7895658910274506,
	"num_tokens": 14284024.0,
	"step": 876
	},
	{
	"entropy": 0.522240474820137,
	"epoch": 3.284644194756554,
	"grad_norm": 0.046099789440631866,
	"learning_rate": 0.0002,
	"loss": 0.515265941619873,
	"mean_token_accuracy": 0.7908574789762497,
	"num_tokens": 14300400.0,
	"step": 877
	},
	{
	"entropy": 0.539507195353508,
	"epoch": 3.2883895131086143,
	"grad_norm": 0.048160191625356674,
	"learning_rate": 0.0002,
	"loss": 0.5282410979270935,
	"mean_token_accuracy": 0.7885929346084595,
	"num_tokens": 14316696.0,
	"step": 878
	},
	{
	"entropy": 0.5196528732776642,
	"epoch": 3.292134831460674,
	"grad_norm": 0.05286882072687149,
	"learning_rate": 0.0002,
	"loss": 0.5168602466583252,
	"mean_token_accuracy": 0.7895731180906296,
	"num_tokens": 14333018.0,
	"step": 879
	},
	{
	"entropy": 0.5102087259292603,
	"epoch": 3.295880149812734,
	"grad_norm": 0.059099920094013214,
	"learning_rate": 0.0002,
	"loss": 0.5207654237747192,
	"mean_token_accuracy": 0.7876903861761093,
	"num_tokens": 14349309.0,
	"step": 880
	},
	{
	"entropy": 0.5270523875951767,
	"epoch": 3.299625468164794,
	"grad_norm": 0.05176056921482086,
	"learning_rate": 0.0002,
	"loss": 0.5302364230155945,
	"mean_token_accuracy": 0.7864267975091934,
	"num_tokens": 14365771.0,
	"step": 881
	},
	{
	"entropy": 0.5273350328207016,
	"epoch": 3.303370786516854,
	"grad_norm": 0.053021032363176346,
	"learning_rate": 0.0002,
	"loss": 0.51994389295578,
	"mean_token_accuracy": 0.7906388491392136,
	"num_tokens": 14382276.0,
	"step": 882
	},
	{
	"entropy": 0.5050782039761543,
	"epoch": 3.3071161048689137,
	"grad_norm": 0.05596887692809105,
	"learning_rate": 0.0002,
	"loss": 0.5052669644355774,
	"mean_token_accuracy": 0.7954567670822144,
	"num_tokens": 14398533.0,
	"step": 883
	},
	{
	"entropy": 0.5178304612636566,
	"epoch": 3.310861423220974,
	"grad_norm": 0.051180679351091385,
	"learning_rate": 0.0002,
	"loss": 0.5151298642158508,
	"mean_token_accuracy": 0.7920469641685486,
	"num_tokens": 14414953.0,
	"step": 884
	},
	{
	"entropy": 0.5152227282524109,
	"epoch": 3.3146067415730336,
	"grad_norm": 0.060053881257772446,
	"learning_rate": 0.0002,
	"loss": 0.5225366950035095,
	"mean_token_accuracy": 0.7887113392353058,
	"num_tokens": 14431177.0,
	"step": 885
	},
	{
	"entropy": 0.5342336893081665,
	"epoch": 3.3183520599250937,
	"grad_norm": 0.04932161048054695,
	"learning_rate": 0.0002,
	"loss": 0.5272732973098755,
	"mean_token_accuracy": 0.7877390533685684,
	"num_tokens": 14447551.0,
	"step": 886
	},
	{
	"entropy": 0.5131062269210815,
	"epoch": 3.3220973782771535,
	"grad_norm": 0.056324418634176254,
	"learning_rate": 0.0002,
	"loss": 0.511243999004364,
	"mean_token_accuracy": 0.7933667898178101,
	"num_tokens": 14463837.0,
	"step": 887
	},
	{
	"entropy": 0.5144293755292892,
	"epoch": 3.3258426966292136,
	"grad_norm": 0.049344755709171295,
	"learning_rate": 0.0002,
	"loss": 0.5185728073120117,
	"mean_token_accuracy": 0.7894094735383987,
	"num_tokens": 14480010.0,
	"step": 888
	},
	{
	"entropy": 0.5006949752569199,
	"epoch": 3.3295880149812733,
	"grad_norm": 0.06578890234231949,
	"learning_rate": 0.0002,
	"loss": 0.5114624500274658,
	"mean_token_accuracy": 0.7939462065696716,
	"num_tokens": 14496280.0,
	"step": 889
	},
	{
	"entropy": 0.5155239552259445,
	"epoch": 3.3333333333333335,
	"grad_norm": 0.052595749497413635,
	"learning_rate": 0.0002,
	"loss": 0.5211793780326843,
	"mean_token_accuracy": 0.7900384217500687,
	"num_tokens": 14512580.0,
	"step": 890
	},
	{
	"entropy": 0.4996938407421112,
	"epoch": 3.337078651685393,
	"grad_norm": 0.05196739733219147,
	"learning_rate": 0.0002,
	"loss": 0.4989975094795227,
	"mean_token_accuracy": 0.7975862473249435,
	"num_tokens": 14528932.0,
	"step": 891
	},
	{
	"entropy": 0.5200860351324081,
	"epoch": 3.3408239700374533,
	"grad_norm": 0.05091974139213562,
	"learning_rate": 0.0002,
	"loss": 0.5156251192092896,
	"mean_token_accuracy": 0.7910965532064438,
	"num_tokens": 14545418.0,
	"step": 892
	},
	{
	"entropy": 0.5055394843220711,
	"epoch": 3.344569288389513,
	"grad_norm": 0.0533117949962616,
	"learning_rate": 0.0002,
	"loss": 0.5111801028251648,
	"mean_token_accuracy": 0.791337177157402,
	"num_tokens": 14561554.0,
	"step": 893
	},
	{
	"entropy": 0.5070675015449524,
	"epoch": 3.348314606741573,
	"grad_norm": 0.04844473674893379,
	"learning_rate": 0.0002,
	"loss": 0.5077552795410156,
	"mean_token_accuracy": 0.7912814170122147,
	"num_tokens": 14578052.0,
	"step": 894
	},
	{
	"entropy": 0.5202019810676575,
	"epoch": 3.352059925093633,
	"grad_norm": 0.04764174669981003,
	"learning_rate": 0.0002,
	"loss": 0.5175067186355591,
	"mean_token_accuracy": 0.7899416983127594,
	"num_tokens": 14594359.0,
	"step": 895
	},
	{
	"entropy": 0.5255243629217148,
	"epoch": 3.355805243445693,
	"grad_norm": 0.05360300838947296,
	"learning_rate": 0.0002,
	"loss": 0.5318154692649841,
	"mean_token_accuracy": 0.7854946553707123,
	"num_tokens": 14610661.0,
	"step": 896
	},
	{
	"entropy": 0.5251385867595673,
	"epoch": 3.359550561797753,
	"grad_norm": 0.05500936135649681,
	"learning_rate": 0.0002,
	"loss": 0.5363146066665649,
	"mean_token_accuracy": 0.7834254056215286,
	"num_tokens": 14626712.0,
	"step": 897
	},
	{
	"entropy": 0.5119743421673775,
	"epoch": 3.3632958801498125,
	"grad_norm": 0.04378456994891167,
	"learning_rate": 0.0002,
	"loss": 0.5079984068870544,
	"mean_token_accuracy": 0.7939057648181915,
	"num_tokens": 14642932.0,
	"step": 898
	},
	{
	"entropy": 0.5284467786550522,
	"epoch": 3.3670411985018727,
	"grad_norm": 0.046168722212314606,
	"learning_rate": 0.0002,
	"loss": 0.5247387290000916,
	"mean_token_accuracy": 0.787312924861908,
	"num_tokens": 14659213.0,
	"step": 899
	},
	{
	"entropy": 0.5423993915319443,
	"epoch": 3.370786516853933,
	"grad_norm": 0.04573873057961464,
	"learning_rate": 0.0002,
	"loss": 0.5364725589752197,
	"mean_token_accuracy": 0.7854876816272736,
	"num_tokens": 14675678.0,
	"step": 900
	},
	{
	"entropy": 0.5328433066606522,
	"epoch": 3.3745318352059925,
	"grad_norm": 0.044917598366737366,
	"learning_rate": 0.0002,
	"loss": 0.5308316946029663,
	"mean_token_accuracy": 0.785490483045578,
	"num_tokens": 14692287.0,
	"step": 901
	},
	{
	"entropy": 0.5370714962482452,
	"epoch": 3.3782771535580522,
	"grad_norm": 0.05281532183289528,
	"learning_rate": 0.0002,
	"loss": 0.5403937101364136,
	"mean_token_accuracy": 0.7802177965641022,
	"num_tokens": 14708736.0,
	"step": 902
	},
	{
	"entropy": 0.5240233987569809,
	"epoch": 3.3820224719101124,
	"grad_norm": 0.04636811465024948,
	"learning_rate": 0.0002,
	"loss": 0.5222055315971375,
	"mean_token_accuracy": 0.7886700630187988,
	"num_tokens": 14725122.0,
	"step": 903
	},
	{
	"entropy": 0.5218504667282104,
	"epoch": 3.385767790262172,
	"grad_norm": 0.05728694424033165,
	"learning_rate": 0.0002,
	"loss": 0.5256317853927612,
	"mean_token_accuracy": 0.7890423983335495,
	"num_tokens": 14741271.0,
	"step": 904
	},
	{
	"entropy": 0.5346123427152634,
	"epoch": 3.3895131086142323,
	"grad_norm": 0.046447765082120895,
	"learning_rate": 0.0002,
	"loss": 0.5343607664108276,
	"mean_token_accuracy": 0.7844806611537933,
	"num_tokens": 14757614.0,
	"step": 905
	},
	{
	"entropy": 0.5300848186016083,
	"epoch": 3.393258426966292,
	"grad_norm": 0.06571624428033829,
	"learning_rate": 0.0002,
	"loss": 0.5315452814102173,
	"mean_token_accuracy": 0.7868516147136688,
	"num_tokens": 14774083.0,
	"step": 906
	},
	{
	"entropy": 0.5144885182380676,
	"epoch": 3.397003745318352,
	"grad_norm": 0.05184376239776611,
	"learning_rate": 0.0002,
	"loss": 0.5137390494346619,
	"mean_token_accuracy": 0.7918999344110489,
	"num_tokens": 14790219.0,
	"step": 907
	},
	{
	"entropy": 0.5159177482128143,
	"epoch": 3.400749063670412,
	"grad_norm": 0.0637274757027626,
	"learning_rate": 0.0002,
	"loss": 0.5109057426452637,
	"mean_token_accuracy": 0.792988732457161,
	"num_tokens": 14806579.0,
	"step": 908
	},
	{
	"entropy": 0.5414174944162369,
	"epoch": 3.404494382022472,
	"grad_norm": 0.049117956310510635,
	"learning_rate": 0.0002,
	"loss": 0.5352107286453247,
	"mean_token_accuracy": 0.7849340736865997,
	"num_tokens": 14823142.0,
	"step": 909
	},
	{
	"entropy": 0.5176117867231369,
	"epoch": 3.4082397003745317,
	"grad_norm": 0.06466244161128998,
	"learning_rate": 0.0002,
	"loss": 0.522276759147644,
	"mean_token_accuracy": 0.789726972579956,
	"num_tokens": 14839440.0,
	"step": 910
	},
	{
	"entropy": 0.5329615920782089,
	"epoch": 3.411985018726592,
	"grad_norm": 0.05105730891227722,
	"learning_rate": 0.0002,
	"loss": 0.5381749868392944,
	"mean_token_accuracy": 0.7826534360647202,
	"num_tokens": 14855956.0,
	"step": 911
	},
	{
	"entropy": 0.5107108354568481,
	"epoch": 3.4157303370786516,
	"grad_norm": 0.05413498729467392,
	"learning_rate": 0.0002,
	"loss": 0.5151250958442688,
	"mean_token_accuracy": 0.7922552824020386,
	"num_tokens": 14872232.0,
	"step": 912
	},
	{
	"entropy": 0.5194525718688965,
	"epoch": 3.4194756554307117,
	"grad_norm": 0.049860697239637375,
	"learning_rate": 0.0002,
	"loss": 0.5245251655578613,
	"mean_token_accuracy": 0.7890132665634155,
	"num_tokens": 14888739.0,
	"step": 913
	},
	{
	"entropy": 0.5260248631238937,
	"epoch": 3.4232209737827715,
	"grad_norm": 0.0514976903796196,
	"learning_rate": 0.0002,
	"loss": 0.5202233195304871,
	"mean_token_accuracy": 0.7909575551748276,
	"num_tokens": 14905100.0,
	"step": 914
	},
	{
	"entropy": 0.5172304511070251,
	"epoch": 3.4269662921348316,
	"grad_norm": 0.046695906668901443,
	"learning_rate": 0.0002,
	"loss": 0.5149263143539429,
	"mean_token_accuracy": 0.7901606112718582,
	"num_tokens": 14921448.0,
	"step": 915
	},
	{
	"entropy": 0.5069386884570122,
	"epoch": 3.4307116104868913,
	"grad_norm": 0.05618730187416077,
	"learning_rate": 0.0002,
	"loss": 0.5093807578086853,
	"mean_token_accuracy": 0.7943364530801773,
	"num_tokens": 14937735.0,
	"step": 916
	},
	{
	"entropy": 0.5155317038297653,
	"epoch": 3.4344569288389515,
	"grad_norm": 0.04981003701686859,
	"learning_rate": 0.0002,
	"loss": 0.5243242383003235,
	"mean_token_accuracy": 0.7892241328954697,
	"num_tokens": 14954139.0,
	"step": 917
	},
	{
	"entropy": 0.5165708512067795,
	"epoch": 3.438202247191011,
	"grad_norm": 0.050371985882520676,
	"learning_rate": 0.0002,
	"loss": 0.5150896906852722,
	"mean_token_accuracy": 0.7927063405513763,
	"num_tokens": 14970507.0,
	"step": 918
	},
	{
	"entropy": 0.5134851261973381,
	"epoch": 3.4419475655430714,
	"grad_norm": 0.04879898577928543,
	"learning_rate": 0.0002,
	"loss": 0.5160987377166748,
	"mean_token_accuracy": 0.7906570881605148,
	"num_tokens": 14986812.0,
	"step": 919
	},
	{
	"entropy": 0.5135181546211243,
	"epoch": 3.445692883895131,
	"grad_norm": 0.05624324828386307,
	"learning_rate": 0.0002,
	"loss": 0.5219361186027527,
	"mean_token_accuracy": 0.7903093546628952,
	"num_tokens": 15003179.0,
	"step": 920
	},
	{
	"entropy": 0.5162501037120819,
	"epoch": 3.449438202247191,
	"grad_norm": 0.04822200909256935,
	"learning_rate": 0.0002,
	"loss": 0.5126674175262451,
	"mean_token_accuracy": 0.7924687564373016,
	"num_tokens": 15019428.0,
	"step": 921
	},
	{
	"entropy": 0.5315191224217415,
	"epoch": 3.453183520599251,
	"grad_norm": 0.04490262269973755,
	"learning_rate": 0.0002,
	"loss": 0.5248660445213318,
	"mean_token_accuracy": 0.7871098518371582,
	"num_tokens": 15035868.0,
	"step": 922
	},
	{
	"entropy": 0.5238284766674042,
	"epoch": 3.4569288389513106,
	"grad_norm": 0.051175910979509354,
	"learning_rate": 0.0002,
	"loss": 0.521578311920166,
	"mean_token_accuracy": 0.7883873879909515,
	"num_tokens": 15052303.0,
	"step": 923
	},
	{
	"entropy": 0.5168250873684883,
	"epoch": 3.460674157303371,
	"grad_norm": 0.046608321368694305,
	"learning_rate": 0.0002,
	"loss": 0.5207570791244507,
	"mean_token_accuracy": 0.7900703996419907,
	"num_tokens": 15068618.0,
	"step": 924
	},
	{
	"entropy": 0.5313585698604584,
	"epoch": 3.464419475655431,
	"grad_norm": 0.049307819455862045,
	"learning_rate": 0.0002,
	"loss": 0.5298991203308105,
	"mean_token_accuracy": 0.7864013016223907,
	"num_tokens": 15084957.0,
	"step": 925
	},
	{
	"entropy": 0.5185838490724564,
	"epoch": 3.4681647940074907,
	"grad_norm": 0.05639752745628357,
	"learning_rate": 0.0002,
	"loss": 0.5251802802085876,
	"mean_token_accuracy": 0.787624716758728,
	"num_tokens": 15101189.0,
	"step": 926
	},
	{
	"entropy": 0.515865795314312,
	"epoch": 3.4719101123595504,
	"grad_norm": 0.05554183945059776,
	"learning_rate": 0.0002,
	"loss": 0.518955647945404,
	"mean_token_accuracy": 0.7888496518135071,
	"num_tokens": 15117511.0,
	"step": 927
	},
	{
	"entropy": 0.5173558592796326,
	"epoch": 3.4756554307116105,
	"grad_norm": 0.051211338490247726,
	"learning_rate": 0.0002,
	"loss": 0.5185026526451111,
	"mean_token_accuracy": 0.7890340387821198,
	"num_tokens": 15133719.0,
	"step": 928
	},
	{
	"entropy": 0.520257018506527,
	"epoch": 3.4794007490636703,
	"grad_norm": 0.055278245359659195,
	"learning_rate": 0.0002,
	"loss": 0.5183354616165161,
	"mean_token_accuracy": 0.7902627289295197,
	"num_tokens": 15149922.0,
	"step": 929
	},
	{
	"entropy": 0.515156589448452,
	"epoch": 3.4831460674157304,
	"grad_norm": 0.05468440055847168,
	"learning_rate": 0.0002,
	"loss": 0.5097793340682983,
	"mean_token_accuracy": 0.7964832186698914,
	"num_tokens": 15166020.0,
	"step": 930
	},
	{
	"entropy": 0.521842934191227,
	"epoch": 3.48689138576779,
	"grad_norm": 0.04573323577642441,
	"learning_rate": 0.0002,
	"loss": 0.5174736380577087,
	"mean_token_accuracy": 0.7907158583402634,
	"num_tokens": 15182296.0,
	"step": 931
	},
	{
	"entropy": 0.5367195308208466,
	"epoch": 3.4906367041198503,
	"grad_norm": 0.05060438811779022,
	"learning_rate": 0.0002,
	"loss": 0.5360324382781982,
	"mean_token_accuracy": 0.7832886576652527,
	"num_tokens": 15198618.0,
	"step": 932
	},
	{
	"entropy": 0.5351738333702087,
	"epoch": 3.49438202247191,
	"grad_norm": 0.04796265438199043,
	"learning_rate": 0.0002,
	"loss": 0.5342084765434265,
	"mean_token_accuracy": 0.7837437838315964,
	"num_tokens": 15215125.0,
	"step": 933
	},
	{
	"entropy": 0.5210021957755089,
	"epoch": 3.49812734082397,
	"grad_norm": 0.05278978869318962,
	"learning_rate": 0.0002,
	"loss": 0.5260420441627502,
	"mean_token_accuracy": 0.7890212833881378,
	"num_tokens": 15231335.0,
	"step": 934
	},
	{
	"entropy": 0.5361146479845047,
	"epoch": 3.50187265917603,
	"grad_norm": 0.05599920451641083,
	"learning_rate": 0.0002,
	"loss": 0.5407608151435852,
	"mean_token_accuracy": 0.7809196263551712,
	"num_tokens": 15247587.0,
	"step": 935
	},
	{
	"entropy": 0.5127650052309036,
	"epoch": 3.50561797752809,
	"grad_norm": 0.053348250687122345,
	"learning_rate": 0.0002,
	"loss": 0.5172818303108215,
	"mean_token_accuracy": 0.7908589243888855,
	"num_tokens": 15263983.0,
	"step": 936
	},
	{
	"entropy": 0.5113075897097588,
	"epoch": 3.5093632958801497,
	"grad_norm": 0.047283098101615906,
	"learning_rate": 0.0002,
	"loss": 0.5094785690307617,
	"mean_token_accuracy": 0.7913675010204315,
	"num_tokens": 15280172.0,
	"step": 937
	},
	{
	"entropy": 0.5144875794649124,
	"epoch": 3.51310861423221,
	"grad_norm": 0.05150860175490379,
	"learning_rate": 0.0002,
	"loss": 0.5117542743682861,
	"mean_token_accuracy": 0.7926830351352692,
	"num_tokens": 15296278.0,
	"step": 938
	},
	{
	"entropy": 0.5282381922006607,
	"epoch": 3.5168539325842696,
	"grad_norm": 0.05235690623521805,
	"learning_rate": 0.0002,
	"loss": 0.5275253653526306,
	"mean_token_accuracy": 0.787050798535347,
	"num_tokens": 15312737.0,
	"step": 939
	},
	{
	"entropy": 0.5191426128149033,
	"epoch": 3.5205992509363297,
	"grad_norm": 0.05214005708694458,
	"learning_rate": 0.0002,
	"loss": 0.5218259692192078,
	"mean_token_accuracy": 0.7854390293359756,
	"num_tokens": 15329171.0,
	"step": 940
	},
	{
	"entropy": 0.488400898873806,
	"epoch": 3.5243445692883895,
	"grad_norm": 0.05028095468878746,
	"learning_rate": 0.0002,
	"loss": 0.49238866567611694,
	"mean_token_accuracy": 0.8010139167308807,
	"num_tokens": 15345040.0,
	"step": 941
	},
	{
	"entropy": 0.530989944934845,
	"epoch": 3.5280898876404496,
	"grad_norm": 0.05137421563267708,
	"learning_rate": 0.0002,
	"loss": 0.5283138155937195,
	"mean_token_accuracy": 0.7872757613658905,
	"num_tokens": 15361506.0,
	"step": 942
	},
	{
	"entropy": 0.5166791379451752,
	"epoch": 3.5318352059925093,
	"grad_norm": 0.05064837634563446,
	"learning_rate": 0.0002,
	"loss": 0.5200411677360535,
	"mean_token_accuracy": 0.7893417179584503,
	"num_tokens": 15377725.0,
	"step": 943
	},
	{
	"entropy": 0.5225488543510437,
	"epoch": 3.535580524344569,
	"grad_norm": 0.05224663019180298,
	"learning_rate": 0.0002,
	"loss": 0.5252619981765747,
	"mean_token_accuracy": 0.7887216210365295,
	"num_tokens": 15394073.0,
	"step": 944
	},
	{
	"entropy": 0.5133933499455452,
	"epoch": 3.539325842696629,
	"grad_norm": 0.054900407791137695,
	"learning_rate": 0.0002,
	"loss": 0.5187044143676758,
	"mean_token_accuracy": 0.7941587567329407,
	"num_tokens": 15410326.0,
	"step": 945
	},
	{
	"entropy": 0.5217478722333908,
	"epoch": 3.5430711610486894,
	"grad_norm": 0.05068376660346985,
	"learning_rate": 0.0002,
	"loss": 0.5203924179077148,
	"mean_token_accuracy": 0.7903146594762802,
	"num_tokens": 15426695.0,
	"step": 946
	}
	],
	"logging_steps": 1,
	"max_steps": 1335,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.437096036035199e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}