Upload final checkpoint (checkpoint-804)

2274c96 verified 2 months ago

232 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 804,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.1336015462875366,
	"epoch": 0.003738317757009346,
	"grad_norm": 0.4115395247936249,
	"learning_rate": 0.0002,
	"loss": 2.4710798263549805,
	"mean_token_accuracy": 0.5324664115905762,
	"num_tokens": 16496.0,
	"step": 1
	},
	{
	"entropy": 1.2463930547237396,
	"epoch": 0.007476635514018692,
	"grad_norm": 0.3692863881587982,
	"learning_rate": 0.0002,
	"loss": 2.165541648864746,
	"mean_token_accuracy": 0.5610552132129669,
	"num_tokens": 32901.0,
	"step": 2
	},
	{
	"entropy": 1.4113854467868805,
	"epoch": 0.011214953271028037,
	"grad_norm": 0.2915845811367035,
	"learning_rate": 0.0002,
	"loss": 1.7357215881347656,
	"mean_token_accuracy": 0.5886629670858383,
	"num_tokens": 49245.0,
	"step": 3
	},
	{
	"entropy": 1.379658043384552,
	"epoch": 0.014953271028037384,
	"grad_norm": 0.23361942172050476,
	"learning_rate": 0.0002,
	"loss": 1.410735011100769,
	"mean_token_accuracy": 0.6355755776166916,
	"num_tokens": 65811.0,
	"step": 4
	},
	{
	"entropy": 1.3623565435409546,
	"epoch": 0.018691588785046728,
	"grad_norm": 0.26191750168800354,
	"learning_rate": 0.0002,
	"loss": 1.2986161708831787,
	"mean_token_accuracy": 0.6415031999349594,
	"num_tokens": 82189.0,
	"step": 5
	},
	{
	"entropy": 1.2727859914302826,
	"epoch": 0.022429906542056073,
	"grad_norm": 0.1533316969871521,
	"learning_rate": 0.0002,
	"loss": 1.1948474645614624,
	"mean_token_accuracy": 0.6546026170253754,
	"num_tokens": 98489.0,
	"step": 6
	},
	{
	"entropy": 1.2184827625751495,
	"epoch": 0.026168224299065422,
	"grad_norm": 0.10424298793077469,
	"learning_rate": 0.0002,
	"loss": 1.1188591718673706,
	"mean_token_accuracy": 0.6631771177053452,
	"num_tokens": 114851.0,
	"step": 7
	},
	{
	"entropy": 1.1237380504608154,
	"epoch": 0.029906542056074768,
	"grad_norm": 0.10689449310302734,
	"learning_rate": 0.0002,
	"loss": 1.0371830463409424,
	"mean_token_accuracy": 0.6718492060899734,
	"num_tokens": 131220.0,
	"step": 8
	},
	{
	"entropy": 1.0455615520477295,
	"epoch": 0.03364485981308411,
	"grad_norm": 0.12944048643112183,
	"learning_rate": 0.0002,
	"loss": 0.9913585782051086,
	"mean_token_accuracy": 0.6828599572181702,
	"num_tokens": 147616.0,
	"step": 9
	},
	{
	"entropy": 0.9801072925329208,
	"epoch": 0.037383177570093455,
	"grad_norm": 0.1291113793849945,
	"learning_rate": 0.0002,
	"loss": 0.9284825325012207,
	"mean_token_accuracy": 0.7001921981573105,
	"num_tokens": 164002.0,
	"step": 10
	},
	{
	"entropy": 0.953565314412117,
	"epoch": 0.041121495327102804,
	"grad_norm": 0.10645624995231628,
	"learning_rate": 0.0002,
	"loss": 0.8795915842056274,
	"mean_token_accuracy": 0.7043117135763168,
	"num_tokens": 180220.0,
	"step": 11
	},
	{
	"entropy": 0.9155157953500748,
	"epoch": 0.044859813084112146,
	"grad_norm": 0.11287244409322739,
	"learning_rate": 0.0002,
	"loss": 0.8326205015182495,
	"mean_token_accuracy": 0.7109687179327011,
	"num_tokens": 196521.0,
	"step": 12
	},
	{
	"entropy": 0.8468948155641556,
	"epoch": 0.048598130841121495,
	"grad_norm": 0.10245727747678757,
	"learning_rate": 0.0002,
	"loss": 0.8009377121925354,
	"mean_token_accuracy": 0.7149728387594223,
	"num_tokens": 212778.0,
	"step": 13
	},
	{
	"entropy": 0.7708506435155869,
	"epoch": 0.052336448598130844,
	"grad_norm": 0.09908365458250046,
	"learning_rate": 0.0002,
	"loss": 0.7473602890968323,
	"mean_token_accuracy": 0.7281823754310608,
	"num_tokens": 228942.0,
	"step": 14
	},
	{
	"entropy": 0.7574831545352936,
	"epoch": 0.056074766355140186,
	"grad_norm": 0.10171845555305481,
	"learning_rate": 0.0002,
	"loss": 0.7353494167327881,
	"mean_token_accuracy": 0.7308090776205063,
	"num_tokens": 245256.0,
	"step": 15
	},
	{
	"entropy": 0.6849008500576019,
	"epoch": 0.059813084112149535,
	"grad_norm": 0.08664627373218536,
	"learning_rate": 0.0002,
	"loss": 0.6817273497581482,
	"mean_token_accuracy": 0.7445196211338043,
	"num_tokens": 261288.0,
	"step": 16
	},
	{
	"entropy": 0.6784532964229584,
	"epoch": 0.06355140186915888,
	"grad_norm": 0.08904161304235458,
	"learning_rate": 0.0002,
	"loss": 0.6835237741470337,
	"mean_token_accuracy": 0.7402277588844299,
	"num_tokens": 277473.0,
	"step": 17
	},
	{
	"entropy": 0.6737232953310013,
	"epoch": 0.06728971962616823,
	"grad_norm": 0.08908089250326157,
	"learning_rate": 0.0002,
	"loss": 0.6696494817733765,
	"mean_token_accuracy": 0.7452213168144226,
	"num_tokens": 293986.0,
	"step": 18
	},
	{
	"entropy": 0.676809772849083,
	"epoch": 0.07102803738317758,
	"grad_norm": 0.08826066553592682,
	"learning_rate": 0.0002,
	"loss": 0.6623877286911011,
	"mean_token_accuracy": 0.747529536485672,
	"num_tokens": 310269.0,
	"step": 19
	},
	{
	"entropy": 0.6532965898513794,
	"epoch": 0.07476635514018691,
	"grad_norm": 0.08917281031608582,
	"learning_rate": 0.0002,
	"loss": 0.6443736553192139,
	"mean_token_accuracy": 0.7480695396661758,
	"num_tokens": 326491.0,
	"step": 20
	},
	{
	"entropy": 0.6552709937095642,
	"epoch": 0.07850467289719626,
	"grad_norm": 0.08073496073484421,
	"learning_rate": 0.0002,
	"loss": 0.6399368643760681,
	"mean_token_accuracy": 0.7507821917533875,
	"num_tokens": 342841.0,
	"step": 21
	},
	{
	"entropy": 0.6378396600484848,
	"epoch": 0.08224299065420561,
	"grad_norm": 0.063417449593544,
	"learning_rate": 0.0002,
	"loss": 0.6258761882781982,
	"mean_token_accuracy": 0.7539727091789246,
	"num_tokens": 359584.0,
	"step": 22
	},
	{
	"entropy": 0.6046861261129379,
	"epoch": 0.08598130841121496,
	"grad_norm": 0.06905008107423782,
	"learning_rate": 0.0002,
	"loss": 0.6049938201904297,
	"mean_token_accuracy": 0.7625735104084015,
	"num_tokens": 375502.0,
	"step": 23
	},
	{
	"entropy": 0.6043607741594315,
	"epoch": 0.08971962616822429,
	"grad_norm": 0.0712490975856781,
	"learning_rate": 0.0002,
	"loss": 0.6081230640411377,
	"mean_token_accuracy": 0.761991336941719,
	"num_tokens": 391668.0,
	"step": 24
	},
	{
	"entropy": 0.5921229273080826,
	"epoch": 0.09345794392523364,
	"grad_norm": 0.06059383973479271,
	"learning_rate": 0.0002,
	"loss": 0.5966373682022095,
	"mean_token_accuracy": 0.7640610188245773,
	"num_tokens": 408064.0,
	"step": 25
	},
	{
	"entropy": 0.6013955473899841,
	"epoch": 0.09719626168224299,
	"grad_norm": 0.05800875276327133,
	"learning_rate": 0.0002,
	"loss": 0.6032594442367554,
	"mean_token_accuracy": 0.7606146037578583,
	"num_tokens": 424308.0,
	"step": 26
	},
	{
	"entropy": 0.6059402525424957,
	"epoch": 0.10093457943925234,
	"grad_norm": 0.05799295753240585,
	"learning_rate": 0.0002,
	"loss": 0.6014454960823059,
	"mean_token_accuracy": 0.7633127868175507,
	"num_tokens": 440626.0,
	"step": 27
	},
	{
	"entropy": 0.6059208810329437,
	"epoch": 0.10467289719626169,
	"grad_norm": 0.06835797429084778,
	"learning_rate": 0.0002,
	"loss": 0.5960400104522705,
	"mean_token_accuracy": 0.7644040137529373,
	"num_tokens": 457127.0,
	"step": 28
	},
	{
	"entropy": 0.6063490360975266,
	"epoch": 0.10841121495327102,
	"grad_norm": 0.08442196249961853,
	"learning_rate": 0.0002,
	"loss": 0.5988196730613708,
	"mean_token_accuracy": 0.7642622292041779,
	"num_tokens": 473449.0,
	"step": 29
	},
	{
	"entropy": 0.6044150143861771,
	"epoch": 0.11214953271028037,
	"grad_norm": 0.05611753463745117,
	"learning_rate": 0.0002,
	"loss": 0.5849661231040955,
	"mean_token_accuracy": 0.7694830596446991,
	"num_tokens": 489953.0,
	"step": 30
	},
	{
	"entropy": 0.5886638015508652,
	"epoch": 0.11588785046728972,
	"grad_norm": 0.055090922862291336,
	"learning_rate": 0.0002,
	"loss": 0.5829939842224121,
	"mean_token_accuracy": 0.769635483622551,
	"num_tokens": 506414.0,
	"step": 31
	},
	{
	"entropy": 0.5746142864227295,
	"epoch": 0.11962616822429907,
	"grad_norm": 0.049661796540021896,
	"learning_rate": 0.0002,
	"loss": 0.5790735483169556,
	"mean_token_accuracy": 0.7714909315109253,
	"num_tokens": 522742.0,
	"step": 32
	},
	{
	"entropy": 0.5767629146575928,
	"epoch": 0.1233644859813084,
	"grad_norm": 0.04847181588411331,
	"learning_rate": 0.0002,
	"loss": 0.580193281173706,
	"mean_token_accuracy": 0.7714395672082901,
	"num_tokens": 539199.0,
	"step": 33
	},
	{
	"entropy": 0.5745265781879425,
	"epoch": 0.12710280373831775,
	"grad_norm": 0.05860326439142227,
	"learning_rate": 0.0002,
	"loss": 0.5901641845703125,
	"mean_token_accuracy": 0.7679091691970825,
	"num_tokens": 555326.0,
	"step": 34
	},
	{
	"entropy": 0.567798376083374,
	"epoch": 0.1308411214953271,
	"grad_norm": 0.05234525725245476,
	"learning_rate": 0.0002,
	"loss": 0.5799325704574585,
	"mean_token_accuracy": 0.766155481338501,
	"num_tokens": 571808.0,
	"step": 35
	},
	{
	"entropy": 0.5698586851358414,
	"epoch": 0.13457943925233645,
	"grad_norm": 0.041219986975193024,
	"learning_rate": 0.0002,
	"loss": 0.573387086391449,
	"mean_token_accuracy": 0.769883319735527,
	"num_tokens": 588161.0,
	"step": 36
	},
	{
	"entropy": 0.5851186513900757,
	"epoch": 0.1383177570093458,
	"grad_norm": 0.04337616264820099,
	"learning_rate": 0.0002,
	"loss": 0.5821909308433533,
	"mean_token_accuracy": 0.7661230564117432,
	"num_tokens": 604598.0,
	"step": 37
	},
	{
	"entropy": 0.5961429327726364,
	"epoch": 0.14205607476635515,
	"grad_norm": 0.05468963831663132,
	"learning_rate": 0.0002,
	"loss": 0.5940048098564148,
	"mean_token_accuracy": 0.7601669579744339,
	"num_tokens": 620746.0,
	"step": 38
	},
	{
	"entropy": 0.5826456397771835,
	"epoch": 0.14579439252336449,
	"grad_norm": 0.047812167555093765,
	"learning_rate": 0.0002,
	"loss": 0.5687558054924011,
	"mean_token_accuracy": 0.771986335515976,
	"num_tokens": 637151.0,
	"step": 39
	},
	{
	"entropy": 0.5903666168451309,
	"epoch": 0.14953271028037382,
	"grad_norm": 0.044994354248046875,
	"learning_rate": 0.0002,
	"loss": 0.5762028098106384,
	"mean_token_accuracy": 0.7677688300609589,
	"num_tokens": 653530.0,
	"step": 40
	},
	{
	"entropy": 0.5751803368330002,
	"epoch": 0.15327102803738318,
	"grad_norm": 0.04342395439743996,
	"learning_rate": 0.0002,
	"loss": 0.5721427798271179,
	"mean_token_accuracy": 0.7731492966413498,
	"num_tokens": 669957.0,
	"step": 41
	},
	{
	"entropy": 0.5582813173532486,
	"epoch": 0.15700934579439252,
	"grad_norm": 0.05154528096318245,
	"learning_rate": 0.0002,
	"loss": 0.5713383555412292,
	"mean_token_accuracy": 0.7701951861381531,
	"num_tokens": 685933.0,
	"step": 42
	},
	{
	"entropy": 0.5747530311346054,
	"epoch": 0.16074766355140188,
	"grad_norm": 0.05052989348769188,
	"learning_rate": 0.0002,
	"loss": 0.5861970782279968,
	"mean_token_accuracy": 0.7652492970228195,
	"num_tokens": 702131.0,
	"step": 43
	},
	{
	"entropy": 0.5861315429210663,
	"epoch": 0.16448598130841122,
	"grad_norm": 0.043960776180028915,
	"learning_rate": 0.0002,
	"loss": 0.5891501903533936,
	"mean_token_accuracy": 0.7628277689218521,
	"num_tokens": 718330.0,
	"step": 44
	},
	{
	"entropy": 0.5868926346302032,
	"epoch": 0.16822429906542055,
	"grad_norm": 0.035861797630786896,
	"learning_rate": 0.0002,
	"loss": 0.5814363360404968,
	"mean_token_accuracy": 0.7670950144529343,
	"num_tokens": 734754.0,
	"step": 45
	},
	{
	"entropy": 0.5696061849594116,
	"epoch": 0.17196261682242991,
	"grad_norm": 0.03567943349480629,
	"learning_rate": 0.0002,
	"loss": 0.5582084655761719,
	"mean_token_accuracy": 0.7754767388105392,
	"num_tokens": 750952.0,
	"step": 46
	},
	{
	"entropy": 0.5884592086076736,
	"epoch": 0.17570093457943925,
	"grad_norm": 0.04051043465733528,
	"learning_rate": 0.0002,
	"loss": 0.5837826132774353,
	"mean_token_accuracy": 0.7652305215597153,
	"num_tokens": 767136.0,
	"step": 47
	},
	{
	"entropy": 0.568819597363472,
	"epoch": 0.17943925233644858,
	"grad_norm": 0.04234869405627251,
	"learning_rate": 0.0002,
	"loss": 0.5664035081863403,
	"mean_token_accuracy": 0.7719341665506363,
	"num_tokens": 783513.0,
	"step": 48
	},
	{
	"entropy": 0.553595632314682,
	"epoch": 0.18317757009345795,
	"grad_norm": 0.04170480743050575,
	"learning_rate": 0.0002,
	"loss": 0.564354658126831,
	"mean_token_accuracy": 0.7749540507793427,
	"num_tokens": 799703.0,
	"step": 49
	},
	{
	"entropy": 0.5621031820774078,
	"epoch": 0.18691588785046728,
	"grad_norm": 0.042460180819034576,
	"learning_rate": 0.0002,
	"loss": 0.576507568359375,
	"mean_token_accuracy": 0.7702780216932297,
	"num_tokens": 815979.0,
	"step": 50
	},
	{
	"entropy": 0.5803797841072083,
	"epoch": 0.19065420560747665,
	"grad_norm": 0.036130718886852264,
	"learning_rate": 0.0002,
	"loss": 0.5826534628868103,
	"mean_token_accuracy": 0.767243430018425,
	"num_tokens": 832435.0,
	"step": 51
	},
	{
	"entropy": 0.5492766499519348,
	"epoch": 0.19439252336448598,
	"grad_norm": 0.04120517149567604,
	"learning_rate": 0.0002,
	"loss": 0.5535300374031067,
	"mean_token_accuracy": 0.7766350656747818,
	"num_tokens": 848601.0,
	"step": 52
	},
	{
	"entropy": 0.5690171420574188,
	"epoch": 0.19813084112149532,
	"grad_norm": 0.03631429374217987,
	"learning_rate": 0.0002,
	"loss": 0.5688353776931763,
	"mean_token_accuracy": 0.7699357271194458,
	"num_tokens": 864779.0,
	"step": 53
	},
	{
	"entropy": 0.5830478370189667,
	"epoch": 0.20186915887850468,
	"grad_norm": 0.03915117308497429,
	"learning_rate": 0.0002,
	"loss": 0.5719392895698547,
	"mean_token_accuracy": 0.7702472358942032,
	"num_tokens": 881366.0,
	"step": 54
	},
	{
	"entropy": 0.5905578434467316,
	"epoch": 0.205607476635514,
	"grad_norm": 0.038457099348306656,
	"learning_rate": 0.0002,
	"loss": 0.5855496525764465,
	"mean_token_accuracy": 0.7646182626485825,
	"num_tokens": 897955.0,
	"step": 55
	},
	{
	"entropy": 0.5837848633527756,
	"epoch": 0.20934579439252338,
	"grad_norm": 0.04033343121409416,
	"learning_rate": 0.0002,
	"loss": 0.5784925222396851,
	"mean_token_accuracy": 0.7649644762277603,
	"num_tokens": 914164.0,
	"step": 56
	},
	{
	"entropy": 0.5470199286937714,
	"epoch": 0.2130841121495327,
	"grad_norm": 0.036680735647678375,
	"learning_rate": 0.0002,
	"loss": 0.5427253246307373,
	"mean_token_accuracy": 0.7822186052799225,
	"num_tokens": 930444.0,
	"step": 57
	},
	{
	"entropy": 0.5544598549604416,
	"epoch": 0.21682242990654205,
	"grad_norm": 0.04701124131679535,
	"learning_rate": 0.0002,
	"loss": 0.569618821144104,
	"mean_token_accuracy": 0.771122008562088,
	"num_tokens": 946567.0,
	"step": 58
	},
	{
	"entropy": 0.5725786834955215,
	"epoch": 0.2205607476635514,
	"grad_norm": 0.04193125665187836,
	"learning_rate": 0.0002,
	"loss": 0.5894483923912048,
	"mean_token_accuracy": 0.7642552405595779,
	"num_tokens": 962894.0,
	"step": 59
	},
	{
	"entropy": 0.5668687969446182,
	"epoch": 0.22429906542056074,
	"grad_norm": 0.033951517194509506,
	"learning_rate": 0.0002,
	"loss": 0.5699459314346313,
	"mean_token_accuracy": 0.7729462385177612,
	"num_tokens": 979210.0,
	"step": 60
	},
	{
	"entropy": 0.5792391896247864,
	"epoch": 0.22803738317757008,
	"grad_norm": 0.041912537068128586,
	"learning_rate": 0.0002,
	"loss": 0.5683349370956421,
	"mean_token_accuracy": 0.7706285119056702,
	"num_tokens": 995540.0,
	"step": 61
	},
	{
	"entropy": 0.5809753388166428,
	"epoch": 0.23177570093457944,
	"grad_norm": 0.036393389105796814,
	"learning_rate": 0.0002,
	"loss": 0.5727679133415222,
	"mean_token_accuracy": 0.7684315294027328,
	"num_tokens": 1011805.0,
	"step": 62
	},
	{
	"entropy": 0.5670438855886459,
	"epoch": 0.23551401869158878,
	"grad_norm": 0.03674926608800888,
	"learning_rate": 0.0002,
	"loss": 0.5604680776596069,
	"mean_token_accuracy": 0.7723257541656494,
	"num_tokens": 1028009.0,
	"step": 63
	},
	{
	"entropy": 0.5653442144393921,
	"epoch": 0.23925233644859814,
	"grad_norm": 0.03534647822380066,
	"learning_rate": 0.0002,
	"loss": 0.5580601096153259,
	"mean_token_accuracy": 0.7755836397409439,
	"num_tokens": 1044521.0,
	"step": 64
	},
	{
	"entropy": 0.5762730091810226,
	"epoch": 0.24299065420560748,
	"grad_norm": 0.03369547426700592,
	"learning_rate": 0.0002,
	"loss": 0.5709710121154785,
	"mean_token_accuracy": 0.7710799872875214,
	"num_tokens": 1060984.0,
	"step": 65
	},
	{
	"entropy": 0.56136754155159,
	"epoch": 0.2467289719626168,
	"grad_norm": 0.050162531435489655,
	"learning_rate": 0.0002,
	"loss": 0.5662704706192017,
	"mean_token_accuracy": 0.7702763229608536,
	"num_tokens": 1077512.0,
	"step": 66
	},
	{
	"entropy": 0.5493937730789185,
	"epoch": 0.2504672897196262,
	"grad_norm": 0.0446079783141613,
	"learning_rate": 0.0002,
	"loss": 0.563389778137207,
	"mean_token_accuracy": 0.7724475711584091,
	"num_tokens": 1093860.0,
	"step": 67
	},
	{
	"entropy": 0.5527212023735046,
	"epoch": 0.2542056074766355,
	"grad_norm": 0.04445589333772659,
	"learning_rate": 0.0002,
	"loss": 0.553238034248352,
	"mean_token_accuracy": 0.777790442109108,
	"num_tokens": 1109927.0,
	"step": 68
	},
	{
	"entropy": 0.5742960721254349,
	"epoch": 0.25794392523364484,
	"grad_norm": 0.03155473247170448,
	"learning_rate": 0.0002,
	"loss": 0.5755714774131775,
	"mean_token_accuracy": 0.7682003676891327,
	"num_tokens": 1126507.0,
	"step": 69
	},
	{
	"entropy": 0.570902407169342,
	"epoch": 0.2616822429906542,
	"grad_norm": 0.03776158019900322,
	"learning_rate": 0.0002,
	"loss": 0.5687341094017029,
	"mean_token_accuracy": 0.7690709233283997,
	"num_tokens": 1142690.0,
	"step": 70
	},
	{
	"entropy": 0.5869749188423157,
	"epoch": 0.26542056074766357,
	"grad_norm": 0.03637450933456421,
	"learning_rate": 0.0002,
	"loss": 0.5745267271995544,
	"mean_token_accuracy": 0.7675913572311401,
	"num_tokens": 1158998.0,
	"step": 71
	},
	{
	"entropy": 0.5770464688539505,
	"epoch": 0.2691588785046729,
	"grad_norm": 0.03824329748749733,
	"learning_rate": 0.0002,
	"loss": 0.5806713104248047,
	"mean_token_accuracy": 0.765295684337616,
	"num_tokens": 1175369.0,
	"step": 72
	},
	{
	"entropy": 0.5496443659067154,
	"epoch": 0.27289719626168224,
	"grad_norm": 0.03833479806780815,
	"learning_rate": 0.0002,
	"loss": 0.552317202091217,
	"mean_token_accuracy": 0.7775600254535675,
	"num_tokens": 1191776.0,
	"step": 73
	},
	{
	"entropy": 0.5672993659973145,
	"epoch": 0.2766355140186916,
	"grad_norm": 0.035141605883836746,
	"learning_rate": 0.0002,
	"loss": 0.5738911032676697,
	"mean_token_accuracy": 0.769673228263855,
	"num_tokens": 1208289.0,
	"step": 74
	},
	{
	"entropy": 0.5747457444667816,
	"epoch": 0.2803738317757009,
	"grad_norm": 0.03779706731438637,
	"learning_rate": 0.0002,
	"loss": 0.580111026763916,
	"mean_token_accuracy": 0.7651933431625366,
	"num_tokens": 1224804.0,
	"step": 75
	},
	{
	"entropy": 0.5685230642557144,
	"epoch": 0.2841121495327103,
	"grad_norm": 0.03369152173399925,
	"learning_rate": 0.0002,
	"loss": 0.571203351020813,
	"mean_token_accuracy": 0.7706969380378723,
	"num_tokens": 1240994.0,
	"step": 76
	},
	{
	"entropy": 0.5724664479494095,
	"epoch": 0.28785046728971964,
	"grad_norm": 0.03279148414731026,
	"learning_rate": 0.0002,
	"loss": 0.5703553557395935,
	"mean_token_accuracy": 0.7710930705070496,
	"num_tokens": 1257180.0,
	"step": 77
	},
	{
	"entropy": 0.570750430226326,
	"epoch": 0.29158878504672897,
	"grad_norm": 0.035474326461553574,
	"learning_rate": 0.0002,
	"loss": 0.57155442237854,
	"mean_token_accuracy": 0.7676969021558762,
	"num_tokens": 1273176.0,
	"step": 78
	},
	{
	"entropy": 0.5746997892856598,
	"epoch": 0.2953271028037383,
	"grad_norm": 0.03326554223895073,
	"learning_rate": 0.0002,
	"loss": 0.5764865279197693,
	"mean_token_accuracy": 0.7667145133018494,
	"num_tokens": 1289572.0,
	"step": 79
	},
	{
	"entropy": 0.5560239851474762,
	"epoch": 0.29906542056074764,
	"grad_norm": 0.033652499318122864,
	"learning_rate": 0.0002,
	"loss": 0.5541852712631226,
	"mean_token_accuracy": 0.7752721756696701,
	"num_tokens": 1305646.0,
	"step": 80
	},
	{
	"entropy": 0.5700062215328217,
	"epoch": 0.30280373831775703,
	"grad_norm": 0.036336466670036316,
	"learning_rate": 0.0002,
	"loss": 0.5715289115905762,
	"mean_token_accuracy": 0.7702216506004333,
	"num_tokens": 1322328.0,
	"step": 81
	},
	{
	"entropy": 0.5599597245454788,
	"epoch": 0.30654205607476637,
	"grad_norm": 0.032290052622556686,
	"learning_rate": 0.0002,
	"loss": 0.5614467859268188,
	"mean_token_accuracy": 0.7732760310173035,
	"num_tokens": 1338359.0,
	"step": 82
	},
	{
	"entropy": 0.5446556061506271,
	"epoch": 0.3102803738317757,
	"grad_norm": 0.03226450830698013,
	"learning_rate": 0.0002,
	"loss": 0.5512461066246033,
	"mean_token_accuracy": 0.7779420912265778,
	"num_tokens": 1354321.0,
	"step": 83
	},
	{
	"entropy": 0.5505060404539108,
	"epoch": 0.31401869158878504,
	"grad_norm": 0.035315077751874924,
	"learning_rate": 0.0002,
	"loss": 0.5553967952728271,
	"mean_token_accuracy": 0.7761841863393784,
	"num_tokens": 1370409.0,
	"step": 84
	},
	{
	"entropy": 0.5602358281612396,
	"epoch": 0.3177570093457944,
	"grad_norm": 0.031360018998384476,
	"learning_rate": 0.0002,
	"loss": 0.5553810596466064,
	"mean_token_accuracy": 0.7750610113143921,
	"num_tokens": 1386951.0,
	"step": 85
	},
	{
	"entropy": 0.5592145472764969,
	"epoch": 0.32149532710280376,
	"grad_norm": 0.03307170048356056,
	"learning_rate": 0.0002,
	"loss": 0.5547728538513184,
	"mean_token_accuracy": 0.7769513875246048,
	"num_tokens": 1403318.0,
	"step": 86
	},
	{
	"entropy": 0.5478426665067673,
	"epoch": 0.3252336448598131,
	"grad_norm": 0.03468095511198044,
	"learning_rate": 0.0002,
	"loss": 0.5475176572799683,
	"mean_token_accuracy": 0.7787642478942871,
	"num_tokens": 1419588.0,
	"step": 87
	},
	{
	"entropy": 0.5575945675373077,
	"epoch": 0.32897196261682243,
	"grad_norm": 0.0372730977833271,
	"learning_rate": 0.0002,
	"loss": 0.5592425465583801,
	"mean_token_accuracy": 0.7753143310546875,
	"num_tokens": 1435879.0,
	"step": 88
	},
	{
	"entropy": 0.5516618192195892,
	"epoch": 0.33271028037383177,
	"grad_norm": 0.03459680825471878,
	"learning_rate": 0.0002,
	"loss": 0.5590015649795532,
	"mean_token_accuracy": 0.7763092070817947,
	"num_tokens": 1452255.0,
	"step": 89
	},
	{
	"entropy": 0.5537828356027603,
	"epoch": 0.3364485981308411,
	"grad_norm": 0.037478331476449966,
	"learning_rate": 0.0002,
	"loss": 0.5628093481063843,
	"mean_token_accuracy": 0.7731254547834396,
	"num_tokens": 1468440.0,
	"step": 90
	},
	{
	"entropy": 0.5597833395004272,
	"epoch": 0.3401869158878505,
	"grad_norm": 0.03566694259643555,
	"learning_rate": 0.0002,
	"loss": 0.5576118230819702,
	"mean_token_accuracy": 0.7733734101057053,
	"num_tokens": 1484803.0,
	"step": 91
	},
	{
	"entropy": 0.5624473690986633,
	"epoch": 0.34392523364485983,
	"grad_norm": 0.038208235055208206,
	"learning_rate": 0.0002,
	"loss": 0.5643529891967773,
	"mean_token_accuracy": 0.773946151137352,
	"num_tokens": 1500849.0,
	"step": 92
	},
	{
	"entropy": 0.5809104889631271,
	"epoch": 0.34766355140186916,
	"grad_norm": 0.03173667564988136,
	"learning_rate": 0.0002,
	"loss": 0.5739686489105225,
	"mean_token_accuracy": 0.7694463729858398,
	"num_tokens": 1517263.0,
	"step": 93
	},
	{
	"entropy": 0.5697960555553436,
	"epoch": 0.3514018691588785,
	"grad_norm": 0.03167756646871567,
	"learning_rate": 0.0002,
	"loss": 0.5665271878242493,
	"mean_token_accuracy": 0.7699908316135406,
	"num_tokens": 1533648.0,
	"step": 94
	},
	{
	"entropy": 0.5966296941041946,
	"epoch": 0.35514018691588783,
	"grad_norm": 0.036720361560583115,
	"learning_rate": 0.0002,
	"loss": 0.5901257395744324,
	"mean_token_accuracy": 0.7647226899862289,
	"num_tokens": 1550084.0,
	"step": 95
	},
	{
	"entropy": 0.5599866956472397,
	"epoch": 0.35887850467289717,
	"grad_norm": 0.03618223965167999,
	"learning_rate": 0.0002,
	"loss": 0.5656697750091553,
	"mean_token_accuracy": 0.7732058614492416,
	"num_tokens": 1566526.0,
	"step": 96
	},
	{
	"entropy": 0.5660023838281631,
	"epoch": 0.36261682242990656,
	"grad_norm": 0.037616875022649765,
	"learning_rate": 0.0002,
	"loss": 0.5731638669967651,
	"mean_token_accuracy": 0.7681225687265396,
	"num_tokens": 1582887.0,
	"step": 97
	},
	{
	"entropy": 0.5692461878061295,
	"epoch": 0.3663551401869159,
	"grad_norm": 0.04291412979364395,
	"learning_rate": 0.0002,
	"loss": 0.5790476202964783,
	"mean_token_accuracy": 0.7658884823322296,
	"num_tokens": 1599367.0,
	"step": 98
	},
	{
	"entropy": 0.5626956224441528,
	"epoch": 0.37009345794392523,
	"grad_norm": 0.03269932419061661,
	"learning_rate": 0.0002,
	"loss": 0.5623303651809692,
	"mean_token_accuracy": 0.7726950198411942,
	"num_tokens": 1615716.0,
	"step": 99
	},
	{
	"entropy": 0.5417574644088745,
	"epoch": 0.37383177570093457,
	"grad_norm": 0.029643645510077477,
	"learning_rate": 0.0002,
	"loss": 0.5503037571907043,
	"mean_token_accuracy": 0.7786638289690018,
	"num_tokens": 1631985.0,
	"step": 100
	},
	{
	"entropy": 0.5644317716360092,
	"epoch": 0.3775700934579439,
	"grad_norm": 0.03810103237628937,
	"learning_rate": 0.0002,
	"loss": 0.5641601085662842,
	"mean_token_accuracy": 0.7715529501438141,
	"num_tokens": 1648148.0,
	"step": 101
	},
	{
	"entropy": 0.5648799985647202,
	"epoch": 0.3813084112149533,
	"grad_norm": 0.02914907969534397,
	"learning_rate": 0.0002,
	"loss": 0.5619527101516724,
	"mean_token_accuracy": 0.7744928747415543,
	"num_tokens": 1664554.0,
	"step": 102
	},
	{
	"entropy": 0.5753660798072815,
	"epoch": 0.3850467289719626,
	"grad_norm": 0.02887723594903946,
	"learning_rate": 0.0002,
	"loss": 0.5688785314559937,
	"mean_token_accuracy": 0.7692504674196243,
	"num_tokens": 1680782.0,
	"step": 103
	},
	{
	"entropy": 0.561363086104393,
	"epoch": 0.38878504672897196,
	"grad_norm": 0.028774583712220192,
	"learning_rate": 0.0002,
	"loss": 0.560323178768158,
	"mean_token_accuracy": 0.7716943174600601,
	"num_tokens": 1696855.0,
	"step": 104
	},
	{
	"entropy": 0.5558189004659653,
	"epoch": 0.3925233644859813,
	"grad_norm": 0.030897047370672226,
	"learning_rate": 0.0002,
	"loss": 0.5627227425575256,
	"mean_token_accuracy": 0.7728832811117172,
	"num_tokens": 1713092.0,
	"step": 105
	},
	{
	"entropy": 0.5579479783773422,
	"epoch": 0.39626168224299063,
	"grad_norm": 0.03168272599577904,
	"learning_rate": 0.0002,
	"loss": 0.5611063241958618,
	"mean_token_accuracy": 0.7737848162651062,
	"num_tokens": 1729174.0,
	"step": 106
	},
	{
	"entropy": 0.5593132227659225,
	"epoch": 0.4,
	"grad_norm": 0.030001681298017502,
	"learning_rate": 0.0002,
	"loss": 0.5634371638298035,
	"mean_token_accuracy": 0.7737011611461639,
	"num_tokens": 1745387.0,
	"step": 107
	},
	{
	"entropy": 0.5454982221126556,
	"epoch": 0.40373831775700936,
	"grad_norm": 0.033263012766838074,
	"learning_rate": 0.0002,
	"loss": 0.5490332841873169,
	"mean_token_accuracy": 0.7772792428731918,
	"num_tokens": 1761446.0,
	"step": 108
	},
	{
	"entropy": 0.5551732182502747,
	"epoch": 0.4074766355140187,
	"grad_norm": 0.030698338523507118,
	"learning_rate": 0.0002,
	"loss": 0.5535954236984253,
	"mean_token_accuracy": 0.773947462439537,
	"num_tokens": 1778105.0,
	"step": 109
	},
	{
	"entropy": 0.5650522261857986,
	"epoch": 0.411214953271028,
	"grad_norm": 0.02939177118241787,
	"learning_rate": 0.0002,
	"loss": 0.5615048408508301,
	"mean_token_accuracy": 0.7712746411561966,
	"num_tokens": 1794562.0,
	"step": 110
	},
	{
	"entropy": 0.5696343183517456,
	"epoch": 0.41495327102803736,
	"grad_norm": 0.03011537715792656,
	"learning_rate": 0.0002,
	"loss": 0.5706506967544556,
	"mean_token_accuracy": 0.7699969708919525,
	"num_tokens": 1810779.0,
	"step": 111
	},
	{
	"entropy": 0.5387005656957626,
	"epoch": 0.41869158878504675,
	"grad_norm": 0.033464495092630386,
	"learning_rate": 0.0002,
	"loss": 0.5423218607902527,
	"mean_token_accuracy": 0.7795679718255997,
	"num_tokens": 1827208.0,
	"step": 112
	},
	{
	"entropy": 0.5597733706235886,
	"epoch": 0.4224299065420561,
	"grad_norm": 0.029017142951488495,
	"learning_rate": 0.0002,
	"loss": 0.5561181306838989,
	"mean_token_accuracy": 0.7743376046419144,
	"num_tokens": 1843649.0,
	"step": 113
	},
	{
	"entropy": 0.5541809946298599,
	"epoch": 0.4261682242990654,
	"grad_norm": 0.030042298138141632,
	"learning_rate": 0.0002,
	"loss": 0.5544824600219727,
	"mean_token_accuracy": 0.7773302495479584,
	"num_tokens": 1859919.0,
	"step": 114
	},
	{
	"entropy": 0.5697837471961975,
	"epoch": 0.42990654205607476,
	"grad_norm": 0.029710182920098305,
	"learning_rate": 0.0002,
	"loss": 0.5684210658073425,
	"mean_token_accuracy": 0.7717447876930237,
	"num_tokens": 1876288.0,
	"step": 115
	},
	{
	"entropy": 0.5591758489608765,
	"epoch": 0.4336448598130841,
	"grad_norm": 0.031515248119831085,
	"learning_rate": 0.0002,
	"loss": 0.5618751645088196,
	"mean_token_accuracy": 0.77419513463974,
	"num_tokens": 1892685.0,
	"step": 116
	},
	{
	"entropy": 0.5360209345817566,
	"epoch": 0.4373831775700935,
	"grad_norm": 0.036333996802568436,
	"learning_rate": 0.0002,
	"loss": 0.5519132614135742,
	"mean_token_accuracy": 0.77690489590168,
	"num_tokens": 1908983.0,
	"step": 117
	},
	{
	"entropy": 0.5584719926118851,
	"epoch": 0.4411214953271028,
	"grad_norm": 0.03057498298585415,
	"learning_rate": 0.0002,
	"loss": 0.5668904185295105,
	"mean_token_accuracy": 0.7719320356845856,
	"num_tokens": 1925134.0,
	"step": 118
	},
	{
	"entropy": 0.5634136199951172,
	"epoch": 0.44485981308411215,
	"grad_norm": 0.038503021001815796,
	"learning_rate": 0.0002,
	"loss": 0.5522302389144897,
	"mean_token_accuracy": 0.7777165621519089,
	"num_tokens": 1941319.0,
	"step": 119
	},
	{
	"entropy": 0.5695697367191315,
	"epoch": 0.4485981308411215,
	"grad_norm": 0.02690051682293415,
	"learning_rate": 0.0002,
	"loss": 0.5623375773429871,
	"mean_token_accuracy": 0.7749422192573547,
	"num_tokens": 1957576.0,
	"step": 120
	},
	{
	"entropy": 0.5670370161533356,
	"epoch": 0.4523364485981308,
	"grad_norm": 0.030103027820587158,
	"learning_rate": 0.0002,
	"loss": 0.5645368695259094,
	"mean_token_accuracy": 0.7715286463499069,
	"num_tokens": 1973598.0,
	"step": 121
	},
	{
	"entropy": 0.5673844367265701,
	"epoch": 0.45607476635514016,
	"grad_norm": 0.03927698731422424,
	"learning_rate": 0.0002,
	"loss": 0.5738642811775208,
	"mean_token_accuracy": 0.7676763832569122,
	"num_tokens": 1989896.0,
	"step": 122
	},
	{
	"entropy": 0.5642601549625397,
	"epoch": 0.45981308411214955,
	"grad_norm": 0.040063194930553436,
	"learning_rate": 0.0002,
	"loss": 0.5772222280502319,
	"mean_token_accuracy": 0.7651336938142776,
	"num_tokens": 2006217.0,
	"step": 123
	},
	{
	"entropy": 0.5646145790815353,
	"epoch": 0.4635514018691589,
	"grad_norm": 0.02972179837524891,
	"learning_rate": 0.0002,
	"loss": 0.5596722960472107,
	"mean_token_accuracy": 0.7738584727048874,
	"num_tokens": 2022407.0,
	"step": 124
	},
	{
	"entropy": 0.5680184960365295,
	"epoch": 0.4672897196261682,
	"grad_norm": 0.03161488473415375,
	"learning_rate": 0.0002,
	"loss": 0.5569790601730347,
	"mean_token_accuracy": 0.7752905040979385,
	"num_tokens": 2038990.0,
	"step": 125
	},
	{
	"entropy": 0.5721628367900848,
	"epoch": 0.47102803738317756,
	"grad_norm": 0.03150559216737747,
	"learning_rate": 0.0002,
	"loss": 0.56056147813797,
	"mean_token_accuracy": 0.7753510475158691,
	"num_tokens": 2055485.0,
	"step": 126
	},
	{
	"entropy": 0.5526139587163925,
	"epoch": 0.4747663551401869,
	"grad_norm": 0.02876976877450943,
	"learning_rate": 0.0002,
	"loss": 0.555187463760376,
	"mean_token_accuracy": 0.7740543335676193,
	"num_tokens": 2071792.0,
	"step": 127
	},
	{
	"entropy": 0.542378157377243,
	"epoch": 0.4785046728971963,
	"grad_norm": 0.03460092097520828,
	"learning_rate": 0.0002,
	"loss": 0.5530366897583008,
	"mean_token_accuracy": 0.7747022658586502,
	"num_tokens": 2087874.0,
	"step": 128
	},
	{
	"entropy": 0.5451681464910507,
	"epoch": 0.4822429906542056,
	"grad_norm": 0.02991570346057415,
	"learning_rate": 0.0002,
	"loss": 0.549987256526947,
	"mean_token_accuracy": 0.7774564474821091,
	"num_tokens": 2104238.0,
	"step": 129
	},
	{
	"entropy": 0.5554285645484924,
	"epoch": 0.48598130841121495,
	"grad_norm": 0.0326702855527401,
	"learning_rate": 0.0002,
	"loss": 0.5605641603469849,
	"mean_token_accuracy": 0.7726142853498459,
	"num_tokens": 2120477.0,
	"step": 130
	},
	{
	"entropy": 0.555129811167717,
	"epoch": 0.4897196261682243,
	"grad_norm": 0.031020283699035645,
	"learning_rate": 0.0002,
	"loss": 0.5525497198104858,
	"mean_token_accuracy": 0.7749627828598022,
	"num_tokens": 2136857.0,
	"step": 131
	},
	{
	"entropy": 0.5660799294710159,
	"epoch": 0.4934579439252336,
	"grad_norm": 0.03083673305809498,
	"learning_rate": 0.0002,
	"loss": 0.5555440187454224,
	"mean_token_accuracy": 0.7719593346118927,
	"num_tokens": 2153526.0,
	"step": 132
	},
	{
	"entropy": 0.5561708807945251,
	"epoch": 0.497196261682243,
	"grad_norm": 0.031476520001888275,
	"learning_rate": 0.0002,
	"loss": 0.555605411529541,
	"mean_token_accuracy": 0.7762354910373688,
	"num_tokens": 2169651.0,
	"step": 133
	},
	{
	"entropy": 0.525283932685852,
	"epoch": 0.5009345794392523,
	"grad_norm": 0.03160262852907181,
	"learning_rate": 0.0002,
	"loss": 0.5320227742195129,
	"mean_token_accuracy": 0.7818241119384766,
	"num_tokens": 2185700.0,
	"step": 134
	},
	{
	"entropy": 0.5597178190946579,
	"epoch": 0.5046728971962616,
	"grad_norm": 0.03169814869761467,
	"learning_rate": 0.0002,
	"loss": 0.5603609681129456,
	"mean_token_accuracy": 0.7734936475753784,
	"num_tokens": 2201832.0,
	"step": 135
	},
	{
	"entropy": 0.5660498142242432,
	"epoch": 0.508411214953271,
	"grad_norm": 0.03322802484035492,
	"learning_rate": 0.0002,
	"loss": 0.570435643196106,
	"mean_token_accuracy": 0.7702528983354568,
	"num_tokens": 2218197.0,
	"step": 136
	},
	{
	"entropy": 0.5471976101398468,
	"epoch": 0.5121495327102804,
	"grad_norm": 0.031250759959220886,
	"learning_rate": 0.0002,
	"loss": 0.5555264353752136,
	"mean_token_accuracy": 0.7744151949882507,
	"num_tokens": 2234366.0,
	"step": 137
	},
	{
	"entropy": 0.5514054894447327,
	"epoch": 0.5158878504672897,
	"grad_norm": 0.026281429454684258,
	"learning_rate": 0.0002,
	"loss": 0.5531660318374634,
	"mean_token_accuracy": 0.7755394726991653,
	"num_tokens": 2250665.0,
	"step": 138
	},
	{
	"entropy": 0.5651220381259918,
	"epoch": 0.5196261682242991,
	"grad_norm": 0.031022025272250175,
	"learning_rate": 0.0002,
	"loss": 0.564669132232666,
	"mean_token_accuracy": 0.773309201002121,
	"num_tokens": 2266978.0,
	"step": 139
	},
	{
	"entropy": 0.5677877366542816,
	"epoch": 0.5233644859813084,
	"grad_norm": 0.030657587572932243,
	"learning_rate": 0.0002,
	"loss": 0.564283013343811,
	"mean_token_accuracy": 0.7711436003446579,
	"num_tokens": 2283321.0,
	"step": 140
	},
	{
	"entropy": 0.5454884767532349,
	"epoch": 0.5271028037383177,
	"grad_norm": 0.029621724039316177,
	"learning_rate": 0.0002,
	"loss": 0.5448048710823059,
	"mean_token_accuracy": 0.7774412333965302,
	"num_tokens": 2299654.0,
	"step": 141
	},
	{
	"entropy": 0.5593066215515137,
	"epoch": 0.5308411214953271,
	"grad_norm": 0.03370071202516556,
	"learning_rate": 0.0002,
	"loss": 0.5656630992889404,
	"mean_token_accuracy": 0.7700357884168625,
	"num_tokens": 2315917.0,
	"step": 142
	},
	{
	"entropy": 0.5630017071962357,
	"epoch": 0.5345794392523364,
	"grad_norm": 0.03445977345108986,
	"learning_rate": 0.0002,
	"loss": 0.5749462842941284,
	"mean_token_accuracy": 0.7682285755872726,
	"num_tokens": 2332053.0,
	"step": 143
	},
	{
	"entropy": 0.5692644715309143,
	"epoch": 0.5383177570093458,
	"grad_norm": 0.034105394035577774,
	"learning_rate": 0.0002,
	"loss": 0.5713233351707458,
	"mean_token_accuracy": 0.7670455425977707,
	"num_tokens": 2348321.0,
	"step": 144
	},
	{
	"entropy": 0.5742600113153458,
	"epoch": 0.5420560747663551,
	"grad_norm": 0.031007220968604088,
	"learning_rate": 0.0002,
	"loss": 0.571353554725647,
	"mean_token_accuracy": 0.76962810754776,
	"num_tokens": 2364386.0,
	"step": 145
	},
	{
	"entropy": 0.5725259482860565,
	"epoch": 0.5457943925233645,
	"grad_norm": 0.030071116983890533,
	"learning_rate": 0.0002,
	"loss": 0.5640747547149658,
	"mean_token_accuracy": 0.7740518748760223,
	"num_tokens": 2380815.0,
	"step": 146
	},
	{
	"entropy": 0.5748542249202728,
	"epoch": 0.5495327102803739,
	"grad_norm": 0.03353971987962723,
	"learning_rate": 0.0002,
	"loss": 0.5691145062446594,
	"mean_token_accuracy": 0.7703811824321747,
	"num_tokens": 2396915.0,
	"step": 147
	},
	{
	"entropy": 0.5501144975423813,
	"epoch": 0.5532710280373832,
	"grad_norm": 0.029002781957387924,
	"learning_rate": 0.0002,
	"loss": 0.5473450422286987,
	"mean_token_accuracy": 0.7768280953168869,
	"num_tokens": 2412894.0,
	"step": 148
	},
	{
	"entropy": 0.5640593320131302,
	"epoch": 0.5570093457943925,
	"grad_norm": 0.0339277982711792,
	"learning_rate": 0.0002,
	"loss": 0.568105936050415,
	"mean_token_accuracy": 0.7686444222927094,
	"num_tokens": 2429333.0,
	"step": 149
	},
	{
	"entropy": 0.5358926355838776,
	"epoch": 0.5607476635514018,
	"grad_norm": 0.03321727365255356,
	"learning_rate": 0.0002,
	"loss": 0.5451691150665283,
	"mean_token_accuracy": 0.7813747376203537,
	"num_tokens": 2445547.0,
	"step": 150
	},
	{
	"entropy": 0.575822114944458,
	"epoch": 0.5644859813084112,
	"grad_norm": 0.028913335874676704,
	"learning_rate": 0.0002,
	"loss": 0.5796110033988953,
	"mean_token_accuracy": 0.7663715481758118,
	"num_tokens": 2461739.0,
	"step": 151
	},
	{
	"entropy": 0.5666410624980927,
	"epoch": 0.5682242990654206,
	"grad_norm": 0.030346350744366646,
	"learning_rate": 0.0002,
	"loss": 0.5563742518424988,
	"mean_token_accuracy": 0.7750760018825531,
	"num_tokens": 2478290.0,
	"step": 152
	},
	{
	"entropy": 0.5700524747371674,
	"epoch": 0.5719626168224299,
	"grad_norm": 0.03455440327525139,
	"learning_rate": 0.0002,
	"loss": 0.5611424446105957,
	"mean_token_accuracy": 0.7719277888536453,
	"num_tokens": 2494845.0,
	"step": 153
	},
	{
	"entropy": 0.561910405755043,
	"epoch": 0.5757009345794393,
	"grad_norm": 0.029596278443932533,
	"learning_rate": 0.0002,
	"loss": 0.5637333393096924,
	"mean_token_accuracy": 0.771451935172081,
	"num_tokens": 2511497.0,
	"step": 154
	},
	{
	"entropy": 0.5496856719255447,
	"epoch": 0.5794392523364486,
	"grad_norm": 0.02896132506430149,
	"learning_rate": 0.0002,
	"loss": 0.5627070665359497,
	"mean_token_accuracy": 0.7726458758115768,
	"num_tokens": 2527582.0,
	"step": 155
	},
	{
	"entropy": 0.5563309341669083,
	"epoch": 0.5831775700934579,
	"grad_norm": 0.04145891219377518,
	"learning_rate": 0.0002,
	"loss": 0.5785839557647705,
	"mean_token_accuracy": 0.7629837244749069,
	"num_tokens": 2543948.0,
	"step": 156
	},
	{
	"entropy": 0.5635025650262833,
	"epoch": 0.5869158878504673,
	"grad_norm": 0.028125908225774765,
	"learning_rate": 0.0002,
	"loss": 0.5688048005104065,
	"mean_token_accuracy": 0.7708674967288971,
	"num_tokens": 2560174.0,
	"step": 157
	},
	{
	"entropy": 0.5650362074375153,
	"epoch": 0.5906542056074766,
	"grad_norm": 0.031838495284318924,
	"learning_rate": 0.0002,
	"loss": 0.5594847798347473,
	"mean_token_accuracy": 0.7728245556354523,
	"num_tokens": 2576418.0,
	"step": 158
	},
	{
	"entropy": 0.5560010820627213,
	"epoch": 0.594392523364486,
	"grad_norm": 0.03514372557401657,
	"learning_rate": 0.0002,
	"loss": 0.5445454120635986,
	"mean_token_accuracy": 0.7787751257419586,
	"num_tokens": 2592454.0,
	"step": 159
	},
	{
	"entropy": 0.552829384803772,
	"epoch": 0.5981308411214953,
	"grad_norm": 0.028390226885676384,
	"learning_rate": 0.0002,
	"loss": 0.5493785738945007,
	"mean_token_accuracy": 0.7761707901954651,
	"num_tokens": 2608586.0,
	"step": 160
	},
	{
	"entropy": 0.5553926527500153,
	"epoch": 0.6018691588785047,
	"grad_norm": 0.02847958728671074,
	"learning_rate": 0.0002,
	"loss": 0.5555365681648254,
	"mean_token_accuracy": 0.7766669541597366,
	"num_tokens": 2624962.0,
	"step": 161
	},
	{
	"entropy": 0.551996037364006,
	"epoch": 0.6056074766355141,
	"grad_norm": 0.03402937948703766,
	"learning_rate": 0.0002,
	"loss": 0.557694673538208,
	"mean_token_accuracy": 0.7744593769311905,
	"num_tokens": 2641382.0,
	"step": 162
	},
	{
	"entropy": 0.5671762228012085,
	"epoch": 0.6093457943925233,
	"grad_norm": 0.03495490923523903,
	"learning_rate": 0.0002,
	"loss": 0.5758394002914429,
	"mean_token_accuracy": 0.7660740315914154,
	"num_tokens": 2657986.0,
	"step": 163
	},
	{
	"entropy": 0.5575901418924332,
	"epoch": 0.6130841121495327,
	"grad_norm": 0.03418085724115372,
	"learning_rate": 0.0002,
	"loss": 0.5583428740501404,
	"mean_token_accuracy": 0.7739714235067368,
	"num_tokens": 2673995.0,
	"step": 164
	},
	{
	"entropy": 0.5644998699426651,
	"epoch": 0.616822429906542,
	"grad_norm": 0.028694115579128265,
	"learning_rate": 0.0002,
	"loss": 0.5556347370147705,
	"mean_token_accuracy": 0.775534600019455,
	"num_tokens": 2690249.0,
	"step": 165
	},
	{
	"entropy": 0.5767987668514252,
	"epoch": 0.6205607476635514,
	"grad_norm": 0.03323300555348396,
	"learning_rate": 0.0002,
	"loss": 0.5688591003417969,
	"mean_token_accuracy": 0.7711433321237564,
	"num_tokens": 2706818.0,
	"step": 166
	},
	{
	"entropy": 0.5557750165462494,
	"epoch": 0.6242990654205608,
	"grad_norm": 0.030084028840065002,
	"learning_rate": 0.0002,
	"loss": 0.5595380067825317,
	"mean_token_accuracy": 0.7722294181585312,
	"num_tokens": 2722820.0,
	"step": 167
	},
	{
	"entropy": 0.562026247382164,
	"epoch": 0.6280373831775701,
	"grad_norm": 0.03125706687569618,
	"learning_rate": 0.0002,
	"loss": 0.5637321472167969,
	"mean_token_accuracy": 0.7692414969205856,
	"num_tokens": 2739398.0,
	"step": 168
	},
	{
	"entropy": 0.5448627471923828,
	"epoch": 0.6317757009345795,
	"grad_norm": 0.03390555456280708,
	"learning_rate": 0.0002,
	"loss": 0.5494401454925537,
	"mean_token_accuracy": 0.7776045203208923,
	"num_tokens": 2755453.0,
	"step": 169
	},
	{
	"entropy": 0.5523964762687683,
	"epoch": 0.6355140186915887,
	"grad_norm": 0.03687772527337074,
	"learning_rate": 0.0002,
	"loss": 0.5620272159576416,
	"mean_token_accuracy": 0.7718589901924133,
	"num_tokens": 2771533.0,
	"step": 170
	},
	{
	"entropy": 0.5672519207000732,
	"epoch": 0.6392523364485981,
	"grad_norm": 0.035152945667505264,
	"learning_rate": 0.0002,
	"loss": 0.5725542306900024,
	"mean_token_accuracy": 0.768815353512764,
	"num_tokens": 2787816.0,
	"step": 171
	},
	{
	"entropy": 0.5715326368808746,
	"epoch": 0.6429906542056075,
	"grad_norm": 0.032671887427568436,
	"learning_rate": 0.0002,
	"loss": 0.5690709352493286,
	"mean_token_accuracy": 0.7705206274986267,
	"num_tokens": 2804253.0,
	"step": 172
	},
	{
	"entropy": 0.5771492570638657,
	"epoch": 0.6467289719626168,
	"grad_norm": 0.03344012424349785,
	"learning_rate": 0.0002,
	"loss": 0.5672138929367065,
	"mean_token_accuracy": 0.7719729393720627,
	"num_tokens": 2820473.0,
	"step": 173
	},
	{
	"entropy": 0.5444837659597397,
	"epoch": 0.6504672897196262,
	"grad_norm": 0.029676884412765503,
	"learning_rate": 0.0002,
	"loss": 0.5400466322898865,
	"mean_token_accuracy": 0.7845920622348785,
	"num_tokens": 2836738.0,
	"step": 174
	},
	{
	"entropy": 0.5679149776697159,
	"epoch": 0.6542056074766355,
	"grad_norm": 0.03190155327320099,
	"learning_rate": 0.0002,
	"loss": 0.5703109502792358,
	"mean_token_accuracy": 0.7677883356809616,
	"num_tokens": 2853015.0,
	"step": 175
	},
	{
	"entropy": 0.5386882424354553,
	"epoch": 0.6579439252336449,
	"grad_norm": 0.03156553953886032,
	"learning_rate": 0.0002,
	"loss": 0.5451309680938721,
	"mean_token_accuracy": 0.7785861194133759,
	"num_tokens": 2869326.0,
	"step": 176
	},
	{
	"entropy": 0.5546389669179916,
	"epoch": 0.6616822429906543,
	"grad_norm": 0.03298742696642876,
	"learning_rate": 0.0002,
	"loss": 0.5598126649856567,
	"mean_token_accuracy": 0.7714642137289047,
	"num_tokens": 2885638.0,
	"step": 177
	},
	{
	"entropy": 0.5554563403129578,
	"epoch": 0.6654205607476635,
	"grad_norm": 0.034988123923540115,
	"learning_rate": 0.0002,
	"loss": 0.5639896392822266,
	"mean_token_accuracy": 0.7712263017892838,
	"num_tokens": 2902116.0,
	"step": 178
	},
	{
	"entropy": 0.5492645055055618,
	"epoch": 0.6691588785046729,
	"grad_norm": 0.03213873505592346,
	"learning_rate": 0.0002,
	"loss": 0.5490330457687378,
	"mean_token_accuracy": 0.7778918445110321,
	"num_tokens": 2918514.0,
	"step": 179
	},
	{
	"entropy": 0.5809471905231476,
	"epoch": 0.6728971962616822,
	"grad_norm": 0.02829456329345703,
	"learning_rate": 0.0002,
	"loss": 0.5780236721038818,
	"mean_token_accuracy": 0.7631959617137909,
	"num_tokens": 2935180.0,
	"step": 180
	},
	{
	"entropy": 0.5545472204685211,
	"epoch": 0.6766355140186916,
	"grad_norm": 0.026784643530845642,
	"learning_rate": 0.0002,
	"loss": 0.5539122819900513,
	"mean_token_accuracy": 0.7744273245334625,
	"num_tokens": 2951485.0,
	"step": 181
	},
	{
	"entropy": 0.5583300441503525,
	"epoch": 0.680373831775701,
	"grad_norm": 0.028181226924061775,
	"learning_rate": 0.0002,
	"loss": 0.5567899942398071,
	"mean_token_accuracy": 0.7753158956766129,
	"num_tokens": 2967799.0,
	"step": 182
	},
	{
	"entropy": 0.5597800463438034,
	"epoch": 0.6841121495327103,
	"grad_norm": 0.027700597420334816,
	"learning_rate": 0.0002,
	"loss": 0.559861958026886,
	"mean_token_accuracy": 0.772071048617363,
	"num_tokens": 2984240.0,
	"step": 183
	},
	{
	"entropy": 0.5409596711397171,
	"epoch": 0.6878504672897197,
	"grad_norm": 0.030223077163100243,
	"learning_rate": 0.0002,
	"loss": 0.5486294031143188,
	"mean_token_accuracy": 0.7773659527301788,
	"num_tokens": 3000681.0,
	"step": 184
	},
	{
	"entropy": 0.5551634728908539,
	"epoch": 0.6915887850467289,
	"grad_norm": 0.02896454744040966,
	"learning_rate": 0.0002,
	"loss": 0.5600041151046753,
	"mean_token_accuracy": 0.7721187323331833,
	"num_tokens": 3017042.0,
	"step": 185
	},
	{
	"entropy": 0.5551397949457169,
	"epoch": 0.6953271028037383,
	"grad_norm": 0.02665393240749836,
	"learning_rate": 0.0002,
	"loss": 0.556494414806366,
	"mean_token_accuracy": 0.7747326493263245,
	"num_tokens": 3033356.0,
	"step": 186
	},
	{
	"entropy": 0.5497598797082901,
	"epoch": 0.6990654205607477,
	"grad_norm": 0.026862069964408875,
	"learning_rate": 0.0002,
	"loss": 0.5495949983596802,
	"mean_token_accuracy": 0.7788131833076477,
	"num_tokens": 3049609.0,
	"step": 187
	},
	{
	"entropy": 0.5756572186946869,
	"epoch": 0.702803738317757,
	"grad_norm": 0.028672486543655396,
	"learning_rate": 0.0002,
	"loss": 0.5735815763473511,
	"mean_token_accuracy": 0.7667711675167084,
	"num_tokens": 3065873.0,
	"step": 188
	},
	{
	"entropy": 0.560253381729126,
	"epoch": 0.7065420560747664,
	"grad_norm": 0.029232166707515717,
	"learning_rate": 0.0002,
	"loss": 0.5650488138198853,
	"mean_token_accuracy": 0.768238291144371,
	"num_tokens": 3081904.0,
	"step": 189
	},
	{
	"entropy": 0.5659812092781067,
	"epoch": 0.7102803738317757,
	"grad_norm": 0.028001444414258003,
	"learning_rate": 0.0002,
	"loss": 0.563786506652832,
	"mean_token_accuracy": 0.7705834209918976,
	"num_tokens": 3098208.0,
	"step": 190
	},
	{
	"entropy": 0.5397079735994339,
	"epoch": 0.7140186915887851,
	"grad_norm": 0.030035637319087982,
	"learning_rate": 0.0002,
	"loss": 0.5431380271911621,
	"mean_token_accuracy": 0.7773479521274567,
	"num_tokens": 3114448.0,
	"step": 191
	},
	{
	"entropy": 0.5607352703809738,
	"epoch": 0.7177570093457943,
	"grad_norm": 0.026054881513118744,
	"learning_rate": 0.0002,
	"loss": 0.5583080649375916,
	"mean_token_accuracy": 0.7758101969957352,
	"num_tokens": 3130755.0,
	"step": 192
	},
	{
	"entropy": 0.551689624786377,
	"epoch": 0.7214953271028037,
	"grad_norm": 0.02845809981226921,
	"learning_rate": 0.0002,
	"loss": 0.5481313467025757,
	"mean_token_accuracy": 0.7777986079454422,
	"num_tokens": 3147133.0,
	"step": 193
	},
	{
	"entropy": 0.5639677792787552,
	"epoch": 0.7252336448598131,
	"grad_norm": 0.029969094321131706,
	"learning_rate": 0.0002,
	"loss": 0.5681430697441101,
	"mean_token_accuracy": 0.7705964744091034,
	"num_tokens": 3163582.0,
	"step": 194
	},
	{
	"entropy": 0.5548544675111771,
	"epoch": 0.7289719626168224,
	"grad_norm": 0.026430293917655945,
	"learning_rate": 0.0002,
	"loss": 0.5528862476348877,
	"mean_token_accuracy": 0.7741632461547852,
	"num_tokens": 3180102.0,
	"step": 195
	},
	{
	"entropy": 0.5530348271131516,
	"epoch": 0.7327102803738318,
	"grad_norm": 0.026484189555048943,
	"learning_rate": 0.0002,
	"loss": 0.5540847778320312,
	"mean_token_accuracy": 0.7735424339771271,
	"num_tokens": 3196312.0,
	"step": 196
	},
	{
	"entropy": 0.5409010052680969,
	"epoch": 0.7364485981308411,
	"grad_norm": 0.030766047537326813,
	"learning_rate": 0.0002,
	"loss": 0.5487144589424133,
	"mean_token_accuracy": 0.7778207361698151,
	"num_tokens": 3212408.0,
	"step": 197
	},
	{
	"entropy": 0.5607801675796509,
	"epoch": 0.7401869158878505,
	"grad_norm": 0.029135972261428833,
	"learning_rate": 0.0002,
	"loss": 0.5579065680503845,
	"mean_token_accuracy": 0.7756243348121643,
	"num_tokens": 3228688.0,
	"step": 198
	},
	{
	"entropy": 0.5638224929571152,
	"epoch": 0.7439252336448599,
	"grad_norm": 0.028466643765568733,
	"learning_rate": 0.0002,
	"loss": 0.5634393095970154,
	"mean_token_accuracy": 0.770130917429924,
	"num_tokens": 3244856.0,
	"step": 199
	},
	{
	"entropy": 0.5390120446681976,
	"epoch": 0.7476635514018691,
	"grad_norm": 0.029409240931272507,
	"learning_rate": 0.0002,
	"loss": 0.5443782210350037,
	"mean_token_accuracy": 0.7796739190816879,
	"num_tokens": 3261004.0,
	"step": 200
	},
	{
	"entropy": 0.5513757616281509,
	"epoch": 0.7514018691588785,
	"grad_norm": 0.032466452568769455,
	"learning_rate": 0.0002,
	"loss": 0.5502808690071106,
	"mean_token_accuracy": 0.7751527577638626,
	"num_tokens": 3277310.0,
	"step": 201
	},
	{
	"entropy": 0.5808768719434738,
	"epoch": 0.7551401869158878,
	"grad_norm": 0.02947174198925495,
	"learning_rate": 0.0002,
	"loss": 0.5795295238494873,
	"mean_token_accuracy": 0.7640405744314194,
	"num_tokens": 3293719.0,
	"step": 202
	},
	{
	"entropy": 0.5713460445404053,
	"epoch": 0.7588785046728972,
	"grad_norm": 0.02874363400042057,
	"learning_rate": 0.0002,
	"loss": 0.5726850032806396,
	"mean_token_accuracy": 0.7662371546030045,
	"num_tokens": 3310262.0,
	"step": 203
	},
	{
	"entropy": 0.5619738698005676,
	"epoch": 0.7626168224299066,
	"grad_norm": 0.028361184522509575,
	"learning_rate": 0.0002,
	"loss": 0.5660584568977356,
	"mean_token_accuracy": 0.7703312337398529,
	"num_tokens": 3326670.0,
	"step": 204
	},
	{
	"entropy": 0.5531926304101944,
	"epoch": 0.7663551401869159,
	"grad_norm": 0.029734794050455093,
	"learning_rate": 0.0002,
	"loss": 0.5551853775978088,
	"mean_token_accuracy": 0.7757412046194077,
	"num_tokens": 3343182.0,
	"step": 205
	},
	{
	"entropy": 0.5436140149831772,
	"epoch": 0.7700934579439253,
	"grad_norm": 0.027612119913101196,
	"learning_rate": 0.0002,
	"loss": 0.5460025668144226,
	"mean_token_accuracy": 0.7787571996450424,
	"num_tokens": 3359734.0,
	"step": 206
	},
	{
	"entropy": 0.5484267920255661,
	"epoch": 0.7738317757009345,
	"grad_norm": 0.0273665152490139,
	"learning_rate": 0.0002,
	"loss": 0.5512120723724365,
	"mean_token_accuracy": 0.7762885689735413,
	"num_tokens": 3375965.0,
	"step": 207
	},
	{
	"entropy": 0.5604408234357834,
	"epoch": 0.7775700934579439,
	"grad_norm": 0.03310655429959297,
	"learning_rate": 0.0002,
	"loss": 0.5644571185112,
	"mean_token_accuracy": 0.7733126729726791,
	"num_tokens": 3392102.0,
	"step": 208
	},
	{
	"entropy": 0.5418381690979004,
	"epoch": 0.7813084112149533,
	"grad_norm": 0.03232184052467346,
	"learning_rate": 0.0002,
	"loss": 0.5521958470344543,
	"mean_token_accuracy": 0.7741148620843887,
	"num_tokens": 3408306.0,
	"step": 209
	},
	{
	"entropy": 0.5678922086954117,
	"epoch": 0.7850467289719626,
	"grad_norm": 0.02696731500327587,
	"learning_rate": 0.0002,
	"loss": 0.5638433694839478,
	"mean_token_accuracy": 0.7702384293079376,
	"num_tokens": 3424846.0,
	"step": 210
	},
	{
	"entropy": 0.5885234028100967,
	"epoch": 0.788785046728972,
	"grad_norm": 0.032732248306274414,
	"learning_rate": 0.0002,
	"loss": 0.5857526659965515,
	"mean_token_accuracy": 0.7618716955184937,
	"num_tokens": 3441315.0,
	"step": 211
	},
	{
	"entropy": 0.5481836199760437,
	"epoch": 0.7925233644859813,
	"grad_norm": 0.03158198669552803,
	"learning_rate": 0.0002,
	"loss": 0.5456998348236084,
	"mean_token_accuracy": 0.7771993726491928,
	"num_tokens": 3457579.0,
	"step": 212
	},
	{
	"entropy": 0.5607763081789017,
	"epoch": 0.7962616822429907,
	"grad_norm": 0.03416353091597557,
	"learning_rate": 0.0002,
	"loss": 0.5663735270500183,
	"mean_token_accuracy": 0.7718233168125153,
	"num_tokens": 3474205.0,
	"step": 213
	},
	{
	"entropy": 0.5533930957317352,
	"epoch": 0.8,
	"grad_norm": 0.02877282351255417,
	"learning_rate": 0.0002,
	"loss": 0.5556164383888245,
	"mean_token_accuracy": 0.7742215096950531,
	"num_tokens": 3490438.0,
	"step": 214
	},
	{
	"entropy": 0.5604168176651001,
	"epoch": 0.8037383177570093,
	"grad_norm": 0.026928121224045753,
	"learning_rate": 0.0002,
	"loss": 0.5551791191101074,
	"mean_token_accuracy": 0.77230204641819,
	"num_tokens": 3506851.0,
	"step": 215
	},
	{
	"entropy": 0.5647037774324417,
	"epoch": 0.8074766355140187,
	"grad_norm": 0.03445446118712425,
	"learning_rate": 0.0002,
	"loss": 0.5678783655166626,
	"mean_token_accuracy": 0.7699416279792786,
	"num_tokens": 3523043.0,
	"step": 216
	},
	{
	"entropy": 0.571955680847168,
	"epoch": 0.811214953271028,
	"grad_norm": 0.028322864323854446,
	"learning_rate": 0.0002,
	"loss": 0.5738518238067627,
	"mean_token_accuracy": 0.7654245793819427,
	"num_tokens": 3539365.0,
	"step": 217
	},
	{
	"entropy": 0.5523362904787064,
	"epoch": 0.8149532710280374,
	"grad_norm": 0.033752068877220154,
	"learning_rate": 0.0002,
	"loss": 0.5535821914672852,
	"mean_token_accuracy": 0.7761557102203369,
	"num_tokens": 3555412.0,
	"step": 218
	},
	{
	"entropy": 0.5571073293685913,
	"epoch": 0.8186915887850468,
	"grad_norm": 0.03274444863200188,
	"learning_rate": 0.0002,
	"loss": 0.5591251850128174,
	"mean_token_accuracy": 0.7738742381334305,
	"num_tokens": 3571607.0,
	"step": 219
	},
	{
	"entropy": 0.5460310876369476,
	"epoch": 0.822429906542056,
	"grad_norm": 0.03267780691385269,
	"learning_rate": 0.0002,
	"loss": 0.5483282208442688,
	"mean_token_accuracy": 0.774459958076477,
	"num_tokens": 3588112.0,
	"step": 220
	},
	{
	"entropy": 0.5458645969629288,
	"epoch": 0.8261682242990654,
	"grad_norm": 0.029655037447810173,
	"learning_rate": 0.0002,
	"loss": 0.553710401058197,
	"mean_token_accuracy": 0.7749865502119064,
	"num_tokens": 3604422.0,
	"step": 221
	},
	{
	"entropy": 0.5589277297258377,
	"epoch": 0.8299065420560747,
	"grad_norm": 0.0299095269292593,
	"learning_rate": 0.0002,
	"loss": 0.5621532201766968,
	"mean_token_accuracy": 0.7721328884363174,
	"num_tokens": 3620586.0,
	"step": 222
	},
	{
	"entropy": 0.5576933324337006,
	"epoch": 0.8336448598130841,
	"grad_norm": 0.031302373856306076,
	"learning_rate": 0.0002,
	"loss": 0.5637439489364624,
	"mean_token_accuracy": 0.7706159353256226,
	"num_tokens": 3636859.0,
	"step": 223
	},
	{
	"entropy": 0.5583267956972122,
	"epoch": 0.8373831775700935,
	"grad_norm": 0.02684536948800087,
	"learning_rate": 0.0002,
	"loss": 0.5605804920196533,
	"mean_token_accuracy": 0.7703929096460342,
	"num_tokens": 3653154.0,
	"step": 224
	},
	{
	"entropy": 0.5555603951215744,
	"epoch": 0.8411214953271028,
	"grad_norm": 0.025324055925011635,
	"learning_rate": 0.0002,
	"loss": 0.5553929805755615,
	"mean_token_accuracy": 0.773400217294693,
	"num_tokens": 3669474.0,
	"step": 225
	},
	{
	"entropy": 0.5502129048109055,
	"epoch": 0.8448598130841122,
	"grad_norm": 0.03151983022689819,
	"learning_rate": 0.0002,
	"loss": 0.5402862429618835,
	"mean_token_accuracy": 0.7839637249708176,
	"num_tokens": 3685885.0,
	"step": 226
	},
	{
	"entropy": 0.5631079375743866,
	"epoch": 0.8485981308411215,
	"grad_norm": 0.026639366522431374,
	"learning_rate": 0.0002,
	"loss": 0.5603518486022949,
	"mean_token_accuracy": 0.7707885354757309,
	"num_tokens": 3702475.0,
	"step": 227
	},
	{
	"entropy": 0.5576464682817459,
	"epoch": 0.8523364485981308,
	"grad_norm": 0.028526777401566505,
	"learning_rate": 0.0002,
	"loss": 0.5615932941436768,
	"mean_token_accuracy": 0.7698924392461777,
	"num_tokens": 3718675.0,
	"step": 228
	},
	{
	"entropy": 0.5553766041994095,
	"epoch": 0.8560747663551402,
	"grad_norm": 0.028387868776917458,
	"learning_rate": 0.0002,
	"loss": 0.5598117709159851,
	"mean_token_accuracy": 0.7748202681541443,
	"num_tokens": 3734973.0,
	"step": 229
	},
	{
	"entropy": 0.5636192113161087,
	"epoch": 0.8598130841121495,
	"grad_norm": 0.029663704335689545,
	"learning_rate": 0.0002,
	"loss": 0.5619429349899292,
	"mean_token_accuracy": 0.7697723060846329,
	"num_tokens": 3751197.0,
	"step": 230
	},
	{
	"entropy": 0.5656130164861679,
	"epoch": 0.8635514018691589,
	"grad_norm": 0.027196481823921204,
	"learning_rate": 0.0002,
	"loss": 0.559482753276825,
	"mean_token_accuracy": 0.7736194878816605,
	"num_tokens": 3767681.0,
	"step": 231
	},
	{
	"entropy": 0.5610507130622864,
	"epoch": 0.8672897196261682,
	"grad_norm": 0.02665848098695278,
	"learning_rate": 0.0002,
	"loss": 0.5574455857276917,
	"mean_token_accuracy": 0.7723447382450104,
	"num_tokens": 3784223.0,
	"step": 232
	},
	{
	"entropy": 0.5565789192914963,
	"epoch": 0.8710280373831776,
	"grad_norm": 0.029676776379346848,
	"learning_rate": 0.0002,
	"loss": 0.5581963062286377,
	"mean_token_accuracy": 0.7723328024148941,
	"num_tokens": 3800606.0,
	"step": 233
	},
	{
	"entropy": 0.5488535314798355,
	"epoch": 0.874766355140187,
	"grad_norm": 0.026432445272803307,
	"learning_rate": 0.0002,
	"loss": 0.5548264384269714,
	"mean_token_accuracy": 0.776095449924469,
	"num_tokens": 3817211.0,
	"step": 234
	},
	{
	"entropy": 0.5432089567184448,
	"epoch": 0.8785046728971962,
	"grad_norm": 0.028454309329390526,
	"learning_rate": 0.0002,
	"loss": 0.5551573038101196,
	"mean_token_accuracy": 0.7737965285778046,
	"num_tokens": 3833562.0,
	"step": 235
	},
	{
	"entropy": 0.5564523041248322,
	"epoch": 0.8822429906542056,
	"grad_norm": 0.03045317530632019,
	"learning_rate": 0.0002,
	"loss": 0.5593273043632507,
	"mean_token_accuracy": 0.7728880196809769,
	"num_tokens": 3849716.0,
	"step": 236
	},
	{
	"entropy": 0.5449672043323517,
	"epoch": 0.8859813084112149,
	"grad_norm": 0.026425793766975403,
	"learning_rate": 0.0002,
	"loss": 0.5469970107078552,
	"mean_token_accuracy": 0.777935191988945,
	"num_tokens": 3865915.0,
	"step": 237
	},
	{
	"entropy": 0.5773142129182816,
	"epoch": 0.8897196261682243,
	"grad_norm": 0.024763669818639755,
	"learning_rate": 0.0002,
	"loss": 0.5751665830612183,
	"mean_token_accuracy": 0.7665848284959793,
	"num_tokens": 3882374.0,
	"step": 238
	},
	{
	"entropy": 0.5337313264608383,
	"epoch": 0.8934579439252337,
	"grad_norm": 0.027221228927373886,
	"learning_rate": 0.0002,
	"loss": 0.5295661687850952,
	"mean_token_accuracy": 0.7860913276672363,
	"num_tokens": 3898501.0,
	"step": 239
	},
	{
	"entropy": 0.5395989120006561,
	"epoch": 0.897196261682243,
	"grad_norm": 0.026916388422250748,
	"learning_rate": 0.0002,
	"loss": 0.5377291440963745,
	"mean_token_accuracy": 0.7827803045511246,
	"num_tokens": 3914802.0,
	"step": 240
	},
	{
	"entropy": 0.56096251308918,
	"epoch": 0.9009345794392524,
	"grad_norm": 0.03178329020738602,
	"learning_rate": 0.0002,
	"loss": 0.5572348237037659,
	"mean_token_accuracy": 0.774958074092865,
	"num_tokens": 3931307.0,
	"step": 241
	},
	{
	"entropy": 0.5351977944374084,
	"epoch": 0.9046728971962616,
	"grad_norm": 0.027758494019508362,
	"learning_rate": 0.0002,
	"loss": 0.5389144420623779,
	"mean_token_accuracy": 0.7842132151126862,
	"num_tokens": 3947818.0,
	"step": 242
	},
	{
	"entropy": 0.5689495801925659,
	"epoch": 0.908411214953271,
	"grad_norm": 0.028313076123595238,
	"learning_rate": 0.0002,
	"loss": 0.5732687711715698,
	"mean_token_accuracy": 0.7685291916131973,
	"num_tokens": 3964238.0,
	"step": 243
	},
	{
	"entropy": 0.5562418401241302,
	"epoch": 0.9121495327102803,
	"grad_norm": 0.028738385066390038,
	"learning_rate": 0.0002,
	"loss": 0.5559317469596863,
	"mean_token_accuracy": 0.7747041881084442,
	"num_tokens": 3980625.0,
	"step": 244
	},
	{
	"entropy": 0.5630334913730621,
	"epoch": 0.9158878504672897,
	"grad_norm": 0.024547314271330833,
	"learning_rate": 0.0002,
	"loss": 0.560680627822876,
	"mean_token_accuracy": 0.7717334777116776,
	"num_tokens": 3997248.0,
	"step": 245
	},
	{
	"entropy": 0.5409311354160309,
	"epoch": 0.9196261682242991,
	"grad_norm": 0.029392484575510025,
	"learning_rate": 0.0002,
	"loss": 0.5488813519477844,
	"mean_token_accuracy": 0.7771373838186264,
	"num_tokens": 4013356.0,
	"step": 246
	},
	{
	"entropy": 0.5529599785804749,
	"epoch": 0.9233644859813084,
	"grad_norm": 0.024964116513729095,
	"learning_rate": 0.0002,
	"loss": 0.5492331385612488,
	"mean_token_accuracy": 0.778782069683075,
	"num_tokens": 4029521.0,
	"step": 247
	},
	{
	"entropy": 0.5397895872592926,
	"epoch": 0.9271028037383178,
	"grad_norm": 0.026621561497449875,
	"learning_rate": 0.0002,
	"loss": 0.5443588495254517,
	"mean_token_accuracy": 0.7782554626464844,
	"num_tokens": 4045913.0,
	"step": 248
	},
	{
	"entropy": 0.5582248121500015,
	"epoch": 0.930841121495327,
	"grad_norm": 0.02803446725010872,
	"learning_rate": 0.0002,
	"loss": 0.5627061128616333,
	"mean_token_accuracy": 0.7742072343826294,
	"num_tokens": 4062448.0,
	"step": 249
	},
	{
	"entropy": 0.5673990696668625,
	"epoch": 0.9345794392523364,
	"grad_norm": 0.03014424815773964,
	"learning_rate": 0.0002,
	"loss": 0.5727946162223816,
	"mean_token_accuracy": 0.7685662358999252,
	"num_tokens": 4078711.0,
	"step": 250
	},
	{
	"entropy": 0.566023588180542,
	"epoch": 0.9383177570093458,
	"grad_norm": 0.030524935573339462,
	"learning_rate": 0.0002,
	"loss": 0.5595183372497559,
	"mean_token_accuracy": 0.7738057672977448,
	"num_tokens": 4095240.0,
	"step": 251
	},
	{
	"entropy": 0.5499134510755539,
	"epoch": 0.9420560747663551,
	"grad_norm": 0.02502668835222721,
	"learning_rate": 0.0002,
	"loss": 0.5446998476982117,
	"mean_token_accuracy": 0.7789950519800186,
	"num_tokens": 4111687.0,
	"step": 252
	},
	{
	"entropy": 0.5639411062002182,
	"epoch": 0.9457943925233645,
	"grad_norm": 0.03420841693878174,
	"learning_rate": 0.0002,
	"loss": 0.5659236311912537,
	"mean_token_accuracy": 0.7703807950019836,
	"num_tokens": 4128093.0,
	"step": 253
	},
	{
	"entropy": 0.5703455805778503,
	"epoch": 0.9495327102803738,
	"grad_norm": 0.0303607527166605,
	"learning_rate": 0.0002,
	"loss": 0.5696687698364258,
	"mean_token_accuracy": 0.7690610140562057,
	"num_tokens": 4144612.0,
	"step": 254
	},
	{
	"entropy": 0.558226928114891,
	"epoch": 0.9532710280373832,
	"grad_norm": 0.03168858587741852,
	"learning_rate": 0.0002,
	"loss": 0.5676078200340271,
	"mean_token_accuracy": 0.7693912833929062,
	"num_tokens": 4161169.0,
	"step": 255
	},
	{
	"entropy": 0.5530082136392593,
	"epoch": 0.9570093457943926,
	"grad_norm": 0.027083205059170723,
	"learning_rate": 0.0002,
	"loss": 0.5579201579093933,
	"mean_token_accuracy": 0.772939920425415,
	"num_tokens": 4177454.0,
	"step": 256
	},
	{
	"entropy": 0.5732781291007996,
	"epoch": 0.9607476635514018,
	"grad_norm": 0.025865184143185616,
	"learning_rate": 0.0002,
	"loss": 0.5745596289634705,
	"mean_token_accuracy": 0.7667286545038223,
	"num_tokens": 4193733.0,
	"step": 257
	},
	{
	"entropy": 0.5650701373815536,
	"epoch": 0.9644859813084112,
	"grad_norm": 0.03244631364941597,
	"learning_rate": 0.0002,
	"loss": 0.5617667436599731,
	"mean_token_accuracy": 0.7715478390455246,
	"num_tokens": 4209843.0,
	"step": 258
	},
	{
	"entropy": 0.5724828094244003,
	"epoch": 0.9682242990654205,
	"grad_norm": 0.02807115763425827,
	"learning_rate": 0.0002,
	"loss": 0.5692450404167175,
	"mean_token_accuracy": 0.76779405772686,
	"num_tokens": 4226262.0,
	"step": 259
	},
	{
	"entropy": 0.5677514672279358,
	"epoch": 0.9719626168224299,
	"grad_norm": 0.024189095944166183,
	"learning_rate": 0.0002,
	"loss": 0.5623309016227722,
	"mean_token_accuracy": 0.7734705060720444,
	"num_tokens": 4242877.0,
	"step": 260
	},
	{
	"entropy": 0.56018927693367,
	"epoch": 0.9757009345794393,
	"grad_norm": 0.030152512714266777,
	"learning_rate": 0.0002,
	"loss": 0.5675455927848816,
	"mean_token_accuracy": 0.7673967182636261,
	"num_tokens": 4259432.0,
	"step": 261
	},
	{
	"entropy": 0.5601605176925659,
	"epoch": 0.9794392523364486,
	"grad_norm": 0.0288025364279747,
	"learning_rate": 0.0002,
	"loss": 0.5698415040969849,
	"mean_token_accuracy": 0.7686598151922226,
	"num_tokens": 4275917.0,
	"step": 262
	},
	{
	"entropy": 0.5593424290418625,
	"epoch": 0.983177570093458,
	"grad_norm": 0.024790652096271515,
	"learning_rate": 0.0002,
	"loss": 0.5574150085449219,
	"mean_token_accuracy": 0.7770240753889084,
	"num_tokens": 4292310.0,
	"step": 263
	},
	{
	"entropy": 0.5394274890422821,
	"epoch": 0.9869158878504672,
	"grad_norm": 0.02477172389626503,
	"learning_rate": 0.0002,
	"loss": 0.5407758951187134,
	"mean_token_accuracy": 0.780282586812973,
	"num_tokens": 4308380.0,
	"step": 264
	},
	{
	"entropy": 0.5651121735572815,
	"epoch": 0.9906542056074766,
	"grad_norm": 0.028029976412653923,
	"learning_rate": 0.0002,
	"loss": 0.5648099184036255,
	"mean_token_accuracy": 0.7703951746225357,
	"num_tokens": 4324834.0,
	"step": 265
	},
	{
	"entropy": 0.5426322817802429,
	"epoch": 0.994392523364486,
	"grad_norm": 0.025631116703152657,
	"learning_rate": 0.0002,
	"loss": 0.5393193364143372,
	"mean_token_accuracy": 0.7813181281089783,
	"num_tokens": 4341233.0,
	"step": 266
	},
	{
	"entropy": 0.5464787781238556,
	"epoch": 0.9981308411214953,
	"grad_norm": 0.029863541945815086,
	"learning_rate": 0.0002,
	"loss": 0.5550025701522827,
	"mean_token_accuracy": 0.7747247219085693,
	"num_tokens": 4357682.0,
	"step": 267
	},
	{
	"entropy": 0.5607179999351501,
	"epoch": 1.0,
	"grad_norm": 0.03738218545913696,
	"learning_rate": 0.0002,
	"loss": 0.5586302876472473,
	"mean_token_accuracy": 0.7706243097782135,
	"num_tokens": 4364958.0,
	"step": 268
	},
	{
	"entropy": 0.5429188311100006,
	"epoch": 1.0037383177570094,
	"grad_norm": 0.031045127660036087,
	"learning_rate": 0.0002,
	"loss": 0.5379543900489807,
	"mean_token_accuracy": 0.7818119078874588,
	"num_tokens": 4381160.0,
	"step": 269
	},
	{
	"entropy": 0.5693697482347488,
	"epoch": 1.0074766355140188,
	"grad_norm": 0.034702617675065994,
	"learning_rate": 0.0002,
	"loss": 0.5631182789802551,
	"mean_token_accuracy": 0.7740933299064636,
	"num_tokens": 4397580.0,
	"step": 270
	},
	{
	"entropy": 0.5556007027626038,
	"epoch": 1.011214953271028,
	"grad_norm": 0.029613088816404343,
	"learning_rate": 0.0002,
	"loss": 0.5564326643943787,
	"mean_token_accuracy": 0.7747503072023392,
	"num_tokens": 4413970.0,
	"step": 271
	},
	{
	"entropy": 0.5529852658510208,
	"epoch": 1.0149532710280373,
	"grad_norm": 0.028977181762456894,
	"learning_rate": 0.0002,
	"loss": 0.5552069544792175,
	"mean_token_accuracy": 0.7720492333173752,
	"num_tokens": 4430293.0,
	"step": 272
	},
	{
	"entropy": 0.5520482361316681,
	"epoch": 1.0186915887850467,
	"grad_norm": 0.03374192863702774,
	"learning_rate": 0.0002,
	"loss": 0.5517052412033081,
	"mean_token_accuracy": 0.7761924266815186,
	"num_tokens": 4446900.0,
	"step": 273
	},
	{
	"entropy": 0.5477887243032455,
	"epoch": 1.0224299065420561,
	"grad_norm": 0.02954636886715889,
	"learning_rate": 0.0002,
	"loss": 0.5459023714065552,
	"mean_token_accuracy": 0.7766608893871307,
	"num_tokens": 4463329.0,
	"step": 274
	},
	{
	"entropy": 0.5484108775854111,
	"epoch": 1.0261682242990655,
	"grad_norm": 0.029792649671435356,
	"learning_rate": 0.0002,
	"loss": 0.553299069404602,
	"mean_token_accuracy": 0.7751943320035934,
	"num_tokens": 4479679.0,
	"step": 275
	},
	{
	"entropy": 0.5480824410915375,
	"epoch": 1.0299065420560747,
	"grad_norm": 0.03428385779261589,
	"learning_rate": 0.0002,
	"loss": 0.54673171043396,
	"mean_token_accuracy": 0.7777809202671051,
	"num_tokens": 4496261.0,
	"step": 276
	},
	{
	"entropy": 0.5371964275836945,
	"epoch": 1.033644859813084,
	"grad_norm": 0.027453402057290077,
	"learning_rate": 0.0002,
	"loss": 0.5412828922271729,
	"mean_token_accuracy": 0.7782962769269943,
	"num_tokens": 4512363.0,
	"step": 277
	},
	{
	"entropy": 0.5626021921634674,
	"epoch": 1.0373831775700935,
	"grad_norm": 0.03147402033209801,
	"learning_rate": 0.0002,
	"loss": 0.5639899373054504,
	"mean_token_accuracy": 0.772662416100502,
	"num_tokens": 4528687.0,
	"step": 278
	},
	{
	"entropy": 0.5309132784605026,
	"epoch": 1.0411214953271029,
	"grad_norm": 0.03592999279499054,
	"learning_rate": 0.0002,
	"loss": 0.5408714413642883,
	"mean_token_accuracy": 0.7803217619657516,
	"num_tokens": 4544861.0,
	"step": 279
	},
	{
	"entropy": 0.5621335506439209,
	"epoch": 1.0448598130841122,
	"grad_norm": 0.027180444449186325,
	"learning_rate": 0.0002,
	"loss": 0.5557287931442261,
	"mean_token_accuracy": 0.7766296565532684,
	"num_tokens": 4561446.0,
	"step": 280
	},
	{
	"entropy": 0.5597621351480484,
	"epoch": 1.0485981308411214,
	"grad_norm": 0.030723722651600838,
	"learning_rate": 0.0002,
	"loss": 0.5488376617431641,
	"mean_token_accuracy": 0.7752789407968521,
	"num_tokens": 4577902.0,
	"step": 281
	},
	{
	"entropy": 0.5447895377874374,
	"epoch": 1.0523364485981308,
	"grad_norm": 0.03346191346645355,
	"learning_rate": 0.0002,
	"loss": 0.54459547996521,
	"mean_token_accuracy": 0.7764092832803726,
	"num_tokens": 4593907.0,
	"step": 282
	},
	{
	"entropy": 0.5376723855733871,
	"epoch": 1.0560747663551402,
	"grad_norm": 0.029941193759441376,
	"learning_rate": 0.0002,
	"loss": 0.5396949052810669,
	"mean_token_accuracy": 0.7800134569406509,
	"num_tokens": 4610281.0,
	"step": 283
	},
	{
	"entropy": 0.532968744635582,
	"epoch": 1.0598130841121496,
	"grad_norm": 0.03566444665193558,
	"learning_rate": 0.0002,
	"loss": 0.5449310541152954,
	"mean_token_accuracy": 0.7814425081014633,
	"num_tokens": 4626569.0,
	"step": 284
	},
	{
	"entropy": 0.5349016040563583,
	"epoch": 1.063551401869159,
	"grad_norm": 0.03160771727561951,
	"learning_rate": 0.0002,
	"loss": 0.5422961115837097,
	"mean_token_accuracy": 0.7798893004655838,
	"num_tokens": 4643058.0,
	"step": 285
	},
	{
	"entropy": 0.533850871026516,
	"epoch": 1.0672897196261681,
	"grad_norm": 0.036520425230264664,
	"learning_rate": 0.0002,
	"loss": 0.5418434739112854,
	"mean_token_accuracy": 0.7801807075738907,
	"num_tokens": 4659171.0,
	"step": 286
	},
	{
	"entropy": 0.5512394160032272,
	"epoch": 1.0710280373831775,
	"grad_norm": 0.030453668907284737,
	"learning_rate": 0.0002,
	"loss": 0.547731339931488,
	"mean_token_accuracy": 0.77372145652771,
	"num_tokens": 4675372.0,
	"step": 287
	},
	{
	"entropy": 0.5371382534503937,
	"epoch": 1.074766355140187,
	"grad_norm": 0.031432170420885086,
	"learning_rate": 0.0002,
	"loss": 0.5252817869186401,
	"mean_token_accuracy": 0.7852388918399811,
	"num_tokens": 4691895.0,
	"step": 288
	},
	{
	"entropy": 0.5536183714866638,
	"epoch": 1.0785046728971963,
	"grad_norm": 0.036878716200590134,
	"learning_rate": 0.0002,
	"loss": 0.5542073249816895,
	"mean_token_accuracy": 0.7766832113265991,
	"num_tokens": 4708579.0,
	"step": 289
	},
	{
	"entropy": 0.5479064285755157,
	"epoch": 1.0822429906542057,
	"grad_norm": 0.031178997829556465,
	"learning_rate": 0.0002,
	"loss": 0.5539444088935852,
	"mean_token_accuracy": 0.7733383923768997,
	"num_tokens": 4725006.0,
	"step": 290
	},
	{
	"entropy": 0.5490889102220535,
	"epoch": 1.0859813084112149,
	"grad_norm": 0.03600861504673958,
	"learning_rate": 0.0002,
	"loss": 0.5477103590965271,
	"mean_token_accuracy": 0.7760229259729385,
	"num_tokens": 4741146.0,
	"step": 291
	},
	{
	"entropy": 0.5331408083438873,
	"epoch": 1.0897196261682243,
	"grad_norm": 0.029067492112517357,
	"learning_rate": 0.0002,
	"loss": 0.5310513377189636,
	"mean_token_accuracy": 0.7808917611837387,
	"num_tokens": 4757405.0,
	"step": 292
	},
	{
	"entropy": 0.5732952356338501,
	"epoch": 1.0934579439252337,
	"grad_norm": 0.027897845953702927,
	"learning_rate": 0.0002,
	"loss": 0.5689205527305603,
	"mean_token_accuracy": 0.7669987231492996,
	"num_tokens": 4773935.0,
	"step": 293
	},
	{
	"entropy": 0.5514747202396393,
	"epoch": 1.097196261682243,
	"grad_norm": 0.03678213432431221,
	"learning_rate": 0.0002,
	"loss": 0.5475887060165405,
	"mean_token_accuracy": 0.7782610803842545,
	"num_tokens": 4790197.0,
	"step": 294
	},
	{
	"entropy": 0.5528618544340134,
	"epoch": 1.1009345794392524,
	"grad_norm": 0.03136972337961197,
	"learning_rate": 0.0002,
	"loss": 0.5539395213127136,
	"mean_token_accuracy": 0.7734730243682861,
	"num_tokens": 4806625.0,
	"step": 295
	},
	{
	"entropy": 0.5395589917898178,
	"epoch": 1.1046728971962616,
	"grad_norm": 0.030648380517959595,
	"learning_rate": 0.0002,
	"loss": 0.5440752506256104,
	"mean_token_accuracy": 0.7809486091136932,
	"num_tokens": 4823046.0,
	"step": 296
	},
	{
	"entropy": 0.5670987218618393,
	"epoch": 1.108411214953271,
	"grad_norm": 0.028722837567329407,
	"learning_rate": 0.0002,
	"loss": 0.5669575929641724,
	"mean_token_accuracy": 0.7682226747274399,
	"num_tokens": 4839449.0,
	"step": 297
	},
	{
	"entropy": 0.5453528463840485,
	"epoch": 1.1121495327102804,
	"grad_norm": 0.03358433395624161,
	"learning_rate": 0.0002,
	"loss": 0.5394450426101685,
	"mean_token_accuracy": 0.7793479263782501,
	"num_tokens": 4855702.0,
	"step": 298
	},
	{
	"entropy": 0.5313688218593597,
	"epoch": 1.1158878504672898,
	"grad_norm": 0.031751058995723724,
	"learning_rate": 0.0002,
	"loss": 0.5339279174804688,
	"mean_token_accuracy": 0.7852170914411545,
	"num_tokens": 4872035.0,
	"step": 299
	},
	{
	"entropy": 0.5542233884334564,
	"epoch": 1.1196261682242992,
	"grad_norm": 0.030381185933947563,
	"learning_rate": 0.0002,
	"loss": 0.5629603862762451,
	"mean_token_accuracy": 0.76924729347229,
	"num_tokens": 4888405.0,
	"step": 300
	},
	{
	"entropy": 0.5514146685600281,
	"epoch": 1.1233644859813083,
	"grad_norm": 0.028884021565318108,
	"learning_rate": 0.0002,
	"loss": 0.550013542175293,
	"mean_token_accuracy": 0.7766973823308945,
	"num_tokens": 4904871.0,
	"step": 301
	},
	{
	"entropy": 0.5544252693653107,
	"epoch": 1.1271028037383177,
	"grad_norm": 0.03688167408108711,
	"learning_rate": 0.0002,
	"loss": 0.5589375495910645,
	"mean_token_accuracy": 0.7750934660434723,
	"num_tokens": 4921370.0,
	"step": 302
	},
	{
	"entropy": 0.5409253090620041,
	"epoch": 1.1308411214953271,
	"grad_norm": 0.026449156925082207,
	"learning_rate": 0.0002,
	"loss": 0.5402511358261108,
	"mean_token_accuracy": 0.7794521301984787,
	"num_tokens": 4937635.0,
	"step": 303
	},
	{
	"entropy": 0.5496914833784103,
	"epoch": 1.1345794392523365,
	"grad_norm": 0.030888745561242104,
	"learning_rate": 0.0002,
	"loss": 0.5520302653312683,
	"mean_token_accuracy": 0.7741389274597168,
	"num_tokens": 4953795.0,
	"step": 304
	},
	{
	"entropy": 0.5356033593416214,
	"epoch": 1.1383177570093457,
	"grad_norm": 0.030453680083155632,
	"learning_rate": 0.0002,
	"loss": 0.5415939092636108,
	"mean_token_accuracy": 0.7807344794273376,
	"num_tokens": 4970296.0,
	"step": 305
	},
	{
	"entropy": 0.53813037276268,
	"epoch": 1.142056074766355,
	"grad_norm": 0.03046366199851036,
	"learning_rate": 0.0002,
	"loss": 0.5416396856307983,
	"mean_token_accuracy": 0.7764643579721451,
	"num_tokens": 4986502.0,
	"step": 306
	},
	{
	"entropy": 0.5428405404090881,
	"epoch": 1.1457943925233645,
	"grad_norm": 0.03174874931573868,
	"learning_rate": 0.0002,
	"loss": 0.5486522912979126,
	"mean_token_accuracy": 0.7775285989046097,
	"num_tokens": 5002702.0,
	"step": 307
	},
	{
	"entropy": 0.5566747784614563,
	"epoch": 1.1495327102803738,
	"grad_norm": 0.028818320482969284,
	"learning_rate": 0.0002,
	"loss": 0.5562471151351929,
	"mean_token_accuracy": 0.77483069896698,
	"num_tokens": 5019050.0,
	"step": 308
	},
	{
	"entropy": 0.5498685240745544,
	"epoch": 1.1532710280373832,
	"grad_norm": 0.028088422492146492,
	"learning_rate": 0.0002,
	"loss": 0.5427108407020569,
	"mean_token_accuracy": 0.7781059741973877,
	"num_tokens": 5035367.0,
	"step": 309
	},
	{
	"entropy": 0.5676623731851578,
	"epoch": 1.1570093457943926,
	"grad_norm": 0.02635916881263256,
	"learning_rate": 0.0002,
	"loss": 0.5621261596679688,
	"mean_token_accuracy": 0.7690412253141403,
	"num_tokens": 5051623.0,
	"step": 310
	},
	{
	"entropy": 0.5571839809417725,
	"epoch": 1.1607476635514018,
	"grad_norm": 0.030562767758965492,
	"learning_rate": 0.0002,
	"loss": 0.5547442436218262,
	"mean_token_accuracy": 0.773685023188591,
	"num_tokens": 5067784.0,
	"step": 311
	},
	{
	"entropy": 0.5521961599588394,
	"epoch": 1.1644859813084112,
	"grad_norm": 0.02953186444938183,
	"learning_rate": 0.0002,
	"loss": 0.5498039722442627,
	"mean_token_accuracy": 0.7766331732273102,
	"num_tokens": 5084198.0,
	"step": 312
	},
	{
	"entropy": 0.5448037981987,
	"epoch": 1.1682242990654206,
	"grad_norm": 0.04071420431137085,
	"learning_rate": 0.0002,
	"loss": 0.5559482574462891,
	"mean_token_accuracy": 0.7727169245481491,
	"num_tokens": 5100585.0,
	"step": 313
	},
	{
	"entropy": 0.5439905822277069,
	"epoch": 1.17196261682243,
	"grad_norm": 0.031825143843889236,
	"learning_rate": 0.0002,
	"loss": 0.5438477396965027,
	"mean_token_accuracy": 0.7780765742063522,
	"num_tokens": 5116856.0,
	"step": 314
	},
	{
	"entropy": 0.5614278465509415,
	"epoch": 1.1757009345794391,
	"grad_norm": 0.03391456976532936,
	"learning_rate": 0.0002,
	"loss": 0.5585231781005859,
	"mean_token_accuracy": 0.774724468588829,
	"num_tokens": 5133123.0,
	"step": 315
	},
	{
	"entropy": 0.5348840728402138,
	"epoch": 1.1794392523364485,
	"grad_norm": 0.030404910445213318,
	"learning_rate": 0.0002,
	"loss": 0.5299553275108337,
	"mean_token_accuracy": 0.7871359586715698,
	"num_tokens": 5149505.0,
	"step": 316
	},
	{
	"entropy": 0.5417611449956894,
	"epoch": 1.183177570093458,
	"grad_norm": 0.03005358763039112,
	"learning_rate": 0.0002,
	"loss": 0.5521109700202942,
	"mean_token_accuracy": 0.7752534449100494,
	"num_tokens": 5165665.0,
	"step": 317
	},
	{
	"entropy": 0.5467934459447861,
	"epoch": 1.1869158878504673,
	"grad_norm": 0.030464891344308853,
	"learning_rate": 0.0002,
	"loss": 0.5535311698913574,
	"mean_token_accuracy": 0.7757606655359268,
	"num_tokens": 5182312.0,
	"step": 318
	},
	{
	"entropy": 0.55706687271595,
	"epoch": 1.1906542056074767,
	"grad_norm": 0.03402930125594139,
	"learning_rate": 0.0002,
	"loss": 0.56557697057724,
	"mean_token_accuracy": 0.773482084274292,
	"num_tokens": 5198753.0,
	"step": 319
	},
	{
	"entropy": 0.5285287350416183,
	"epoch": 1.194392523364486,
	"grad_norm": 0.03398562967777252,
	"learning_rate": 0.0002,
	"loss": 0.5356812477111816,
	"mean_token_accuracy": 0.781065508723259,
	"num_tokens": 5214716.0,
	"step": 320
	},
	{
	"entropy": 0.5561061501502991,
	"epoch": 1.1981308411214953,
	"grad_norm": 0.04313025251030922,
	"learning_rate": 0.0002,
	"loss": 0.5472796559333801,
	"mean_token_accuracy": 0.7778294533491135,
	"num_tokens": 5230933.0,
	"step": 321
	},
	{
	"entropy": 0.556538999080658,
	"epoch": 1.2018691588785047,
	"grad_norm": 0.03227441757917404,
	"learning_rate": 0.0002,
	"loss": 0.5438181161880493,
	"mean_token_accuracy": 0.7791680693626404,
	"num_tokens": 5247202.0,
	"step": 322
	},
	{
	"entropy": 0.5609522461891174,
	"epoch": 1.205607476635514,
	"grad_norm": 0.03183369338512421,
	"learning_rate": 0.0002,
	"loss": 0.5561162829399109,
	"mean_token_accuracy": 0.7751743495464325,
	"num_tokens": 5263696.0,
	"step": 323
	},
	{
	"entropy": 0.5427358001470566,
	"epoch": 1.2093457943925234,
	"grad_norm": 0.03253727778792381,
	"learning_rate": 0.0002,
	"loss": 0.5515695214271545,
	"mean_token_accuracy": 0.7756281793117523,
	"num_tokens": 5280141.0,
	"step": 324
	},
	{
	"entropy": 0.5160750597715378,
	"epoch": 1.2130841121495326,
	"grad_norm": 0.03668288141489029,
	"learning_rate": 0.0002,
	"loss": 0.526226282119751,
	"mean_token_accuracy": 0.7851300984621048,
	"num_tokens": 5296198.0,
	"step": 325
	},
	{
	"entropy": 0.5500008910894394,
	"epoch": 1.216822429906542,
	"grad_norm": 0.03275466337800026,
	"learning_rate": 0.0002,
	"loss": 0.5556660890579224,
	"mean_token_accuracy": 0.7739221006631851,
	"num_tokens": 5312653.0,
	"step": 326
	},
	{
	"entropy": 0.5459257364273071,
	"epoch": 1.2205607476635514,
	"grad_norm": 0.02891591377556324,
	"learning_rate": 0.0002,
	"loss": 0.5413340330123901,
	"mean_token_accuracy": 0.781257688999176,
	"num_tokens": 5328926.0,
	"step": 327
	},
	{
	"entropy": 0.5695579349994659,
	"epoch": 1.2242990654205608,
	"grad_norm": 0.0299241840839386,
	"learning_rate": 0.0002,
	"loss": 0.5636513233184814,
	"mean_token_accuracy": 0.7732590138912201,
	"num_tokens": 5345213.0,
	"step": 328
	},
	{
	"entropy": 0.5591664463281631,
	"epoch": 1.2280373831775702,
	"grad_norm": 0.034591834992170334,
	"learning_rate": 0.0002,
	"loss": 0.5587798953056335,
	"mean_token_accuracy": 0.7725549340248108,
	"num_tokens": 5361493.0,
	"step": 329
	},
	{
	"entropy": 0.5631786286830902,
	"epoch": 1.2317757009345796,
	"grad_norm": 0.03143571689724922,
	"learning_rate": 0.0002,
	"loss": 0.5540720224380493,
	"mean_token_accuracy": 0.7765887975692749,
	"num_tokens": 5378085.0,
	"step": 330
	},
	{
	"entropy": 0.5508914291858673,
	"epoch": 1.2355140186915887,
	"grad_norm": 0.032595690339803696,
	"learning_rate": 0.0002,
	"loss": 0.5526955723762512,
	"mean_token_accuracy": 0.7747674286365509,
	"num_tokens": 5394458.0,
	"step": 331
	},
	{
	"entropy": 0.536909781396389,
	"epoch": 1.2392523364485981,
	"grad_norm": 0.033028744161129,
	"learning_rate": 0.0002,
	"loss": 0.5481626987457275,
	"mean_token_accuracy": 0.7782605588436127,
	"num_tokens": 5410880.0,
	"step": 332
	},
	{
	"entropy": 0.5499342679977417,
	"epoch": 1.2429906542056075,
	"grad_norm": 0.03855755180120468,
	"learning_rate": 0.0002,
	"loss": 0.5627814531326294,
	"mean_token_accuracy": 0.7700037658214569,
	"num_tokens": 5426885.0,
	"step": 333
	},
	{
	"entropy": 0.5494136810302734,
	"epoch": 1.246728971962617,
	"grad_norm": 0.03397782891988754,
	"learning_rate": 0.0002,
	"loss": 0.5508397817611694,
	"mean_token_accuracy": 0.7756514847278595,
	"num_tokens": 5443330.0,
	"step": 334
	},
	{
	"entropy": 0.5679187029600143,
	"epoch": 1.250467289719626,
	"grad_norm": 0.03217748925089836,
	"learning_rate": 0.0002,
	"loss": 0.5683805346488953,
	"mean_token_accuracy": 0.770328551530838,
	"num_tokens": 5459602.0,
	"step": 335
	},
	{
	"entropy": 0.5620801448822021,
	"epoch": 1.2542056074766355,
	"grad_norm": 0.03699919581413269,
	"learning_rate": 0.0002,
	"loss": 0.556020200252533,
	"mean_token_accuracy": 0.7749847769737244,
	"num_tokens": 5475920.0,
	"step": 336
	},
	{
	"entropy": 0.5483541190624237,
	"epoch": 1.2579439252336448,
	"grad_norm": 0.027093922719359398,
	"learning_rate": 0.0002,
	"loss": 0.5420067310333252,
	"mean_token_accuracy": 0.7774698734283447,
	"num_tokens": 5492418.0,
	"step": 337
	},
	{
	"entropy": 0.5432356148958206,
	"epoch": 1.2616822429906542,
	"grad_norm": 0.029740024358034134,
	"learning_rate": 0.0002,
	"loss": 0.5436828136444092,
	"mean_token_accuracy": 0.7754241824150085,
	"num_tokens": 5508720.0,
	"step": 338
	},
	{
	"entropy": 0.5282722562551498,
	"epoch": 1.2654205607476636,
	"grad_norm": 0.02825041115283966,
	"learning_rate": 0.0002,
	"loss": 0.5287445783615112,
	"mean_token_accuracy": 0.785777822136879,
	"num_tokens": 5524810.0,
	"step": 339
	},
	{
	"entropy": 0.5574855506420135,
	"epoch": 1.269158878504673,
	"grad_norm": 0.03507409617304802,
	"learning_rate": 0.0002,
	"loss": 0.5642590522766113,
	"mean_token_accuracy": 0.7694929391145706,
	"num_tokens": 5541154.0,
	"step": 340
	},
	{
	"entropy": 0.5311331301927567,
	"epoch": 1.2728971962616822,
	"grad_norm": 0.029530638828873634,
	"learning_rate": 0.0002,
	"loss": 0.5375971794128418,
	"mean_token_accuracy": 0.7804928719997406,
	"num_tokens": 5557415.0,
	"step": 341
	},
	{
	"entropy": 0.5492513477802277,
	"epoch": 1.2766355140186916,
	"grad_norm": 0.03299937769770622,
	"learning_rate": 0.0002,
	"loss": 0.5487713813781738,
	"mean_token_accuracy": 0.7776053845882416,
	"num_tokens": 5573593.0,
	"step": 342
	},
	{
	"entropy": 0.5501092821359634,
	"epoch": 1.280373831775701,
	"grad_norm": 0.03342421352863312,
	"learning_rate": 0.0002,
	"loss": 0.5497907996177673,
	"mean_token_accuracy": 0.7747702449560165,
	"num_tokens": 5590001.0,
	"step": 343
	},
	{
	"entropy": 0.5520797073841095,
	"epoch": 1.2841121495327104,
	"grad_norm": 0.029625268653035164,
	"learning_rate": 0.0002,
	"loss": 0.5493736267089844,
	"mean_token_accuracy": 0.7800589352846146,
	"num_tokens": 5606174.0,
	"step": 344
	},
	{
	"entropy": 0.5360356196761131,
	"epoch": 1.2878504672897195,
	"grad_norm": 0.03089168108999729,
	"learning_rate": 0.0002,
	"loss": 0.5362368226051331,
	"mean_token_accuracy": 0.7833685129880905,
	"num_tokens": 5622436.0,
	"step": 345
	},
	{
	"entropy": 0.5267095118761063,
	"epoch": 1.291588785046729,
	"grad_norm": 0.03297918289899826,
	"learning_rate": 0.0002,
	"loss": 0.5281186699867249,
	"mean_token_accuracy": 0.7881515920162201,
	"num_tokens": 5638451.0,
	"step": 346
	},
	{
	"entropy": 0.5502850115299225,
	"epoch": 1.2953271028037383,
	"grad_norm": 0.047267865389585495,
	"learning_rate": 0.0002,
	"loss": 0.5505760312080383,
	"mean_token_accuracy": 0.7761109918355942,
	"num_tokens": 5655041.0,
	"step": 347
	},
	{
	"entropy": 0.5508257895708084,
	"epoch": 1.2990654205607477,
	"grad_norm": 0.028140036389231682,
	"learning_rate": 0.0002,
	"loss": 0.5515832304954529,
	"mean_token_accuracy": 0.7750399112701416,
	"num_tokens": 5671677.0,
	"step": 348
	},
	{
	"entropy": 0.5565541088581085,
	"epoch": 1.302803738317757,
	"grad_norm": 0.032449062913656235,
	"learning_rate": 0.0002,
	"loss": 0.5538536310195923,
	"mean_token_accuracy": 0.7736092507839203,
	"num_tokens": 5688187.0,
	"step": 349
	},
	{
	"entropy": 0.5361721217632294,
	"epoch": 1.3065420560747665,
	"grad_norm": 0.029190748929977417,
	"learning_rate": 0.0002,
	"loss": 0.5377737879753113,
	"mean_token_accuracy": 0.7808200567960739,
	"num_tokens": 5704636.0,
	"step": 350
	},
	{
	"entropy": 0.5346792191267014,
	"epoch": 1.3102803738317756,
	"grad_norm": 0.03473074361681938,
	"learning_rate": 0.0002,
	"loss": 0.5417028665542603,
	"mean_token_accuracy": 0.778437003493309,
	"num_tokens": 5721160.0,
	"step": 351
	},
	{
	"entropy": 0.5305602103471756,
	"epoch": 1.314018691588785,
	"grad_norm": 0.03426121547818184,
	"learning_rate": 0.0002,
	"loss": 0.5302631258964539,
	"mean_token_accuracy": 0.7822723984718323,
	"num_tokens": 5737508.0,
	"step": 352
	},
	{
	"entropy": 0.5443065613508224,
	"epoch": 1.3177570093457944,
	"grad_norm": 0.031232863664627075,
	"learning_rate": 0.0002,
	"loss": 0.5438801050186157,
	"mean_token_accuracy": 0.7807773351669312,
	"num_tokens": 5753931.0,
	"step": 353
	},
	{
	"entropy": 0.5547338575124741,
	"epoch": 1.3214953271028038,
	"grad_norm": 0.03515113145112991,
	"learning_rate": 0.0002,
	"loss": 0.5590701103210449,
	"mean_token_accuracy": 0.7718778848648071,
	"num_tokens": 5770396.0,
	"step": 354
	},
	{
	"entropy": 0.5776932686567307,
	"epoch": 1.325233644859813,
	"grad_norm": 0.031292639672756195,
	"learning_rate": 0.0002,
	"loss": 0.5758817791938782,
	"mean_token_accuracy": 0.76340052485466,
	"num_tokens": 5786743.0,
	"step": 355
	},
	{
	"entropy": 0.5471627116203308,
	"epoch": 1.3289719626168224,
	"grad_norm": 0.02935577929019928,
	"learning_rate": 0.0002,
	"loss": 0.5406426787376404,
	"mean_token_accuracy": 0.7801960557699203,
	"num_tokens": 5803296.0,
	"step": 356
	},
	{
	"entropy": 0.5335498154163361,
	"epoch": 1.3327102803738318,
	"grad_norm": 0.029476149007678032,
	"learning_rate": 0.0002,
	"loss": 0.5379401445388794,
	"mean_token_accuracy": 0.7807924002408981,
	"num_tokens": 5819523.0,
	"step": 357
	},
	{
	"entropy": 0.571747362613678,
	"epoch": 1.3364485981308412,
	"grad_norm": 0.030969126150012016,
	"learning_rate": 0.0002,
	"loss": 0.5734298825263977,
	"mean_token_accuracy": 0.7665233165025711,
	"num_tokens": 5835904.0,
	"step": 358
	},
	{
	"entropy": 0.5278273224830627,
	"epoch": 1.3401869158878505,
	"grad_norm": 0.035017624497413635,
	"learning_rate": 0.0002,
	"loss": 0.5390288233757019,
	"mean_token_accuracy": 0.7818515002727509,
	"num_tokens": 5852087.0,
	"step": 359
	},
	{
	"entropy": 0.5494511723518372,
	"epoch": 1.34392523364486,
	"grad_norm": 0.0332498699426651,
	"learning_rate": 0.0002,
	"loss": 0.5546149611473083,
	"mean_token_accuracy": 0.7754078060388565,
	"num_tokens": 5868313.0,
	"step": 360
	},
	{
	"entropy": 0.5656353235244751,
	"epoch": 1.347663551401869,
	"grad_norm": 0.029156476259231567,
	"learning_rate": 0.0002,
	"loss": 0.5639902353286743,
	"mean_token_accuracy": 0.7691005319356918,
	"num_tokens": 5884673.0,
	"step": 361
	},
	{
	"entropy": 0.5517591834068298,
	"epoch": 1.3514018691588785,
	"grad_norm": 0.033162813633680344,
	"learning_rate": 0.0002,
	"loss": 0.5487698316574097,
	"mean_token_accuracy": 0.7762563526630402,
	"num_tokens": 5901026.0,
	"step": 362
	},
	{
	"entropy": 0.5693054497241974,
	"epoch": 1.355140186915888,
	"grad_norm": 0.03303493186831474,
	"learning_rate": 0.0002,
	"loss": 0.5636650323867798,
	"mean_token_accuracy": 0.7702258229255676,
	"num_tokens": 5917299.0,
	"step": 363
	},
	{
	"entropy": 0.5485306680202484,
	"epoch": 1.358878504672897,
	"grad_norm": 0.028174106031656265,
	"learning_rate": 0.0002,
	"loss": 0.5443013310432434,
	"mean_token_accuracy": 0.7785944491624832,
	"num_tokens": 5933711.0,
	"step": 364
	},
	{
	"entropy": 0.5455866008996964,
	"epoch": 1.3626168224299064,
	"grad_norm": 0.03680690750479698,
	"learning_rate": 0.0002,
	"loss": 0.5549443364143372,
	"mean_token_accuracy": 0.7760016471147537,
	"num_tokens": 5949851.0,
	"step": 365
	},
	{
	"entropy": 0.5625369846820831,
	"epoch": 1.3663551401869158,
	"grad_norm": 0.03274211287498474,
	"learning_rate": 0.0002,
	"loss": 0.5614032745361328,
	"mean_token_accuracy": 0.7710064649581909,
	"num_tokens": 5966219.0,
	"step": 366
	},
	{
	"entropy": 0.5512880086898804,
	"epoch": 1.3700934579439252,
	"grad_norm": 0.029914218932390213,
	"learning_rate": 0.0002,
	"loss": 0.5541912317276001,
	"mean_token_accuracy": 0.7744521200656891,
	"num_tokens": 5982685.0,
	"step": 367
	},
	{
	"entropy": 0.5462228506803513,
	"epoch": 1.3738317757009346,
	"grad_norm": 0.03740010783076286,
	"learning_rate": 0.0002,
	"loss": 0.542587161064148,
	"mean_token_accuracy": 0.7833080589771271,
	"num_tokens": 5999012.0,
	"step": 368
	},
	{
	"entropy": 0.5561699420213699,
	"epoch": 1.377570093457944,
	"grad_norm": 0.03154682740569115,
	"learning_rate": 0.0002,
	"loss": 0.5543806552886963,
	"mean_token_accuracy": 0.7729498744010925,
	"num_tokens": 6015418.0,
	"step": 369
	},
	{
	"entropy": 0.5295282006263733,
	"epoch": 1.3813084112149534,
	"grad_norm": 0.029992269352078438,
	"learning_rate": 0.0002,
	"loss": 0.5347234010696411,
	"mean_token_accuracy": 0.7826734483242035,
	"num_tokens": 6031664.0,
	"step": 370
	},
	{
	"entropy": 0.5307233035564423,
	"epoch": 1.3850467289719626,
	"grad_norm": 0.0387556329369545,
	"learning_rate": 0.0002,
	"loss": 0.5442472696304321,
	"mean_token_accuracy": 0.7788428515195847,
	"num_tokens": 6047789.0,
	"step": 371
	},
	{
	"entropy": 0.5666087120771408,
	"epoch": 1.388785046728972,
	"grad_norm": 0.03485598787665367,
	"learning_rate": 0.0002,
	"loss": 0.5701879858970642,
	"mean_token_accuracy": 0.7664644569158554,
	"num_tokens": 6064072.0,
	"step": 372
	},
	{
	"entropy": 0.5600801408290863,
	"epoch": 1.3925233644859814,
	"grad_norm": 0.030468204990029335,
	"learning_rate": 0.0002,
	"loss": 0.557839035987854,
	"mean_token_accuracy": 0.7774783074855804,
	"num_tokens": 6080233.0,
	"step": 373
	},
	{
	"entropy": 0.5573039948940277,
	"epoch": 1.3962616822429905,
	"grad_norm": 0.03327672928571701,
	"learning_rate": 0.0002,
	"loss": 0.5551377534866333,
	"mean_token_accuracy": 0.7740774154663086,
	"num_tokens": 6096552.0,
	"step": 374
	},
	{
	"entropy": 0.5559895187616348,
	"epoch": 1.4,
	"grad_norm": 0.029464859515428543,
	"learning_rate": 0.0002,
	"loss": 0.5499491691589355,
	"mean_token_accuracy": 0.778936430811882,
	"num_tokens": 6112721.0,
	"step": 375
	},
	{
	"entropy": 0.5373993217945099,
	"epoch": 1.4037383177570093,
	"grad_norm": 0.033405598253011703,
	"learning_rate": 0.0002,
	"loss": 0.5378676652908325,
	"mean_token_accuracy": 0.78409743309021,
	"num_tokens": 6128876.0,
	"step": 376
	},
	{
	"entropy": 0.5293000936508179,
	"epoch": 1.4074766355140187,
	"grad_norm": 0.03749069571495056,
	"learning_rate": 0.0002,
	"loss": 0.5442302823066711,
	"mean_token_accuracy": 0.7793403714895248,
	"num_tokens": 6145070.0,
	"step": 377
	},
	{
	"entropy": 0.5288459360599518,
	"epoch": 1.411214953271028,
	"grad_norm": 0.0304460097104311,
	"learning_rate": 0.0002,
	"loss": 0.5322169661521912,
	"mean_token_accuracy": 0.7845710813999176,
	"num_tokens": 6161358.0,
	"step": 378
	},
	{
	"entropy": 0.5396905541419983,
	"epoch": 1.4149532710280375,
	"grad_norm": 0.0334291011095047,
	"learning_rate": 0.0002,
	"loss": 0.536848783493042,
	"mean_token_accuracy": 0.7786440551280975,
	"num_tokens": 6177744.0,
	"step": 379
	},
	{
	"entropy": 0.5749261528253555,
	"epoch": 1.4186915887850469,
	"grad_norm": 0.03149184212088585,
	"learning_rate": 0.0002,
	"loss": 0.5657936334609985,
	"mean_token_accuracy": 0.7711158096790314,
	"num_tokens": 6194294.0,
	"step": 380
	},
	{
	"entropy": 0.5584524124860764,
	"epoch": 1.422429906542056,
	"grad_norm": 0.03502335026860237,
	"learning_rate": 0.0002,
	"loss": 0.5578019618988037,
	"mean_token_accuracy": 0.7754084765911102,
	"num_tokens": 6210591.0,
	"step": 381
	},
	{
	"entropy": 0.5385516434907913,
	"epoch": 1.4261682242990654,
	"grad_norm": 0.029922619462013245,
	"learning_rate": 0.0002,
	"loss": 0.5379009246826172,
	"mean_token_accuracy": 0.7822572886943817,
	"num_tokens": 6226836.0,
	"step": 382
	},
	{
	"entropy": 0.5303553491830826,
	"epoch": 1.4299065420560748,
	"grad_norm": 0.03207620605826378,
	"learning_rate": 0.0002,
	"loss": 0.5399402379989624,
	"mean_token_accuracy": 0.7848275154829025,
	"num_tokens": 6243140.0,
	"step": 383
	},
	{
	"entropy": 0.5435499548912048,
	"epoch": 1.433644859813084,
	"grad_norm": 0.034929681569337845,
	"learning_rate": 0.0002,
	"loss": 0.5510104298591614,
	"mean_token_accuracy": 0.7754337340593338,
	"num_tokens": 6259135.0,
	"step": 384
	},
	{
	"entropy": 0.5495016276836395,
	"epoch": 1.4373831775700934,
	"grad_norm": 0.02961392141878605,
	"learning_rate": 0.0002,
	"loss": 0.5518282651901245,
	"mean_token_accuracy": 0.7770158797502518,
	"num_tokens": 6275478.0,
	"step": 385
	},
	{
	"entropy": 0.5597821772098541,
	"epoch": 1.4411214953271028,
	"grad_norm": 0.03038998879492283,
	"learning_rate": 0.0002,
	"loss": 0.5598548650741577,
	"mean_token_accuracy": 0.7717087864875793,
	"num_tokens": 6292022.0,
	"step": 386
	},
	{
	"entropy": 0.5554857552051544,
	"epoch": 1.4448598130841122,
	"grad_norm": 0.034831635653972626,
	"learning_rate": 0.0002,
	"loss": 0.5589088201522827,
	"mean_token_accuracy": 0.7742104977369308,
	"num_tokens": 6308395.0,
	"step": 387
	},
	{
	"entropy": 0.5330976247787476,
	"epoch": 1.4485981308411215,
	"grad_norm": 0.03864655643701553,
	"learning_rate": 0.0002,
	"loss": 0.5340397357940674,
	"mean_token_accuracy": 0.7843937277793884,
	"num_tokens": 6324443.0,
	"step": 388
	},
	{
	"entropy": 0.5459477603435516,
	"epoch": 1.452336448598131,
	"grad_norm": 0.03552354499697685,
	"learning_rate": 0.0002,
	"loss": 0.546898603439331,
	"mean_token_accuracy": 0.7767336070537567,
	"num_tokens": 6340452.0,
	"step": 389
	},
	{
	"entropy": 0.555869922041893,
	"epoch": 1.45607476635514,
	"grad_norm": 0.042999885976314545,
	"learning_rate": 0.0002,
	"loss": 0.5562218427658081,
	"mean_token_accuracy": 0.772677481174469,
	"num_tokens": 6356737.0,
	"step": 390
	},
	{
	"entropy": 0.5476373881101608,
	"epoch": 1.4598130841121495,
	"grad_norm": 0.034353937953710556,
	"learning_rate": 0.0002,
	"loss": 0.5502485632896423,
	"mean_token_accuracy": 0.7757505625486374,
	"num_tokens": 6372959.0,
	"step": 391
	},
	{
	"entropy": 0.5542000085115433,
	"epoch": 1.4635514018691589,
	"grad_norm": 0.030675135552883148,
	"learning_rate": 0.0002,
	"loss": 0.5507063865661621,
	"mean_token_accuracy": 0.7746506035327911,
	"num_tokens": 6389285.0,
	"step": 392
	},
	{
	"entropy": 0.5308681577444077,
	"epoch": 1.4672897196261683,
	"grad_norm": 0.03328751027584076,
	"learning_rate": 0.0002,
	"loss": 0.5308902263641357,
	"mean_token_accuracy": 0.7832993865013123,
	"num_tokens": 6405473.0,
	"step": 393
	},
	{
	"entropy": 0.5490089803934097,
	"epoch": 1.4710280373831774,
	"grad_norm": 0.03258799389004707,
	"learning_rate": 0.0002,
	"loss": 0.5524098873138428,
	"mean_token_accuracy": 0.7753634303808212,
	"num_tokens": 6421682.0,
	"step": 394
	},
	{
	"entropy": 0.5617490261793137,
	"epoch": 1.4747663551401868,
	"grad_norm": 0.03237268701195717,
	"learning_rate": 0.0002,
	"loss": 0.5609363913536072,
	"mean_token_accuracy": 0.7727462351322174,
	"num_tokens": 6438225.0,
	"step": 395
	},
	{
	"entropy": 0.5548438280820847,
	"epoch": 1.4785046728971962,
	"grad_norm": 0.0355081707239151,
	"learning_rate": 0.0002,
	"loss": 0.5486972332000732,
	"mean_token_accuracy": 0.7752490490674973,
	"num_tokens": 6454558.0,
	"step": 396
	},
	{
	"entropy": 0.539698138833046,
	"epoch": 1.4822429906542056,
	"grad_norm": 0.03101828694343567,
	"learning_rate": 0.0002,
	"loss": 0.5438753366470337,
	"mean_token_accuracy": 0.776269868016243,
	"num_tokens": 6470673.0,
	"step": 397
	},
	{
	"entropy": 0.5318429321050644,
	"epoch": 1.485981308411215,
	"grad_norm": 0.040831487625837326,
	"learning_rate": 0.0002,
	"loss": 0.5361422300338745,
	"mean_token_accuracy": 0.7855317145586014,
	"num_tokens": 6486739.0,
	"step": 398
	},
	{
	"entropy": 0.5382596254348755,
	"epoch": 1.4897196261682244,
	"grad_norm": 0.03325575962662697,
	"learning_rate": 0.0002,
	"loss": 0.5401434302330017,
	"mean_token_accuracy": 0.7797534018754959,
	"num_tokens": 6502900.0,
	"step": 399
	},
	{
	"entropy": 0.5596988648176193,
	"epoch": 1.4934579439252336,
	"grad_norm": 0.028764478862285614,
	"learning_rate": 0.0002,
	"loss": 0.5577390193939209,
	"mean_token_accuracy": 0.7748348712921143,
	"num_tokens": 6519408.0,
	"step": 400
	},
	{
	"entropy": 0.5493527054786682,
	"epoch": 1.497196261682243,
	"grad_norm": 0.028892861679196358,
	"learning_rate": 0.0002,
	"loss": 0.5473135709762573,
	"mean_token_accuracy": 0.777830645442009,
	"num_tokens": 6535811.0,
	"step": 401
	},
	{
	"entropy": 0.5402602255344391,
	"epoch": 1.5009345794392523,
	"grad_norm": 0.03191126883029938,
	"learning_rate": 0.0002,
	"loss": 0.5474570989608765,
	"mean_token_accuracy": 0.7774458974599838,
	"num_tokens": 6552173.0,
	"step": 402
	},
	{
	"entropy": 0.540817379951477,
	"epoch": 1.5046728971962615,
	"grad_norm": 0.03177822753787041,
	"learning_rate": 0.0002,
	"loss": 0.548837423324585,
	"mean_token_accuracy": 0.7776143550872803,
	"num_tokens": 6568527.0,
	"step": 403
	},
	{
	"entropy": 0.5428208336234093,
	"epoch": 1.508411214953271,
	"grad_norm": 0.030568130314350128,
	"learning_rate": 0.0002,
	"loss": 0.5432289242744446,
	"mean_token_accuracy": 0.7798717468976974,
	"num_tokens": 6584756.0,
	"step": 404
	},
	{
	"entropy": 0.5466499626636505,
	"epoch": 1.5121495327102803,
	"grad_norm": 0.032929882407188416,
	"learning_rate": 0.0002,
	"loss": 0.5407195687294006,
	"mean_token_accuracy": 0.7786379009485245,
	"num_tokens": 6601082.0,
	"step": 405
	},
	{
	"entropy": 0.5593132823705673,
	"epoch": 1.5158878504672897,
	"grad_norm": 0.03837394341826439,
	"learning_rate": 0.0002,
	"loss": 0.5646262168884277,
	"mean_token_accuracy": 0.771564781665802,
	"num_tokens": 6617429.0,
	"step": 406
	},
	{
	"entropy": 0.5453289300203323,
	"epoch": 1.519626168224299,
	"grad_norm": 0.03576509654521942,
	"learning_rate": 0.0002,
	"loss": 0.5487722158432007,
	"mean_token_accuracy": 0.7768426388502121,
	"num_tokens": 6633826.0,
	"step": 407
	},
	{
	"entropy": 0.53939288854599,
	"epoch": 1.5233644859813085,
	"grad_norm": 0.032857585698366165,
	"learning_rate": 0.0002,
	"loss": 0.5385522246360779,
	"mean_token_accuracy": 0.7790959179401398,
	"num_tokens": 6650240.0,
	"step": 408
	},
	{
	"entropy": 0.5520011931657791,
	"epoch": 1.5271028037383179,
	"grad_norm": 0.030627621337771416,
	"learning_rate": 0.0002,
	"loss": 0.5516581535339355,
	"mean_token_accuracy": 0.7760986834764481,
	"num_tokens": 6666454.0,
	"step": 409
	},
	{
	"entropy": 0.5406108945608139,
	"epoch": 1.5308411214953273,
	"grad_norm": 0.036952704191207886,
	"learning_rate": 0.0002,
	"loss": 0.545346736907959,
	"mean_token_accuracy": 0.7765967845916748,
	"num_tokens": 6682741.0,
	"step": 410
	},
	{
	"entropy": 0.5551878213882446,
	"epoch": 1.5345794392523364,
	"grad_norm": 0.02871653437614441,
	"learning_rate": 0.0002,
	"loss": 0.54979008436203,
	"mean_token_accuracy": 0.7789790332317352,
	"num_tokens": 6699160.0,
	"step": 411
	},
	{
	"entropy": 0.5512814819812775,
	"epoch": 1.5383177570093458,
	"grad_norm": 0.03201194107532501,
	"learning_rate": 0.0002,
	"loss": 0.5527634620666504,
	"mean_token_accuracy": 0.7734574526548386,
	"num_tokens": 6715511.0,
	"step": 412
	},
	{
	"entropy": 0.5432283580303192,
	"epoch": 1.542056074766355,
	"grad_norm": 0.040297310799360275,
	"learning_rate": 0.0002,
	"loss": 0.5455228686332703,
	"mean_token_accuracy": 0.7767939269542694,
	"num_tokens": 6731688.0,
	"step": 413
	},
	{
	"entropy": 0.5464504212141037,
	"epoch": 1.5457943925233644,
	"grad_norm": 0.03343544527888298,
	"learning_rate": 0.0002,
	"loss": 0.543891191482544,
	"mean_token_accuracy": 0.7797385454177856,
	"num_tokens": 6747995.0,
	"step": 414
	},
	{
	"entropy": 0.5669636428356171,
	"epoch": 1.5495327102803738,
	"grad_norm": 0.03769576549530029,
	"learning_rate": 0.0002,
	"loss": 0.5689972639083862,
	"mean_token_accuracy": 0.7693852484226227,
	"num_tokens": 6764353.0,
	"step": 415
	},
	{
	"entropy": 0.5392922759056091,
	"epoch": 1.5532710280373832,
	"grad_norm": 0.03238385543227196,
	"learning_rate": 0.0002,
	"loss": 0.5441082715988159,
	"mean_token_accuracy": 0.779180720448494,
	"num_tokens": 6780896.0,
	"step": 416
	},
	{
	"entropy": 0.530147522687912,
	"epoch": 1.5570093457943925,
	"grad_norm": 0.040036849677562714,
	"learning_rate": 0.0002,
	"loss": 0.5422973036766052,
	"mean_token_accuracy": 0.7789286226034164,
	"num_tokens": 6797151.0,
	"step": 417
	},
	{
	"entropy": 0.5386764258146286,
	"epoch": 1.560747663551402,
	"grad_norm": 0.03689395636320114,
	"learning_rate": 0.0002,
	"loss": 0.5467624068260193,
	"mean_token_accuracy": 0.7778990417718887,
	"num_tokens": 6813386.0,
	"step": 418
	},
	{
	"entropy": 0.5509621798992157,
	"epoch": 1.5644859813084113,
	"grad_norm": 0.029403693974018097,
	"learning_rate": 0.0002,
	"loss": 0.5459365248680115,
	"mean_token_accuracy": 0.7784391641616821,
	"num_tokens": 6829627.0,
	"step": 419
	},
	{
	"entropy": 0.5576108992099762,
	"epoch": 1.5682242990654207,
	"grad_norm": 0.03426877036690712,
	"learning_rate": 0.0002,
	"loss": 0.5519037246704102,
	"mean_token_accuracy": 0.7766879051923752,
	"num_tokens": 6845675.0,
	"step": 420
	},
	{
	"entropy": 0.5511836111545563,
	"epoch": 1.5719626168224299,
	"grad_norm": 0.03294205665588379,
	"learning_rate": 0.0002,
	"loss": 0.5434479117393494,
	"mean_token_accuracy": 0.7805502861738205,
	"num_tokens": 6861921.0,
	"step": 421
	},
	{
	"entropy": 0.5404133796691895,
	"epoch": 1.5757009345794393,
	"grad_norm": 0.032488446682691574,
	"learning_rate": 0.0002,
	"loss": 0.5410423278808594,
	"mean_token_accuracy": 0.7808396965265274,
	"num_tokens": 6877883.0,
	"step": 422
	},
	{
	"entropy": 0.5403463542461395,
	"epoch": 1.5794392523364484,
	"grad_norm": 0.03610778972506523,
	"learning_rate": 0.0002,
	"loss": 0.5484398603439331,
	"mean_token_accuracy": 0.775899812579155,
	"num_tokens": 6894361.0,
	"step": 423
	},
	{
	"entropy": 0.5344756990671158,
	"epoch": 1.5831775700934578,
	"grad_norm": 0.040382951498031616,
	"learning_rate": 0.0002,
	"loss": 0.5388015508651733,
	"mean_token_accuracy": 0.7805848121643066,
	"num_tokens": 6910715.0,
	"step": 424
	},
	{
	"entropy": 0.5353002026677132,
	"epoch": 1.5869158878504672,
	"grad_norm": 0.03316662460565567,
	"learning_rate": 0.0002,
	"loss": 0.5393432974815369,
	"mean_token_accuracy": 0.7816650718450546,
	"num_tokens": 6927150.0,
	"step": 425
	},
	{
	"entropy": 0.5770704746246338,
	"epoch": 1.5906542056074766,
	"grad_norm": 0.034545231610536575,
	"learning_rate": 0.0002,
	"loss": 0.579833984375,
	"mean_token_accuracy": 0.7628369480371475,
	"num_tokens": 6943549.0,
	"step": 426
	},
	{
	"entropy": 0.5552347898483276,
	"epoch": 1.594392523364486,
	"grad_norm": 0.03268204629421234,
	"learning_rate": 0.0002,
	"loss": 0.5537080764770508,
	"mean_token_accuracy": 0.7791409194469452,
	"num_tokens": 6959832.0,
	"step": 427
	},
	{
	"entropy": 0.5671118795871735,
	"epoch": 1.5981308411214954,
	"grad_norm": 0.025902021676301956,
	"learning_rate": 0.0002,
	"loss": 0.5616373419761658,
	"mean_token_accuracy": 0.771975114941597,
	"num_tokens": 6976368.0,
	"step": 428
	},
	{
	"entropy": 0.5544670224189758,
	"epoch": 1.6018691588785048,
	"grad_norm": 0.0315086655318737,
	"learning_rate": 0.0002,
	"loss": 0.5545330047607422,
	"mean_token_accuracy": 0.7738883197307587,
	"num_tokens": 6992718.0,
	"step": 429
	},
	{
	"entropy": 0.5558904558420181,
	"epoch": 1.6056074766355142,
	"grad_norm": 0.033460259437561035,
	"learning_rate": 0.0002,
	"loss": 0.5574325323104858,
	"mean_token_accuracy": 0.772273600101471,
	"num_tokens": 7009062.0,
	"step": 430
	},
	{
	"entropy": 0.5590114444494247,
	"epoch": 1.6093457943925233,
	"grad_norm": 0.029064292088150978,
	"learning_rate": 0.0002,
	"loss": 0.5580740571022034,
	"mean_token_accuracy": 0.7744424343109131,
	"num_tokens": 7025645.0,
	"step": 431
	},
	{
	"entropy": 0.5402631610631943,
	"epoch": 1.6130841121495327,
	"grad_norm": 0.04296636953949928,
	"learning_rate": 0.0002,
	"loss": 0.5493630170822144,
	"mean_token_accuracy": 0.7780915945768356,
	"num_tokens": 7041830.0,
	"step": 432
	},
	{
	"entropy": 0.5555061250925064,
	"epoch": 1.616822429906542,
	"grad_norm": 0.03312353044748306,
	"learning_rate": 0.0002,
	"loss": 0.5578774809837341,
	"mean_token_accuracy": 0.7739899456501007,
	"num_tokens": 7058231.0,
	"step": 433
	},
	{
	"entropy": 0.5563363283872604,
	"epoch": 1.6205607476635513,
	"grad_norm": 0.03301616013050079,
	"learning_rate": 0.0002,
	"loss": 0.5517432689666748,
	"mean_token_accuracy": 0.7788877487182617,
	"num_tokens": 7074655.0,
	"step": 434
	},
	{
	"entropy": 0.5507991462945938,
	"epoch": 1.6242990654205607,
	"grad_norm": 0.03195936232805252,
	"learning_rate": 0.0002,
	"loss": 0.5476133227348328,
	"mean_token_accuracy": 0.7775176912546158,
	"num_tokens": 7090766.0,
	"step": 435
	},
	{
	"entropy": 0.5565993189811707,
	"epoch": 1.62803738317757,
	"grad_norm": 0.03229626268148422,
	"learning_rate": 0.0002,
	"loss": 0.5532009601593018,
	"mean_token_accuracy": 0.7752693891525269,
	"num_tokens": 7106963.0,
	"step": 436
	},
	{
	"entropy": 0.5465118885040283,
	"epoch": 1.6317757009345795,
	"grad_norm": 0.034706246107816696,
	"learning_rate": 0.0002,
	"loss": 0.551576554775238,
	"mean_token_accuracy": 0.7718321233987808,
	"num_tokens": 7122926.0,
	"step": 437
	},
	{
	"entropy": 0.5443113446235657,
	"epoch": 1.6355140186915889,
	"grad_norm": 0.04082060605287552,
	"learning_rate": 0.0002,
	"loss": 0.5574634671211243,
	"mean_token_accuracy": 0.7741082310676575,
	"num_tokens": 7139165.0,
	"step": 438
	},
	{
	"entropy": 0.5489460676908493,
	"epoch": 1.6392523364485982,
	"grad_norm": 0.03261584788560867,
	"learning_rate": 0.0002,
	"loss": 0.5546178817749023,
	"mean_token_accuracy": 0.7754340916872025,
	"num_tokens": 7155500.0,
	"step": 439
	},
	{
	"entropy": 0.5663624107837677,
	"epoch": 1.6429906542056076,
	"grad_norm": 0.030861368402838707,
	"learning_rate": 0.0002,
	"loss": 0.564441442489624,
	"mean_token_accuracy": 0.7708708792924881,
	"num_tokens": 7171927.0,
	"step": 440
	},
	{
	"entropy": 0.5702053755521774,
	"epoch": 1.6467289719626168,
	"grad_norm": 0.03468736633658409,
	"learning_rate": 0.0002,
	"loss": 0.5645827651023865,
	"mean_token_accuracy": 0.768431767821312,
	"num_tokens": 7188341.0,
	"step": 441
	},
	{
	"entropy": 0.5505633056163788,
	"epoch": 1.6504672897196262,
	"grad_norm": 0.03153201565146446,
	"learning_rate": 0.0002,
	"loss": 0.5395671725273132,
	"mean_token_accuracy": 0.7812985777854919,
	"num_tokens": 7204527.0,
	"step": 442
	},
	{
	"entropy": 0.5565541088581085,
	"epoch": 1.6542056074766354,
	"grad_norm": 0.033020708709955215,
	"learning_rate": 0.0002,
	"loss": 0.557956874370575,
	"mean_token_accuracy": 0.7709688693284988,
	"num_tokens": 7220831.0,
	"step": 443
	},
	{
	"entropy": 0.5384746044874191,
	"epoch": 1.6579439252336448,
	"grad_norm": 0.0418318547308445,
	"learning_rate": 0.0002,
	"loss": 0.5513378977775574,
	"mean_token_accuracy": 0.7791547626256943,
	"num_tokens": 7236949.0,
	"step": 444
	},
	{
	"entropy": 0.5353372693061829,
	"epoch": 1.6616822429906541,
	"grad_norm": 0.03820660710334778,
	"learning_rate": 0.0002,
	"loss": 0.5490580201148987,
	"mean_token_accuracy": 0.7749721854925156,
	"num_tokens": 7253242.0,
	"step": 445
	},
	{
	"entropy": 0.5484792143106461,
	"epoch": 1.6654205607476635,
	"grad_norm": 0.03215263411402702,
	"learning_rate": 0.0002,
	"loss": 0.5497522354125977,
	"mean_token_accuracy": 0.7769928872585297,
	"num_tokens": 7269457.0,
	"step": 446
	},
	{
	"entropy": 0.5664080828428268,
	"epoch": 1.669158878504673,
	"grad_norm": 0.02815551683306694,
	"learning_rate": 0.0002,
	"loss": 0.5563632249832153,
	"mean_token_accuracy": 0.7749156504869461,
	"num_tokens": 7285879.0,
	"step": 447
	},
	{
	"entropy": 0.5464235991239548,
	"epoch": 1.6728971962616823,
	"grad_norm": 0.02781211957335472,
	"learning_rate": 0.0002,
	"loss": 0.5405099391937256,
	"mean_token_accuracy": 0.781552255153656,
	"num_tokens": 7302263.0,
	"step": 448
	},
	{
	"entropy": 0.5339583903551102,
	"epoch": 1.6766355140186917,
	"grad_norm": 0.02980860136449337,
	"learning_rate": 0.0002,
	"loss": 0.5369037985801697,
	"mean_token_accuracy": 0.7814508825540543,
	"num_tokens": 7318270.0,
	"step": 449
	},
	{
	"entropy": 0.5407254248857498,
	"epoch": 1.680373831775701,
	"grad_norm": 0.03138496354222298,
	"learning_rate": 0.0002,
	"loss": 0.5460474491119385,
	"mean_token_accuracy": 0.7780201584100723,
	"num_tokens": 7334492.0,
	"step": 450
	},
	{
	"entropy": 0.5503694117069244,
	"epoch": 1.6841121495327103,
	"grad_norm": 0.033992450684309006,
	"learning_rate": 0.0002,
	"loss": 0.5556005239486694,
	"mean_token_accuracy": 0.7745715081691742,
	"num_tokens": 7350627.0,
	"step": 451
	},
	{
	"entropy": 0.5451936274766922,
	"epoch": 1.6878504672897197,
	"grad_norm": 0.03251323476433754,
	"learning_rate": 0.0002,
	"loss": 0.5443669557571411,
	"mean_token_accuracy": 0.7780810743570328,
	"num_tokens": 7367005.0,
	"step": 452
	},
	{
	"entropy": 0.5657957345247269,
	"epoch": 1.6915887850467288,
	"grad_norm": 0.034646324813365936,
	"learning_rate": 0.0002,
	"loss": 0.5615976452827454,
	"mean_token_accuracy": 0.7718859612941742,
	"num_tokens": 7383262.0,
	"step": 453
	},
	{
	"entropy": 0.5525887459516525,
	"epoch": 1.6953271028037382,
	"grad_norm": 0.04024709016084671,
	"learning_rate": 0.0002,
	"loss": 0.5542372465133667,
	"mean_token_accuracy": 0.7756317108869553,
	"num_tokens": 7399750.0,
	"step": 454
	},
	{
	"entropy": 0.5493184924125671,
	"epoch": 1.6990654205607476,
	"grad_norm": 0.030978472903370857,
	"learning_rate": 0.0002,
	"loss": 0.5475279688835144,
	"mean_token_accuracy": 0.7762274444103241,
	"num_tokens": 7415800.0,
	"step": 455
	},
	{
	"entropy": 0.5400003641843796,
	"epoch": 1.702803738317757,
	"grad_norm": 0.03376868739724159,
	"learning_rate": 0.0002,
	"loss": 0.5407789349555969,
	"mean_token_accuracy": 0.7818103283643723,
	"num_tokens": 7431961.0,
	"step": 456
	},
	{
	"entropy": 0.535884216427803,
	"epoch": 1.7065420560747664,
	"grad_norm": 0.031221890822052956,
	"learning_rate": 0.0002,
	"loss": 0.5440670847892761,
	"mean_token_accuracy": 0.7796338200569153,
	"num_tokens": 7448202.0,
	"step": 457
	},
	{
	"entropy": 0.5389861762523651,
	"epoch": 1.7102803738317758,
	"grad_norm": 0.035680338740348816,
	"learning_rate": 0.0002,
	"loss": 0.5449787974357605,
	"mean_token_accuracy": 0.7797497361898422,
	"num_tokens": 7464671.0,
	"step": 458
	},
	{
	"entropy": 0.5451969653367996,
	"epoch": 1.7140186915887852,
	"grad_norm": 0.03255719691514969,
	"learning_rate": 0.0002,
	"loss": 0.5538266897201538,
	"mean_token_accuracy": 0.776149570941925,
	"num_tokens": 7480992.0,
	"step": 459
	},
	{
	"entropy": 0.5643452405929565,
	"epoch": 1.7177570093457943,
	"grad_norm": 0.03378691151738167,
	"learning_rate": 0.0002,
	"loss": 0.5571281313896179,
	"mean_token_accuracy": 0.7731311619281769,
	"num_tokens": 7497232.0,
	"step": 460
	},
	{
	"entropy": 0.5346335917711258,
	"epoch": 1.7214953271028037,
	"grad_norm": 0.03035924583673477,
	"learning_rate": 0.0002,
	"loss": 0.5269172191619873,
	"mean_token_accuracy": 0.7836929112672806,
	"num_tokens": 7513644.0,
	"step": 461
	},
	{
	"entropy": 0.5628820955753326,
	"epoch": 1.7252336448598131,
	"grad_norm": 0.03539309278130531,
	"learning_rate": 0.0002,
	"loss": 0.5605576634407043,
	"mean_token_accuracy": 0.7706831097602844,
	"num_tokens": 7529830.0,
	"step": 462
	},
	{
	"entropy": 0.5182670503854752,
	"epoch": 1.7289719626168223,
	"grad_norm": 0.036859650164842606,
	"learning_rate": 0.0002,
	"loss": 0.5209002494812012,
	"mean_token_accuracy": 0.7879375368356705,
	"num_tokens": 7545846.0,
	"step": 463
	},
	{
	"entropy": 0.5474621504545212,
	"epoch": 1.7327102803738317,
	"grad_norm": 0.037796422839164734,
	"learning_rate": 0.0002,
	"loss": 0.5536765456199646,
	"mean_token_accuracy": 0.7753565907478333,
	"num_tokens": 7562267.0,
	"step": 464
	},
	{
	"entropy": 0.5636439174413681,
	"epoch": 1.736448598130841,
	"grad_norm": 0.037271831184625626,
	"learning_rate": 0.0002,
	"loss": 0.5606362223625183,
	"mean_token_accuracy": 0.7704486697912216,
	"num_tokens": 7578670.0,
	"step": 465
	},
	{
	"entropy": 0.5483116805553436,
	"epoch": 1.7401869158878505,
	"grad_norm": 0.031047314405441284,
	"learning_rate": 0.0002,
	"loss": 0.5489611029624939,
	"mean_token_accuracy": 0.7756731957197189,
	"num_tokens": 7595113.0,
	"step": 466
	},
	{
	"entropy": 0.5289314538240433,
	"epoch": 1.7439252336448599,
	"grad_norm": 0.035078927874565125,
	"learning_rate": 0.0002,
	"loss": 0.5344489216804504,
	"mean_token_accuracy": 0.7853281199932098,
	"num_tokens": 7611153.0,
	"step": 467
	},
	{
	"entropy": 0.541694313287735,
	"epoch": 1.7476635514018692,
	"grad_norm": 0.030235178768634796,
	"learning_rate": 0.0002,
	"loss": 0.5412616729736328,
	"mean_token_accuracy": 0.7781483829021454,
	"num_tokens": 7627712.0,
	"step": 468
	},
	{
	"entropy": 0.5554275363683701,
	"epoch": 1.7514018691588786,
	"grad_norm": 0.036943912506103516,
	"learning_rate": 0.0002,
	"loss": 0.5531514286994934,
	"mean_token_accuracy": 0.7756786197423935,
	"num_tokens": 7643922.0,
	"step": 469
	},
	{
	"entropy": 0.5472631007432938,
	"epoch": 1.7551401869158878,
	"grad_norm": 0.030970100313425064,
	"learning_rate": 0.0002,
	"loss": 0.5467809438705444,
	"mean_token_accuracy": 0.780939131975174,
	"num_tokens": 7660096.0,
	"step": 470
	},
	{
	"entropy": 0.525331124663353,
	"epoch": 1.7588785046728972,
	"grad_norm": 0.04763743281364441,
	"learning_rate": 0.0002,
	"loss": 0.5361969470977783,
	"mean_token_accuracy": 0.782649889588356,
	"num_tokens": 7676237.0,
	"step": 471
	},
	{
	"entropy": 0.5514428466558456,
	"epoch": 1.7626168224299066,
	"grad_norm": 0.02942316047847271,
	"learning_rate": 0.0002,
	"loss": 0.5563341975212097,
	"mean_token_accuracy": 0.773899495601654,
	"num_tokens": 7692848.0,
	"step": 472
	},
	{
	"entropy": 0.5428648442029953,
	"epoch": 1.7663551401869158,
	"grad_norm": 0.038572002202272415,
	"learning_rate": 0.0002,
	"loss": 0.5449008941650391,
	"mean_token_accuracy": 0.7810295820236206,
	"num_tokens": 7708895.0,
	"step": 473
	},
	{
	"entropy": 0.5526584386825562,
	"epoch": 1.7700934579439251,
	"grad_norm": 0.03303026407957077,
	"learning_rate": 0.0002,
	"loss": 0.5465356111526489,
	"mean_token_accuracy": 0.7774733603000641,
	"num_tokens": 7725206.0,
	"step": 474
	},
	{
	"entropy": 0.5638225227594376,
	"epoch": 1.7738317757009345,
	"grad_norm": 0.029633166268467903,
	"learning_rate": 0.0002,
	"loss": 0.5624324083328247,
	"mean_token_accuracy": 0.7697116434574127,
	"num_tokens": 7741838.0,
	"step": 475
	},
	{
	"entropy": 0.5561016201972961,
	"epoch": 1.777570093457944,
	"grad_norm": 0.0328570231795311,
	"learning_rate": 0.0002,
	"loss": 0.5563735961914062,
	"mean_token_accuracy": 0.7721449285745621,
	"num_tokens": 7758049.0,
	"step": 476
	},
	{
	"entropy": 0.5516675412654877,
	"epoch": 1.7813084112149533,
	"grad_norm": 0.03453238308429718,
	"learning_rate": 0.0002,
	"loss": 0.5518988370895386,
	"mean_token_accuracy": 0.7777107656002045,
	"num_tokens": 7774257.0,
	"step": 477
	},
	{
	"entropy": 0.5394668728113174,
	"epoch": 1.7850467289719627,
	"grad_norm": 0.03409087657928467,
	"learning_rate": 0.0002,
	"loss": 0.5432859659194946,
	"mean_token_accuracy": 0.7796248197555542,
	"num_tokens": 7790837.0,
	"step": 478
	},
	{
	"entropy": 0.5491889864206314,
	"epoch": 1.788785046728972,
	"grad_norm": 0.03139546513557434,
	"learning_rate": 0.0002,
	"loss": 0.5477681159973145,
	"mean_token_accuracy": 0.7775027453899384,
	"num_tokens": 7807302.0,
	"step": 479
	},
	{
	"entropy": 0.5528343021869659,
	"epoch": 1.7925233644859813,
	"grad_norm": 0.031248709186911583,
	"learning_rate": 0.0002,
	"loss": 0.5557167530059814,
	"mean_token_accuracy": 0.7744993418455124,
	"num_tokens": 7823635.0,
	"step": 480
	},
	{
	"entropy": 0.5458249896764755,
	"epoch": 1.7962616822429907,
	"grad_norm": 0.03402215987443924,
	"learning_rate": 0.0002,
	"loss": 0.5505017042160034,
	"mean_token_accuracy": 0.7759317308664322,
	"num_tokens": 7839914.0,
	"step": 481
	},
	{
	"entropy": 0.552555724978447,
	"epoch": 1.8,
	"grad_norm": 0.030951669439673424,
	"learning_rate": 0.0002,
	"loss": 0.560877799987793,
	"mean_token_accuracy": 0.77203568816185,
	"num_tokens": 7856194.0,
	"step": 482
	},
	{
	"entropy": 0.5391200333833694,
	"epoch": 1.8037383177570092,
	"grad_norm": 0.04003436490893364,
	"learning_rate": 0.0002,
	"loss": 0.5390163660049438,
	"mean_token_accuracy": 0.7827838510274887,
	"num_tokens": 7872434.0,
	"step": 483
	},
	{
	"entropy": 0.5392342656850815,
	"epoch": 1.8074766355140186,
	"grad_norm": 0.03150493651628494,
	"learning_rate": 0.0002,
	"loss": 0.5406180620193481,
	"mean_token_accuracy": 0.7828439474105835,
	"num_tokens": 7888751.0,
	"step": 484
	},
	{
	"entropy": 0.5622579157352448,
	"epoch": 1.811214953271028,
	"grad_norm": 0.03376127406954765,
	"learning_rate": 0.0002,
	"loss": 0.5644164681434631,
	"mean_token_accuracy": 0.7707268595695496,
	"num_tokens": 7905072.0,
	"step": 485
	},
	{
	"entropy": 0.5327235907316208,
	"epoch": 1.8149532710280374,
	"grad_norm": 0.028277890756726265,
	"learning_rate": 0.0002,
	"loss": 0.5303685069084167,
	"mean_token_accuracy": 0.7862435132265091,
	"num_tokens": 7921459.0,
	"step": 486
	},
	{
	"entropy": 0.5588890165090561,
	"epoch": 1.8186915887850468,
	"grad_norm": 0.03095029853284359,
	"learning_rate": 0.0002,
	"loss": 0.5525569915771484,
	"mean_token_accuracy": 0.7770346105098724,
	"num_tokens": 7937961.0,
	"step": 487
	},
	{
	"entropy": 0.5573548376560211,
	"epoch": 1.8224299065420562,
	"grad_norm": 0.03045843541622162,
	"learning_rate": 0.0002,
	"loss": 0.5535331964492798,
	"mean_token_accuracy": 0.7766827940940857,
	"num_tokens": 7954609.0,
	"step": 488
	},
	{
	"entropy": 0.5567604452371597,
	"epoch": 1.8261682242990656,
	"grad_norm": 0.029482809826731682,
	"learning_rate": 0.0002,
	"loss": 0.5576134324073792,
	"mean_token_accuracy": 0.772316038608551,
	"num_tokens": 7971097.0,
	"step": 489
	},
	{
	"entropy": 0.5545413047075272,
	"epoch": 1.8299065420560747,
	"grad_norm": 0.03891676291823387,
	"learning_rate": 0.0002,
	"loss": 0.5648533701896667,
	"mean_token_accuracy": 0.7718105167150497,
	"num_tokens": 7987377.0,
	"step": 490
	},
	{
	"entropy": 0.5786599218845367,
	"epoch": 1.8336448598130841,
	"grad_norm": 0.030758248642086983,
	"learning_rate": 0.0002,
	"loss": 0.5835361480712891,
	"mean_token_accuracy": 0.762917771935463,
	"num_tokens": 8003799.0,
	"step": 491
	},
	{
	"entropy": 0.5397150218486786,
	"epoch": 1.8373831775700935,
	"grad_norm": 0.03965795785188675,
	"learning_rate": 0.0002,
	"loss": 0.538779616355896,
	"mean_token_accuracy": 0.7839108556509018,
	"num_tokens": 8020279.0,
	"step": 492
	},
	{
	"entropy": 0.5535183995962143,
	"epoch": 1.8411214953271027,
	"grad_norm": 0.03004513867199421,
	"learning_rate": 0.0002,
	"loss": 0.5507811903953552,
	"mean_token_accuracy": 0.7755124121904373,
	"num_tokens": 8036491.0,
	"step": 493
	},
	{
	"entropy": 0.5442592799663544,
	"epoch": 1.844859813084112,
	"grad_norm": 0.03522132337093353,
	"learning_rate": 0.0002,
	"loss": 0.5478004217147827,
	"mean_token_accuracy": 0.7766154408454895,
	"num_tokens": 8052807.0,
	"step": 494
	},
	{
	"entropy": 0.5266854241490364,
	"epoch": 1.8485981308411215,
	"grad_norm": 0.030206192284822464,
	"learning_rate": 0.0002,
	"loss": 0.529688835144043,
	"mean_token_accuracy": 0.7819836139678955,
	"num_tokens": 8068712.0,
	"step": 495
	},
	{
	"entropy": 0.5283671095967293,
	"epoch": 1.8523364485981308,
	"grad_norm": 0.03329138457775116,
	"learning_rate": 0.0002,
	"loss": 0.5376101136207581,
	"mean_token_accuracy": 0.7793748378753662,
	"num_tokens": 8085084.0,
	"step": 496
	},
	{
	"entropy": 0.5712718665599823,
	"epoch": 1.8560747663551402,
	"grad_norm": 0.0325874425470829,
	"learning_rate": 0.0002,
	"loss": 0.5709162950515747,
	"mean_token_accuracy": 0.7662056684494019,
	"num_tokens": 8101731.0,
	"step": 497
	},
	{
	"entropy": 0.5663121491670609,
	"epoch": 1.8598130841121496,
	"grad_norm": 0.03357568010687828,
	"learning_rate": 0.0002,
	"loss": 0.5650657415390015,
	"mean_token_accuracy": 0.7691219747066498,
	"num_tokens": 8118244.0,
	"step": 498
	},
	{
	"entropy": 0.5427432358264923,
	"epoch": 1.863551401869159,
	"grad_norm": 0.03203551098704338,
	"learning_rate": 0.0002,
	"loss": 0.5398803949356079,
	"mean_token_accuracy": 0.7808598130941391,
	"num_tokens": 8134657.0,
	"step": 499
	},
	{
	"entropy": 0.5573120266199112,
	"epoch": 1.8672897196261682,
	"grad_norm": 0.029932986944913864,
	"learning_rate": 0.0002,
	"loss": 0.5522656440734863,
	"mean_token_accuracy": 0.7727643102407455,
	"num_tokens": 8151058.0,
	"step": 500
	},
	{
	"entropy": 0.5573428720235825,
	"epoch": 1.8710280373831776,
	"grad_norm": 0.02661440148949623,
	"learning_rate": 0.0002,
	"loss": 0.5512294173240662,
	"mean_token_accuracy": 0.7765780538320541,
	"num_tokens": 8167736.0,
	"step": 501
	},
	{
	"entropy": 0.5472890585660934,
	"epoch": 1.874766355140187,
	"grad_norm": 0.028882022947072983,
	"learning_rate": 0.0002,
	"loss": 0.5479044318199158,
	"mean_token_accuracy": 0.777178093791008,
	"num_tokens": 8183857.0,
	"step": 502
	},
	{
	"entropy": 0.5511818528175354,
	"epoch": 1.8785046728971961,
	"grad_norm": 0.032389186322689056,
	"learning_rate": 0.0002,
	"loss": 0.5552236437797546,
	"mean_token_accuracy": 0.7762337774038315,
	"num_tokens": 8199955.0,
	"step": 503
	},
	{
	"entropy": 0.546854555606842,
	"epoch": 1.8822429906542055,
	"grad_norm": 0.0336172878742218,
	"learning_rate": 0.0002,
	"loss": 0.55290687084198,
	"mean_token_accuracy": 0.7735693603754044,
	"num_tokens": 8216221.0,
	"step": 504
	},
	{
	"entropy": 0.5447833836078644,
	"epoch": 1.885981308411215,
	"grad_norm": 0.0326668806374073,
	"learning_rate": 0.0002,
	"loss": 0.5433166027069092,
	"mean_token_accuracy": 0.7759248912334442,
	"num_tokens": 8232519.0,
	"step": 505
	},
	{
	"entropy": 0.5311590135097504,
	"epoch": 1.8897196261682243,
	"grad_norm": 0.0328470915555954,
	"learning_rate": 0.0002,
	"loss": 0.5332115888595581,
	"mean_token_accuracy": 0.7827264666557312,
	"num_tokens": 8248973.0,
	"step": 506
	},
	{
	"entropy": 0.5405398160219193,
	"epoch": 1.8934579439252337,
	"grad_norm": 0.03319946303963661,
	"learning_rate": 0.0002,
	"loss": 0.5498695969581604,
	"mean_token_accuracy": 0.7756136506795883,
	"num_tokens": 8265054.0,
	"step": 507
	},
	{
	"entropy": 0.5590761750936508,
	"epoch": 1.897196261682243,
	"grad_norm": 0.03323895111680031,
	"learning_rate": 0.0002,
	"loss": 0.5674346685409546,
	"mean_token_accuracy": 0.7680935710668564,
	"num_tokens": 8281659.0,
	"step": 508
	},
	{
	"entropy": 0.5502993315458298,
	"epoch": 1.9009345794392525,
	"grad_norm": 0.036393504589796066,
	"learning_rate": 0.0002,
	"loss": 0.5518926382064819,
	"mean_token_accuracy": 0.7772549986839294,
	"num_tokens": 8298120.0,
	"step": 509
	},
	{
	"entropy": 0.5434653609991074,
	"epoch": 1.9046728971962616,
	"grad_norm": 0.030826875939965248,
	"learning_rate": 0.0002,
	"loss": 0.5373662710189819,
	"mean_token_accuracy": 0.7814789414405823,
	"num_tokens": 8314165.0,
	"step": 510
	},
	{
	"entropy": 0.5616354942321777,
	"epoch": 1.908411214953271,
	"grad_norm": 0.03320663422346115,
	"learning_rate": 0.0002,
	"loss": 0.5573338866233826,
	"mean_token_accuracy": 0.7744273245334625,
	"num_tokens": 8330561.0,
	"step": 511
	},
	{
	"entropy": 0.5629893988370895,
	"epoch": 1.9121495327102802,
	"grad_norm": 0.03727097064256668,
	"learning_rate": 0.0002,
	"loss": 0.5611152648925781,
	"mean_token_accuracy": 0.773328885436058,
	"num_tokens": 8346708.0,
	"step": 512
	},
	{
	"entropy": 0.5592319965362549,
	"epoch": 1.9158878504672896,
	"grad_norm": 0.03037538379430771,
	"learning_rate": 0.0002,
	"loss": 0.5616269111633301,
	"mean_token_accuracy": 0.7723426669836044,
	"num_tokens": 8362957.0,
	"step": 513
	},
	{
	"entropy": 0.549030601978302,
	"epoch": 1.919626168224299,
	"grad_norm": 0.03563016280531883,
	"learning_rate": 0.0002,
	"loss": 0.5529686808586121,
	"mean_token_accuracy": 0.7743269205093384,
	"num_tokens": 8379387.0,
	"step": 514
	},
	{
	"entropy": 0.5441324412822723,
	"epoch": 1.9233644859813084,
	"grad_norm": 0.031737376004457474,
	"learning_rate": 0.0002,
	"loss": 0.5500344038009644,
	"mean_token_accuracy": 0.7763906866312027,
	"num_tokens": 8395747.0,
	"step": 515
	},
	{
	"entropy": 0.5507270097732544,
	"epoch": 1.9271028037383178,
	"grad_norm": 0.03285627067089081,
	"learning_rate": 0.0002,
	"loss": 0.5587583780288696,
	"mean_token_accuracy": 0.7742376923561096,
	"num_tokens": 8412181.0,
	"step": 516
	},
	{
	"entropy": 0.5456591248512268,
	"epoch": 1.9308411214953272,
	"grad_norm": 0.03147684410214424,
	"learning_rate": 0.0002,
	"loss": 0.5484343767166138,
	"mean_token_accuracy": 0.7780278623104095,
	"num_tokens": 8428664.0,
	"step": 517
	},
	{
	"entropy": 0.5484454035758972,
	"epoch": 1.9345794392523366,
	"grad_norm": 0.036278773099184036,
	"learning_rate": 0.0002,
	"loss": 0.5547294616699219,
	"mean_token_accuracy": 0.7715467214584351,
	"num_tokens": 8444942.0,
	"step": 518
	},
	{
	"entropy": 0.5404845178127289,
	"epoch": 1.938317757009346,
	"grad_norm": 0.032282162457704544,
	"learning_rate": 0.0002,
	"loss": 0.5409780740737915,
	"mean_token_accuracy": 0.779809907078743,
	"num_tokens": 8461035.0,
	"step": 519
	},
	{
	"entropy": 0.5527531504631042,
	"epoch": 1.9420560747663551,
	"grad_norm": 0.03141535073518753,
	"learning_rate": 0.0002,
	"loss": 0.5439110994338989,
	"mean_token_accuracy": 0.7789405584335327,
	"num_tokens": 8477333.0,
	"step": 520
	},
	{
	"entropy": 0.5531508475542068,
	"epoch": 1.9457943925233645,
	"grad_norm": 0.032372504472732544,
	"learning_rate": 0.0002,
	"loss": 0.5456727147102356,
	"mean_token_accuracy": 0.7779283076524734,
	"num_tokens": 8493646.0,
	"step": 521
	},
	{
	"entropy": 0.558539628982544,
	"epoch": 1.9495327102803737,
	"grad_norm": 0.03805968537926674,
	"learning_rate": 0.0002,
	"loss": 0.5575815439224243,
	"mean_token_accuracy": 0.7742009460926056,
	"num_tokens": 8510069.0,
	"step": 522
	},
	{
	"entropy": 0.5543098747730255,
	"epoch": 1.953271028037383,
	"grad_norm": 0.03495538979768753,
	"learning_rate": 0.0002,
	"loss": 0.558309018611908,
	"mean_token_accuracy": 0.7752062678337097,
	"num_tokens": 8526687.0,
	"step": 523
	},
	{
	"entropy": 0.5394291281700134,
	"epoch": 1.9570093457943925,
	"grad_norm": 0.060034435242414474,
	"learning_rate": 0.0002,
	"loss": 0.5499407649040222,
	"mean_token_accuracy": 0.7747859209775925,
	"num_tokens": 8543194.0,
	"step": 524
	},
	{
	"entropy": 0.5493269860744476,
	"epoch": 1.9607476635514018,
	"grad_norm": 0.03242463245987892,
	"learning_rate": 0.0002,
	"loss": 0.5581871271133423,
	"mean_token_accuracy": 0.7717736065387726,
	"num_tokens": 8559635.0,
	"step": 525
	},
	{
	"entropy": 0.5709338933229446,
	"epoch": 1.9644859813084112,
	"grad_norm": 0.09612691402435303,
	"learning_rate": 0.0002,
	"loss": 0.5857856273651123,
	"mean_token_accuracy": 0.7716985046863556,
	"num_tokens": 8575682.0,
	"step": 526
	},
	{
	"entropy": 0.5535681843757629,
	"epoch": 1.9682242990654206,
	"grad_norm": 0.03228386864066124,
	"learning_rate": 0.0002,
	"loss": 0.5427148342132568,
	"mean_token_accuracy": 0.7775698453187943,
	"num_tokens": 8591993.0,
	"step": 527
	},
	{
	"entropy": 0.5595205128192902,
	"epoch": 1.97196261682243,
	"grad_norm": 0.05833456665277481,
	"learning_rate": 0.0002,
	"loss": 0.5632327795028687,
	"mean_token_accuracy": 0.7714700251817703,
	"num_tokens": 8608390.0,
	"step": 528
	},
	{
	"entropy": 0.5412962287664413,
	"epoch": 1.9757009345794394,
	"grad_norm": 0.04238782078027725,
	"learning_rate": 0.0002,
	"loss": 0.5416378378868103,
	"mean_token_accuracy": 0.7781312763690948,
	"num_tokens": 8624553.0,
	"step": 529
	},
	{
	"entropy": 0.5466502904891968,
	"epoch": 1.9794392523364486,
	"grad_norm": 0.038432635366916656,
	"learning_rate": 0.0002,
	"loss": 0.5546246767044067,
	"mean_token_accuracy": 0.7747474908828735,
	"num_tokens": 8640859.0,
	"step": 530
	},
	{
	"entropy": 0.5358689278364182,
	"epoch": 1.983177570093458,
	"grad_norm": 0.03189871460199356,
	"learning_rate": 0.0002,
	"loss": 0.5437639355659485,
	"mean_token_accuracy": 0.7790816277265549,
	"num_tokens": 8657164.0,
	"step": 531
	},
	{
	"entropy": 0.5428293794393539,
	"epoch": 1.9869158878504671,
	"grad_norm": 0.031927406787872314,
	"learning_rate": 0.0002,
	"loss": 0.5386630892753601,
	"mean_token_accuracy": 0.7813318967819214,
	"num_tokens": 8673653.0,
	"step": 532
	},
	{
	"entropy": 0.5520585179328918,
	"epoch": 1.9906542056074765,
	"grad_norm": 0.036430567502975464,
	"learning_rate": 0.0002,
	"loss": 0.5499424338340759,
	"mean_token_accuracy": 0.7754785418510437,
	"num_tokens": 8689872.0,
	"step": 533
	},
	{
	"entropy": 0.5492618307471275,
	"epoch": 1.994392523364486,
	"grad_norm": 0.03422766923904419,
	"learning_rate": 0.0002,
	"loss": 0.5523169040679932,
	"mean_token_accuracy": 0.7751457393169403,
	"num_tokens": 8706316.0,
	"step": 534
	},
	{
	"entropy": 0.5318035036325455,
	"epoch": 1.9981308411214953,
	"grad_norm": 0.029748188331723213,
	"learning_rate": 0.0002,
	"loss": 0.5351126790046692,
	"mean_token_accuracy": 0.7828892469406128,
	"num_tokens": 8722797.0,
	"step": 535
	},
	{
	"entropy": 0.5385511517524719,
	"epoch": 2.0,
	"grad_norm": 0.05353870987892151,
	"learning_rate": 0.0002,
	"loss": 0.5426778197288513,
	"mean_token_accuracy": 0.7800059914588928,
	"num_tokens": 8729632.0,
	"step": 536
	},
	{
	"entropy": 0.5657109320163727,
	"epoch": 2.0037383177570094,
	"grad_norm": 0.03845514729619026,
	"learning_rate": 0.0002,
	"loss": 0.5532518029212952,
	"mean_token_accuracy": 0.7752802222967148,
	"num_tokens": 8746094.0,
	"step": 537
	},
	{
	"entropy": 0.5414439141750336,
	"epoch": 2.007476635514019,
	"grad_norm": 0.030992809683084488,
	"learning_rate": 0.0002,
	"loss": 0.5374770164489746,
	"mean_token_accuracy": 0.7807809114456177,
	"num_tokens": 8762553.0,
	"step": 538
	},
	{
	"entropy": 0.520616352558136,
	"epoch": 2.011214953271028,
	"grad_norm": 0.03543594852089882,
	"learning_rate": 0.0002,
	"loss": 0.5239126086235046,
	"mean_token_accuracy": 0.7860341370105743,
	"num_tokens": 8778649.0,
	"step": 539
	},
	{
	"entropy": 0.5175309702754021,
	"epoch": 2.0149532710280376,
	"grad_norm": 0.03473593294620514,
	"learning_rate": 0.0002,
	"loss": 0.5261198282241821,
	"mean_token_accuracy": 0.7881468534469604,
	"num_tokens": 8794905.0,
	"step": 540
	},
	{
	"entropy": 0.5151422992348671,
	"epoch": 2.0186915887850465,
	"grad_norm": 0.038792964071035385,
	"learning_rate": 0.0002,
	"loss": 0.5288342833518982,
	"mean_token_accuracy": 0.7841326147317886,
	"num_tokens": 8811277.0,
	"step": 541
	},
	{
	"entropy": 0.5424266159534454,
	"epoch": 2.022429906542056,
	"grad_norm": 0.03833077475428581,
	"learning_rate": 0.0002,
	"loss": 0.5454620718955994,
	"mean_token_accuracy": 0.7795733213424683,
	"num_tokens": 8827670.0,
	"step": 542
	},
	{
	"entropy": 0.533804714679718,
	"epoch": 2.0261682242990653,
	"grad_norm": 0.03583015128970146,
	"learning_rate": 0.0002,
	"loss": 0.5267578959465027,
	"mean_token_accuracy": 0.7867784053087234,
	"num_tokens": 8843733.0,
	"step": 543
	},
	{
	"entropy": 0.5466929823160172,
	"epoch": 2.0299065420560747,
	"grad_norm": 0.03870777040719986,
	"learning_rate": 0.0002,
	"loss": 0.5435931086540222,
	"mean_token_accuracy": 0.7770351320505142,
	"num_tokens": 8860036.0,
	"step": 544
	},
	{
	"entropy": 0.5408391207456589,
	"epoch": 2.033644859813084,
	"grad_norm": 0.03353007137775421,
	"learning_rate": 0.0002,
	"loss": 0.5323169827461243,
	"mean_token_accuracy": 0.7834465950727463,
	"num_tokens": 8876470.0,
	"step": 545
	},
	{
	"entropy": 0.5217868834733963,
	"epoch": 2.0373831775700935,
	"grad_norm": 0.036939021199941635,
	"learning_rate": 0.0002,
	"loss": 0.5216724276542664,
	"mean_token_accuracy": 0.7884602099657059,
	"num_tokens": 8892628.0,
	"step": 546
	},
	{
	"entropy": 0.5368964821100235,
	"epoch": 2.041121495327103,
	"grad_norm": 0.043159015476703644,
	"learning_rate": 0.0002,
	"loss": 0.5444939136505127,
	"mean_token_accuracy": 0.778968021273613,
	"num_tokens": 8909028.0,
	"step": 547
	},
	{
	"entropy": 0.5433569848537445,
	"epoch": 2.0448598130841122,
	"grad_norm": 0.03701786324381828,
	"learning_rate": 0.0002,
	"loss": 0.5439752340316772,
	"mean_token_accuracy": 0.7791613191366196,
	"num_tokens": 8925310.0,
	"step": 548
	},
	{
	"entropy": 0.5270129442214966,
	"epoch": 2.0485981308411216,
	"grad_norm": 0.04250190034508705,
	"learning_rate": 0.0002,
	"loss": 0.5210642218589783,
	"mean_token_accuracy": 0.7867415547370911,
	"num_tokens": 8941225.0,
	"step": 549
	},
	{
	"entropy": 0.5519801378250122,
	"epoch": 2.052336448598131,
	"grad_norm": 0.03549535945057869,
	"learning_rate": 0.0002,
	"loss": 0.550297200679779,
	"mean_token_accuracy": 0.7756542861461639,
	"num_tokens": 8957662.0,
	"step": 550
	},
	{
	"entropy": 0.5188534706830978,
	"epoch": 2.05607476635514,
	"grad_norm": 0.03532535210251808,
	"learning_rate": 0.0002,
	"loss": 0.5225726962089539,
	"mean_token_accuracy": 0.7875347584486008,
	"num_tokens": 8973986.0,
	"step": 551
	},
	{
	"entropy": 0.5331487953662872,
	"epoch": 2.0598130841121494,
	"grad_norm": 0.0401851125061512,
	"learning_rate": 0.0002,
	"loss": 0.5345657467842102,
	"mean_token_accuracy": 0.7807552814483643,
	"num_tokens": 8990453.0,
	"step": 552
	},
	{
	"entropy": 0.5301813259720802,
	"epoch": 2.0635514018691588,
	"grad_norm": 0.04093443974852562,
	"learning_rate": 0.0002,
	"loss": 0.536128580570221,
	"mean_token_accuracy": 0.781855434179306,
	"num_tokens": 9006810.0,
	"step": 553
	},
	{
	"entropy": 0.5511504411697388,
	"epoch": 2.067289719626168,
	"grad_norm": 0.04108293727040291,
	"learning_rate": 0.0002,
	"loss": 0.547398567199707,
	"mean_token_accuracy": 0.7787968963384628,
	"num_tokens": 9023044.0,
	"step": 554
	},
	{
	"entropy": 0.5452945232391357,
	"epoch": 2.0710280373831775,
	"grad_norm": 0.04133358225226402,
	"learning_rate": 0.0002,
	"loss": 0.5406649112701416,
	"mean_token_accuracy": 0.7804151326417923,
	"num_tokens": 9039300.0,
	"step": 555
	},
	{
	"entropy": 0.5133676081895828,
	"epoch": 2.074766355140187,
	"grad_norm": 0.0368187241256237,
	"learning_rate": 0.0002,
	"loss": 0.510840892791748,
	"mean_token_accuracy": 0.7948838770389557,
	"num_tokens": 9055408.0,
	"step": 556
	},
	{
	"entropy": 0.5286162942647934,
	"epoch": 2.0785046728971963,
	"grad_norm": 0.037287503480911255,
	"learning_rate": 0.0002,
	"loss": 0.5286219120025635,
	"mean_token_accuracy": 0.7867581397294998,
	"num_tokens": 9071847.0,
	"step": 557
	},
	{
	"entropy": 0.5187130272388458,
	"epoch": 2.0822429906542057,
	"grad_norm": 0.03932078555226326,
	"learning_rate": 0.0002,
	"loss": 0.5252044200897217,
	"mean_token_accuracy": 0.788768544793129,
	"num_tokens": 9088062.0,
	"step": 558
	},
	{
	"entropy": 0.5239534676074982,
	"epoch": 2.085981308411215,
	"grad_norm": 0.04231242835521698,
	"learning_rate": 0.0002,
	"loss": 0.535202145576477,
	"mean_token_accuracy": 0.7852179259061813,
	"num_tokens": 9104468.0,
	"step": 559
	},
	{
	"entropy": 0.528278037905693,
	"epoch": 2.0897196261682245,
	"grad_norm": 0.03444297984242439,
	"learning_rate": 0.0002,
	"loss": 0.5238081812858582,
	"mean_token_accuracy": 0.7863867878913879,
	"num_tokens": 9120622.0,
	"step": 560
	},
	{
	"entropy": 0.5545478612184525,
	"epoch": 2.0934579439252334,
	"grad_norm": 0.04182487353682518,
	"learning_rate": 0.0002,
	"loss": 0.5527917742729187,
	"mean_token_accuracy": 0.7766451835632324,
	"num_tokens": 9137031.0,
	"step": 561
	},
	{
	"entropy": 0.521744892001152,
	"epoch": 2.097196261682243,
	"grad_norm": 0.03438956290483475,
	"learning_rate": 0.0002,
	"loss": 0.5255383849143982,
	"mean_token_accuracy": 0.7855681478977203,
	"num_tokens": 9153374.0,
	"step": 562
	},
	{
	"entropy": 0.5317307189106941,
	"epoch": 2.100934579439252,
	"grad_norm": 0.04259387031197548,
	"learning_rate": 0.0002,
	"loss": 0.530976414680481,
	"mean_token_accuracy": 0.7861284911632538,
	"num_tokens": 9169379.0,
	"step": 563
	},
	{
	"entropy": 0.5382358431816101,
	"epoch": 2.1046728971962616,
	"grad_norm": 0.03778582066297531,
	"learning_rate": 0.0002,
	"loss": 0.5446516871452332,
	"mean_token_accuracy": 0.7786799967288971,
	"num_tokens": 9185673.0,
	"step": 564
	},
	{
	"entropy": 0.5174337849020958,
	"epoch": 2.108411214953271,
	"grad_norm": 0.03816930949687958,
	"learning_rate": 0.0002,
	"loss": 0.5179592967033386,
	"mean_token_accuracy": 0.7912393063306808,
	"num_tokens": 9201995.0,
	"step": 565
	},
	{
	"entropy": 0.5279374569654465,
	"epoch": 2.1121495327102804,
	"grad_norm": 0.038216955959796906,
	"learning_rate": 0.0002,
	"loss": 0.5243582129478455,
	"mean_token_accuracy": 0.7866894006729126,
	"num_tokens": 9218133.0,
	"step": 566
	},
	{
	"entropy": 0.5245715379714966,
	"epoch": 2.1158878504672898,
	"grad_norm": 0.03613874316215515,
	"learning_rate": 0.0002,
	"loss": 0.5249512791633606,
	"mean_token_accuracy": 0.7851840853691101,
	"num_tokens": 9234342.0,
	"step": 567
	},
	{
	"entropy": 0.5192612558603287,
	"epoch": 2.119626168224299,
	"grad_norm": 0.04042578116059303,
	"learning_rate": 0.0002,
	"loss": 0.5259383320808411,
	"mean_token_accuracy": 0.7858112007379532,
	"num_tokens": 9250696.0,
	"step": 568
	},
	{
	"entropy": 0.5262997299432755,
	"epoch": 2.1233644859813086,
	"grad_norm": 0.04460779204964638,
	"learning_rate": 0.0002,
	"loss": 0.5308440923690796,
	"mean_token_accuracy": 0.7877162247896194,
	"num_tokens": 9266979.0,
	"step": 569
	},
	{
	"entropy": 0.5224001705646515,
	"epoch": 2.127102803738318,
	"grad_norm": 0.03817397728562355,
	"learning_rate": 0.0002,
	"loss": 0.5229726433753967,
	"mean_token_accuracy": 0.7861741036176682,
	"num_tokens": 9283280.0,
	"step": 570
	},
	{
	"entropy": 0.5274494737386703,
	"epoch": 2.130841121495327,
	"grad_norm": 0.04161069914698601,
	"learning_rate": 0.0002,
	"loss": 0.5270024538040161,
	"mean_token_accuracy": 0.7860408127307892,
	"num_tokens": 9299630.0,
	"step": 571
	},
	{
	"entropy": 0.5552078932523727,
	"epoch": 2.1345794392523363,
	"grad_norm": 0.04526656121015549,
	"learning_rate": 0.0002,
	"loss": 0.547661542892456,
	"mean_token_accuracy": 0.77776238322258,
	"num_tokens": 9316114.0,
	"step": 572
	},
	{
	"entropy": 0.5352555364370346,
	"epoch": 2.1383177570093457,
	"grad_norm": 0.037117403000593185,
	"learning_rate": 0.0002,
	"loss": 0.5322074294090271,
	"mean_token_accuracy": 0.7845579087734222,
	"num_tokens": 9332486.0,
	"step": 573
	},
	{
	"entropy": 0.5299685597419739,
	"epoch": 2.142056074766355,
	"grad_norm": 0.04335174337029457,
	"learning_rate": 0.0002,
	"loss": 0.5333051085472107,
	"mean_token_accuracy": 0.7831422835588455,
	"num_tokens": 9348999.0,
	"step": 574
	},
	{
	"entropy": 0.5251427963376045,
	"epoch": 2.1457943925233645,
	"grad_norm": 0.04729305952787399,
	"learning_rate": 0.0002,
	"loss": 0.5304993987083435,
	"mean_token_accuracy": 0.7857193797826767,
	"num_tokens": 9365291.0,
	"step": 575
	},
	{
	"entropy": 0.5248839110136032,
	"epoch": 2.149532710280374,
	"grad_norm": 0.04293828830122948,
	"learning_rate": 0.0002,
	"loss": 0.5300874710083008,
	"mean_token_accuracy": 0.784340038895607,
	"num_tokens": 9381734.0,
	"step": 576
	},
	{
	"entropy": 0.5214874297380447,
	"epoch": 2.1532710280373832,
	"grad_norm": 0.04350607469677925,
	"learning_rate": 0.0002,
	"loss": 0.5177597403526306,
	"mean_token_accuracy": 0.7909844070672989,
	"num_tokens": 9397955.0,
	"step": 577
	},
	{
	"entropy": 0.5421570688486099,
	"epoch": 2.1570093457943926,
	"grad_norm": 0.042496006935834885,
	"learning_rate": 0.0002,
	"loss": 0.5425592660903931,
	"mean_token_accuracy": 0.7795795798301697,
	"num_tokens": 9414143.0,
	"step": 578
	},
	{
	"entropy": 0.535075232386589,
	"epoch": 2.160747663551402,
	"grad_norm": 0.049906548112630844,
	"learning_rate": 0.0002,
	"loss": 0.5370741486549377,
	"mean_token_accuracy": 0.7806216180324554,
	"num_tokens": 9430295.0,
	"step": 579
	},
	{
	"entropy": 0.535729855298996,
	"epoch": 2.1644859813084114,
	"grad_norm": 0.04840796813368797,
	"learning_rate": 0.0002,
	"loss": 0.5347393155097961,
	"mean_token_accuracy": 0.7850737869739532,
	"num_tokens": 9446633.0,
	"step": 580
	},
	{
	"entropy": 0.5312991067767143,
	"epoch": 2.1682242990654204,
	"grad_norm": 0.04839569702744484,
	"learning_rate": 0.0002,
	"loss": 0.5378549098968506,
	"mean_token_accuracy": 0.7815908044576645,
	"num_tokens": 9462924.0,
	"step": 581
	},
	{
	"entropy": 0.5284993052482605,
	"epoch": 2.1719626168224297,
	"grad_norm": 0.04563288018107414,
	"learning_rate": 0.0002,
	"loss": 0.5385716557502747,
	"mean_token_accuracy": 0.7814656347036362,
	"num_tokens": 9479222.0,
	"step": 582
	},
	{
	"entropy": 0.535816490650177,
	"epoch": 2.175700934579439,
	"grad_norm": 0.05489310622215271,
	"learning_rate": 0.0002,
	"loss": 0.5382475256919861,
	"mean_token_accuracy": 0.7812406271696091,
	"num_tokens": 9495589.0,
	"step": 583
	},
	{
	"entropy": 0.549729734659195,
	"epoch": 2.1794392523364485,
	"grad_norm": 0.0424075648188591,
	"learning_rate": 0.0002,
	"loss": 0.539716899394989,
	"mean_token_accuracy": 0.7819323092699051,
	"num_tokens": 9511725.0,
	"step": 584
	},
	{
	"entropy": 0.5317162126302719,
	"epoch": 2.183177570093458,
	"grad_norm": 0.03563420847058296,
	"learning_rate": 0.0002,
	"loss": 0.5235797166824341,
	"mean_token_accuracy": 0.7905198931694031,
	"num_tokens": 9527971.0,
	"step": 585
	},
	{
	"entropy": 0.5211209952831268,
	"epoch": 2.1869158878504673,
	"grad_norm": 0.048658616840839386,
	"learning_rate": 0.0002,
	"loss": 0.5268206000328064,
	"mean_token_accuracy": 0.7845446020364761,
	"num_tokens": 9544253.0,
	"step": 586
	},
	{
	"entropy": 0.5116122514009476,
	"epoch": 2.1906542056074767,
	"grad_norm": 0.04198598116636276,
	"learning_rate": 0.0002,
	"loss": 0.5190539360046387,
	"mean_token_accuracy": 0.7874016612768173,
	"num_tokens": 9560518.0,
	"step": 587
	},
	{
	"entropy": 0.5246260613203049,
	"epoch": 2.194392523364486,
	"grad_norm": 0.03876075521111488,
	"learning_rate": 0.0002,
	"loss": 0.5228715538978577,
	"mean_token_accuracy": 0.7850266695022583,
	"num_tokens": 9576775.0,
	"step": 588
	},
	{
	"entropy": 0.5278798937797546,
	"epoch": 2.1981308411214955,
	"grad_norm": 0.04761234670877457,
	"learning_rate": 0.0002,
	"loss": 0.5265949964523315,
	"mean_token_accuracy": 0.7893748730421066,
	"num_tokens": 9593040.0,
	"step": 589
	},
	{
	"entropy": 0.548830658197403,
	"epoch": 2.201869158878505,
	"grad_norm": 0.04078621417284012,
	"learning_rate": 0.0002,
	"loss": 0.5517237186431885,
	"mean_token_accuracy": 0.778541699051857,
	"num_tokens": 9609499.0,
	"step": 590
	},
	{
	"entropy": 0.5336392223834991,
	"epoch": 2.205607476635514,
	"grad_norm": 0.04143911972641945,
	"learning_rate": 0.0002,
	"loss": 0.5296382308006287,
	"mean_token_accuracy": 0.7824793457984924,
	"num_tokens": 9625911.0,
	"step": 591
	},
	{
	"entropy": 0.5379772335290909,
	"epoch": 2.209345794392523,
	"grad_norm": 0.03608503192663193,
	"learning_rate": 0.0002,
	"loss": 0.5343111753463745,
	"mean_token_accuracy": 0.7822979539632797,
	"num_tokens": 9642395.0,
	"step": 592
	},
	{
	"entropy": 0.5172793120145798,
	"epoch": 2.2130841121495326,
	"grad_norm": 0.034696269780397415,
	"learning_rate": 0.0002,
	"loss": 0.5195714235305786,
	"mean_token_accuracy": 0.7902600318193436,
	"num_tokens": 9658662.0,
	"step": 593
	},
	{
	"entropy": 0.5202511548995972,
	"epoch": 2.216822429906542,
	"grad_norm": 0.0416097529232502,
	"learning_rate": 0.0002,
	"loss": 0.5290377736091614,
	"mean_token_accuracy": 0.7843390554189682,
	"num_tokens": 9674880.0,
	"step": 594
	},
	{
	"entropy": 0.5413576662540436,
	"epoch": 2.2205607476635514,
	"grad_norm": 0.0419846810400486,
	"learning_rate": 0.0002,
	"loss": 0.5517836809158325,
	"mean_token_accuracy": 0.7757999449968338,
	"num_tokens": 9691443.0,
	"step": 595
	},
	{
	"entropy": 0.5511815398931503,
	"epoch": 2.2242990654205608,
	"grad_norm": 0.042311880737543106,
	"learning_rate": 0.0002,
	"loss": 0.5441216230392456,
	"mean_token_accuracy": 0.7797399759292603,
	"num_tokens": 9707667.0,
	"step": 596
	},
	{
	"entropy": 0.5390328615903854,
	"epoch": 2.22803738317757,
	"grad_norm": 0.04130427911877632,
	"learning_rate": 0.0002,
	"loss": 0.5381530523300171,
	"mean_token_accuracy": 0.7850432395935059,
	"num_tokens": 9723670.0,
	"step": 597
	},
	{
	"entropy": 0.5145308524370193,
	"epoch": 2.2317757009345796,
	"grad_norm": 0.04054151102900505,
	"learning_rate": 0.0002,
	"loss": 0.5153539776802063,
	"mean_token_accuracy": 0.7911680340766907,
	"num_tokens": 9740111.0,
	"step": 598
	},
	{
	"entropy": 0.5264055132865906,
	"epoch": 2.235514018691589,
	"grad_norm": 0.04768845811486244,
	"learning_rate": 0.0002,
	"loss": 0.5321245193481445,
	"mean_token_accuracy": 0.7862783521413803,
	"num_tokens": 9756445.0,
	"step": 599
	},
	{
	"entropy": 0.5161085873842239,
	"epoch": 2.2392523364485983,
	"grad_norm": 0.047890279442071915,
	"learning_rate": 0.0002,
	"loss": 0.5329167246818542,
	"mean_token_accuracy": 0.7836614698171616,
	"num_tokens": 9772513.0,
	"step": 600
	},
	{
	"entropy": 0.5542461574077606,
	"epoch": 2.2429906542056073,
	"grad_norm": 0.04093446582555771,
	"learning_rate": 0.0002,
	"loss": 0.555320680141449,
	"mean_token_accuracy": 0.7749381363391876,
	"num_tokens": 9789085.0,
	"step": 601
	},
	{
	"entropy": 0.5521011054515839,
	"epoch": 2.2467289719626167,
	"grad_norm": 0.0422159768640995,
	"learning_rate": 0.0002,
	"loss": 0.5415031313896179,
	"mean_token_accuracy": 0.7801210135221481,
	"num_tokens": 9805542.0,
	"step": 602
	},
	{
	"entropy": 0.5508425533771515,
	"epoch": 2.250467289719626,
	"grad_norm": 0.04688411206007004,
	"learning_rate": 0.0002,
	"loss": 0.5387436151504517,
	"mean_token_accuracy": 0.7821325659751892,
	"num_tokens": 9821923.0,
	"step": 603
	},
	{
	"entropy": 0.5507242232561111,
	"epoch": 2.2542056074766355,
	"grad_norm": 0.035407017916440964,
	"learning_rate": 0.0002,
	"loss": 0.5444649457931519,
	"mean_token_accuracy": 0.7809951901435852,
	"num_tokens": 9838298.0,
	"step": 604
	},
	{
	"entropy": 0.5216517895460129,
	"epoch": 2.257943925233645,
	"grad_norm": 0.041920073330402374,
	"learning_rate": 0.0002,
	"loss": 0.5264837741851807,
	"mean_token_accuracy": 0.7897377163171768,
	"num_tokens": 9854659.0,
	"step": 605
	},
	{
	"entropy": 0.5258049964904785,
	"epoch": 2.2616822429906542,
	"grad_norm": 0.0534173846244812,
	"learning_rate": 0.0002,
	"loss": 0.5415172576904297,
	"mean_token_accuracy": 0.7817163467407227,
	"num_tokens": 9870877.0,
	"step": 606
	},
	{
	"entropy": 0.5240575075149536,
	"epoch": 2.2654205607476636,
	"grad_norm": 0.03395333141088486,
	"learning_rate": 0.0002,
	"loss": 0.5256165862083435,
	"mean_token_accuracy": 0.7837403416633606,
	"num_tokens": 9887224.0,
	"step": 607
	},
	{
	"entropy": 0.5454617738723755,
	"epoch": 2.269158878504673,
	"grad_norm": 0.034148454666137695,
	"learning_rate": 0.0002,
	"loss": 0.5424824953079224,
	"mean_token_accuracy": 0.7791529148817062,
	"num_tokens": 9903786.0,
	"step": 608
	},
	{
	"entropy": 0.5350487977266312,
	"epoch": 2.2728971962616824,
	"grad_norm": 0.042522136121988297,
	"learning_rate": 0.0002,
	"loss": 0.5272009372711182,
	"mean_token_accuracy": 0.7874994874000549,
	"num_tokens": 9920053.0,
	"step": 609
	},
	{
	"entropy": 0.5338039100170135,
	"epoch": 2.2766355140186914,
	"grad_norm": 0.036921191960573196,
	"learning_rate": 0.0002,
	"loss": 0.5227792859077454,
	"mean_token_accuracy": 0.7891070544719696,
	"num_tokens": 9936211.0,
	"step": 610
	},
	{
	"entropy": 0.5317139476537704,
	"epoch": 2.2803738317757007,
	"grad_norm": 0.038269490003585815,
	"learning_rate": 0.0002,
	"loss": 0.5253998637199402,
	"mean_token_accuracy": 0.7870776653289795,
	"num_tokens": 9952725.0,
	"step": 611
	},
	{
	"entropy": 0.5196784734725952,
	"epoch": 2.28411214953271,
	"grad_norm": 0.03972024843096733,
	"learning_rate": 0.0002,
	"loss": 0.5251049995422363,
	"mean_token_accuracy": 0.7839716672897339,
	"num_tokens": 9969316.0,
	"step": 612
	},
	{
	"entropy": 0.5095352083444595,
	"epoch": 2.2878504672897195,
	"grad_norm": 0.0507940798997879,
	"learning_rate": 0.0002,
	"loss": 0.5290789008140564,
	"mean_token_accuracy": 0.7861248552799225,
	"num_tokens": 9985447.0,
	"step": 613
	},
	{
	"entropy": 0.5270750820636749,
	"epoch": 2.291588785046729,
	"grad_norm": 0.04321181774139404,
	"learning_rate": 0.0002,
	"loss": 0.5311838984489441,
	"mean_token_accuracy": 0.7838535755872726,
	"num_tokens": 10001725.0,
	"step": 614
	},
	{
	"entropy": 0.5379711389541626,
	"epoch": 2.2953271028037383,
	"grad_norm": 0.040656980127096176,
	"learning_rate": 0.0002,
	"loss": 0.5385247468948364,
	"mean_token_accuracy": 0.7803602814674377,
	"num_tokens": 10018134.0,
	"step": 615
	},
	{
	"entropy": 0.5364449620246887,
	"epoch": 2.2990654205607477,
	"grad_norm": 0.044270358979701996,
	"learning_rate": 0.0002,
	"loss": 0.5303220748901367,
	"mean_token_accuracy": 0.7875775545835495,
	"num_tokens": 10034256.0,
	"step": 616
	},
	{
	"entropy": 0.5223758369684219,
	"epoch": 2.302803738317757,
	"grad_norm": 0.04040619730949402,
	"learning_rate": 0.0002,
	"loss": 0.5194275379180908,
	"mean_token_accuracy": 0.7908173054456711,
	"num_tokens": 10050260.0,
	"step": 617
	},
	{
	"entropy": 0.5754473656415939,
	"epoch": 2.3065420560747665,
	"grad_norm": 0.0413733534514904,
	"learning_rate": 0.0002,
	"loss": 0.5673513412475586,
	"mean_token_accuracy": 0.7693175226449966,
	"num_tokens": 10066439.0,
	"step": 618
	},
	{
	"entropy": 0.5494302958250046,
	"epoch": 2.310280373831776,
	"grad_norm": 0.04788622632622719,
	"learning_rate": 0.0002,
	"loss": 0.5560729503631592,
	"mean_token_accuracy": 0.7737975120544434,
	"num_tokens": 10082592.0,
	"step": 619
	},
	{
	"entropy": 0.5400004386901855,
	"epoch": 2.3140186915887853,
	"grad_norm": 0.04467733949422836,
	"learning_rate": 0.0002,
	"loss": 0.5475805997848511,
	"mean_token_accuracy": 0.7767456918954849,
	"num_tokens": 10098902.0,
	"step": 620
	},
	{
	"entropy": 0.5090039819478989,
	"epoch": 2.317757009345794,
	"grad_norm": 0.04413570463657379,
	"learning_rate": 0.0002,
	"loss": 0.5152875781059265,
	"mean_token_accuracy": 0.792495995759964,
	"num_tokens": 10115273.0,
	"step": 621
	},
	{
	"entropy": 0.5372920483350754,
	"epoch": 2.3214953271028036,
	"grad_norm": 0.037302058190107346,
	"learning_rate": 0.0002,
	"loss": 0.5321361422538757,
	"mean_token_accuracy": 0.7862480282783508,
	"num_tokens": 10131501.0,
	"step": 622
	},
	{
	"entropy": 0.5543005019426346,
	"epoch": 2.325233644859813,
	"grad_norm": 0.03829365596175194,
	"learning_rate": 0.0002,
	"loss": 0.5508820414543152,
	"mean_token_accuracy": 0.7745321840047836,
	"num_tokens": 10147998.0,
	"step": 623
	},
	{
	"entropy": 0.5153163969516754,
	"epoch": 2.3289719626168224,
	"grad_norm": 0.045321445912122726,
	"learning_rate": 0.0002,
	"loss": 0.5118069052696228,
	"mean_token_accuracy": 0.7935506701469421,
	"num_tokens": 10164126.0,
	"step": 624
	},
	{
	"entropy": 0.5008471608161926,
	"epoch": 2.3327102803738318,
	"grad_norm": 0.04449000954627991,
	"learning_rate": 0.0002,
	"loss": 0.5082967877388,
	"mean_token_accuracy": 0.7942900061607361,
	"num_tokens": 10180274.0,
	"step": 625
	},
	{
	"entropy": 0.532206118106842,
	"epoch": 2.336448598130841,
	"grad_norm": 0.05191594734787941,
	"learning_rate": 0.0002,
	"loss": 0.5367388129234314,
	"mean_token_accuracy": 0.7808051854372025,
	"num_tokens": 10196609.0,
	"step": 626
	},
	{
	"entropy": 0.5258989185094833,
	"epoch": 2.3401869158878505,
	"grad_norm": 0.044721271842718124,
	"learning_rate": 0.0002,
	"loss": 0.5331224203109741,
	"mean_token_accuracy": 0.7829412668943405,
	"num_tokens": 10212895.0,
	"step": 627
	},
	{
	"entropy": 0.5370120704174042,
	"epoch": 2.34392523364486,
	"grad_norm": 0.041769906878471375,
	"learning_rate": 0.0002,
	"loss": 0.5412429571151733,
	"mean_token_accuracy": 0.7827376574277878,
	"num_tokens": 10229237.0,
	"step": 628
	},
	{
	"entropy": 0.5400294661521912,
	"epoch": 2.3476635514018693,
	"grad_norm": 0.040269553661346436,
	"learning_rate": 0.0002,
	"loss": 0.5357171893119812,
	"mean_token_accuracy": 0.7816246598958969,
	"num_tokens": 10245453.0,
	"step": 629
	},
	{
	"entropy": 0.5325844436883926,
	"epoch": 2.3514018691588783,
	"grad_norm": 0.04499928280711174,
	"learning_rate": 0.0002,
	"loss": 0.5283193588256836,
	"mean_token_accuracy": 0.7859142124652863,
	"num_tokens": 10261777.0,
	"step": 630
	},
	{
	"entropy": 0.5282296687364578,
	"epoch": 2.3551401869158877,
	"grad_norm": 0.04336896538734436,
	"learning_rate": 0.0002,
	"loss": 0.5254157781600952,
	"mean_token_accuracy": 0.789379209280014,
	"num_tokens": 10278007.0,
	"step": 631
	},
	{
	"entropy": 0.5453646928071976,
	"epoch": 2.358878504672897,
	"grad_norm": 0.05249177664518356,
	"learning_rate": 0.0002,
	"loss": 0.5468531250953674,
	"mean_token_accuracy": 0.7771991342306137,
	"num_tokens": 10294331.0,
	"step": 632
	},
	{
	"entropy": 0.543931856751442,
	"epoch": 2.3626168224299064,
	"grad_norm": 0.037500377744436264,
	"learning_rate": 0.0002,
	"loss": 0.5477216839790344,
	"mean_token_accuracy": 0.7776368409395218,
	"num_tokens": 10310976.0,
	"step": 633
	},
	{
	"entropy": 0.5300342440605164,
	"epoch": 2.366355140186916,
	"grad_norm": 0.04039130359888077,
	"learning_rate": 0.0002,
	"loss": 0.5305655002593994,
	"mean_token_accuracy": 0.7832176089286804,
	"num_tokens": 10327256.0,
	"step": 634
	},
	{
	"entropy": 0.5378967821598053,
	"epoch": 2.3700934579439252,
	"grad_norm": 0.04444447159767151,
	"learning_rate": 0.0002,
	"loss": 0.5362187027931213,
	"mean_token_accuracy": 0.7842839509248734,
	"num_tokens": 10343608.0,
	"step": 635
	},
	{
	"entropy": 0.5510306656360626,
	"epoch": 2.3738317757009346,
	"grad_norm": 0.04542792961001396,
	"learning_rate": 0.0002,
	"loss": 0.5493132472038269,
	"mean_token_accuracy": 0.7786229699850082,
	"num_tokens": 10359923.0,
	"step": 636
	},
	{
	"entropy": 0.5210727900266647,
	"epoch": 2.377570093457944,
	"grad_norm": 0.043661415576934814,
	"learning_rate": 0.0002,
	"loss": 0.5236334800720215,
	"mean_token_accuracy": 0.7890983521938324,
	"num_tokens": 10376100.0,
	"step": 637
	},
	{
	"entropy": 0.5260880589485168,
	"epoch": 2.3813084112149534,
	"grad_norm": 0.04262132570147514,
	"learning_rate": 0.0002,
	"loss": 0.5248558521270752,
	"mean_token_accuracy": 0.7902341783046722,
	"num_tokens": 10392698.0,
	"step": 638
	},
	{
	"entropy": 0.5457091331481934,
	"epoch": 2.385046728971963,
	"grad_norm": 0.04899441823363304,
	"learning_rate": 0.0002,
	"loss": 0.5536708235740662,
	"mean_token_accuracy": 0.7760955542325974,
	"num_tokens": 10409076.0,
	"step": 639
	},
	{
	"entropy": 0.5321961939334869,
	"epoch": 2.388785046728972,
	"grad_norm": 0.045906826853752136,
	"learning_rate": 0.0002,
	"loss": 0.5316425561904907,
	"mean_token_accuracy": 0.7848930060863495,
	"num_tokens": 10425501.0,
	"step": 640
	},
	{
	"entropy": 0.5476334244012833,
	"epoch": 2.392523364485981,
	"grad_norm": 0.038592927157878876,
	"learning_rate": 0.0002,
	"loss": 0.5469234585762024,
	"mean_token_accuracy": 0.7766659259796143,
	"num_tokens": 10441907.0,
	"step": 641
	},
	{
	"entropy": 0.514763131737709,
	"epoch": 2.3962616822429905,
	"grad_norm": 0.04247188940644264,
	"learning_rate": 0.0002,
	"loss": 0.5191242098808289,
	"mean_token_accuracy": 0.7888349145650864,
	"num_tokens": 10458019.0,
	"step": 642
	},
	{
	"entropy": 0.5377763360738754,
	"epoch": 2.4,
	"grad_norm": 0.037420280277729034,
	"learning_rate": 0.0002,
	"loss": 0.5363115072250366,
	"mean_token_accuracy": 0.7803380340337753,
	"num_tokens": 10474412.0,
	"step": 643
	},
	{
	"entropy": 0.5383724719285965,
	"epoch": 2.4037383177570093,
	"grad_norm": 0.038523126393556595,
	"learning_rate": 0.0002,
	"loss": 0.5415539145469666,
	"mean_token_accuracy": 0.7787618041038513,
	"num_tokens": 10490995.0,
	"step": 644
	},
	{
	"entropy": 0.5374136418104172,
	"epoch": 2.4074766355140187,
	"grad_norm": 0.03964264318346977,
	"learning_rate": 0.0002,
	"loss": 0.5468027591705322,
	"mean_token_accuracy": 0.779059037566185,
	"num_tokens": 10507482.0,
	"step": 645
	},
	{
	"entropy": 0.5512133836746216,
	"epoch": 2.411214953271028,
	"grad_norm": 0.0391349270939827,
	"learning_rate": 0.0002,
	"loss": 0.5508245825767517,
	"mean_token_accuracy": 0.7754583358764648,
	"num_tokens": 10523993.0,
	"step": 646
	},
	{
	"entropy": 0.5193808674812317,
	"epoch": 2.4149532710280375,
	"grad_norm": 0.03556473180651665,
	"learning_rate": 0.0002,
	"loss": 0.5196793675422668,
	"mean_token_accuracy": 0.78975510597229,
	"num_tokens": 10540005.0,
	"step": 647
	},
	{
	"entropy": 0.5471558570861816,
	"epoch": 2.418691588785047,
	"grad_norm": 0.04553184658288956,
	"learning_rate": 0.0002,
	"loss": 0.547728419303894,
	"mean_token_accuracy": 0.7780675292015076,
	"num_tokens": 10555891.0,
	"step": 648
	},
	{
	"entropy": 0.519458457827568,
	"epoch": 2.4224299065420563,
	"grad_norm": 0.045790717005729675,
	"learning_rate": 0.0002,
	"loss": 0.5232809782028198,
	"mean_token_accuracy": 0.7882662564516068,
	"num_tokens": 10572109.0,
	"step": 649
	},
	{
	"entropy": 0.5270252674818039,
	"epoch": 2.426168224299065,
	"grad_norm": 0.04227881506085396,
	"learning_rate": 0.0002,
	"loss": 0.5288085341453552,
	"mean_token_accuracy": 0.7866526395082474,
	"num_tokens": 10588192.0,
	"step": 650
	},
	{
	"entropy": 0.548214852809906,
	"epoch": 2.4299065420560746,
	"grad_norm": 0.04126811400055885,
	"learning_rate": 0.0002,
	"loss": 0.5440689325332642,
	"mean_token_accuracy": 0.779522180557251,
	"num_tokens": 10604498.0,
	"step": 651
	},
	{
	"entropy": 0.5452295988798141,
	"epoch": 2.433644859813084,
	"grad_norm": 0.044819604605436325,
	"learning_rate": 0.0002,
	"loss": 0.547234833240509,
	"mean_token_accuracy": 0.7796365767717361,
	"num_tokens": 10620949.0,
	"step": 652
	},
	{
	"entropy": 0.5525990724563599,
	"epoch": 2.4373831775700934,
	"grad_norm": 0.042418453842401505,
	"learning_rate": 0.0002,
	"loss": 0.5493718385696411,
	"mean_token_accuracy": 0.7783072590827942,
	"num_tokens": 10637398.0,
	"step": 653
	},
	{
	"entropy": 0.5338578671216965,
	"epoch": 2.4411214953271028,
	"grad_norm": 0.048241496086120605,
	"learning_rate": 0.0002,
	"loss": 0.5348434448242188,
	"mean_token_accuracy": 0.7853177338838577,
	"num_tokens": 10653827.0,
	"step": 654
	},
	{
	"entropy": 0.5247549116611481,
	"epoch": 2.444859813084112,
	"grad_norm": 0.03876890614628792,
	"learning_rate": 0.0002,
	"loss": 0.5283288359642029,
	"mean_token_accuracy": 0.7865240424871445,
	"num_tokens": 10670227.0,
	"step": 655
	},
	{
	"entropy": 0.5525484532117844,
	"epoch": 2.4485981308411215,
	"grad_norm": 0.04079402610659599,
	"learning_rate": 0.0002,
	"loss": 0.5510199069976807,
	"mean_token_accuracy": 0.7765209227800369,
	"num_tokens": 10686514.0,
	"step": 656
	},
	{
	"entropy": 0.5248308256268501,
	"epoch": 2.452336448598131,
	"grad_norm": 0.03220357000827789,
	"learning_rate": 0.0002,
	"loss": 0.5197701454162598,
	"mean_token_accuracy": 0.7878830432891846,
	"num_tokens": 10702613.0,
	"step": 657
	},
	{
	"entropy": 0.5264022424817085,
	"epoch": 2.4560747663551403,
	"grad_norm": 0.038926877081394196,
	"learning_rate": 0.0002,
	"loss": 0.5227438807487488,
	"mean_token_accuracy": 0.7853628695011139,
	"num_tokens": 10718690.0,
	"step": 658
	},
	{
	"entropy": 0.5430135428905487,
	"epoch": 2.4598130841121497,
	"grad_norm": 0.04270581528544426,
	"learning_rate": 0.0002,
	"loss": 0.5455408096313477,
	"mean_token_accuracy": 0.7791119664907455,
	"num_tokens": 10735135.0,
	"step": 659
	},
	{
	"entropy": 0.5284547656774521,
	"epoch": 2.463551401869159,
	"grad_norm": 0.04039589315652847,
	"learning_rate": 0.0002,
	"loss": 0.5309383273124695,
	"mean_token_accuracy": 0.784732460975647,
	"num_tokens": 10751298.0,
	"step": 660
	},
	{
	"entropy": 0.5267135500907898,
	"epoch": 2.467289719626168,
	"grad_norm": 0.042588524520397186,
	"learning_rate": 0.0002,
	"loss": 0.5272895097732544,
	"mean_token_accuracy": 0.7885420620441437,
	"num_tokens": 10767947.0,
	"step": 661
	},
	{
	"entropy": 0.5294100195169449,
	"epoch": 2.4710280373831774,
	"grad_norm": 0.04541191831231117,
	"learning_rate": 0.0002,
	"loss": 0.5415511727333069,
	"mean_token_accuracy": 0.7802952826023102,
	"num_tokens": 10784155.0,
	"step": 662
	},
	{
	"entropy": 0.5230477377772331,
	"epoch": 2.474766355140187,
	"grad_norm": 0.04615366831421852,
	"learning_rate": 0.0002,
	"loss": 0.5295774936676025,
	"mean_token_accuracy": 0.7873392999172211,
	"num_tokens": 10800552.0,
	"step": 663
	},
	{
	"entropy": 0.5188637897372246,
	"epoch": 2.4785046728971962,
	"grad_norm": 0.03992808610200882,
	"learning_rate": 0.0002,
	"loss": 0.5195883512496948,
	"mean_token_accuracy": 0.7883334010839462,
	"num_tokens": 10816926.0,
	"step": 664
	},
	{
	"entropy": 0.5323937982320786,
	"epoch": 2.4822429906542056,
	"grad_norm": 0.04497828707098961,
	"learning_rate": 0.0002,
	"loss": 0.5278034210205078,
	"mean_token_accuracy": 0.7848539501428604,
	"num_tokens": 10833159.0,
	"step": 665
	},
	{
	"entropy": 0.5480016022920609,
	"epoch": 2.485981308411215,
	"grad_norm": 0.0394604429602623,
	"learning_rate": 0.0002,
	"loss": 0.5437833070755005,
	"mean_token_accuracy": 0.7807918637990952,
	"num_tokens": 10849417.0,
	"step": 666
	},
	{
	"entropy": 0.5170062035322189,
	"epoch": 2.4897196261682244,
	"grad_norm": 0.041445329785346985,
	"learning_rate": 0.0002,
	"loss": 0.517329216003418,
	"mean_token_accuracy": 0.7887666076421738,
	"num_tokens": 10865715.0,
	"step": 667
	},
	{
	"entropy": 0.5371522009372711,
	"epoch": 2.493457943925234,
	"grad_norm": 0.042152535170316696,
	"learning_rate": 0.0002,
	"loss": 0.5461167693138123,
	"mean_token_accuracy": 0.7759047448635101,
	"num_tokens": 10881891.0,
	"step": 668
	},
	{
	"entropy": 0.522216372191906,
	"epoch": 2.497196261682243,
	"grad_norm": 0.04944324120879173,
	"learning_rate": 0.0002,
	"loss": 0.5293608903884888,
	"mean_token_accuracy": 0.7865939140319824,
	"num_tokens": 10898086.0,
	"step": 669
	},
	{
	"entropy": 0.5419133603572845,
	"epoch": 2.500934579439252,
	"grad_norm": 0.03869049996137619,
	"learning_rate": 0.0002,
	"loss": 0.5435135364532471,
	"mean_token_accuracy": 0.7788238078355789,
	"num_tokens": 10914630.0,
	"step": 670
	},
	{
	"entropy": 0.543552428483963,
	"epoch": 2.5046728971962615,
	"grad_norm": 0.040104418992996216,
	"learning_rate": 0.0002,
	"loss": 0.5451544523239136,
	"mean_token_accuracy": 0.7762735784053802,
	"num_tokens": 10931142.0,
	"step": 671
	},
	{
	"entropy": 0.5488818436861038,
	"epoch": 2.508411214953271,
	"grad_norm": 0.03650939092040062,
	"learning_rate": 0.0002,
	"loss": 0.5461534857749939,
	"mean_token_accuracy": 0.7810324132442474,
	"num_tokens": 10947432.0,
	"step": 672
	},
	{
	"entropy": 0.5514579713344574,
	"epoch": 2.5121495327102803,
	"grad_norm": 0.035640496760606766,
	"learning_rate": 0.0002,
	"loss": 0.5461341142654419,
	"mean_token_accuracy": 0.7758427411317825,
	"num_tokens": 10963793.0,
	"step": 673
	},
	{
	"entropy": 0.5298633724451065,
	"epoch": 2.5158878504672897,
	"grad_norm": 0.036869630217552185,
	"learning_rate": 0.0002,
	"loss": 0.5271415710449219,
	"mean_token_accuracy": 0.7874128669500351,
	"num_tokens": 10980238.0,
	"step": 674
	},
	{
	"entropy": 0.5178606957197189,
	"epoch": 2.519626168224299,
	"grad_norm": 0.04496290162205696,
	"learning_rate": 0.0002,
	"loss": 0.5193417072296143,
	"mean_token_accuracy": 0.7885989248752594,
	"num_tokens": 10996365.0,
	"step": 675
	},
	{
	"entropy": 0.5270267352461815,
	"epoch": 2.5233644859813085,
	"grad_norm": 0.04544811695814133,
	"learning_rate": 0.0002,
	"loss": 0.5387653112411499,
	"mean_token_accuracy": 0.7800068855285645,
	"num_tokens": 11012575.0,
	"step": 676
	},
	{
	"entropy": 0.527735561132431,
	"epoch": 2.527102803738318,
	"grad_norm": 0.04031702131032944,
	"learning_rate": 0.0002,
	"loss": 0.5367462635040283,
	"mean_token_accuracy": 0.7821540981531143,
	"num_tokens": 11028942.0,
	"step": 677
	},
	{
	"entropy": 0.5479142069816589,
	"epoch": 2.5308411214953273,
	"grad_norm": 0.042728912085294724,
	"learning_rate": 0.0002,
	"loss": 0.5432093739509583,
	"mean_token_accuracy": 0.7799795567989349,
	"num_tokens": 11045296.0,
	"step": 678
	},
	{
	"entropy": 0.5360302478075027,
	"epoch": 2.5345794392523366,
	"grad_norm": 0.040872231125831604,
	"learning_rate": 0.0002,
	"loss": 0.5265986323356628,
	"mean_token_accuracy": 0.7887827455997467,
	"num_tokens": 11061450.0,
	"step": 679
	},
	{
	"entropy": 0.5468751043081284,
	"epoch": 2.538317757009346,
	"grad_norm": 0.0408024825155735,
	"learning_rate": 0.0002,
	"loss": 0.5442636609077454,
	"mean_token_accuracy": 0.7790944874286652,
	"num_tokens": 11077540.0,
	"step": 680
	},
	{
	"entropy": 0.530633345246315,
	"epoch": 2.542056074766355,
	"grad_norm": 0.04209808632731438,
	"learning_rate": 0.0002,
	"loss": 0.5363141894340515,
	"mean_token_accuracy": 0.7819496542215347,
	"num_tokens": 11093632.0,
	"step": 681
	},
	{
	"entropy": 0.5098425000905991,
	"epoch": 2.5457943925233644,
	"grad_norm": 0.04276811331510544,
	"learning_rate": 0.0002,
	"loss": 0.5222542881965637,
	"mean_token_accuracy": 0.7871226519346237,
	"num_tokens": 11110142.0,
	"step": 682
	},
	{
	"entropy": 0.5203486457467079,
	"epoch": 2.5495327102803738,
	"grad_norm": 0.04667636379599571,
	"learning_rate": 0.0002,
	"loss": 0.52687668800354,
	"mean_token_accuracy": 0.7876535356044769,
	"num_tokens": 11126405.0,
	"step": 683
	},
	{
	"entropy": 0.5424248725175858,
	"epoch": 2.553271028037383,
	"grad_norm": 0.03960704430937767,
	"learning_rate": 0.0002,
	"loss": 0.5351195335388184,
	"mean_token_accuracy": 0.7820920497179031,
	"num_tokens": 11142681.0,
	"step": 684
	},
	{
	"entropy": 0.5479930490255356,
	"epoch": 2.5570093457943925,
	"grad_norm": 0.03865355625748634,
	"learning_rate": 0.0002,
	"loss": 0.5381141901016235,
	"mean_token_accuracy": 0.7842580229043961,
	"num_tokens": 11158981.0,
	"step": 685
	},
	{
	"entropy": 0.5378328114748001,
	"epoch": 2.560747663551402,
	"grad_norm": 0.0406392477452755,
	"learning_rate": 0.0002,
	"loss": 0.5395403504371643,
	"mean_token_accuracy": 0.7812999784946442,
	"num_tokens": 11175185.0,
	"step": 686
	},
	{
	"entropy": 0.5591647922992706,
	"epoch": 2.5644859813084113,
	"grad_norm": 0.042679473757743835,
	"learning_rate": 0.0002,
	"loss": 0.5618141889572144,
	"mean_token_accuracy": 0.7730479836463928,
	"num_tokens": 11191516.0,
	"step": 687
	},
	{
	"entropy": 0.540540523827076,
	"epoch": 2.5682242990654207,
	"grad_norm": 0.0401788055896759,
	"learning_rate": 0.0002,
	"loss": 0.5431095957756042,
	"mean_token_accuracy": 0.7800974696874619,
	"num_tokens": 11207897.0,
	"step": 688
	},
	{
	"entropy": 0.5273384600877762,
	"epoch": 2.5719626168224297,
	"grad_norm": 0.04009004309773445,
	"learning_rate": 0.0002,
	"loss": 0.5236154794692993,
	"mean_token_accuracy": 0.7862724959850311,
	"num_tokens": 11224233.0,
	"step": 689
	},
	{
	"entropy": 0.5341546684503555,
	"epoch": 2.575700934579439,
	"grad_norm": 0.045469239354133606,
	"learning_rate": 0.0002,
	"loss": 0.5359405875205994,
	"mean_token_accuracy": 0.7828920185565948,
	"num_tokens": 11240583.0,
	"step": 690
	},
	{
	"entropy": 0.516716443002224,
	"epoch": 2.5794392523364484,
	"grad_norm": 0.03841989487409592,
	"learning_rate": 0.0002,
	"loss": 0.5178863406181335,
	"mean_token_accuracy": 0.7926649451255798,
	"num_tokens": 11256814.0,
	"step": 691
	},
	{
	"entropy": 0.5300464928150177,
	"epoch": 2.583177570093458,
	"grad_norm": 0.043383657932281494,
	"learning_rate": 0.0002,
	"loss": 0.534642219543457,
	"mean_token_accuracy": 0.7844998836517334,
	"num_tokens": 11273092.0,
	"step": 692
	},
	{
	"entropy": 0.5270805209875107,
	"epoch": 2.586915887850467,
	"grad_norm": 0.042948167771101,
	"learning_rate": 0.0002,
	"loss": 0.5318405628204346,
	"mean_token_accuracy": 0.7814630717039108,
	"num_tokens": 11289382.0,
	"step": 693
	},
	{
	"entropy": 0.5576307624578476,
	"epoch": 2.5906542056074766,
	"grad_norm": 0.04289550706744194,
	"learning_rate": 0.0002,
	"loss": 0.5595361590385437,
	"mean_token_accuracy": 0.77448670566082,
	"num_tokens": 11305822.0,
	"step": 694
	},
	{
	"entropy": 0.5350489318370819,
	"epoch": 2.594392523364486,
	"grad_norm": 0.036010973155498505,
	"learning_rate": 0.0002,
	"loss": 0.5320281982421875,
	"mean_token_accuracy": 0.7841717451810837,
	"num_tokens": 11322116.0,
	"step": 695
	},
	{
	"entropy": 0.5389258116483688,
	"epoch": 2.5981308411214954,
	"grad_norm": 0.036538656800985336,
	"learning_rate": 0.0002,
	"loss": 0.5332745313644409,
	"mean_token_accuracy": 0.7836548089981079,
	"num_tokens": 11338486.0,
	"step": 696
	},
	{
	"entropy": 0.5357422530651093,
	"epoch": 2.601869158878505,
	"grad_norm": 0.03977203741669655,
	"learning_rate": 0.0002,
	"loss": 0.5403972864151001,
	"mean_token_accuracy": 0.7783884555101395,
	"num_tokens": 11355126.0,
	"step": 697
	},
	{
	"entropy": 0.5224239528179169,
	"epoch": 2.605607476635514,
	"grad_norm": 0.03854282945394516,
	"learning_rate": 0.0002,
	"loss": 0.5209836363792419,
	"mean_token_accuracy": 0.7890230715274811,
	"num_tokens": 11371642.0,
	"step": 698
	},
	{
	"entropy": 0.527114674448967,
	"epoch": 2.6093457943925236,
	"grad_norm": 0.03806879743933678,
	"learning_rate": 0.0002,
	"loss": 0.5328760743141174,
	"mean_token_accuracy": 0.7834767252206802,
	"num_tokens": 11388018.0,
	"step": 699
	},
	{
	"entropy": 0.5207114219665527,
	"epoch": 2.613084112149533,
	"grad_norm": 0.04797474667429924,
	"learning_rate": 0.0002,
	"loss": 0.5281696915626526,
	"mean_token_accuracy": 0.7842787057161331,
	"num_tokens": 11404304.0,
	"step": 700
	},
	{
	"entropy": 0.5329904109239578,
	"epoch": 2.616822429906542,
	"grad_norm": 0.04143727570772171,
	"learning_rate": 0.0002,
	"loss": 0.5371139645576477,
	"mean_token_accuracy": 0.7831498682498932,
	"num_tokens": 11420561.0,
	"step": 701
	},
	{
	"entropy": 0.5422161221504211,
	"epoch": 2.6205607476635513,
	"grad_norm": 0.04683515056967735,
	"learning_rate": 0.0002,
	"loss": 0.5436529517173767,
	"mean_token_accuracy": 0.7796959728002548,
	"num_tokens": 11436820.0,
	"step": 702
	},
	{
	"entropy": 0.5309348404407501,
	"epoch": 2.6242990654205607,
	"grad_norm": 0.036559656262397766,
	"learning_rate": 0.0002,
	"loss": 0.5223227143287659,
	"mean_token_accuracy": 0.7849199175834656,
	"num_tokens": 11453134.0,
	"step": 703
	},
	{
	"entropy": 0.5515079498291016,
	"epoch": 2.62803738317757,
	"grad_norm": 0.047568727284669876,
	"learning_rate": 0.0002,
	"loss": 0.5509875416755676,
	"mean_token_accuracy": 0.7774451673030853,
	"num_tokens": 11469442.0,
	"step": 704
	},
	{
	"entropy": 0.5654275268316269,
	"epoch": 2.6317757009345795,
	"grad_norm": 0.03854409605264664,
	"learning_rate": 0.0002,
	"loss": 0.559022068977356,
	"mean_token_accuracy": 0.7747441530227661,
	"num_tokens": 11485880.0,
	"step": 705
	},
	{
	"entropy": 0.5369984805583954,
	"epoch": 2.635514018691589,
	"grad_norm": 0.04869009181857109,
	"learning_rate": 0.0002,
	"loss": 0.5361051559448242,
	"mean_token_accuracy": 0.780804455280304,
	"num_tokens": 11502359.0,
	"step": 706
	},
	{
	"entropy": 0.542375922203064,
	"epoch": 2.6392523364485982,
	"grad_norm": 0.045840587466955185,
	"learning_rate": 0.0002,
	"loss": 0.5502850413322449,
	"mean_token_accuracy": 0.7759635299444199,
	"num_tokens": 11518813.0,
	"step": 707
	},
	{
	"entropy": 0.5237139612436295,
	"epoch": 2.6429906542056076,
	"grad_norm": 0.043406110256910324,
	"learning_rate": 0.0002,
	"loss": 0.5281059741973877,
	"mean_token_accuracy": 0.7859614938497543,
	"num_tokens": 11535188.0,
	"step": 708
	},
	{
	"entropy": 0.5367631316184998,
	"epoch": 2.6467289719626166,
	"grad_norm": 0.04024430736899376,
	"learning_rate": 0.0002,
	"loss": 0.5387470126152039,
	"mean_token_accuracy": 0.7812274694442749,
	"num_tokens": 11551645.0,
	"step": 709
	},
	{
	"entropy": 0.5330280810594559,
	"epoch": 2.650467289719626,
	"grad_norm": 0.0389426052570343,
	"learning_rate": 0.0002,
	"loss": 0.5361229181289673,
	"mean_token_accuracy": 0.7837622314691544,
	"num_tokens": 11567892.0,
	"step": 710
	},
	{
	"entropy": 0.5259372144937515,
	"epoch": 2.6542056074766354,
	"grad_norm": 0.03997652605175972,
	"learning_rate": 0.0002,
	"loss": 0.5267660617828369,
	"mean_token_accuracy": 0.7850897163152695,
	"num_tokens": 11584153.0,
	"step": 711
	},
	{
	"entropy": 0.5390958487987518,
	"epoch": 2.6579439252336448,
	"grad_norm": 0.04180564358830452,
	"learning_rate": 0.0002,
	"loss": 0.5372406244277954,
	"mean_token_accuracy": 0.7838725447654724,
	"num_tokens": 11600597.0,
	"step": 712
	},
	{
	"entropy": 0.5279987677931786,
	"epoch": 2.661682242990654,
	"grad_norm": 0.03591061756014824,
	"learning_rate": 0.0002,
	"loss": 0.5308532118797302,
	"mean_token_accuracy": 0.785730242729187,
	"num_tokens": 11616881.0,
	"step": 713
	},
	{
	"entropy": 0.5563876032829285,
	"epoch": 2.6654205607476635,
	"grad_norm": 0.03892669454216957,
	"learning_rate": 0.0002,
	"loss": 0.5556321144104004,
	"mean_token_accuracy": 0.7758439630270004,
	"num_tokens": 11633329.0,
	"step": 714
	},
	{
	"entropy": 0.5373513847589493,
	"epoch": 2.669158878504673,
	"grad_norm": 0.03863142430782318,
	"learning_rate": 0.0002,
	"loss": 0.5352209806442261,
	"mean_token_accuracy": 0.7836543023586273,
	"num_tokens": 11649751.0,
	"step": 715
	},
	{
	"entropy": 0.5123810023069382,
	"epoch": 2.6728971962616823,
	"grad_norm": 0.04038078337907791,
	"learning_rate": 0.0002,
	"loss": 0.5158439874649048,
	"mean_token_accuracy": 0.7905206978321075,
	"num_tokens": 11665928.0,
	"step": 716
	},
	{
	"entropy": 0.5479727983474731,
	"epoch": 2.6766355140186917,
	"grad_norm": 0.04204852879047394,
	"learning_rate": 0.0002,
	"loss": 0.5506036281585693,
	"mean_token_accuracy": 0.7781369537115097,
	"num_tokens": 11682349.0,
	"step": 717
	},
	{
	"entropy": 0.5410658866167068,
	"epoch": 2.680373831775701,
	"grad_norm": 0.04252674803137779,
	"learning_rate": 0.0002,
	"loss": 0.5433157086372375,
	"mean_token_accuracy": 0.776948869228363,
	"num_tokens": 11698941.0,
	"step": 718
	},
	{
	"entropy": 0.5443103611469269,
	"epoch": 2.6841121495327105,
	"grad_norm": 0.044883646070957184,
	"learning_rate": 0.0002,
	"loss": 0.5470229983329773,
	"mean_token_accuracy": 0.7803091257810593,
	"num_tokens": 11715434.0,
	"step": 719
	},
	{
	"entropy": 0.5390113294124603,
	"epoch": 2.68785046728972,
	"grad_norm": 0.04012865573167801,
	"learning_rate": 0.0002,
	"loss": 0.5320149660110474,
	"mean_token_accuracy": 0.7860948741436005,
	"num_tokens": 11731697.0,
	"step": 720
	},
	{
	"entropy": 0.5281476825475693,
	"epoch": 2.691588785046729,
	"grad_norm": 0.04816235229372978,
	"learning_rate": 0.0002,
	"loss": 0.5312087535858154,
	"mean_token_accuracy": 0.7858725935220718,
	"num_tokens": 11747788.0,
	"step": 721
	},
	{
	"entropy": 0.5142519026994705,
	"epoch": 2.695327102803738,
	"grad_norm": 0.0394207127392292,
	"learning_rate": 0.0002,
	"loss": 0.5175022482872009,
	"mean_token_accuracy": 0.7914264351129532,
	"num_tokens": 11763802.0,
	"step": 722
	},
	{
	"entropy": 0.5183316618204117,
	"epoch": 2.6990654205607476,
	"grad_norm": 0.04731175675988197,
	"learning_rate": 0.0002,
	"loss": 0.5275416374206543,
	"mean_token_accuracy": 0.7866149395704269,
	"num_tokens": 11779759.0,
	"step": 723
	},
	{
	"entropy": 0.5322978273034096,
	"epoch": 2.702803738317757,
	"grad_norm": 0.045594654977321625,
	"learning_rate": 0.0002,
	"loss": 0.5377396941184998,
	"mean_token_accuracy": 0.7802564948797226,
	"num_tokens": 11795656.0,
	"step": 724
	},
	{
	"entropy": 0.5265089273452759,
	"epoch": 2.7065420560747664,
	"grad_norm": 0.04707048460841179,
	"learning_rate": 0.0002,
	"loss": 0.5340720415115356,
	"mean_token_accuracy": 0.7816154807806015,
	"num_tokens": 11811757.0,
	"step": 725
	},
	{
	"entropy": 0.5486596673727036,
	"epoch": 2.710280373831776,
	"grad_norm": 0.04378875717520714,
	"learning_rate": 0.0002,
	"loss": 0.5447016358375549,
	"mean_token_accuracy": 0.7777462303638458,
	"num_tokens": 11828249.0,
	"step": 726
	},
	{
	"entropy": 0.5557577461004257,
	"epoch": 2.714018691588785,
	"grad_norm": 0.044526614248752594,
	"learning_rate": 0.0002,
	"loss": 0.5464760661125183,
	"mean_token_accuracy": 0.7786324173212051,
	"num_tokens": 11844645.0,
	"step": 727
	},
	{
	"entropy": 0.5483285784721375,
	"epoch": 2.717757009345794,
	"grad_norm": 0.05415434390306473,
	"learning_rate": 0.0002,
	"loss": 0.5537320971488953,
	"mean_token_accuracy": 0.774675577878952,
	"num_tokens": 11860972.0,
	"step": 728
	},
	{
	"entropy": 0.5311020910739899,
	"epoch": 2.7214953271028035,
	"grad_norm": 0.043242573738098145,
	"learning_rate": 0.0002,
	"loss": 0.5344421863555908,
	"mean_token_accuracy": 0.7838677763938904,
	"num_tokens": 11876848.0,
	"step": 729
	},
	{
	"entropy": 0.5571545660495758,
	"epoch": 2.725233644859813,
	"grad_norm": 0.04775959998369217,
	"learning_rate": 0.0002,
	"loss": 0.5543075799942017,
	"mean_token_accuracy": 0.7767691016197205,
	"num_tokens": 11893101.0,
	"step": 730
	},
	{
	"entropy": 0.5632807910442352,
	"epoch": 2.7289719626168223,
	"grad_norm": 0.040951792150735855,
	"learning_rate": 0.0002,
	"loss": 0.556804895401001,
	"mean_token_accuracy": 0.7738458663225174,
	"num_tokens": 11909248.0,
	"step": 731
	},
	{
	"entropy": 0.5437204986810684,
	"epoch": 2.7327102803738317,
	"grad_norm": 0.041280943900346756,
	"learning_rate": 0.0002,
	"loss": 0.5405519604682922,
	"mean_token_accuracy": 0.7808393985033035,
	"num_tokens": 11925644.0,
	"step": 732
	},
	{
	"entropy": 0.5410651564598083,
	"epoch": 2.736448598130841,
	"grad_norm": 0.04410838708281517,
	"learning_rate": 0.0002,
	"loss": 0.5487910509109497,
	"mean_token_accuracy": 0.7771375328302383,
	"num_tokens": 11941579.0,
	"step": 733
	},
	{
	"entropy": 0.543538823723793,
	"epoch": 2.7401869158878505,
	"grad_norm": 0.04985618218779564,
	"learning_rate": 0.0002,
	"loss": 0.5518176555633545,
	"mean_token_accuracy": 0.775468647480011,
	"num_tokens": 11957981.0,
	"step": 734
	},
	{
	"entropy": 0.5253164023160934,
	"epoch": 2.74392523364486,
	"grad_norm": 0.04087154567241669,
	"learning_rate": 0.0002,
	"loss": 0.5267685651779175,
	"mean_token_accuracy": 0.7876032888889313,
	"num_tokens": 11974282.0,
	"step": 735
	},
	{
	"entropy": 0.5454862713813782,
	"epoch": 2.7476635514018692,
	"grad_norm": 0.04045165702700615,
	"learning_rate": 0.0002,
	"loss": 0.5382283926010132,
	"mean_token_accuracy": 0.7811629176139832,
	"num_tokens": 11990945.0,
	"step": 736
	},
	{
	"entropy": 0.5417391657829285,
	"epoch": 2.7514018691588786,
	"grad_norm": 0.042311448603868484,
	"learning_rate": 0.0002,
	"loss": 0.540289044380188,
	"mean_token_accuracy": 0.7793714255094528,
	"num_tokens": 12007392.0,
	"step": 737
	},
	{
	"entropy": 0.5214735865592957,
	"epoch": 2.755140186915888,
	"grad_norm": 0.04158855974674225,
	"learning_rate": 0.0002,
	"loss": 0.5217651128768921,
	"mean_token_accuracy": 0.7852792292833328,
	"num_tokens": 12023581.0,
	"step": 738
	},
	{
	"entropy": 0.5328553915023804,
	"epoch": 2.7588785046728974,
	"grad_norm": 0.038325536996126175,
	"learning_rate": 0.0002,
	"loss": 0.5344902873039246,
	"mean_token_accuracy": 0.7842058092355728,
	"num_tokens": 12039885.0,
	"step": 739
	},
	{
	"entropy": 0.5496254563331604,
	"epoch": 2.762616822429907,
	"grad_norm": 0.04375292733311653,
	"learning_rate": 0.0002,
	"loss": 0.55174720287323,
	"mean_token_accuracy": 0.7766779661178589,
	"num_tokens": 12056371.0,
	"step": 740
	},
	{
	"entropy": 0.558516189455986,
	"epoch": 2.7663551401869158,
	"grad_norm": 0.049271486699581146,
	"learning_rate": 0.0002,
	"loss": 0.561238169670105,
	"mean_token_accuracy": 0.77435702085495,
	"num_tokens": 12072839.0,
	"step": 741
	},
	{
	"entropy": 0.5472046732902527,
	"epoch": 2.770093457943925,
	"grad_norm": 0.04255034402012825,
	"learning_rate": 0.0002,
	"loss": 0.5455073714256287,
	"mean_token_accuracy": 0.7776911556720734,
	"num_tokens": 12089121.0,
	"step": 742
	},
	{
	"entropy": 0.5307886898517609,
	"epoch": 2.7738317757009345,
	"grad_norm": 0.04008355364203453,
	"learning_rate": 0.0002,
	"loss": 0.5308167934417725,
	"mean_token_accuracy": 0.785127267241478,
	"num_tokens": 12105321.0,
	"step": 743
	},
	{
	"entropy": 0.5314194560050964,
	"epoch": 2.777570093457944,
	"grad_norm": 0.043235525488853455,
	"learning_rate": 0.0002,
	"loss": 0.5316693186759949,
	"mean_token_accuracy": 0.7851164489984512,
	"num_tokens": 12121581.0,
	"step": 744
	},
	{
	"entropy": 0.5243879109621048,
	"epoch": 2.7813084112149533,
	"grad_norm": 0.0358644537627697,
	"learning_rate": 0.0002,
	"loss": 0.5208507776260376,
	"mean_token_accuracy": 0.7896229773759842,
	"num_tokens": 12138064.0,
	"step": 745
	},
	{
	"entropy": 0.5349021703004837,
	"epoch": 2.7850467289719627,
	"grad_norm": 0.04395059868693352,
	"learning_rate": 0.0002,
	"loss": 0.541559100151062,
	"mean_token_accuracy": 0.7818141132593155,
	"num_tokens": 12154580.0,
	"step": 746
	},
	{
	"entropy": 0.5464755445718765,
	"epoch": 2.788785046728972,
	"grad_norm": 0.03772180154919624,
	"learning_rate": 0.0002,
	"loss": 0.5500795245170593,
	"mean_token_accuracy": 0.7745375484228134,
	"num_tokens": 12170944.0,
	"step": 747
	},
	{
	"entropy": 0.5316334664821625,
	"epoch": 2.792523364485981,
	"grad_norm": 0.042537569999694824,
	"learning_rate": 0.0002,
	"loss": 0.5385891795158386,
	"mean_token_accuracy": 0.7813721299171448,
	"num_tokens": 12187183.0,
	"step": 748
	},
	{
	"entropy": 0.5325866043567657,
	"epoch": 2.7962616822429904,
	"grad_norm": 0.03928552195429802,
	"learning_rate": 0.0002,
	"loss": 0.5372824668884277,
	"mean_token_accuracy": 0.782025933265686,
	"num_tokens": 12203656.0,
	"step": 749
	},
	{
	"entropy": 0.5230025053024292,
	"epoch": 2.8,
	"grad_norm": 0.045356832444667816,
	"learning_rate": 0.0002,
	"loss": 0.5221288204193115,
	"mean_token_accuracy": 0.7879509478807449,
	"num_tokens": 12220217.0,
	"step": 750
	},
	{
	"entropy": 0.5552905946969986,
	"epoch": 2.803738317757009,
	"grad_norm": 0.03520367294549942,
	"learning_rate": 0.0002,
	"loss": 0.5458053350448608,
	"mean_token_accuracy": 0.7801086604595184,
	"num_tokens": 12236926.0,
	"step": 751
	},
	{
	"entropy": 0.5284090638160706,
	"epoch": 2.8074766355140186,
	"grad_norm": 0.04301855340600014,
	"learning_rate": 0.0002,
	"loss": 0.5322295427322388,
	"mean_token_accuracy": 0.7865041345357895,
	"num_tokens": 12253231.0,
	"step": 752
	},
	{
	"entropy": 0.5464428961277008,
	"epoch": 2.811214953271028,
	"grad_norm": 0.04177437350153923,
	"learning_rate": 0.0002,
	"loss": 0.5503079295158386,
	"mean_token_accuracy": 0.7759024053812027,
	"num_tokens": 12269564.0,
	"step": 753
	},
	{
	"entropy": 0.5288181900978088,
	"epoch": 2.8149532710280374,
	"grad_norm": 0.04611227661371231,
	"learning_rate": 0.0002,
	"loss": 0.5422286987304688,
	"mean_token_accuracy": 0.7793826460838318,
	"num_tokens": 12285764.0,
	"step": 754
	},
	{
	"entropy": 0.538264587521553,
	"epoch": 2.8186915887850468,
	"grad_norm": 0.039094604551792145,
	"learning_rate": 0.0002,
	"loss": 0.5421559810638428,
	"mean_token_accuracy": 0.7824651896953583,
	"num_tokens": 12301975.0,
	"step": 755
	},
	{
	"entropy": 0.5448143184185028,
	"epoch": 2.822429906542056,
	"grad_norm": 0.03843825310468674,
	"learning_rate": 0.0002,
	"loss": 0.5424494743347168,
	"mean_token_accuracy": 0.7786366790533066,
	"num_tokens": 12318265.0,
	"step": 756
	},
	{
	"entropy": 0.5362522453069687,
	"epoch": 2.8261682242990656,
	"grad_norm": 0.037981439381837845,
	"learning_rate": 0.0002,
	"loss": 0.5347139835357666,
	"mean_token_accuracy": 0.7820651233196259,
	"num_tokens": 12334596.0,
	"step": 757
	},
	{
	"entropy": 0.5419719219207764,
	"epoch": 2.829906542056075,
	"grad_norm": 0.03768031671643257,
	"learning_rate": 0.0002,
	"loss": 0.540343701839447,
	"mean_token_accuracy": 0.779738038778305,
	"num_tokens": 12351022.0,
	"step": 758
	},
	{
	"entropy": 0.5576566010713577,
	"epoch": 2.8336448598130843,
	"grad_norm": 0.03845515102148056,
	"learning_rate": 0.0002,
	"loss": 0.556204617023468,
	"mean_token_accuracy": 0.7719219624996185,
	"num_tokens": 12367469.0,
	"step": 759
	},
	{
	"entropy": 0.5245185047388077,
	"epoch": 2.8373831775700937,
	"grad_norm": 0.04210665449500084,
	"learning_rate": 0.0002,
	"loss": 0.5240767598152161,
	"mean_token_accuracy": 0.7867787629365921,
	"num_tokens": 12383664.0,
	"step": 760
	},
	{
	"entropy": 0.5366124212741852,
	"epoch": 2.8411214953271027,
	"grad_norm": 0.039727386087179184,
	"learning_rate": 0.0002,
	"loss": 0.5391771197319031,
	"mean_token_accuracy": 0.7799243628978729,
	"num_tokens": 12399816.0,
	"step": 761
	},
	{
	"entropy": 0.5430543571710587,
	"epoch": 2.844859813084112,
	"grad_norm": 0.04284166544675827,
	"learning_rate": 0.0002,
	"loss": 0.555898129940033,
	"mean_token_accuracy": 0.7769357264041901,
	"num_tokens": 12416232.0,
	"step": 762
	},
	{
	"entropy": 0.5447599291801453,
	"epoch": 2.8485981308411215,
	"grad_norm": 0.04133335128426552,
	"learning_rate": 0.0002,
	"loss": 0.5458224415779114,
	"mean_token_accuracy": 0.7791205793619156,
	"num_tokens": 12432772.0,
	"step": 763
	},
	{
	"entropy": 0.5463473051786423,
	"epoch": 2.852336448598131,
	"grad_norm": 0.04293463006615639,
	"learning_rate": 0.0002,
	"loss": 0.5410310626029968,
	"mean_token_accuracy": 0.7824665307998657,
	"num_tokens": 12449390.0,
	"step": 764
	},
	{
	"entropy": 0.5433794260025024,
	"epoch": 2.8560747663551402,
	"grad_norm": 0.0383763313293457,
	"learning_rate": 0.0002,
	"loss": 0.5330025553703308,
	"mean_token_accuracy": 0.786294624209404,
	"num_tokens": 12465761.0,
	"step": 765
	},
	{
	"entropy": 0.5348140597343445,
	"epoch": 2.8598130841121496,
	"grad_norm": 0.038813136518001556,
	"learning_rate": 0.0002,
	"loss": 0.5356075167655945,
	"mean_token_accuracy": 0.7799220532178879,
	"num_tokens": 12481995.0,
	"step": 766
	},
	{
	"entropy": 0.5310825854539871,
	"epoch": 2.863551401869159,
	"grad_norm": 0.04623069986701012,
	"learning_rate": 0.0002,
	"loss": 0.5389203429222107,
	"mean_token_accuracy": 0.7763766050338745,
	"num_tokens": 12498209.0,
	"step": 767
	},
	{
	"entropy": 0.5357654541730881,
	"epoch": 2.867289719626168,
	"grad_norm": 0.03819035738706589,
	"learning_rate": 0.0002,
	"loss": 0.5394827723503113,
	"mean_token_accuracy": 0.7809223681688309,
	"num_tokens": 12514712.0,
	"step": 768
	},
	{
	"entropy": 0.543551579117775,
	"epoch": 2.8710280373831774,
	"grad_norm": 0.043649353086948395,
	"learning_rate": 0.0002,
	"loss": 0.5464720129966736,
	"mean_token_accuracy": 0.7787970453500748,
	"num_tokens": 12531249.0,
	"step": 769
	},
	{
	"entropy": 0.5389954522252083,
	"epoch": 2.8747663551401867,
	"grad_norm": 0.036311469972133636,
	"learning_rate": 0.0002,
	"loss": 0.5379980206489563,
	"mean_token_accuracy": 0.7832965403795242,
	"num_tokens": 12547833.0,
	"step": 770
	},
	{
	"entropy": 0.5408525764942169,
	"epoch": 2.878504672897196,
	"grad_norm": 0.03780903294682503,
	"learning_rate": 0.0002,
	"loss": 0.539055585861206,
	"mean_token_accuracy": 0.7843980342149734,
	"num_tokens": 12564468.0,
	"step": 771
	},
	{
	"entropy": 0.5521610230207443,
	"epoch": 2.8822429906542055,
	"grad_norm": 0.042727869004011154,
	"learning_rate": 0.0002,
	"loss": 0.5518633723258972,
	"mean_token_accuracy": 0.7730461955070496,
	"num_tokens": 12580822.0,
	"step": 772
	},
	{
	"entropy": 0.5392657667398453,
	"epoch": 2.885981308411215,
	"grad_norm": 0.042652204632759094,
	"learning_rate": 0.0002,
	"loss": 0.5403409004211426,
	"mean_token_accuracy": 0.7833160161972046,
	"num_tokens": 12597306.0,
	"step": 773
	},
	{
	"entropy": 0.5409767031669617,
	"epoch": 2.8897196261682243,
	"grad_norm": 0.04756668955087662,
	"learning_rate": 0.0002,
	"loss": 0.5477514266967773,
	"mean_token_accuracy": 0.7775042653083801,
	"num_tokens": 12613430.0,
	"step": 774
	},
	{
	"entropy": 0.529184103012085,
	"epoch": 2.8934579439252337,
	"grad_norm": 0.040852271020412445,
	"learning_rate": 0.0002,
	"loss": 0.5368978381156921,
	"mean_token_accuracy": 0.7799389064311981,
	"num_tokens": 12629734.0,
	"step": 775
	},
	{
	"entropy": 0.5528028011322021,
	"epoch": 2.897196261682243,
	"grad_norm": 0.04610953480005264,
	"learning_rate": 0.0002,
	"loss": 0.5489134788513184,
	"mean_token_accuracy": 0.7778203934431076,
	"num_tokens": 12646051.0,
	"step": 776
	},
	{
	"entropy": 0.5398439168930054,
	"epoch": 2.9009345794392525,
	"grad_norm": 0.03999875858426094,
	"learning_rate": 0.0002,
	"loss": 0.5301113128662109,
	"mean_token_accuracy": 0.786536455154419,
	"num_tokens": 12662398.0,
	"step": 777
	},
	{
	"entropy": 0.5450849235057831,
	"epoch": 2.904672897196262,
	"grad_norm": 0.04052022844552994,
	"learning_rate": 0.0002,
	"loss": 0.5446597933769226,
	"mean_token_accuracy": 0.7773038446903229,
	"num_tokens": 12679053.0,
	"step": 778
	},
	{
	"entropy": 0.5272800028324127,
	"epoch": 2.9084112149532713,
	"grad_norm": 0.041017524898052216,
	"learning_rate": 0.0002,
	"loss": 0.5308842062950134,
	"mean_token_accuracy": 0.7858325839042664,
	"num_tokens": 12695608.0,
	"step": 779
	},
	{
	"entropy": 0.5401904284954071,
	"epoch": 2.91214953271028,
	"grad_norm": 0.04053664207458496,
	"learning_rate": 0.0002,
	"loss": 0.5450324416160583,
	"mean_token_accuracy": 0.7785527408123016,
	"num_tokens": 12712035.0,
	"step": 780
	},
	{
	"entropy": 0.5284470915794373,
	"epoch": 2.9158878504672896,
	"grad_norm": 0.04656258225440979,
	"learning_rate": 0.0002,
	"loss": 0.5301587581634521,
	"mean_token_accuracy": 0.781079113483429,
	"num_tokens": 12728285.0,
	"step": 781
	},
	{
	"entropy": 0.5552389323711395,
	"epoch": 2.919626168224299,
	"grad_norm": 0.043133046478033066,
	"learning_rate": 0.0002,
	"loss": 0.5493855476379395,
	"mean_token_accuracy": 0.7788817882537842,
	"num_tokens": 12744626.0,
	"step": 782
	},
	{
	"entropy": 0.536635085940361,
	"epoch": 2.9233644859813084,
	"grad_norm": 0.04232388734817505,
	"learning_rate": 0.0002,
	"loss": 0.5350582599639893,
	"mean_token_accuracy": 0.784316211938858,
	"num_tokens": 12760817.0,
	"step": 783
	},
	{
	"entropy": 0.5175309851765633,
	"epoch": 2.9271028037383178,
	"grad_norm": 0.05120910704135895,
	"learning_rate": 0.0002,
	"loss": 0.5239328742027283,
	"mean_token_accuracy": 0.7904608845710754,
	"num_tokens": 12777129.0,
	"step": 784
	},
	{
	"entropy": 0.5613889098167419,
	"epoch": 2.930841121495327,
	"grad_norm": 0.04064096510410309,
	"learning_rate": 0.0002,
	"loss": 0.5573512315750122,
	"mean_token_accuracy": 0.7735461741685867,
	"num_tokens": 12793633.0,
	"step": 785
	},
	{
	"entropy": 0.540812149643898,
	"epoch": 2.9345794392523366,
	"grad_norm": 0.04686618968844414,
	"learning_rate": 0.0002,
	"loss": 0.5428805947303772,
	"mean_token_accuracy": 0.7786334455013275,
	"num_tokens": 12809886.0,
	"step": 786
	},
	{
	"entropy": 0.5354818254709244,
	"epoch": 2.938317757009346,
	"grad_norm": 0.04068305343389511,
	"learning_rate": 0.0002,
	"loss": 0.5409020185470581,
	"mean_token_accuracy": 0.781467393040657,
	"num_tokens": 12826079.0,
	"step": 787
	},
	{
	"entropy": 0.5340152084827423,
	"epoch": 2.942056074766355,
	"grad_norm": 0.04302098974585533,
	"learning_rate": 0.0002,
	"loss": 0.5352627038955688,
	"mean_token_accuracy": 0.7827621698379517,
	"num_tokens": 12842255.0,
	"step": 788
	},
	{
	"entropy": 0.5471729636192322,
	"epoch": 2.9457943925233643,
	"grad_norm": 0.03707803413271904,
	"learning_rate": 0.0002,
	"loss": 0.5461200475692749,
	"mean_token_accuracy": 0.7784449309110641,
	"num_tokens": 12859013.0,
	"step": 789
	},
	{
	"entropy": 0.5401621907949448,
	"epoch": 2.9495327102803737,
	"grad_norm": 0.044071633368730545,
	"learning_rate": 0.0002,
	"loss": 0.5385332107543945,
	"mean_token_accuracy": 0.783258393406868,
	"num_tokens": 12875373.0,
	"step": 790
	},
	{
	"entropy": 0.5508020371198654,
	"epoch": 2.953271028037383,
	"grad_norm": 0.03822047635912895,
	"learning_rate": 0.0002,
	"loss": 0.5456752181053162,
	"mean_token_accuracy": 0.7771204560995102,
	"num_tokens": 12891653.0,
	"step": 791
	},
	{
	"entropy": 0.5405401140451431,
	"epoch": 2.9570093457943925,
	"grad_norm": 0.05170199275016785,
	"learning_rate": 0.0002,
	"loss": 0.5398849248886108,
	"mean_token_accuracy": 0.7820375263690948,
	"num_tokens": 12908131.0,
	"step": 792
	},
	{
	"entropy": 0.5514362305402756,
	"epoch": 2.960747663551402,
	"grad_norm": 0.036166463047266006,
	"learning_rate": 0.0002,
	"loss": 0.5504743456840515,
	"mean_token_accuracy": 0.7789987325668335,
	"num_tokens": 12924376.0,
	"step": 793
	},
	{
	"entropy": 0.5308372974395752,
	"epoch": 2.9644859813084112,
	"grad_norm": 0.04786797612905502,
	"learning_rate": 0.0002,
	"loss": 0.5306717753410339,
	"mean_token_accuracy": 0.7853545248508453,
	"num_tokens": 12940776.0,
	"step": 794
	},
	{
	"entropy": 0.532660722732544,
	"epoch": 2.9682242990654206,
	"grad_norm": 0.045564983040094376,
	"learning_rate": 0.0002,
	"loss": 0.5463993549346924,
	"mean_token_accuracy": 0.777183935046196,
	"num_tokens": 12957326.0,
	"step": 795
	},
	{
	"entropy": 0.5434572845697403,
	"epoch": 2.97196261682243,
	"grad_norm": 0.04280655458569527,
	"learning_rate": 0.0002,
	"loss": 0.5493361353874207,
	"mean_token_accuracy": 0.776650920510292,
	"num_tokens": 12973820.0,
	"step": 796
	},
	{
	"entropy": 0.5530060529708862,
	"epoch": 2.9757009345794394,
	"grad_norm": 0.04003579169511795,
	"learning_rate": 0.0002,
	"loss": 0.5533372759819031,
	"mean_token_accuracy": 0.7766715437173843,
	"num_tokens": 12990177.0,
	"step": 797
	},
	{
	"entropy": 0.5516588985919952,
	"epoch": 2.979439252336449,
	"grad_norm": 0.0351371206343174,
	"learning_rate": 0.0002,
	"loss": 0.5491815209388733,
	"mean_token_accuracy": 0.7761321365833282,
	"num_tokens": 13006638.0,
	"step": 798
	},
	{
	"entropy": 0.5496395230293274,
	"epoch": 2.983177570093458,
	"grad_norm": 0.03455950319766998,
	"learning_rate": 0.0002,
	"loss": 0.5390848517417908,
	"mean_token_accuracy": 0.7827516794204712,
	"num_tokens": 13022895.0,
	"step": 799
	},
	{
	"entropy": 0.5255894213914871,
	"epoch": 2.986915887850467,
	"grad_norm": 0.0403040274977684,
	"learning_rate": 0.0002,
	"loss": 0.5258710980415344,
	"mean_token_accuracy": 0.7874301820993423,
	"num_tokens": 13039127.0,
	"step": 800
	},
	{
	"entropy": 0.5152293890714645,
	"epoch": 2.9906542056074765,
	"grad_norm": 0.04018184915184975,
	"learning_rate": 0.0002,
	"loss": 0.5248207449913025,
	"mean_token_accuracy": 0.789091631770134,
	"num_tokens": 13055038.0,
	"step": 801
	},
	{
	"entropy": 0.5260308086872101,
	"epoch": 2.994392523364486,
	"grad_norm": 0.04690062627196312,
	"learning_rate": 0.0002,
	"loss": 0.5380572080612183,
	"mean_token_accuracy": 0.7809655517339706,
	"num_tokens": 13070955.0,
	"step": 802
	},
	{
	"entropy": 0.5523715615272522,
	"epoch": 2.9981308411214953,
	"grad_norm": 0.040551379323005676,
	"learning_rate": 0.0002,
	"loss": 0.5491956472396851,
	"mean_token_accuracy": 0.7785847187042236,
	"num_tokens": 13087325.0,
	"step": 803
	},
	{
	"entropy": 0.5784902274608612,
	"epoch": 3.0,
	"grad_norm": 0.04703172296285629,
	"learning_rate": 0.0002,
	"loss": 0.5652958750724792,
	"mean_token_accuracy": 0.7655995786190033,
	"num_tokens": 13094423.0,
	"step": 804
	}
	],
	"logging_steps": 1,
	"max_steps": 804,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2209408416111657e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}