Affine-star_v2 / trainer_state.json

Upload folder using huggingface_hub

cb75450 verified 4 months ago

30.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.553351909523029,
	"eval_steps": 500,
	"global_step": 5000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.06556302245533518,
	"grad_norm": 0.2032165825366974,
	"learning_rate": 9.999745598795031e-08,
	"loss": 0.4359,
	"num_input_tokens_seen": 3794784,
	"step": 50,
	"train_runtime": 288.0643,
	"train_tokens_per_second": 13173.393
	},
	{
	"epoch": 0.13112604491067037,
	"grad_norm": 0.12323546409606934,
	"learning_rate": 9.998961548920028e-08,
	"loss": 0.5461,
	"num_input_tokens_seen": 7656384,
	"step": 100,
	"train_runtime": 563.6125,
	"train_tokens_per_second": 13584.481
	},
	{
	"epoch": 0.19668906736600558,
	"grad_norm": 0.6143731474876404,
	"learning_rate": 9.997647827492774e-08,
	"loss": 0.4957,
	"num_input_tokens_seen": 11324688,
	"step": 150,
	"train_runtime": 840.9128,
	"train_tokens_per_second": 13467.137
	},
	{
	"epoch": 0.26225208982134074,
	"grad_norm": 5.337645053863525,
	"learning_rate": 9.995804573710351e-08,
	"loss": 0.4317,
	"num_input_tokens_seen": 14915760,
	"step": 200,
	"train_runtime": 1098.5331,
	"train_tokens_per_second": 13577.889
	},
	{
	"epoch": 0.327815112276676,
	"grad_norm": 9.094950675964355,
	"learning_rate": 9.993431982877141e-08,
	"loss": 0.3758,
	"num_input_tokens_seen": 18760920,
	"step": 250,
	"train_runtime": 1370.436,
	"train_tokens_per_second": 13689.745
	},
	{
	"epoch": 0.39337813473201116,
	"grad_norm": 8.739721298217773,
	"learning_rate": 9.990530306384132e-08,
	"loss": 0.4875,
	"num_input_tokens_seen": 22666272,
	"step": 300,
	"train_runtime": 1675.777,
	"train_tokens_per_second": 13525.828
	},
	{
	"epoch": 0.45894115718734635,
	"grad_norm": 5.213091850280762,
	"learning_rate": 9.987099851682273e-08,
	"loss": 0.5377,
	"num_input_tokens_seen": 26550816,
	"step": 350,
	"train_runtime": 1969.5671,
	"train_tokens_per_second": 13480.534
	},
	{
	"epoch": 0.5245041796426815,
	"grad_norm": 6.928552627563477,
	"learning_rate": 9.983140982249912e-08,
	"loss": 0.5284,
	"num_input_tokens_seen": 30502512,
	"step": 400,
	"train_runtime": 2276.9451,
	"train_tokens_per_second": 13396.244
	},
	{
	"epoch": 0.5900672020980167,
	"grad_norm": 7.398318290710449,
	"learning_rate": 9.978654117554268e-08,
	"loss": 0.3501,
	"num_input_tokens_seen": 34219392,
	"step": 450,
	"train_runtime": 2557.2601,
	"train_tokens_per_second": 13381.272
	},
	{
	"epoch": 0.655630224553352,
	"grad_norm": 0.12503379583358765,
	"learning_rate": 9.973639733006998e-08,
	"loss": 0.4336,
	"num_input_tokens_seen": 38231808,
	"step": 500,
	"train_runtime": 2907.4779,
	"train_tokens_per_second": 13149.475
	},
	{
	"epoch": 0.7211932470086871,
	"grad_norm": 1.006555199623108,
	"learning_rate": 9.968098359913822e-08,
	"loss": 0.382,
	"num_input_tokens_seen": 42037704,
	"step": 550,
	"train_runtime": 3185.8277,
	"train_tokens_per_second": 13195.222
	},
	{
	"epoch": 0.7867562694640223,
	"grad_norm": 7.536371231079102,
	"learning_rate": 9.962030585418215e-08,
	"loss": 0.3866,
	"num_input_tokens_seen": 46037664,
	"step": 600,
	"train_runtime": 3488.8435,
	"train_tokens_per_second": 13195.681
	},
	{
	"epoch": 0.8523192919193575,
	"grad_norm": 0.24487841129302979,
	"learning_rate": 9.955437052439219e-08,
	"loss": 0.4026,
	"num_input_tokens_seen": 49944816,
	"step": 650,
	"train_runtime": 3776.75,
	"train_tokens_per_second": 13224.284
	},
	{
	"epoch": 0.9178823143746927,
	"grad_norm": 1.2577345371246338,
	"learning_rate": 9.948318459603297e-08,
	"loss": 0.3547,
	"num_input_tokens_seen": 53838960,
	"step": 700,
	"train_runtime": 4095.3801,
	"train_tokens_per_second": 13146.267
	},
	{
	"epoch": 0.9834453368300279,
	"grad_norm": 0.23559170961380005,
	"learning_rate": 9.940675561170326e-08,
	"loss": 0.3269,
	"num_input_tokens_seen": 57703848,
	"step": 750,
	"train_runtime": 4401.0597,
	"train_tokens_per_second": 13111.353
	},
	{
	"epoch": 1.048516636616948,
	"grad_norm": 2.2465434074401855,
	"learning_rate": 9.932509166953673e-08,
	"loss": 0.38,
	"num_input_tokens_seen": 61456680,
	"step": 800,
	"train_runtime": 4678.4603,
	"train_tokens_per_second": 13136.091
	},
	{
	"epoch": 1.1140796590722832,
	"grad_norm": 0.8857269287109375,
	"learning_rate": 9.923820142234384e-08,
	"loss": 0.3671,
	"num_input_tokens_seen": 65352192,
	"step": 850,
	"train_runtime": 4987.8785,
	"train_tokens_per_second": 13102.202
	},
	{
	"epoch": 1.1796426815276184,
	"grad_norm": 2.611070394515991,
	"learning_rate": 9.914609407669518e-08,
	"loss": 0.2795,
	"num_input_tokens_seen": 69406008,
	"step": 900,
	"train_runtime": 5331.3796,
	"train_tokens_per_second": 13018.395
	},
	{
	"epoch": 1.2452057039829536,
	"grad_norm": 0.18760572373867035,
	"learning_rate": 9.904877939194582e-08,
	"loss": 0.3224,
	"num_input_tokens_seen": 73152336,
	"step": 950,
	"train_runtime": 5603.6792,
	"train_tokens_per_second": 13054.341
	},
	{
	"epoch": 1.3107687264382888,
	"grad_norm": 7.031470775604248,
	"learning_rate": 9.894626767920125e-08,
	"loss": 0.2581,
	"num_input_tokens_seen": 76955160,
	"step": 1000,
	"train_runtime": 5891.4617,
	"train_tokens_per_second": 13062.151
	},
	{
	"epoch": 1.376331748893624,
	"grad_norm": 3.1105947494506836,
	"learning_rate": 9.883856980022501e-08,
	"loss": 0.2146,
	"num_input_tokens_seen": 80682888,
	"step": 1050,
	"train_runtime": 6172.6315,
	"train_tokens_per_second": 13071.068
	},
	{
	"epoch": 1.4418947713489592,
	"grad_norm": 3.3154454231262207,
	"learning_rate": 9.872569716628762e-08,
	"loss": 0.1974,
	"num_input_tokens_seen": 84505128,
	"step": 1100,
	"train_runtime": 6464.0066,
	"train_tokens_per_second": 13073.181
	},
	{
	"epoch": 1.5074577938042943,
	"grad_norm": 2.295762062072754,
	"learning_rate": 9.860766173695762e-08,
	"loss": 0.331,
	"num_input_tokens_seen": 88457640,
	"step": 1150,
	"train_runtime": 6787.6545,
	"train_tokens_per_second": 13032.137
	},
	{
	"epoch": 1.5730208162596295,
	"grad_norm": 3.430027484893799,
	"learning_rate": 9.848447601883434e-08,
	"loss": 0.2295,
	"num_input_tokens_seen": 92425752,
	"step": 1200,
	"train_runtime": 7110.9534,
	"train_tokens_per_second": 12997.66
	},
	{
	"epoch": 1.6385838387149647,
	"grad_norm": 5.2876200675964355,
	"learning_rate": 9.83561530642227e-08,
	"loss": 0.3534,
	"num_input_tokens_seen": 96447384,
	"step": 1250,
	"train_runtime": 7430.2464,
	"train_tokens_per_second": 12980.375
	},
	{
	"epoch": 1.7041468611703,
	"grad_norm": 2.3764872550964355,
	"learning_rate": 9.822270646975031e-08,
	"loss": 0.2875,
	"num_input_tokens_seen": 100202232,
	"step": 1300,
	"train_runtime": 7704.6648,
	"train_tokens_per_second": 13005.398
	},
	{
	"epoch": 1.769709883625635,
	"grad_norm": 0.5971184968948364,
	"learning_rate": 9.808415037492677e-08,
	"loss": 0.1869,
	"num_input_tokens_seen": 103938744,
	"step": 1350,
	"train_runtime": 7967.1016,
	"train_tokens_per_second": 13045.992
	},
	{
	"epoch": 1.8352729060809705,
	"grad_norm": 1.1916333436965942,
	"learning_rate": 9.794049946064551e-08,
	"loss": 0.2173,
	"num_input_tokens_seen": 107626320,
	"step": 1400,
	"train_runtime": 8229.9563,
	"train_tokens_per_second": 13077.387
	},
	{
	"epoch": 1.9008359285363055,
	"grad_norm": 1.6566100120544434,
	"learning_rate": 9.779176894762831e-08,
	"loss": 0.2168,
	"num_input_tokens_seen": 111377760,
	"step": 1450,
	"train_runtime": 8503.7645,
	"train_tokens_per_second": 13097.465
	},
	{
	"epoch": 1.9663989509916409,
	"grad_norm": 3.6912384033203125,
	"learning_rate": 9.763797459481244e-08,
	"loss": 0.2844,
	"num_input_tokens_seen": 115314840,
	"step": 1500,
	"train_runtime": 8803.7543,
	"train_tokens_per_second": 13098.371
	},
	{
	"epoch": 2.0314702507785607,
	"grad_norm": 0.7536889910697937,
	"learning_rate": 9.747913269768107e-08,
	"loss": 0.1743,
	"num_input_tokens_seen": 118930008,
	"step": 1550,
	"train_runtime": 9062.5998,
	"train_tokens_per_second": 13123.167
	},
	{
	"epoch": 2.097033273233896,
	"grad_norm": 4.382725715637207,
	"learning_rate": 9.731526008653652e-08,
	"loss": 0.1793,
	"num_input_tokens_seen": 122730384,
	"step": 1600,
	"train_runtime": 9342.1738,
	"train_tokens_per_second": 13137.24
	},
	{
	"epoch": 2.162596295689231,
	"grad_norm": 1.2656387090682983,
	"learning_rate": 9.714637412471703e-08,
	"loss": 0.2939,
	"num_input_tokens_seen": 126529800,
	"step": 1650,
	"train_runtime": 9635.6982,
	"train_tokens_per_second": 13131.358
	},
	{
	"epoch": 2.2281593181445665,
	"grad_norm": 2.5040361881256104,
	"learning_rate": 9.697249270675705e-08,
	"loss": 0.2434,
	"num_input_tokens_seen": 130443600,
	"step": 1700,
	"train_runtime": 9927.959,
	"train_tokens_per_second": 13139.015
	},
	{
	"epoch": 2.293722340599902,
	"grad_norm": 0.9235166311264038,
	"learning_rate": 9.679363425649115e-08,
	"loss": 0.2993,
	"num_input_tokens_seen": 134517072,
	"step": 1750,
	"train_runtime": 10260.6078,
	"train_tokens_per_second": 13110.049
	},
	{
	"epoch": 2.359285363055237,
	"grad_norm": 1.0807639360427856,
	"learning_rate": 9.660981772510188e-08,
	"loss": 0.192,
	"num_input_tokens_seen": 138214584,
	"step": 1800,
	"train_runtime": 10530.3372,
	"train_tokens_per_second": 13125.371
	},
	{
	"epoch": 2.424848385510572,
	"grad_norm": 1.5869427919387817,
	"learning_rate": 9.642106258911184e-08,
	"loss": 0.2412,
	"num_input_tokens_seen": 142113144,
	"step": 1850,
	"train_runtime": 10835.7191,
	"train_tokens_per_second": 13115.248
	},
	{
	"epoch": 2.490411407965907,
	"grad_norm": 1.165739893913269,
	"learning_rate": 9.622738884831996e-08,
	"loss": 0.2425,
	"num_input_tokens_seen": 146119920,
	"step": 1900,
	"train_runtime": 11148.5673,
	"train_tokens_per_second": 13106.61
	},
	{
	"epoch": 2.5559744304212426,
	"grad_norm": 1.7617275714874268,
	"learning_rate": 9.602881702368242e-08,
	"loss": 0.2262,
	"num_input_tokens_seen": 150087360,
	"step": 1950,
	"train_runtime": 11458.6247,
	"train_tokens_per_second": 13098.2
	},
	{
	"epoch": 2.6215374528765776,
	"grad_norm": 0.4497505724430084,
	"learning_rate": 9.582536815513833e-08,
	"loss": 0.1427,
	"num_input_tokens_seen": 153908160,
	"step": 2000,
	"train_runtime": 11749.4731,
	"train_tokens_per_second": 13099.154
	},
	{
	"epoch": 2.6871004753319125,
	"grad_norm": 0.7155716419219971,
	"learning_rate": 9.561706379938041e-08,
	"loss": 0.222,
	"num_input_tokens_seen": 157607040,
	"step": 2050,
	"train_runtime": 12052.7614,
	"train_tokens_per_second": 13076.426
	},
	{
	"epoch": 2.752663497787248,
	"grad_norm": 1.3807727098464966,
	"learning_rate": 9.540392602757093e-08,
	"loss": 0.1474,
	"num_input_tokens_seen": 161453160,
	"step": 2100,
	"train_runtime": 12357.3875,
	"train_tokens_per_second": 13065.315
	},
	{
	"epoch": 2.8182265202425834,
	"grad_norm": 0.739932119846344,
	"learning_rate": 9.518597742300308e-08,
	"loss": 0.265,
	"num_input_tokens_seen": 165287904,
	"step": 2150,
	"train_runtime": 12651.7227,
	"train_tokens_per_second": 13064.458
	},
	{
	"epoch": 2.8837895426979183,
	"grad_norm": 0.4396991431713104,
	"learning_rate": 9.496324107870821e-08,
	"loss": 0.2944,
	"num_input_tokens_seen": 169326888,
	"step": 2200,
	"train_runtime": 12967.7154,
	"train_tokens_per_second": 13057.573
	},
	{
	"epoch": 2.9493525651532537,
	"grad_norm": 0.38162505626678467,
	"learning_rate": 9.47357405950089e-08,
	"loss": 0.2348,
	"num_input_tokens_seen": 173020800,
	"step": 2250,
	"train_runtime": 13223.1088,
	"train_tokens_per_second": 13084.729
	},
	{
	"epoch": 3.0144238649401736,
	"grad_norm": 3.874674081802368,
	"learning_rate": 9.450350007701847e-08,
	"loss": 0.2311,
	"num_input_tokens_seen": 176668584,
	"step": 2300,
	"train_runtime": 13516.1565,
	"train_tokens_per_second": 13070.919
	},
	{
	"epoch": 3.079986887395509,
	"grad_norm": 0.7723739743232727,
	"learning_rate": 9.426654413208668e-08,
	"loss": 0.2964,
	"num_input_tokens_seen": 180729120,
	"step": 2350,
	"train_runtime": 13841.6367,
	"train_tokens_per_second": 13056.918
	},
	{
	"epoch": 3.145549909850844,
	"grad_norm": 1.5033811330795288,
	"learning_rate": 9.40248978671927e-08,
	"loss": 0.2084,
	"num_input_tokens_seen": 184677672,
	"step": 2400,
	"train_runtime": 14150.4953,
	"train_tokens_per_second": 13050.969
	},
	{
	"epoch": 3.2111129323061793,
	"grad_norm": 1.8196630477905273,
	"learning_rate": 9.377858688628464e-08,
	"loss": 0.1717,
	"num_input_tokens_seen": 188404488,
	"step": 2450,
	"train_runtime": 14408.9636,
	"train_tokens_per_second": 13075.506
	},
	{
	"epoch": 3.2766759547615143,
	"grad_norm": 0.9214364290237427,
	"learning_rate": 9.352763728756675e-08,
	"loss": 0.23,
	"num_input_tokens_seen": 192323616,
	"step": 2500,
	"train_runtime": 14710.1132,
	"train_tokens_per_second": 13074.244
	},
	{
	"epoch": 3.3422389772168497,
	"grad_norm": 1.0862064361572266,
	"learning_rate": 9.327207566073416e-08,
	"loss": 0.2271,
	"num_input_tokens_seen": 196108272,
	"step": 2550,
	"train_runtime": 14979.1529,
	"train_tokens_per_second": 13092.08
	},
	{
	"epoch": 3.407801999672185,
	"grad_norm": 0.8413626551628113,
	"learning_rate": 9.301192908415552e-08,
	"loss": 0.2193,
	"num_input_tokens_seen": 199941432,
	"step": 2600,
	"train_runtime": 15282.6531,
	"train_tokens_per_second": 13082.901
	},
	{
	"epoch": 3.47336502212752,
	"grad_norm": 1.531718134880066,
	"learning_rate": 9.274722512200379e-08,
	"loss": 0.1382,
	"num_input_tokens_seen": 203779920,
	"step": 2650,
	"train_runtime": 15565.7388,
	"train_tokens_per_second": 13091.568
	},
	{
	"epoch": 3.538928044582855,
	"grad_norm": 0.0838296189904213,
	"learning_rate": 9.247799182133582e-08,
	"loss": 0.2191,
	"num_input_tokens_seen": 207633384,
	"step": 2700,
	"train_runtime": 15868.2059,
	"train_tokens_per_second": 13084.868
	},
	{
	"epoch": 3.6044910670381904,
	"grad_norm": 1.1013773679733276,
	"learning_rate": 9.220425770912042e-08,
	"loss": 0.1988,
	"num_input_tokens_seen": 211368360,
	"step": 2750,
	"train_runtime": 16143.9244,
	"train_tokens_per_second": 13092.75
	},
	{
	"epoch": 3.670054089493526,
	"grad_norm": 0.40529268980026245,
	"learning_rate": 9.192605178921584e-08,
	"loss": 0.3072,
	"num_input_tokens_seen": 215149128,
	"step": 2800,
	"train_runtime": 16445.4494,
	"train_tokens_per_second": 13082.593
	},
	{
	"epoch": 3.735617111948861,
	"grad_norm": 1.5882924795150757,
	"learning_rate": 9.164340353929659e-08,
	"loss": 0.1822,
	"num_input_tokens_seen": 218796552,
	"step": 2850,
	"train_runtime": 16707.491,
	"train_tokens_per_second": 13095.716
	},
	{
	"epoch": 3.8011801344041958,
	"grad_norm": 0.862838089466095,
	"learning_rate": 9.13563429077301e-08,
	"loss": 0.2437,
	"num_input_tokens_seen": 222623832,
	"step": 2900,
	"train_runtime": 16994.843,
	"train_tokens_per_second": 13099.493
	},
	{
	"epoch": 3.866743156859531,
	"grad_norm": 0.7801971435546875,
	"learning_rate": 9.106490031040353e-08,
	"loss": 0.3174,
	"num_input_tokens_seen": 226629408,
	"step": 2950,
	"train_runtime": 17320.4321,
	"train_tokens_per_second": 13084.512
	},
	{
	"epoch": 3.9323061793148666,
	"grad_norm": 0.4492790699005127,
	"learning_rate": 9.076910662750096e-08,
	"loss": 0.199,
	"num_input_tokens_seen": 230444736,
	"step": 3000,
	"train_runtime": 17612.3894,
	"train_tokens_per_second": 13084.24
	},
	{
	"epoch": 3.9978692017702016,
	"grad_norm": 4.88616418838501,
	"learning_rate": 9.04689932002315e-08,
	"loss": 0.1764,
	"num_input_tokens_seen": 234389904,
	"step": 3050,
	"train_runtime": 17949.0057,
	"train_tokens_per_second": 13058.657
	},
	{
	"epoch": 4.062940501557121,
	"grad_norm": 0.597968339920044,
	"learning_rate": 9.016459182750843e-08,
	"loss": 0.209,
	"num_input_tokens_seen": 238124880,
	"step": 3100,
	"train_runtime": 18244.7826,
	"train_tokens_per_second": 13051.67
	},
	{
	"epoch": 4.128503524012457,
	"grad_norm": 0.8793305158615112,
	"learning_rate": 8.985593476257997e-08,
	"loss": 0.2686,
	"num_input_tokens_seen": 241758864,
	"step": 3150,
	"train_runtime": 18507.4406,
	"train_tokens_per_second": 13062.793
	},
	{
	"epoch": 4.194066546467792,
	"grad_norm": 7.551540851593018,
	"learning_rate": 8.954305470961178e-08,
	"loss": 0.2529,
	"num_input_tokens_seen": 245698488,
	"step": 3200,
	"train_runtime": 18827.139,
	"train_tokens_per_second": 13050.23
	},
	{
	"epoch": 4.259629568923128,
	"grad_norm": 0.4505975842475891,
	"learning_rate": 8.922598482022182e-08,
	"loss": 0.2384,
	"num_input_tokens_seen": 249595968,
	"step": 3250,
	"train_runtime": 19129.2909,
	"train_tokens_per_second": 13047.842
	},
	{
	"epoch": 4.325192591378462,
	"grad_norm": 2.2207558155059814,
	"learning_rate": 8.890475868996762e-08,
	"loss": 0.1867,
	"num_input_tokens_seen": 253481304,
	"step": 3300,
	"train_runtime": 19419.7804,
	"train_tokens_per_second": 13052.738
	},
	{
	"epoch": 4.3907556138337975,
	"grad_norm": 0.9266397356987,
	"learning_rate": 8.857941035478673e-08,
	"loss": 0.1763,
	"num_input_tokens_seen": 257255976,
	"step": 3350,
	"train_runtime": 19702.252,
	"train_tokens_per_second": 13057.186
	},
	{
	"epoch": 4.456318636289133,
	"grad_norm": 0.29596129059791565,
	"learning_rate": 8.824997428739036e-08,
	"loss": 0.2278,
	"num_input_tokens_seen": 261064368,
	"step": 3400,
	"train_runtime": 19998.9663,
	"train_tokens_per_second": 13053.893
	},
	{
	"epoch": 4.521881658744468,
	"grad_norm": 0.9699137210845947,
	"learning_rate": 8.791648539361072e-08,
	"loss": 0.201,
	"num_input_tokens_seen": 264944352,
	"step": 3450,
	"train_runtime": 20299.7802,
	"train_tokens_per_second": 13051.587
	},
	{
	"epoch": 4.587444681199804,
	"grad_norm": 1.298768401145935,
	"learning_rate": 8.757897900870261e-08,
	"loss": 0.2057,
	"num_input_tokens_seen": 268791072,
	"step": 3500,
	"train_runtime": 20594.4257,
	"train_tokens_per_second": 13051.642
	},
	{
	"epoch": 4.653007703655138,
	"grad_norm": 12.011015892028809,
	"learning_rate": 8.72374908935994e-08,
	"loss": 0.2351,
	"num_input_tokens_seen": 272495832,
	"step": 3550,
	"train_runtime": 20885.3413,
	"train_tokens_per_second": 13047.229
	},
	{
	"epoch": 4.718570726110474,
	"grad_norm": 0.24729423224925995,
	"learning_rate": 8.689205723112387e-08,
	"loss": 0.2065,
	"num_input_tokens_seen": 276393408,
	"step": 3600,
	"train_runtime": 21206.0433,
	"train_tokens_per_second": 13033.71
	},
	{
	"epoch": 4.784133748565809,
	"grad_norm": 2.150505781173706,
	"learning_rate": 8.654271462215454e-08,
	"loss": 0.158,
	"num_input_tokens_seen": 280197624,
	"step": 3650,
	"train_runtime": 21488.9397,
	"train_tokens_per_second": 13039.155
	},
	{
	"epoch": 4.849696771021144,
	"grad_norm": 0.4875163435935974,
	"learning_rate": 8.618950008174746e-08,
	"loss": 0.1832,
	"num_input_tokens_seen": 284031624,
	"step": 3700,
	"train_runtime": 21778.1233,
	"train_tokens_per_second": 13042.062
	},
	{
	"epoch": 4.915259793476479,
	"grad_norm": 0.5430140495300293,
	"learning_rate": 8.583245103521428e-08,
	"loss": 0.2566,
	"num_input_tokens_seen": 287936280,
	"step": 3750,
	"train_runtime": 22067.8249,
	"train_tokens_per_second": 13047.787
	},
	{
	"epoch": 4.980822815931814,
	"grad_norm": 0.3734208941459656,
	"learning_rate": 8.547160531415679e-08,
	"loss": 0.2775,
	"num_input_tokens_seen": 291838584,
	"step": 3800,
	"train_runtime": 22359.3364,
	"train_tokens_per_second": 13052.202
	},
	{
	"epoch": 5.045894115718735,
	"grad_norm": 0.9905921220779419,
	"learning_rate": 8.510700115245841e-08,
	"loss": 0.1971,
	"num_input_tokens_seen": 295643712,
	"step": 3850,
	"train_runtime": 22653.1086,
	"train_tokens_per_second": 13050.911
	},
	{
	"epoch": 5.11145713817407,
	"grad_norm": 0.0872701108455658,
	"learning_rate": 8.473867718223315e-08,
	"loss": 0.3142,
	"num_input_tokens_seen": 299528016,
	"step": 3900,
	"train_runtime": 22970.1152,
	"train_tokens_per_second": 13039.9
	},
	{
	"epoch": 5.177020160629405,
	"grad_norm": 0.7591832876205444,
	"learning_rate": 8.436667242973218e-08,
	"loss": 0.2291,
	"num_input_tokens_seen": 303643632,
	"step": 3950,
	"train_runtime": 23324.5779,
	"train_tokens_per_second": 13018.183
	},
	{
	"epoch": 5.24258318308474,
	"grad_norm": 0.44477882981300354,
	"learning_rate": 8.399102631120877e-08,
	"loss": 0.2128,
	"num_input_tokens_seen": 307574184,
	"step": 4000,
	"train_runtime": 23603.684,
	"train_tokens_per_second": 13030.77
	},
	{
	"epoch": 5.308146205540075,
	"grad_norm": 0.48096030950546265,
	"learning_rate": 8.361177862874202e-08,
	"loss": 0.1472,
	"num_input_tokens_seen": 311323584,
	"step": 4050,
	"train_runtime": 23888.6512,
	"train_tokens_per_second": 13032.28
	},
	{
	"epoch": 5.373709227995411,
	"grad_norm": 0.9138302206993103,
	"learning_rate": 8.32289695660194e-08,
	"loss": 0.1981,
	"num_input_tokens_seen": 315158328,
	"step": 4100,
	"train_runtime": 24182.2327,
	"train_tokens_per_second": 13032.64
	},
	{
	"epoch": 5.439272250450745,
	"grad_norm": 0.3333579897880554,
	"learning_rate": 8.284263968407912e-08,
	"loss": 0.1837,
	"num_input_tokens_seen": 318844944,
	"step": 4150,
	"train_runtime": 24456.5915,
	"train_tokens_per_second": 13037.178
	},
	{
	"epoch": 5.504835272906081,
	"grad_norm": 0.9484214782714844,
	"learning_rate": 8.245282991701243e-08,
	"loss": 0.2015,
	"num_input_tokens_seen": 322685568,
	"step": 4200,
	"train_runtime": 24723.1173,
	"train_tokens_per_second": 13051.977
	},
	{
	"epoch": 5.570398295361416,
	"grad_norm": 0.4100230634212494,
	"learning_rate": 8.205958156762646e-08,
	"loss": 0.2554,
	"num_input_tokens_seen": 326275680,
	"step": 4250,
	"train_runtime": 24984.4942,
	"train_tokens_per_second": 13059.127
	},
	{
	"epoch": 5.635961317816752,
	"grad_norm": 0.9571174383163452,
	"learning_rate": 8.166293630306773e-08,
	"loss": 0.2039,
	"num_input_tokens_seen": 330026184,
	"step": 4300,
	"train_runtime": 25280.2384,
	"train_tokens_per_second": 13054.71
	},
	{
	"epoch": 5.701524340272087,
	"grad_norm": 0.5215702652931213,
	"learning_rate": 8.126293615040747e-08,
	"loss": 0.2277,
	"num_input_tokens_seen": 333968520,
	"step": 4350,
	"train_runtime": 25565.1364,
	"train_tokens_per_second": 13063.436
	},
	{
	"epoch": 5.7670873627274215,
	"grad_norm": 0.4471840560436249,
	"learning_rate": 8.085962349218847e-08,
	"loss": 0.2104,
	"num_input_tokens_seen": 337707624,
	"step": 4400,
	"train_runtime": 25841.3753,
	"train_tokens_per_second": 13068.485
	},
	{
	"epoch": 5.832650385182757,
	"grad_norm": 1.0097142457962036,
	"learning_rate": 8.04530410619344e-08,
	"loss": 0.2524,
	"num_input_tokens_seen": 341503488,
	"step": 4450,
	"train_runtime": 26137.1854,
	"train_tokens_per_second": 13065.81
	},
	{
	"epoch": 5.898213407638092,
	"grad_norm": 1.6211527585983276,
	"learning_rate": 8.004323193962197e-08,
	"loss": 0.1595,
	"num_input_tokens_seen": 345388440,
	"step": 4500,
	"train_runtime": 26453.2756,
	"train_tokens_per_second": 13056.547
	},
	{
	"epoch": 5.963776430093427,
	"grad_norm": 0.25499045848846436,
	"learning_rate": 7.963023954711624e-08,
	"loss": 0.2721,
	"num_input_tokens_seen": 349216920,
	"step": 4550,
	"train_runtime": 26741.8598,
	"train_tokens_per_second": 13058.812
	},
	{
	"epoch": 6.028847729880347,
	"grad_norm": 0.6265522837638855,
	"learning_rate": 7.921410764356988e-08,
	"loss": 0.1993,
	"num_input_tokens_seen": 353096424,
	"step": 4600,
	"train_runtime": 27061.8507,
	"train_tokens_per_second": 13047.756
	},
	{
	"epoch": 6.0944107523356825,
	"grad_norm": 0.06899835169315338,
	"learning_rate": 7.87948803207866e-08,
	"loss": 0.2228,
	"num_input_tokens_seen": 356829384,
	"step": 4650,
	"train_runtime": 27330.1966,
	"train_tokens_per_second": 13056.232
	},
	{
	"epoch": 6.159973774791018,
	"grad_norm": 0.8082672953605652,
	"learning_rate": 7.837260199854929e-08,
	"loss": 0.1859,
	"num_input_tokens_seen": 360447864,
	"step": 4700,
	"train_runtime": 27571.8796,
	"train_tokens_per_second": 13073.025
	},
	{
	"epoch": 6.225536797246353,
	"grad_norm": 0.6293157339096069,
	"learning_rate": 7.794731741991355e-08,
	"loss": 0.2223,
	"num_input_tokens_seen": 364279296,
	"step": 4750,
	"train_runtime": 27852.8113,
	"train_tokens_per_second": 13078.726
	},
	{
	"epoch": 6.291099819701688,
	"grad_norm": 0.7018508315086365,
	"learning_rate": 7.751907164646682e-08,
	"loss": 0.1709,
	"num_input_tokens_seen": 368000976,
	"step": 4800,
	"train_runtime": 28103.875,
	"train_tokens_per_second": 13094.314
	},
	{
	"epoch": 6.356662842157023,
	"grad_norm": 0.3939789831638336,
	"learning_rate": 7.70879100535538e-08,
	"loss": 0.1903,
	"num_input_tokens_seen": 371666208,
	"step": 4850,
	"train_runtime": 28370.3397,
	"train_tokens_per_second": 13100.52
	},
	{
	"epoch": 6.422225864612359,
	"grad_norm": 0.07075575739145279,
	"learning_rate": 7.665387832546873e-08,
	"loss": 0.1653,
	"num_input_tokens_seen": 375530976,
	"step": 4900,
	"train_runtime": 28672.2738,
	"train_tokens_per_second": 13097.356
	},
	{
	"epoch": 6.487788887067694,
	"grad_norm": 1.4741820096969604,
	"learning_rate": 7.621702245061479e-08,
	"loss": 0.2247,
	"num_input_tokens_seen": 379400040,
	"step": 4950,
	"train_runtime": 28956.4169,
	"train_tokens_per_second": 13102.451
	},
	{
	"epoch": 6.553351909523029,
	"grad_norm": 0.756077229976654,
	"learning_rate": 7.577738871663131e-08,
	"loss": 0.2299,
	"num_input_tokens_seen": 383417568,
	"step": 5000,
	"train_runtime": 29294.8197,
	"train_tokens_per_second": 13088.238
	}
	],
	"logging_steps": 50,
	"max_steps": 15260,
	"num_input_tokens_seen": 383417568,
	"num_train_epochs": 20,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 8.358913850245906e+18,
	"train_batch_size": 3,
	"trial_name": null,
	"trial_params": null
	}