ep1ux3vt / checkpoint-2000 /trainer_state.json

Upload folder using huggingface_hub

311028c verified about 1 month ago

68.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.2,
	"eval_steps": 100,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 0.7168930960819125,
	"epoch": 0.016,
	"grad_norm": 73.5,
	"learning_rate": 1.8e-07,
	"loss": 15.0906,
	"mean_token_accuracy": 0.7680471498519182,
	"num_tokens": 280941.0,
	"step": 10
	},
	{
	"entropy": 0.741888347826898,
	"epoch": 0.032,
	"grad_norm": 78.0,
	"learning_rate": 3.8e-07,
	"loss": 15.4631,
	"mean_token_accuracy": 0.7632880255579948,
	"num_tokens": 558056.0,
	"step": 20
	},
	{
	"entropy": 0.7365243999287486,
	"epoch": 0.048,
	"grad_norm": 65.0,
	"learning_rate": 5.800000000000001e-07,
	"loss": 15.1017,
	"mean_token_accuracy": 0.768239913508296,
	"num_tokens": 836753.0,
	"step": 30
	},
	{
	"entropy": 0.7818019269034266,
	"epoch": 0.064,
	"grad_norm": 56.25,
	"learning_rate": 7.8e-07,
	"loss": 15.6995,
	"mean_token_accuracy": 0.7602430328726768,
	"num_tokens": 1126446.0,
	"step": 40
	},
	{
	"entropy": 0.8105136282742024,
	"epoch": 0.08,
	"grad_norm": 47.25,
	"learning_rate": 9.800000000000001e-07,
	"loss": 15.0321,
	"mean_token_accuracy": 0.7664048440754414,
	"num_tokens": 1413596.0,
	"step": 50
	},
	{
	"entropy": 0.8216251201927662,
	"epoch": 0.096,
	"grad_norm": 39.75,
	"learning_rate": 1.1800000000000001e-06,
	"loss": 14.6285,
	"mean_token_accuracy": 0.7707466218620539,
	"num_tokens": 1701193.0,
	"step": 60
	},
	{
	"entropy": 0.8549969043582678,
	"epoch": 0.112,
	"grad_norm": 39.0,
	"learning_rate": 1.3800000000000001e-06,
	"loss": 14.8679,
	"mean_token_accuracy": 0.7673181220889091,
	"num_tokens": 1979232.0,
	"step": 70
	},
	{
	"entropy": 0.8556341353803874,
	"epoch": 0.128,
	"grad_norm": 34.0,
	"learning_rate": 1.5800000000000001e-06,
	"loss": 14.6467,
	"mean_token_accuracy": 0.7710235182195901,
	"num_tokens": 2274177.0,
	"step": 80
	},
	{
	"entropy": 0.8478256281465292,
	"epoch": 0.144,
	"grad_norm": 31.0,
	"learning_rate": 1.7800000000000001e-06,
	"loss": 14.3261,
	"mean_token_accuracy": 0.7732654966413974,
	"num_tokens": 2548445.0,
	"step": 90
	},
	{
	"entropy": 0.8438362725079059,
	"epoch": 0.16,
	"grad_norm": 38.5,
	"learning_rate": 1.98e-06,
	"loss": 14.0318,
	"mean_token_accuracy": 0.7773757755756379,
	"num_tokens": 2824418.0,
	"step": 100
	},
	{
	"epoch": 0.16,
	"eval_biology_entropy": 1.211377203464508,
	"eval_biology_loss": 1.1644827127456665,
	"eval_biology_mean_token_accuracy": 0.7046201548576355,
	"eval_biology_num_tokens": 2824418.0,
	"eval_biology_runtime": 20.5128,
	"eval_biology_samples_per_second": 24.375,
	"eval_biology_steps_per_second": 6.094,
	"step": 100
	},
	{
	"epoch": 0.16,
	"eval_math_entropy": 0.875089626789093,
	"eval_math_loss": 0.8965557217597961,
	"eval_math_mean_token_accuracy": 0.7736486663818359,
	"eval_math_num_tokens": 2824418.0,
	"eval_math_runtime": 25.0963,
	"eval_math_samples_per_second": 19.923,
	"eval_math_steps_per_second": 4.981,
	"step": 100
	},
	{
	"entropy": 0.8555477414280176,
	"epoch": 0.176,
	"grad_norm": 47.75,
	"learning_rate": 2.1800000000000003e-06,
	"loss": 14.0356,
	"mean_token_accuracy": 0.7775060940533877,
	"num_tokens": 3110313.0,
	"step": 110
	},
	{
	"entropy": 0.8610258311033249,
	"epoch": 0.192,
	"grad_norm": 31.375,
	"learning_rate": 2.38e-06,
	"loss": 14.025,
	"mean_token_accuracy": 0.7762446004897356,
	"num_tokens": 3394170.0,
	"step": 120
	},
	{
	"entropy": 0.8509209487587214,
	"epoch": 0.208,
	"grad_norm": 30.0,
	"learning_rate": 2.5800000000000003e-06,
	"loss": 13.8558,
	"mean_token_accuracy": 0.7793015491217374,
	"num_tokens": 3673600.0,
	"step": 130
	},
	{
	"entropy": 0.8540813602507115,
	"epoch": 0.224,
	"grad_norm": 30.125,
	"learning_rate": 2.7800000000000005e-06,
	"loss": 13.8247,
	"mean_token_accuracy": 0.7789989039301872,
	"num_tokens": 3953732.0,
	"step": 140
	},
	{
	"entropy": 0.8311325689777732,
	"epoch": 0.24,
	"grad_norm": 30.25,
	"learning_rate": 2.9800000000000003e-06,
	"loss": 13.4688,
	"mean_token_accuracy": 0.7846441507339478,
	"num_tokens": 4243655.0,
	"step": 150
	},
	{
	"entropy": 0.8143093746155501,
	"epoch": 0.256,
	"grad_norm": 27.625,
	"learning_rate": 3.1800000000000005e-06,
	"loss": 13.0712,
	"mean_token_accuracy": 0.7881167802959681,
	"num_tokens": 4531471.0,
	"step": 160
	},
	{
	"entropy": 0.8313567344099283,
	"epoch": 0.272,
	"grad_norm": 24.0,
	"learning_rate": 3.3800000000000007e-06,
	"loss": 13.3645,
	"mean_token_accuracy": 0.7852793108671904,
	"num_tokens": 4810284.0,
	"step": 170
	},
	{
	"entropy": 0.8148340426385403,
	"epoch": 0.288,
	"grad_norm": 26.375,
	"learning_rate": 3.58e-06,
	"loss": 13.0548,
	"mean_token_accuracy": 0.7882425185292959,
	"num_tokens": 5095104.0,
	"step": 180
	},
	{
	"entropy": 0.8263534324243664,
	"epoch": 0.304,
	"grad_norm": 25.125,
	"learning_rate": 3.7800000000000002e-06,
	"loss": 13.2184,
	"mean_token_accuracy": 0.7860081434249878,
	"num_tokens": 5383732.0,
	"step": 190
	},
	{
	"entropy": 0.7958642322570085,
	"epoch": 0.32,
	"grad_norm": 23.75,
	"learning_rate": 3.980000000000001e-06,
	"loss": 12.7072,
	"mean_token_accuracy": 0.7937722463160753,
	"num_tokens": 5676334.0,
	"step": 200
	},
	{
	"epoch": 0.32,
	"eval_biology_entropy": 1.1982407326698303,
	"eval_biology_loss": 1.1808913946151733,
	"eval_biology_mean_token_accuracy": 0.6998598065376281,
	"eval_biology_num_tokens": 5676334.0,
	"eval_biology_runtime": 19.7103,
	"eval_biology_samples_per_second": 25.367,
	"eval_biology_steps_per_second": 6.342,
	"step": 200
	},
	{
	"epoch": 0.32,
	"eval_math_entropy": 0.8109114770889282,
	"eval_math_loss": 0.822318971157074,
	"eval_math_mean_token_accuracy": 0.7874419956207276,
	"eval_math_num_tokens": 5676334.0,
	"eval_math_runtime": 24.5627,
	"eval_math_samples_per_second": 20.356,
	"eval_math_steps_per_second": 5.089,
	"step": 200
	},
	{
	"entropy": 0.8209991015493869,
	"epoch": 0.336,
	"grad_norm": 23.375,
	"learning_rate": 4.18e-06,
	"loss": 13.1713,
	"mean_token_accuracy": 0.78699039965868,
	"num_tokens": 5958480.0,
	"step": 210
	},
	{
	"entropy": 0.7989038350060582,
	"epoch": 0.352,
	"grad_norm": 25.0,
	"learning_rate": 4.38e-06,
	"loss": 12.7482,
	"mean_token_accuracy": 0.7930307753384114,
	"num_tokens": 6242161.0,
	"step": 220
	},
	{
	"entropy": 0.7915343299508095,
	"epoch": 0.368,
	"grad_norm": 24.875,
	"learning_rate": 4.58e-06,
	"loss": 12.6757,
	"mean_token_accuracy": 0.7925275303423405,
	"num_tokens": 6523679.0,
	"step": 230
	},
	{
	"entropy": 0.7743825454264879,
	"epoch": 0.384,
	"grad_norm": 23.375,
	"learning_rate": 4.78e-06,
	"loss": 12.3704,
	"mean_token_accuracy": 0.79692403934896,
	"num_tokens": 6810978.0,
	"step": 240
	},
	{
	"entropy": 0.8141555316746235,
	"epoch": 0.4,
	"grad_norm": 24.125,
	"learning_rate": 4.980000000000001e-06,
	"loss": 13.0618,
	"mean_token_accuracy": 0.7885617177933455,
	"num_tokens": 7096903.0,
	"step": 250
	},
	{
	"entropy": 0.7800503006204963,
	"epoch": 0.416,
	"grad_norm": 22.25,
	"learning_rate": 5.18e-06,
	"loss": 12.498,
	"mean_token_accuracy": 0.7941101636737585,
	"num_tokens": 7377181.0,
	"step": 260
	},
	{
	"entropy": 0.7713520534336566,
	"epoch": 0.432,
	"grad_norm": 25.625,
	"learning_rate": 5.380000000000001e-06,
	"loss": 12.2429,
	"mean_token_accuracy": 0.798516258224845,
	"num_tokens": 7650523.0,
	"step": 270
	},
	{
	"entropy": 0.767449575662613,
	"epoch": 0.448,
	"grad_norm": 24.875,
	"learning_rate": 5.580000000000001e-06,
	"loss": 12.2843,
	"mean_token_accuracy": 0.7973004225641489,
	"num_tokens": 7936788.0,
	"step": 280
	},
	{
	"entropy": 0.7630951976403594,
	"epoch": 0.464,
	"grad_norm": 21.375,
	"learning_rate": 5.78e-06,
	"loss": 12.2689,
	"mean_token_accuracy": 0.7984702557325363,
	"num_tokens": 8223147.0,
	"step": 290
	},
	{
	"entropy": 0.7839587140828371,
	"epoch": 0.48,
	"grad_norm": 22.125,
	"learning_rate": 5.98e-06,
	"loss": 12.4483,
	"mean_token_accuracy": 0.7962926685810089,
	"num_tokens": 8506030.0,
	"step": 300
	},
	{
	"epoch": 0.48,
	"eval_biology_entropy": 1.2097046246528627,
	"eval_biology_loss": 1.1880755424499512,
	"eval_biology_mean_token_accuracy": 0.6989095420837402,
	"eval_biology_num_tokens": 8506030.0,
	"eval_biology_runtime": 19.7532,
	"eval_biology_samples_per_second": 25.312,
	"eval_biology_steps_per_second": 6.328,
	"step": 300
	},
	{
	"epoch": 0.48,
	"eval_math_entropy": 0.7799157240390777,
	"eval_math_loss": 0.7781939506530762,
	"eval_math_mean_token_accuracy": 0.7959079008102417,
	"eval_math_num_tokens": 8506030.0,
	"eval_math_runtime": 24.5905,
	"eval_math_samples_per_second": 20.333,
	"eval_math_steps_per_second": 5.083,
	"step": 300
	},
	{
	"entropy": 0.7540466286242008,
	"epoch": 0.496,
	"grad_norm": 24.375,
	"learning_rate": 6.18e-06,
	"loss": 12.0453,
	"mean_token_accuracy": 0.8007366862148046,
	"num_tokens": 8788726.0,
	"step": 310
	},
	{
	"entropy": 0.7493760107085109,
	"epoch": 0.512,
	"grad_norm": 24.0,
	"learning_rate": 6.380000000000001e-06,
	"loss": 11.9382,
	"mean_token_accuracy": 0.8025602623820305,
	"num_tokens": 9078039.0,
	"step": 320
	},
	{
	"entropy": 0.7366351887583733,
	"epoch": 0.528,
	"grad_norm": 23.0,
	"learning_rate": 6.5800000000000005e-06,
	"loss": 11.7509,
	"mean_token_accuracy": 0.8059428248554468,
	"num_tokens": 9373860.0,
	"step": 330
	},
	{
	"entropy": 0.7388057533651591,
	"epoch": 0.544,
	"grad_norm": 24.125,
	"learning_rate": 6.780000000000001e-06,
	"loss": 11.827,
	"mean_token_accuracy": 0.8040345013141632,
	"num_tokens": 9660940.0,
	"step": 340
	},
	{
	"entropy": 0.7601569008082152,
	"epoch": 0.56,
	"grad_norm": 26.625,
	"learning_rate": 6.98e-06,
	"loss": 12.1324,
	"mean_token_accuracy": 0.797855831682682,
	"num_tokens": 9932302.0,
	"step": 350
	},
	{
	"entropy": 0.7458819771185518,
	"epoch": 0.576,
	"grad_norm": 22.375,
	"learning_rate": 7.180000000000001e-06,
	"loss": 11.9451,
	"mean_token_accuracy": 0.8013740532100201,
	"num_tokens": 10215462.0,
	"step": 360
	},
	{
	"entropy": 0.7404385067522525,
	"epoch": 0.592,
	"grad_norm": 21.625,
	"learning_rate": 7.3800000000000005e-06,
	"loss": 11.8309,
	"mean_token_accuracy": 0.802900119498372,
	"num_tokens": 10504396.0,
	"step": 370
	},
	{
	"entropy": 0.7532710742205382,
	"epoch": 0.608,
	"grad_norm": 27.75,
	"learning_rate": 7.58e-06,
	"loss": 12.0281,
	"mean_token_accuracy": 0.801684994623065,
	"num_tokens": 10793126.0,
	"step": 380
	},
	{
	"entropy": 0.7331796364858747,
	"epoch": 0.624,
	"grad_norm": 21.25,
	"learning_rate": 7.78e-06,
	"loss": 11.697,
	"mean_token_accuracy": 0.8045222193002701,
	"num_tokens": 11081768.0,
	"step": 390
	},
	{
	"entropy": 0.7177777705714107,
	"epoch": 0.64,
	"grad_norm": 20.0,
	"learning_rate": 7.980000000000002e-06,
	"loss": 11.4977,
	"mean_token_accuracy": 0.8074667323380709,
	"num_tokens": 11370320.0,
	"step": 400
	},
	{
	"epoch": 0.64,
	"eval_biology_entropy": 1.199187099456787,
	"eval_biology_loss": 1.194938063621521,
	"eval_biology_mean_token_accuracy": 0.6980597639083862,
	"eval_biology_num_tokens": 11370320.0,
	"eval_biology_runtime": 19.7518,
	"eval_biology_samples_per_second": 25.314,
	"eval_biology_steps_per_second": 6.329,
	"step": 400
	},
	{
	"epoch": 0.64,
	"eval_math_entropy": 0.7331400663852692,
	"eval_math_loss": 0.746539831161499,
	"eval_math_mean_token_accuracy": 0.8015342946052552,
	"eval_math_num_tokens": 11370320.0,
	"eval_math_runtime": 24.6063,
	"eval_math_samples_per_second": 20.32,
	"eval_math_steps_per_second": 5.08,
	"step": 400
	},
	{
	"entropy": 0.7210552679374814,
	"epoch": 0.656,
	"grad_norm": 20.75,
	"learning_rate": 8.18e-06,
	"loss": 11.4447,
	"mean_token_accuracy": 0.8082952104508877,
	"num_tokens": 11657835.0,
	"step": 410
	},
	{
	"entropy": 0.7324020706117154,
	"epoch": 0.672,
	"grad_norm": 22.5,
	"learning_rate": 8.380000000000001e-06,
	"loss": 11.7039,
	"mean_token_accuracy": 0.8040592070668936,
	"num_tokens": 11949262.0,
	"step": 420
	},
	{
	"entropy": 0.7221599837765098,
	"epoch": 0.688,
	"grad_norm": 19.5,
	"learning_rate": 8.580000000000001e-06,
	"loss": 11.5232,
	"mean_token_accuracy": 0.8065517093986273,
	"num_tokens": 12227640.0,
	"step": 430
	},
	{
	"entropy": 0.7129955545067788,
	"epoch": 0.704,
	"grad_norm": 19.0,
	"learning_rate": 8.78e-06,
	"loss": 11.4179,
	"mean_token_accuracy": 0.8087377645075321,
	"num_tokens": 12516641.0,
	"step": 440
	},
	{
	"entropy": 0.7289297079667449,
	"epoch": 0.72,
	"grad_norm": 23.125,
	"learning_rate": 8.98e-06,
	"loss": 11.5855,
	"mean_token_accuracy": 0.8067171189934015,
	"num_tokens": 12793343.0,
	"step": 450
	},
	{
	"entropy": 0.7121220523491502,
	"epoch": 0.736,
	"grad_norm": 21.0,
	"learning_rate": 9.180000000000002e-06,
	"loss": 11.3422,
	"mean_token_accuracy": 0.8094062607735395,
	"num_tokens": 13077981.0,
	"step": 460
	},
	{
	"entropy": 0.6984126020222903,
	"epoch": 0.752,
	"grad_norm": 18.625,
	"learning_rate": 9.38e-06,
	"loss": 11.0848,
	"mean_token_accuracy": 0.811941733583808,
	"num_tokens": 13358957.0,
	"step": 470
	},
	{
	"entropy": 0.677340486086905,
	"epoch": 0.768,
	"grad_norm": 20.875,
	"learning_rate": 9.58e-06,
	"loss": 10.8164,
	"mean_token_accuracy": 0.8181491158902645,
	"num_tokens": 13653412.0,
	"step": 480
	},
	{
	"entropy": 0.717779103666544,
	"epoch": 0.784,
	"grad_norm": 20.875,
	"learning_rate": 9.780000000000001e-06,
	"loss": 11.5008,
	"mean_token_accuracy": 0.8082873310893774,
	"num_tokens": 13940856.0,
	"step": 490
	},
	{
	"entropy": 0.7195664433762431,
	"epoch": 0.8,
	"grad_norm": 18.625,
	"learning_rate": 9.980000000000001e-06,
	"loss": 11.4516,
	"mean_token_accuracy": 0.8075944270938635,
	"num_tokens": 14230754.0,
	"step": 500
	},
	{
	"epoch": 0.8,
	"eval_biology_entropy": 1.2116008014678956,
	"eval_biology_loss": 1.1978343725204468,
	"eval_biology_mean_token_accuracy": 0.6975936050415039,
	"eval_biology_num_tokens": 14230754.0,
	"eval_biology_runtime": 19.7814,
	"eval_biology_samples_per_second": 25.276,
	"eval_biology_steps_per_second": 6.319,
	"step": 500
	},
	{
	"epoch": 0.8,
	"eval_math_entropy": 0.7416743865013122,
	"eval_math_loss": 0.7205922603607178,
	"eval_math_mean_token_accuracy": 0.8071010875701904,
	"eval_math_num_tokens": 14230754.0,
	"eval_math_runtime": 24.6035,
	"eval_math_samples_per_second": 20.322,
	"eval_math_steps_per_second": 5.081,
	"step": 500
	},
	{
	"entropy": 0.7075521990656852,
	"epoch": 0.816,
	"grad_norm": 19.875,
	"learning_rate": 1.018e-05,
	"loss": 11.2548,
	"mean_token_accuracy": 0.8095884408801794,
	"num_tokens": 14519893.0,
	"step": 510
	},
	{
	"entropy": 0.6945433892309666,
	"epoch": 0.832,
	"grad_norm": 19.375,
	"learning_rate": 1.038e-05,
	"loss": 11.0849,
	"mean_token_accuracy": 0.8136709745973348,
	"num_tokens": 14805088.0,
	"step": 520
	},
	{
	"entropy": 0.7229658916592598,
	"epoch": 0.848,
	"grad_norm": 21.625,
	"learning_rate": 1.0580000000000002e-05,
	"loss": 11.4838,
	"mean_token_accuracy": 0.8065179891884326,
	"num_tokens": 15086306.0,
	"step": 530
	},
	{
	"entropy": 0.7076279081404209,
	"epoch": 0.864,
	"grad_norm": 18.25,
	"learning_rate": 1.0780000000000002e-05,
	"loss": 11.2928,
	"mean_token_accuracy": 0.8091448776423931,
	"num_tokens": 15370985.0,
	"step": 540
	},
	{
	"entropy": 0.7115106744691729,
	"epoch": 0.88,
	"grad_norm": 18.5,
	"learning_rate": 1.0980000000000002e-05,
	"loss": 11.3236,
	"mean_token_accuracy": 0.8087493713945151,
	"num_tokens": 15653836.0,
	"step": 550
	},
	{
	"entropy": 0.7007610065862536,
	"epoch": 0.896,
	"grad_norm": 19.25,
	"learning_rate": 1.1180000000000001e-05,
	"loss": 11.1858,
	"mean_token_accuracy": 0.8117571648210287,
	"num_tokens": 15932179.0,
	"step": 560
	},
	{
	"entropy": 0.689027976989746,
	"epoch": 0.912,
	"grad_norm": 19.0,
	"learning_rate": 1.138e-05,
	"loss": 11.0305,
	"mean_token_accuracy": 0.8121056731790304,
	"num_tokens": 16219842.0,
	"step": 570
	},
	{
	"entropy": 0.6829117186367512,
	"epoch": 0.928,
	"grad_norm": 17.75,
	"learning_rate": 1.1580000000000001e-05,
	"loss": 10.8991,
	"mean_token_accuracy": 0.814700061455369,
	"num_tokens": 16499842.0,
	"step": 580
	},
	{
	"entropy": 0.6976756127551198,
	"epoch": 0.944,
	"grad_norm": 33.5,
	"learning_rate": 1.178e-05,
	"loss": 11.1931,
	"mean_token_accuracy": 0.8115118339657783,
	"num_tokens": 16781882.0,
	"step": 590
	},
	{
	"entropy": 0.7033443799242377,
	"epoch": 0.96,
	"grad_norm": 16.75,
	"learning_rate": 1.198e-05,
	"loss": 11.1514,
	"mean_token_accuracy": 0.8120843637734652,
	"num_tokens": 17067407.0,
	"step": 600
	},
	{
	"epoch": 0.96,
	"eval_biology_entropy": 1.186503161907196,
	"eval_biology_loss": 1.2035058736801147,
	"eval_biology_mean_token_accuracy": 0.6964959187507629,
	"eval_biology_num_tokens": 17067407.0,
	"eval_biology_runtime": 20.0132,
	"eval_biology_samples_per_second": 24.983,
	"eval_biology_steps_per_second": 6.246,
	"step": 600
	},
	{
	"epoch": 0.96,
	"eval_math_entropy": 0.7170893518924714,
	"eval_math_loss": 0.7009586095809937,
	"eval_math_mean_token_accuracy": 0.8111450595855713,
	"eval_math_num_tokens": 17067407.0,
	"eval_math_runtime": 24.6137,
	"eval_math_samples_per_second": 20.314,
	"eval_math_steps_per_second": 5.078,
	"step": 600
	},
	{
	"entropy": 0.6821664813905954,
	"epoch": 0.976,
	"grad_norm": 22.0,
	"learning_rate": 1.218e-05,
	"loss": 10.9331,
	"mean_token_accuracy": 0.8155146226286888,
	"num_tokens": 17350994.0,
	"step": 610
	},
	{
	"entropy": 0.7061214720830321,
	"epoch": 0.992,
	"grad_norm": 21.375,
	"learning_rate": 1.2380000000000002e-05,
	"loss": 11.2138,
	"mean_token_accuracy": 0.8097808599472046,
	"num_tokens": 17637514.0,
	"step": 620
	},
	{
	"entropy": 0.688976364955306,
	"epoch": 1.008,
	"grad_norm": 18.75,
	"learning_rate": 1.2580000000000002e-05,
	"loss": 10.9803,
	"mean_token_accuracy": 0.8123320799320937,
	"num_tokens": 17926570.0,
	"step": 630
	},
	{
	"entropy": 0.66466862000525,
	"epoch": 1.024,
	"grad_norm": 17.625,
	"learning_rate": 1.2780000000000001e-05,
	"loss": 10.6644,
	"mean_token_accuracy": 0.8173153955489397,
	"num_tokens": 18207652.0,
	"step": 640
	},
	{
	"entropy": 0.6729175634682178,
	"epoch": 1.04,
	"grad_norm": 18.5,
	"learning_rate": 1.2980000000000001e-05,
	"loss": 10.5877,
	"mean_token_accuracy": 0.8187220424413681,
	"num_tokens": 18484931.0,
	"step": 650
	},
	{
	"entropy": 0.6688125738874078,
	"epoch": 1.056,
	"grad_norm": 30.0,
	"learning_rate": 1.3180000000000001e-05,
	"loss": 10.7513,
	"mean_token_accuracy": 0.8168547667562962,
	"num_tokens": 18773457.0,
	"step": 660
	},
	{
	"entropy": 0.677242561429739,
	"epoch": 1.072,
	"grad_norm": 21.0,
	"learning_rate": 1.3380000000000002e-05,
	"loss": 10.7823,
	"mean_token_accuracy": 0.8151846762746573,
	"num_tokens": 19055365.0,
	"step": 670
	},
	{
	"entropy": 0.6669268727302551,
	"epoch": 1.088,
	"grad_norm": 18.5,
	"learning_rate": 1.3580000000000002e-05,
	"loss": 10.6585,
	"mean_token_accuracy": 0.8173960983753205,
	"num_tokens": 19345730.0,
	"step": 680
	},
	{
	"entropy": 0.6672801608219743,
	"epoch": 1.104,
	"grad_norm": 16.5,
	"learning_rate": 1.378e-05,
	"loss": 10.6607,
	"mean_token_accuracy": 0.8167301990091801,
	"num_tokens": 19637390.0,
	"step": 690
	},
	{
	"entropy": 0.6486887495964766,
	"epoch": 1.12,
	"grad_norm": 17.375,
	"learning_rate": 1.398e-05,
	"loss": 10.3743,
	"mean_token_accuracy": 0.8213667117059231,
	"num_tokens": 19923914.0,
	"step": 700
	},
	{
	"epoch": 1.12,
	"eval_biology_entropy": 1.1550931658744812,
	"eval_biology_loss": 1.2134206295013428,
	"eval_biology_mean_token_accuracy": 0.6951225929260254,
	"eval_biology_num_tokens": 19923914.0,
	"eval_biology_runtime": 19.789,
	"eval_biology_samples_per_second": 25.267,
	"eval_biology_steps_per_second": 6.317,
	"step": 700
	},
	{
	"epoch": 1.12,
	"eval_math_entropy": 0.6779097893238067,
	"eval_math_loss": 0.687623143196106,
	"eval_math_mean_token_accuracy": 0.8132782921791076,
	"eval_math_num_tokens": 19923914.0,
	"eval_math_runtime": 24.5984,
	"eval_math_samples_per_second": 20.327,
	"eval_math_steps_per_second": 5.082,
	"step": 700
	},
	{
	"entropy": 0.6534717444330453,
	"epoch": 1.1360000000000001,
	"grad_norm": 18.625,
	"learning_rate": 1.418e-05,
	"loss": 10.4612,
	"mean_token_accuracy": 0.8200784765183926,
	"num_tokens": 20201892.0,
	"step": 710
	},
	{
	"entropy": 0.6626596201211215,
	"epoch": 1.152,
	"grad_norm": 17.375,
	"learning_rate": 1.4380000000000001e-05,
	"loss": 10.6065,
	"mean_token_accuracy": 0.8195517498999834,
	"num_tokens": 20490282.0,
	"step": 720
	},
	{
	"entropy": 0.6553794769570231,
	"epoch": 1.168,
	"grad_norm": 16.875,
	"learning_rate": 1.4580000000000001e-05,
	"loss": 10.4507,
	"mean_token_accuracy": 0.8203363090753555,
	"num_tokens": 20785786.0,
	"step": 730
	},
	{
	"entropy": 0.6596008328720927,
	"epoch": 1.184,
	"grad_norm": 16.75,
	"learning_rate": 1.478e-05,
	"loss": 10.4924,
	"mean_token_accuracy": 0.8198904592543841,
	"num_tokens": 21074205.0,
	"step": 740
	},
	{
	"entropy": 0.6442235017195344,
	"epoch": 1.2,
	"grad_norm": 17.75,
	"learning_rate": 1.498e-05,
	"loss": 10.3329,
	"mean_token_accuracy": 0.8222478657960892,
	"num_tokens": 21369159.0,
	"step": 750
	},
	{
	"entropy": 0.6584161130711437,
	"epoch": 1.216,
	"grad_norm": 17.75,
	"learning_rate": 1.5180000000000002e-05,
	"loss": 10.4952,
	"mean_token_accuracy": 0.8194109592586756,
	"num_tokens": 21649178.0,
	"step": 760
	},
	{
	"entropy": 0.6401060940697789,
	"epoch": 1.232,
	"grad_norm": 17.875,
	"learning_rate": 1.5380000000000002e-05,
	"loss": 10.2162,
	"mean_token_accuracy": 0.8237158339470625,
	"num_tokens": 21930239.0,
	"step": 770
	},
	{
	"entropy": 0.6497831366956234,
	"epoch": 1.248,
	"grad_norm": 17.375,
	"learning_rate": 1.5580000000000003e-05,
	"loss": 10.3038,
	"mean_token_accuracy": 0.8218781109899282,
	"num_tokens": 22216387.0,
	"step": 780
	},
	{
	"entropy": 0.6619962759315967,
	"epoch": 1.264,
	"grad_norm": 17.5,
	"learning_rate": 1.578e-05,
	"loss": 10.6292,
	"mean_token_accuracy": 0.8176151167601347,
	"num_tokens": 22501002.0,
	"step": 790
	},
	{
	"entropy": 0.6531268676742912,
	"epoch": 1.28,
	"grad_norm": 17.0,
	"learning_rate": 1.5980000000000003e-05,
	"loss": 10.4508,
	"mean_token_accuracy": 0.8208171010017395,
	"num_tokens": 22779682.0,
	"step": 800
	},
	{
	"epoch": 1.28,
	"eval_biology_entropy": 1.195213288784027,
	"eval_biology_loss": 1.2141798734664917,
	"eval_biology_mean_token_accuracy": 0.6942030134201049,
	"eval_biology_num_tokens": 22779682.0,
	"eval_biology_runtime": 19.7104,
	"eval_biology_samples_per_second": 25.367,
	"eval_biology_steps_per_second": 6.342,
	"step": 800
	},
	{
	"epoch": 1.28,
	"eval_math_entropy": 0.6831141312122345,
	"eval_math_loss": 0.6743567585945129,
	"eval_math_mean_token_accuracy": 0.8159358091354371,
	"eval_math_num_tokens": 22779682.0,
	"eval_math_runtime": 24.5582,
	"eval_math_samples_per_second": 20.36,
	"eval_math_steps_per_second": 5.09,
	"step": 800
	},
	{
	"entropy": 0.6429138701409102,
	"epoch": 1.296,
	"grad_norm": 17.125,
	"learning_rate": 1.618e-05,
	"loss": 10.2614,
	"mean_token_accuracy": 0.8221869930624962,
	"num_tokens": 23057744.0,
	"step": 810
	},
	{
	"entropy": 0.6462734818458558,
	"epoch": 1.312,
	"grad_norm": 20.75,
	"learning_rate": 1.638e-05,
	"loss": 10.4226,
	"mean_token_accuracy": 0.8203614544123411,
	"num_tokens": 23344644.0,
	"step": 820
	},
	{
	"entropy": 0.6614464454352855,
	"epoch": 1.328,
	"grad_norm": 17.75,
	"learning_rate": 1.658e-05,
	"loss": 10.5671,
	"mean_token_accuracy": 0.8176218140870333,
	"num_tokens": 23622405.0,
	"step": 830
	},
	{
	"entropy": 0.6431225946173071,
	"epoch": 1.3439999999999999,
	"grad_norm": 15.25,
	"learning_rate": 1.6780000000000002e-05,
	"loss": 10.2817,
	"mean_token_accuracy": 0.8216937210410833,
	"num_tokens": 23899771.0,
	"step": 840
	},
	{
	"entropy": 0.6422285752370953,
	"epoch": 1.3599999999999999,
	"grad_norm": 15.9375,
	"learning_rate": 1.698e-05,
	"loss": 10.2688,
	"mean_token_accuracy": 0.8234549313783646,
	"num_tokens": 24187023.0,
	"step": 850
	},
	{
	"entropy": 0.6847162164747715,
	"epoch": 1.376,
	"grad_norm": 17.25,
	"learning_rate": 1.718e-05,
	"loss": 10.9876,
	"mean_token_accuracy": 0.81151960529387,
	"num_tokens": 24466132.0,
	"step": 860
	},
	{
	"entropy": 0.6464430714026094,
	"epoch": 1.392,
	"grad_norm": 16.25,
	"learning_rate": 1.7380000000000003e-05,
	"loss": 10.3124,
	"mean_token_accuracy": 0.821755214035511,
	"num_tokens": 24748043.0,
	"step": 870
	},
	{
	"entropy": 0.6374656381085515,
	"epoch": 1.408,
	"grad_norm": 17.125,
	"learning_rate": 1.758e-05,
	"loss": 10.1759,
	"mean_token_accuracy": 0.823258052393794,
	"num_tokens": 25036674.0,
	"step": 880
	},
	{
	"entropy": 0.6316773502156139,
	"epoch": 1.424,
	"grad_norm": 16.375,
	"learning_rate": 1.7780000000000003e-05,
	"loss": 10.1508,
	"mean_token_accuracy": 0.8241602942347527,
	"num_tokens": 25324579.0,
	"step": 890
	},
	{
	"entropy": 0.6475198846310377,
	"epoch": 1.44,
	"grad_norm": 18.125,
	"learning_rate": 1.798e-05,
	"loss": 10.3668,
	"mean_token_accuracy": 0.8207426533102989,
	"num_tokens": 25606824.0,
	"step": 900
	},
	{
	"epoch": 1.44,
	"eval_biology_entropy": 1.1267103943824768,
	"eval_biology_loss": 1.223482370376587,
	"eval_biology_mean_token_accuracy": 0.6937152419090271,
	"eval_biology_num_tokens": 25606824.0,
	"eval_biology_runtime": 19.7672,
	"eval_biology_samples_per_second": 25.294,
	"eval_biology_steps_per_second": 6.324,
	"step": 900
	},
	{
	"epoch": 1.44,
	"eval_math_entropy": 0.65911474609375,
	"eval_math_loss": 0.6649472713470459,
	"eval_math_mean_token_accuracy": 0.8173848538398742,
	"eval_math_num_tokens": 25606824.0,
	"eval_math_runtime": 24.6125,
	"eval_math_samples_per_second": 20.315,
	"eval_math_steps_per_second": 5.079,
	"step": 900
	},
	{
	"entropy": 0.6390923649072647,
	"epoch": 1.456,
	"grad_norm": 16.375,
	"learning_rate": 1.8180000000000002e-05,
	"loss": 10.2031,
	"mean_token_accuracy": 0.8223831083625555,
	"num_tokens": 25886396.0,
	"step": 910
	},
	{
	"entropy": 0.641916100680828,
	"epoch": 1.472,
	"grad_norm": 15.4375,
	"learning_rate": 1.8380000000000004e-05,
	"loss": 10.3424,
	"mean_token_accuracy": 0.8202576618641615,
	"num_tokens": 26163618.0,
	"step": 920
	},
	{
	"entropy": 0.662255228124559,
	"epoch": 1.488,
	"grad_norm": 17.5,
	"learning_rate": 1.858e-05,
	"loss": 10.5833,
	"mean_token_accuracy": 0.8174156688153744,
	"num_tokens": 26438338.0,
	"step": 930
	},
	{
	"entropy": 0.6319910818710923,
	"epoch": 1.504,
	"grad_norm": 17.5,
	"learning_rate": 1.878e-05,
	"loss": 10.1189,
	"mean_token_accuracy": 0.8249218709766865,
	"num_tokens": 26729255.0,
	"step": 940
	},
	{
	"entropy": 0.6524576544761658,
	"epoch": 1.52,
	"grad_norm": 15.6875,
	"learning_rate": 1.898e-05,
	"loss": 10.3845,
	"mean_token_accuracy": 0.8204564996063709,
	"num_tokens": 27017935.0,
	"step": 950
	},
	{
	"entropy": 0.6368671843782068,
	"epoch": 1.536,
	"grad_norm": 15.3125,
	"learning_rate": 1.918e-05,
	"loss": 10.2034,
	"mean_token_accuracy": 0.8228708405047656,
	"num_tokens": 27306339.0,
	"step": 960
	},
	{
	"entropy": 0.6371303182095289,
	"epoch": 1.552,
	"grad_norm": 16.5,
	"learning_rate": 1.938e-05,
	"loss": 10.1556,
	"mean_token_accuracy": 0.8237581226974726,
	"num_tokens": 27591959.0,
	"step": 970
	},
	{
	"entropy": 0.6189220814034343,
	"epoch": 1.568,
	"grad_norm": 15.4375,
	"learning_rate": 1.9580000000000002e-05,
	"loss": 9.9336,
	"mean_token_accuracy": 0.8277939360588789,
	"num_tokens": 27884398.0,
	"step": 980
	},
	{
	"entropy": 0.6375723648816347,
	"epoch": 1.584,
	"grad_norm": 15.3125,
	"learning_rate": 1.978e-05,
	"loss": 10.116,
	"mean_token_accuracy": 0.824637695401907,
	"num_tokens": 28171274.0,
	"step": 990
	},
	{
	"entropy": 0.631741807423532,
	"epoch": 1.6,
	"grad_norm": 16.125,
	"learning_rate": 1.9980000000000002e-05,
	"loss": 10.1091,
	"mean_token_accuracy": 0.8227341767400503,
	"num_tokens": 28457624.0,
	"step": 1000
	},
	{
	"epoch": 1.6,
	"eval_biology_entropy": 1.133832766532898,
	"eval_biology_loss": 1.2268259525299072,
	"eval_biology_mean_token_accuracy": 0.6920726819038391,
	"eval_biology_num_tokens": 28457624.0,
	"eval_biology_runtime": 19.738,
	"eval_biology_samples_per_second": 25.332,
	"eval_biology_steps_per_second": 6.333,
	"step": 1000
	},
	{
	"epoch": 1.6,
	"eval_math_entropy": 0.6353513326644897,
	"eval_math_loss": 0.6570390462875366,
	"eval_math_mean_token_accuracy": 0.8185423817634583,
	"eval_math_num_tokens": 28457624.0,
	"eval_math_runtime": 24.6162,
	"eval_math_samples_per_second": 20.312,
	"eval_math_steps_per_second": 5.078,
	"step": 1000
	},
	{
	"entropy": 0.6374903971329331,
	"epoch": 1.616,
	"grad_norm": 16.125,
	"learning_rate": 1.9980000000000002e-05,
	"loss": 10.264,
	"mean_token_accuracy": 0.8219246376305819,
	"num_tokens": 28743099.0,
	"step": 1010
	},
	{
	"entropy": 0.6523007312789559,
	"epoch": 1.6320000000000001,
	"grad_norm": 15.375,
	"learning_rate": 1.995777777777778e-05,
	"loss": 10.326,
	"mean_token_accuracy": 0.8201606553047895,
	"num_tokens": 29017297.0,
	"step": 1020
	},
	{
	"entropy": 0.629386986978352,
	"epoch": 1.6480000000000001,
	"grad_norm": 14.6875,
	"learning_rate": 1.9935555555555557e-05,
	"loss": 10.0254,
	"mean_token_accuracy": 0.8264750462025404,
	"num_tokens": 29303707.0,
	"step": 1030
	},
	{
	"entropy": 0.6322049422189593,
	"epoch": 1.6640000000000001,
	"grad_norm": 16.625,
	"learning_rate": 1.9913333333333335e-05,
	"loss": 10.1151,
	"mean_token_accuracy": 0.8231775060296058,
	"num_tokens": 29597156.0,
	"step": 1040
	},
	{
	"entropy": 0.6406657313928008,
	"epoch": 1.6800000000000002,
	"grad_norm": 14.0,
	"learning_rate": 1.9891111111111112e-05,
	"loss": 10.2285,
	"mean_token_accuracy": 0.8236899144947529,
	"num_tokens": 29883879.0,
	"step": 1050
	},
	{
	"entropy": 0.6394492890685797,
	"epoch": 1.696,
	"grad_norm": 16.5,
	"learning_rate": 1.986888888888889e-05,
	"loss": 10.2443,
	"mean_token_accuracy": 0.8218765918165445,
	"num_tokens": 30165760.0,
	"step": 1060
	},
	{
	"entropy": 0.6265557751059532,
	"epoch": 1.712,
	"grad_norm": 13.6875,
	"learning_rate": 1.9846666666666668e-05,
	"loss": 10.0545,
	"mean_token_accuracy": 0.82537433616817,
	"num_tokens": 30460367.0,
	"step": 1070
	},
	{
	"entropy": 0.6222736675292253,
	"epoch": 1.728,
	"grad_norm": 16.375,
	"learning_rate": 1.9824444444444445e-05,
	"loss": 9.8823,
	"mean_token_accuracy": 0.8277810603380203,
	"num_tokens": 30739137.0,
	"step": 1080
	},
	{
	"entropy": 0.6292094394564629,
	"epoch": 1.744,
	"grad_norm": 15.375,
	"learning_rate": 1.9802222222222226e-05,
	"loss": 10.0169,
	"mean_token_accuracy": 0.8262683913111687,
	"num_tokens": 31022663.0,
	"step": 1090
	},
	{
	"entropy": 0.6284451805055141,
	"epoch": 1.76,
	"grad_norm": 15.9375,
	"learning_rate": 1.978e-05,
	"loss": 10.033,
	"mean_token_accuracy": 0.8236148204654455,
	"num_tokens": 31306494.0,
	"step": 1100
	},
	{
	"epoch": 1.76,
	"eval_biology_entropy": 1.1596141772270203,
	"eval_biology_loss": 1.2293517589569092,
	"eval_biology_mean_token_accuracy": 0.6917372670173645,
	"eval_biology_num_tokens": 31306494.0,
	"eval_biology_runtime": 19.7887,
	"eval_biology_samples_per_second": 25.267,
	"eval_biology_steps_per_second": 6.317,
	"step": 1100
	},
	{
	"epoch": 1.76,
	"eval_math_entropy": 0.6379002649784088,
	"eval_math_loss": 0.6466652154922485,
	"eval_math_mean_token_accuracy": 0.8209902768135071,
	"eval_math_num_tokens": 31306494.0,
	"eval_math_runtime": 24.6327,
	"eval_math_samples_per_second": 20.298,
	"eval_math_steps_per_second": 5.075,
	"step": 1100
	},
	{
	"entropy": 0.625352057442069,
	"epoch": 1.776,
	"grad_norm": 14.25,
	"learning_rate": 1.975777777777778e-05,
	"loss": 10.0185,
	"mean_token_accuracy": 0.8257606349885463,
	"num_tokens": 31595542.0,
	"step": 1110
	},
	{
	"entropy": 0.6339781129732728,
	"epoch": 1.792,
	"grad_norm": 15.0625,
	"learning_rate": 1.9735555555555556e-05,
	"loss": 10.206,
	"mean_token_accuracy": 0.823058757558465,
	"num_tokens": 31881189.0,
	"step": 1120
	},
	{
	"entropy": 0.6271994180977345,
	"epoch": 1.808,
	"grad_norm": 14.0625,
	"learning_rate": 1.9713333333333337e-05,
	"loss": 10.0454,
	"mean_token_accuracy": 0.824696258828044,
	"num_tokens": 32164196.0,
	"step": 1130
	},
	{
	"entropy": 0.6018361985683441,
	"epoch": 1.8239999999999998,
	"grad_norm": 15.25,
	"learning_rate": 1.969111111111111e-05,
	"loss": 9.6036,
	"mean_token_accuracy": 0.8306465744972229,
	"num_tokens": 32441530.0,
	"step": 1140
	},
	{
	"entropy": 0.6176456701010465,
	"epoch": 1.8399999999999999,
	"grad_norm": 14.75,
	"learning_rate": 1.9668888888888892e-05,
	"loss": 9.9561,
	"mean_token_accuracy": 0.82696249820292,
	"num_tokens": 32723145.0,
	"step": 1150
	},
	{
	"entropy": 0.6277465337887407,
	"epoch": 1.8559999999999999,
	"grad_norm": 15.1875,
	"learning_rate": 1.9646666666666666e-05,
	"loss": 10.0615,
	"mean_token_accuracy": 0.8258139468729496,
	"num_tokens": 33011263.0,
	"step": 1160
	},
	{
	"entropy": 0.6127156307920814,
	"epoch": 1.8719999999999999,
	"grad_norm": 15.75,
	"learning_rate": 1.9624444444444447e-05,
	"loss": 9.8454,
	"mean_token_accuracy": 0.8283385183662176,
	"num_tokens": 33298921.0,
	"step": 1170
	},
	{
	"entropy": 0.626422967761755,
	"epoch": 1.888,
	"grad_norm": 16.25,
	"learning_rate": 1.9602222222222225e-05,
	"loss": 10.0059,
	"mean_token_accuracy": 0.8256520442664623,
	"num_tokens": 33576243.0,
	"step": 1180
	},
	{
	"entropy": 0.6264065893366932,
	"epoch": 1.904,
	"grad_norm": 15.4375,
	"learning_rate": 1.9580000000000002e-05,
	"loss": 9.9977,
	"mean_token_accuracy": 0.8253488805145025,
	"num_tokens": 33850968.0,
	"step": 1190
	},
	{
	"entropy": 0.6095137868076563,
	"epoch": 1.92,
	"grad_norm": 14.9375,
	"learning_rate": 1.955777777777778e-05,
	"loss": 9.7316,
	"mean_token_accuracy": 0.8285220514982938,
	"num_tokens": 34128558.0,
	"step": 1200
	},
	{
	"epoch": 1.92,
	"eval_biology_entropy": 1.182666036605835,
	"eval_biology_loss": 1.2319380044937134,
	"eval_biology_mean_token_accuracy": 0.6909053907394409,
	"eval_biology_num_tokens": 34128558.0,
	"eval_biology_runtime": 19.7849,
	"eval_biology_samples_per_second": 25.272,
	"eval_biology_steps_per_second": 6.318,
	"step": 1200
	},
	{
	"epoch": 1.92,
	"eval_math_entropy": 0.649978009223938,
	"eval_math_loss": 0.63917076587677,
	"eval_math_mean_token_accuracy": 0.8233149046897889,
	"eval_math_num_tokens": 34128558.0,
	"eval_math_runtime": 24.6175,
	"eval_math_samples_per_second": 20.311,
	"eval_math_steps_per_second": 5.078,
	"step": 1200
	},
	{
	"entropy": 0.6194202324375511,
	"epoch": 1.936,
	"grad_norm": 16.25,
	"learning_rate": 1.9535555555555557e-05,
	"loss": 9.9383,
	"mean_token_accuracy": 0.8252742733806372,
	"num_tokens": 34408056.0,
	"step": 1210
	},
	{
	"entropy": 0.6192464983090759,
	"epoch": 1.952,
	"grad_norm": 14.625,
	"learning_rate": 1.9513333333333335e-05,
	"loss": 9.7913,
	"mean_token_accuracy": 0.8282815985381603,
	"num_tokens": 34684679.0,
	"step": 1220
	},
	{
	"entropy": 0.6408920273184776,
	"epoch": 1.968,
	"grad_norm": 16.875,
	"learning_rate": 1.9491111111111113e-05,
	"loss": 10.1921,
	"mean_token_accuracy": 0.8224945243448019,
	"num_tokens": 34971038.0,
	"step": 1230
	},
	{
	"entropy": 0.6087088288739324,
	"epoch": 1.984,
	"grad_norm": 14.25,
	"learning_rate": 1.946888888888889e-05,
	"loss": 9.7506,
	"mean_token_accuracy": 0.8292552776634693,
	"num_tokens": 35262281.0,
	"step": 1240
	},
	{
	"entropy": 0.6189011264592409,
	"epoch": 2.0,
	"grad_norm": 14.5625,
	"learning_rate": 1.9446666666666668e-05,
	"loss": 9.8391,
	"mean_token_accuracy": 0.8280998166650534,
	"num_tokens": 35560864.0,
	"step": 1250
	},
	{
	"entropy": 0.5718940345570445,
	"epoch": 2.016,
	"grad_norm": 17.875,
	"learning_rate": 1.9424444444444446e-05,
	"loss": 8.9755,
	"mean_token_accuracy": 0.8381088264286518,
	"num_tokens": 35846704.0,
	"step": 1260
	},
	{
	"entropy": 0.5528001293540001,
	"epoch": 2.032,
	"grad_norm": 17.375,
	"learning_rate": 1.9402222222222223e-05,
	"loss": 8.7959,
	"mean_token_accuracy": 0.8400239538401365,
	"num_tokens": 36128775.0,
	"step": 1270
	},
	{
	"entropy": 0.5431115614250303,
	"epoch": 2.048,
	"grad_norm": 16.875,
	"learning_rate": 1.938e-05,
	"loss": 8.6342,
	"mean_token_accuracy": 0.8440989479422569,
	"num_tokens": 36419504.0,
	"step": 1280
	},
	{
	"entropy": 0.5422856478020549,
	"epoch": 2.064,
	"grad_norm": 16.125,
	"learning_rate": 1.935777777777778e-05,
	"loss": 8.6381,
	"mean_token_accuracy": 0.8434138212352991,
	"num_tokens": 36706816.0,
	"step": 1290
	},
	{
	"entropy": 0.5466266760602594,
	"epoch": 2.08,
	"grad_norm": 17.25,
	"learning_rate": 1.9335555555555556e-05,
	"loss": 8.6792,
	"mean_token_accuracy": 0.8412496495991946,
	"num_tokens": 36988475.0,
	"step": 1300
	},
	{
	"epoch": 2.08,
	"eval_biology_entropy": 0.9598336253166199,
	"eval_biology_loss": 1.2842097282409668,
	"eval_biology_mean_token_accuracy": 0.6866690034866333,
	"eval_biology_num_tokens": 36988475.0,
	"eval_biology_runtime": 19.8089,
	"eval_biology_samples_per_second": 25.241,
	"eval_biology_steps_per_second": 6.31,
	"step": 1300
	},
	{
	"epoch": 2.08,
	"eval_math_entropy": 0.5634605071544647,
	"eval_math_loss": 0.6450303792953491,
	"eval_math_mean_token_accuracy": 0.823544692993164,
	"eval_math_num_tokens": 36988475.0,
	"eval_math_runtime": 24.6182,
	"eval_math_samples_per_second": 20.31,
	"eval_math_steps_per_second": 5.078,
	"step": 1300
	},
	{
	"entropy": 0.5461967477574945,
	"epoch": 2.096,
	"grad_norm": 16.25,
	"learning_rate": 1.9313333333333334e-05,
	"loss": 8.7832,
	"mean_token_accuracy": 0.8421301823109388,
	"num_tokens": 37270131.0,
	"step": 1310
	},
	{
	"entropy": 0.5379752703011036,
	"epoch": 2.112,
	"grad_norm": 17.125,
	"learning_rate": 1.9291111111111115e-05,
	"loss": 8.6125,
	"mean_token_accuracy": 0.8422962158918381,
	"num_tokens": 37563537.0,
	"step": 1320
	},
	{
	"entropy": 0.5374840356409549,
	"epoch": 2.128,
	"grad_norm": 16.75,
	"learning_rate": 1.926888888888889e-05,
	"loss": 8.4982,
	"mean_token_accuracy": 0.8446350190788507,
	"num_tokens": 37843959.0,
	"step": 1330
	},
	{
	"entropy": 0.5455164171755313,
	"epoch": 2.144,
	"grad_norm": 16.375,
	"learning_rate": 1.924666666666667e-05,
	"loss": 8.6663,
	"mean_token_accuracy": 0.842664523050189,
	"num_tokens": 38133092.0,
	"step": 1340
	},
	{
	"entropy": 0.5403652492910623,
	"epoch": 2.16,
	"grad_norm": 15.0625,
	"learning_rate": 1.9224444444444444e-05,
	"loss": 8.6681,
	"mean_token_accuracy": 0.8432158157229424,
	"num_tokens": 38421229.0,
	"step": 1350
	},
	{
	"entropy": 0.5242220051586628,
	"epoch": 2.176,
	"grad_norm": 16.875,
	"learning_rate": 1.9202222222222225e-05,
	"loss": 8.3559,
	"mean_token_accuracy": 0.8481345418840647,
	"num_tokens": 38708043.0,
	"step": 1360
	},
	{
	"entropy": 0.552289474569261,
	"epoch": 2.192,
	"grad_norm": 16.25,
	"learning_rate": 1.918e-05,
	"loss": 8.8236,
	"mean_token_accuracy": 0.8398358784615993,
	"num_tokens": 38996930.0,
	"step": 1370
	},
	{
	"entropy": 0.5456716753542423,
	"epoch": 2.208,
	"grad_norm": 18.625,
	"learning_rate": 1.915777777777778e-05,
	"loss": 8.7515,
	"mean_token_accuracy": 0.8416260961443186,
	"num_tokens": 39279481.0,
	"step": 1380
	},
	{
	"entropy": 0.5409996012225747,
	"epoch": 2.224,
	"grad_norm": 17.5,
	"learning_rate": 1.9135555555555555e-05,
	"loss": 8.6161,
	"mean_token_accuracy": 0.843621500954032,
	"num_tokens": 39569030.0,
	"step": 1390
	},
	{
	"entropy": 0.5462250377982855,
	"epoch": 2.24,
	"grad_norm": 16.5,
	"learning_rate": 1.9113333333333336e-05,
	"loss": 8.7545,
	"mean_token_accuracy": 0.8413930989801883,
	"num_tokens": 39854873.0,
	"step": 1400
	},
	{
	"epoch": 2.24,
	"eval_biology_entropy": 0.9318458199501037,
	"eval_biology_loss": 1.3069241046905518,
	"eval_biology_mean_token_accuracy": 0.6855153131484986,
	"eval_biology_num_tokens": 39854873.0,
	"eval_biology_runtime": 19.7633,
	"eval_biology_samples_per_second": 25.299,
	"eval_biology_steps_per_second": 6.325,
	"step": 1400
	},
	{
	"epoch": 2.24,
	"eval_math_entropy": 0.5731087529659271,
	"eval_math_loss": 0.6433758735656738,
	"eval_math_mean_token_accuracy": 0.8230452270507812,
	"eval_math_num_tokens": 39854873.0,
	"eval_math_runtime": 24.8539,
	"eval_math_samples_per_second": 20.118,
	"eval_math_steps_per_second": 5.029,
	"step": 1400
	},
	{
	"entropy": 0.543942479789257,
	"epoch": 2.2560000000000002,
	"grad_norm": 16.875,
	"learning_rate": 1.9091111111111113e-05,
	"loss": 8.6955,
	"mean_token_accuracy": 0.8418730091303587,
	"num_tokens": 40141190.0,
	"step": 1410
	},
	{
	"entropy": 0.5582456098869443,
	"epoch": 2.2720000000000002,
	"grad_norm": 19.625,
	"learning_rate": 1.906888888888889e-05,
	"loss": 8.8471,
	"mean_token_accuracy": 0.8396125495433807,
	"num_tokens": 40415203.0,
	"step": 1420
	},
	{
	"entropy": 0.5530563285574317,
	"epoch": 2.288,
	"grad_norm": 17.875,
	"learning_rate": 1.904666666666667e-05,
	"loss": 8.823,
	"mean_token_accuracy": 0.8394552428275347,
	"num_tokens": 40702393.0,
	"step": 1430
	},
	{
	"entropy": 0.5304178670048714,
	"epoch": 2.304,
	"grad_norm": 18.0,
	"learning_rate": 1.9024444444444446e-05,
	"loss": 8.4621,
	"mean_token_accuracy": 0.8458537045866251,
	"num_tokens": 40982775.0,
	"step": 1440
	},
	{
	"entropy": 0.5507002430036664,
	"epoch": 2.32,
	"grad_norm": 17.25,
	"learning_rate": 1.9002222222222224e-05,
	"loss": 8.778,
	"mean_token_accuracy": 0.8414905358105897,
	"num_tokens": 41263356.0,
	"step": 1450
	},
	{
	"entropy": 0.5461155388504266,
	"epoch": 2.336,
	"grad_norm": 16.375,
	"learning_rate": 1.898e-05,
	"loss": 8.7082,
	"mean_token_accuracy": 0.8419744338840246,
	"num_tokens": 41545235.0,
	"step": 1460
	},
	{
	"entropy": 0.5644198174588382,
	"epoch": 2.352,
	"grad_norm": 17.0,
	"learning_rate": 1.895777777777778e-05,
	"loss": 9.0111,
	"mean_token_accuracy": 0.837278475239873,
	"num_tokens": 41833417.0,
	"step": 1470
	},
	{
	"entropy": 0.5465062925592065,
	"epoch": 2.368,
	"grad_norm": 16.625,
	"learning_rate": 1.8935555555555556e-05,
	"loss": 8.7822,
	"mean_token_accuracy": 0.8409049317240715,
	"num_tokens": 42117030.0,
	"step": 1480
	},
	{
	"entropy": 0.5634627625346184,
	"epoch": 2.384,
	"grad_norm": 17.0,
	"learning_rate": 1.8913333333333334e-05,
	"loss": 8.9984,
	"mean_token_accuracy": 0.8382249467074872,
	"num_tokens": 42410990.0,
	"step": 1490
	},
	{
	"entropy": 0.5541804760694504,
	"epoch": 2.4,
	"grad_norm": 19.125,
	"learning_rate": 1.8891111111111115e-05,
	"loss": 8.8381,
	"mean_token_accuracy": 0.8405785549432039,
	"num_tokens": 42691890.0,
	"step": 1500
	},
	{
	"epoch": 2.4,
	"eval_biology_entropy": 0.9389902620315552,
	"eval_biology_loss": 1.3136844635009766,
	"eval_biology_mean_token_accuracy": 0.6836875596046448,
	"eval_biology_num_tokens": 42691890.0,
	"eval_biology_runtime": 19.8044,
	"eval_biology_samples_per_second": 25.247,
	"eval_biology_steps_per_second": 6.312,
	"step": 1500
	},
	{
	"epoch": 2.4,
	"eval_math_entropy": 0.5745205206871032,
	"eval_math_loss": 0.6360605955123901,
	"eval_math_mean_token_accuracy": 0.824403573513031,
	"eval_math_num_tokens": 42691890.0,
	"eval_math_runtime": 24.8829,
	"eval_math_samples_per_second": 20.094,
	"eval_math_steps_per_second": 5.024,
	"step": 1500
	},
	{
	"entropy": 0.5681238017976284,
	"epoch": 2.416,
	"grad_norm": 17.375,
	"learning_rate": 1.886888888888889e-05,
	"loss": 9.0358,
	"mean_token_accuracy": 0.8371844127774238,
	"num_tokens": 42971588.0,
	"step": 1510
	},
	{
	"entropy": 0.5386728642508387,
	"epoch": 2.432,
	"grad_norm": 17.875,
	"learning_rate": 1.884666666666667e-05,
	"loss": 8.6841,
	"mean_token_accuracy": 0.8422587804496289,
	"num_tokens": 43253821.0,
	"step": 1520
	},
	{
	"entropy": 0.5443267293274403,
	"epoch": 2.448,
	"grad_norm": 18.125,
	"learning_rate": 1.8824444444444445e-05,
	"loss": 8.67,
	"mean_token_accuracy": 0.8435158774256706,
	"num_tokens": 43550902.0,
	"step": 1530
	},
	{
	"entropy": 0.5498035730794072,
	"epoch": 2.464,
	"grad_norm": 18.0,
	"learning_rate": 1.8802222222222226e-05,
	"loss": 8.7914,
	"mean_token_accuracy": 0.8404768038541078,
	"num_tokens": 43844259.0,
	"step": 1540
	},
	{
	"entropy": 0.5709992805495858,
	"epoch": 2.48,
	"grad_norm": 17.5,
	"learning_rate": 1.878e-05,
	"loss": 9.1217,
	"mean_token_accuracy": 0.8360334102064371,
	"num_tokens": 44115701.0,
	"step": 1550
	},
	{
	"entropy": 0.5559496510773897,
	"epoch": 2.496,
	"grad_norm": 17.125,
	"learning_rate": 1.875777777777778e-05,
	"loss": 8.8877,
	"mean_token_accuracy": 0.8398744653910398,
	"num_tokens": 44405520.0,
	"step": 1560
	},
	{
	"entropy": 0.5509569091722369,
	"epoch": 2.512,
	"grad_norm": 16.875,
	"learning_rate": 1.873555555555556e-05,
	"loss": 8.7783,
	"mean_token_accuracy": 0.8410256687551737,
	"num_tokens": 44686477.0,
	"step": 1570
	},
	{
	"entropy": 0.5495854092761874,
	"epoch": 2.528,
	"grad_norm": 16.0,
	"learning_rate": 1.8713333333333336e-05,
	"loss": 8.7681,
	"mean_token_accuracy": 0.8412394899874925,
	"num_tokens": 44969760.0,
	"step": 1580
	},
	{
	"entropy": 0.5426954831928015,
	"epoch": 2.544,
	"grad_norm": 17.375,
	"learning_rate": 1.8691111111111114e-05,
	"loss": 8.7142,
	"mean_token_accuracy": 0.8419138621538877,
	"num_tokens": 45255326.0,
	"step": 1590
	},
	{
	"entropy": 0.5427656076848507,
	"epoch": 2.56,
	"grad_norm": 16.75,
	"learning_rate": 1.866888888888889e-05,
	"loss": 8.6495,
	"mean_token_accuracy": 0.8414557803422212,
	"num_tokens": 45532525.0,
	"step": 1600
	},
	{
	"epoch": 2.56,
	"eval_biology_entropy": 0.9223047132492066,
	"eval_biology_loss": 1.3209964036941528,
	"eval_biology_mean_token_accuracy": 0.6842733683586121,
	"eval_biology_num_tokens": 45532525.0,
	"eval_biology_runtime": 19.7451,
	"eval_biology_samples_per_second": 25.323,
	"eval_biology_steps_per_second": 6.331,
	"step": 1600
	},
	{
	"epoch": 2.56,
	"eval_math_entropy": 0.5608251221179962,
	"eval_math_loss": 0.6343366503715515,
	"eval_math_mean_token_accuracy": 0.8256231875419616,
	"eval_math_num_tokens": 45532525.0,
	"eval_math_runtime": 24.5926,
	"eval_math_samples_per_second": 20.331,
	"eval_math_steps_per_second": 5.083,
	"step": 1600
	},
	{
	"entropy": 0.5462278285995126,
	"epoch": 2.576,
	"grad_norm": 17.375,
	"learning_rate": 1.864666666666667e-05,
	"loss": 8.7304,
	"mean_token_accuracy": 0.8419133082032204,
	"num_tokens": 45817478.0,
	"step": 1610
	},
	{
	"entropy": 0.5377364344894886,
	"epoch": 2.592,
	"grad_norm": 16.125,
	"learning_rate": 1.8624444444444446e-05,
	"loss": 8.6128,
	"mean_token_accuracy": 0.8431659761816264,
	"num_tokens": 46109575.0,
	"step": 1620
	},
	{
	"entropy": 0.5603145483881236,
	"epoch": 2.608,
	"grad_norm": 17.625,
	"learning_rate": 1.8602222222222224e-05,
	"loss": 8.926,
	"mean_token_accuracy": 0.8384825445711612,
	"num_tokens": 46391461.0,
	"step": 1630
	},
	{
	"entropy": 0.5244756257161498,
	"epoch": 2.624,
	"grad_norm": 16.0,
	"learning_rate": 1.858e-05,
	"loss": 8.3548,
	"mean_token_accuracy": 0.8485719878226519,
	"num_tokens": 46683117.0,
	"step": 1640
	},
	{
	"entropy": 0.5536964586004615,
	"epoch": 2.64,
	"grad_norm": 17.375,
	"learning_rate": 1.855777777777778e-05,
	"loss": 8.8373,
	"mean_token_accuracy": 0.839028225839138,
	"num_tokens": 46965534.0,
	"step": 1650
	},
	{
	"entropy": 0.5332709014415741,
	"epoch": 2.656,
	"grad_norm": 16.75,
	"learning_rate": 1.8535555555555557e-05,
	"loss": 8.4657,
	"mean_token_accuracy": 0.844694945588708,
	"num_tokens": 47245852.0,
	"step": 1660
	},
	{
	"entropy": 0.5504178514704108,
	"epoch": 2.672,
	"grad_norm": 18.0,
	"learning_rate": 1.8513333333333335e-05,
	"loss": 8.8108,
	"mean_token_accuracy": 0.8397566247731447,
	"num_tokens": 47524916.0,
	"step": 1670
	},
	{
	"entropy": 0.5476151436567307,
	"epoch": 2.6879999999999997,
	"grad_norm": 15.5,
	"learning_rate": 1.8491111111111112e-05,
	"loss": 8.7263,
	"mean_token_accuracy": 0.8412932168692351,
	"num_tokens": 47807131.0,
	"step": 1680
	},
	{
	"entropy": 0.5529261413961649,
	"epoch": 2.7039999999999997,
	"grad_norm": 16.75,
	"learning_rate": 1.846888888888889e-05,
	"loss": 8.8394,
	"mean_token_accuracy": 0.838797665014863,
	"num_tokens": 48099654.0,
	"step": 1690
	},
	{
	"entropy": 0.5456200305372476,
	"epoch": 2.7199999999999998,
	"grad_norm": 17.625,
	"learning_rate": 1.8446666666666667e-05,
	"loss": 8.6682,
	"mean_token_accuracy": 0.841873237863183,
	"num_tokens": 48375019.0,
	"step": 1700
	},
	{
	"epoch": 2.7199999999999998,
	"eval_biology_entropy": 0.9218110795021057,
	"eval_biology_loss": 1.3180720806121826,
	"eval_biology_mean_token_accuracy": 0.684489251613617,
	"eval_biology_num_tokens": 48375019.0,
	"eval_biology_runtime": 19.7671,
	"eval_biology_samples_per_second": 25.295,
	"eval_biology_steps_per_second": 6.324,
	"step": 1700
	},
	{
	"epoch": 2.7199999999999998,
	"eval_math_entropy": 0.5653176684379577,
	"eval_math_loss": 0.6293387413024902,
	"eval_math_mean_token_accuracy": 0.8265204019546509,
	"eval_math_num_tokens": 48375019.0,
	"eval_math_runtime": 24.6242,
	"eval_math_samples_per_second": 20.305,
	"eval_math_steps_per_second": 5.076,
	"step": 1700
	},
	{
	"entropy": 0.5463435992598533,
	"epoch": 2.7359999999999998,
	"grad_norm": 17.875,
	"learning_rate": 1.842444444444445e-05,
	"loss": 8.7467,
	"mean_token_accuracy": 0.8409269347786903,
	"num_tokens": 48659284.0,
	"step": 1710
	},
	{
	"entropy": 0.5540915697813034,
	"epoch": 2.752,
	"grad_norm": 16.625,
	"learning_rate": 1.8402222222222223e-05,
	"loss": 8.8179,
	"mean_token_accuracy": 0.8404988449066877,
	"num_tokens": 48943804.0,
	"step": 1720
	},
	{
	"entropy": 0.5476498136296868,
	"epoch": 2.768,
	"grad_norm": 15.75,
	"learning_rate": 1.8380000000000004e-05,
	"loss": 8.8006,
	"mean_token_accuracy": 0.841009271889925,
	"num_tokens": 49230939.0,
	"step": 1730
	},
	{
	"entropy": 0.5640784077346325,
	"epoch": 2.784,
	"grad_norm": 17.0,
	"learning_rate": 1.8357777777777778e-05,
	"loss": 9.005,
	"mean_token_accuracy": 0.8373467523604632,
	"num_tokens": 49504425.0,
	"step": 1740
	},
	{
	"entropy": 0.5430868171155453,
	"epoch": 2.8,
	"grad_norm": 17.25,
	"learning_rate": 1.833555555555556e-05,
	"loss": 8.6415,
	"mean_token_accuracy": 0.8431323904544115,
	"num_tokens": 49782661.0,
	"step": 1750
	},
	{
	"entropy": 0.5524541085585952,
	"epoch": 2.816,
	"grad_norm": 17.0,
	"learning_rate": 1.8313333333333333e-05,
	"loss": 8.7568,
	"mean_token_accuracy": 0.8402639802545309,
	"num_tokens": 50073632.0,
	"step": 1760
	},
	{
	"entropy": 0.5354580119252205,
	"epoch": 2.832,
	"grad_norm": 17.875,
	"learning_rate": 1.8291111111111114e-05,
	"loss": 8.632,
	"mean_token_accuracy": 0.8425567515194416,
	"num_tokens": 50356964.0,
	"step": 1770
	},
	{
	"entropy": 0.5553580898791551,
	"epoch": 2.848,
	"grad_norm": 15.625,
	"learning_rate": 1.8268888888888888e-05,
	"loss": 8.8708,
	"mean_token_accuracy": 0.8403212446719408,
	"num_tokens": 50644535.0,
	"step": 1780
	},
	{
	"entropy": 0.5478905290365219,
	"epoch": 2.864,
	"grad_norm": 18.375,
	"learning_rate": 1.824666666666667e-05,
	"loss": 8.7886,
	"mean_token_accuracy": 0.841050173342228,
	"num_tokens": 50925653.0,
	"step": 1790
	},
	{
	"entropy": 0.5450881006196141,
	"epoch": 2.88,
	"grad_norm": 16.625,
	"learning_rate": 1.8224444444444447e-05,
	"loss": 8.6642,
	"mean_token_accuracy": 0.84115383438766,
	"num_tokens": 51204374.0,
	"step": 1800
	},
	{
	"epoch": 2.88,
	"eval_biology_entropy": 0.9217254042625427,
	"eval_biology_loss": 1.3202892541885376,
	"eval_biology_mean_token_accuracy": 0.6841764874458313,
	"eval_biology_num_tokens": 51204374.0,
	"eval_biology_runtime": 19.813,
	"eval_biology_samples_per_second": 25.236,
	"eval_biology_steps_per_second": 6.309,
	"step": 1800
	},
	{
	"epoch": 2.88,
	"eval_math_entropy": 0.5681756961345673,
	"eval_math_loss": 0.6243875026702881,
	"eval_math_mean_token_accuracy": 0.8276074986457824,
	"eval_math_num_tokens": 51204374.0,
	"eval_math_runtime": 24.6389,
	"eval_math_samples_per_second": 20.293,
	"eval_math_steps_per_second": 5.073,
	"step": 1800
	},
	{
	"entropy": 0.5379522321745753,
	"epoch": 2.896,
	"grad_norm": 17.75,
	"learning_rate": 1.8202222222222225e-05,
	"loss": 8.6271,
	"mean_token_accuracy": 0.8437154974788428,
	"num_tokens": 51483944.0,
	"step": 1810
	},
	{
	"entropy": 0.5471471425145864,
	"epoch": 2.912,
	"grad_norm": 17.0,
	"learning_rate": 1.8180000000000002e-05,
	"loss": 8.6769,
	"mean_token_accuracy": 0.8418111637234688,
	"num_tokens": 51765755.0,
	"step": 1820
	},
	{
	"entropy": 0.5508731028065086,
	"epoch": 2.928,
	"grad_norm": 17.0,
	"learning_rate": 1.815777777777778e-05,
	"loss": 8.7862,
	"mean_token_accuracy": 0.8419726848602295,
	"num_tokens": 52056379.0,
	"step": 1830
	},
	{
	"entropy": 0.5354436157271266,
	"epoch": 2.944,
	"grad_norm": 16.375,
	"learning_rate": 1.8135555555555557e-05,
	"loss": 8.5928,
	"mean_token_accuracy": 0.8430151861160994,
	"num_tokens": 52346232.0,
	"step": 1840
	},
	{
	"entropy": 0.5504492402076722,
	"epoch": 2.96,
	"grad_norm": 17.5,
	"learning_rate": 1.8113333333333335e-05,
	"loss": 8.7501,
	"mean_token_accuracy": 0.8406570095568895,
	"num_tokens": 52633789.0,
	"step": 1850
	},
	{
	"entropy": 0.5475983273237943,
	"epoch": 2.976,
	"grad_norm": 15.25,
	"learning_rate": 1.8091111111111113e-05,
	"loss": 8.714,
	"mean_token_accuracy": 0.8408999726176262,
	"num_tokens": 52911755.0,
	"step": 1860
	},
	{
	"entropy": 0.5406377092003822,
	"epoch": 2.992,
	"grad_norm": 16.0,
	"learning_rate": 1.806888888888889e-05,
	"loss": 8.6328,
	"mean_token_accuracy": 0.8425012800842524,
	"num_tokens": 53198176.0,
	"step": 1870
	},
	{
	"entropy": 0.5113964939489961,
	"epoch": 3.008,
	"grad_norm": 22.875,
	"learning_rate": 1.8046666666666668e-05,
	"loss": 7.822,
	"mean_token_accuracy": 0.8548128705471754,
	"num_tokens": 53481893.0,
	"step": 1880
	},
	{
	"entropy": 0.4152779897674918,
	"epoch": 3.024,
	"grad_norm": 22.0,
	"learning_rate": 1.8024444444444445e-05,
	"loss": 6.7546,
	"mean_token_accuracy": 0.8709000959992409,
	"num_tokens": 53771717.0,
	"step": 1890
	},
	{
	"entropy": 0.40918179890140893,
	"epoch": 3.04,
	"grad_norm": 22.75,
	"learning_rate": 1.8002222222222223e-05,
	"loss": 6.5585,
	"mean_token_accuracy": 0.8754206687211991,
	"num_tokens": 54058045.0,
	"step": 1900
	},
	{
	"epoch": 3.04,
	"eval_biology_entropy": 0.6926028978824615,
	"eval_biology_loss": 1.5856647491455078,
	"eval_biology_mean_token_accuracy": 0.6686906161308288,
	"eval_biology_num_tokens": 54058045.0,
	"eval_biology_runtime": 19.7886,
	"eval_biology_samples_per_second": 25.267,
	"eval_biology_steps_per_second": 6.317,
	"step": 1900
	},
	{
	"epoch": 3.04,
	"eval_math_entropy": 0.46198054814338685,
	"eval_math_loss": 0.6858065724372864,
	"eval_math_mean_token_accuracy": 0.822696931362152,
	"eval_math_num_tokens": 54058045.0,
	"eval_math_runtime": 24.6254,
	"eval_math_samples_per_second": 20.304,
	"eval_math_steps_per_second": 5.076,
	"step": 1900
	},
	{
	"entropy": 0.40489907208830117,
	"epoch": 3.056,
	"grad_norm": 25.25,
	"learning_rate": 1.798e-05,
	"loss": 6.3683,
	"mean_token_accuracy": 0.8761902552098035,
	"num_tokens": 54334332.0,
	"step": 1910
	},
	{
	"entropy": 0.40934212449938057,
	"epoch": 3.072,
	"grad_norm": 23.5,
	"learning_rate": 1.7957777777777778e-05,
	"loss": 6.4642,
	"mean_token_accuracy": 0.8751021821051836,
	"num_tokens": 54624543.0,
	"step": 1920
	},
	{
	"entropy": 0.39203624669462445,
	"epoch": 3.088,
	"grad_norm": 25.375,
	"learning_rate": 1.7935555555555556e-05,
	"loss": 6.2116,
	"mean_token_accuracy": 0.8796712458133698,
	"num_tokens": 54907550.0,
	"step": 1930
	},
	{
	"entropy": 0.40762526309117675,
	"epoch": 3.104,
	"grad_norm": 23.375,
	"learning_rate": 1.7913333333333337e-05,
	"loss": 6.4546,
	"mean_token_accuracy": 0.8756711948662996,
	"num_tokens": 55190959.0,
	"step": 1940
	},
	{
	"entropy": 0.39818487148731946,
	"epoch": 3.12,
	"grad_norm": 24.0,
	"learning_rate": 1.789111111111111e-05,
	"loss": 6.3256,
	"mean_token_accuracy": 0.8780492424964905,
	"num_tokens": 55481635.0,
	"step": 1950
	},
	{
	"entropy": 0.4032851942814887,
	"epoch": 3.136,
	"grad_norm": 24.5,
	"learning_rate": 1.7868888888888892e-05,
	"loss": 6.4233,
	"mean_token_accuracy": 0.8760235741734504,
	"num_tokens": 55769010.0,
	"step": 1960
	},
	{
	"entropy": 0.40782611249014733,
	"epoch": 3.152,
	"grad_norm": 23.25,
	"learning_rate": 1.7846666666666666e-05,
	"loss": 6.4685,
	"mean_token_accuracy": 0.8753455895930529,
	"num_tokens": 56053160.0,
	"step": 1970
	},
	{
	"entropy": 0.41834324020892383,
	"epoch": 3.168,
	"grad_norm": 24.75,
	"learning_rate": 1.7824444444444447e-05,
	"loss": 6.6597,
	"mean_token_accuracy": 0.8723560575395822,
	"num_tokens": 56337066.0,
	"step": 1980
	},
	{
	"entropy": 0.4165022653527558,
	"epoch": 3.184,
	"grad_norm": 27.375,
	"learning_rate": 1.780222222222222e-05,
	"loss": 6.5528,
	"mean_token_accuracy": 0.8731590420007705,
	"num_tokens": 56618899.0,
	"step": 1990
	},
	{
	"entropy": 0.40481978207826613,
	"epoch": 3.2,
	"grad_norm": 22.625,
	"learning_rate": 1.7780000000000003e-05,
	"loss": 6.4003,
	"mean_token_accuracy": 0.8771062396466732,
	"num_tokens": 56910071.0,
	"step": 2000
	},
	{
	"epoch": 3.2,
	"eval_biology_entropy": 0.6016733210086822,
	"eval_biology_loss": 1.7224782705307007,
	"eval_biology_mean_token_accuracy": 0.6672822990417481,
	"eval_biology_num_tokens": 56910071.0,
	"eval_biology_runtime": 19.7656,
	"eval_biology_samples_per_second": 25.297,
	"eval_biology_steps_per_second": 6.324,
	"step": 2000
	},
	{
	"epoch": 3.2,
	"eval_math_entropy": 0.4420904459953308,
	"eval_math_loss": 0.6964770555496216,
	"eval_math_mean_token_accuracy": 0.8225251660346985,
	"eval_math_num_tokens": 56910071.0,
	"eval_math_runtime": 24.578,
	"eval_math_samples_per_second": 20.343,
	"eval_math_steps_per_second": 5.086,
	"step": 2000
	}
	],
	"logging_steps": 10,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 16,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.791878293573609e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}