train_copa_42_1760623604 / trainer_state.json

End of training

3e8efcb verified 3 months ago

107 kB

	{
	"best_global_step": 180,
	"best_metric": 0.22924575209617615,
	"best_model_checkpoint": "saves_multiple/prompt-tuning/llama-3-8b-instruct/train_copa_42_1760623604/checkpoint-180",
	"epoch": 20.0,
	"eval_steps": 90,
	"global_step": 1800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05555555555555555,
	"grad_norm": 1.1328125,
	"learning_rate": 0.0006666666666666666,
	"loss": 0.1508,
	"num_input_tokens_seen": 1600,
	"step": 5,
	"train_runtime": 3.1038,
	"train_tokens_per_second": 515.503
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 12.25,
	"learning_rate": 0.0015,
	"loss": 0.1225,
	"num_input_tokens_seen": 3200,
	"step": 10,
	"train_runtime": 3.9613,
	"train_tokens_per_second": 807.808
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 11.625,
	"learning_rate": 0.002333333333333333,
	"loss": 0.2189,
	"num_input_tokens_seen": 4768,
	"step": 15,
	"train_runtime": 4.8299,
	"train_tokens_per_second": 987.182
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 41.25,
	"learning_rate": 0.0031666666666666666,
	"loss": 0.2288,
	"num_input_tokens_seen": 6336,
	"step": 20,
	"train_runtime": 5.6824,
	"train_tokens_per_second": 1115.019
	},
	{
	"epoch": 0.2777777777777778,
	"grad_norm": 100.0,
	"learning_rate": 0.004,
	"loss": 4.5867,
	"num_input_tokens_seen": 7904,
	"step": 25,
	"train_runtime": 6.501,
	"train_tokens_per_second": 1215.811
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 34.25,
	"learning_rate": 0.004833333333333334,
	"loss": 3.3424,
	"num_input_tokens_seen": 9504,
	"step": 30,
	"train_runtime": 7.296,
	"train_tokens_per_second": 1302.633
	},
	{
	"epoch": 0.3888888888888889,
	"grad_norm": 10.0,
	"learning_rate": 0.005666666666666666,
	"loss": 1.1922,
	"num_input_tokens_seen": 11072,
	"step": 35,
	"train_runtime": 8.0915,
	"train_tokens_per_second": 1368.343
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 31.875,
	"learning_rate": 0.0065,
	"loss": 0.5121,
	"num_input_tokens_seen": 12672,
	"step": 40,
	"train_runtime": 8.8889,
	"train_tokens_per_second": 1425.604
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.953125,
	"learning_rate": 0.007333333333333333,
	"loss": 0.2904,
	"num_input_tokens_seen": 14176,
	"step": 45,
	"train_runtime": 9.678,
	"train_tokens_per_second": 1464.762
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 4.21875,
	"learning_rate": 0.008166666666666666,
	"loss": 0.3048,
	"num_input_tokens_seen": 15776,
	"step": 50,
	"train_runtime": 10.472,
	"train_tokens_per_second": 1506.489
	},
	{
	"epoch": 0.6111111111111112,
	"grad_norm": 4.21875,
	"learning_rate": 0.009,
	"loss": 0.3677,
	"num_input_tokens_seen": 17312,
	"step": 55,
	"train_runtime": 11.2639,
	"train_tokens_per_second": 1536.94
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.58203125,
	"learning_rate": 0.009833333333333333,
	"loss": 0.2604,
	"num_input_tokens_seen": 18848,
	"step": 60,
	"train_runtime": 12.0538,
	"train_tokens_per_second": 1563.659
	},
	{
	"epoch": 0.7222222222222222,
	"grad_norm": 0.50390625,
	"learning_rate": 0.010666666666666666,
	"loss": 0.256,
	"num_input_tokens_seen": 20448,
	"step": 65,
	"train_runtime": 12.8468,
	"train_tokens_per_second": 1591.68
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 1.484375,
	"learning_rate": 0.0115,
	"loss": 0.5609,
	"num_input_tokens_seen": 22016,
	"step": 70,
	"train_runtime": 13.6383,
	"train_tokens_per_second": 1614.278
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.333984375,
	"learning_rate": 0.012333333333333332,
	"loss": 1.0653,
	"num_input_tokens_seen": 23616,
	"step": 75,
	"train_runtime": 14.4335,
	"train_tokens_per_second": 1636.199
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.54296875,
	"learning_rate": 0.013166666666666667,
	"loss": 0.2765,
	"num_input_tokens_seen": 25152,
	"step": 80,
	"train_runtime": 15.2249,
	"train_tokens_per_second": 1652.025
	},
	{
	"epoch": 0.9444444444444444,
	"grad_norm": 22.875,
	"learning_rate": 0.014,
	"loss": 1.0491,
	"num_input_tokens_seen": 26688,
	"step": 85,
	"train_runtime": 16.0181,
	"train_tokens_per_second": 1666.117
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.2060546875,
	"learning_rate": 0.014833333333333334,
	"loss": 0.26,
	"num_input_tokens_seen": 28256,
	"step": 90,
	"train_runtime": 16.9498,
	"train_tokens_per_second": 1667.037
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.23620998859405518,
	"eval_runtime": 1.2704,
	"eval_samples_per_second": 31.486,
	"eval_steps_per_second": 7.872,
	"num_input_tokens_seen": 28256,
	"step": 90
	},
	{
	"epoch": 1.0555555555555556,
	"grad_norm": 0.91796875,
	"learning_rate": 0.015666666666666666,
	"loss": 0.29,
	"num_input_tokens_seen": 29824,
	"step": 95,
	"train_runtime": 19.874,
	"train_tokens_per_second": 1500.656
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 1.4140625,
	"learning_rate": 0.0165,
	"loss": 0.3073,
	"num_input_tokens_seen": 31360,
	"step": 100,
	"train_runtime": 20.6816,
	"train_tokens_per_second": 1516.326
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.251953125,
	"learning_rate": 0.017333333333333333,
	"loss": 0.231,
	"num_input_tokens_seen": 32960,
	"step": 105,
	"train_runtime": 21.4794,
	"train_tokens_per_second": 1534.493
	},
	{
	"epoch": 1.2222222222222223,
	"grad_norm": 0.1591796875,
	"learning_rate": 0.018166666666666664,
	"loss": 0.2256,
	"num_input_tokens_seen": 34464,
	"step": 110,
	"train_runtime": 22.2709,
	"train_tokens_per_second": 1547.491
	},
	{
	"epoch": 1.2777777777777777,
	"grad_norm": 0.375,
	"learning_rate": 0.019,
	"loss": 0.7092,
	"num_input_tokens_seen": 36032,
	"step": 115,
	"train_runtime": 23.0649,
	"train_tokens_per_second": 1562.201
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 3.171875,
	"learning_rate": 0.01983333333333333,
	"loss": 0.2771,
	"num_input_tokens_seen": 37600,
	"step": 120,
	"train_runtime": 23.8592,
	"train_tokens_per_second": 1575.909
	},
	{
	"epoch": 1.3888888888888888,
	"grad_norm": 2.15625,
	"learning_rate": 0.020666666666666667,
	"loss": 0.2618,
	"num_input_tokens_seen": 39168,
	"step": 125,
	"train_runtime": 24.6509,
	"train_tokens_per_second": 1588.905
	},
	{
	"epoch": 1.4444444444444444,
	"grad_norm": 0.07275390625,
	"learning_rate": 0.0215,
	"loss": 0.2334,
	"num_input_tokens_seen": 40736,
	"step": 130,
	"train_runtime": 25.4426,
	"train_tokens_per_second": 1601.092
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.0279541015625,
	"learning_rate": 0.022333333333333334,
	"loss": 0.2422,
	"num_input_tokens_seen": 42240,
	"step": 135,
	"train_runtime": 26.2319,
	"train_tokens_per_second": 1610.255
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 0.103515625,
	"learning_rate": 0.023166666666666665,
	"loss": 0.2405,
	"num_input_tokens_seen": 43840,
	"step": 140,
	"train_runtime": 27.0285,
	"train_tokens_per_second": 1621.993
	},
	{
	"epoch": 1.6111111111111112,
	"grad_norm": 0.04541015625,
	"learning_rate": 0.024,
	"loss": 0.2416,
	"num_input_tokens_seen": 45408,
	"step": 145,
	"train_runtime": 27.823,
	"train_tokens_per_second": 1632.028
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.060791015625,
	"learning_rate": 0.024833333333333332,
	"loss": 0.2476,
	"num_input_tokens_seen": 46976,
	"step": 150,
	"train_runtime": 28.6144,
	"train_tokens_per_second": 1641.69
	},
	{
	"epoch": 1.7222222222222223,
	"grad_norm": 0.08740234375,
	"learning_rate": 0.025666666666666664,
	"loss": 0.2165,
	"num_input_tokens_seen": 48512,
	"step": 155,
	"train_runtime": 29.4067,
	"train_tokens_per_second": 1649.691
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.07373046875,
	"learning_rate": 0.0265,
	"loss": 0.2679,
	"num_input_tokens_seen": 50112,
	"step": 160,
	"train_runtime": 30.2016,
	"train_tokens_per_second": 1659.249
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.0458984375,
	"learning_rate": 0.02733333333333333,
	"loss": 0.2291,
	"num_input_tokens_seen": 51712,
	"step": 165,
	"train_runtime": 30.9983,
	"train_tokens_per_second": 1668.222
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 0.07373046875,
	"learning_rate": 0.028166666666666666,
	"loss": 0.235,
	"num_input_tokens_seen": 53280,
	"step": 170,
	"train_runtime": 31.7939,
	"train_tokens_per_second": 1675.793
	},
	{
	"epoch": 1.9444444444444444,
	"grad_norm": 0.032470703125,
	"learning_rate": 0.028999999999999998,
	"loss": 0.241,
	"num_input_tokens_seen": 54880,
	"step": 175,
	"train_runtime": 32.5915,
	"train_tokens_per_second": 1683.876
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.01507568359375,
	"learning_rate": 0.029833333333333333,
	"loss": 0.2246,
	"num_input_tokens_seen": 56480,
	"step": 180,
	"train_runtime": 33.4262,
	"train_tokens_per_second": 1689.693
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.22924575209617615,
	"eval_runtime": 0.8256,
	"eval_samples_per_second": 48.45,
	"eval_steps_per_second": 12.112,
	"num_input_tokens_seen": 56480,
	"step": 180
	},
	{
	"epoch": 2.0555555555555554,
	"grad_norm": 0.0224609375,
	"learning_rate": 0.02999954871719651,
	"loss": 0.2275,
	"num_input_tokens_seen": 58048,
	"step": 185,
	"train_runtime": 36.0921,
	"train_tokens_per_second": 1608.328
	},
	{
	"epoch": 2.111111111111111,
	"grad_norm": 0.01361083984375,
	"learning_rate": 0.029997715427345868,
	"loss": 0.2277,
	"num_input_tokens_seen": 59584,
	"step": 190,
	"train_runtime": 36.8907,
	"train_tokens_per_second": 1615.149
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 0.052734375,
	"learning_rate": 0.02999447209750064,
	"loss": 0.2313,
	"num_input_tokens_seen": 61216,
	"step": 195,
	"train_runtime": 37.6876,
	"train_tokens_per_second": 1624.3
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 0.033203125,
	"learning_rate": 0.02998981903258893,
	"loss": 0.2358,
	"num_input_tokens_seen": 62784,
	"step": 200,
	"train_runtime": 38.4845,
	"train_tokens_per_second": 1631.408
	},
	{
	"epoch": 2.2777777777777777,
	"grad_norm": 0.044921875,
	"learning_rate": 0.02998375667007787,
	"loss": 0.2412,
	"num_input_tokens_seen": 64352,
	"step": 205,
	"train_runtime": 39.2774,
	"train_tokens_per_second": 1638.396
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.0220947265625,
	"learning_rate": 0.029976285579932503,
	"loss": 0.2008,
	"num_input_tokens_seen": 65952,
	"step": 210,
	"train_runtime": 40.0729,
	"train_tokens_per_second": 1645.799
	},
	{
	"epoch": 2.388888888888889,
	"grad_norm": 0.12255859375,
	"learning_rate": 0.029967406464562214,
	"loss": 0.2465,
	"num_input_tokens_seen": 67552,
	"step": 215,
	"train_runtime": 40.866,
	"train_tokens_per_second": 1653.013
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.02995712015875466,
	"loss": 0.2297,
	"num_input_tokens_seen": 69120,
	"step": 220,
	"train_runtime": 41.6581,
	"train_tokens_per_second": 1659.219
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.04248046875,
	"learning_rate": 0.029945427629597305,
	"loss": 0.2409,
	"num_input_tokens_seen": 70688,
	"step": 225,
	"train_runtime": 42.453,
	"train_tokens_per_second": 1665.087
	},
	{
	"epoch": 2.5555555555555554,
	"grad_norm": 0.07763671875,
	"learning_rate": 0.029932329976386493,
	"loss": 0.2373,
	"num_input_tokens_seen": 72288,
	"step": 230,
	"train_runtime": 43.2489,
	"train_tokens_per_second": 1671.441
	},
	{
	"epoch": 2.611111111111111,
	"grad_norm": 0.10400390625,
	"learning_rate": 0.0299178284305241,
	"loss": 0.2425,
	"num_input_tokens_seen": 73856,
	"step": 235,
	"train_runtime": 44.0446,
	"train_tokens_per_second": 1676.845
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.04052734375,
	"learning_rate": 0.02990192435540175,
	"loss": 0.2331,
	"num_input_tokens_seen": 75392,
	"step": 240,
	"train_runtime": 44.8352,
	"train_tokens_per_second": 1681.537
	},
	{
	"epoch": 2.7222222222222223,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.029884619246272646,
	"loss": 0.2384,
	"num_input_tokens_seen": 76960,
	"step": 245,
	"train_runtime": 45.6329,
	"train_tokens_per_second": 1686.502
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 0.03369140625,
	"learning_rate": 0.02986591473011098,
	"loss": 0.2255,
	"num_input_tokens_seen": 78496,
	"step": 250,
	"train_runtime": 46.4329,
	"train_tokens_per_second": 1690.526
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 0.0205078125,
	"learning_rate": 0.02984581256545898,
	"loss": 0.2376,
	"num_input_tokens_seen": 80000,
	"step": 255,
	"train_runtime": 47.2277,
	"train_tokens_per_second": 1693.922
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 0.030029296875,
	"learning_rate": 0.02982431464226157,
	"loss": 0.2274,
	"num_input_tokens_seen": 81568,
	"step": 260,
	"train_runtime": 48.0201,
	"train_tokens_per_second": 1698.622
	},
	{
	"epoch": 2.9444444444444446,
	"grad_norm": 0.03125,
	"learning_rate": 0.02980142298168869,
	"loss": 0.2306,
	"num_input_tokens_seen": 83168,
	"step": 265,
	"train_runtime": 48.8131,
	"train_tokens_per_second": 1703.803
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.02099609375,
	"learning_rate": 0.029777139735945243,
	"loss": 0.2336,
	"num_input_tokens_seen": 84736,
	"step": 270,
	"train_runtime": 49.7464,
	"train_tokens_per_second": 1703.361
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.23087672889232635,
	"eval_runtime": 0.8189,
	"eval_samples_per_second": 48.846,
	"eval_steps_per_second": 12.212,
	"num_input_tokens_seen": 84736,
	"step": 270
	},
	{
	"epoch": 3.0555555555555554,
	"grad_norm": 0.03759765625,
	"learning_rate": 0.029751467188068818,
	"loss": 0.2376,
	"num_input_tokens_seen": 86304,
	"step": 275,
	"train_runtime": 52.2896,
	"train_tokens_per_second": 1650.5
	},
	{
	"epoch": 3.111111111111111,
	"grad_norm": 0.029541015625,
	"learning_rate": 0.02972440775171496,
	"loss": 0.2289,
	"num_input_tokens_seen": 87904,
	"step": 280,
	"train_runtime": 53.1215,
	"train_tokens_per_second": 1654.773
	},
	{
	"epoch": 3.1666666666666665,
	"grad_norm": 0.041259765625,
	"learning_rate": 0.029695963970930307,
	"loss": 0.2255,
	"num_input_tokens_seen": 89408,
	"step": 285,
	"train_runtime": 53.9107,
	"train_tokens_per_second": 1658.447
	},
	{
	"epoch": 3.2222222222222223,
	"grad_norm": 0.01312255859375,
	"learning_rate": 0.029666138519913395,
	"loss": 0.2251,
	"num_input_tokens_seen": 91008,
	"step": 290,
	"train_runtime": 54.7037,
	"train_tokens_per_second": 1663.654
	},
	{
	"epoch": 3.2777777777777777,
	"grad_norm": 0.0269775390625,
	"learning_rate": 0.029634934202763214,
	"loss": 0.2566,
	"num_input_tokens_seen": 92512,
	"step": 295,
	"train_runtime": 55.4911,
	"train_tokens_per_second": 1667.149
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 0.02490234375,
	"learning_rate": 0.0296023539532156,
	"loss": 0.2391,
	"num_input_tokens_seen": 94080,
	"step": 300,
	"train_runtime": 56.2846,
	"train_tokens_per_second": 1671.505
	},
	{
	"epoch": 3.388888888888889,
	"grad_norm": 0.042236328125,
	"learning_rate": 0.029568400834367403,
	"loss": 0.2269,
	"num_input_tokens_seen": 95680,
	"step": 305,
	"train_runtime": 57.0809,
	"train_tokens_per_second": 1676.218
	},
	{
	"epoch": 3.4444444444444446,
	"grad_norm": 0.033935546875,
	"learning_rate": 0.02953307803838851,
	"loss": 0.2325,
	"num_input_tokens_seen": 97248,
	"step": 310,
	"train_runtime": 57.8741,
	"train_tokens_per_second": 1680.338
	},
	{
	"epoch": 3.5,
	"grad_norm": 0.00994873046875,
	"learning_rate": 0.02949638888622172,
	"loss": 0.2369,
	"num_input_tokens_seen": 98784,
	"step": 315,
	"train_runtime": 58.6661,
	"train_tokens_per_second": 1683.835
	},
	{
	"epoch": 3.5555555555555554,
	"grad_norm": 0.01507568359375,
	"learning_rate": 0.029458336827270518,
	"loss": 0.2209,
	"num_input_tokens_seen": 100384,
	"step": 320,
	"train_runtime": 59.4642,
	"train_tokens_per_second": 1688.142
	},
	{
	"epoch": 3.611111111111111,
	"grad_norm": 0.0086669921875,
	"learning_rate": 0.029418925439074782,
	"loss": 0.2318,
	"num_input_tokens_seen": 101952,
	"step": 325,
	"train_runtime": 60.2574,
	"train_tokens_per_second": 1691.941
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 0.006805419921875,
	"learning_rate": 0.029378158426974426,
	"loss": 0.2321,
	"num_input_tokens_seen": 103520,
	"step": 330,
	"train_runtime": 61.0556,
	"train_tokens_per_second": 1695.503
	},
	{
	"epoch": 3.7222222222222223,
	"grad_norm": 0.003814697265625,
	"learning_rate": 0.029336039623761044,
	"loss": 0.2406,
	"num_input_tokens_seen": 105120,
	"step": 335,
	"train_runtime": 61.8554,
	"train_tokens_per_second": 1699.448
	},
	{
	"epoch": 3.7777777777777777,
	"grad_norm": 0.003692626953125,
	"learning_rate": 0.02929257298931754,
	"loss": 0.2309,
	"num_input_tokens_seen": 106720,
	"step": 340,
	"train_runtime": 62.653,
	"train_tokens_per_second": 1703.349
	},
	{
	"epoch": 3.8333333333333335,
	"grad_norm": 0.0189208984375,
	"learning_rate": 0.02924776261024586,
	"loss": 0.2327,
	"num_input_tokens_seen": 108320,
	"step": 345,
	"train_runtime": 63.447,
	"train_tokens_per_second": 1707.252
	},
	{
	"epoch": 3.888888888888889,
	"grad_norm": 0.0030975341796875,
	"learning_rate": 0.02920161269948277,
	"loss": 0.2304,
	"num_input_tokens_seen": 109888,
	"step": 350,
	"train_runtime": 64.242,
	"train_tokens_per_second": 1710.531
	},
	{
	"epoch": 3.9444444444444446,
	"grad_norm": 0.00421142578125,
	"learning_rate": 0.029154127595903752,
	"loss": 0.2293,
	"num_input_tokens_seen": 111424,
	"step": 355,
	"train_runtime": 65.0354,
	"train_tokens_per_second": 1713.281
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.00347900390625,
	"learning_rate": 0.029105311763915113,
	"loss": 0.2347,
	"num_input_tokens_seen": 113024,
	"step": 360,
	"train_runtime": 65.871,
	"train_tokens_per_second": 1715.839
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.23181450366973877,
	"eval_runtime": 0.8261,
	"eval_samples_per_second": 48.422,
	"eval_steps_per_second": 12.105,
	"num_input_tokens_seen": 113024,
	"step": 360
	},
	{
	"epoch": 4.055555555555555,
	"grad_norm": 0.004241943359375,
	"learning_rate": 0.029055169793034224,
	"loss": 0.2306,
	"num_input_tokens_seen": 114624,
	"step": 365,
	"train_runtime": 68.3415,
	"train_tokens_per_second": 1677.223
	},
	{
	"epoch": 4.111111111111111,
	"grad_norm": 0.00628662109375,
	"learning_rate": 0.029003706397458022,
	"loss": 0.2349,
	"num_input_tokens_seen": 116224,
	"step": 370,
	"train_runtime": 69.1577,
	"train_tokens_per_second": 1680.564
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 0.00592041015625,
	"learning_rate": 0.028950926415619846,
	"loss": 0.2471,
	"num_input_tokens_seen": 117760,
	"step": 375,
	"train_runtime": 69.9474,
	"train_tokens_per_second": 1683.55
	},
	{
	"epoch": 4.222222222222222,
	"grad_norm": 0.0169677734375,
	"learning_rate": 0.028896834809734474,
	"loss": 0.2298,
	"num_input_tokens_seen": 119360,
	"step": 380,
	"train_runtime": 70.7435,
	"train_tokens_per_second": 1687.223
	},
	{
	"epoch": 4.277777777777778,
	"grad_norm": 0.0302734375,
	"learning_rate": 0.028841436665331635,
	"loss": 0.2254,
	"num_input_tokens_seen": 120960,
	"step": 385,
	"train_runtime": 71.5406,
	"train_tokens_per_second": 1690.787
	},
	{
	"epoch": 4.333333333333333,
	"grad_norm": 0.003662109375,
	"learning_rate": 0.02878473719077787,
	"loss": 0.2393,
	"num_input_tokens_seen": 122528,
	"step": 390,
	"train_runtime": 72.3313,
	"train_tokens_per_second": 1693.983
	},
	{
	"epoch": 4.388888888888889,
	"grad_norm": 0.0174560546875,
	"learning_rate": 0.028726741716786866,
	"loss": 0.2317,
	"num_input_tokens_seen": 124096,
	"step": 395,
	"train_runtime": 73.1276,
	"train_tokens_per_second": 1696.979
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 0.0186767578125,
	"learning_rate": 0.02866745569591825,
	"loss": 0.2351,
	"num_input_tokens_seen": 125696,
	"step": 400,
	"train_runtime": 73.9263,
	"train_tokens_per_second": 1700.287
	},
	{
	"epoch": 4.5,
	"grad_norm": 0.017578125,
	"learning_rate": 0.028606884702065006,
	"loss": 0.2317,
	"num_input_tokens_seen": 127264,
	"step": 405,
	"train_runtime": 74.7224,
	"train_tokens_per_second": 1703.157
	},
	{
	"epoch": 4.555555555555555,
	"grad_norm": 0.005462646484375,
	"learning_rate": 0.028545034429929377,
	"loss": 0.2264,
	"num_input_tokens_seen": 128832,
	"step": 410,
	"train_runtime": 75.5264,
	"train_tokens_per_second": 1705.788
	},
	{
	"epoch": 4.611111111111111,
	"grad_norm": 0.0185546875,
	"learning_rate": 0.028481910694487505,
	"loss": 0.2396,
	"num_input_tokens_seen": 130464,
	"step": 415,
	"train_runtime": 76.325,
	"train_tokens_per_second": 1709.321
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 0.00421142578125,
	"learning_rate": 0.02841751943044271,
	"loss": 0.2336,
	"num_input_tokens_seen": 132032,
	"step": 420,
	"train_runtime": 77.126,
	"train_tokens_per_second": 1711.901
	},
	{
	"epoch": 4.722222222222222,
	"grad_norm": 0.01361083984375,
	"learning_rate": 0.028351866691667543,
	"loss": 0.2314,
	"num_input_tokens_seen": 133632,
	"step": 425,
	"train_runtime": 77.9247,
	"train_tokens_per_second": 1714.886
	},
	{
	"epoch": 4.777777777777778,
	"grad_norm": 0.01361083984375,
	"learning_rate": 0.02828495865063459,
	"loss": 0.2325,
	"num_input_tokens_seen": 135232,
	"step": 430,
	"train_runtime": 78.7259,
	"train_tokens_per_second": 1717.757
	},
	{
	"epoch": 4.833333333333333,
	"grad_norm": 0.0042724609375,
	"learning_rate": 0.028216801597836176,
	"loss": 0.2216,
	"num_input_tokens_seen": 136768,
	"step": 435,
	"train_runtime": 79.5217,
	"train_tokens_per_second": 1719.883
	},
	{
	"epoch": 4.888888888888889,
	"grad_norm": 0.005462646484375,
	"learning_rate": 0.028147401941192952,
	"loss": 0.2297,
	"num_input_tokens_seen": 138368,
	"step": 440,
	"train_runtime": 80.3232,
	"train_tokens_per_second": 1722.64
	},
	{
	"epoch": 4.944444444444445,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.028076766205451433,
	"loss": 0.2443,
	"num_input_tokens_seen": 139904,
	"step": 445,
	"train_runtime": 81.1198,
	"train_tokens_per_second": 1724.659
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.005706787109375,
	"learning_rate": 0.028004901031570568,
	"loss": 0.2277,
	"num_input_tokens_seen": 141440,
	"step": 450,
	"train_runtime": 81.9601,
	"train_tokens_per_second": 1725.718
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.2365764081478119,
	"eval_runtime": 0.8277,
	"eval_samples_per_second": 48.329,
	"eval_steps_per_second": 12.082,
	"num_input_tokens_seen": 141440,
	"step": 450
	},
	{
	"epoch": 5.055555555555555,
	"grad_norm": 0.0167236328125,
	"learning_rate": 0.027931813176097366,
	"loss": 0.2361,
	"num_input_tokens_seen": 142976,
	"step": 455,
	"train_runtime": 84.4881,
	"train_tokens_per_second": 1692.262
	},
	{
	"epoch": 5.111111111111111,
	"grad_norm": 0.00494384765625,
	"learning_rate": 0.027857509510531685,
	"loss": 0.2293,
	"num_input_tokens_seen": 144576,
	"step": 460,
	"train_runtime": 85.2893,
	"train_tokens_per_second": 1695.125
	},
	{
	"epoch": 5.166666666666667,
	"grad_norm": 0.0245361328125,
	"learning_rate": 0.02778199702068017,
	"loss": 0.2307,
	"num_input_tokens_seen": 146144,
	"step": 465,
	"train_runtime": 86.0895,
	"train_tokens_per_second": 1697.581
	},
	{
	"epoch": 5.222222222222222,
	"grad_norm": 0.012451171875,
	"learning_rate": 0.02770528280599949,
	"loss": 0.2336,
	"num_input_tokens_seen": 147712,
	"step": 470,
	"train_runtime": 86.8889,
	"train_tokens_per_second": 1700.009
	},
	{
	"epoch": 5.277777777777778,
	"grad_norm": 0.006683349609375,
	"learning_rate": 0.02762737407892886,
	"loss": 0.2294,
	"num_input_tokens_seen": 149248,
	"step": 475,
	"train_runtime": 87.6835,
	"train_tokens_per_second": 1702.121
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 0.013916015625,
	"learning_rate": 0.02754827816421195,
	"loss": 0.2357,
	"num_input_tokens_seen": 150816,
	"step": 480,
	"train_runtime": 88.4782,
	"train_tokens_per_second": 1704.555
	},
	{
	"epoch": 5.388888888888889,
	"grad_norm": 0.01202392578125,
	"learning_rate": 0.02746800249820822,
	"loss": 0.2212,
	"num_input_tokens_seen": 152352,
	"step": 485,
	"train_runtime": 89.2722,
	"train_tokens_per_second": 1706.6
	},
	{
	"epoch": 5.444444444444445,
	"grad_norm": 0.0166015625,
	"learning_rate": 0.027386554628193813,
	"loss": 0.2362,
	"num_input_tokens_seen": 153888,
	"step": 490,
	"train_runtime": 90.0625,
	"train_tokens_per_second": 1708.681
	},
	{
	"epoch": 5.5,
	"grad_norm": 0.00469970703125,
	"learning_rate": 0.027303942211651937,
	"loss": 0.2391,
	"num_input_tokens_seen": 155488,
	"step": 495,
	"train_runtime": 90.8589,
	"train_tokens_per_second": 1711.313
	},
	{
	"epoch": 5.555555555555555,
	"grad_norm": 0.0223388671875,
	"learning_rate": 0.02722017301555297,
	"loss": 0.2305,
	"num_input_tokens_seen": 157024,
	"step": 500,
	"train_runtime": 91.6521,
	"train_tokens_per_second": 1713.261
	},
	{
	"epoch": 5.611111111111111,
	"grad_norm": 0.023193359375,
	"learning_rate": 0.02713525491562421,
	"loss": 0.2316,
	"num_input_tokens_seen": 158528,
	"step": 505,
	"train_runtime": 92.4397,
	"train_tokens_per_second": 1714.934
	},
	{
	"epoch": 5.666666666666667,
	"grad_norm": 0.0115966796875,
	"learning_rate": 0.027049195895609432,
	"loss": 0.2305,
	"num_input_tokens_seen": 160064,
	"step": 510,
	"train_runtime": 93.229,
	"train_tokens_per_second": 1716.89
	},
	{
	"epoch": 5.722222222222222,
	"grad_norm": 0.009765625,
	"learning_rate": 0.026962004046518273,
	"loss": 0.2286,
	"num_input_tokens_seen": 161664,
	"step": 515,
	"train_runtime": 94.0222,
	"train_tokens_per_second": 1719.424
	},
	{
	"epoch": 5.777777777777778,
	"grad_norm": 0.02099609375,
	"learning_rate": 0.02687368756586555,
	"loss": 0.2297,
	"num_input_tokens_seen": 163264,
	"step": 520,
	"train_runtime": 94.8159,
	"train_tokens_per_second": 1721.905
	},
	{
	"epoch": 5.833333333333333,
	"grad_norm": 0.01226806640625,
	"learning_rate": 0.02678425475690055,
	"loss": 0.2348,
	"num_input_tokens_seen": 164864,
	"step": 525,
	"train_runtime": 95.6085,
	"train_tokens_per_second": 1724.365
	},
	{
	"epoch": 5.888888888888889,
	"grad_norm": 0.0126953125,
	"learning_rate": 0.02669371402782638,
	"loss": 0.2286,
	"num_input_tokens_seen": 166432,
	"step": 530,
	"train_runtime": 96.4007,
	"train_tokens_per_second": 1726.461
	},
	{
	"epoch": 5.944444444444445,
	"grad_norm": 0.01153564453125,
	"learning_rate": 0.026602073891009458,
	"loss": 0.2308,
	"num_input_tokens_seen": 168032,
	"step": 535,
	"train_runtime": 97.1955,
	"train_tokens_per_second": 1728.804
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.0030517578125,
	"learning_rate": 0.0265093429621792,
	"loss": 0.2348,
	"num_input_tokens_seen": 169600,
	"step": 540,
	"train_runtime": 98.0299,
	"train_tokens_per_second": 1730.084
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.2344598025083542,
	"eval_runtime": 0.8191,
	"eval_samples_per_second": 48.837,
	"eval_steps_per_second": 12.209,
	"num_input_tokens_seen": 169600,
	"step": 540
	},
	{
	"epoch": 6.055555555555555,
	"grad_norm": 0.00494384765625,
	"learning_rate": 0.026415529959618007,
	"loss": 0.2308,
	"num_input_tokens_seen": 171168,
	"step": 545,
	"train_runtime": 100.5102,
	"train_tokens_per_second": 1702.992
	},
	{
	"epoch": 6.111111111111111,
	"grad_norm": 0.0037078857421875,
	"learning_rate": 0.02632064370334158,
	"loss": 0.2311,
	"num_input_tokens_seen": 172672,
	"step": 550,
	"train_runtime": 101.3026,
	"train_tokens_per_second": 1704.517
	},
	{
	"epoch": 6.166666666666667,
	"grad_norm": 0.0038299560546875,
	"learning_rate": 0.026224693114269705,
	"loss": 0.233,
	"num_input_tokens_seen": 174240,
	"step": 555,
	"train_runtime": 102.1187,
	"train_tokens_per_second": 1706.249
	},
	{
	"epoch": 6.222222222222222,
	"grad_norm": 0.011962890625,
	"learning_rate": 0.02612768721338753,
	"loss": 0.2279,
	"num_input_tokens_seen": 175776,
	"step": 560,
	"train_runtime": 102.9125,
	"train_tokens_per_second": 1708.014
	},
	{
	"epoch": 6.277777777777778,
	"grad_norm": 0.0228271484375,
	"learning_rate": 0.02602963512089743,
	"loss": 0.232,
	"num_input_tokens_seen": 177376,
	"step": 565,
	"train_runtime": 103.7126,
	"train_tokens_per_second": 1710.265
	},
	{
	"epoch": 6.333333333333333,
	"grad_norm": 0.0133056640625,
	"learning_rate": 0.025930546055361575,
	"loss": 0.231,
	"num_input_tokens_seen": 178912,
	"step": 570,
	"train_runtime": 104.5028,
	"train_tokens_per_second": 1712.031
	},
	{
	"epoch": 6.388888888888889,
	"grad_norm": 0.01507568359375,
	"learning_rate": 0.025830429332835202,
	"loss": 0.2286,
	"num_input_tokens_seen": 180480,
	"step": 575,
	"train_runtime": 105.2944,
	"train_tokens_per_second": 1714.052
	},
	{
	"epoch": 6.444444444444445,
	"grad_norm": 0.015380859375,
	"learning_rate": 0.025729294365990772,
	"loss": 0.231,
	"num_input_tokens_seen": 182048,
	"step": 580,
	"train_runtime": 106.0853,
	"train_tokens_per_second": 1716.052
	},
	{
	"epoch": 6.5,
	"grad_norm": 0.007720947265625,
	"learning_rate": 0.025627150663232998,
	"loss": 0.2408,
	"num_input_tokens_seen": 183648,
	"step": 585,
	"train_runtime": 106.8794,
	"train_tokens_per_second": 1718.273
	},
	{
	"epoch": 6.555555555555555,
	"grad_norm": 0.00848388671875,
	"learning_rate": 0.025524007827804902,
	"loss": 0.2358,
	"num_input_tokens_seen": 185248,
	"step": 590,
	"train_runtime": 107.6729,
	"train_tokens_per_second": 1720.47
	},
	{
	"epoch": 6.611111111111111,
	"grad_norm": 0.0162353515625,
	"learning_rate": 0.025419875556884956,
	"loss": 0.2302,
	"num_input_tokens_seen": 186720,
	"step": 595,
	"train_runtime": 108.46,
	"train_tokens_per_second": 1721.556
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 0.0142822265625,
	"learning_rate": 0.025314763640675374,
	"loss": 0.2313,
	"num_input_tokens_seen": 188288,
	"step": 600,
	"train_runtime": 109.2516,
	"train_tokens_per_second": 1723.435
	},
	{
	"epoch": 6.722222222222222,
	"grad_norm": 0.006683349609375,
	"learning_rate": 0.025208681961481655,
	"loss": 0.2359,
	"num_input_tokens_seen": 189888,
	"step": 605,
	"train_runtime": 110.0491,
	"train_tokens_per_second": 1725.485
	},
	{
	"epoch": 6.777777777777778,
	"grad_norm": 0.006134033203125,
	"learning_rate": 0.025101640492783503,
	"loss": 0.238,
	"num_input_tokens_seen": 191424,
	"step": 610,
	"train_runtime": 110.8418,
	"train_tokens_per_second": 1727.002
	},
	{
	"epoch": 6.833333333333333,
	"grad_norm": 0.02490234375,
	"learning_rate": 0.024993649298297137,
	"loss": 0.2306,
	"num_input_tokens_seen": 193056,
	"step": 615,
	"train_runtime": 111.6358,
	"train_tokens_per_second": 1729.338
	},
	{
	"epoch": 6.888888888888889,
	"grad_norm": 0.01251220703125,
	"learning_rate": 0.02488471853102912,
	"loss": 0.2314,
	"num_input_tokens_seen": 194592,
	"step": 620,
	"train_runtime": 112.4269,
	"train_tokens_per_second": 1730.831
	},
	{
	"epoch": 6.944444444444445,
	"grad_norm": 0.0252685546875,
	"learning_rate": 0.024774858432321828,
	"loss": 0.2347,
	"num_input_tokens_seen": 196192,
	"step": 625,
	"train_runtime": 113.2223,
	"train_tokens_per_second": 1732.803
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.01275634765625,
	"learning_rate": 0.024664079330890574,
	"loss": 0.2294,
	"num_input_tokens_seen": 197792,
	"step": 630,
	"train_runtime": 114.0579,
	"train_tokens_per_second": 1734.137
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.23141007125377655,
	"eval_runtime": 0.8186,
	"eval_samples_per_second": 48.864,
	"eval_steps_per_second": 12.216,
	"num_input_tokens_seen": 197792,
	"step": 630
	},
	{
	"epoch": 7.055555555555555,
	"grad_norm": 0.003936767578125,
	"learning_rate": 0.02455239164185254,
	"loss": 0.2314,
	"num_input_tokens_seen": 199392,
	"step": 635,
	"train_runtime": 116.6196,
	"train_tokens_per_second": 1709.764
	},
	{
	"epoch": 7.111111111111111,
	"grad_norm": 0.005767822265625,
	"learning_rate": 0.024439805865747562,
	"loss": 0.2286,
	"num_input_tokens_seen": 200992,
	"step": 640,
	"train_runtime": 117.4275,
	"train_tokens_per_second": 1711.626
	},
	{
	"epoch": 7.166666666666667,
	"grad_norm": 0.0135498046875,
	"learning_rate": 0.02432633258755093,
	"loss": 0.236,
	"num_input_tokens_seen": 202592,
	"step": 645,
	"train_runtime": 118.2277,
	"train_tokens_per_second": 1713.574
	},
	{
	"epoch": 7.222222222222222,
	"grad_norm": 0.01141357421875,
	"learning_rate": 0.024211982475678205,
	"loss": 0.2237,
	"num_input_tokens_seen": 204064,
	"step": 650,
	"train_runtime": 119.016,
	"train_tokens_per_second": 1714.593
	},
	{
	"epoch": 7.277777777777778,
	"grad_norm": 0.0172119140625,
	"learning_rate": 0.024096766280982205,
	"loss": 0.2322,
	"num_input_tokens_seen": 205664,
	"step": 655,
	"train_runtime": 119.8138,
	"train_tokens_per_second": 1716.53
	},
	{
	"epoch": 7.333333333333333,
	"grad_norm": 0.0172119140625,
	"learning_rate": 0.023980694835742226,
	"loss": 0.2317,
	"num_input_tokens_seen": 207264,
	"step": 660,
	"train_runtime": 120.6083,
	"train_tokens_per_second": 1718.488
	},
	{
	"epoch": 7.388888888888889,
	"grad_norm": 0.0106201171875,
	"learning_rate": 0.023863779052645667,
	"loss": 0.2301,
	"num_input_tokens_seen": 208832,
	"step": 665,
	"train_runtime": 121.401,
	"train_tokens_per_second": 1720.184
	},
	{
	"epoch": 7.444444444444445,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.02374602992376202,
	"loss": 0.227,
	"num_input_tokens_seen": 210368,
	"step": 670,
	"train_runtime": 122.192,
	"train_tokens_per_second": 1721.618
	},
	{
	"epoch": 7.5,
	"grad_norm": 0.020751953125,
	"learning_rate": 0.023627458519509432,
	"loss": 0.228,
	"num_input_tokens_seen": 211936,
	"step": 675,
	"train_runtime": 122.9844,
	"train_tokens_per_second": 1723.275
	},
	{
	"epoch": 7.555555555555555,
	"grad_norm": 0.0233154296875,
	"learning_rate": 0.023508075987613904,
	"loss": 0.2143,
	"num_input_tokens_seen": 213536,
	"step": 680,
	"train_runtime": 123.7781,
	"train_tokens_per_second": 1725.151
	},
	{
	"epoch": 7.611111111111111,
	"grad_norm": 0.05078125,
	"learning_rate": 0.023387893552061202,
	"loss": 0.2273,
	"num_input_tokens_seen": 215136,
	"step": 685,
	"train_runtime": 124.613,
	"train_tokens_per_second": 1726.433
	},
	{
	"epoch": 7.666666666666667,
	"grad_norm": 0.02294921875,
	"learning_rate": 0.023266922512041644,
	"loss": 0.2513,
	"num_input_tokens_seen": 216736,
	"step": 690,
	"train_runtime": 125.4907,
	"train_tokens_per_second": 1727.107
	},
	{
	"epoch": 7.722222222222222,
	"grad_norm": 0.029052734375,
	"learning_rate": 0.023145174240887748,
	"loss": 0.2378,
	"num_input_tokens_seen": 218272,
	"step": 695,
	"train_runtime": 126.2833,
	"train_tokens_per_second": 1728.432
	},
	{
	"epoch": 7.777777777777778,
	"grad_norm": 0.031005859375,
	"learning_rate": 0.023022660185004967,
	"loss": 0.2316,
	"num_input_tokens_seen": 219808,
	"step": 700,
	"train_runtime": 127.0771,
	"train_tokens_per_second": 1729.722
	},
	{
	"epoch": 7.833333333333333,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.02289939186279551,
	"loss": 0.2331,
	"num_input_tokens_seen": 221312,
	"step": 705,
	"train_runtime": 127.8643,
	"train_tokens_per_second": 1730.834
	},
	{
	"epoch": 7.888888888888889,
	"grad_norm": 0.023193359375,
	"learning_rate": 0.022775380863575456,
	"loss": 0.2339,
	"num_input_tokens_seen": 222880,
	"step": 710,
	"train_runtime": 128.6548,
	"train_tokens_per_second": 1732.388
	},
	{
	"epoch": 7.944444444444445,
	"grad_norm": 0.03369140625,
	"learning_rate": 0.02265063884648513,
	"loss": 0.2344,
	"num_input_tokens_seen": 224416,
	"step": 715,
	"train_runtime": 129.4473,
	"train_tokens_per_second": 1733.648
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.049072265625,
	"learning_rate": 0.022525177539392937,
	"loss": 0.218,
	"num_input_tokens_seen": 225984,
	"step": 720,
	"train_runtime": 130.2822,
	"train_tokens_per_second": 1734.573
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.2308429777622223,
	"eval_runtime": 0.8222,
	"eval_samples_per_second": 48.649,
	"eval_steps_per_second": 12.162,
	"num_input_tokens_seen": 225984,
	"step": 720
	},
	{
	"epoch": 8.055555555555555,
	"grad_norm": 0.052978515625,
	"learning_rate": 0.02239900873779278,
	"loss": 0.2506,
	"num_input_tokens_seen": 227552,
	"step": 725,
	"train_runtime": 132.8103,
	"train_tokens_per_second": 1713.361
	},
	{
	"epoch": 8.11111111111111,
	"grad_norm": 0.03564453125,
	"learning_rate": 0.022272144303695056,
	"loss": 0.2338,
	"num_input_tokens_seen": 229088,
	"step": 730,
	"train_runtime": 133.6036,
	"train_tokens_per_second": 1714.684
	},
	{
	"epoch": 8.166666666666666,
	"grad_norm": 0.1044921875,
	"learning_rate": 0.02214459616451143,
	"loss": 0.2381,
	"num_input_tokens_seen": 230656,
	"step": 735,
	"train_runtime": 134.4027,
	"train_tokens_per_second": 1716.156
	},
	{
	"epoch": 8.222222222222221,
	"grad_norm": 0.047119140625,
	"learning_rate": 0.02201637631193346,
	"loss": 0.2288,
	"num_input_tokens_seen": 232224,
	"step": 740,
	"train_runtime": 135.195,
	"train_tokens_per_second": 1717.697
	},
	{
	"epoch": 8.277777777777779,
	"grad_norm": 0.2265625,
	"learning_rate": 0.021887496800805175,
	"loss": 0.2157,
	"num_input_tokens_seen": 233792,
	"step": 745,
	"train_runtime": 135.9862,
	"train_tokens_per_second": 1719.233
	},
	{
	"epoch": 8.333333333333334,
	"grad_norm": 0.061279296875,
	"learning_rate": 0.021757969747989707,
	"loss": 0.2441,
	"num_input_tokens_seen": 235328,
	"step": 750,
	"train_runtime": 136.775,
	"train_tokens_per_second": 1720.549
	},
	{
	"epoch": 8.38888888888889,
	"grad_norm": 0.0341796875,
	"learning_rate": 0.02162780733123012,
	"loss": 0.2362,
	"num_input_tokens_seen": 236864,
	"step": 755,
	"train_runtime": 137.5647,
	"train_tokens_per_second": 1721.838
	},
	{
	"epoch": 8.444444444444445,
	"grad_norm": 2.125,
	"learning_rate": 0.021497021788004445,
	"loss": 0.9504,
	"num_input_tokens_seen": 238368,
	"step": 760,
	"train_runtime": 138.3522,
	"train_tokens_per_second": 1722.907
	},
	{
	"epoch": 8.5,
	"grad_norm": 0.1669921875,
	"learning_rate": 0.021365625414375228,
	"loss": 0.2414,
	"num_input_tokens_seen": 239936,
	"step": 765,
	"train_runtime": 139.1437,
	"train_tokens_per_second": 1724.375
	},
	{
	"epoch": 8.555555555555555,
	"grad_norm": 0.10400390625,
	"learning_rate": 0.021233630563833435,
	"loss": 0.2626,
	"num_input_tokens_seen": 241536,
	"step": 770,
	"train_runtime": 139.9389,
	"train_tokens_per_second": 1726.01
	},
	{
	"epoch": 8.61111111111111,
	"grad_norm": 0.038330078125,
	"learning_rate": 0.021101049646137005,
	"loss": 0.2398,
	"num_input_tokens_seen": 243136,
	"step": 775,
	"train_runtime": 140.7323,
	"train_tokens_per_second": 1727.648
	},
	{
	"epoch": 8.666666666666666,
	"grad_norm": 0.051025390625,
	"learning_rate": 0.02096789512614417,
	"loss": 0.2382,
	"num_input_tokens_seen": 244704,
	"step": 780,
	"train_runtime": 141.5236,
	"train_tokens_per_second": 1729.069
	},
	{
	"epoch": 8.722222222222221,
	"grad_norm": 0.048095703125,
	"learning_rate": 0.020834179522641504,
	"loss": 0.2276,
	"num_input_tokens_seen": 246272,
	"step": 785,
	"train_runtime": 142.3196,
	"train_tokens_per_second": 1730.416
	},
	{
	"epoch": 8.777777777777779,
	"grad_norm": 0.01165771484375,
	"learning_rate": 0.020699915407166987,
	"loss": 0.2446,
	"num_input_tokens_seen": 247808,
	"step": 790,
	"train_runtime": 143.1092,
	"train_tokens_per_second": 1731.6
	},
	{
	"epoch": 8.833333333333334,
	"grad_norm": 0.0169677734375,
	"learning_rate": 0.020565115402828002,
	"loss": 0.2376,
	"num_input_tokens_seen": 249376,
	"step": 795,
	"train_runtime": 143.9049,
	"train_tokens_per_second": 1732.922
	},
	{
	"epoch": 8.88888888888889,
	"grad_norm": 0.034912109375,
	"learning_rate": 0.02042979218311462,
	"loss": 0.2325,
	"num_input_tokens_seen": 250944,
	"step": 800,
	"train_runtime": 144.6957,
	"train_tokens_per_second": 1734.288
	},
	{
	"epoch": 8.944444444444445,
	"grad_norm": 0.0235595703125,
	"learning_rate": 0.02029395847070803,
	"loss": 0.226,
	"num_input_tokens_seen": 252512,
	"step": 805,
	"train_runtime": 145.4907,
	"train_tokens_per_second": 1735.588
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.01190185546875,
	"learning_rate": 0.020157627036284417,
	"loss": 0.238,
	"num_input_tokens_seen": 254112,
	"step": 810,
	"train_runtime": 146.3281,
	"train_tokens_per_second": 1736.591
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.23274096846580505,
	"eval_runtime": 0.8192,
	"eval_samples_per_second": 48.831,
	"eval_steps_per_second": 12.208,
	"num_input_tokens_seen": 254112,
	"step": 810
	},
	{
	"epoch": 9.055555555555555,
	"grad_norm": 0.02197265625,
	"learning_rate": 0.02002081069731427,
	"loss": 0.2334,
	"num_input_tokens_seen": 255680,
	"step": 815,
	"train_runtime": 148.7956,
	"train_tokens_per_second": 1718.33
	},
	{
	"epoch": 9.11111111111111,
	"grad_norm": 0.0185546875,
	"learning_rate": 0.01988352231685735,
	"loss": 0.2236,
	"num_input_tokens_seen": 257216,
	"step": 820,
	"train_runtime": 149.5891,
	"train_tokens_per_second": 1719.483
	},
	{
	"epoch": 9.166666666666666,
	"grad_norm": 0.049560546875,
	"learning_rate": 0.019745774802353344,
	"loss": 0.2579,
	"num_input_tokens_seen": 258816,
	"step": 825,
	"train_runtime": 150.3889,
	"train_tokens_per_second": 1720.978
	},
	{
	"epoch": 9.222222222222221,
	"grad_norm": 0.00970458984375,
	"learning_rate": 0.019607581104408342,
	"loss": 0.2457,
	"num_input_tokens_seen": 260384,
	"step": 830,
	"train_runtime": 151.1849,
	"train_tokens_per_second": 1722.289
	},
	{
	"epoch": 9.277777777777779,
	"grad_norm": 0.0211181640625,
	"learning_rate": 0.019468954215577226,
	"loss": 0.2301,
	"num_input_tokens_seen": 262048,
	"step": 835,
	"train_runtime": 151.9844,
	"train_tokens_per_second": 1724.177
	},
	{
	"epoch": 9.333333333333334,
	"grad_norm": 0.02734375,
	"learning_rate": 0.01932990716914222,
	"loss": 0.244,
	"num_input_tokens_seen": 263616,
	"step": 840,
	"train_runtime": 152.7753,
	"train_tokens_per_second": 1725.514
	},
	{
	"epoch": 9.38888888888889,
	"grad_norm": 0.0093994140625,
	"learning_rate": 0.019190453037887464,
	"loss": 0.2323,
	"num_input_tokens_seen": 265152,
	"step": 845,
	"train_runtime": 153.5949,
	"train_tokens_per_second": 1726.308
	},
	{
	"epoch": 9.444444444444445,
	"grad_norm": 0.01708984375,
	"learning_rate": 0.019050604932870013,
	"loss": 0.2314,
	"num_input_tokens_seen": 266688,
	"step": 850,
	"train_runtime": 154.3846,
	"train_tokens_per_second": 1727.427
	},
	{
	"epoch": 9.5,
	"grad_norm": 0.0322265625,
	"learning_rate": 0.01891037600218712,
	"loss": 0.2338,
	"num_input_tokens_seen": 268256,
	"step": 855,
	"train_runtime": 155.1779,
	"train_tokens_per_second": 1728.7
	},
	{
	"epoch": 9.555555555555555,
	"grad_norm": 0.022705078125,
	"learning_rate": 0.018769779429740154,
	"loss": 0.2379,
	"num_input_tokens_seen": 269824,
	"step": 860,
	"train_runtime": 155.971,
	"train_tokens_per_second": 1729.963
	},
	{
	"epoch": 9.61111111111111,
	"grad_norm": 0.0140380859375,
	"learning_rate": 0.018628828433995014,
	"loss": 0.2388,
	"num_input_tokens_seen": 271424,
	"step": 865,
	"train_runtime": 156.7643,
	"train_tokens_per_second": 1731.414
	},
	{
	"epoch": 9.666666666666666,
	"grad_norm": 0.007415771484375,
	"learning_rate": 0.018487536266739445,
	"loss": 0.2359,
	"num_input_tokens_seen": 272960,
	"step": 870,
	"train_runtime": 157.5546,
	"train_tokens_per_second": 1732.478
	},
	{
	"epoch": 9.722222222222221,
	"grad_norm": 0.01263427734375,
	"learning_rate": 0.01834591621183709,
	"loss": 0.229,
	"num_input_tokens_seen": 274528,
	"step": 875,
	"train_runtime": 158.3508,
	"train_tokens_per_second": 1733.67
	},
	{
	"epoch": 9.777777777777779,
	"grad_norm": 0.00537109375,
	"learning_rate": 0.018203981583978603,
	"loss": 0.235,
	"num_input_tokens_seen": 276128,
	"step": 880,
	"train_runtime": 159.1469,
	"train_tokens_per_second": 1735.051
	},
	{
	"epoch": 9.833333333333334,
	"grad_norm": 0.006561279296875,
	"learning_rate": 0.018061745727429836,
	"loss": 0.2284,
	"num_input_tokens_seen": 277664,
	"step": 885,
	"train_runtime": 159.9388,
	"train_tokens_per_second": 1736.064
	},
	{
	"epoch": 9.88888888888889,
	"grad_norm": 0.0159912109375,
	"learning_rate": 0.017919222014777265,
	"loss": 0.2371,
	"num_input_tokens_seen": 279232,
	"step": 890,
	"train_runtime": 160.7334,
	"train_tokens_per_second": 1737.237
	},
	{
	"epoch": 9.944444444444445,
	"grad_norm": 0.003265380859375,
	"learning_rate": 0.017776423845670717,
	"loss": 0.228,
	"num_input_tokens_seen": 280768,
	"step": 895,
	"train_runtime": 161.5242,
	"train_tokens_per_second": 1738.241
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.01251220703125,
	"learning_rate": 0.0176333646455636,
	"loss": 0.2218,
	"num_input_tokens_seen": 282368,
	"step": 900,
	"train_runtime": 162.3604,
	"train_tokens_per_second": 1739.143
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.23551960289478302,
	"eval_runtime": 0.817,
	"eval_samples_per_second": 48.961,
	"eval_steps_per_second": 12.24,
	"num_input_tokens_seen": 282368,
	"step": 900
	},
	{
	"epoch": 10.055555555555555,
	"grad_norm": 0.0185546875,
	"learning_rate": 0.017490057864450664,
	"loss": 0.2283,
	"num_input_tokens_seen": 283936,
	"step": 905,
	"train_runtime": 165.2451,
	"train_tokens_per_second": 1718.272
	},
	{
	"epoch": 10.11111111111111,
	"grad_norm": 0.00946044921875,
	"learning_rate": 0.017346516975603462,
	"loss": 0.2199,
	"num_input_tokens_seen": 285504,
	"step": 910,
	"train_runtime": 166.0581,
	"train_tokens_per_second": 1719.302
	},
	{
	"epoch": 10.166666666666666,
	"grad_norm": 0.01251220703125,
	"learning_rate": 0.017202755474303683,
	"loss": 0.2405,
	"num_input_tokens_seen": 287072,
	"step": 915,
	"train_runtime": 166.8565,
	"train_tokens_per_second": 1720.472
	},
	{
	"epoch": 10.222222222222221,
	"grad_norm": 0.011474609375,
	"learning_rate": 0.017058786876574313,
	"loss": 0.2363,
	"num_input_tokens_seen": 288576,
	"step": 920,
	"train_runtime": 167.6452,
	"train_tokens_per_second": 1721.35
	},
	{
	"epoch": 10.277777777777779,
	"grad_norm": 0.00555419921875,
	"learning_rate": 0.016914624717908923,
	"loss": 0.2355,
	"num_input_tokens_seen": 290144,
	"step": 925,
	"train_runtime": 168.4381,
	"train_tokens_per_second": 1722.555
	},
	{
	"epoch": 10.333333333333334,
	"grad_norm": 0.0235595703125,
	"learning_rate": 0.016770282551999093,
	"loss": 0.2278,
	"num_input_tokens_seen": 291744,
	"step": 930,
	"train_runtime": 169.2344,
	"train_tokens_per_second": 1723.905
	},
	{
	"epoch": 10.38888888888889,
	"grad_norm": 0.01385498046875,
	"learning_rate": 0.01662577394946016,
	"loss": 0.2358,
	"num_input_tokens_seen": 293344,
	"step": 935,
	"train_runtime": 170.0296,
	"train_tokens_per_second": 1725.253
	},
	{
	"epoch": 10.444444444444445,
	"grad_norm": 0.00482177734375,
	"learning_rate": 0.016481112496555317,
	"loss": 0.2315,
	"num_input_tokens_seen": 294912,
	"step": 940,
	"train_runtime": 170.8203,
	"train_tokens_per_second": 1726.446
	},
	{
	"epoch": 10.5,
	"grad_norm": 0.01275634765625,
	"learning_rate": 0.016336311793918295,
	"loss": 0.2304,
	"num_input_tokens_seen": 296480,
	"step": 945,
	"train_runtime": 171.6139,
	"train_tokens_per_second": 1727.599
	},
	{
	"epoch": 10.555555555555555,
	"grad_norm": 0.00665283203125,
	"learning_rate": 0.016191385455274654,
	"loss": 0.2347,
	"num_input_tokens_seen": 298048,
	"step": 950,
	"train_runtime": 172.4051,
	"train_tokens_per_second": 1728.766
	},
	{
	"epoch": 10.61111111111111,
	"grad_norm": 0.0230712890625,
	"learning_rate": 0.016046347106161877,
	"loss": 0.2326,
	"num_input_tokens_seen": 299648,
	"step": 955,
	"train_runtime": 173.1986,
	"train_tokens_per_second": 1730.083
	},
	{
	"epoch": 10.666666666666666,
	"grad_norm": 0.011474609375,
	"learning_rate": 0.01590121038264835,
	"loss": 0.2264,
	"num_input_tokens_seen": 301216,
	"step": 960,
	"train_runtime": 173.995,
	"train_tokens_per_second": 1731.176
	},
	{
	"epoch": 10.722222222222221,
	"grad_norm": 0.022705078125,
	"learning_rate": 0.015755988930051302,
	"loss": 0.2329,
	"num_input_tokens_seen": 302784,
	"step": 965,
	"train_runtime": 174.7881,
	"train_tokens_per_second": 1732.292
	},
	{
	"epoch": 10.777777777777779,
	"grad_norm": 0.01312255859375,
	"learning_rate": 0.01561069640165394,
	"loss": 0.2371,
	"num_input_tokens_seen": 304320,
	"step": 970,
	"train_runtime": 175.5852,
	"train_tokens_per_second": 1733.175
	},
	{
	"epoch": 10.833333333333334,
	"grad_norm": 0.01214599609375,
	"learning_rate": 0.015465346457421807,
	"loss": 0.239,
	"num_input_tokens_seen": 305856,
	"step": 975,
	"train_runtime": 176.3792,
	"train_tokens_per_second": 1734.082
	},
	{
	"epoch": 10.88888888888889,
	"grad_norm": 0.0140380859375,
	"learning_rate": 0.015319952762718515,
	"loss": 0.2338,
	"num_input_tokens_seen": 307424,
	"step": 980,
	"train_runtime": 177.1761,
	"train_tokens_per_second": 1735.132
	},
	{
	"epoch": 10.944444444444445,
	"grad_norm": 0.01434326171875,
	"learning_rate": 0.015174528987020958,
	"loss": 0.234,
	"num_input_tokens_seen": 308992,
	"step": 985,
	"train_runtime": 177.9704,
	"train_tokens_per_second": 1736.198
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.01129150390625,
	"learning_rate": 0.015029088802634146,
	"loss": 0.2349,
	"num_input_tokens_seen": 310560,
	"step": 990,
	"train_runtime": 178.804,
	"train_tokens_per_second": 1736.874
	},
	{
	"epoch": 11.0,
	"eval_loss": 0.23004861176013947,
	"eval_runtime": 0.8164,
	"eval_samples_per_second": 48.995,
	"eval_steps_per_second": 12.249,
	"num_input_tokens_seen": 310560,
	"step": 990
	},
	{
	"epoch": 11.055555555555555,
	"grad_norm": 0.0113525390625,
	"learning_rate": 0.014883645883405797,
	"loss": 0.2328,
	"num_input_tokens_seen": 312160,
	"step": 995,
	"train_runtime": 181.2905,
	"train_tokens_per_second": 1721.877
	},
	{
	"epoch": 11.11111111111111,
	"grad_norm": 0.01300048828125,
	"learning_rate": 0.014738213903440746,
	"loss": 0.2319,
	"num_input_tokens_seen": 313728,
	"step": 1000,
	"train_runtime": 182.1312,
	"train_tokens_per_second": 1722.538
	},
	{
	"epoch": 11.166666666666666,
	"grad_norm": 0.01287841796875,
	"learning_rate": 0.014592806535815357,
	"loss": 0.2386,
	"num_input_tokens_seen": 315264,
	"step": 1005,
	"train_runtime": 182.9305,
	"train_tokens_per_second": 1723.409
	},
	{
	"epoch": 11.222222222222221,
	"grad_norm": 0.02099609375,
	"learning_rate": 0.014447437451291999,
	"loss": 0.2291,
	"num_input_tokens_seen": 316864,
	"step": 1010,
	"train_runtime": 183.7272,
	"train_tokens_per_second": 1724.644
	},
	{
	"epoch": 11.277777777777779,
	"grad_norm": 0.01251220703125,
	"learning_rate": 0.014302120317033798,
	"loss": 0.2201,
	"num_input_tokens_seen": 318432,
	"step": 1015,
	"train_runtime": 184.5231,
	"train_tokens_per_second": 1725.703
	},
	{
	"epoch": 11.333333333333334,
	"grad_norm": 0.004974365234375,
	"learning_rate": 0.014156868795319669,
	"loss": 0.2403,
	"num_input_tokens_seen": 320032,
	"step": 1020,
	"train_runtime": 185.3161,
	"train_tokens_per_second": 1726.952
	},
	{
	"epoch": 11.38888888888889,
	"grad_norm": 0.01190185546875,
	"learning_rate": 0.014011696542259821,
	"loss": 0.2356,
	"num_input_tokens_seen": 321536,
	"step": 1025,
	"train_runtime": 186.1035,
	"train_tokens_per_second": 1727.727
	},
	{
	"epoch": 11.444444444444445,
	"grad_norm": 0.01007080078125,
	"learning_rate": 0.013866617206511882,
	"loss": 0.235,
	"num_input_tokens_seen": 323040,
	"step": 1030,
	"train_runtime": 186.8909,
	"train_tokens_per_second": 1728.495
	},
	{
	"epoch": 11.5,
	"grad_norm": 0.00927734375,
	"learning_rate": 0.013721644427997651,
	"loss": 0.2268,
	"num_input_tokens_seen": 324608,
	"step": 1035,
	"train_runtime": 187.6849,
	"train_tokens_per_second": 1729.537
	},
	{
	"epoch": 11.555555555555555,
	"grad_norm": 0.0125732421875,
	"learning_rate": 0.01357679183662076,
	"loss": 0.2333,
	"num_input_tokens_seen": 326144,
	"step": 1040,
	"train_runtime": 188.4763,
	"train_tokens_per_second": 1730.425
	},
	{
	"epoch": 11.61111111111111,
	"grad_norm": 0.0048828125,
	"learning_rate": 0.0134320730509852,
	"loss": 0.2322,
	"num_input_tokens_seen": 327712,
	"step": 1045,
	"train_runtime": 189.2669,
	"train_tokens_per_second": 1731.481
	},
	{
	"epoch": 11.666666666666666,
	"grad_norm": 0.0029296875,
	"learning_rate": 0.01328750167711494,
	"loss": 0.2322,
	"num_input_tokens_seen": 329248,
	"step": 1050,
	"train_runtime": 190.0636,
	"train_tokens_per_second": 1732.304
	},
	{
	"epoch": 11.722222222222221,
	"grad_norm": 0.004974365234375,
	"learning_rate": 0.013143091307174755,
	"loss": 0.2413,
	"num_input_tokens_seen": 330816,
	"step": 1055,
	"train_runtime": 190.8551,
	"train_tokens_per_second": 1733.336
	},
	{
	"epoch": 11.777777777777779,
	"grad_norm": 0.0208740234375,
	"learning_rate": 0.012998855518192309,
	"loss": 0.2275,
	"num_input_tokens_seen": 332416,
	"step": 1060,
	"train_runtime": 191.6505,
	"train_tokens_per_second": 1734.491
	},
	{
	"epoch": 11.833333333333334,
	"grad_norm": 0.010009765625,
	"learning_rate": 0.012854807870781686,
	"loss": 0.2338,
	"num_input_tokens_seen": 334016,
	"step": 1065,
	"train_runtime": 192.4488,
	"train_tokens_per_second": 1735.61
	},
	{
	"epoch": 11.88888888888889,
	"grad_norm": 0.01092529296875,
	"learning_rate": 0.012710961907868478,
	"loss": 0.2338,
	"num_input_tokens_seen": 335616,
	"step": 1070,
	"train_runtime": 193.2439,
	"train_tokens_per_second": 1736.748
	},
	{
	"epoch": 11.944444444444445,
	"grad_norm": 0.0027923583984375,
	"learning_rate": 0.012567331153416489,
	"loss": 0.2359,
	"num_input_tokens_seen": 337152,
	"step": 1075,
	"train_runtime": 194.0342,
	"train_tokens_per_second": 1737.59
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.004852294921875,
	"learning_rate": 0.012423929111156296,
	"loss": 0.2315,
	"num_input_tokens_seen": 338784,
	"step": 1080,
	"train_runtime": 194.8731,
	"train_tokens_per_second": 1738.486
	},
	{
	"epoch": 12.0,
	"eval_loss": 0.23689353466033936,
	"eval_runtime": 0.8185,
	"eval_samples_per_second": 48.871,
	"eval_steps_per_second": 12.218,
	"num_input_tokens_seen": 338784,
	"step": 1080
	},
	{
	"epoch": 12.055555555555555,
	"grad_norm": 0.01953125,
	"learning_rate": 0.012280769263315627,
	"loss": 0.2296,
	"num_input_tokens_seen": 340288,
	"step": 1085,
	"train_runtime": 197.3733,
	"train_tokens_per_second": 1724.083
	},
	{
	"epoch": 12.11111111111111,
	"grad_norm": 0.01123046875,
	"learning_rate": 0.012137865069351828,
	"loss": 0.2306,
	"num_input_tokens_seen": 341888,
	"step": 1090,
	"train_runtime": 198.1719,
	"train_tokens_per_second": 1725.209
	},
	{
	"epoch": 12.166666666666666,
	"grad_norm": 0.0205078125,
	"learning_rate": 0.01199522996468644,
	"loss": 0.2317,
	"num_input_tokens_seen": 343488,
	"step": 1095,
	"train_runtime": 198.9687,
	"train_tokens_per_second": 1726.342
	},
	{
	"epoch": 12.222222222222221,
	"grad_norm": 0.0130615234375,
	"learning_rate": 0.01185287735944204,
	"loss": 0.2309,
	"num_input_tokens_seen": 344992,
	"step": 1100,
	"train_runtime": 199.7613,
	"train_tokens_per_second": 1727.021
	},
	{
	"epoch": 12.277777777777779,
	"grad_norm": 0.0029296875,
	"learning_rate": 0.011710820637181448,
	"loss": 0.2392,
	"num_input_tokens_seen": 346560,
	"step": 1105,
	"train_runtime": 200.5543,
	"train_tokens_per_second": 1728.011
	},
	{
	"epoch": 12.333333333333334,
	"grad_norm": 0.00457763671875,
	"learning_rate": 0.011569073153649483,
	"loss": 0.2339,
	"num_input_tokens_seen": 348160,
	"step": 1110,
	"train_runtime": 201.3491,
	"train_tokens_per_second": 1729.136
	},
	{
	"epoch": 12.38888888888889,
	"grad_norm": 0.0118408203125,
	"learning_rate": 0.01142764823551724,
	"loss": 0.234,
	"num_input_tokens_seen": 349760,
	"step": 1115,
	"train_runtime": 202.1428,
	"train_tokens_per_second": 1730.262
	},
	{
	"epoch": 12.444444444444445,
	"grad_norm": 0.01214599609375,
	"learning_rate": 0.011286559179129213,
	"loss": 0.2319,
	"num_input_tokens_seen": 351328,
	"step": 1120,
	"train_runtime": 202.9386,
	"train_tokens_per_second": 1731.204
	},
	{
	"epoch": 12.5,
	"grad_norm": 0.020263671875,
	"learning_rate": 0.01114581924925317,
	"loss": 0.2318,
	"num_input_tokens_seen": 352896,
	"step": 1125,
	"train_runtime": 203.734,
	"train_tokens_per_second": 1732.141
	},
	{
	"epoch": 12.555555555555555,
	"grad_norm": 0.01019287109375,
	"learning_rate": 0.011005441677833067,
	"loss": 0.2295,
	"num_input_tokens_seen": 354464,
	"step": 1130,
	"train_runtime": 204.5288,
	"train_tokens_per_second": 1733.076
	},
	{
	"epoch": 12.61111111111111,
	"grad_norm": 0.00994873046875,
	"learning_rate": 0.010865439662745013,
	"loss": 0.2339,
	"num_input_tokens_seen": 356032,
	"step": 1135,
	"train_runtime": 205.321,
	"train_tokens_per_second": 1734.026
	},
	{
	"epoch": 12.666666666666666,
	"grad_norm": 0.01141357421875,
	"learning_rate": 0.01072582636655643,
	"loss": 0.2263,
	"num_input_tokens_seen": 357632,
	"step": 1140,
	"train_runtime": 206.1151,
	"train_tokens_per_second": 1735.108
	},
	{
	"epoch": 12.722222222222221,
	"grad_norm": 0.0113525390625,
	"learning_rate": 0.010586614915288572,
	"loss": 0.2327,
	"num_input_tokens_seen": 359168,
	"step": 1145,
	"train_runtime": 206.9071,
	"train_tokens_per_second": 1735.89
	},
	{
	"epoch": 12.777777777777779,
	"grad_norm": 0.005645751953125,
	"learning_rate": 0.010447818397182444,
	"loss": 0.2337,
	"num_input_tokens_seen": 360736,
	"step": 1150,
	"train_runtime": 207.6979,
	"train_tokens_per_second": 1736.83
	},
	{
	"epoch": 12.833333333333334,
	"grad_norm": 0.0033721923828125,
	"learning_rate": 0.010309449861468272,
	"loss": 0.2317,
	"num_input_tokens_seen": 362304,
	"step": 1155,
	"train_runtime": 208.4895,
	"train_tokens_per_second": 1737.757
	},
	{
	"epoch": 12.88888888888889,
	"grad_norm": 0.004791259765625,
	"learning_rate": 0.010171522317138689,
	"loss": 0.2318,
	"num_input_tokens_seen": 363872,
	"step": 1160,
	"train_runtime": 209.2816,
	"train_tokens_per_second": 1738.671
	},
	{
	"epoch": 12.944444444444445,
	"grad_norm": 0.00982666015625,
	"learning_rate": 0.01003404873172563,
	"loss": 0.2339,
	"num_input_tokens_seen": 365376,
	"step": 1165,
	"train_runtime": 210.0732,
	"train_tokens_per_second": 1739.28
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.0029296875,
	"learning_rate": 0.009897042030081191,
	"loss": 0.2297,
	"num_input_tokens_seen": 366944,
	"step": 1170,
	"train_runtime": 210.9074,
	"train_tokens_per_second": 1739.834
	},
	{
	"epoch": 13.0,
	"eval_loss": 0.2312408983707428,
	"eval_runtime": 0.8181,
	"eval_samples_per_second": 48.893,
	"eval_steps_per_second": 12.223,
	"num_input_tokens_seen": 366944,
	"step": 1170
	},
	{
	"epoch": 13.055555555555555,
	"grad_norm": 0.0034332275390625,
	"learning_rate": 0.009760515093162463,
	"loss": 0.2329,
	"num_input_tokens_seen": 368384,
	"step": 1175,
	"train_runtime": 213.385,
	"train_tokens_per_second": 1726.382
	},
	{
	"epoch": 13.11111111111111,
	"grad_norm": 0.01220703125,
	"learning_rate": 0.009624480756820496,
	"loss": 0.2307,
	"num_input_tokens_seen": 369984,
	"step": 1180,
	"train_runtime": 214.2014,
	"train_tokens_per_second": 1727.272
	},
	{
	"epoch": 13.166666666666666,
	"grad_norm": 0.011474609375,
	"learning_rate": 0.009488951810593525,
	"loss": 0.2327,
	"num_input_tokens_seen": 371520,
	"step": 1185,
	"train_runtime": 214.9913,
	"train_tokens_per_second": 1728.07
	},
	{
	"epoch": 13.222222222222221,
	"grad_norm": 0.01251220703125,
	"learning_rate": 0.009353940996504537,
	"loss": 0.2391,
	"num_input_tokens_seen": 373120,
	"step": 1190,
	"train_runtime": 215.7896,
	"train_tokens_per_second": 1729.092
	},
	{
	"epoch": 13.277777777777779,
	"grad_norm": 0.01239013671875,
	"learning_rate": 0.009219461007863278,
	"loss": 0.2317,
	"num_input_tokens_seen": 374688,
	"step": 1195,
	"train_runtime": 216.5862,
	"train_tokens_per_second": 1729.972
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 0.0036163330078125,
	"learning_rate": 0.009085524488072901,
	"loss": 0.2347,
	"num_input_tokens_seen": 376288,
	"step": 1200,
	"train_runtime": 217.3817,
	"train_tokens_per_second": 1731.001
	},
	{
	"epoch": 13.38888888888889,
	"grad_norm": 0.00543212890625,
	"learning_rate": 0.008952144029441248,
	"loss": 0.2304,
	"num_input_tokens_seen": 377888,
	"step": 1205,
	"train_runtime": 218.1804,
	"train_tokens_per_second": 1731.998
	},
	{
	"epoch": 13.444444444444445,
	"grad_norm": 0.0064697265625,
	"learning_rate": 0.008819332171996975,
	"loss": 0.2325,
	"num_input_tokens_seen": 379424,
	"step": 1210,
	"train_runtime": 218.971,
	"train_tokens_per_second": 1732.759
	},
	{
	"epoch": 13.5,
	"grad_norm": 0.01080322265625,
	"learning_rate": 0.008687101402310564,
	"loss": 0.2336,
	"num_input_tokens_seen": 380992,
	"step": 1215,
	"train_runtime": 219.765,
	"train_tokens_per_second": 1733.634
	},
	{
	"epoch": 13.555555555555555,
	"grad_norm": 0.003936767578125,
	"learning_rate": 0.008555464152320372,
	"loss": 0.2295,
	"num_input_tokens_seen": 382592,
	"step": 1220,
	"train_runtime": 220.5584,
	"train_tokens_per_second": 1734.652
	},
	{
	"epoch": 13.61111111111111,
	"grad_norm": 0.01177978515625,
	"learning_rate": 0.008424432798163836,
	"loss": 0.2284,
	"num_input_tokens_seen": 384192,
	"step": 1225,
	"train_runtime": 221.3532,
	"train_tokens_per_second": 1735.651
	},
	{
	"epoch": 13.666666666666666,
	"grad_norm": 0.01123046875,
	"learning_rate": 0.008294019659013892,
	"loss": 0.2325,
	"num_input_tokens_seen": 385760,
	"step": 1230,
	"train_runtime": 222.1454,
	"train_tokens_per_second": 1736.521
	},
	{
	"epoch": 13.722222222222221,
	"grad_norm": 0.0120849609375,
	"learning_rate": 0.008164236995920735,
	"loss": 0.2358,
	"num_input_tokens_seen": 387328,
	"step": 1235,
	"train_runtime": 222.9361,
	"train_tokens_per_second": 1737.395
	},
	{
	"epoch": 13.777777777777779,
	"grad_norm": 0.00482177734375,
	"learning_rate": 0.008035097010659147,
	"loss": 0.2295,
	"num_input_tokens_seen": 388896,
	"step": 1240,
	"train_runtime": 223.7293,
	"train_tokens_per_second": 1738.244
	},
	{
	"epoch": 13.833333333333334,
	"grad_norm": 0.0101318359375,
	"learning_rate": 0.00790661184458125,
	"loss": 0.2346,
	"num_input_tokens_seen": 390496,
	"step": 1245,
	"train_runtime": 224.5255,
	"train_tokens_per_second": 1739.206
	},
	{
	"epoch": 13.88888888888889,
	"grad_norm": 0.0030670166015625,
	"learning_rate": 0.007778793577475039,
	"loss": 0.2284,
	"num_input_tokens_seen": 392064,
	"step": 1250,
	"train_runtime": 225.3179,
	"train_tokens_per_second": 1740.048
	},
	{
	"epoch": 13.944444444444445,
	"grad_norm": 0.0093994140625,
	"learning_rate": 0.007651654226428696,
	"loss": 0.2265,
	"num_input_tokens_seen": 393632,
	"step": 1255,
	"train_runtime": 226.1132,
	"train_tokens_per_second": 1740.862
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.0101318359375,
	"learning_rate": 0.0075252057447007465,
	"loss": 0.2276,
	"num_input_tokens_seen": 395104,
	"step": 1260,
	"train_runtime": 226.95,
	"train_tokens_per_second": 1740.93
	},
	{
	"epoch": 14.0,
	"eval_loss": 0.2316901683807373,
	"eval_runtime": 0.8178,
	"eval_samples_per_second": 48.909,
	"eval_steps_per_second": 12.227,
	"num_input_tokens_seen": 395104,
	"step": 1260
	},
	{
	"epoch": 14.055555555555555,
	"grad_norm": 0.00628662109375,
	"learning_rate": 0.007399460020596265,
	"loss": 0.2307,
	"num_input_tokens_seen": 396672,
	"step": 1265,
	"train_runtime": 229.4732,
	"train_tokens_per_second": 1728.62
	},
	{
	"epoch": 14.11111111111111,
	"grad_norm": 0.005584716796875,
	"learning_rate": 0.007274428876349185,
	"loss": 0.2348,
	"num_input_tokens_seen": 398304,
	"step": 1270,
	"train_runtime": 230.292,
	"train_tokens_per_second": 1729.561
	},
	{
	"epoch": 14.166666666666666,
	"grad_norm": 0.01055908203125,
	"learning_rate": 0.007150124067010788,
	"loss": 0.2317,
	"num_input_tokens_seen": 399840,
	"step": 1275,
	"train_runtime": 231.085,
	"train_tokens_per_second": 1730.272
	},
	{
	"epoch": 14.222222222222221,
	"grad_norm": 0.0037689208984375,
	"learning_rate": 0.007026557279344533,
	"loss": 0.2286,
	"num_input_tokens_seen": 401440,
	"step": 1280,
	"train_runtime": 231.8835,
	"train_tokens_per_second": 1731.214
	},
	{
	"epoch": 14.277777777777779,
	"grad_norm": 0.0035400390625,
	"learning_rate": 0.006903740130727311,
	"loss": 0.2264,
	"num_input_tokens_seen": 403040,
	"step": 1285,
	"train_runtime": 232.6814,
	"train_tokens_per_second": 1732.154
	},
	{
	"epoch": 14.333333333333334,
	"grad_norm": 0.01104736328125,
	"learning_rate": 0.0067816841680572015,
	"loss": 0.2337,
	"num_input_tokens_seen": 404640,
	"step": 1290,
	"train_runtime": 233.4758,
	"train_tokens_per_second": 1733.113
	},
	{
	"epoch": 14.38888888888889,
	"grad_norm": 0.004364013671875,
	"learning_rate": 0.006660400866667899,
	"loss": 0.2246,
	"num_input_tokens_seen": 406208,
	"step": 1295,
	"train_runtime": 234.2675,
	"train_tokens_per_second": 1733.95
	},
	{
	"epoch": 14.444444444444445,
	"grad_norm": 0.005584716796875,
	"learning_rate": 0.006539901629249787,
	"loss": 0.2322,
	"num_input_tokens_seen": 407776,
	"step": 1300,
	"train_runtime": 235.0597,
	"train_tokens_per_second": 1734.776
	},
	{
	"epoch": 14.5,
	"grad_norm": 0.004791259765625,
	"learning_rate": 0.006420197784777924,
	"loss": 0.2268,
	"num_input_tokens_seen": 409312,
	"step": 1305,
	"train_runtime": 235.8489,
	"train_tokens_per_second": 1735.484
	},
	{
	"epoch": 14.555555555555555,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.006301300587446937,
	"loss": 0.2314,
	"num_input_tokens_seen": 410816,
	"step": 1310,
	"train_runtime": 236.6364,
	"train_tokens_per_second": 1736.064
	},
	{
	"epoch": 14.61111111111111,
	"grad_norm": 0.0244140625,
	"learning_rate": 0.006183221215612904,
	"loss": 0.2415,
	"num_input_tokens_seen": 412416,
	"step": 1315,
	"train_runtime": 237.4299,
	"train_tokens_per_second": 1737.001
	},
	{
	"epoch": 14.666666666666666,
	"grad_norm": 0.0108642578125,
	"learning_rate": 0.00606597077074242,
	"loss": 0.2288,
	"num_input_tokens_seen": 414016,
	"step": 1320,
	"train_runtime": 238.223,
	"train_tokens_per_second": 1737.935
	},
	{
	"epoch": 14.722222222222221,
	"grad_norm": 0.003570556640625,
	"learning_rate": 0.005949560276368865,
	"loss": 0.2402,
	"num_input_tokens_seen": 415552,
	"step": 1325,
	"train_runtime": 239.012,
	"train_tokens_per_second": 1738.624
	},
	{
	"epoch": 14.777777777777779,
	"grad_norm": 0.005096435546875,
	"learning_rate": 0.005834000677056003,
	"loss": 0.2289,
	"num_input_tokens_seen": 417088,
	"step": 1330,
	"train_runtime": 239.8035,
	"train_tokens_per_second": 1739.291
	},
	{
	"epoch": 14.833333333333334,
	"grad_norm": 0.010009765625,
	"learning_rate": 0.005719302837369021,
	"loss": 0.2317,
	"num_input_tokens_seen": 418656,
	"step": 1335,
	"train_runtime": 240.5946,
	"train_tokens_per_second": 1740.089
	},
	{
	"epoch": 14.88888888888889,
	"grad_norm": 0.01055908203125,
	"learning_rate": 0.00560547754085305,
	"loss": 0.2265,
	"num_input_tokens_seen": 420256,
	"step": 1340,
	"train_runtime": 241.3879,
	"train_tokens_per_second": 1740.999
	},
	{
	"epoch": 14.944444444444445,
	"grad_norm": 0.0203857421875,
	"learning_rate": 0.005492535489019344,
	"loss": 0.2245,
	"num_input_tokens_seen": 421792,
	"step": 1345,
	"train_runtime": 242.1774,
	"train_tokens_per_second": 1741.665
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.0223388671875,
	"learning_rate": 0.005380487300339167,
	"loss": 0.2402,
	"num_input_tokens_seen": 423360,
	"step": 1350,
	"train_runtime": 243.0095,
	"train_tokens_per_second": 1742.154
	},
	{
	"epoch": 15.0,
	"eval_loss": 0.23129186034202576,
	"eval_runtime": 0.8149,
	"eval_samples_per_second": 49.088,
	"eval_steps_per_second": 12.272,
	"num_input_tokens_seen": 423360,
	"step": 1350
	},
	{
	"epoch": 15.055555555555555,
	"grad_norm": 0.01123046875,
	"learning_rate": 0.005269343509245449,
	"loss": 0.2339,
	"num_input_tokens_seen": 424992,
	"step": 1355,
	"train_runtime": 245.5308,
	"train_tokens_per_second": 1730.911
	},
	{
	"epoch": 15.11111111111111,
	"grad_norm": 0.01226806640625,
	"learning_rate": 0.005159114565142392,
	"loss": 0.2307,
	"num_input_tokens_seen": 426528,
	"step": 1360,
	"train_runtime": 246.3315,
	"train_tokens_per_second": 1731.52
	},
	{
	"epoch": 15.166666666666666,
	"grad_norm": 0.0106201171875,
	"learning_rate": 0.0050498108314230425,
	"loss": 0.2318,
	"num_input_tokens_seen": 428096,
	"step": 1365,
	"train_runtime": 247.1262,
	"train_tokens_per_second": 1732.297
	},
	{
	"epoch": 15.222222222222221,
	"grad_norm": 0.00732421875,
	"learning_rate": 0.0049414425844949445,
	"loss": 0.2307,
	"num_input_tokens_seen": 429600,
	"step": 1370,
	"train_runtime": 247.9142,
	"train_tokens_per_second": 1732.858
	},
	{
	"epoch": 15.277777777777779,
	"grad_norm": 0.00335693359375,
	"learning_rate": 0.004834020012814016,
	"loss": 0.2337,
	"num_input_tokens_seen": 431200,
	"step": 1375,
	"train_runtime": 248.7142,
	"train_tokens_per_second": 1733.717
	},
	{
	"epoch": 15.333333333333334,
	"grad_norm": 0.01177978515625,
	"learning_rate": 0.004727553215926623,
	"loss": 0.2305,
	"num_input_tokens_seen": 432736,
	"step": 1380,
	"train_runtime": 249.5378,
	"train_tokens_per_second": 1734.15
	},
	{
	"epoch": 15.38888888888889,
	"grad_norm": 0.010498046875,
	"learning_rate": 0.004622052203520061,
	"loss": 0.2276,
	"num_input_tokens_seen": 434336,
	"step": 1385,
	"train_runtime": 250.3618,
	"train_tokens_per_second": 1734.834
	},
	{
	"epoch": 15.444444444444445,
	"grad_norm": 0.0115966796875,
	"learning_rate": 0.004517526894481498,
	"loss": 0.2348,
	"num_input_tokens_seen": 435904,
	"step": 1390,
	"train_runtime": 251.1536,
	"train_tokens_per_second": 1735.607
	},
	{
	"epoch": 15.5,
	"grad_norm": 0.0107421875,
	"learning_rate": 0.004413987115965404,
	"loss": 0.2286,
	"num_input_tokens_seen": 437440,
	"step": 1395,
	"train_runtime": 251.9431,
	"train_tokens_per_second": 1736.265
	},
	{
	"epoch": 15.555555555555555,
	"grad_norm": 0.01171875,
	"learning_rate": 0.004311442602469636,
	"loss": 0.2347,
	"num_input_tokens_seen": 438976,
	"step": 1400,
	"train_runtime": 252.733,
	"train_tokens_per_second": 1736.916
	},
	{
	"epoch": 15.61111111111111,
	"grad_norm": 0.005950927734375,
	"learning_rate": 0.004209902994920235,
	"loss": 0.2255,
	"num_input_tokens_seen": 440512,
	"step": 1405,
	"train_runtime": 253.5249,
	"train_tokens_per_second": 1737.549
	},
	{
	"epoch": 15.666666666666666,
	"grad_norm": 0.01190185546875,
	"learning_rate": 0.004109377839765016,
	"loss": 0.2295,
	"num_input_tokens_seen": 442112,
	"step": 1410,
	"train_runtime": 254.3181,
	"train_tokens_per_second": 1738.421
	},
	{
	"epoch": 15.722222222222221,
	"grad_norm": 0.012451171875,
	"learning_rate": 0.004009876588076046,
	"loss": 0.2339,
	"num_input_tokens_seen": 443616,
	"step": 1415,
	"train_runtime": 255.1075,
	"train_tokens_per_second": 1738.938
	},
	{
	"epoch": 15.777777777777779,
	"grad_norm": 0.022705078125,
	"learning_rate": 0.003911408594661061,
	"loss": 0.2316,
	"num_input_tokens_seen": 445184,
	"step": 1420,
	"train_runtime": 255.8999,
	"train_tokens_per_second": 1739.68
	},
	{
	"epoch": 15.833333333333334,
	"grad_norm": 0.012451171875,
	"learning_rate": 0.0038139831171839726,
	"loss": 0.2308,
	"num_input_tokens_seen": 446752,
	"step": 1425,
	"train_runtime": 256.6958,
	"train_tokens_per_second": 1740.394
	},
	{
	"epoch": 15.88888888888889,
	"grad_norm": 0.01324462890625,
	"learning_rate": 0.0037176093152944947,
	"loss": 0.2318,
	"num_input_tokens_seen": 448352,
	"step": 1430,
	"train_runtime": 257.491,
	"train_tokens_per_second": 1741.234
	},
	{
	"epoch": 15.944444444444445,
	"grad_norm": 0.0101318359375,
	"learning_rate": 0.0036222962497669668,
	"loss": 0.2276,
	"num_input_tokens_seen": 449888,
	"step": 1435,
	"train_runtime": 258.2827,
	"train_tokens_per_second": 1741.843
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.00531005859375,
	"learning_rate": 0.003528052881648488,
	"loss": 0.2338,
	"num_input_tokens_seen": 451424,
	"step": 1440,
	"train_runtime": 259.1151,
	"train_tokens_per_second": 1742.176
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.23337697982788086,
	"eval_runtime": 0.8216,
	"eval_samples_per_second": 48.684,
	"eval_steps_per_second": 12.171,
	"num_input_tokens_seen": 451424,
	"step": 1440
	},
	{
	"epoch": 16.055555555555557,
	"grad_norm": 0.0111083984375,
	"learning_rate": 0.0034348880714164414,
	"loss": 0.2306,
	"num_input_tokens_seen": 452992,
	"step": 1445,
	"train_runtime": 261.5987,
	"train_tokens_per_second": 1731.629
	},
	{
	"epoch": 16.11111111111111,
	"grad_norm": 0.00958251953125,
	"learning_rate": 0.0033428105781454364,
	"loss": 0.2266,
	"num_input_tokens_seen": 454496,
	"step": 1450,
	"train_runtime": 262.4288,
	"train_tokens_per_second": 1731.883
	},
	{
	"epoch": 16.166666666666668,
	"grad_norm": 0.005096435546875,
	"learning_rate": 0.0032518290586838377,
	"loss": 0.2359,
	"num_input_tokens_seen": 456096,
	"step": 1455,
	"train_runtime": 263.2247,
	"train_tokens_per_second": 1732.725
	},
	{
	"epoch": 16.22222222222222,
	"grad_norm": 0.0118408203125,
	"learning_rate": 0.0031619520668398388,
	"loss": 0.2308,
	"num_input_tokens_seen": 457696,
	"step": 1460,
	"train_runtime": 264.0196,
	"train_tokens_per_second": 1733.568
	},
	{
	"epoch": 16.27777777777778,
	"grad_norm": 0.00433349609375,
	"learning_rate": 0.003073188052577281,
	"loss": 0.2318,
	"num_input_tokens_seen": 459232,
	"step": 1465,
	"train_runtime": 264.8136,
	"train_tokens_per_second": 1734.171
	},
	{
	"epoch": 16.333333333333332,
	"grad_norm": 0.0062255859375,
	"learning_rate": 0.00298554536122122,
	"loss": 0.2337,
	"num_input_tokens_seen": 460832,
	"step": 1470,
	"train_runtime": 265.6148,
	"train_tokens_per_second": 1734.964
	},
	{
	"epoch": 16.38888888888889,
	"grad_norm": 0.0040283203125,
	"learning_rate": 0.0028990322326732957,
	"loss": 0.2329,
	"num_input_tokens_seen": 462432,
	"step": 1475,
	"train_runtime": 266.4104,
	"train_tokens_per_second": 1735.788
	},
	{
	"epoch": 16.444444444444443,
	"grad_norm": 0.00653076171875,
	"learning_rate": 0.0028136568006370643,
	"loss": 0.2245,
	"num_input_tokens_seen": 464000,
	"step": 1480,
	"train_runtime": 267.2022,
	"train_tokens_per_second": 1736.513
	},
	{
	"epoch": 16.5,
	"grad_norm": 0.01025390625,
	"learning_rate": 0.0027294270918532875,
	"loss": 0.2256,
	"num_input_tokens_seen": 465536,
	"step": 1485,
	"train_runtime": 267.991,
	"train_tokens_per_second": 1737.133
	},
	{
	"epoch": 16.555555555555557,
	"grad_norm": 0.02001953125,
	"learning_rate": 0.0026463510253452744,
	"loss": 0.2255,
	"num_input_tokens_seen": 467136,
	"step": 1490,
	"train_runtime": 268.784,
	"train_tokens_per_second": 1737.96
	},
	{
	"epoch": 16.61111111111111,
	"grad_norm": 0.002838134765625,
	"learning_rate": 0.0025644364116743754,
	"loss": 0.2308,
	"num_input_tokens_seen": 468672,
	"step": 1495,
	"train_runtime": 269.575,
	"train_tokens_per_second": 1738.559
	},
	{
	"epoch": 16.666666666666668,
	"grad_norm": 0.003387451171875,
	"learning_rate": 0.002483690952205637,
	"loss": 0.235,
	"num_input_tokens_seen": 470272,
	"step": 1500,
	"train_runtime": 270.3683,
	"train_tokens_per_second": 1739.376
	},
	{
	"epoch": 16.72222222222222,
	"grad_norm": 0.0108642578125,
	"learning_rate": 0.0024041222383837536,
	"loss": 0.2306,
	"num_input_tokens_seen": 471872,
	"step": 1505,
	"train_runtime": 271.1607,
	"train_tokens_per_second": 1740.193
	},
	{
	"epoch": 16.77777777777778,
	"grad_norm": 0.011962890625,
	"learning_rate": 0.002325737751019347,
	"loss": 0.2276,
	"num_input_tokens_seen": 473440,
	"step": 1510,
	"train_runtime": 271.9576,
	"train_tokens_per_second": 1740.859
	},
	{
	"epoch": 16.833333333333332,
	"grad_norm": 0.01055908203125,
	"learning_rate": 0.00224854485958563,
	"loss": 0.2308,
	"num_input_tokens_seen": 475008,
	"step": 1515,
	"train_runtime": 272.7521,
	"train_tokens_per_second": 1741.537
	},
	{
	"epoch": 16.88888888888889,
	"grad_norm": 0.0120849609375,
	"learning_rate": 0.0021725508215255634,
	"loss": 0.234,
	"num_input_tokens_seen": 476608,
	"step": 1520,
	"train_runtime": 273.5491,
	"train_tokens_per_second": 1742.312
	},
	{
	"epoch": 16.944444444444443,
	"grad_norm": 0.01226806640625,
	"learning_rate": 0.0020977627815695213,
	"loss": 0.2286,
	"num_input_tokens_seen": 478176,
	"step": 1525,
	"train_runtime": 274.3439,
	"train_tokens_per_second": 1742.98
	},
	{
	"epoch": 17.0,
	"grad_norm": 0.0130615234375,
	"learning_rate": 0.0020241877710635747,
	"loss": 0.2339,
	"num_input_tokens_seen": 479744,
	"step": 1530,
	"train_runtime": 275.1758,
	"train_tokens_per_second": 1743.409
	},
	{
	"epoch": 17.0,
	"eval_loss": 0.2328735888004303,
	"eval_runtime": 0.8173,
	"eval_samples_per_second": 48.943,
	"eval_steps_per_second": 12.236,
	"num_input_tokens_seen": 479744,
	"step": 1530
	},
	{
	"epoch": 17.055555555555557,
	"grad_norm": 0.0213623046875,
	"learning_rate": 0.0019518327073084285,
	"loss": 0.2328,
	"num_input_tokens_seen": 481344,
	"step": 1535,
	"train_runtime": 277.7336,
	"train_tokens_per_second": 1733.114
	},
	{
	"epoch": 17.11111111111111,
	"grad_norm": 0.01092529296875,
	"learning_rate": 0.0018807043929090638,
	"loss": 0.2328,
	"num_input_tokens_seen": 482944,
	"step": 1540,
	"train_runtime": 278.5559,
	"train_tokens_per_second": 1733.742
	},
	{
	"epoch": 17.166666666666668,
	"grad_norm": 0.01220703125,
	"learning_rate": 0.0018108095151351837,
	"loss": 0.2275,
	"num_input_tokens_seen": 484480,
	"step": 1545,
	"train_runtime": 279.3468,
	"train_tokens_per_second": 1734.332
	},
	{
	"epoch": 17.22222222222222,
	"grad_norm": 0.01348876953125,
	"learning_rate": 0.001742154645292508,
	"loss": 0.2381,
	"num_input_tokens_seen": 486016,
	"step": 1550,
	"train_runtime": 280.1392,
	"train_tokens_per_second": 1734.909
	},
	{
	"epoch": 17.27777777777778,
	"grad_norm": 0.0045166015625,
	"learning_rate": 0.0016747462381049415,
	"loss": 0.2307,
	"num_input_tokens_seen": 487584,
	"step": 1555,
	"train_runtime": 280.9345,
	"train_tokens_per_second": 1735.579
	},
	{
	"epoch": 17.333333333333332,
	"grad_norm": 0.006256103515625,
	"learning_rate": 0.0016085906311077212,
	"loss": 0.2339,
	"num_input_tokens_seen": 489088,
	"step": 1560,
	"train_runtime": 281.7263,
	"train_tokens_per_second": 1736.04
	},
	{
	"epoch": 17.38888888888889,
	"grad_norm": 0.01171875,
	"learning_rate": 0.0015436940440516017,
	"loss": 0.2306,
	"num_input_tokens_seen": 490688,
	"step": 1565,
	"train_runtime": 282.5227,
	"train_tokens_per_second": 1736.809
	},
	{
	"epoch": 17.444444444444443,
	"grad_norm": 0.022216796875,
	"learning_rate": 0.0014800625783180658,
	"loss": 0.237,
	"num_input_tokens_seen": 492288,
	"step": 1570,
	"train_runtime": 283.316,
	"train_tokens_per_second": 1737.593
	},
	{
	"epoch": 17.5,
	"grad_norm": 0.011474609375,
	"learning_rate": 0.0014177022163457135,
	"loss": 0.2308,
	"num_input_tokens_seen": 493824,
	"step": 1575,
	"train_runtime": 284.1065,
	"train_tokens_per_second": 1738.165
	},
	{
	"epoch": 17.555555555555557,
	"grad_norm": 0.01409912109375,
	"learning_rate": 0.0013566188210677903,
	"loss": 0.2338,
	"num_input_tokens_seen": 495456,
	"step": 1580,
	"train_runtime": 284.9046,
	"train_tokens_per_second": 1739.024
	},
	{
	"epoch": 17.61111111111111,
	"grad_norm": 0.004791259765625,
	"learning_rate": 0.0012968181353609854,
	"loss": 0.2307,
	"num_input_tokens_seen": 497024,
	"step": 1585,
	"train_runtime": 285.6964,
	"train_tokens_per_second": 1739.693
	},
	{
	"epoch": 17.666666666666668,
	"grad_norm": 0.01092529296875,
	"learning_rate": 0.0012383057815055082,
	"loss": 0.2266,
	"num_input_tokens_seen": 498592,
	"step": 1590,
	"train_runtime": 286.4968,
	"train_tokens_per_second": 1740.306
	},
	{
	"epoch": 17.72222222222222,
	"grad_norm": 0.01214599609375,
	"learning_rate": 0.001181087260656487,
	"loss": 0.2308,
	"num_input_tokens_seen": 500128,
	"step": 1595,
	"train_runtime": 287.2884,
	"train_tokens_per_second": 1740.857
	},
	{
	"epoch": 17.77777777777778,
	"grad_norm": 0.0223388671875,
	"learning_rate": 0.0011251679523267587,
	"loss": 0.2297,
	"num_input_tokens_seen": 501696,
	"step": 1600,
	"train_runtime": 288.0865,
	"train_tokens_per_second": 1741.477
	},
	{
	"epoch": 17.833333333333332,
	"grad_norm": 0.003814697265625,
	"learning_rate": 0.0010705531138811369,
	"loss": 0.2327,
	"num_input_tokens_seen": 503232,
	"step": 1605,
	"train_runtime": 288.877,
	"train_tokens_per_second": 1742.029
	},
	{
	"epoch": 17.88888888888889,
	"grad_norm": 0.01214599609375,
	"learning_rate": 0.0010172478800420954,
	"loss": 0.2296,
	"num_input_tokens_seen": 504736,
	"step": 1610,
	"train_runtime": 289.6642,
	"train_tokens_per_second": 1742.487
	},
	{
	"epoch": 17.944444444444443,
	"grad_norm": 0.021484375,
	"learning_rate": 0.0009652572624070293,
	"loss": 0.2256,
	"num_input_tokens_seen": 506304,
	"step": 1615,
	"train_runtime": 290.4568,
	"train_tokens_per_second": 1743.13
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.00579833984375,
	"learning_rate": 0.0009145861489770912,
	"loss": 0.2307,
	"num_input_tokens_seen": 507872,
	"step": 1620,
	"train_runtime": 291.2951,
	"train_tokens_per_second": 1743.497
	},
	{
	"epoch": 18.0,
	"eval_loss": 0.23335394263267517,
	"eval_runtime": 0.8176,
	"eval_samples_per_second": 48.921,
	"eval_steps_per_second": 12.23,
	"num_input_tokens_seen": 507872,
	"step": 1620
	},
	{
	"epoch": 18.055555555555557,
	"grad_norm": 0.00408935546875,
	"learning_rate": 0.0008652393036976157,
	"loss": 0.2286,
	"num_input_tokens_seen": 509408,
	"step": 1625,
	"train_runtime": 293.8353,
	"train_tokens_per_second": 1733.651
	},
	{
	"epoch": 18.11111111111111,
	"grad_norm": 0.020751953125,
	"learning_rate": 0.0008172213660102473,
	"loss": 0.2267,
	"num_input_tokens_seen": 510912,
	"step": 1630,
	"train_runtime": 294.6455,
	"train_tokens_per_second": 1733.989
	},
	{
	"epoch": 18.166666666666668,
	"grad_norm": 0.0113525390625,
	"learning_rate": 0.0007705368504167398,
	"loss": 0.2329,
	"num_input_tokens_seen": 512384,
	"step": 1635,
	"train_runtime": 295.4336,
	"train_tokens_per_second": 1734.346
	},
	{
	"epoch": 18.22222222222222,
	"grad_norm": 0.01153564453125,
	"learning_rate": 0.0007251901460545118,
	"loss": 0.2307,
	"num_input_tokens_seen": 513952,
	"step": 1640,
	"train_runtime": 296.2304,
	"train_tokens_per_second": 1734.974
	},
	{
	"epoch": 18.27777777777778,
	"grad_norm": 0.003753662109375,
	"learning_rate": 0.0006811855162840213,
	"loss": 0.238,
	"num_input_tokens_seen": 515520,
	"step": 1645,
	"train_runtime": 297.0246,
	"train_tokens_per_second": 1735.614
	},
	{
	"epoch": 18.333333333333332,
	"grad_norm": 0.003143310546875,
	"learning_rate": 0.0006385270982879065,
	"loss": 0.236,
	"num_input_tokens_seen": 517120,
	"step": 1650,
	"train_runtime": 297.8218,
	"train_tokens_per_second": 1736.34
	},
	{
	"epoch": 18.38888888888889,
	"grad_norm": 0.0034332275390625,
	"learning_rate": 0.0005972189026820351,
	"loss": 0.2276,
	"num_input_tokens_seen": 518688,
	"step": 1655,
	"train_runtime": 298.6166,
	"train_tokens_per_second": 1736.97
	},
	{
	"epoch": 18.444444444444443,
	"grad_norm": 0.01287841796875,
	"learning_rate": 0.0005572648131384361,
	"loss": 0.2358,
	"num_input_tokens_seen": 520224,
	"step": 1660,
	"train_runtime": 299.4059,
	"train_tokens_per_second": 1737.521
	},
	{
	"epoch": 18.5,
	"grad_norm": 0.01214599609375,
	"learning_rate": 0.0005186685860201717,
	"loss": 0.2255,
	"num_input_tokens_seen": 521824,
	"step": 1665,
	"train_runtime": 300.2061,
	"train_tokens_per_second": 1738.219
	},
	{
	"epoch": 18.555555555555557,
	"grad_norm": 0.00579833984375,
	"learning_rate": 0.0004814338500281634,
	"loss": 0.2297,
	"num_input_tokens_seen": 523424,
	"step": 1670,
	"train_runtime": 301.0084,
	"train_tokens_per_second": 1738.902
	},
	{
	"epoch": 18.61111111111111,
	"grad_norm": 0.004425048828125,
	"learning_rate": 0.0004455641058600529,
	"loss": 0.2307,
	"num_input_tokens_seen": 524960,
	"step": 1675,
	"train_runtime": 301.8068,
	"train_tokens_per_second": 1739.391
	},
	{
	"epoch": 18.666666666666668,
	"grad_norm": 0.020751953125,
	"learning_rate": 0.00041106272588105564,
	"loss": 0.2255,
	"num_input_tokens_seen": 526496,
	"step": 1680,
	"train_runtime": 302.6028,
	"train_tokens_per_second": 1739.891
	},
	{
	"epoch": 18.72222222222222,
	"grad_norm": 0.01141357421875,
	"learning_rate": 0.0003779329538069159,
	"loss": 0.2317,
	"num_input_tokens_seen": 528064,
	"step": 1685,
	"train_runtime": 303.3978,
	"train_tokens_per_second": 1740.5
	},
	{
	"epoch": 18.77777777777778,
	"grad_norm": 0.00982666015625,
	"learning_rate": 0.00034617790439893603,
	"loss": 0.2255,
	"num_input_tokens_seen": 529632,
	"step": 1690,
	"train_runtime": 304.1914,
	"train_tokens_per_second": 1741.114
	},
	{
	"epoch": 18.833333333333332,
	"grad_norm": 0.011474609375,
	"learning_rate": 0.00031580056317113525,
	"loss": 0.2327,
	"num_input_tokens_seen": 531232,
	"step": 1695,
	"train_runtime": 304.9886,
	"train_tokens_per_second": 1741.809
	},
	{
	"epoch": 18.88888888888889,
	"grad_norm": 0.0033721923828125,
	"learning_rate": 0.00028680378610956793,
	"loss": 0.2338,
	"num_input_tokens_seen": 532800,
	"step": 1700,
	"train_runtime": 305.7795,
	"train_tokens_per_second": 1742.432
	},
	{
	"epoch": 18.944444444444443,
	"grad_norm": 0.00628662109375,
	"learning_rate": 0.00025919029940380146,
	"loss": 0.2245,
	"num_input_tokens_seen": 534400,
	"step": 1705,
	"train_runtime": 306.5763,
	"train_tokens_per_second": 1743.123
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.005096435546875,
	"learning_rate": 0.0002329626991906164,
	"loss": 0.2307,
	"num_input_tokens_seen": 535968,
	"step": 1710,
	"train_runtime": 307.4089,
	"train_tokens_per_second": 1743.502
	},
	{
	"epoch": 19.0,
	"eval_loss": 0.23493099212646484,
	"eval_runtime": 0.8178,
	"eval_samples_per_second": 48.914,
	"eval_steps_per_second": 12.229,
	"num_input_tokens_seen": 535968,
	"step": 1710
	},
	{
	"epoch": 19.055555555555557,
	"grad_norm": 0.0224609375,
	"learning_rate": 0.00020812345130992503,
	"loss": 0.2327,
	"num_input_tokens_seen": 537536,
	"step": 1715,
	"train_runtime": 309.9741,
	"train_tokens_per_second": 1734.132
	},
	{
	"epoch": 19.11111111111111,
	"grad_norm": 0.006378173828125,
	"learning_rate": 0.0001846748910729351,
	"loss": 0.2297,
	"num_input_tokens_seen": 539072,
	"step": 1720,
	"train_runtime": 310.7692,
	"train_tokens_per_second": 1734.638
	},
	{
	"epoch": 19.166666666666668,
	"grad_norm": 0.0224609375,
	"learning_rate": 0.0001626192230425938,
	"loss": 0.2286,
	"num_input_tokens_seen": 540608,
	"step": 1725,
	"train_runtime": 311.5604,
	"train_tokens_per_second": 1735.163
	},
	{
	"epoch": 19.22222222222222,
	"grad_norm": 0.00372314453125,
	"learning_rate": 0.00014195852082632686,
	"loss": 0.2339,
	"num_input_tokens_seen": 542208,
	"step": 1730,
	"train_runtime": 312.3593,
	"train_tokens_per_second": 1735.847
	},
	{
	"epoch": 19.27777777777778,
	"grad_norm": 0.013671875,
	"learning_rate": 0.00012269472688107463,
	"loss": 0.2328,
	"num_input_tokens_seen": 543776,
	"step": 1735,
	"train_runtime": 313.1529,
	"train_tokens_per_second": 1736.455
	},
	{
	"epoch": 19.333333333333332,
	"grad_norm": 0.0050048828125,
	"learning_rate": 0.00010482965233067298,
	"loss": 0.2287,
	"num_input_tokens_seen": 545280,
	"step": 1740,
	"train_runtime": 313.9486,
	"train_tokens_per_second": 1736.845
	},
	{
	"epoch": 19.38888888888889,
	"grad_norm": 0.01202392578125,
	"learning_rate": 8.836497679557964e-05,
	"loss": 0.2422,
	"num_input_tokens_seen": 546848,
	"step": 1745,
	"train_runtime": 314.7443,
	"train_tokens_per_second": 1737.436
	},
	{
	"epoch": 19.444444444444443,
	"grad_norm": 0.00311279296875,
	"learning_rate": 7.330224823495379e-05,
	"loss": 0.2369,
	"num_input_tokens_seen": 548416,
	"step": 1750,
	"train_runtime": 315.5381,
	"train_tokens_per_second": 1738.034
	},
	{
	"epoch": 19.5,
	"grad_norm": 0.01019287109375,
	"learning_rate": 5.96428828011325e-05,
	"loss": 0.2306,
	"num_input_tokens_seen": 550016,
	"step": 1755,
	"train_runtime": 316.3398,
	"train_tokens_per_second": 1738.687
	},
	{
	"epoch": 19.555555555555557,
	"grad_norm": 0.0026092529296875,
	"learning_rate": 4.738816470647389e-05,
	"loss": 0.236,
	"num_input_tokens_seen": 551584,
	"step": 1760,
	"train_runtime": 317.1375,
	"train_tokens_per_second": 1739.258
	},
	{
	"epoch": 19.61111111111111,
	"grad_norm": 0.01263427734375,
	"learning_rate": 3.653924610263703e-05,
	"loss": 0.2297,
	"num_input_tokens_seen": 553152,
	"step": 1765,
	"train_runtime": 317.9345,
	"train_tokens_per_second": 1739.83
	},
	{
	"epoch": 19.666666666666668,
	"grad_norm": 0.0211181640625,
	"learning_rate": 2.7097146972240305e-05,
	"loss": 0.2276,
	"num_input_tokens_seen": 554752,
	"step": 1770,
	"train_runtime": 318.7296,
	"train_tokens_per_second": 1740.51
	},
	{
	"epoch": 19.72222222222222,
	"grad_norm": 0.004180908203125,
	"learning_rate": 1.9062755032984713e-05,
	"loss": 0.2235,
	"num_input_tokens_seen": 556288,
	"step": 1775,
	"train_runtime": 319.5234,
	"train_tokens_per_second": 1740.993
	},
	{
	"epoch": 19.77777777777778,
	"grad_norm": 0.00506591796875,
	"learning_rate": 1.2436825654180693e-05,
	"loss": 0.2308,
	"num_input_tokens_seen": 557888,
	"step": 1780,
	"train_runtime": 320.3196,
	"train_tokens_per_second": 1741.661
	},
	{
	"epoch": 19.833333333333332,
	"grad_norm": 0.0048828125,
	"learning_rate": 7.219981785733242e-06,
	"loss": 0.2307,
	"num_input_tokens_seen": 559424,
	"step": 1785,
	"train_runtime": 321.1115,
	"train_tokens_per_second": 1742.149
	},
	{
	"epoch": 19.88888888888889,
	"grad_norm": 0.007659912109375,
	"learning_rate": 3.4127138995787565e-06,
	"loss": 0.2297,
	"num_input_tokens_seen": 560960,
	"step": 1790,
	"train_runtime": 321.902,
	"train_tokens_per_second": 1742.642
	},
	{
	"epoch": 19.944444444444443,
	"grad_norm": 0.01220703125,
	"learning_rate": 1.0153799435669298e-06,
	"loss": 0.2234,
	"num_input_tokens_seen": 562592,
	"step": 1795,
	"train_runtime": 322.6996,
	"train_tokens_per_second": 1743.393
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.00958251953125,
	"learning_rate": 2.820530780767161e-08,
	"loss": 0.2288,
	"num_input_tokens_seen": 564096,
	"step": 1800,
	"train_runtime": 323.5286,
	"train_tokens_per_second": 1743.574
	},
	{
	"epoch": 20.0,
	"eval_loss": 0.2323770523071289,
	"eval_runtime": 0.8134,
	"eval_samples_per_second": 49.178,
	"eval_steps_per_second": 12.295,
	"num_input_tokens_seen": 564096,
	"step": 1800
	},
	{
	"epoch": 20.0,
	"num_input_tokens_seen": 564096,
	"step": 1800,
	"total_flos": 2.540098792665907e+16,
	"train_loss": 0.2664620706770155,
	"train_runtime": 325.1935,
	"train_samples_per_second": 22.141,
	"train_steps_per_second": 5.535
	}
	],
	"logging_steps": 5,
	"max_steps": 1800,
	"num_input_tokens_seen": 564096,
	"num_train_epochs": 20,
	"save_steps": 90,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.540098792665907e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}