text2sql-sft-v7 / trainer_state.json

Model save

0c35b50 verified 5 months ago

106 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 513,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005847953216374269,
	"grad_norm": 3.346622166062452,
	"learning_rate": 0.0,
	"loss": 1.1879,
	"num_tokens": 309834.0,
	"step": 1
	},
	{
	"epoch": 0.011695906432748537,
	"grad_norm": 3.2150187522491747,
	"learning_rate": 6.25e-07,
	"loss": 1.1528,
	"num_tokens": 626323.0,
	"step": 2
	},
	{
	"epoch": 0.017543859649122806,
	"grad_norm": 3.1095611576006044,
	"learning_rate": 1.25e-06,
	"loss": 1.13,
	"num_tokens": 962858.0,
	"step": 3
	},
	{
	"epoch": 0.023391812865497075,
	"grad_norm": 3.0927940568383274,
	"learning_rate": 1.8750000000000003e-06,
	"loss": 1.1257,
	"num_tokens": 1307919.0,
	"step": 4
	},
	{
	"epoch": 0.029239766081871343,
	"grad_norm": 3.0505204823401963,
	"learning_rate": 2.5e-06,
	"loss": 1.1159,
	"num_tokens": 1643402.0,
	"step": 5
	},
	{
	"epoch": 0.03508771929824561,
	"grad_norm": 2.8525229189090564,
	"learning_rate": 3.125e-06,
	"loss": 1.1119,
	"num_tokens": 1963547.0,
	"step": 6
	},
	{
	"epoch": 0.04093567251461988,
	"grad_norm": 2.136607198658089,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 1.0281,
	"num_tokens": 2283318.0,
	"step": 7
	},
	{
	"epoch": 0.04678362573099415,
	"grad_norm": 1.9705509244699,
	"learning_rate": 4.3750000000000005e-06,
	"loss": 1.0088,
	"num_tokens": 2603880.0,
	"step": 8
	},
	{
	"epoch": 0.05263157894736842,
	"grad_norm": 1.2382281811593294,
	"learning_rate": 5e-06,
	"loss": 0.8683,
	"num_tokens": 2929732.0,
	"step": 9
	},
	{
	"epoch": 0.05847953216374269,
	"grad_norm": 1.2462399978155196,
	"learning_rate": 5.625e-06,
	"loss": 0.868,
	"num_tokens": 3252895.0,
	"step": 10
	},
	{
	"epoch": 0.06432748538011696,
	"grad_norm": 1.1972270533702403,
	"learning_rate": 6.25e-06,
	"loss": 0.8151,
	"num_tokens": 3578517.0,
	"step": 11
	},
	{
	"epoch": 0.07017543859649122,
	"grad_norm": 1.8012881936401126,
	"learning_rate": 6.875e-06,
	"loss": 0.6379,
	"num_tokens": 3911914.0,
	"step": 12
	},
	{
	"epoch": 0.07602339181286549,
	"grad_norm": 1.5004715524395629,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.6352,
	"num_tokens": 4228515.0,
	"step": 13
	},
	{
	"epoch": 0.08187134502923976,
	"grad_norm": 1.320062812526294,
	"learning_rate": 8.125000000000001e-06,
	"loss": 0.6228,
	"num_tokens": 4536476.0,
	"step": 14
	},
	{
	"epoch": 0.08771929824561403,
	"grad_norm": 0.9906906777846411,
	"learning_rate": 8.750000000000001e-06,
	"loss": 0.5299,
	"num_tokens": 4868361.0,
	"step": 15
	},
	{
	"epoch": 0.0935672514619883,
	"grad_norm": 0.8386484072060002,
	"learning_rate": 9.375000000000001e-06,
	"loss": 0.4729,
	"num_tokens": 5216197.0,
	"step": 16
	},
	{
	"epoch": 0.09941520467836257,
	"grad_norm": 0.4900339517100113,
	"learning_rate": 1e-05,
	"loss": 0.4352,
	"num_tokens": 5557003.0,
	"step": 17
	},
	{
	"epoch": 0.10526315789473684,
	"grad_norm": 0.40004540169105984,
	"learning_rate": 9.999910098271881e-06,
	"loss": 0.3938,
	"num_tokens": 5892764.0,
	"step": 18
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 0.3513180037096265,
	"learning_rate": 9.999640396679666e-06,
	"loss": 0.4064,
	"num_tokens": 6207362.0,
	"step": 19
	},
	{
	"epoch": 0.11695906432748537,
	"grad_norm": 0.6732732756411357,
	"learning_rate": 9.999190905999637e-06,
	"loss": 0.3789,
	"num_tokens": 6496012.0,
	"step": 20
	},
	{
	"epoch": 0.12280701754385964,
	"grad_norm": 0.31994176912879413,
	"learning_rate": 9.99856164419179e-06,
	"loss": 0.3778,
	"num_tokens": 6804315.0,
	"step": 21
	},
	{
	"epoch": 0.1286549707602339,
	"grad_norm": 0.548016923041077,
	"learning_rate": 9.997752636399114e-06,
	"loss": 0.3673,
	"num_tokens": 7143380.0,
	"step": 22
	},
	{
	"epoch": 0.13450292397660818,
	"grad_norm": 0.29902181791620935,
	"learning_rate": 9.996763914946586e-06,
	"loss": 0.3593,
	"num_tokens": 7463502.0,
	"step": 23
	},
	{
	"epoch": 0.14035087719298245,
	"grad_norm": 0.31707406326522014,
	"learning_rate": 9.995595519339882e-06,
	"loss": 0.3577,
	"num_tokens": 7774770.0,
	"step": 24
	},
	{
	"epoch": 0.14619883040935672,
	"grad_norm": 0.27176157042044713,
	"learning_rate": 9.994247496263792e-06,
	"loss": 0.3395,
	"num_tokens": 8087750.0,
	"step": 25
	},
	{
	"epoch": 0.15204678362573099,
	"grad_norm": 0.3065271953474858,
	"learning_rate": 9.992719899580364e-06,
	"loss": 0.3474,
	"num_tokens": 8434239.0,
	"step": 26
	},
	{
	"epoch": 0.15789473684210525,
	"grad_norm": 0.30277827390998685,
	"learning_rate": 9.991012790326745e-06,
	"loss": 0.3121,
	"num_tokens": 8750905.0,
	"step": 27
	},
	{
	"epoch": 0.16374269005847952,
	"grad_norm": 0.25470554589584754,
	"learning_rate": 9.989126236712746e-06,
	"loss": 0.3197,
	"num_tokens": 9075220.0,
	"step": 28
	},
	{
	"epoch": 0.1695906432748538,
	"grad_norm": 0.24585407625854147,
	"learning_rate": 9.987060314118111e-06,
	"loss": 0.3217,
	"num_tokens": 9397453.0,
	"step": 29
	},
	{
	"epoch": 0.17543859649122806,
	"grad_norm": 0.4536476490136459,
	"learning_rate": 9.984815105089515e-06,
	"loss": 0.3369,
	"num_tokens": 9705728.0,
	"step": 30
	},
	{
	"epoch": 0.18128654970760233,
	"grad_norm": 0.23980035473967873,
	"learning_rate": 9.982390699337253e-06,
	"loss": 0.2813,
	"num_tokens": 10025621.0,
	"step": 31
	},
	{
	"epoch": 0.1871345029239766,
	"grad_norm": 0.23564595909740174,
	"learning_rate": 9.979787193731666e-06,
	"loss": 0.3259,
	"num_tokens": 10337176.0,
	"step": 32
	},
	{
	"epoch": 0.19298245614035087,
	"grad_norm": 0.20709709888139777,
	"learning_rate": 9.977004692299273e-06,
	"loss": 0.2945,
	"num_tokens": 10651259.0,
	"step": 33
	},
	{
	"epoch": 0.19883040935672514,
	"grad_norm": 0.1973226462113262,
	"learning_rate": 9.974043306218595e-06,
	"loss": 0.2922,
	"num_tokens": 10992918.0,
	"step": 34
	},
	{
	"epoch": 0.2046783625730994,
	"grad_norm": 0.18869956638769483,
	"learning_rate": 9.970903153815731e-06,
	"loss": 0.2835,
	"num_tokens": 11310394.0,
	"step": 35
	},
	{
	"epoch": 0.21052631578947367,
	"grad_norm": 0.18686305886535334,
	"learning_rate": 9.967584360559632e-06,
	"loss": 0.2925,
	"num_tokens": 11636774.0,
	"step": 36
	},
	{
	"epoch": 0.21637426900584794,
	"grad_norm": 0.1725945504953492,
	"learning_rate": 9.964087059057075e-06,
	"loss": 0.2592,
	"num_tokens": 11956378.0,
	"step": 37
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 0.19881803465402237,
	"learning_rate": 9.960411389047366e-06,
	"loss": 0.2955,
	"num_tokens": 12248057.0,
	"step": 38
	},
	{
	"epoch": 0.22807017543859648,
	"grad_norm": 0.19691612763541272,
	"learning_rate": 9.95655749739677e-06,
	"loss": 0.2835,
	"num_tokens": 12554456.0,
	"step": 39
	},
	{
	"epoch": 0.23391812865497075,
	"grad_norm": 0.17622929852503963,
	"learning_rate": 9.952525538092627e-06,
	"loss": 0.2726,
	"num_tokens": 12880847.0,
	"step": 40
	},
	{
	"epoch": 0.23976608187134502,
	"grad_norm": 0.1622820101848469,
	"learning_rate": 9.948315672237208e-06,
	"loss": 0.2692,
	"num_tokens": 13237415.0,
	"step": 41
	},
	{
	"epoch": 0.24561403508771928,
	"grad_norm": 0.16492519002263994,
	"learning_rate": 9.943928068041274e-06,
	"loss": 0.2791,
	"num_tokens": 13600570.0,
	"step": 42
	},
	{
	"epoch": 0.25146198830409355,
	"grad_norm": 0.1659517586811088,
	"learning_rate": 9.939362900817362e-06,
	"loss": 0.2499,
	"num_tokens": 13934393.0,
	"step": 43
	},
	{
	"epoch": 0.2573099415204678,
	"grad_norm": 0.1675942094434052,
	"learning_rate": 9.934620352972766e-06,
	"loss": 0.2709,
	"num_tokens": 14283319.0,
	"step": 44
	},
	{
	"epoch": 0.2631578947368421,
	"grad_norm": 0.17033294793266862,
	"learning_rate": 9.929700614002265e-06,
	"loss": 0.2712,
	"num_tokens": 14602358.0,
	"step": 45
	},
	{
	"epoch": 0.26900584795321636,
	"grad_norm": 0.17218950775910574,
	"learning_rate": 9.924603880480543e-06,
	"loss": 0.2768,
	"num_tokens": 14914703.0,
	"step": 46
	},
	{
	"epoch": 0.27485380116959063,
	"grad_norm": 0.17142338750289324,
	"learning_rate": 9.919330356054332e-06,
	"loss": 0.2677,
	"num_tokens": 15226891.0,
	"step": 47
	},
	{
	"epoch": 0.2807017543859649,
	"grad_norm": 0.15935514552682936,
	"learning_rate": 9.913880251434279e-06,
	"loss": 0.2513,
	"num_tokens": 15566110.0,
	"step": 48
	},
	{
	"epoch": 0.28654970760233917,
	"grad_norm": 0.17590713121193502,
	"learning_rate": 9.90825378438653e-06,
	"loss": 0.2413,
	"num_tokens": 15864678.0,
	"step": 49
	},
	{
	"epoch": 0.29239766081871343,
	"grad_norm": 0.17105743981722707,
	"learning_rate": 9.902451179724025e-06,
	"loss": 0.2566,
	"num_tokens": 16166802.0,
	"step": 50
	},
	{
	"epoch": 0.2982456140350877,
	"grad_norm": 0.17592812081480816,
	"learning_rate": 9.896472669297508e-06,
	"loss": 0.2432,
	"num_tokens": 16465873.0,
	"step": 51
	},
	{
	"epoch": 0.30409356725146197,
	"grad_norm": 0.16854050409478574,
	"learning_rate": 9.890318491986282e-06,
	"loss": 0.2434,
	"num_tokens": 16764387.0,
	"step": 52
	},
	{
	"epoch": 0.30994152046783624,
	"grad_norm": 0.1722203346036174,
	"learning_rate": 9.883988893688645e-06,
	"loss": 0.2533,
	"num_tokens": 17059312.0,
	"step": 53
	},
	{
	"epoch": 0.3157894736842105,
	"grad_norm": 0.16603305455782896,
	"learning_rate": 9.877484127312072e-06,
	"loss": 0.2492,
	"num_tokens": 17382890.0,
	"step": 54
	},
	{
	"epoch": 0.3216374269005848,
	"grad_norm": 0.16334953855577547,
	"learning_rate": 9.870804452763118e-06,
	"loss": 0.2563,
	"num_tokens": 17716146.0,
	"step": 55
	},
	{
	"epoch": 0.32748538011695905,
	"grad_norm": 0.18120405762456362,
	"learning_rate": 9.863950136937019e-06,
	"loss": 0.2532,
	"num_tokens": 18044901.0,
	"step": 56
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.16955478627673745,
	"learning_rate": 9.856921453707036e-06,
	"loss": 0.256,
	"num_tokens": 18360773.0,
	"step": 57
	},
	{
	"epoch": 0.3391812865497076,
	"grad_norm": 0.15096634608102888,
	"learning_rate": 9.849718683913511e-06,
	"loss": 0.2259,
	"num_tokens": 18694718.0,
	"step": 58
	},
	{
	"epoch": 0.34502923976608185,
	"grad_norm": 0.1757789479931499,
	"learning_rate": 9.842342115352647e-06,
	"loss": 0.2595,
	"num_tokens": 19014702.0,
	"step": 59
	},
	{
	"epoch": 0.3508771929824561,
	"grad_norm": 0.16490033035648094,
	"learning_rate": 9.834792042764999e-06,
	"loss": 0.2404,
	"num_tokens": 19339612.0,
	"step": 60
	},
	{
	"epoch": 0.3567251461988304,
	"grad_norm": 0.16019689209153504,
	"learning_rate": 9.827068767823713e-06,
	"loss": 0.248,
	"num_tokens": 19681676.0,
	"step": 61
	},
	{
	"epoch": 0.36257309941520466,
	"grad_norm": 0.1691448945153913,
	"learning_rate": 9.819172599122466e-06,
	"loss": 0.2346,
	"num_tokens": 20000100.0,
	"step": 62
	},
	{
	"epoch": 0.3684210526315789,
	"grad_norm": 0.16082639569066132,
	"learning_rate": 9.811103852163126e-06,
	"loss": 0.2262,
	"num_tokens": 20319423.0,
	"step": 63
	},
	{
	"epoch": 0.3742690058479532,
	"grad_norm": 0.15278910823194214,
	"learning_rate": 9.802862849343155e-06,
	"loss": 0.2281,
	"num_tokens": 20664041.0,
	"step": 64
	},
	{
	"epoch": 0.38011695906432746,
	"grad_norm": 0.16155951042022568,
	"learning_rate": 9.794449919942736e-06,
	"loss": 0.241,
	"num_tokens": 20983214.0,
	"step": 65
	},
	{
	"epoch": 0.38596491228070173,
	"grad_norm": 0.16422330995295928,
	"learning_rate": 9.785865400111593e-06,
	"loss": 0.2489,
	"num_tokens": 21321454.0,
	"step": 66
	},
	{
	"epoch": 0.391812865497076,
	"grad_norm": 0.16006949845014626,
	"learning_rate": 9.777109632855579e-06,
	"loss": 0.2471,
	"num_tokens": 21641982.0,
	"step": 67
	},
	{
	"epoch": 0.39766081871345027,
	"grad_norm": 0.16727932073445337,
	"learning_rate": 9.768182968022964e-06,
	"loss": 0.2417,
	"num_tokens": 21978836.0,
	"step": 68
	},
	{
	"epoch": 0.40350877192982454,
	"grad_norm": 0.17239803759423833,
	"learning_rate": 9.759085762290457e-06,
	"loss": 0.2377,
	"num_tokens": 22268188.0,
	"step": 69
	},
	{
	"epoch": 0.4093567251461988,
	"grad_norm": 0.16257813227817636,
	"learning_rate": 9.749818379148958e-06,
	"loss": 0.2265,
	"num_tokens": 22581727.0,
	"step": 70
	},
	{
	"epoch": 0.4152046783625731,
	"grad_norm": 0.16056196258322708,
	"learning_rate": 9.74038118888902e-06,
	"loss": 0.2261,
	"num_tokens": 22899881.0,
	"step": 71
	},
	{
	"epoch": 0.42105263157894735,
	"grad_norm": 0.15733806901697214,
	"learning_rate": 9.730774568586076e-06,
	"loss": 0.2263,
	"num_tokens": 23240539.0,
	"step": 72
	},
	{
	"epoch": 0.4269005847953216,
	"grad_norm": 0.1679225698442003,
	"learning_rate": 9.720998902085354e-06,
	"loss": 0.2362,
	"num_tokens": 23546933.0,
	"step": 73
	},
	{
	"epoch": 0.4327485380116959,
	"grad_norm": 0.16689340356885685,
	"learning_rate": 9.71105457998655e-06,
	"loss": 0.2309,
	"num_tokens": 23867940.0,
	"step": 74
	},
	{
	"epoch": 0.43859649122807015,
	"grad_norm": 0.17313794861512294,
	"learning_rate": 9.70094199962821e-06,
	"loss": 0.2311,
	"num_tokens": 24191283.0,
	"step": 75
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.16976811460329427,
	"learning_rate": 9.690661565071875e-06,
	"loss": 0.2341,
	"num_tokens": 24504739.0,
	"step": 76
	},
	{
	"epoch": 0.4502923976608187,
	"grad_norm": 0.16719875175704804,
	"learning_rate": 9.68021368708591e-06,
	"loss": 0.2425,
	"num_tokens": 24846242.0,
	"step": 77
	},
	{
	"epoch": 0.45614035087719296,
	"grad_norm": 0.16237180095271134,
	"learning_rate": 9.66959878312911e-06,
	"loss": 0.219,
	"num_tokens": 25163117.0,
	"step": 78
	},
	{
	"epoch": 0.4619883040935672,
	"grad_norm": 0.16510212997973622,
	"learning_rate": 9.658817277334013e-06,
	"loss": 0.2304,
	"num_tokens": 25498031.0,
	"step": 79
	},
	{
	"epoch": 0.4678362573099415,
	"grad_norm": 0.16563608461998558,
	"learning_rate": 9.647869600489954e-06,
	"loss": 0.231,
	"num_tokens": 25812720.0,
	"step": 80
	},
	{
	"epoch": 0.47368421052631576,
	"grad_norm": 0.17555857386256016,
	"learning_rate": 9.63675619002585e-06,
	"loss": 0.2323,
	"num_tokens": 26123680.0,
	"step": 81
	},
	{
	"epoch": 0.47953216374269003,
	"grad_norm": 0.164333445701762,
	"learning_rate": 9.625477489992727e-06,
	"loss": 0.2138,
	"num_tokens": 26410771.0,
	"step": 82
	},
	{
	"epoch": 0.4853801169590643,
	"grad_norm": 0.17696917107757262,
	"learning_rate": 9.614033951045974e-06,
	"loss": 0.2286,
	"num_tokens": 26716396.0,
	"step": 83
	},
	{
	"epoch": 0.49122807017543857,
	"grad_norm": 0.15710163009015682,
	"learning_rate": 9.602426030427335e-06,
	"loss": 0.22,
	"num_tokens": 27038109.0,
	"step": 84
	},
	{
	"epoch": 0.49707602339181284,
	"grad_norm": 0.1677938058002079,
	"learning_rate": 9.590654191946645e-06,
	"loss": 0.2327,
	"num_tokens": 27372562.0,
	"step": 85
	},
	{
	"epoch": 0.5029239766081871,
	"grad_norm": 0.15756946980734074,
	"learning_rate": 9.578718905963289e-06,
	"loss": 0.2274,
	"num_tokens": 27719366.0,
	"step": 86
	},
	{
	"epoch": 0.5087719298245614,
	"grad_norm": 0.16483666302272912,
	"learning_rate": 9.566620649367418e-06,
	"loss": 0.23,
	"num_tokens": 28062728.0,
	"step": 87
	},
	{
	"epoch": 0.5146198830409356,
	"grad_norm": 0.16380030907396115,
	"learning_rate": 9.554359905560887e-06,
	"loss": 0.2139,
	"num_tokens": 28392885.0,
	"step": 88
	},
	{
	"epoch": 0.52046783625731,
	"grad_norm": 0.15375223243216413,
	"learning_rate": 9.541937164437942e-06,
	"loss": 0.2249,
	"num_tokens": 28727888.0,
	"step": 89
	},
	{
	"epoch": 0.5263157894736842,
	"grad_norm": 0.16323721706648206,
	"learning_rate": 9.52935292236565e-06,
	"loss": 0.2206,
	"num_tokens": 29040411.0,
	"step": 90
	},
	{
	"epoch": 0.5321637426900585,
	"grad_norm": 0.16395159555865288,
	"learning_rate": 9.516607682164058e-06,
	"loss": 0.2077,
	"num_tokens": 29363581.0,
	"step": 91
	},
	{
	"epoch": 0.5380116959064327,
	"grad_norm": 0.173187036283939,
	"learning_rate": 9.503701953086107e-06,
	"loss": 0.2325,
	"num_tokens": 29691373.0,
	"step": 92
	},
	{
	"epoch": 0.543859649122807,
	"grad_norm": 0.15592117720334775,
	"learning_rate": 9.490636250797288e-06,
	"loss": 0.2215,
	"num_tokens": 30026282.0,
	"step": 93
	},
	{
	"epoch": 0.5497076023391813,
	"grad_norm": 0.16780226146886296,
	"learning_rate": 9.477411097355025e-06,
	"loss": 0.2266,
	"num_tokens": 30357776.0,
	"step": 94
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 0.16080371447382497,
	"learning_rate": 9.464027021187833e-06,
	"loss": 0.2261,
	"num_tokens": 30675188.0,
	"step": 95
	},
	{
	"epoch": 0.5614035087719298,
	"grad_norm": 0.15669972327863108,
	"learning_rate": 9.450484557074188e-06,
	"loss": 0.2247,
	"num_tokens": 31041728.0,
	"step": 96
	},
	{
	"epoch": 0.5672514619883041,
	"grad_norm": 0.15864033792743365,
	"learning_rate": 9.43678424612117e-06,
	"loss": 0.2219,
	"num_tokens": 31373582.0,
	"step": 97
	},
	{
	"epoch": 0.5730994152046783,
	"grad_norm": 0.15897622365337738,
	"learning_rate": 9.422926635742834e-06,
	"loss": 0.2124,
	"num_tokens": 31693920.0,
	"step": 98
	},
	{
	"epoch": 0.5789473684210527,
	"grad_norm": 0.1541883977143332,
	"learning_rate": 9.40891227963835e-06,
	"loss": 0.2089,
	"num_tokens": 32016538.0,
	"step": 99
	},
	{
	"epoch": 0.5847953216374269,
	"grad_norm": 0.16113178998178,
	"learning_rate": 9.39474173776986e-06,
	"loss": 0.2131,
	"num_tokens": 32342868.0,
	"step": 100
	},
	{
	"epoch": 0.5906432748538012,
	"grad_norm": 0.1639032352257192,
	"learning_rate": 9.380415576340127e-06,
	"loss": 0.2126,
	"num_tokens": 32649722.0,
	"step": 101
	},
	{
	"epoch": 0.5964912280701754,
	"grad_norm": 0.15812907943305207,
	"learning_rate": 9.365934367769885e-06,
	"loss": 0.2046,
	"num_tokens": 32961156.0,
	"step": 102
	},
	{
	"epoch": 0.6023391812865497,
	"grad_norm": 0.16040845291570488,
	"learning_rate": 9.351298690674996e-06,
	"loss": 0.212,
	"num_tokens": 33286164.0,
	"step": 103
	},
	{
	"epoch": 0.6081871345029239,
	"grad_norm": 0.15564337683728058,
	"learning_rate": 9.33650912984331e-06,
	"loss": 0.2112,
	"num_tokens": 33634944.0,
	"step": 104
	},
	{
	"epoch": 0.6140350877192983,
	"grad_norm": 0.16026166188911017,
	"learning_rate": 9.321566276211304e-06,
	"loss": 0.2167,
	"num_tokens": 33940455.0,
	"step": 105
	},
	{
	"epoch": 0.6198830409356725,
	"grad_norm": 0.15084775438103953,
	"learning_rate": 9.306470726840472e-06,
	"loss": 0.212,
	"num_tokens": 34269432.0,
	"step": 106
	},
	{
	"epoch": 0.6257309941520468,
	"grad_norm": 0.16379797154749554,
	"learning_rate": 9.291223084893472e-06,
	"loss": 0.2259,
	"num_tokens": 34564983.0,
	"step": 107
	},
	{
	"epoch": 0.631578947368421,
	"grad_norm": 0.1626726779429298,
	"learning_rate": 9.275823959610019e-06,
	"loss": 0.2068,
	"num_tokens": 34869398.0,
	"step": 108
	},
	{
	"epoch": 0.6374269005847953,
	"grad_norm": 0.16973276732555354,
	"learning_rate": 9.260273966282546e-06,
	"loss": 0.2103,
	"num_tokens": 35179769.0,
	"step": 109
	},
	{
	"epoch": 0.6432748538011696,
	"grad_norm": 0.16573716072448422,
	"learning_rate": 9.244573726231621e-06,
	"loss": 0.209,
	"num_tokens": 35489608.0,
	"step": 110
	},
	{
	"epoch": 0.6491228070175439,
	"grad_norm": 0.16034467135549915,
	"learning_rate": 9.22872386678111e-06,
	"loss": 0.2056,
	"num_tokens": 35795317.0,
	"step": 111
	},
	{
	"epoch": 0.6549707602339181,
	"grad_norm": 0.16859253078446698,
	"learning_rate": 9.212725021233135e-06,
	"loss": 0.2105,
	"num_tokens": 36108365.0,
	"step": 112
	},
	{
	"epoch": 0.6608187134502924,
	"grad_norm": 0.17271477988986808,
	"learning_rate": 9.196577828842738e-06,
	"loss": 0.2075,
	"num_tokens": 36435675.0,
	"step": 113
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.17273881432682334,
	"learning_rate": 9.180282934792369e-06,
	"loss": 0.2054,
	"num_tokens": 36737269.0,
	"step": 114
	},
	{
	"epoch": 0.672514619883041,
	"grad_norm": 0.15988223863731596,
	"learning_rate": 9.163840990166085e-06,
	"loss": 0.2011,
	"num_tokens": 37059436.0,
	"step": 115
	},
	{
	"epoch": 0.6783625730994152,
	"grad_norm": 0.1693196726503627,
	"learning_rate": 9.147252651923546e-06,
	"loss": 0.2202,
	"num_tokens": 37382958.0,
	"step": 116
	},
	{
	"epoch": 0.6842105263157895,
	"grad_norm": 0.1605754092944871,
	"learning_rate": 9.130518582873765e-06,
	"loss": 0.2169,
	"num_tokens": 37711301.0,
	"step": 117
	},
	{
	"epoch": 0.6900584795321637,
	"grad_norm": 0.16182274147996495,
	"learning_rate": 9.11363945164862e-06,
	"loss": 0.2022,
	"num_tokens": 38034357.0,
	"step": 118
	},
	{
	"epoch": 0.695906432748538,
	"grad_norm": 0.17280602584782606,
	"learning_rate": 9.096615932676138e-06,
	"loss": 0.2011,
	"num_tokens": 38349527.0,
	"step": 119
	},
	{
	"epoch": 0.7017543859649122,
	"grad_norm": 0.16010466565814827,
	"learning_rate": 9.079448706153554e-06,
	"loss": 0.2016,
	"num_tokens": 38654356.0,
	"step": 120
	},
	{
	"epoch": 0.7076023391812866,
	"grad_norm": 0.15767250824653006,
	"learning_rate": 9.062138458020128e-06,
	"loss": 0.1917,
	"num_tokens": 38962205.0,
	"step": 121
	},
	{
	"epoch": 0.7134502923976608,
	"grad_norm": 0.17133096215596827,
	"learning_rate": 9.044685879929734e-06,
	"loss": 0.2087,
	"num_tokens": 39267552.0,
	"step": 122
	},
	{
	"epoch": 0.7192982456140351,
	"grad_norm": 0.15684580395831532,
	"learning_rate": 9.027091669223228e-06,
	"loss": 0.203,
	"num_tokens": 39570208.0,
	"step": 123
	},
	{
	"epoch": 0.7251461988304093,
	"grad_norm": 0.16789387397403432,
	"learning_rate": 9.00935652890059e-06,
	"loss": 0.2099,
	"num_tokens": 39895778.0,
	"step": 124
	},
	{
	"epoch": 0.7309941520467836,
	"grad_norm": 0.15658978810688212,
	"learning_rate": 8.991481167592826e-06,
	"loss": 0.2061,
	"num_tokens": 40225470.0,
	"step": 125
	},
	{
	"epoch": 0.7368421052631579,
	"grad_norm": 0.15588015347201137,
	"learning_rate": 8.973466299533656e-06,
	"loss": 0.2047,
	"num_tokens": 40559255.0,
	"step": 126
	},
	{
	"epoch": 0.7426900584795322,
	"grad_norm": 0.1750982604863698,
	"learning_rate": 8.955312644530976e-06,
	"loss": 0.1996,
	"num_tokens": 40860587.0,
	"step": 127
	},
	{
	"epoch": 0.7485380116959064,
	"grad_norm": 0.15381841682641284,
	"learning_rate": 8.937020927938103e-06,
	"loss": 0.2001,
	"num_tokens": 41189624.0,
	"step": 128
	},
	{
	"epoch": 0.7543859649122807,
	"grad_norm": 0.1577155995424487,
	"learning_rate": 8.918591880624783e-06,
	"loss": 0.2005,
	"num_tokens": 41490687.0,
	"step": 129
	},
	{
	"epoch": 0.7602339181286549,
	"grad_norm": 0.15962057074829455,
	"learning_rate": 8.900026238947995e-06,
	"loss": 0.2115,
	"num_tokens": 41818157.0,
	"step": 130
	},
	{
	"epoch": 0.7660818713450293,
	"grad_norm": 0.15033669547133874,
	"learning_rate": 8.881324744722524e-06,
	"loss": 0.1945,
	"num_tokens": 42149764.0,
	"step": 131
	},
	{
	"epoch": 0.7719298245614035,
	"grad_norm": 0.15680523481040093,
	"learning_rate": 8.86248814519133e-06,
	"loss": 0.204,
	"num_tokens": 42452660.0,
	"step": 132
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 0.19538772884868966,
	"learning_rate": 8.843517192995673e-06,
	"loss": 0.2094,
	"num_tokens": 42762176.0,
	"step": 133
	},
	{
	"epoch": 0.783625730994152,
	"grad_norm": 0.1497802316166281,
	"learning_rate": 8.824412646145065e-06,
	"loss": 0.206,
	"num_tokens": 43122509.0,
	"step": 134
	},
	{
	"epoch": 0.7894736842105263,
	"grad_norm": 0.17792632602872682,
	"learning_rate": 8.805175267986955e-06,
	"loss": 0.2021,
	"num_tokens": 43438515.0,
	"step": 135
	},
	{
	"epoch": 0.7953216374269005,
	"grad_norm": 0.16345383837628785,
	"learning_rate": 8.785805827176256e-06,
	"loss": 0.213,
	"num_tokens": 43750567.0,
	"step": 136
	},
	{
	"epoch": 0.8011695906432749,
	"grad_norm": 0.15988232783718637,
	"learning_rate": 8.766305097644608e-06,
	"loss": 0.2076,
	"num_tokens": 44061251.0,
	"step": 137
	},
	{
	"epoch": 0.8070175438596491,
	"grad_norm": 0.148560033989183,
	"learning_rate": 8.746673858569478e-06,
	"loss": 0.2056,
	"num_tokens": 44402399.0,
	"step": 138
	},
	{
	"epoch": 0.8128654970760234,
	"grad_norm": 0.15498081570702754,
	"learning_rate": 8.726912894343e-06,
	"loss": 0.2011,
	"num_tokens": 44713760.0,
	"step": 139
	},
	{
	"epoch": 0.8187134502923976,
	"grad_norm": 0.16409619767618208,
	"learning_rate": 8.707022994540659e-06,
	"loss": 0.1985,
	"num_tokens": 45006733.0,
	"step": 140
	},
	{
	"epoch": 0.8245614035087719,
	"grad_norm": 0.16387952215184107,
	"learning_rate": 8.687004953889729e-06,
	"loss": 0.2117,
	"num_tokens": 45319558.0,
	"step": 141
	},
	{
	"epoch": 0.8304093567251462,
	"grad_norm": 0.14972932521892918,
	"learning_rate": 8.666859572237517e-06,
	"loss": 0.2017,
	"num_tokens": 45648581.0,
	"step": 142
	},
	{
	"epoch": 0.8362573099415205,
	"grad_norm": 0.14894137892754095,
	"learning_rate": 8.646587654519413e-06,
	"loss": 0.2011,
	"num_tokens": 45961313.0,
	"step": 143
	},
	{
	"epoch": 0.8421052631578947,
	"grad_norm": 0.15579100817213587,
	"learning_rate": 8.626190010726723e-06,
	"loss": 0.1851,
	"num_tokens": 46290840.0,
	"step": 144
	},
	{
	"epoch": 0.847953216374269,
	"grad_norm": 0.154512527802127,
	"learning_rate": 8.605667455874302e-06,
	"loss": 0.1903,
	"num_tokens": 46585564.0,
	"step": 145
	},
	{
	"epoch": 0.8538011695906432,
	"grad_norm": 0.16017530332563623,
	"learning_rate": 8.585020809967995e-06,
	"loss": 0.2066,
	"num_tokens": 46893844.0,
	"step": 146
	},
	{
	"epoch": 0.8596491228070176,
	"grad_norm": 0.16010504287695315,
	"learning_rate": 8.564250897971862e-06,
	"loss": 0.2151,
	"num_tokens": 47228507.0,
	"step": 147
	},
	{
	"epoch": 0.8654970760233918,
	"grad_norm": 0.15911701846573467,
	"learning_rate": 8.543358549775232e-06,
	"loss": 0.2029,
	"num_tokens": 47537550.0,
	"step": 148
	},
	{
	"epoch": 0.8713450292397661,
	"grad_norm": 0.1385770650249908,
	"learning_rate": 8.522344600159532e-06,
	"loss": 0.1892,
	"num_tokens": 47871896.0,
	"step": 149
	},
	{
	"epoch": 0.8771929824561403,
	"grad_norm": 0.14241522573672255,
	"learning_rate": 8.501209888764928e-06,
	"loss": 0.2016,
	"num_tokens": 48224890.0,
	"step": 150
	},
	{
	"epoch": 0.8830409356725146,
	"grad_norm": 0.16042004560579917,
	"learning_rate": 8.479955260056793e-06,
	"loss": 0.2293,
	"num_tokens": 48551394.0,
	"step": 151
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.1606415549333606,
	"learning_rate": 8.458581563291948e-06,
	"loss": 0.1993,
	"num_tokens": 48869584.0,
	"step": 152
	},
	{
	"epoch": 0.8947368421052632,
	"grad_norm": 0.13692085860159872,
	"learning_rate": 8.437089652484735e-06,
	"loss": 0.188,
	"num_tokens": 49220358.0,
	"step": 153
	},
	{
	"epoch": 0.9005847953216374,
	"grad_norm": 0.15029963686711117,
	"learning_rate": 8.415480386372901e-06,
	"loss": 0.2176,
	"num_tokens": 49555633.0,
	"step": 154
	},
	{
	"epoch": 0.9064327485380117,
	"grad_norm": 0.15377050265299294,
	"learning_rate": 8.393754628383274e-06,
	"loss": 0.2078,
	"num_tokens": 49857399.0,
	"step": 155
	},
	{
	"epoch": 0.9122807017543859,
	"grad_norm": 0.1600390896381573,
	"learning_rate": 8.371913246597272e-06,
	"loss": 0.1987,
	"num_tokens": 50208717.0,
	"step": 156
	},
	{
	"epoch": 0.9181286549707602,
	"grad_norm": 0.1709173684661271,
	"learning_rate": 8.349957113716213e-06,
	"loss": 0.212,
	"num_tokens": 50502126.0,
	"step": 157
	},
	{
	"epoch": 0.9239766081871345,
	"grad_norm": 0.16675835187365423,
	"learning_rate": 8.327887107026445e-06,
	"loss": 0.2237,
	"num_tokens": 50820497.0,
	"step": 158
	},
	{
	"epoch": 0.9298245614035088,
	"grad_norm": 0.14395552142792745,
	"learning_rate": 8.305704108364301e-06,
	"loss": 0.2076,
	"num_tokens": 51154766.0,
	"step": 159
	},
	{
	"epoch": 0.935672514619883,
	"grad_norm": 0.15573171280863216,
	"learning_rate": 8.283409004080853e-06,
	"loss": 0.2114,
	"num_tokens": 51491802.0,
	"step": 160
	},
	{
	"epoch": 0.9415204678362573,
	"grad_norm": 0.158518456781856,
	"learning_rate": 8.261002685006503e-06,
	"loss": 0.2224,
	"num_tokens": 51818025.0,
	"step": 161
	},
	{
	"epoch": 0.9473684210526315,
	"grad_norm": 0.15531715834460813,
	"learning_rate": 8.238486046415385e-06,
	"loss": 0.1937,
	"num_tokens": 52118378.0,
	"step": 162
	},
	{
	"epoch": 0.9532163742690059,
	"grad_norm": 0.1515317024708392,
	"learning_rate": 8.2158599879896e-06,
	"loss": 0.1968,
	"num_tokens": 52428129.0,
	"step": 163
	},
	{
	"epoch": 0.9590643274853801,
	"grad_norm": 0.14424883914854034,
	"learning_rate": 8.19312541378326e-06,
	"loss": 0.193,
	"num_tokens": 52735470.0,
	"step": 164
	},
	{
	"epoch": 0.9649122807017544,
	"grad_norm": 0.15498488683654527,
	"learning_rate": 8.170283232186365e-06,
	"loss": 0.1943,
	"num_tokens": 53051592.0,
	"step": 165
	},
	{
	"epoch": 0.9707602339181286,
	"grad_norm": 0.1754541926428641,
	"learning_rate": 8.14733435588852e-06,
	"loss": 0.2214,
	"num_tokens": 53343217.0,
	"step": 166
	},
	{
	"epoch": 0.9766081871345029,
	"grad_norm": 0.14868906024546139,
	"learning_rate": 8.12427970184245e-06,
	"loss": 0.1935,
	"num_tokens": 53658830.0,
	"step": 167
	},
	{
	"epoch": 0.9824561403508771,
	"grad_norm": 0.1500168809044866,
	"learning_rate": 8.101120191227374e-06,
	"loss": 0.1981,
	"num_tokens": 53999419.0,
	"step": 168
	},
	{
	"epoch": 0.9883040935672515,
	"grad_norm": 0.14699416276573674,
	"learning_rate": 8.07785674941219e-06,
	"loss": 0.194,
	"num_tokens": 54309901.0,
	"step": 169
	},
	{
	"epoch": 0.9941520467836257,
	"grad_norm": 0.15232473722185103,
	"learning_rate": 8.054490305918512e-06,
	"loss": 0.1955,
	"num_tokens": 54612844.0,
	"step": 170
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.1607048554407368,
	"learning_rate": 8.031021794383513e-06,
	"loss": 0.2092,
	"num_tokens": 54926459.0,
	"step": 171
	},
	{
	"epoch": 1.0058479532163742,
	"grad_norm": 0.1625217088750646,
	"learning_rate": 8.007452152522639e-06,
	"loss": 0.1875,
	"num_tokens": 55222609.0,
	"step": 172
	},
	{
	"epoch": 1.0116959064327484,
	"grad_norm": 0.15670723402140246,
	"learning_rate": 7.983782322092126e-06,
	"loss": 0.1938,
	"num_tokens": 55537898.0,
	"step": 173
	},
	{
	"epoch": 1.0175438596491229,
	"grad_norm": 0.14242775964832494,
	"learning_rate": 7.960013248851375e-06,
	"loss": 0.1882,
	"num_tokens": 55862238.0,
	"step": 174
	},
	{
	"epoch": 1.023391812865497,
	"grad_norm": 0.1606453358565539,
	"learning_rate": 7.936145882525174e-06,
	"loss": 0.1877,
	"num_tokens": 56180559.0,
	"step": 175
	},
	{
	"epoch": 1.0292397660818713,
	"grad_norm": 0.15292057131184103,
	"learning_rate": 7.91218117676573e-06,
	"loss": 0.1783,
	"num_tokens": 56530315.0,
	"step": 176
	},
	{
	"epoch": 1.0350877192982457,
	"grad_norm": 0.14722221394043097,
	"learning_rate": 7.888120089114586e-06,
	"loss": 0.1758,
	"num_tokens": 56837967.0,
	"step": 177
	},
	{
	"epoch": 1.04093567251462,
	"grad_norm": 0.15795692601491945,
	"learning_rate": 7.863963580964344e-06,
	"loss": 0.1772,
	"num_tokens": 57149693.0,
	"step": 178
	},
	{
	"epoch": 1.0467836257309941,
	"grad_norm": 0.1700985282278579,
	"learning_rate": 7.839712617520263e-06,
	"loss": 0.1897,
	"num_tokens": 57481658.0,
	"step": 179
	},
	{
	"epoch": 1.0526315789473684,
	"grad_norm": 0.14557972709377917,
	"learning_rate": 7.815368167761686e-06,
	"loss": 0.1797,
	"num_tokens": 57795613.0,
	"step": 180
	},
	{
	"epoch": 1.0584795321637426,
	"grad_norm": 0.15501104048829578,
	"learning_rate": 7.790931204403323e-06,
	"loss": 0.177,
	"num_tokens": 58094562.0,
	"step": 181
	},
	{
	"epoch": 1.064327485380117,
	"grad_norm": 0.1521089989961407,
	"learning_rate": 7.766402703856391e-06,
	"loss": 0.1748,
	"num_tokens": 58418586.0,
	"step": 182
	},
	{
	"epoch": 1.0701754385964912,
	"grad_norm": 0.16486785923579997,
	"learning_rate": 7.741783646189597e-06,
	"loss": 0.1927,
	"num_tokens": 58745927.0,
	"step": 183
	},
	{
	"epoch": 1.0760233918128654,
	"grad_norm": 0.15410381183903402,
	"learning_rate": 7.717075015089976e-06,
	"loss": 0.1884,
	"num_tokens": 59070496.0,
	"step": 184
	},
	{
	"epoch": 1.0818713450292399,
	"grad_norm": 0.1444493695200652,
	"learning_rate": 7.692277797823585e-06,
	"loss": 0.1755,
	"num_tokens": 59388680.0,
	"step": 185
	},
	{
	"epoch": 1.087719298245614,
	"grad_norm": 0.15330407620774641,
	"learning_rate": 7.667392985196064e-06,
	"loss": 0.1866,
	"num_tokens": 59707236.0,
	"step": 186
	},
	{
	"epoch": 1.0935672514619883,
	"grad_norm": 0.16477562582655433,
	"learning_rate": 7.64242157151304e-06,
	"loss": 0.1999,
	"num_tokens": 60042655.0,
	"step": 187
	},
	{
	"epoch": 1.0994152046783625,
	"grad_norm": 0.140060196586728,
	"learning_rate": 7.6173645545404e-06,
	"loss": 0.1834,
	"num_tokens": 60397091.0,
	"step": 188
	},
	{
	"epoch": 1.1052631578947367,
	"grad_norm": 0.1525186599047059,
	"learning_rate": 7.5922229354644195e-06,
	"loss": 0.1811,
	"num_tokens": 60707243.0,
	"step": 189
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 0.14180526703114305,
	"learning_rate": 7.56699771885177e-06,
	"loss": 0.1789,
	"num_tokens": 61056021.0,
	"step": 190
	},
	{
	"epoch": 1.1169590643274854,
	"grad_norm": 0.14606069061084653,
	"learning_rate": 7.541689912609365e-06,
	"loss": 0.1833,
	"num_tokens": 61381476.0,
	"step": 191
	},
	{
	"epoch": 1.1228070175438596,
	"grad_norm": 0.1452299835582357,
	"learning_rate": 7.516300527944104e-06,
	"loss": 0.1889,
	"num_tokens": 61710931.0,
	"step": 192
	},
	{
	"epoch": 1.128654970760234,
	"grad_norm": 0.1607339684687444,
	"learning_rate": 7.4908305793224565e-06,
	"loss": 0.1891,
	"num_tokens": 62048426.0,
	"step": 193
	},
	{
	"epoch": 1.1345029239766082,
	"grad_norm": 0.15970871017649693,
	"learning_rate": 7.465281084429931e-06,
	"loss": 0.1841,
	"num_tokens": 62347583.0,
	"step": 194
	},
	{
	"epoch": 1.1403508771929824,
	"grad_norm": 0.15135926518093104,
	"learning_rate": 7.4396530641304135e-06,
	"loss": 0.1817,
	"num_tokens": 62662619.0,
	"step": 195
	},
	{
	"epoch": 1.1461988304093567,
	"grad_norm": 0.1463984323420409,
	"learning_rate": 7.413947542425377e-06,
	"loss": 0.1795,
	"num_tokens": 62990146.0,
	"step": 196
	},
	{
	"epoch": 1.1520467836257309,
	"grad_norm": 0.15028061491082353,
	"learning_rate": 7.388165546412967e-06,
	"loss": 0.1809,
	"num_tokens": 63314531.0,
	"step": 197
	},
	{
	"epoch": 1.1578947368421053,
	"grad_norm": 0.15759301916806728,
	"learning_rate": 7.362308106246956e-06,
	"loss": 0.1842,
	"num_tokens": 63647247.0,
	"step": 198
	},
	{
	"epoch": 1.1637426900584795,
	"grad_norm": 0.14433827296829588,
	"learning_rate": 7.336376255095592e-06,
	"loss": 0.1758,
	"num_tokens": 63974328.0,
	"step": 199
	},
	{
	"epoch": 1.1695906432748537,
	"grad_norm": 0.1489036598644256,
	"learning_rate": 7.3103710291003134e-06,
	"loss": 0.1832,
	"num_tokens": 64295392.0,
	"step": 200
	},
	{
	"epoch": 1.1754385964912282,
	"grad_norm": 0.1621435575204086,
	"learning_rate": 7.284293467334344e-06,
	"loss": 0.1829,
	"num_tokens": 64601120.0,
	"step": 201
	},
	{
	"epoch": 1.1812865497076024,
	"grad_norm": 0.15685350805242304,
	"learning_rate": 7.258144611761181e-06,
	"loss": 0.1828,
	"num_tokens": 64910553.0,
	"step": 202
	},
	{
	"epoch": 1.1871345029239766,
	"grad_norm": 0.1537822114754735,
	"learning_rate": 7.23192550719296e-06,
	"loss": 0.1786,
	"num_tokens": 65230586.0,
	"step": 203
	},
	{
	"epoch": 1.1929824561403508,
	"grad_norm": 0.1522958629898793,
	"learning_rate": 7.2056372012487065e-06,
	"loss": 0.1858,
	"num_tokens": 65576822.0,
	"step": 204
	},
	{
	"epoch": 1.198830409356725,
	"grad_norm": 0.15072282593856123,
	"learning_rate": 7.179280744312481e-06,
	"loss": 0.1717,
	"num_tokens": 65892198.0,
	"step": 205
	},
	{
	"epoch": 1.2046783625730995,
	"grad_norm": 0.14679430331251794,
	"learning_rate": 7.152857189491406e-06,
	"loss": 0.1709,
	"num_tokens": 66218113.0,
	"step": 206
	},
	{
	"epoch": 1.2105263157894737,
	"grad_norm": 0.14528524091480893,
	"learning_rate": 7.126367592573589e-06,
	"loss": 0.172,
	"num_tokens": 66560316.0,
	"step": 207
	},
	{
	"epoch": 1.2163742690058479,
	"grad_norm": 0.1513531832369065,
	"learning_rate": 7.099813011985936e-06,
	"loss": 0.1867,
	"num_tokens": 66886426.0,
	"step": 208
	},
	{
	"epoch": 1.2222222222222223,
	"grad_norm": 0.14889506905441677,
	"learning_rate": 7.073194508751863e-06,
	"loss": 0.184,
	"num_tokens": 67205115.0,
	"step": 209
	},
	{
	"epoch": 1.2280701754385965,
	"grad_norm": 0.1654317181387804,
	"learning_rate": 7.046513146448899e-06,
	"loss": 0.1892,
	"num_tokens": 67509071.0,
	"step": 210
	},
	{
	"epoch": 1.2339181286549707,
	"grad_norm": 0.1510266755197108,
	"learning_rate": 7.019769991166189e-06,
	"loss": 0.1788,
	"num_tokens": 67841682.0,
	"step": 211
	},
	{
	"epoch": 1.239766081871345,
	"grad_norm": 0.1419685060740966,
	"learning_rate": 6.992966111461903e-06,
	"loss": 0.1685,
	"num_tokens": 68147715.0,
	"step": 212
	},
	{
	"epoch": 1.2456140350877192,
	"grad_norm": 0.14993568993277867,
	"learning_rate": 6.966102578320531e-06,
	"loss": 0.1764,
	"num_tokens": 68463460.0,
	"step": 213
	},
	{
	"epoch": 1.2514619883040936,
	"grad_norm": 0.14659321843622847,
	"learning_rate": 6.9391804651100924e-06,
	"loss": 0.1897,
	"num_tokens": 68799959.0,
	"step": 214
	},
	{
	"epoch": 1.2573099415204678,
	"grad_norm": 0.15073229254770368,
	"learning_rate": 6.912200847539261e-06,
	"loss": 0.172,
	"num_tokens": 69111397.0,
	"step": 215
	},
	{
	"epoch": 1.263157894736842,
	"grad_norm": 0.15759494389625772,
	"learning_rate": 6.885164803614366e-06,
	"loss": 0.1838,
	"num_tokens": 69392630.0,
	"step": 216
	},
	{
	"epoch": 1.2690058479532165,
	"grad_norm": 0.14630639885005334,
	"learning_rate": 6.858073413596324e-06,
	"loss": 0.1807,
	"num_tokens": 69701641.0,
	"step": 217
	},
	{
	"epoch": 1.2748538011695907,
	"grad_norm": 0.14730200293827667,
	"learning_rate": 6.830927759957487e-06,
	"loss": 0.1813,
	"num_tokens": 70030091.0,
	"step": 218
	},
	{
	"epoch": 1.280701754385965,
	"grad_norm": 0.14753719595946904,
	"learning_rate": 6.80372892733837e-06,
	"loss": 0.1804,
	"num_tokens": 70348775.0,
	"step": 219
	},
	{
	"epoch": 1.286549707602339,
	"grad_norm": 0.16483571370877223,
	"learning_rate": 6.776478002504335e-06,
	"loss": 0.1859,
	"num_tokens": 70651692.0,
	"step": 220
	},
	{
	"epoch": 1.2923976608187133,
	"grad_norm": 0.16648842833487107,
	"learning_rate": 6.7491760743021535e-06,
	"loss": 0.1903,
	"num_tokens": 70956682.0,
	"step": 221
	},
	{
	"epoch": 1.2982456140350878,
	"grad_norm": 0.14671697438686584,
	"learning_rate": 6.721824233616503e-06,
	"loss": 0.1758,
	"num_tokens": 71265203.0,
	"step": 222
	},
	{
	"epoch": 1.304093567251462,
	"grad_norm": 0.15188899959419136,
	"learning_rate": 6.694423573326382e-06,
	"loss": 0.1782,
	"num_tokens": 71583993.0,
	"step": 223
	},
	{
	"epoch": 1.3099415204678362,
	"grad_norm": 0.14838740052418056,
	"learning_rate": 6.666975188261437e-06,
	"loss": 0.182,
	"num_tokens": 71899719.0,
	"step": 224
	},
	{
	"epoch": 1.3157894736842106,
	"grad_norm": 0.1576944297988978,
	"learning_rate": 6.639480175158227e-06,
	"loss": 0.1784,
	"num_tokens": 72202094.0,
	"step": 225
	},
	{
	"epoch": 1.3216374269005848,
	"grad_norm": 0.15597436870104375,
	"learning_rate": 6.611939632616394e-06,
	"loss": 0.1784,
	"num_tokens": 72516371.0,
	"step": 226
	},
	{
	"epoch": 1.327485380116959,
	"grad_norm": 0.15325246999833303,
	"learning_rate": 6.584354661054765e-06,
	"loss": 0.1842,
	"num_tokens": 72828007.0,
	"step": 227
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.14935801239745722,
	"learning_rate": 6.556726362667394e-06,
	"loss": 0.1833,
	"num_tokens": 73134243.0,
	"step": 228
	},
	{
	"epoch": 1.3391812865497075,
	"grad_norm": 0.16481075845453566,
	"learning_rate": 6.529055841379509e-06,
	"loss": 0.176,
	"num_tokens": 73436138.0,
	"step": 229
	},
	{
	"epoch": 1.345029239766082,
	"grad_norm": 0.14125268538033928,
	"learning_rate": 6.501344202803415e-06,
	"loss": 0.1708,
	"num_tokens": 73760046.0,
	"step": 230
	},
	{
	"epoch": 1.3508771929824561,
	"grad_norm": 0.1501570731496053,
	"learning_rate": 6.473592554194311e-06,
	"loss": 0.1826,
	"num_tokens": 74077480.0,
	"step": 231
	},
	{
	"epoch": 1.3567251461988303,
	"grad_norm": 0.15771910225549807,
	"learning_rate": 6.445802004406047e-06,
	"loss": 0.1922,
	"num_tokens": 74423874.0,
	"step": 232
	},
	{
	"epoch": 1.3625730994152048,
	"grad_norm": 0.15600805460262265,
	"learning_rate": 6.417973663846826e-06,
	"loss": 0.1749,
	"num_tokens": 74745816.0,
	"step": 233
	},
	{
	"epoch": 1.368421052631579,
	"grad_norm": 0.14516377176873183,
	"learning_rate": 6.390108644434828e-06,
	"loss": 0.18,
	"num_tokens": 75092262.0,
	"step": 234
	},
	{
	"epoch": 1.3742690058479532,
	"grad_norm": 0.14392359169053118,
	"learning_rate": 6.362208059553786e-06,
	"loss": 0.1799,
	"num_tokens": 75442533.0,
	"step": 235
	},
	{
	"epoch": 1.3801169590643274,
	"grad_norm": 0.1548508531809334,
	"learning_rate": 6.334273024008499e-06,
	"loss": 0.1705,
	"num_tokens": 75775480.0,
	"step": 236
	},
	{
	"epoch": 1.3859649122807016,
	"grad_norm": 0.15386739061806035,
	"learning_rate": 6.306304653980286e-06,
	"loss": 0.1722,
	"num_tokens": 76066461.0,
	"step": 237
	},
	{
	"epoch": 1.391812865497076,
	"grad_norm": 0.14831080775519306,
	"learning_rate": 6.278304066982391e-06,
	"loss": 0.1836,
	"num_tokens": 76401700.0,
	"step": 238
	},
	{
	"epoch": 1.3976608187134503,
	"grad_norm": 0.14755841590724592,
	"learning_rate": 6.250272381815331e-06,
	"loss": 0.1802,
	"num_tokens": 76714274.0,
	"step": 239
	},
	{
	"epoch": 1.4035087719298245,
	"grad_norm": 0.15910670160937837,
	"learning_rate": 6.222210718522187e-06,
	"loss": 0.2031,
	"num_tokens": 77028246.0,
	"step": 240
	},
	{
	"epoch": 1.409356725146199,
	"grad_norm": 0.15280436173000247,
	"learning_rate": 6.19412019834386e-06,
	"loss": 0.1742,
	"num_tokens": 77364346.0,
	"step": 241
	},
	{
	"epoch": 1.4152046783625731,
	"grad_norm": 0.13887335477707105,
	"learning_rate": 6.166001943674266e-06,
	"loss": 0.1785,
	"num_tokens": 77748583.0,
	"step": 242
	},
	{
	"epoch": 1.4210526315789473,
	"grad_norm": 0.1577201352102885,
	"learning_rate": 6.137857078015487e-06,
	"loss": 0.1863,
	"num_tokens": 78064140.0,
	"step": 243
	},
	{
	"epoch": 1.4269005847953216,
	"grad_norm": 0.14303385830957374,
	"learning_rate": 6.109686725932882e-06,
	"loss": 0.1813,
	"num_tokens": 78411157.0,
	"step": 244
	},
	{
	"epoch": 1.4327485380116958,
	"grad_norm": 0.14790866721582488,
	"learning_rate": 6.081492013010154e-06,
	"loss": 0.1778,
	"num_tokens": 78723584.0,
	"step": 245
	},
	{
	"epoch": 1.4385964912280702,
	"grad_norm": 0.14901104148022398,
	"learning_rate": 6.0532740658043785e-06,
	"loss": 0.1807,
	"num_tokens": 79054107.0,
	"step": 246
	},
	{
	"epoch": 1.4444444444444444,
	"grad_norm": 0.1485395120018961,
	"learning_rate": 6.025034011800989e-06,
	"loss": 0.187,
	"num_tokens": 79386694.0,
	"step": 247
	},
	{
	"epoch": 1.4502923976608186,
	"grad_norm": 0.14647752236417627,
	"learning_rate": 5.996772979368715e-06,
	"loss": 0.1849,
	"num_tokens": 79718178.0,
	"step": 248
	},
	{
	"epoch": 1.456140350877193,
	"grad_norm": 0.15032391233353223,
	"learning_rate": 5.968492097714519e-06,
	"loss": 0.1744,
	"num_tokens": 80013286.0,
	"step": 249
	},
	{
	"epoch": 1.4619883040935673,
	"grad_norm": 0.13111163977489035,
	"learning_rate": 5.940192496838456e-06,
	"loss": 0.1683,
	"num_tokens": 80358177.0,
	"step": 250
	},
	{
	"epoch": 1.4678362573099415,
	"grad_norm": 0.14507217241507256,
	"learning_rate": 5.911875307488543e-06,
	"loss": 0.1697,
	"num_tokens": 80664979.0,
	"step": 251
	},
	{
	"epoch": 1.4736842105263157,
	"grad_norm": 0.14371510606580692,
	"learning_rate": 5.883541661115555e-06,
	"loss": 0.183,
	"num_tokens": 81008531.0,
	"step": 252
	},
	{
	"epoch": 1.47953216374269,
	"grad_norm": 0.14575959771926755,
	"learning_rate": 5.855192689827838e-06,
	"loss": 0.1784,
	"num_tokens": 81327068.0,
	"step": 253
	},
	{
	"epoch": 1.4853801169590644,
	"grad_norm": 0.14386473495114957,
	"learning_rate": 5.8268295263460625e-06,
	"loss": 0.186,
	"num_tokens": 81660168.0,
	"step": 254
	},
	{
	"epoch": 1.4912280701754386,
	"grad_norm": 0.15665862540575096,
	"learning_rate": 5.798453303957968e-06,
	"loss": 0.1852,
	"num_tokens": 81988344.0,
	"step": 255
	},
	{
	"epoch": 1.4970760233918128,
	"grad_norm": 0.1486254433584565,
	"learning_rate": 5.77006515647308e-06,
	"loss": 0.1815,
	"num_tokens": 82292457.0,
	"step": 256
	},
	{
	"epoch": 1.5029239766081872,
	"grad_norm": 0.15218761718926124,
	"learning_rate": 5.741666218177402e-06,
	"loss": 0.1754,
	"num_tokens": 82577890.0,
	"step": 257
	},
	{
	"epoch": 1.5087719298245614,
	"grad_norm": 0.1538621360954969,
	"learning_rate": 5.7132576237881075e-06,
	"loss": 0.1855,
	"num_tokens": 82874407.0,
	"step": 258
	},
	{
	"epoch": 1.5146198830409356,
	"grad_norm": 0.16534859264165339,
	"learning_rate": 5.684840508408183e-06,
	"loss": 0.187,
	"num_tokens": 83181722.0,
	"step": 259
	},
	{
	"epoch": 1.52046783625731,
	"grad_norm": 0.15058626722493648,
	"learning_rate": 5.656416007481089e-06,
	"loss": 0.1793,
	"num_tokens": 83483808.0,
	"step": 260
	},
	{
	"epoch": 1.526315789473684,
	"grad_norm": 0.14392786696974194,
	"learning_rate": 5.627985256745384e-06,
	"loss": 0.1773,
	"num_tokens": 83826918.0,
	"step": 261
	},
	{
	"epoch": 1.5321637426900585,
	"grad_norm": 0.1547539344312234,
	"learning_rate": 5.5995493921893415e-06,
	"loss": 0.1747,
	"num_tokens": 84129500.0,
	"step": 262
	},
	{
	"epoch": 1.5380116959064327,
	"grad_norm": 0.15476418511066206,
	"learning_rate": 5.571109550005571e-06,
	"loss": 0.1831,
	"num_tokens": 84454231.0,
	"step": 263
	},
	{
	"epoch": 1.543859649122807,
	"grad_norm": 0.15292624983775452,
	"learning_rate": 5.542666866545609e-06,
	"loss": 0.1772,
	"num_tokens": 84758320.0,
	"step": 264
	},
	{
	"epoch": 1.5497076023391814,
	"grad_norm": 0.14323940203700627,
	"learning_rate": 5.5142224782745175e-06,
	"loss": 0.1742,
	"num_tokens": 85064629.0,
	"step": 265
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 0.1569122030468075,
	"learning_rate": 5.485777521725485e-06,
	"loss": 0.1823,
	"num_tokens": 85358431.0,
	"step": 266
	},
	{
	"epoch": 1.5614035087719298,
	"grad_norm": 0.1571283435279191,
	"learning_rate": 5.457333133454394e-06,
	"loss": 0.194,
	"num_tokens": 85681659.0,
	"step": 267
	},
	{
	"epoch": 1.5672514619883042,
	"grad_norm": 0.15050727661326063,
	"learning_rate": 5.4288904499944304e-06,
	"loss": 0.1843,
	"num_tokens": 86001433.0,
	"step": 268
	},
	{
	"epoch": 1.5730994152046782,
	"grad_norm": 0.13840027248721531,
	"learning_rate": 5.40045060781066e-06,
	"loss": 0.1828,
	"num_tokens": 86349235.0,
	"step": 269
	},
	{
	"epoch": 1.5789473684210527,
	"grad_norm": 0.154830903482515,
	"learning_rate": 5.3720147432546175e-06,
	"loss": 0.1891,
	"num_tokens": 86670991.0,
	"step": 270
	},
	{
	"epoch": 1.5847953216374269,
	"grad_norm": 0.14875604221537664,
	"learning_rate": 5.343583992518911e-06,
	"loss": 0.1838,
	"num_tokens": 87005937.0,
	"step": 271
	},
	{
	"epoch": 1.590643274853801,
	"grad_norm": 0.1550420196686663,
	"learning_rate": 5.315159491591818e-06,
	"loss": 0.1932,
	"num_tokens": 87355743.0,
	"step": 272
	},
	{
	"epoch": 1.5964912280701755,
	"grad_norm": 0.16190605189165996,
	"learning_rate": 5.286742376211894e-06,
	"loss": 0.1873,
	"num_tokens": 87666062.0,
	"step": 273
	},
	{
	"epoch": 1.6023391812865497,
	"grad_norm": 0.1499999734628863,
	"learning_rate": 5.2583337818226e-06,
	"loss": 0.179,
	"num_tokens": 88010557.0,
	"step": 274
	},
	{
	"epoch": 1.608187134502924,
	"grad_norm": 0.14174519866822582,
	"learning_rate": 5.229934843526922e-06,
	"loss": 0.1839,
	"num_tokens": 88348530.0,
	"step": 275
	},
	{
	"epoch": 1.6140350877192984,
	"grad_norm": 0.14514733616156453,
	"learning_rate": 5.201546696042033e-06,
	"loss": 0.1732,
	"num_tokens": 88660232.0,
	"step": 276
	},
	{
	"epoch": 1.6198830409356724,
	"grad_norm": 0.15247902901919175,
	"learning_rate": 5.173170473653939e-06,
	"loss": 0.1838,
	"num_tokens": 88986178.0,
	"step": 277
	},
	{
	"epoch": 1.6257309941520468,
	"grad_norm": 0.15161619030379697,
	"learning_rate": 5.1448073101721644e-06,
	"loss": 0.184,
	"num_tokens": 89306790.0,
	"step": 278
	},
	{
	"epoch": 1.631578947368421,
	"grad_norm": 0.15076713301794256,
	"learning_rate": 5.1164583388844476e-06,
	"loss": 0.1764,
	"num_tokens": 89608787.0,
	"step": 279
	},
	{
	"epoch": 1.6374269005847952,
	"grad_norm": 0.15081569071358755,
	"learning_rate": 5.0881246925114595e-06,
	"loss": 0.1841,
	"num_tokens": 89925196.0,
	"step": 280
	},
	{
	"epoch": 1.6432748538011697,
	"grad_norm": 0.14667932336134215,
	"learning_rate": 5.0598075031615445e-06,
	"loss": 0.1714,
	"num_tokens": 90246158.0,
	"step": 281
	},
	{
	"epoch": 1.6491228070175439,
	"grad_norm": 0.14238827156504316,
	"learning_rate": 5.031507902285483e-06,
	"loss": 0.1675,
	"num_tokens": 90530735.0,
	"step": 282
	},
	{
	"epoch": 1.654970760233918,
	"grad_norm": 0.15453119377842958,
	"learning_rate": 5.003227020631287e-06,
	"loss": 0.1822,
	"num_tokens": 90867029.0,
	"step": 283
	},
	{
	"epoch": 1.6608187134502925,
	"grad_norm": 0.14188421149596725,
	"learning_rate": 4.974965988199015e-06,
	"loss": 0.1782,
	"num_tokens": 91197724.0,
	"step": 284
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.13924871637746586,
	"learning_rate": 4.946725934195622e-06,
	"loss": 0.1687,
	"num_tokens": 91501722.0,
	"step": 285
	},
	{
	"epoch": 1.672514619883041,
	"grad_norm": 0.13972442531890047,
	"learning_rate": 4.918507986989848e-06,
	"loss": 0.1721,
	"num_tokens": 91828252.0,
	"step": 286
	},
	{
	"epoch": 1.6783625730994152,
	"grad_norm": 0.14136406326583859,
	"learning_rate": 4.890313274067121e-06,
	"loss": 0.1787,
	"num_tokens": 92160609.0,
	"step": 287
	},
	{
	"epoch": 1.6842105263157894,
	"grad_norm": 0.14317191939225465,
	"learning_rate": 4.862142921984514e-06,
	"loss": 0.1816,
	"num_tokens": 92492656.0,
	"step": 288
	},
	{
	"epoch": 1.6900584795321638,
	"grad_norm": 0.15273877472629271,
	"learning_rate": 4.8339980563257345e-06,
	"loss": 0.1778,
	"num_tokens": 92783619.0,
	"step": 289
	},
	{
	"epoch": 1.695906432748538,
	"grad_norm": 0.1488984953802957,
	"learning_rate": 4.80587980165614e-06,
	"loss": 0.1605,
	"num_tokens": 93088774.0,
	"step": 290
	},
	{
	"epoch": 1.7017543859649122,
	"grad_norm": 0.14456947085083469,
	"learning_rate": 4.7777892814778145e-06,
	"loss": 0.185,
	"num_tokens": 93417888.0,
	"step": 291
	},
	{
	"epoch": 1.7076023391812867,
	"grad_norm": 0.13947315988135284,
	"learning_rate": 4.749727618184672e-06,
	"loss": 0.1673,
	"num_tokens": 93733741.0,
	"step": 292
	},
	{
	"epoch": 1.7134502923976607,
	"grad_norm": 0.14851734535481514,
	"learning_rate": 4.72169593301761e-06,
	"loss": 0.1819,
	"num_tokens": 94047466.0,
	"step": 293
	},
	{
	"epoch": 1.719298245614035,
	"grad_norm": 0.14831214767698989,
	"learning_rate": 4.693695346019715e-06,
	"loss": 0.1771,
	"num_tokens": 94353138.0,
	"step": 294
	},
	{
	"epoch": 1.7251461988304093,
	"grad_norm": 0.14962487368007496,
	"learning_rate": 4.665726975991502e-06,
	"loss": 0.1796,
	"num_tokens": 94660877.0,
	"step": 295
	},
	{
	"epoch": 1.7309941520467835,
	"grad_norm": 0.15275250425533088,
	"learning_rate": 4.637791940446216e-06,
	"loss": 0.1819,
	"num_tokens": 94977362.0,
	"step": 296
	},
	{
	"epoch": 1.736842105263158,
	"grad_norm": 0.1444275240489397,
	"learning_rate": 4.609891355565172e-06,
	"loss": 0.1746,
	"num_tokens": 95287766.0,
	"step": 297
	},
	{
	"epoch": 1.7426900584795322,
	"grad_norm": 0.14585881193254274,
	"learning_rate": 4.582026336153175e-06,
	"loss": 0.1751,
	"num_tokens": 95580594.0,
	"step": 298
	},
	{
	"epoch": 1.7485380116959064,
	"grad_norm": 0.14505549895976488,
	"learning_rate": 4.554197995593953e-06,
	"loss": 0.1811,
	"num_tokens": 95914105.0,
	"step": 299
	},
	{
	"epoch": 1.7543859649122808,
	"grad_norm": 0.14480466196132438,
	"learning_rate": 4.526407445805692e-06,
	"loss": 0.1734,
	"num_tokens": 96221354.0,
	"step": 300
	},
	{
	"epoch": 1.7602339181286548,
	"grad_norm": 0.14878097366426038,
	"learning_rate": 4.4986557971965865e-06,
	"loss": 0.1717,
	"num_tokens": 96503140.0,
	"step": 301
	},
	{
	"epoch": 1.7660818713450293,
	"grad_norm": 0.13546319756214165,
	"learning_rate": 4.4709441586204924e-06,
	"loss": 0.1787,
	"num_tokens": 96862132.0,
	"step": 302
	},
	{
	"epoch": 1.7719298245614035,
	"grad_norm": 0.1545758606312762,
	"learning_rate": 4.443273637332607e-06,
	"loss": 0.1817,
	"num_tokens": 97181205.0,
	"step": 303
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.14857553617463332,
	"learning_rate": 4.415645338945236e-06,
	"loss": 0.1835,
	"num_tokens": 97496038.0,
	"step": 304
	},
	{
	"epoch": 1.7836257309941521,
	"grad_norm": 0.1433152779712938,
	"learning_rate": 4.388060367383607e-06,
	"loss": 0.1807,
	"num_tokens": 97811641.0,
	"step": 305
	},
	{
	"epoch": 1.7894736842105263,
	"grad_norm": 0.15284420636801233,
	"learning_rate": 4.3605198248417745e-06,
	"loss": 0.1904,
	"num_tokens": 98139634.0,
	"step": 306
	},
	{
	"epoch": 1.7953216374269005,
	"grad_norm": 0.15285620589846677,
	"learning_rate": 4.333024811738565e-06,
	"loss": 0.1794,
	"num_tokens": 98454687.0,
	"step": 307
	},
	{
	"epoch": 1.801169590643275,
	"grad_norm": 0.14480146717017858,
	"learning_rate": 4.305576426673621e-06,
	"loss": 0.1733,
	"num_tokens": 98768020.0,
	"step": 308
	},
	{
	"epoch": 1.807017543859649,
	"grad_norm": 0.14587759969006922,
	"learning_rate": 4.278175766383499e-06,
	"loss": 0.1788,
	"num_tokens": 99089607.0,
	"step": 309
	},
	{
	"epoch": 1.8128654970760234,
	"grad_norm": 0.14456314742064028,
	"learning_rate": 4.250823925697848e-06,
	"loss": 0.1728,
	"num_tokens": 99396998.0,
	"step": 310
	},
	{
	"epoch": 1.8187134502923976,
	"grad_norm": 0.14323326579292064,
	"learning_rate": 4.223521997495665e-06,
	"loss": 0.1774,
	"num_tokens": 99716575.0,
	"step": 311
	},
	{
	"epoch": 1.8245614035087718,
	"grad_norm": 0.1325445041745875,
	"learning_rate": 4.196271072661631e-06,
	"loss": 0.168,
	"num_tokens": 100064416.0,
	"step": 312
	},
	{
	"epoch": 1.8304093567251463,
	"grad_norm": 0.13327008176494723,
	"learning_rate": 4.169072240042514e-06,
	"loss": 0.1699,
	"num_tokens": 100409121.0,
	"step": 313
	},
	{
	"epoch": 1.8362573099415205,
	"grad_norm": 0.13889911640255415,
	"learning_rate": 4.141926586403677e-06,
	"loss": 0.1805,
	"num_tokens": 100765220.0,
	"step": 314
	},
	{
	"epoch": 1.8421052631578947,
	"grad_norm": 0.1454927979121013,
	"learning_rate": 4.114835196385636e-06,
	"loss": 0.1842,
	"num_tokens": 101081641.0,
	"step": 315
	},
	{
	"epoch": 1.8479532163742691,
	"grad_norm": 0.1404945457994314,
	"learning_rate": 4.08779915246074e-06,
	"loss": 0.1822,
	"num_tokens": 101412150.0,
	"step": 316
	},
	{
	"epoch": 1.8538011695906431,
	"grad_norm": 0.13980685227323844,
	"learning_rate": 4.060819534889909e-06,
	"loss": 0.1799,
	"num_tokens": 101744218.0,
	"step": 317
	},
	{
	"epoch": 1.8596491228070176,
	"grad_norm": 0.14229034728182074,
	"learning_rate": 4.033897421679472e-06,
	"loss": 0.1694,
	"num_tokens": 102086143.0,
	"step": 318
	},
	{
	"epoch": 1.8654970760233918,
	"grad_norm": 0.1409421468030685,
	"learning_rate": 4.0070338885381e-06,
	"loss": 0.183,
	"num_tokens": 102386095.0,
	"step": 319
	},
	{
	"epoch": 1.871345029239766,
	"grad_norm": 0.14131996708764916,
	"learning_rate": 3.980230008833812e-06,
	"loss": 0.1784,
	"num_tokens": 102724647.0,
	"step": 320
	},
	{
	"epoch": 1.8771929824561404,
	"grad_norm": 0.14060583568522164,
	"learning_rate": 3.953486853551104e-06,
	"loss": 0.1611,
	"num_tokens": 103019942.0,
	"step": 321
	},
	{
	"epoch": 1.8830409356725146,
	"grad_norm": 0.13762893362884943,
	"learning_rate": 3.926805491248138e-06,
	"loss": 0.1681,
	"num_tokens": 103358784.0,
	"step": 322
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 0.15361551995597972,
	"learning_rate": 3.900186988014065e-06,
	"loss": 0.1825,
	"num_tokens": 103660262.0,
	"step": 323
	},
	{
	"epoch": 1.8947368421052633,
	"grad_norm": 0.13699916161747416,
	"learning_rate": 3.873632407426412e-06,
	"loss": 0.179,
	"num_tokens": 103981503.0,
	"step": 324
	},
	{
	"epoch": 1.9005847953216373,
	"grad_norm": 0.14959870826890115,
	"learning_rate": 3.847142810508596e-06,
	"loss": 0.1826,
	"num_tokens": 104304618.0,
	"step": 325
	},
	{
	"epoch": 1.9064327485380117,
	"grad_norm": 0.13265912139830643,
	"learning_rate": 3.82071925568752e-06,
	"loss": 0.1721,
	"num_tokens": 104676283.0,
	"step": 326
	},
	{
	"epoch": 1.912280701754386,
	"grad_norm": 0.1421124205261071,
	"learning_rate": 3.7943627987512953e-06,
	"loss": 0.1805,
	"num_tokens": 105009047.0,
	"step": 327
	},
	{
	"epoch": 1.9181286549707601,
	"grad_norm": 0.1437008669427492,
	"learning_rate": 3.7680744928070413e-06,
	"loss": 0.1754,
	"num_tokens": 105335760.0,
	"step": 328
	},
	{
	"epoch": 1.9239766081871346,
	"grad_norm": 0.13360094795705102,
	"learning_rate": 3.741855388238821e-06,
	"loss": 0.1728,
	"num_tokens": 105669692.0,
	"step": 329
	},
	{
	"epoch": 1.9298245614035088,
	"grad_norm": 0.14123898637906518,
	"learning_rate": 3.715706532665657e-06,
	"loss": 0.1771,
	"num_tokens": 105989627.0,
	"step": 330
	},
	{
	"epoch": 1.935672514619883,
	"grad_norm": 0.15005239176117802,
	"learning_rate": 3.6896289708996867e-06,
	"loss": 0.1875,
	"num_tokens": 106296775.0,
	"step": 331
	},
	{
	"epoch": 1.9415204678362574,
	"grad_norm": 0.13514021795158399,
	"learning_rate": 3.6636237449044077e-06,
	"loss": 0.164,
	"num_tokens": 106614583.0,
	"step": 332
	},
	{
	"epoch": 1.9473684210526314,
	"grad_norm": 0.14198706510532838,
	"learning_rate": 3.637691893753047e-06,
	"loss": 0.1923,
	"num_tokens": 106960662.0,
	"step": 333
	},
	{
	"epoch": 1.9532163742690059,
	"grad_norm": 0.13549287034356422,
	"learning_rate": 3.611834453587035e-06,
	"loss": 0.1713,
	"num_tokens": 107295583.0,
	"step": 334
	},
	{
	"epoch": 1.95906432748538,
	"grad_norm": 0.14046063970510755,
	"learning_rate": 3.5860524575746247e-06,
	"loss": 0.1856,
	"num_tokens": 107643687.0,
	"step": 335
	},
	{
	"epoch": 1.9649122807017543,
	"grad_norm": 0.14339861962392317,
	"learning_rate": 3.5603469358695887e-06,
	"loss": 0.1763,
	"num_tokens": 107990974.0,
	"step": 336
	},
	{
	"epoch": 1.9707602339181287,
	"grad_norm": 0.14801719558718762,
	"learning_rate": 3.53471891557007e-06,
	"loss": 0.193,
	"num_tokens": 108320866.0,
	"step": 337
	},
	{
	"epoch": 1.976608187134503,
	"grad_norm": 0.13759593336874304,
	"learning_rate": 3.509169420677545e-06,
	"loss": 0.1646,
	"num_tokens": 108635348.0,
	"step": 338
	},
	{
	"epoch": 1.9824561403508771,
	"grad_norm": 0.14182117983464468,
	"learning_rate": 3.483699472055897e-06,
	"loss": 0.175,
	"num_tokens": 108945985.0,
	"step": 339
	},
	{
	"epoch": 1.9883040935672516,
	"grad_norm": 0.14601860778521314,
	"learning_rate": 3.458310087390637e-06,
	"loss": 0.1746,
	"num_tokens": 109253189.0,
	"step": 340
	},
	{
	"epoch": 1.9941520467836256,
	"grad_norm": 0.13963753894588415,
	"learning_rate": 3.4330022811482317e-06,
	"loss": 0.1758,
	"num_tokens": 109573613.0,
	"step": 341
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.14923037322286145,
	"learning_rate": 3.4077770645355824e-06,
	"loss": 0.1806,
	"num_tokens": 109863441.0,
	"step": 342
	},
	{
	"epoch": 2.0058479532163744,
	"grad_norm": 0.14979935754858112,
	"learning_rate": 3.3826354454596024e-06,
	"loss": 0.1648,
	"num_tokens": 110172994.0,
	"step": 343
	},
	{
	"epoch": 2.0116959064327484,
	"grad_norm": 0.14730373048534828,
	"learning_rate": 3.35757842848696e-06,
	"loss": 0.1658,
	"num_tokens": 110485924.0,
	"step": 344
	},
	{
	"epoch": 2.017543859649123,
	"grad_norm": 0.13744380787225857,
	"learning_rate": 3.332607014803937e-06,
	"loss": 0.1672,
	"num_tokens": 110803906.0,
	"step": 345
	},
	{
	"epoch": 2.023391812865497,
	"grad_norm": 0.14343267181086955,
	"learning_rate": 3.307722202176417e-06,
	"loss": 0.1685,
	"num_tokens": 111130534.0,
	"step": 346
	},
	{
	"epoch": 2.0292397660818713,
	"grad_norm": 0.14951907378888113,
	"learning_rate": 3.2829249849100255e-06,
	"loss": 0.1656,
	"num_tokens": 111443229.0,
	"step": 347
	},
	{
	"epoch": 2.0350877192982457,
	"grad_norm": 0.15277865040934263,
	"learning_rate": 3.2582163538104038e-06,
	"loss": 0.172,
	"num_tokens": 111757363.0,
	"step": 348
	},
	{
	"epoch": 2.0409356725146197,
	"grad_norm": 0.14756047461787347,
	"learning_rate": 3.2335972961436095e-06,
	"loss": 0.1568,
	"num_tokens": 112093731.0,
	"step": 349
	},
	{
	"epoch": 2.046783625730994,
	"grad_norm": 0.16032862389663596,
	"learning_rate": 3.209068795596679e-06,
	"loss": 0.1658,
	"num_tokens": 112388610.0,
	"step": 350
	},
	{
	"epoch": 2.0526315789473686,
	"grad_norm": 0.16521303938360793,
	"learning_rate": 3.1846318322383164e-06,
	"loss": 0.1668,
	"num_tokens": 112693505.0,
	"step": 351
	},
	{
	"epoch": 2.0584795321637426,
	"grad_norm": 0.15381932734961204,
	"learning_rate": 3.160287382479738e-06,
	"loss": 0.1659,
	"num_tokens": 112979822.0,
	"step": 352
	},
	{
	"epoch": 2.064327485380117,
	"grad_norm": 0.1375064634023704,
	"learning_rate": 3.136036419035656e-06,
	"loss": 0.1666,
	"num_tokens": 113301917.0,
	"step": 353
	},
	{
	"epoch": 2.0701754385964914,
	"grad_norm": 0.15582327011120772,
	"learning_rate": 3.111879910885414e-06,
	"loss": 0.1743,
	"num_tokens": 113618502.0,
	"step": 354
	},
	{
	"epoch": 2.0760233918128654,
	"grad_norm": 0.1447294439687268,
	"learning_rate": 3.0878188232342708e-06,
	"loss": 0.1675,
	"num_tokens": 113947517.0,
	"step": 355
	},
	{
	"epoch": 2.08187134502924,
	"grad_norm": 0.15087644416114507,
	"learning_rate": 3.0638541174748284e-06,
	"loss": 0.1693,
	"num_tokens": 114275423.0,
	"step": 356
	},
	{
	"epoch": 2.087719298245614,
	"grad_norm": 0.14016164600859282,
	"learning_rate": 3.0399867511486247e-06,
	"loss": 0.1592,
	"num_tokens": 114588977.0,
	"step": 357
	},
	{
	"epoch": 2.0935672514619883,
	"grad_norm": 0.13990826210042928,
	"learning_rate": 3.0162176779078763e-06,
	"loss": 0.1639,
	"num_tokens": 114914836.0,
	"step": 358
	},
	{
	"epoch": 2.0994152046783627,
	"grad_norm": 0.14220573852232116,
	"learning_rate": 2.9925478474773634e-06,
	"loss": 0.1533,
	"num_tokens": 115251681.0,
	"step": 359
	},
	{
	"epoch": 2.1052631578947367,
	"grad_norm": 0.1462318844171621,
	"learning_rate": 2.9689782056164874e-06,
	"loss": 0.1634,
	"num_tokens": 115583416.0,
	"step": 360
	},
	{
	"epoch": 2.111111111111111,
	"grad_norm": 0.15963290757197937,
	"learning_rate": 2.94550969408149e-06,
	"loss": 0.1799,
	"num_tokens": 115902865.0,
	"step": 361
	},
	{
	"epoch": 2.116959064327485,
	"grad_norm": 0.14871595452125072,
	"learning_rate": 2.9221432505878116e-06,
	"loss": 0.1624,
	"num_tokens": 116225855.0,
	"step": 362
	},
	{
	"epoch": 2.1228070175438596,
	"grad_norm": 0.15147360930740472,
	"learning_rate": 2.8988798087726295e-06,
	"loss": 0.1608,
	"num_tokens": 116539725.0,
	"step": 363
	},
	{
	"epoch": 2.128654970760234,
	"grad_norm": 0.14416045180339065,
	"learning_rate": 2.875720298157551e-06,
	"loss": 0.1576,
	"num_tokens": 116893688.0,
	"step": 364
	},
	{
	"epoch": 2.134502923976608,
	"grad_norm": 0.15123893108832548,
	"learning_rate": 2.8526656441114815e-06,
	"loss": 0.1685,
	"num_tokens": 117195485.0,
	"step": 365
	},
	{
	"epoch": 2.1403508771929824,
	"grad_norm": 0.14700656972796167,
	"learning_rate": 2.8297167678136363e-06,
	"loss": 0.1512,
	"num_tokens": 117517383.0,
	"step": 366
	},
	{
	"epoch": 2.146198830409357,
	"grad_norm": 0.14798834895868007,
	"learning_rate": 2.8068745862167423e-06,
	"loss": 0.165,
	"num_tokens": 117837819.0,
	"step": 367
	},
	{
	"epoch": 2.152046783625731,
	"grad_norm": 0.14373047748755674,
	"learning_rate": 2.784140012010401e-06,
	"loss": 0.157,
	"num_tokens": 118172299.0,
	"step": 368
	},
	{
	"epoch": 2.1578947368421053,
	"grad_norm": 0.14591495023462686,
	"learning_rate": 2.7615139535846156e-06,
	"loss": 0.1569,
	"num_tokens": 118493460.0,
	"step": 369
	},
	{
	"epoch": 2.1637426900584797,
	"grad_norm": 0.14800266668408754,
	"learning_rate": 2.7389973149934974e-06,
	"loss": 0.1657,
	"num_tokens": 118788247.0,
	"step": 370
	},
	{
	"epoch": 2.1695906432748537,
	"grad_norm": 0.14815056056984904,
	"learning_rate": 2.7165909959191472e-06,
	"loss": 0.1653,
	"num_tokens": 119112526.0,
	"step": 371
	},
	{
	"epoch": 2.175438596491228,
	"grad_norm": 0.14800590386326276,
	"learning_rate": 2.6942958916356997e-06,
	"loss": 0.155,
	"num_tokens": 119425646.0,
	"step": 372
	},
	{
	"epoch": 2.181286549707602,
	"grad_norm": 0.155304755457848,
	"learning_rate": 2.6721128929735563e-06,
	"loss": 0.1682,
	"num_tokens": 119730833.0,
	"step": 373
	},
	{
	"epoch": 2.1871345029239766,
	"grad_norm": 0.14504483487086625,
	"learning_rate": 2.6500428862837878e-06,
	"loss": 0.1591,
	"num_tokens": 120056226.0,
	"step": 374
	},
	{
	"epoch": 2.192982456140351,
	"grad_norm": 0.1381416074535997,
	"learning_rate": 2.6280867534027286e-06,
	"loss": 0.1628,
	"num_tokens": 120386366.0,
	"step": 375
	},
	{
	"epoch": 2.198830409356725,
	"grad_norm": 0.14481228971827553,
	"learning_rate": 2.6062453716167273e-06,
	"loss": 0.1681,
	"num_tokens": 120734433.0,
	"step": 376
	},
	{
	"epoch": 2.2046783625730995,
	"grad_norm": 0.15691625415835195,
	"learning_rate": 2.5845196136270994e-06,
	"loss": 0.1713,
	"num_tokens": 121015717.0,
	"step": 377
	},
	{
	"epoch": 2.2105263157894735,
	"grad_norm": 0.14498825747218128,
	"learning_rate": 2.5629103475152654e-06,
	"loss": 0.157,
	"num_tokens": 121314872.0,
	"step": 378
	},
	{
	"epoch": 2.216374269005848,
	"grad_norm": 0.15217065921697623,
	"learning_rate": 2.541418436708054e-06,
	"loss": 0.1641,
	"num_tokens": 121609720.0,
	"step": 379
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 0.149827230466305,
	"learning_rate": 2.520044739943207e-06,
	"loss": 0.1598,
	"num_tokens": 121926793.0,
	"step": 380
	},
	{
	"epoch": 2.2280701754385963,
	"grad_norm": 0.14401874517686966,
	"learning_rate": 2.498790111235072e-06,
	"loss": 0.1709,
	"num_tokens": 122245778.0,
	"step": 381
	},
	{
	"epoch": 2.2339181286549707,
	"grad_norm": 0.13403812014389224,
	"learning_rate": 2.47765539984047e-06,
	"loss": 0.1608,
	"num_tokens": 122609822.0,
	"step": 382
	},
	{
	"epoch": 2.239766081871345,
	"grad_norm": 0.14253922733943364,
	"learning_rate": 2.4566414502247684e-06,
	"loss": 0.1652,
	"num_tokens": 122948206.0,
	"step": 383
	},
	{
	"epoch": 2.245614035087719,
	"grad_norm": 0.1442664664053727,
	"learning_rate": 2.435749102028139e-06,
	"loss": 0.1695,
	"num_tokens": 123281183.0,
	"step": 384
	},
	{
	"epoch": 2.2514619883040936,
	"grad_norm": 0.14995127804324304,
	"learning_rate": 2.414979190032008e-06,
	"loss": 0.1667,
	"num_tokens": 123606597.0,
	"step": 385
	},
	{
	"epoch": 2.257309941520468,
	"grad_norm": 0.14167491108605929,
	"learning_rate": 2.3943325441256993e-06,
	"loss": 0.162,
	"num_tokens": 123924915.0,
	"step": 386
	},
	{
	"epoch": 2.263157894736842,
	"grad_norm": 0.1462621509052835,
	"learning_rate": 2.373809989273277e-06,
	"loss": 0.1668,
	"num_tokens": 124223390.0,
	"step": 387
	},
	{
	"epoch": 2.2690058479532165,
	"grad_norm": 0.14702160243574425,
	"learning_rate": 2.353412345480587e-06,
	"loss": 0.1629,
	"num_tokens": 124541698.0,
	"step": 388
	},
	{
	"epoch": 2.2748538011695905,
	"grad_norm": 0.15471872498523825,
	"learning_rate": 2.3331404277624846e-06,
	"loss": 0.1582,
	"num_tokens": 124832848.0,
	"step": 389
	},
	{
	"epoch": 2.280701754385965,
	"grad_norm": 0.14362745275711297,
	"learning_rate": 2.312995046110272e-06,
	"loss": 0.1698,
	"num_tokens": 125154886.0,
	"step": 390
	},
	{
	"epoch": 2.2865497076023393,
	"grad_norm": 0.1468561944816842,
	"learning_rate": 2.292977005459341e-06,
	"loss": 0.1756,
	"num_tokens": 125484162.0,
	"step": 391
	},
	{
	"epoch": 2.2923976608187133,
	"grad_norm": 0.15143848359912496,
	"learning_rate": 2.2730871056570024e-06,
	"loss": 0.1605,
	"num_tokens": 125783060.0,
	"step": 392
	},
	{
	"epoch": 2.2982456140350878,
	"grad_norm": 0.14651421165143075,
	"learning_rate": 2.2533261414305243e-06,
	"loss": 0.165,
	"num_tokens": 126110333.0,
	"step": 393
	},
	{
	"epoch": 2.3040935672514617,
	"grad_norm": 0.1475116907221095,
	"learning_rate": 2.2336949023553924e-06,
	"loss": 0.1616,
	"num_tokens": 126442564.0,
	"step": 394
	},
	{
	"epoch": 2.309941520467836,
	"grad_norm": 0.14460134481385417,
	"learning_rate": 2.2141941728237467e-06,
	"loss": 0.1654,
	"num_tokens": 126752395.0,
	"step": 395
	},
	{
	"epoch": 2.3157894736842106,
	"grad_norm": 0.14351634697316507,
	"learning_rate": 2.194824732013047e-06,
	"loss": 0.1626,
	"num_tokens": 127089855.0,
	"step": 396
	},
	{
	"epoch": 2.3216374269005846,
	"grad_norm": 0.13828986539988358,
	"learning_rate": 2.1755873538549376e-06,
	"loss": 0.159,
	"num_tokens": 127411156.0,
	"step": 397
	},
	{
	"epoch": 2.327485380116959,
	"grad_norm": 0.13645396729907014,
	"learning_rate": 2.1564828070043275e-06,
	"loss": 0.1533,
	"num_tokens": 127736233.0,
	"step": 398
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.14422895920728793,
	"learning_rate": 2.137511854808672e-06,
	"loss": 0.1575,
	"num_tokens": 128060062.0,
	"step": 399
	},
	{
	"epoch": 2.3391812865497075,
	"grad_norm": 0.1448501743068164,
	"learning_rate": 2.1186752552774764e-06,
	"loss": 0.1626,
	"num_tokens": 128406839.0,
	"step": 400
	},
	{
	"epoch": 2.345029239766082,
	"grad_norm": 0.13774903808615716,
	"learning_rate": 2.099973761052007e-06,
	"loss": 0.1662,
	"num_tokens": 128766764.0,
	"step": 401
	},
	{
	"epoch": 2.3508771929824563,
	"grad_norm": 0.1508233167288601,
	"learning_rate": 2.081408119375219e-06,
	"loss": 0.1653,
	"num_tokens": 129070969.0,
	"step": 402
	},
	{
	"epoch": 2.3567251461988303,
	"grad_norm": 0.14607227185650823,
	"learning_rate": 2.0629790720618977e-06,
	"loss": 0.1551,
	"num_tokens": 129361599.0,
	"step": 403
	},
	{
	"epoch": 2.3625730994152048,
	"grad_norm": 0.14540307746510248,
	"learning_rate": 2.044687355469025e-06,
	"loss": 0.168,
	"num_tokens": 129689845.0,
	"step": 404
	},
	{
	"epoch": 2.3684210526315788,
	"grad_norm": 0.14269113809456305,
	"learning_rate": 2.0265337004663465e-06,
	"loss": 0.1632,
	"num_tokens": 130007281.0,
	"step": 405
	},
	{
	"epoch": 2.374269005847953,
	"grad_norm": 0.14764837206982723,
	"learning_rate": 2.008518832407176e-06,
	"loss": 0.16,
	"num_tokens": 130320317.0,
	"step": 406
	},
	{
	"epoch": 2.3801169590643276,
	"grad_norm": 0.13886373538463548,
	"learning_rate": 1.9906434710994098e-06,
	"loss": 0.1659,
	"num_tokens": 130668421.0,
	"step": 407
	},
	{
	"epoch": 2.3859649122807016,
	"grad_norm": 0.14123121708441125,
	"learning_rate": 1.9729083307767725e-06,
	"loss": 0.1571,
	"num_tokens": 130996417.0,
	"step": 408
	},
	{
	"epoch": 2.391812865497076,
	"grad_norm": 0.14241772556155666,
	"learning_rate": 1.955314120070269e-06,
	"loss": 0.1586,
	"num_tokens": 131324210.0,
	"step": 409
	},
	{
	"epoch": 2.39766081871345,
	"grad_norm": 0.1536376204686897,
	"learning_rate": 1.937861541979873e-06,
	"loss": 0.1866,
	"num_tokens": 131671552.0,
	"step": 410
	},
	{
	"epoch": 2.4035087719298245,
	"grad_norm": 0.13606181694914196,
	"learning_rate": 1.9205512938464465e-06,
	"loss": 0.163,
	"num_tokens": 132008743.0,
	"step": 411
	},
	{
	"epoch": 2.409356725146199,
	"grad_norm": 0.14994033256966707,
	"learning_rate": 1.903384067323863e-06,
	"loss": 0.1644,
	"num_tokens": 132306397.0,
	"step": 412
	},
	{
	"epoch": 2.415204678362573,
	"grad_norm": 0.1437874855637201,
	"learning_rate": 1.886360548351381e-06,
	"loss": 0.1589,
	"num_tokens": 132627946.0,
	"step": 413
	},
	{
	"epoch": 2.4210526315789473,
	"grad_norm": 0.14231060929324155,
	"learning_rate": 1.8694814171262355e-06,
	"loss": 0.1616,
	"num_tokens": 132981440.0,
	"step": 414
	},
	{
	"epoch": 2.426900584795322,
	"grad_norm": 0.14278247493654592,
	"learning_rate": 1.8527473480764545e-06,
	"loss": 0.1638,
	"num_tokens": 133326233.0,
	"step": 415
	},
	{
	"epoch": 2.4327485380116958,
	"grad_norm": 0.14574512278213558,
	"learning_rate": 1.8361590098339168e-06,
	"loss": 0.1701,
	"num_tokens": 133635483.0,
	"step": 416
	},
	{
	"epoch": 2.43859649122807,
	"grad_norm": 0.14520072415658936,
	"learning_rate": 1.8197170652076316e-06,
	"loss": 0.1729,
	"num_tokens": 133965064.0,
	"step": 417
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 0.13880382782292727,
	"learning_rate": 1.8034221711572633e-06,
	"loss": 0.1642,
	"num_tokens": 134297515.0,
	"step": 418
	},
	{
	"epoch": 2.4502923976608186,
	"grad_norm": 0.14965359883764726,
	"learning_rate": 1.7872749787668673e-06,
	"loss": 0.1573,
	"num_tokens": 134596743.0,
	"step": 419
	},
	{
	"epoch": 2.456140350877193,
	"grad_norm": 0.14970450216253625,
	"learning_rate": 1.7712761332188894e-06,
	"loss": 0.1654,
	"num_tokens": 134914562.0,
	"step": 420
	},
	{
	"epoch": 2.461988304093567,
	"grad_norm": 0.15816166023028,
	"learning_rate": 1.7554262737683803e-06,
	"loss": 0.1487,
	"num_tokens": 135230462.0,
	"step": 421
	},
	{
	"epoch": 2.4678362573099415,
	"grad_norm": 0.1504826241844761,
	"learning_rate": 1.7397260337174542e-06,
	"loss": 0.157,
	"num_tokens": 135546957.0,
	"step": 422
	},
	{
	"epoch": 2.473684210526316,
	"grad_norm": 0.1394498720471719,
	"learning_rate": 1.724176040389982e-06,
	"loss": 0.1591,
	"num_tokens": 135868298.0,
	"step": 423
	},
	{
	"epoch": 2.47953216374269,
	"grad_norm": 0.14271119923974052,
	"learning_rate": 1.708776915106528e-06,
	"loss": 0.1647,
	"num_tokens": 136208833.0,
	"step": 424
	},
	{
	"epoch": 2.4853801169590644,
	"grad_norm": 0.1486501311116008,
	"learning_rate": 1.6935292731595284e-06,
	"loss": 0.1674,
	"num_tokens": 136529945.0,
	"step": 425
	},
	{
	"epoch": 2.4912280701754383,
	"grad_norm": 0.1568931867106138,
	"learning_rate": 1.678433723788697e-06,
	"loss": 0.1612,
	"num_tokens": 136819684.0,
	"step": 426
	},
	{
	"epoch": 2.497076023391813,
	"grad_norm": 0.14113107486411444,
	"learning_rate": 1.6634908701566909e-06,
	"loss": 0.1576,
	"num_tokens": 137150211.0,
	"step": 427
	},
	{
	"epoch": 2.502923976608187,
	"grad_norm": 0.14430747759375342,
	"learning_rate": 1.6487013093250042e-06,
	"loss": 0.1577,
	"num_tokens": 137460607.0,
	"step": 428
	},
	{
	"epoch": 2.5087719298245617,
	"grad_norm": 0.14188380800567507,
	"learning_rate": 1.6340656322301158e-06,
	"loss": 0.1681,
	"num_tokens": 137808723.0,
	"step": 429
	},
	{
	"epoch": 2.5146198830409356,
	"grad_norm": 0.13864076262612016,
	"learning_rate": 1.619584423659875e-06,
	"loss": 0.1508,
	"num_tokens": 138122659.0,
	"step": 430
	},
	{
	"epoch": 2.52046783625731,
	"grad_norm": 0.14329617113357643,
	"learning_rate": 1.6052582622301398e-06,
	"loss": 0.1604,
	"num_tokens": 138456252.0,
	"step": 431
	},
	{
	"epoch": 2.526315789473684,
	"grad_norm": 0.14485980625620193,
	"learning_rate": 1.5910877203616515e-06,
	"loss": 0.1689,
	"num_tokens": 138794979.0,
	"step": 432
	},
	{
	"epoch": 2.5321637426900585,
	"grad_norm": 0.14001094426697513,
	"learning_rate": 1.5770733642571662e-06,
	"loss": 0.1613,
	"num_tokens": 139114044.0,
	"step": 433
	},
	{
	"epoch": 2.538011695906433,
	"grad_norm": 0.14542258651096243,
	"learning_rate": 1.5632157538788322e-06,
	"loss": 0.1626,
	"num_tokens": 139425238.0,
	"step": 434
	},
	{
	"epoch": 2.543859649122807,
	"grad_norm": 0.1489744939093393,
	"learning_rate": 1.5495154429258136e-06,
	"loss": 0.1722,
	"num_tokens": 139757117.0,
	"step": 435
	},
	{
	"epoch": 2.5497076023391814,
	"grad_norm": 0.14248652727375938,
	"learning_rate": 1.5359729788121678e-06,
	"loss": 0.1633,
	"num_tokens": 140085804.0,
	"step": 436
	},
	{
	"epoch": 2.5555555555555554,
	"grad_norm": 0.14025435225815486,
	"learning_rate": 1.5225889026449754e-06,
	"loss": 0.1609,
	"num_tokens": 140409219.0,
	"step": 437
	},
	{
	"epoch": 2.56140350877193,
	"grad_norm": 0.14823929068819988,
	"learning_rate": 1.5093637492027136e-06,
	"loss": 0.165,
	"num_tokens": 140713444.0,
	"step": 438
	},
	{
	"epoch": 2.5672514619883042,
	"grad_norm": 0.1370826700643183,
	"learning_rate": 1.4962980469138932e-06,
	"loss": 0.1462,
	"num_tokens": 141032047.0,
	"step": 439
	},
	{
	"epoch": 2.573099415204678,
	"grad_norm": 0.1522127782198521,
	"learning_rate": 1.4833923178359428e-06,
	"loss": 0.1621,
	"num_tokens": 141338487.0,
	"step": 440
	},
	{
	"epoch": 2.5789473684210527,
	"grad_norm": 0.14502198127336535,
	"learning_rate": 1.4706470776343507e-06,
	"loss": 0.164,
	"num_tokens": 141669740.0,
	"step": 441
	},
	{
	"epoch": 2.5847953216374266,
	"grad_norm": 0.15205245564816208,
	"learning_rate": 1.458062835562058e-06,
	"loss": 0.164,
	"num_tokens": 141971862.0,
	"step": 442
	},
	{
	"epoch": 2.590643274853801,
	"grad_norm": 0.15020510176845542,
	"learning_rate": 1.4456400944391147e-06,
	"loss": 0.1677,
	"num_tokens": 142266889.0,
	"step": 443
	},
	{
	"epoch": 2.5964912280701755,
	"grad_norm": 0.14391800055857798,
	"learning_rate": 1.4333793506325832e-06,
	"loss": 0.1606,
	"num_tokens": 142584991.0,
	"step": 444
	},
	{
	"epoch": 2.60233918128655,
	"grad_norm": 0.15111238280234057,
	"learning_rate": 1.421281094036712e-06,
	"loss": 0.1604,
	"num_tokens": 142879877.0,
	"step": 445
	},
	{
	"epoch": 2.608187134502924,
	"grad_norm": 0.1443837082025472,
	"learning_rate": 1.4093458080533562e-06,
	"loss": 0.1681,
	"num_tokens": 143205197.0,
	"step": 446
	},
	{
	"epoch": 2.6140350877192984,
	"grad_norm": 0.14463771075478601,
	"learning_rate": 1.3975739695726649e-06,
	"loss": 0.1671,
	"num_tokens": 143531142.0,
	"step": 447
	},
	{
	"epoch": 2.6198830409356724,
	"grad_norm": 0.14454878880987132,
	"learning_rate": 1.385966048954027e-06,
	"loss": 0.1633,
	"num_tokens": 143858081.0,
	"step": 448
	},
	{
	"epoch": 2.625730994152047,
	"grad_norm": 0.13984594893802477,
	"learning_rate": 1.3745225100072737e-06,
	"loss": 0.1617,
	"num_tokens": 144185431.0,
	"step": 449
	},
	{
	"epoch": 2.6315789473684212,
	"grad_norm": 0.13969336960280732,
	"learning_rate": 1.3632438099741505e-06,
	"loss": 0.159,
	"num_tokens": 144497647.0,
	"step": 450
	},
	{
	"epoch": 2.6374269005847952,
	"grad_norm": 0.14619663223314017,
	"learning_rate": 1.3521303995100479e-06,
	"loss": 0.1663,
	"num_tokens": 144800894.0,
	"step": 451
	},
	{
	"epoch": 2.6432748538011697,
	"grad_norm": 0.14130801987934924,
	"learning_rate": 1.3411827226659887e-06,
	"loss": 0.1592,
	"num_tokens": 145115720.0,
	"step": 452
	},
	{
	"epoch": 2.6491228070175437,
	"grad_norm": 0.13126230977093004,
	"learning_rate": 1.330401216870891e-06,
	"loss": 0.1479,
	"num_tokens": 145451398.0,
	"step": 453
	},
	{
	"epoch": 2.654970760233918,
	"grad_norm": 0.13673717620054995,
	"learning_rate": 1.3197863129140916e-06,
	"loss": 0.1564,
	"num_tokens": 145791079.0,
	"step": 454
	},
	{
	"epoch": 2.6608187134502925,
	"grad_norm": 0.1468555944041424,
	"learning_rate": 1.3093384349281268e-06,
	"loss": 0.1575,
	"num_tokens": 146094234.0,
	"step": 455
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.1511002120974835,
	"learning_rate": 1.2990580003717904e-06,
	"loss": 0.1828,
	"num_tokens": 146403548.0,
	"step": 456
	},
	{
	"epoch": 2.672514619883041,
	"grad_norm": 0.139909324379523,
	"learning_rate": 1.2889454200134522e-06,
	"loss": 0.1594,
	"num_tokens": 146732523.0,
	"step": 457
	},
	{
	"epoch": 2.678362573099415,
	"grad_norm": 0.14396563097050272,
	"learning_rate": 1.2790010979146467e-06,
	"loss": 0.1524,
	"num_tokens": 147040850.0,
	"step": 458
	},
	{
	"epoch": 2.6842105263157894,
	"grad_norm": 0.15000149938121365,
	"learning_rate": 1.2692254314139243e-06,
	"loss": 0.1697,
	"num_tokens": 147343323.0,
	"step": 459
	},
	{
	"epoch": 2.690058479532164,
	"grad_norm": 0.15745120782859975,
	"learning_rate": 1.2596188111109805e-06,
	"loss": 0.1681,
	"num_tokens": 147635253.0,
	"step": 460
	},
	{
	"epoch": 2.6959064327485383,
	"grad_norm": 0.1476631580057043,
	"learning_rate": 1.2501816208510442e-06,
	"loss": 0.1638,
	"num_tokens": 147956892.0,
	"step": 461
	},
	{
	"epoch": 2.7017543859649122,
	"grad_norm": 0.1423826560287115,
	"learning_rate": 1.2409142377095435e-06,
	"loss": 0.1571,
	"num_tokens": 148260684.0,
	"step": 462
	},
	{
	"epoch": 2.7076023391812867,
	"grad_norm": 0.14219644101756945,
	"learning_rate": 1.231817031977037e-06,
	"loss": 0.1585,
	"num_tokens": 148571351.0,
	"step": 463
	},
	{
	"epoch": 2.7134502923976607,
	"grad_norm": 0.15083997934575208,
	"learning_rate": 1.2228903671444228e-06,
	"loss": 0.1683,
	"num_tokens": 148888226.0,
	"step": 464
	},
	{
	"epoch": 2.719298245614035,
	"grad_norm": 0.13732672374616764,
	"learning_rate": 1.2141345998884092e-06,
	"loss": 0.1606,
	"num_tokens": 149214770.0,
	"step": 465
	},
	{
	"epoch": 2.7251461988304095,
	"grad_norm": 0.1441249561667527,
	"learning_rate": 1.2055500800572657e-06,
	"loss": 0.1626,
	"num_tokens": 149545405.0,
	"step": 466
	},
	{
	"epoch": 2.7309941520467835,
	"grad_norm": 0.14325592299925863,
	"learning_rate": 1.1971371506568442e-06,
	"loss": 0.1577,
	"num_tokens": 149846805.0,
	"step": 467
	},
	{
	"epoch": 2.736842105263158,
	"grad_norm": 0.13745597306904,
	"learning_rate": 1.1888961478368762e-06,
	"loss": 0.1605,
	"num_tokens": 150179635.0,
	"step": 468
	},
	{
	"epoch": 2.742690058479532,
	"grad_norm": 0.13951839806880817,
	"learning_rate": 1.1808274008775355e-06,
	"loss": 0.158,
	"num_tokens": 150503170.0,
	"step": 469
	},
	{
	"epoch": 2.7485380116959064,
	"grad_norm": 0.1443209297278742,
	"learning_rate": 1.1729312321762864e-06,
	"loss": 0.1575,
	"num_tokens": 150809725.0,
	"step": 470
	},
	{
	"epoch": 2.754385964912281,
	"grad_norm": 0.13342746902950017,
	"learning_rate": 1.1652079572350026e-06,
	"loss": 0.154,
	"num_tokens": 151157947.0,
	"step": 471
	},
	{
	"epoch": 2.760233918128655,
	"grad_norm": 0.14326184156810018,
	"learning_rate": 1.1576578846473558e-06,
	"loss": 0.1584,
	"num_tokens": 151479230.0,
	"step": 472
	},
	{
	"epoch": 2.7660818713450293,
	"grad_norm": 0.1433950274377657,
	"learning_rate": 1.1502813160864893e-06,
	"loss": 0.1628,
	"num_tokens": 151803444.0,
	"step": 473
	},
	{
	"epoch": 2.7719298245614032,
	"grad_norm": 0.14139558810493624,
	"learning_rate": 1.1430785462929644e-06,
	"loss": 0.169,
	"num_tokens": 152139382.0,
	"step": 474
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 0.14115560637915964,
	"learning_rate": 1.136049863062982e-06,
	"loss": 0.162,
	"num_tokens": 152452934.0,
	"step": 475
	},
	{
	"epoch": 2.783625730994152,
	"grad_norm": 0.15211690242588544,
	"learning_rate": 1.1291955472368825e-06,
	"loss": 0.1601,
	"num_tokens": 152748759.0,
	"step": 476
	},
	{
	"epoch": 2.7894736842105265,
	"grad_norm": 0.13666222185265295,
	"learning_rate": 1.1225158726879288e-06,
	"loss": 0.1665,
	"num_tokens": 153093029.0,
	"step": 477
	},
	{
	"epoch": 2.7953216374269005,
	"grad_norm": 0.14398939041397035,
	"learning_rate": 1.116011106311358e-06,
	"loss": 0.1568,
	"num_tokens": 153384854.0,
	"step": 478
	},
	{
	"epoch": 2.801169590643275,
	"grad_norm": 0.15402905213013776,
	"learning_rate": 1.1096815080137196e-06,
	"loss": 0.1874,
	"num_tokens": 153720419.0,
	"step": 479
	},
	{
	"epoch": 2.807017543859649,
	"grad_norm": 0.14201446868127077,
	"learning_rate": 1.103527330702493e-06,
	"loss": 0.1624,
	"num_tokens": 154054230.0,
	"step": 480
	},
	{
	"epoch": 2.8128654970760234,
	"grad_norm": 0.14521001714072115,
	"learning_rate": 1.0975488202759772e-06,
	"loss": 0.1625,
	"num_tokens": 154373913.0,
	"step": 481
	},
	{
	"epoch": 2.818713450292398,
	"grad_norm": 0.1390122065414189,
	"learning_rate": 1.0917462156134707e-06,
	"loss": 0.1599,
	"num_tokens": 154689857.0,
	"step": 482
	},
	{
	"epoch": 2.824561403508772,
	"grad_norm": 0.14888462659883256,
	"learning_rate": 1.0861197485657218e-06,
	"loss": 0.1643,
	"num_tokens": 154995696.0,
	"step": 483
	},
	{
	"epoch": 2.8304093567251463,
	"grad_norm": 0.1420249071569745,
	"learning_rate": 1.0806696439456695e-06,
	"loss": 0.1629,
	"num_tokens": 155312841.0,
	"step": 484
	},
	{
	"epoch": 2.8362573099415203,
	"grad_norm": 0.14037073859681298,
	"learning_rate": 1.0753961195194581e-06,
	"loss": 0.1592,
	"num_tokens": 155627374.0,
	"step": 485
	},
	{
	"epoch": 2.8421052631578947,
	"grad_norm": 0.14506758333723185,
	"learning_rate": 1.070299385997735e-06,
	"loss": 0.1586,
	"num_tokens": 155933888.0,
	"step": 486
	},
	{
	"epoch": 2.847953216374269,
	"grad_norm": 0.14137857222010855,
	"learning_rate": 1.0653796470272348e-06,
	"loss": 0.1564,
	"num_tokens": 156263120.0,
	"step": 487
	},
	{
	"epoch": 2.853801169590643,
	"grad_norm": 0.14542756104140053,
	"learning_rate": 1.0606370991826398e-06,
	"loss": 0.165,
	"num_tokens": 156585736.0,
	"step": 488
	},
	{
	"epoch": 2.8596491228070176,
	"grad_norm": 0.13897674449897804,
	"learning_rate": 1.0560719319587262e-06,
	"loss": 0.1642,
	"num_tokens": 156919577.0,
	"step": 489
	},
	{
	"epoch": 2.8654970760233915,
	"grad_norm": 0.1411765074092308,
	"learning_rate": 1.051684327762793e-06,
	"loss": 0.1613,
	"num_tokens": 157244512.0,
	"step": 490
	},
	{
	"epoch": 2.871345029239766,
	"grad_norm": 0.14023194573370917,
	"learning_rate": 1.047474461907374e-06,
	"loss": 0.1593,
	"num_tokens": 157555581.0,
	"step": 491
	},
	{
	"epoch": 2.8771929824561404,
	"grad_norm": 0.13348582864925426,
	"learning_rate": 1.043442502603231e-06,
	"loss": 0.1587,
	"num_tokens": 157890387.0,
	"step": 492
	},
	{
	"epoch": 2.883040935672515,
	"grad_norm": 0.1458553034999855,
	"learning_rate": 1.0395886109526346e-06,
	"loss": 0.1672,
	"num_tokens": 158227831.0,
	"step": 493
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 0.13433755063333214,
	"learning_rate": 1.0359129409429269e-06,
	"loss": 0.1672,
	"num_tokens": 158593011.0,
	"step": 494
	},
	{
	"epoch": 2.8947368421052633,
	"grad_norm": 0.13367864457349435,
	"learning_rate": 1.0324156394403683e-06,
	"loss": 0.1553,
	"num_tokens": 158933449.0,
	"step": 495
	},
	{
	"epoch": 2.9005847953216373,
	"grad_norm": 0.14118001312714748,
	"learning_rate": 1.0290968461842693e-06,
	"loss": 0.1577,
	"num_tokens": 159246578.0,
	"step": 496
	},
	{
	"epoch": 2.9064327485380117,
	"grad_norm": 0.1463297027696001,
	"learning_rate": 1.025956693781408e-06,
	"loss": 0.1678,
	"num_tokens": 159560178.0,
	"step": 497
	},
	{
	"epoch": 2.912280701754386,
	"grad_norm": 0.14563817342813995,
	"learning_rate": 1.0229953077007288e-06,
	"loss": 0.1659,
	"num_tokens": 159884093.0,
	"step": 498
	},
	{
	"epoch": 2.91812865497076,
	"grad_norm": 0.14540407437292474,
	"learning_rate": 1.0202128062683333e-06,
	"loss": 0.1722,
	"num_tokens": 160205475.0,
	"step": 499
	},
	{
	"epoch": 2.9239766081871346,
	"grad_norm": 0.1405121201590573,
	"learning_rate": 1.0176093006627485e-06,
	"loss": 0.1562,
	"num_tokens": 160545275.0,
	"step": 500
	},
	{
	"epoch": 2.9298245614035086,
	"grad_norm": 0.14217083046189563,
	"learning_rate": 1.0151848949104872e-06,
	"loss": 0.1665,
	"num_tokens": 160880973.0,
	"step": 501
	},
	{
	"epoch": 2.935672514619883,
	"grad_norm": 0.1464306529530731,
	"learning_rate": 1.01293968588189e-06,
	"loss": 0.1707,
	"num_tokens": 161205233.0,
	"step": 502
	},
	{
	"epoch": 2.9415204678362574,
	"grad_norm": 0.1408296921593092,
	"learning_rate": 1.0108737632872553e-06,
	"loss": 0.16,
	"num_tokens": 161521616.0,
	"step": 503
	},
	{
	"epoch": 2.9473684210526314,
	"grad_norm": 0.14238166027330365,
	"learning_rate": 1.0089872096732555e-06,
	"loss": 0.1635,
	"num_tokens": 161834814.0,
	"step": 504
	},
	{
	"epoch": 2.953216374269006,
	"grad_norm": 0.1426737290624598,
	"learning_rate": 1.0072801004196363e-06,
	"loss": 0.1615,
	"num_tokens": 162172431.0,
	"step": 505
	},
	{
	"epoch": 2.95906432748538,
	"grad_norm": 0.14507835204373007,
	"learning_rate": 1.0057525037362082e-06,
	"loss": 0.162,
	"num_tokens": 162500876.0,
	"step": 506
	},
	{
	"epoch": 2.9649122807017543,
	"grad_norm": 0.14256066597160452,
	"learning_rate": 1.0044044806601188e-06,
	"loss": 0.161,
	"num_tokens": 162830769.0,
	"step": 507
	},
	{
	"epoch": 2.9707602339181287,
	"grad_norm": 0.13917168255862636,
	"learning_rate": 1.003236085053414e-06,
	"loss": 0.1598,
	"num_tokens": 163185192.0,
	"step": 508
	},
	{
	"epoch": 2.976608187134503,
	"grad_norm": 0.1402722871419169,
	"learning_rate": 1.0022473636008867e-06,
	"loss": 0.164,
	"num_tokens": 163513051.0,
	"step": 509
	},
	{
	"epoch": 2.982456140350877,
	"grad_norm": 0.15282843543700755,
	"learning_rate": 1.0014383558082113e-06,
	"loss": 0.169,
	"num_tokens": 163816593.0,
	"step": 510
	},
	{
	"epoch": 2.9883040935672516,
	"grad_norm": 0.14600064275991873,
	"learning_rate": 1.000809094000365e-06,
	"loss": 0.1582,
	"num_tokens": 164132256.0,
	"step": 511
	},
	{
	"epoch": 2.9941520467836256,
	"grad_norm": 0.142164254928358,
	"learning_rate": 1.0003596033203359e-06,
	"loss": 0.1675,
	"num_tokens": 164460013.0,
	"step": 512
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.14017066974116044,
	"learning_rate": 1.0000899017281195e-06,
	"loss": 0.1563,
	"num_tokens": 164791026.0,
	"step": 513
	},
	{
	"epoch": 3.0,
	"step": 513,
	"total_flos": 5.228622451394478e+17,
	"train_loss": 0.21386383229877517,
	"train_runtime": 6716.6337,
	"train_samples_per_second": 9.771,
	"train_steps_per_second": 0.076
	}
	],
	"logging_steps": 1,
	"max_steps": 513,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.228622451394478e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}