IntroSVG-Qwen2.5-VL-7B / trainer_state.json

Upload 22 files

c2c1a57 verified 28 days ago

73.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9996224990562474,
	"eval_steps": 5000,
	"global_step": 6951,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.009060022650056626,
	"grad_norm": 2.6664810047066947,
	"learning_rate": 9.999774793715127e-05,
	"loss": 1.431,
	"num_input_tokens_seen": 5118512,
	"step": 21
	},
	{
	"epoch": 0.01812004530011325,
	"grad_norm": 0.8152880359374859,
	"learning_rate": 9.99909919514765e-05,
	"loss": 0.5348,
	"num_input_tokens_seen": 10150592,
	"step": 42
	},
	{
	"epoch": 0.027180067950169876,
	"grad_norm": 0.6315786850545617,
	"learning_rate": 9.997973265157192e-05,
	"loss": 0.4599,
	"num_input_tokens_seen": 15170896,
	"step": 63
	},
	{
	"epoch": 0.0362400906002265,
	"grad_norm": 0.4538892840989214,
	"learning_rate": 9.996397105170353e-05,
	"loss": 0.4108,
	"num_input_tokens_seen": 20155632,
	"step": 84
	},
	{
	"epoch": 0.045300113250283124,
	"grad_norm": 0.4720911162561318,
	"learning_rate": 9.994370857171588e-05,
	"loss": 0.3947,
	"num_input_tokens_seen": 25135440,
	"step": 105
	},
	{
	"epoch": 0.05436013590033975,
	"grad_norm": 0.4622888476742547,
	"learning_rate": 9.991894703690414e-05,
	"loss": 0.3764,
	"num_input_tokens_seen": 30346784,
	"step": 126
	},
	{
	"epoch": 0.06342015855039637,
	"grad_norm": 0.4173513485950873,
	"learning_rate": 9.988968867784958e-05,
	"loss": 0.3751,
	"num_input_tokens_seen": 35269664,
	"step": 147
	},
	{
	"epoch": 0.072480181200453,
	"grad_norm": 0.39249341716348773,
	"learning_rate": 9.985593613021872e-05,
	"loss": 0.3704,
	"num_input_tokens_seen": 40151792,
	"step": 168
	},
	{
	"epoch": 0.08154020385050963,
	"grad_norm": 0.3080363284417135,
	"learning_rate": 9.981769243452595e-05,
	"loss": 0.3552,
	"num_input_tokens_seen": 45283312,
	"step": 189
	},
	{
	"epoch": 0.09060022650056625,
	"grad_norm": 0.3747998358734097,
	"learning_rate": 9.977496103585949e-05,
	"loss": 0.3576,
	"num_input_tokens_seen": 50298912,
	"step": 210
	},
	{
	"epoch": 0.09966024915062288,
	"grad_norm": 0.2975791185912304,
	"learning_rate": 9.972774578357117e-05,
	"loss": 0.3451,
	"num_input_tokens_seen": 55445792,
	"step": 231
	},
	{
	"epoch": 0.1087202718006795,
	"grad_norm": 0.3172928529259604,
	"learning_rate": 9.96760509309296e-05,
	"loss": 0.3506,
	"num_input_tokens_seen": 60506496,
	"step": 252
	},
	{
	"epoch": 0.11778029445073612,
	"grad_norm": 0.3304680645103982,
	"learning_rate": 9.961988113473708e-05,
	"loss": 0.3443,
	"num_input_tokens_seen": 65678096,
	"step": 273
	},
	{
	"epoch": 0.12684031710079274,
	"grad_norm": 0.2929759270178528,
	"learning_rate": 9.955924145491005e-05,
	"loss": 0.3446,
	"num_input_tokens_seen": 70478688,
	"step": 294
	},
	{
	"epoch": 0.13590033975084936,
	"grad_norm": 0.2809492487037724,
	"learning_rate": 9.94941373540233e-05,
	"loss": 0.3362,
	"num_input_tokens_seen": 75373536,
	"step": 315
	},
	{
	"epoch": 0.144960362400906,
	"grad_norm": 0.38609616986912937,
	"learning_rate": 9.942457469681794e-05,
	"loss": 0.3384,
	"num_input_tokens_seen": 80476704,
	"step": 336
	},
	{
	"epoch": 0.15402038505096263,
	"grad_norm": 0.24129947470960447,
	"learning_rate": 9.935055974967299e-05,
	"loss": 0.3315,
	"num_input_tokens_seen": 85670800,
	"step": 357
	},
	{
	"epoch": 0.16308040770101925,
	"grad_norm": 0.22875446286948012,
	"learning_rate": 9.927209918004095e-05,
	"loss": 0.33,
	"num_input_tokens_seen": 90707040,
	"step": 378
	},
	{
	"epoch": 0.17214043035107587,
	"grad_norm": 0.26219955903132913,
	"learning_rate": 9.918920005584719e-05,
	"loss": 0.3296,
	"num_input_tokens_seen": 95824496,
	"step": 399
	},
	{
	"epoch": 0.1812004530011325,
	"grad_norm": 0.6217611528853424,
	"learning_rate": 9.910186984485321e-05,
	"loss": 0.3315,
	"num_input_tokens_seen": 100862224,
	"step": 420
	},
	{
	"epoch": 0.19026047565118911,
	"grad_norm": 0.5343386676193482,
	"learning_rate": 9.901011641398398e-05,
	"loss": 0.353,
	"num_input_tokens_seen": 105876656,
	"step": 441
	},
	{
	"epoch": 0.19932049830124576,
	"grad_norm": 0.29271392356860787,
	"learning_rate": 9.89139480286192e-05,
	"loss": 0.3414,
	"num_input_tokens_seen": 110980864,
	"step": 462
	},
	{
	"epoch": 0.20838052095130238,
	"grad_norm": 0.2662936598921738,
	"learning_rate": 9.881337335184878e-05,
	"loss": 0.3224,
	"num_input_tokens_seen": 116114800,
	"step": 483
	},
	{
	"epoch": 0.217440543601359,
	"grad_norm": 0.3006863273182064,
	"learning_rate": 9.870840144369246e-05,
	"loss": 0.3212,
	"num_input_tokens_seen": 121255744,
	"step": 504
	},
	{
	"epoch": 0.22650056625141562,
	"grad_norm": 0.28557101475631624,
	"learning_rate": 9.859904176028362e-05,
	"loss": 0.3213,
	"num_input_tokens_seen": 126288608,
	"step": 525
	},
	{
	"epoch": 0.23556058890147225,
	"grad_norm": 0.30204169829965893,
	"learning_rate": 9.848530415301747e-05,
	"loss": 0.3198,
	"num_input_tokens_seen": 131233488,
	"step": 546
	},
	{
	"epoch": 0.24462061155152887,
	"grad_norm": 0.22788149212961117,
	"learning_rate": 9.836719886766356e-05,
	"loss": 0.3149,
	"num_input_tokens_seen": 136257888,
	"step": 567
	},
	{
	"epoch": 0.2536806342015855,
	"grad_norm": 0.25388452332747136,
	"learning_rate": 9.824473654344297e-05,
	"loss": 0.3169,
	"num_input_tokens_seen": 141405120,
	"step": 588
	},
	{
	"epoch": 0.2627406568516421,
	"grad_norm": 0.22932388019266456,
	"learning_rate": 9.811792821206969e-05,
	"loss": 0.3142,
	"num_input_tokens_seen": 146380496,
	"step": 609
	},
	{
	"epoch": 0.2718006795016987,
	"grad_norm": 0.21316227582275912,
	"learning_rate": 9.7986785296757e-05,
	"loss": 0.3097,
	"num_input_tokens_seen": 151344048,
	"step": 630
	},
	{
	"epoch": 0.2808607021517554,
	"grad_norm": 0.2055839569031328,
	"learning_rate": 9.785131961118844e-05,
	"loss": 0.3116,
	"num_input_tokens_seen": 156435136,
	"step": 651
	},
	{
	"epoch": 0.289920724801812,
	"grad_norm": 0.2441799648084251,
	"learning_rate": 9.771154335845345e-05,
	"loss": 0.3086,
	"num_input_tokens_seen": 161536224,
	"step": 672
	},
	{
	"epoch": 0.29898074745186864,
	"grad_norm": 0.20481810635702893,
	"learning_rate": 9.756746912994832e-05,
	"loss": 0.3057,
	"num_input_tokens_seen": 166573984,
	"step": 693
	},
	{
	"epoch": 0.30804077010192527,
	"grad_norm": 0.2592126104806373,
	"learning_rate": 9.741910990424174e-05,
	"loss": 0.3017,
	"num_input_tokens_seen": 171638000,
	"step": 714
	},
	{
	"epoch": 0.3171007927519819,
	"grad_norm": 0.25174137308280303,
	"learning_rate": 9.726647904590571e-05,
	"loss": 0.3066,
	"num_input_tokens_seen": 176765648,
	"step": 735
	},
	{
	"epoch": 0.3261608154020385,
	"grad_norm": 0.20855236580529835,
	"learning_rate": 9.710959030431167e-05,
	"loss": 0.2996,
	"num_input_tokens_seen": 181949360,
	"step": 756
	},
	{
	"epoch": 0.3352208380520951,
	"grad_norm": 0.23697815659002952,
	"learning_rate": 9.694845781239187e-05,
	"loss": 0.2972,
	"num_input_tokens_seen": 186990096,
	"step": 777
	},
	{
	"epoch": 0.34428086070215175,
	"grad_norm": 0.2492979898134609,
	"learning_rate": 9.678309608536626e-05,
	"loss": 0.2984,
	"num_input_tokens_seen": 192083856,
	"step": 798
	},
	{
	"epoch": 0.35334088335220837,
	"grad_norm": 0.23816573617268064,
	"learning_rate": 9.661352001943493e-05,
	"loss": 0.2957,
	"num_input_tokens_seen": 197134448,
	"step": 819
	},
	{
	"epoch": 0.362400906002265,
	"grad_norm": 0.20467034048790322,
	"learning_rate": 9.64397448904362e-05,
	"loss": 0.2926,
	"num_input_tokens_seen": 202310368,
	"step": 840
	},
	{
	"epoch": 0.3714609286523216,
	"grad_norm": 0.17904927666050605,
	"learning_rate": 9.626178635247054e-05,
	"loss": 0.2909,
	"num_input_tokens_seen": 207359840,
	"step": 861
	},
	{
	"epoch": 0.38052095130237823,
	"grad_norm": 0.248985929697072,
	"learning_rate": 9.607966043649046e-05,
	"loss": 0.2954,
	"num_input_tokens_seen": 212395664,
	"step": 882
	},
	{
	"epoch": 0.3895809739524349,
	"grad_norm": 0.17735947921966527,
	"learning_rate": 9.589338354885629e-05,
	"loss": 0.2912,
	"num_input_tokens_seen": 217570640,
	"step": 903
	},
	{
	"epoch": 0.3986409966024915,
	"grad_norm": 0.2653024856558906,
	"learning_rate": 9.570297246985837e-05,
	"loss": 0.2928,
	"num_input_tokens_seen": 222629712,
	"step": 924
	},
	{
	"epoch": 0.40770101925254815,
	"grad_norm": 0.21684716629964057,
	"learning_rate": 9.550844435220539e-05,
	"loss": 0.292,
	"num_input_tokens_seen": 227565744,
	"step": 945
	},
	{
	"epoch": 0.41676104190260477,
	"grad_norm": 0.19831973070913392,
	"learning_rate": 9.530981671947923e-05,
	"loss": 0.292,
	"num_input_tokens_seen": 232655712,
	"step": 966
	},
	{
	"epoch": 0.4258210645526614,
	"grad_norm": 0.2039591338730108,
	"learning_rate": 9.510710746455636e-05,
	"loss": 0.2959,
	"num_input_tokens_seen": 237611056,
	"step": 987
	},
	{
	"epoch": 0.434881087202718,
	"grad_norm": 0.20635917697106,
	"learning_rate": 9.490033484799608e-05,
	"loss": 0.2884,
	"num_input_tokens_seen": 242693136,
	"step": 1008
	},
	{
	"epoch": 0.44394110985277463,
	"grad_norm": 0.21178513822087988,
	"learning_rate": 9.468951749639551e-05,
	"loss": 0.2878,
	"num_input_tokens_seen": 247677488,
	"step": 1029
	},
	{
	"epoch": 0.45300113250283125,
	"grad_norm": 0.24393748334345636,
	"learning_rate": 9.447467440071164e-05,
	"loss": 0.2908,
	"num_input_tokens_seen": 252770384,
	"step": 1050
	},
	{
	"epoch": 0.46206115515288787,
	"grad_norm": 0.19345581725168481,
	"learning_rate": 9.425582491455067e-05,
	"loss": 0.2796,
	"num_input_tokens_seen": 258009696,
	"step": 1071
	},
	{
	"epoch": 0.4711211778029445,
	"grad_norm": 0.17550447436524724,
	"learning_rate": 9.403298875242448e-05,
	"loss": 0.2858,
	"num_input_tokens_seen": 263147728,
	"step": 1092
	},
	{
	"epoch": 0.4801812004530011,
	"grad_norm": 0.1873327110291133,
	"learning_rate": 9.380618598797473e-05,
	"loss": 0.2876,
	"num_input_tokens_seen": 268184080,
	"step": 1113
	},
	{
	"epoch": 0.48924122310305773,
	"grad_norm": 0.2326284547666313,
	"learning_rate": 9.357543705216465e-05,
	"loss": 0.2814,
	"num_input_tokens_seen": 273442768,
	"step": 1134
	},
	{
	"epoch": 0.4983012457531144,
	"grad_norm": 0.1606625392823979,
	"learning_rate": 9.334076273143843e-05,
	"loss": 0.2804,
	"num_input_tokens_seen": 278640624,
	"step": 1155
	},
	{
	"epoch": 0.507361268403171,
	"grad_norm": 0.174300515580659,
	"learning_rate": 9.310218416584886e-05,
	"loss": 0.2863,
	"num_input_tokens_seen": 283769424,
	"step": 1176
	},
	{
	"epoch": 0.5164212910532276,
	"grad_norm": 0.18523825539113345,
	"learning_rate": 9.28597228471529e-05,
	"loss": 0.2851,
	"num_input_tokens_seen": 288866448,
	"step": 1197
	},
	{
	"epoch": 0.5254813137032842,
	"grad_norm": 0.29288899462077944,
	"learning_rate": 9.26134006168757e-05,
	"loss": 0.2798,
	"num_input_tokens_seen": 293944576,
	"step": 1218
	},
	{
	"epoch": 0.5345413363533409,
	"grad_norm": 0.21677248351508627,
	"learning_rate": 9.236323966434295e-05,
	"loss": 0.2728,
	"num_input_tokens_seen": 299090032,
	"step": 1239
	},
	{
	"epoch": 0.5436013590033975,
	"grad_norm": 0.17425284816339717,
	"learning_rate": 9.210926252468219e-05,
	"loss": 0.2756,
	"num_input_tokens_seen": 304016304,
	"step": 1260
	},
	{
	"epoch": 0.5526613816534541,
	"grad_norm": 0.19722321188451059,
	"learning_rate": 9.185149207679263e-05,
	"loss": 0.2747,
	"num_input_tokens_seen": 309084016,
	"step": 1281
	},
	{
	"epoch": 0.5617214043035108,
	"grad_norm": 0.15927450699962342,
	"learning_rate": 9.158995154128425e-05,
	"loss": 0.2772,
	"num_input_tokens_seen": 314201696,
	"step": 1302
	},
	{
	"epoch": 0.5707814269535674,
	"grad_norm": 0.144121234319095,
	"learning_rate": 9.132466447838597e-05,
	"loss": 0.2785,
	"num_input_tokens_seen": 319266256,
	"step": 1323
	},
	{
	"epoch": 0.579841449603624,
	"grad_norm": 0.20014275331573014,
	"learning_rate": 9.105565478582334e-05,
	"loss": 0.2755,
	"num_input_tokens_seen": 324468352,
	"step": 1344
	},
	{
	"epoch": 0.5889014722536806,
	"grad_norm": 0.1763537829210326,
	"learning_rate": 9.078294669666576e-05,
	"loss": 0.2708,
	"num_input_tokens_seen": 329566736,
	"step": 1365
	},
	{
	"epoch": 0.5979614949037373,
	"grad_norm": 0.20344878470372835,
	"learning_rate": 9.050656477714346e-05,
	"loss": 0.2729,
	"num_input_tokens_seen": 334661888,
	"step": 1386
	},
	{
	"epoch": 0.6070215175537939,
	"grad_norm": 0.16201525012659232,
	"learning_rate": 9.022653392443454e-05,
	"loss": 0.2754,
	"num_input_tokens_seen": 339784976,
	"step": 1407
	},
	{
	"epoch": 0.6160815402038505,
	"grad_norm": 0.17086654725622255,
	"learning_rate": 8.994287936442225e-05,
	"loss": 0.2742,
	"num_input_tokens_seen": 344776544,
	"step": 1428
	},
	{
	"epoch": 0.6251415628539071,
	"grad_norm": 0.17370971449213884,
	"learning_rate": 8.96556266494224e-05,
	"loss": 0.2703,
	"num_input_tokens_seen": 349731168,
	"step": 1449
	},
	{
	"epoch": 0.6342015855039638,
	"grad_norm": 0.1759254965690454,
	"learning_rate": 8.936480165588173e-05,
	"loss": 0.2756,
	"num_input_tokens_seen": 354694544,
	"step": 1470
	},
	{
	"epoch": 0.6432616081540203,
	"grad_norm": 0.1884165927777844,
	"learning_rate": 8.907043058204674e-05,
	"loss": 0.2698,
	"num_input_tokens_seen": 359871984,
	"step": 1491
	},
	{
	"epoch": 0.652321630804077,
	"grad_norm": 0.18427306909901323,
	"learning_rate": 8.877253994560382e-05,
	"loss": 0.2716,
	"num_input_tokens_seen": 364937440,
	"step": 1512
	},
	{
	"epoch": 0.6613816534541337,
	"grad_norm": 0.20911376204072243,
	"learning_rate": 8.847115658129039e-05,
	"loss": 0.2682,
	"num_input_tokens_seen": 369994848,
	"step": 1533
	},
	{
	"epoch": 0.6704416761041903,
	"grad_norm": 0.20741042143522315,
	"learning_rate": 8.816630763847755e-05,
	"loss": 0.2695,
	"num_input_tokens_seen": 374992544,
	"step": 1554
	},
	{
	"epoch": 0.6795016987542469,
	"grad_norm": 0.1643283959081191,
	"learning_rate": 8.785802057872446e-05,
	"loss": 0.2706,
	"num_input_tokens_seen": 380038624,
	"step": 1575
	},
	{
	"epoch": 0.6885617214043035,
	"grad_norm": 0.20102992236744546,
	"learning_rate": 8.754632317330447e-05,
	"loss": 0.2704,
	"num_input_tokens_seen": 385195792,
	"step": 1596
	},
	{
	"epoch": 0.6976217440543602,
	"grad_norm": 0.18834807757879243,
	"learning_rate": 8.723124350070347e-05,
	"loss": 0.2707,
	"num_input_tokens_seen": 390195296,
	"step": 1617
	},
	{
	"epoch": 0.7066817667044167,
	"grad_norm": 0.15261075530832655,
	"learning_rate": 8.691280994409043e-05,
	"loss": 0.2653,
	"num_input_tokens_seen": 395353440,
	"step": 1638
	},
	{
	"epoch": 0.7157417893544734,
	"grad_norm": 0.20682506960801342,
	"learning_rate": 8.659105118876068e-05,
	"loss": 0.2649,
	"num_input_tokens_seen": 400444080,
	"step": 1659
	},
	{
	"epoch": 0.72480181200453,
	"grad_norm": 0.21733357068498219,
	"learning_rate": 8.626599621955179e-05,
	"loss": 0.2652,
	"num_input_tokens_seen": 405492112,
	"step": 1680
	},
	{
	"epoch": 0.7338618346545867,
	"grad_norm": 0.18286757761891814,
	"learning_rate": 8.593767431823255e-05,
	"loss": 0.2638,
	"num_input_tokens_seen": 410467584,
	"step": 1701
	},
	{
	"epoch": 0.7429218573046432,
	"grad_norm": 0.16764027437130122,
	"learning_rate": 8.56061150608652e-05,
	"loss": 0.2685,
	"num_input_tokens_seen": 415550320,
	"step": 1722
	},
	{
	"epoch": 0.7519818799546999,
	"grad_norm": 0.17921646972994934,
	"learning_rate": 8.527134831514117e-05,
	"loss": 0.2584,
	"num_input_tokens_seen": 420503712,
	"step": 1743
	},
	{
	"epoch": 0.7610419026047565,
	"grad_norm": 0.19062465197166928,
	"learning_rate": 8.493340423769053e-05,
	"loss": 0.2607,
	"num_input_tokens_seen": 425602800,
	"step": 1764
	},
	{
	"epoch": 0.7701019252548131,
	"grad_norm": 0.19476076523413036,
	"learning_rate": 8.459231327136532e-05,
	"loss": 0.2652,
	"num_input_tokens_seen": 430546320,
	"step": 1785
	},
	{
	"epoch": 0.7791619479048698,
	"grad_norm": 0.18756178702354967,
	"learning_rate": 8.42481061424973e-05,
	"loss": 0.2604,
	"num_input_tokens_seen": 435625600,
	"step": 1806
	},
	{
	"epoch": 0.7882219705549264,
	"grad_norm": 0.16871375853816825,
	"learning_rate": 8.390081385812993e-05,
	"loss": 0.2603,
	"num_input_tokens_seen": 440695024,
	"step": 1827
	},
	{
	"epoch": 0.797281993204983,
	"grad_norm": 0.1669594920851862,
	"learning_rate": 8.355046770322528e-05,
	"loss": 0.2576,
	"num_input_tokens_seen": 445877360,
	"step": 1848
	},
	{
	"epoch": 0.8063420158550396,
	"grad_norm": 0.20147791313721689,
	"learning_rate": 8.319709923784573e-05,
	"loss": 0.2622,
	"num_input_tokens_seen": 451021040,
	"step": 1869
	},
	{
	"epoch": 0.8154020385050963,
	"grad_norm": 0.17108850294819108,
	"learning_rate": 8.284074029431099e-05,
	"loss": 0.2587,
	"num_input_tokens_seen": 456101872,
	"step": 1890
	},
	{
	"epoch": 0.8244620611551529,
	"grad_norm": 0.18516681989871883,
	"learning_rate": 8.248142297433057e-05,
	"loss": 0.2575,
	"num_input_tokens_seen": 461365920,
	"step": 1911
	},
	{
	"epoch": 0.8335220838052095,
	"grad_norm": 0.20285356102658042,
	"learning_rate": 8.211917964611196e-05,
	"loss": 0.2573,
	"num_input_tokens_seen": 466466096,
	"step": 1932
	},
	{
	"epoch": 0.8425821064552661,
	"grad_norm": 0.207923488217522,
	"learning_rate": 8.175404294144482e-05,
	"loss": 0.26,
	"num_input_tokens_seen": 471541104,
	"step": 1953
	},
	{
	"epoch": 0.8516421291053228,
	"grad_norm": 0.19850908270608497,
	"learning_rate": 8.138604575276143e-05,
	"loss": 0.2571,
	"num_input_tokens_seen": 476646096,
	"step": 1974
	},
	{
	"epoch": 0.8607021517553793,
	"grad_norm": 0.1821198820367163,
	"learning_rate": 8.10152212301737e-05,
	"loss": 0.251,
	"num_input_tokens_seen": 481695200,
	"step": 1995
	},
	{
	"epoch": 0.869762174405436,
	"grad_norm": 0.1623421619904062,
	"learning_rate": 8.064160277848682e-05,
	"loss": 0.2614,
	"num_input_tokens_seen": 486706656,
	"step": 2016
	},
	{
	"epoch": 0.8788221970554927,
	"grad_norm": 0.1774308248272562,
	"learning_rate": 8.026522405419023e-05,
	"loss": 0.2528,
	"num_input_tokens_seen": 491943424,
	"step": 2037
	},
	{
	"epoch": 0.8878822197055493,
	"grad_norm": 0.21003241654174584,
	"learning_rate": 7.988611896242559e-05,
	"loss": 0.2571,
	"num_input_tokens_seen": 496925888,
	"step": 2058
	},
	{
	"epoch": 0.8969422423556059,
	"grad_norm": 0.20014809740395048,
	"learning_rate": 7.950432165393259e-05,
	"loss": 0.2547,
	"num_input_tokens_seen": 502065216,
	"step": 2079
	},
	{
	"epoch": 0.9060022650056625,
	"grad_norm": 0.17154274701388803,
	"learning_rate": 7.911986652197262e-05,
	"loss": 0.2538,
	"num_input_tokens_seen": 507089616,
	"step": 2100
	},
	{
	"epoch": 0.9150622876557192,
	"grad_norm": 0.17929198920009218,
	"learning_rate": 7.873278819923048e-05,
	"loss": 0.2551,
	"num_input_tokens_seen": 512060336,
	"step": 2121
	},
	{
	"epoch": 0.9241223103057757,
	"grad_norm": 0.16398954046091754,
	"learning_rate": 7.834312155469456e-05,
	"loss": 0.2515,
	"num_input_tokens_seen": 517133680,
	"step": 2142
	},
	{
	"epoch": 0.9331823329558324,
	"grad_norm": 0.17469600332499013,
	"learning_rate": 7.79509016905158e-05,
	"loss": 0.2526,
	"num_input_tokens_seen": 522229616,
	"step": 2163
	},
	{
	"epoch": 0.942242355605889,
	"grad_norm": 0.15900929966723312,
	"learning_rate": 7.755616393884561e-05,
	"loss": 0.2482,
	"num_input_tokens_seen": 527368864,
	"step": 2184
	},
	{
	"epoch": 0.9513023782559457,
	"grad_norm": 0.18254122861853214,
	"learning_rate": 7.715894385865299e-05,
	"loss": 0.2516,
	"num_input_tokens_seen": 532499712,
	"step": 2205
	},
	{
	"epoch": 0.9603624009060022,
	"grad_norm": 0.19001641667974054,
	"learning_rate": 7.675927723252134e-05,
	"loss": 0.2493,
	"num_input_tokens_seen": 537438224,
	"step": 2226
	},
	{
	"epoch": 0.9694224235560589,
	"grad_norm": 0.16454856189702688,
	"learning_rate": 7.635720006342512e-05,
	"loss": 0.2465,
	"num_input_tokens_seen": 542603472,
	"step": 2247
	},
	{
	"epoch": 0.9784824462061155,
	"grad_norm": 0.18435585737458549,
	"learning_rate": 7.595274857148652e-05,
	"loss": 0.2486,
	"num_input_tokens_seen": 547622688,
	"step": 2268
	},
	{
	"epoch": 0.9875424688561721,
	"grad_norm": 0.16595693704140477,
	"learning_rate": 7.554595919071268e-05,
	"loss": 0.2472,
	"num_input_tokens_seen": 552751232,
	"step": 2289
	},
	{
	"epoch": 0.9966024915062288,
	"grad_norm": 0.16765543588823353,
	"learning_rate": 7.513686856571368e-05,
	"loss": 0.2471,
	"num_input_tokens_seen": 557786736,
	"step": 2310
	},
	{
	"epoch": 1.0060400151000377,
	"grad_norm": 0.17133389174596797,
	"learning_rate": 7.472551354840145e-05,
	"loss": 0.2361,
	"num_input_tokens_seen": 562993712,
	"step": 2331
	},
	{
	"epoch": 1.0151000377500943,
	"grad_norm": 0.18279159983012744,
	"learning_rate": 7.431193119467008e-05,
	"loss": 0.217,
	"num_input_tokens_seen": 568021744,
	"step": 2352
	},
	{
	"epoch": 1.024160060400151,
	"grad_norm": 0.266530218109695,
	"learning_rate": 7.389615876105774e-05,
	"loss": 0.2145,
	"num_input_tokens_seen": 572956608,
	"step": 2373
	},
	{
	"epoch": 1.0332200830502076,
	"grad_norm": 0.178808088687151,
	"learning_rate": 7.347823370139042e-05,
	"loss": 0.2179,
	"num_input_tokens_seen": 577973792,
	"step": 2394
	},
	{
	"epoch": 1.0422801057002642,
	"grad_norm": 0.15535901011827938,
	"learning_rate": 7.30581936634082e-05,
	"loss": 0.2098,
	"num_input_tokens_seen": 582948368,
	"step": 2415
	},
	{
	"epoch": 1.051340128350321,
	"grad_norm": 0.1879255010231289,
	"learning_rate": 7.263607648537364e-05,
	"loss": 0.2174,
	"num_input_tokens_seen": 587973936,
	"step": 2436
	},
	{
	"epoch": 1.0604001510003775,
	"grad_norm": 0.18116579180636055,
	"learning_rate": 7.221192019266332e-05,
	"loss": 0.2187,
	"num_input_tokens_seen": 593048624,
	"step": 2457
	},
	{
	"epoch": 1.069460173650434,
	"grad_norm": 0.16067683672474237,
	"learning_rate": 7.178576299434238e-05,
	"loss": 0.2162,
	"num_input_tokens_seen": 598171840,
	"step": 2478
	},
	{
	"epoch": 1.0785201963004907,
	"grad_norm": 0.16890347919356866,
	"learning_rate": 7.135764327972261e-05,
	"loss": 0.2202,
	"num_input_tokens_seen": 603168000,
	"step": 2499
	},
	{
	"epoch": 1.0875802189505475,
	"grad_norm": 0.171528446871021,
	"learning_rate": 7.092759961490415e-05,
	"loss": 0.2237,
	"num_input_tokens_seen": 608280544,
	"step": 2520
	},
	{
	"epoch": 1.096640241600604,
	"grad_norm": 0.16674379731500746,
	"learning_rate": 7.049567073930143e-05,
	"loss": 0.2199,
	"num_input_tokens_seen": 613215280,
	"step": 2541
	},
	{
	"epoch": 1.1057002642506606,
	"grad_norm": 0.18816045716369076,
	"learning_rate": 7.006189556215345e-05,
	"loss": 0.2189,
	"num_input_tokens_seen": 618261984,
	"step": 2562
	},
	{
	"epoch": 1.1147602869007172,
	"grad_norm": 0.16658411013718444,
	"learning_rate": 6.962631315901861e-05,
	"loss": 0.2163,
	"num_input_tokens_seen": 623492320,
	"step": 2583
	},
	{
	"epoch": 1.123820309550774,
	"grad_norm": 0.19772642288828662,
	"learning_rate": 6.918896276825485e-05,
	"loss": 0.2157,
	"num_input_tokens_seen": 628563152,
	"step": 2604
	},
	{
	"epoch": 1.1328803322008305,
	"grad_norm": 0.17075347503361357,
	"learning_rate": 6.874988378748483e-05,
	"loss": 0.2141,
	"num_input_tokens_seen": 633639472,
	"step": 2625
	},
	{
	"epoch": 1.141940354850887,
	"grad_norm": 0.14444472527009938,
	"learning_rate": 6.830911577004698e-05,
	"loss": 0.2185,
	"num_input_tokens_seen": 638639648,
	"step": 2646
	},
	{
	"epoch": 1.1510003775009436,
	"grad_norm": 0.17948926082904845,
	"learning_rate": 6.786669842143236e-05,
	"loss": 0.2125,
	"num_input_tokens_seen": 643743632,
	"step": 2667
	},
	{
	"epoch": 1.1600604001510004,
	"grad_norm": 0.1845862453656852,
	"learning_rate": 6.742267159570795e-05,
	"loss": 0.2138,
	"num_input_tokens_seen": 648823584,
	"step": 2688
	},
	{
	"epoch": 1.169120422801057,
	"grad_norm": 0.1611490189496428,
	"learning_rate": 6.697707529192648e-05,
	"loss": 0.2152,
	"num_input_tokens_seen": 653949232,
	"step": 2709
	},
	{
	"epoch": 1.1781804454511136,
	"grad_norm": 0.19293414419678218,
	"learning_rate": 6.652994965052319e-05,
	"loss": 0.2125,
	"num_input_tokens_seen": 658996016,
	"step": 2730
	},
	{
	"epoch": 1.1872404681011703,
	"grad_norm": 0.1887515649690068,
	"learning_rate": 6.608133494969994e-05,
	"loss": 0.2123,
	"num_input_tokens_seen": 664102304,
	"step": 2751
	},
	{
	"epoch": 1.196300490751227,
	"grad_norm": 0.15668371616625942,
	"learning_rate": 6.563127160179671e-05,
	"loss": 0.2101,
	"num_input_tokens_seen": 669123584,
	"step": 2772
	},
	{
	"epoch": 1.2053605134012835,
	"grad_norm": 0.17871386948979864,
	"learning_rate": 6.517980014965139e-05,
	"loss": 0.209,
	"num_input_tokens_seen": 674256592,
	"step": 2793
	},
	{
	"epoch": 1.21442053605134,
	"grad_norm": 0.16852785549912133,
	"learning_rate": 6.472696126294732e-05,
	"loss": 0.2122,
	"num_input_tokens_seen": 679248208,
	"step": 2814
	},
	{
	"epoch": 1.2234805587013968,
	"grad_norm": 0.1758847676430736,
	"learning_rate": 6.427279573454985e-05,
	"loss": 0.2093,
	"num_input_tokens_seen": 684325632,
	"step": 2835
	},
	{
	"epoch": 1.2325405813514534,
	"grad_norm": 0.19298009720432585,
	"learning_rate": 6.381734447683152e-05,
	"loss": 0.2114,
	"num_input_tokens_seen": 689336736,
	"step": 2856
	},
	{
	"epoch": 1.24160060400151,
	"grad_norm": 0.16439303725722001,
	"learning_rate": 6.33606485179866e-05,
	"loss": 0.2111,
	"num_input_tokens_seen": 694382688,
	"step": 2877
	},
	{
	"epoch": 1.2506606266515665,
	"grad_norm": 0.18140167193790194,
	"learning_rate": 6.290274899833517e-05,
	"loss": 0.2086,
	"num_input_tokens_seen": 699371792,
	"step": 2898
	},
	{
	"epoch": 1.2597206493016233,
	"grad_norm": 0.17151657072780352,
	"learning_rate": 6.244368716661713e-05,
	"loss": 0.2095,
	"num_input_tokens_seen": 704404624,
	"step": 2919
	},
	{
	"epoch": 1.2687806719516799,
	"grad_norm": 0.2052334824788225,
	"learning_rate": 6.198350437627632e-05,
	"loss": 0.2083,
	"num_input_tokens_seen": 709451392,
	"step": 2940
	},
	{
	"epoch": 1.2778406946017364,
	"grad_norm": 0.18426322385396474,
	"learning_rate": 6.152224208173533e-05,
	"loss": 0.2088,
	"num_input_tokens_seen": 714486848,
	"step": 2961
	},
	{
	"epoch": 1.2869007172517932,
	"grad_norm": 0.1949416856665576,
	"learning_rate": 6.10599418346613e-05,
	"loss": 0.2118,
	"num_input_tokens_seen": 719556448,
	"step": 2982
	},
	{
	"epoch": 1.2959607399018498,
	"grad_norm": 0.16224663869829734,
	"learning_rate": 6.059664528022266e-05,
	"loss": 0.2058,
	"num_input_tokens_seen": 724625472,
	"step": 3003
	},
	{
	"epoch": 1.3050207625519064,
	"grad_norm": 0.1742996675080445,
	"learning_rate": 6.0132394153337755e-05,
	"loss": 0.2065,
	"num_input_tokens_seen": 729794320,
	"step": 3024
	},
	{
	"epoch": 1.3140807852019631,
	"grad_norm": 0.17806291944392397,
	"learning_rate": 5.9667230274915174e-05,
	"loss": 0.207,
	"num_input_tokens_seen": 734753392,
	"step": 3045
	},
	{
	"epoch": 1.3231408078520197,
	"grad_norm": 0.18436964692073765,
	"learning_rate": 5.920119554808651e-05,
	"loss": 0.2049,
	"num_input_tokens_seen": 739827088,
	"step": 3066
	},
	{
	"epoch": 1.3322008305020763,
	"grad_norm": 0.16939954583438047,
	"learning_rate": 5.873433195443152e-05,
	"loss": 0.208,
	"num_input_tokens_seen": 744847184,
	"step": 3087
	},
	{
	"epoch": 1.3412608531521328,
	"grad_norm": 0.1635889048824763,
	"learning_rate": 5.82666815501964e-05,
	"loss": 0.2047,
	"num_input_tokens_seen": 749874880,
	"step": 3108
	},
	{
	"epoch": 1.3503208758021894,
	"grad_norm": 0.16527453811089068,
	"learning_rate": 5.779828646250521e-05,
	"loss": 0.2022,
	"num_input_tokens_seen": 754848400,
	"step": 3129
	},
	{
	"epoch": 1.3593808984522462,
	"grad_norm": 0.18777829379599956,
	"learning_rate": 5.7329188885565e-05,
	"loss": 0.2073,
	"num_input_tokens_seen": 759913728,
	"step": 3150
	},
	{
	"epoch": 1.3684409211023028,
	"grad_norm": 0.15155859962967053,
	"learning_rate": 5.6859431076864755e-05,
	"loss": 0.2056,
	"num_input_tokens_seen": 765009632,
	"step": 3171
	},
	{
	"epoch": 1.3775009437523593,
	"grad_norm": 0.154719416013354,
	"learning_rate": 5.6389055353368826e-05,
	"loss": 0.2056,
	"num_input_tokens_seen": 770016704,
	"step": 3192
	},
	{
	"epoch": 1.386560966402416,
	"grad_norm": 0.16028731910302912,
	"learning_rate": 5.591810408770493e-05,
	"loss": 0.2037,
	"num_input_tokens_seen": 775197264,
	"step": 3213
	},
	{
	"epoch": 1.3956209890524727,
	"grad_norm": 0.15645057759509218,
	"learning_rate": 5.544661970434696e-05,
	"loss": 0.2042,
	"num_input_tokens_seen": 780209328,
	"step": 3234
	},
	{
	"epoch": 1.4046810117025292,
	"grad_norm": 0.17948486028711083,
	"learning_rate": 5.497464467579351e-05,
	"loss": 0.2011,
	"num_input_tokens_seen": 785402112,
	"step": 3255
	},
	{
	"epoch": 1.4137410343525858,
	"grad_norm": 0.16643670433003308,
	"learning_rate": 5.450222151874166e-05,
	"loss": 0.2015,
	"num_input_tokens_seen": 790429216,
	"step": 3276
	},
	{
	"epoch": 1.4228010570026426,
	"grad_norm": 0.17345996800344896,
	"learning_rate": 5.402939279025705e-05,
	"loss": 0.2005,
	"num_input_tokens_seen": 795543264,
	"step": 3297
	},
	{
	"epoch": 1.4318610796526992,
	"grad_norm": 0.1663960297870033,
	"learning_rate": 5.355620108394018e-05,
	"loss": 0.2052,
	"num_input_tokens_seen": 800533200,
	"step": 3318
	},
	{
	"epoch": 1.4409211023027557,
	"grad_norm": 0.15958882963062815,
	"learning_rate": 5.308268902608958e-05,
	"loss": 0.2042,
	"num_input_tokens_seen": 805542720,
	"step": 3339
	},
	{
	"epoch": 1.4499811249528123,
	"grad_norm": 0.17053093118312482,
	"learning_rate": 5.2608899271861765e-05,
	"loss": 0.1984,
	"num_input_tokens_seen": 810549376,
	"step": 3360
	},
	{
	"epoch": 1.459041147602869,
	"grad_norm": 0.1731330043830458,
	"learning_rate": 5.213487450142892e-05,
	"loss": 0.2038,
	"num_input_tokens_seen": 815599232,
	"step": 3381
	},
	{
	"epoch": 1.4681011702529256,
	"grad_norm": 0.17941197802062514,
	"learning_rate": 5.166065741613402e-05,
	"loss": 0.2012,
	"num_input_tokens_seen": 820700608,
	"step": 3402
	},
	{
	"epoch": 1.4771611929029822,
	"grad_norm": 0.1844938407002505,
	"learning_rate": 5.118629073464424e-05,
	"loss": 0.1987,
	"num_input_tokens_seen": 825686176,
	"step": 3423
	},
	{
	"epoch": 1.486221215553039,
	"grad_norm": 0.1748567417166297,
	"learning_rate": 5.071181718910283e-05,
	"loss": 0.1986,
	"num_input_tokens_seen": 830730000,
	"step": 3444
	},
	{
	"epoch": 1.4952812382030956,
	"grad_norm": 0.15694569688029672,
	"learning_rate": 5.023727952127954e-05,
	"loss": 0.1987,
	"num_input_tokens_seen": 835738032,
	"step": 3465
	},
	{
	"epoch": 1.5043412608531521,
	"grad_norm": 0.18575993893540607,
	"learning_rate": 4.976272047872046e-05,
	"loss": 0.1952,
	"num_input_tokens_seen": 840806528,
	"step": 3486
	},
	{
	"epoch": 1.513401283503209,
	"grad_norm": 0.16316391964141339,
	"learning_rate": 4.9288182810897184e-05,
	"loss": 0.1957,
	"num_input_tokens_seen": 845877808,
	"step": 3507
	},
	{
	"epoch": 1.5224613061532652,
	"grad_norm": 0.1809977532876625,
	"learning_rate": 4.8813709265355766e-05,
	"loss": 0.1957,
	"num_input_tokens_seen": 851002432,
	"step": 3528
	},
	{
	"epoch": 1.531521328803322,
	"grad_norm": 0.15896204329046001,
	"learning_rate": 4.8339342583866005e-05,
	"loss": 0.197,
	"num_input_tokens_seen": 856037440,
	"step": 3549
	},
	{
	"epoch": 1.5405813514533786,
	"grad_norm": 0.1848696286617871,
	"learning_rate": 4.7865125498571086e-05,
	"loss": 0.1957,
	"num_input_tokens_seen": 860972624,
	"step": 3570
	},
	{
	"epoch": 1.5496413741034352,
	"grad_norm": 0.16411859849940666,
	"learning_rate": 4.739110072813823e-05,
	"loss": 0.1926,
	"num_input_tokens_seen": 866078128,
	"step": 3591
	},
	{
	"epoch": 1.558701396753492,
	"grad_norm": 0.15293153546751434,
	"learning_rate": 4.6917310973910425e-05,
	"loss": 0.1934,
	"num_input_tokens_seen": 871290720,
	"step": 3612
	},
	{
	"epoch": 1.5677614194035485,
	"grad_norm": 0.18580264173261662,
	"learning_rate": 4.6443798916059836e-05,
	"loss": 0.1961,
	"num_input_tokens_seen": 876353920,
	"step": 3633
	},
	{
	"epoch": 1.576821442053605,
	"grad_norm": 0.16117670144515006,
	"learning_rate": 4.597060720974298e-05,
	"loss": 0.1902,
	"num_input_tokens_seen": 881469536,
	"step": 3654
	},
	{
	"epoch": 1.5858814647036619,
	"grad_norm": 0.1821844142116438,
	"learning_rate": 4.549777848125833e-05,
	"loss": 0.1971,
	"num_input_tokens_seen": 886532048,
	"step": 3675
	},
	{
	"epoch": 1.5949414873537184,
	"grad_norm": 0.188981157327872,
	"learning_rate": 4.50253553242065e-05,
	"loss": 0.1952,
	"num_input_tokens_seen": 891565152,
	"step": 3696
	},
	{
	"epoch": 1.604001510003775,
	"grad_norm": 0.1663775536476532,
	"learning_rate": 4.4553380295653053e-05,
	"loss": 0.1908,
	"num_input_tokens_seen": 896603568,
	"step": 3717
	},
	{
	"epoch": 1.6130615326538318,
	"grad_norm": 0.16695660636413406,
	"learning_rate": 4.40818959122951e-05,
	"loss": 0.1945,
	"num_input_tokens_seen": 901703264,
	"step": 3738
	},
	{
	"epoch": 1.6221215553038881,
	"grad_norm": 0.18003132042487852,
	"learning_rate": 4.361094464663118e-05,
	"loss": 0.1911,
	"num_input_tokens_seen": 906846256,
	"step": 3759
	},
	{
	"epoch": 1.631181577953945,
	"grad_norm": 0.16377146934729214,
	"learning_rate": 4.3140568923135264e-05,
	"loss": 0.193,
	"num_input_tokens_seen": 911964272,
	"step": 3780
	},
	{
	"epoch": 1.6402416006040015,
	"grad_norm": 0.1711801561805431,
	"learning_rate": 4.267081111443501e-05,
	"loss": 0.1898,
	"num_input_tokens_seen": 917101840,
	"step": 3801
	},
	{
	"epoch": 1.649301623254058,
	"grad_norm": 0.1743609898038798,
	"learning_rate": 4.22017135374948e-05,
	"loss": 0.1852,
	"num_input_tokens_seen": 922205664,
	"step": 3822
	},
	{
	"epoch": 1.6583616459041148,
	"grad_norm": 0.17938627926996303,
	"learning_rate": 4.1733318449803624e-05,
	"loss": 0.1863,
	"num_input_tokens_seen": 927302560,
	"step": 3843
	},
	{
	"epoch": 1.6674216685541714,
	"grad_norm": 0.16947333759434738,
	"learning_rate": 4.1265668045568495e-05,
	"loss": 0.1882,
	"num_input_tokens_seen": 932325424,
	"step": 3864
	},
	{
	"epoch": 1.676481691204228,
	"grad_norm": 0.16639553173104588,
	"learning_rate": 4.079880445191351e-05,
	"loss": 0.1893,
	"num_input_tokens_seen": 937438464,
	"step": 3885
	},
	{
	"epoch": 1.6855417138542848,
	"grad_norm": 0.14651023615133163,
	"learning_rate": 4.033276972508484e-05,
	"loss": 0.1885,
	"num_input_tokens_seen": 942617840,
	"step": 3906
	},
	{
	"epoch": 1.6946017365043413,
	"grad_norm": 0.17812367097504705,
	"learning_rate": 3.9867605846662256e-05,
	"loss": 0.1883,
	"num_input_tokens_seen": 947823200,
	"step": 3927
	},
	{
	"epoch": 1.7036617591543979,
	"grad_norm": 0.1872194452488721,
	"learning_rate": 3.940335471977734e-05,
	"loss": 0.1871,
	"num_input_tokens_seen": 952872784,
	"step": 3948
	},
	{
	"epoch": 1.7127217818044547,
	"grad_norm": 0.1643081487678093,
	"learning_rate": 3.89400581653387e-05,
	"loss": 0.1853,
	"num_input_tokens_seen": 957908608,
	"step": 3969
	},
	{
	"epoch": 1.721781804454511,
	"grad_norm": 0.1753318656372752,
	"learning_rate": 3.847775791826468e-05,
	"loss": 0.1862,
	"num_input_tokens_seen": 962972208,
	"step": 3990
	},
	{
	"epoch": 1.7308418271045678,
	"grad_norm": 0.15851578473823177,
	"learning_rate": 3.801649562372371e-05,
	"loss": 0.1913,
	"num_input_tokens_seen": 968020256,
	"step": 4011
	},
	{
	"epoch": 1.7399018497546244,
	"grad_norm": 0.1812244935434252,
	"learning_rate": 3.755631283338287e-05,
	"loss": 0.1908,
	"num_input_tokens_seen": 973116912,
	"step": 4032
	},
	{
	"epoch": 1.748961872404681,
	"grad_norm": 0.16265272189557067,
	"learning_rate": 3.709725100166482e-05,
	"loss": 0.1839,
	"num_input_tokens_seen": 978276224,
	"step": 4053
	},
	{
	"epoch": 1.7580218950547377,
	"grad_norm": 0.16695166226650535,
	"learning_rate": 3.663935148201341e-05,
	"loss": 0.1869,
	"num_input_tokens_seen": 983499184,
	"step": 4074
	},
	{
	"epoch": 1.7670819177047943,
	"grad_norm": 0.17046617487207735,
	"learning_rate": 3.618265552316849e-05,
	"loss": 0.1884,
	"num_input_tokens_seen": 988511216,
	"step": 4095
	},
	{
	"epoch": 1.7761419403548508,
	"grad_norm": 0.16853521697476523,
	"learning_rate": 3.572720426545017e-05,
	"loss": 0.1863,
	"num_input_tokens_seen": 993542272,
	"step": 4116
	},
	{
	"epoch": 1.7852019630049076,
	"grad_norm": 0.16196055724715774,
	"learning_rate": 3.5273038737052675e-05,
	"loss": 0.1884,
	"num_input_tokens_seen": 998561584,
	"step": 4137
	},
	{
	"epoch": 1.794261985654964,
	"grad_norm": 0.17704958458091835,
	"learning_rate": 3.482019985034861e-05,
	"loss": 0.1815,
	"num_input_tokens_seen": 1003535696,
	"step": 4158
	},
	{
	"epoch": 1.8033220083050208,
	"grad_norm": 0.17212954264417213,
	"learning_rate": 3.43687283982033e-05,
	"loss": 0.1798,
	"num_input_tokens_seen": 1008610432,
	"step": 4179
	},
	{
	"epoch": 1.8123820309550775,
	"grad_norm": 0.1642508897074481,
	"learning_rate": 3.391866505030009e-05,
	"loss": 0.1797,
	"num_input_tokens_seen": 1013577840,
	"step": 4200
	},
	{
	"epoch": 1.821442053605134,
	"grad_norm": 0.1895193964135349,
	"learning_rate": 3.347005034947681e-05,
	"loss": 0.1773,
	"num_input_tokens_seen": 1018549888,
	"step": 4221
	},
	{
	"epoch": 1.8305020762551907,
	"grad_norm": 0.18935672208270557,
	"learning_rate": 3.3022924708073524e-05,
	"loss": 0.1828,
	"num_input_tokens_seen": 1023498368,
	"step": 4242
	},
	{
	"epoch": 1.8395620989052472,
	"grad_norm": 0.15473627402095172,
	"learning_rate": 3.257732840429206e-05,
	"loss": 0.18,
	"num_input_tokens_seen": 1028542992,
	"step": 4263
	},
	{
	"epoch": 1.8486221215553038,
	"grad_norm": 0.17782850850732204,
	"learning_rate": 3.2133301578567646e-05,
	"loss": 0.1825,
	"num_input_tokens_seen": 1033574288,
	"step": 4284
	},
	{
	"epoch": 1.8576821442053606,
	"grad_norm": 0.17879475744218412,
	"learning_rate": 3.169088422995304e-05,
	"loss": 0.1776,
	"num_input_tokens_seen": 1038606208,
	"step": 4305
	},
	{
	"epoch": 1.8667421668554172,
	"grad_norm": 0.16166293718253705,
	"learning_rate": 3.125011621251516e-05,
	"loss": 0.1768,
	"num_input_tokens_seen": 1043770704,
	"step": 4326
	},
	{
	"epoch": 1.8758021895054737,
	"grad_norm": 0.1607230134601091,
	"learning_rate": 3.081103723174515e-05,
	"loss": 0.1778,
	"num_input_tokens_seen": 1048829664,
	"step": 4347
	},
	{
	"epoch": 1.8848622121555305,
	"grad_norm": 0.159447656379203,
	"learning_rate": 3.0373686840981397e-05,
	"loss": 0.1788,
	"num_input_tokens_seen": 1053950224,
	"step": 4368
	},
	{
	"epoch": 1.8939222348055869,
	"grad_norm": 0.1674766446494019,
	"learning_rate": 2.9938104437846572e-05,
	"loss": 0.176,
	"num_input_tokens_seen": 1059119888,
	"step": 4389
	},
	{
	"epoch": 1.9029822574556436,
	"grad_norm": 0.17753675611302996,
	"learning_rate": 2.950432926069857e-05,
	"loss": 0.1783,
	"num_input_tokens_seen": 1064177088,
	"step": 4410
	},
	{
	"epoch": 1.9120422801057002,
	"grad_norm": 0.17087252328331373,
	"learning_rate": 2.9072400385095865e-05,
	"loss": 0.178,
	"num_input_tokens_seen": 1069200928,
	"step": 4431
	},
	{
	"epoch": 1.9211023027557568,
	"grad_norm": 0.16133227423173738,
	"learning_rate": 2.864235672027741e-05,
	"loss": 0.1759,
	"num_input_tokens_seen": 1074313840,
	"step": 4452
	},
	{
	"epoch": 1.9301623254058136,
	"grad_norm": 0.1865580464555286,
	"learning_rate": 2.8214237005657627e-05,
	"loss": 0.1769,
	"num_input_tokens_seen": 1079348080,
	"step": 4473
	},
	{
	"epoch": 1.9392223480558701,
	"grad_norm": 0.17483638643553473,
	"learning_rate": 2.7788079807336692e-05,
	"loss": 0.1761,
	"num_input_tokens_seen": 1084415072,
	"step": 4494
	},
	{
	"epoch": 1.9482823707059267,
	"grad_norm": 0.16127203478332483,
	"learning_rate": 2.7363923514626367e-05,
	"loss": 0.1762,
	"num_input_tokens_seen": 1089576528,
	"step": 4515
	},
	{
	"epoch": 1.9573423933559835,
	"grad_norm": 0.1818665955450248,
	"learning_rate": 2.6941806336591808e-05,
	"loss": 0.1715,
	"num_input_tokens_seen": 1094741664,
	"step": 4536
	},
	{
	"epoch": 1.96640241600604,
	"grad_norm": 0.16510174569454042,
	"learning_rate": 2.6521766298609584e-05,
	"loss": 0.1728,
	"num_input_tokens_seen": 1099708896,
	"step": 4557
	},
	{
	"epoch": 1.9754624386560966,
	"grad_norm": 0.17393602608748607,
	"learning_rate": 2.610384123894229e-05,
	"loss": 0.175,
	"num_input_tokens_seen": 1104824512,
	"step": 4578
	},
	{
	"epoch": 1.9845224613061534,
	"grad_norm": 0.18901915034549496,
	"learning_rate": 2.568806880532991e-05,
	"loss": 0.1736,
	"num_input_tokens_seen": 1109954160,
	"step": 4599
	},
	{
	"epoch": 1.9935824839562097,
	"grad_norm": 0.19336693087348367,
	"learning_rate": 2.5274486451598565e-05,
	"loss": 0.1704,
	"num_input_tokens_seen": 1115130992,
	"step": 4620
	},
	{
	"epoch": 2.003020007550019,
	"grad_norm": 0.192558427240515,
	"learning_rate": 2.4863131434286342e-05,
	"loss": 0.1548,
	"num_input_tokens_seen": 1120294784,
	"step": 4641
	},
	{
	"epoch": 2.0120800302000754,
	"grad_norm": 0.19360993518356076,
	"learning_rate": 2.4454040809287342e-05,
	"loss": 0.1188,
	"num_input_tokens_seen": 1125375728,
	"step": 4662
	},
	{
	"epoch": 2.021140052850132,
	"grad_norm": 0.19346692314512148,
	"learning_rate": 2.4047251428513485e-05,
	"loss": 0.1176,
	"num_input_tokens_seen": 1130663488,
	"step": 4683
	},
	{
	"epoch": 2.0302000755001886,
	"grad_norm": 0.1915500646603155,
	"learning_rate": 2.364279993657487e-05,
	"loss": 0.1166,
	"num_input_tokens_seen": 1135729856,
	"step": 4704
	},
	{
	"epoch": 2.0392600981502453,
	"grad_norm": 0.21320689744431512,
	"learning_rate": 2.3240722767478657e-05,
	"loss": 0.1129,
	"num_input_tokens_seen": 1140728768,
	"step": 4725
	},
	{
	"epoch": 2.048320120800302,
	"grad_norm": 0.20002232427856995,
	"learning_rate": 2.2841056141347038e-05,
	"loss": 0.1122,
	"num_input_tokens_seen": 1145810672,
	"step": 4746
	},
	{
	"epoch": 2.0573801434503585,
	"grad_norm": 0.21228559927967805,
	"learning_rate": 2.2443836061154415e-05,
	"loss": 0.1145,
	"num_input_tokens_seen": 1150862064,
	"step": 4767
	},
	{
	"epoch": 2.0664401661004153,
	"grad_norm": 0.19792768108065947,
	"learning_rate": 2.2049098309484195e-05,
	"loss": 0.1153,
	"num_input_tokens_seen": 1155954544,
	"step": 4788
	},
	{
	"epoch": 2.075500188750472,
	"grad_norm": 0.21247296887779493,
	"learning_rate": 2.1656878445305447e-05,
	"loss": 0.1152,
	"num_input_tokens_seen": 1161054256,
	"step": 4809
	},
	{
	"epoch": 2.0845602114005284,
	"grad_norm": 0.19109010163603735,
	"learning_rate": 2.1267211800769528e-05,
	"loss": 0.1148,
	"num_input_tokens_seen": 1166056688,
	"step": 4830
	},
	{
	"epoch": 2.093620234050585,
	"grad_norm": 0.19679782828606215,
	"learning_rate": 2.088013347802738e-05,
	"loss": 0.1119,
	"num_input_tokens_seen": 1171231104,
	"step": 4851
	},
	{
	"epoch": 2.102680256700642,
	"grad_norm": 0.2128224999872872,
	"learning_rate": 2.0495678346067414e-05,
	"loss": 0.1101,
	"num_input_tokens_seen": 1176284976,
	"step": 4872
	},
	{
	"epoch": 2.1117402793506983,
	"grad_norm": 0.2123206811047115,
	"learning_rate": 2.011388103757442e-05,
	"loss": 0.1139,
	"num_input_tokens_seen": 1181400944,
	"step": 4893
	},
	{
	"epoch": 2.120800302000755,
	"grad_norm": 0.2071017368245751,
	"learning_rate": 1.973477594580977e-05,
	"loss": 0.1116,
	"num_input_tokens_seen": 1186527776,
	"step": 4914
	},
	{
	"epoch": 2.1298603246508114,
	"grad_norm": 0.17323287993849096,
	"learning_rate": 1.9358397221513176e-05,
	"loss": 0.112,
	"num_input_tokens_seen": 1191661680,
	"step": 4935
	},
	{
	"epoch": 2.138920347300868,
	"grad_norm": 0.20213151950682676,
	"learning_rate": 1.8984778769826316e-05,
	"loss": 0.1106,
	"num_input_tokens_seen": 1196759648,
	"step": 4956
	},
	{
	"epoch": 2.147980369950925,
	"grad_norm": 0.19700292148625387,
	"learning_rate": 1.8613954247238586e-05,
	"loss": 0.1124,
	"num_input_tokens_seen": 1201857104,
	"step": 4977
	},
	{
	"epoch": 2.1570403926009813,
	"grad_norm": 0.21527000496492768,
	"learning_rate": 1.82459570585552e-05,
	"loss": 0.1136,
	"num_input_tokens_seen": 1206927520,
	"step": 4998
	},
	{
	"epoch": 2.157903251900987,
	"eval_loss": 0.19485081732273102,
	"eval_runtime": 529.4687,
	"eval_samples_per_second": 17.331,
	"eval_steps_per_second": 1.084,
	"num_input_tokens_seen": 1207385424,
	"step": 5000
	},
	{
	"epoch": 2.166100415251038,
	"grad_norm": 0.2275158963594303,
	"learning_rate": 1.7880820353888056e-05,
	"loss": 0.1102,
	"num_input_tokens_seen": 1211875824,
	"step": 5019
	},
	{
	"epoch": 2.175160437901095,
	"grad_norm": 0.20450931488489404,
	"learning_rate": 1.751857702566944e-05,
	"loss": 0.113,
	"num_input_tokens_seen": 1216954688,
	"step": 5040
	},
	{
	"epoch": 2.1842204605511513,
	"grad_norm": 0.21173943893990088,
	"learning_rate": 1.7159259705689e-05,
	"loss": 0.1104,
	"num_input_tokens_seen": 1221976560,
	"step": 5061
	},
	{
	"epoch": 2.193280483201208,
	"grad_norm": 0.20717537063008165,
	"learning_rate": 1.6802900762154267e-05,
	"loss": 0.1152,
	"num_input_tokens_seen": 1226975776,
	"step": 5082
	},
	{
	"epoch": 2.2023405058512644,
	"grad_norm": 0.19831781893791461,
	"learning_rate": 1.644953229677474e-05,
	"loss": 0.1097,
	"num_input_tokens_seen": 1231998784,
	"step": 5103
	},
	{
	"epoch": 2.211400528501321,
	"grad_norm": 0.18492554370023317,
	"learning_rate": 1.609918614187009e-05,
	"loss": 0.1111,
	"num_input_tokens_seen": 1236990864,
	"step": 5124
	},
	{
	"epoch": 2.220460551151378,
	"grad_norm": 0.20016085842409992,
	"learning_rate": 1.575189385750271e-05,
	"loss": 0.1104,
	"num_input_tokens_seen": 1242051280,
	"step": 5145
	},
	{
	"epoch": 2.2295205738014343,
	"grad_norm": 0.2070887723839001,
	"learning_rate": 1.540768672863468e-05,
	"loss": 0.1075,
	"num_input_tokens_seen": 1247127040,
	"step": 5166
	},
	{
	"epoch": 2.238580596451491,
	"grad_norm": 0.1925213910719394,
	"learning_rate": 1.5066595762309477e-05,
	"loss": 0.1093,
	"num_input_tokens_seen": 1252158672,
	"step": 5187
	},
	{
	"epoch": 2.247640619101548,
	"grad_norm": 0.205831347337121,
	"learning_rate": 1.4728651684858834e-05,
	"loss": 0.1126,
	"num_input_tokens_seen": 1257321184,
	"step": 5208
	},
	{
	"epoch": 2.2567006417516042,
	"grad_norm": 0.19926488557298117,
	"learning_rate": 1.4393884939134833e-05,
	"loss": 0.1064,
	"num_input_tokens_seen": 1262315984,
	"step": 5229
	},
	{
	"epoch": 2.265760664401661,
	"grad_norm": 0.18546254868875062,
	"learning_rate": 1.4062325681767469e-05,
	"loss": 0.1096,
	"num_input_tokens_seen": 1267351616,
	"step": 5250
	},
	{
	"epoch": 2.274820687051718,
	"grad_norm": 0.21880629906349583,
	"learning_rate": 1.3734003780448218e-05,
	"loss": 0.1089,
	"num_input_tokens_seen": 1272350592,
	"step": 5271
	},
	{
	"epoch": 2.283880709701774,
	"grad_norm": 0.1996371660776893,
	"learning_rate": 1.340894881123932e-05,
	"loss": 0.1093,
	"num_input_tokens_seen": 1277314160,
	"step": 5292
	},
	{
	"epoch": 2.292940732351831,
	"grad_norm": 0.18322023913039737,
	"learning_rate": 1.308719005590957e-05,
	"loss": 0.1064,
	"num_input_tokens_seen": 1282348896,
	"step": 5313
	},
	{
	"epoch": 2.3020007550018873,
	"grad_norm": 0.19825429674508396,
	"learning_rate": 1.276875649929654e-05,
	"loss": 0.1103,
	"num_input_tokens_seen": 1287503120,
	"step": 5334
	},
	{
	"epoch": 2.311060777651944,
	"grad_norm": 0.20100225641083314,
	"learning_rate": 1.2453676826695532e-05,
	"loss": 0.1077,
	"num_input_tokens_seen": 1292488224,
	"step": 5355
	},
	{
	"epoch": 2.320120800302001,
	"grad_norm": 0.19869949736224346,
	"learning_rate": 1.2141979421275545e-05,
	"loss": 0.1051,
	"num_input_tokens_seen": 1297613792,
	"step": 5376
	},
	{
	"epoch": 2.329180822952057,
	"grad_norm": 0.20145867765354752,
	"learning_rate": 1.1833692361522459e-05,
	"loss": 0.1063,
	"num_input_tokens_seen": 1302765200,
	"step": 5397
	},
	{
	"epoch": 2.338240845602114,
	"grad_norm": 0.20680505787617295,
	"learning_rate": 1.1528843418709622e-05,
	"loss": 0.1073,
	"num_input_tokens_seen": 1307780896,
	"step": 5418
	},
	{
	"epoch": 2.3473008682521708,
	"grad_norm": 0.23847500451035963,
	"learning_rate": 1.1227460054396177e-05,
	"loss": 0.1076,
	"num_input_tokens_seen": 1312916864,
	"step": 5439
	},
	{
	"epoch": 2.356360890902227,
	"grad_norm": 0.21518454470567003,
	"learning_rate": 1.0929569417953278e-05,
	"loss": 0.1049,
	"num_input_tokens_seen": 1317924528,
	"step": 5460
	},
	{
	"epoch": 2.365420913552284,
	"grad_norm": 0.19953783012904103,
	"learning_rate": 1.0635198344118296e-05,
	"loss": 0.1038,
	"num_input_tokens_seen": 1322892896,
	"step": 5481
	},
	{
	"epoch": 2.3744809362023407,
	"grad_norm": 0.20097656219123833,
	"learning_rate": 1.034437335057762e-05,
	"loss": 0.1049,
	"num_input_tokens_seen": 1328000960,
	"step": 5502
	},
	{
	"epoch": 2.383540958852397,
	"grad_norm": 0.20223248741837738,
	"learning_rate": 1.005712063557776e-05,
	"loss": 0.1026,
	"num_input_tokens_seen": 1333104928,
	"step": 5523
	},
	{
	"epoch": 2.392600981502454,
	"grad_norm": 0.184389360298103,
	"learning_rate": 9.773466075565457e-06,
	"loss": 0.1061,
	"num_input_tokens_seen": 1338094928,
	"step": 5544
	},
	{
	"epoch": 2.40166100415251,
	"grad_norm": 0.18202586925329933,
	"learning_rate": 9.493435222856556e-06,
	"loss": 0.1078,
	"num_input_tokens_seen": 1343094352,
	"step": 5565
	},
	{
	"epoch": 2.410721026802567,
	"grad_norm": 0.21238526697964133,
	"learning_rate": 9.21705330333426e-06,
	"loss": 0.1021,
	"num_input_tokens_seen": 1348209008,
	"step": 5586
	},
	{
	"epoch": 2.4197810494526237,
	"grad_norm": 0.2033611614783377,
	"learning_rate": 8.944345214176675e-06,
	"loss": 0.105,
	"num_input_tokens_seen": 1353281712,
	"step": 5607
	},
	{
	"epoch": 2.42884107210268,
	"grad_norm": 0.19144661395169293,
	"learning_rate": 8.675335521614036e-06,
	"loss": 0.1039,
	"num_input_tokens_seen": 1358325728,
	"step": 5628
	},
	{
	"epoch": 2.437901094752737,
	"grad_norm": 0.20545555012965147,
	"learning_rate": 8.410048458715763e-06,
	"loss": 0.1026,
	"num_input_tokens_seen": 1363274864,
	"step": 5649
	},
	{
	"epoch": 2.4469611174027937,
	"grad_norm": 0.20596285141748574,
	"learning_rate": 8.148507923207377e-06,
	"loss": 0.1046,
	"num_input_tokens_seen": 1368398176,
	"step": 5670
	},
	{
	"epoch": 2.45602114005285,
	"grad_norm": 0.21097019629979452,
	"learning_rate": 7.890737475317817e-06,
	"loss": 0.1062,
	"num_input_tokens_seen": 1373421664,
	"step": 5691
	},
	{
	"epoch": 2.465081162702907,
	"grad_norm": 0.1903944548607354,
	"learning_rate": 7.636760335657056e-06,
	"loss": 0.1005,
	"num_input_tokens_seen": 1378386688,
	"step": 5712
	},
	{
	"epoch": 2.4741411853529636,
	"grad_norm": 0.19609864215469505,
	"learning_rate": 7.38659938312432e-06,
	"loss": 0.1008,
	"num_input_tokens_seen": 1383515360,
	"step": 5733
	},
	{
	"epoch": 2.48320120800302,
	"grad_norm": 0.18901755025774616,
	"learning_rate": 7.140277152847103e-06,
	"loss": 0.1012,
	"num_input_tokens_seen": 1388651712,
	"step": 5754
	},
	{
	"epoch": 2.4922612306530767,
	"grad_norm": 0.2089521843263624,
	"learning_rate": 6.89781583415115e-06,
	"loss": 0.1004,
	"num_input_tokens_seen": 1393819168,
	"step": 5775
	},
	{
	"epoch": 2.501321253303133,
	"grad_norm": 0.20297486453222555,
	"learning_rate": 6.659237268561569e-06,
	"loss": 0.1058,
	"num_input_tokens_seen": 1399005008,
	"step": 5796
	},
	{
	"epoch": 2.51038127595319,
	"grad_norm": 0.1950872269091398,
	"learning_rate": 6.424562947835367e-06,
	"loss": 0.0996,
	"num_input_tokens_seen": 1404075040,
	"step": 5817
	},
	{
	"epoch": 2.5194412986032466,
	"grad_norm": 0.19137900590478205,
	"learning_rate": 6.193814012025278e-06,
	"loss": 0.098,
	"num_input_tokens_seen": 1409145760,
	"step": 5838
	},
	{
	"epoch": 2.5285013212533034,
	"grad_norm": 0.21343987395986905,
	"learning_rate": 5.967011247575532e-06,
	"loss": 0.1053,
	"num_input_tokens_seen": 1414225568,
	"step": 5859
	},
	{
	"epoch": 2.5375613439033597,
	"grad_norm": 0.21335949851815006,
	"learning_rate": 5.744175085449338e-06,
	"loss": 0.1021,
	"num_input_tokens_seen": 1419339216,
	"step": 5880
	},
	{
	"epoch": 2.5466213665534165,
	"grad_norm": 0.19658196939034006,
	"learning_rate": 5.525325599288356e-06,
	"loss": 0.1003,
	"num_input_tokens_seen": 1424423024,
	"step": 5901
	},
	{
	"epoch": 2.555681389203473,
	"grad_norm": 0.1831370056225536,
	"learning_rate": 5.310482503604497e-06,
	"loss": 0.1039,
	"num_input_tokens_seen": 1429360512,
	"step": 5922
	},
	{
	"epoch": 2.5647414118535297,
	"grad_norm": 0.21013156618721565,
	"learning_rate": 5.09966515200393e-06,
	"loss": 0.1034,
	"num_input_tokens_seen": 1434443216,
	"step": 5943
	},
	{
	"epoch": 2.5738014345035864,
	"grad_norm": 0.2204689190211589,
	"learning_rate": 4.892892535443655e-06,
	"loss": 0.1025,
	"num_input_tokens_seen": 1439693152,
	"step": 5964
	},
	{
	"epoch": 2.582861457153643,
	"grad_norm": 0.20888767875138448,
	"learning_rate": 4.690183280520777e-06,
	"loss": 0.1041,
	"num_input_tokens_seen": 1444742640,
	"step": 5985
	},
	{
	"epoch": 2.5919214798036996,
	"grad_norm": 0.20314033156230726,
	"learning_rate": 4.491555647794609e-06,
	"loss": 0.1035,
	"num_input_tokens_seen": 1449817024,
	"step": 6006
	},
	{
	"epoch": 2.600981502453756,
	"grad_norm": 0.1878500846044568,
	"learning_rate": 4.297027530141634e-06,
	"loss": 0.102,
	"num_input_tokens_seen": 1454966656,
	"step": 6027
	},
	{
	"epoch": 2.6100415251038127,
	"grad_norm": 0.1689243463349296,
	"learning_rate": 4.106616451143719e-06,
	"loss": 0.0968,
	"num_input_tokens_seen": 1460107904,
	"step": 6048
	},
	{
	"epoch": 2.6191015477538695,
	"grad_norm": 0.20642026958771845,
	"learning_rate": 3.9203395635095615e-06,
	"loss": 0.1025,
	"num_input_tokens_seen": 1465329712,
	"step": 6069
	},
	{
	"epoch": 2.6281615704039263,
	"grad_norm": 0.18586990386683522,
	"learning_rate": 3.7382136475294592e-06,
	"loss": 0.0992,
	"num_input_tokens_seen": 1470486400,
	"step": 6090
	},
	{
	"epoch": 2.6372215930539826,
	"grad_norm": 0.2145218277764739,
	"learning_rate": 3.5602551095638094e-06,
	"loss": 0.1014,
	"num_input_tokens_seen": 1475481216,
	"step": 6111
	},
	{
	"epoch": 2.6462816157040394,
	"grad_norm": 0.18413690443200365,
	"learning_rate": 3.386479980565077e-06,
	"loss": 0.097,
	"num_input_tokens_seen": 1480509520,
	"step": 6132
	},
	{
	"epoch": 2.6553416383540958,
	"grad_norm": 0.20568925987079073,
	"learning_rate": 3.2169039146337455e-06,
	"loss": 0.1011,
	"num_input_tokens_seen": 1485415168,
	"step": 6153
	},
	{
	"epoch": 2.6644016610041525,
	"grad_norm": 0.19689596480908558,
	"learning_rate": 3.0515421876081364e-06,
	"loss": 0.1003,
	"num_input_tokens_seen": 1490580288,
	"step": 6174
	},
	{
	"epoch": 2.6734616836542093,
	"grad_norm": 0.19998505506705416,
	"learning_rate": 2.8904096956883396e-06,
	"loss": 0.1011,
	"num_input_tokens_seen": 1495724928,
	"step": 6195
	},
	{
	"epoch": 2.6825217063042657,
	"grad_norm": 0.19403273255448156,
	"learning_rate": 2.733520954094304e-06,
	"loss": 0.0992,
	"num_input_tokens_seen": 1500671568,
	"step": 6216
	},
	{
	"epoch": 2.6915817289543225,
	"grad_norm": 0.2062968511222456,
	"learning_rate": 2.580890095758276e-06,
	"loss": 0.0985,
	"num_input_tokens_seen": 1505736848,
	"step": 6237
	},
	{
	"epoch": 2.700641751604379,
	"grad_norm": 0.18160540614114035,
	"learning_rate": 2.4325308700516804e-06,
	"loss": 0.0999,
	"num_input_tokens_seen": 1510772384,
	"step": 6258
	},
	{
	"epoch": 2.7097017742544356,
	"grad_norm": 0.1923201194653099,
	"learning_rate": 2.288456641546549e-06,
	"loss": 0.1015,
	"num_input_tokens_seen": 1515840336,
	"step": 6279
	},
	{
	"epoch": 2.7187617969044924,
	"grad_norm": 0.19463587674679012,
	"learning_rate": 2.1486803888115802e-06,
	"loss": 0.0952,
	"num_input_tokens_seen": 1520795728,
	"step": 6300
	},
	{
	"epoch": 2.7278218195545487,
	"grad_norm": 0.20675363777805839,
	"learning_rate": 2.013214703242994e-06,
	"loss": 0.1014,
	"num_input_tokens_seen": 1525885232,
	"step": 6321
	},
	{
	"epoch": 2.7368818422046055,
	"grad_norm": 0.20373174987364437,
	"learning_rate": 1.8820717879303175e-06,
	"loss": 0.0962,
	"num_input_tokens_seen": 1531020736,
	"step": 6342
	},
	{
	"epoch": 2.7459418648546623,
	"grad_norm": 0.1956195345947546,
	"learning_rate": 1.7552634565570325e-06,
	"loss": 0.0984,
	"num_input_tokens_seen": 1536139280,
	"step": 6363
	},
	{
	"epoch": 2.7550018875047186,
	"grad_norm": 0.1948987852214273,
	"learning_rate": 1.6328011323364313e-06,
	"loss": 0.0996,
	"num_input_tokens_seen": 1541119392,
	"step": 6384
	},
	{
	"epoch": 2.7640619101547754,
	"grad_norm": 0.20220064200986687,
	"learning_rate": 1.5146958469825445e-06,
	"loss": 0.098,
	"num_input_tokens_seen": 1546172016,
	"step": 6405
	},
	{
	"epoch": 2.773121932804832,
	"grad_norm": 0.18253057622469138,
	"learning_rate": 1.4009582397163879e-06,
	"loss": 0.0979,
	"num_input_tokens_seen": 1551424800,
	"step": 6426
	},
	{
	"epoch": 2.7821819554548886,
	"grad_norm": 0.19954203330015002,
	"learning_rate": 1.2915985563075383e-06,
	"loss": 0.096,
	"num_input_tokens_seen": 1556510032,
	"step": 6447
	},
	{
	"epoch": 2.7912419781049453,
	"grad_norm": 0.18349734934457243,
	"learning_rate": 1.1866266481512234e-06,
	"loss": 0.0995,
	"num_input_tokens_seen": 1561425840,
	"step": 6468
	},
	{
	"epoch": 2.8003020007550017,
	"grad_norm": 0.19583118554915796,
	"learning_rate": 1.0860519713808082e-06,
	"loss": 0.0979,
	"num_input_tokens_seen": 1566437584,
	"step": 6489
	},
	{
	"epoch": 2.8093620234050585,
	"grad_norm": 0.21286644366673166,
	"learning_rate": 9.898835860160271e-07,
	"loss": 0.0944,
	"num_input_tokens_seen": 1571433728,
	"step": 6510
	},
	{
	"epoch": 2.8184220460551153,
	"grad_norm": 0.18549288153723123,
	"learning_rate": 8.981301551467924e-07,
	"loss": 0.0949,
	"num_input_tokens_seen": 1576510304,
	"step": 6531
	},
	{
	"epoch": 2.8274820687051716,
	"grad_norm": 0.1969304866148859,
	"learning_rate": 8.10799944152818e-07,
	"loss": 0.0959,
	"num_input_tokens_seen": 1581652480,
	"step": 6552
	},
	{
	"epoch": 2.8365420913552284,
	"grad_norm": 0.19621694587220775,
	"learning_rate": 7.279008199590543e-07,
	"loss": 0.0995,
	"num_input_tokens_seen": 1586710928,
	"step": 6573
	},
	{
	"epoch": 2.845602114005285,
	"grad_norm": 0.19626099410771614,
	"learning_rate": 6.494402503270158e-07,
	"loss": 0.0973,
	"num_input_tokens_seen": 1591751872,
	"step": 6594
	},
	{
	"epoch": 2.8546621366553415,
	"grad_norm": 0.17530668226038035,
	"learning_rate": 5.754253031820588e-07,
	"loss": 0.0992,
	"num_input_tokens_seen": 1596817344,
	"step": 6615
	},
	{
	"epoch": 2.8637221593053983,
	"grad_norm": 0.1962276487617284,
	"learning_rate": 5.058626459766902e-07,
	"loss": 0.0978,
	"num_input_tokens_seen": 1601955280,
	"step": 6636
	},
	{
	"epoch": 2.872782181955455,
	"grad_norm": 0.19661166968992774,
	"learning_rate": 4.407585450899587e-07,
	"loss": 0.0963,
	"num_input_tokens_seen": 1606977888,
	"step": 6657
	},
	{
	"epoch": 2.8818422046055114,
	"grad_norm": 0.1900385103617743,
	"learning_rate": 3.8011886526292395e-07,
	"loss": 0.0932,
	"num_input_tokens_seen": 1612137088,
	"step": 6678
	},
	{
	"epoch": 2.8909022272555682,
	"grad_norm": 0.19054833990071282,
	"learning_rate": 3.2394906907040056e-07,
	"loss": 0.098,
	"num_input_tokens_seen": 1617105760,
	"step": 6699
	},
	{
	"epoch": 2.8999622499056246,
	"grad_norm": 0.22982156321658473,
	"learning_rate": 2.7225421642883554e-07,
	"loss": 0.099,
	"num_input_tokens_seen": 1622079712,
	"step": 6720
	},
	{
	"epoch": 2.9090222725556814,
	"grad_norm": 0.20733117617880123,
	"learning_rate": 2.250389641405115e-07,
	"loss": 0.0974,
	"num_input_tokens_seen": 1627262208,
	"step": 6741
	},
	{
	"epoch": 2.918082295205738,
	"grad_norm": 0.2091535861816229,
	"learning_rate": 1.823075654740547e-07,
	"loss": 0.0995,
	"num_input_tokens_seen": 1632293744,
	"step": 6762
	},
	{
	"epoch": 2.9271423178557945,
	"grad_norm": 0.2010699924002249,
	"learning_rate": 1.4406386978128018e-07,
	"loss": 0.0955,
	"num_input_tokens_seen": 1637413856,
	"step": 6783
	},
	{
	"epoch": 2.9362023405058513,
	"grad_norm": 0.2039974530223662,
	"learning_rate": 1.1031132215043594e-07,
	"loss": 0.095,
	"num_input_tokens_seen": 1642376144,
	"step": 6804
	},
	{
	"epoch": 2.9452623631559076,
	"grad_norm": 0.1867785407127438,
	"learning_rate": 8.105296309586785e-08,
	"loss": 0.0995,
	"num_input_tokens_seen": 1647471008,
	"step": 6825
	},
	{
	"epoch": 2.9543223858059644,
	"grad_norm": 0.1873978173047584,
	"learning_rate": 5.629142828411094e-08,
	"loss": 0.0976,
	"num_input_tokens_seen": 1652489696,
	"step": 6846
	},
	{
	"epoch": 2.963382408456021,
	"grad_norm": 0.1977061377471765,
	"learning_rate": 3.602894829647374e-08,
	"loss": 0.0955,
	"num_input_tokens_seen": 1657488848,
	"step": 6867
	},
	{
	"epoch": 2.972442431106078,
	"grad_norm": 0.19200607060766933,
	"learning_rate": 2.0267348428087974e-08,
	"loss": 0.0979,
	"num_input_tokens_seen": 1662468816,
	"step": 6888
	},
	{
	"epoch": 2.9815024537561343,
	"grad_norm": 0.21184767679059754,
	"learning_rate": 9.008048523501122e-09,
	"loss": 0.0999,
	"num_input_tokens_seen": 1667627776,
	"step": 6909
	},
	{
	"epoch": 2.990562476406191,
	"grad_norm": 0.2003643238535032,
	"learning_rate": 2.252062848745462e-09,
	"loss": 0.099,
	"num_input_tokens_seen": 1672724048,
	"step": 6930
	},
	{
	"epoch": 2.9996224990562474,
	"grad_norm": 0.19768122036104033,
	"learning_rate": 0.0,
	"loss": 0.0971,
	"num_input_tokens_seen": 1677860944,
	"step": 6951
	},
	{
	"epoch": 2.9996224990562474,
	"num_input_tokens_seen": 1677860944,
	"step": 6951,
	"total_flos": 8545808136798208.0,
	"train_loss": 0.2019795169591595,
	"train_runtime": 178782.2648,
	"train_samples_per_second": 4.978,
	"train_steps_per_second": 0.039
	}
	],
	"logging_steps": 21,
	"max_steps": 6951,
	"num_input_tokens_seen": 1677860944,
	"num_train_epochs": 3,
	"save_steps": 5000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8545808136798208.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}