T5Large-8e5-8-checkpoint / trainer_state.json

Upload 12 files

ca08fcb verified about 1 year ago

35 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.4,
	"eval_steps": 12500,
	"global_step": 100000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.032,
	"grad_norm": 3.001525402069092,
	"learning_rate": 8e-05,
	"loss": 13.1617,
	"step": 500
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.5208349227905273,
	"learning_rate": 7.967871485943775e-05,
	"loss": 1.4028,
	"step": 1000
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.43057793378829956,
	"learning_rate": 7.93574297188755e-05,
	"loss": 1.0426,
	"step": 1500
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.53807532787323,
	"learning_rate": 7.903614457831325e-05,
	"loss": 0.8407,
	"step": 2000
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.7076811194419861,
	"learning_rate": 7.8714859437751e-05,
	"loss": 0.7035,
	"step": 2500
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.5321575999259949,
	"learning_rate": 7.839357429718876e-05,
	"loss": 0.4479,
	"step": 3000
	},
	{
	"epoch": 0.224,
	"grad_norm": 0.5099969506263733,
	"learning_rate": 7.807228915662652e-05,
	"loss": 0.4085,
	"step": 3500
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.3821808099746704,
	"learning_rate": 7.775100401606426e-05,
	"loss": 0.3811,
	"step": 4000
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.45157989859580994,
	"learning_rate": 7.742971887550202e-05,
	"loss": 0.3604,
	"step": 4500
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.3053194582462311,
	"learning_rate": 7.710843373493976e-05,
	"loss": 0.3442,
	"step": 5000
	},
	{
	"epoch": 0.352,
	"grad_norm": 0.45309627056121826,
	"learning_rate": 7.678714859437751e-05,
	"loss": 0.3308,
	"step": 5500
	},
	{
	"epoch": 0.384,
	"grad_norm": 0.40403613448143005,
	"learning_rate": 7.646586345381526e-05,
	"loss": 0.3254,
	"step": 6000
	},
	{
	"epoch": 0.416,
	"grad_norm": 0.32140398025512695,
	"learning_rate": 7.614457831325302e-05,
	"loss": 0.3142,
	"step": 6500
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.36259984970092773,
	"learning_rate": 7.582329317269078e-05,
	"loss": 0.304,
	"step": 7000
	},
	{
	"epoch": 0.48,
	"grad_norm": 27.76270294189453,
	"learning_rate": 7.550200803212852e-05,
	"loss": 0.7921,
	"step": 7500
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.35605108737945557,
	"learning_rate": 7.518072289156628e-05,
	"loss": 0.4819,
	"step": 8000
	},
	{
	"epoch": 0.544,
	"grad_norm": 0.29919707775115967,
	"learning_rate": 7.485943775100402e-05,
	"loss": 0.2955,
	"step": 8500
	},
	{
	"epoch": 0.576,
	"grad_norm": 0.27910181879997253,
	"learning_rate": 7.453815261044178e-05,
	"loss": 0.2891,
	"step": 9000
	},
	{
	"epoch": 0.608,
	"grad_norm": 0.3084375858306885,
	"learning_rate": 7.421686746987952e-05,
	"loss": 0.2839,
	"step": 9500
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.0127158164978027,
	"learning_rate": 7.389558232931728e-05,
	"loss": 0.2975,
	"step": 10000
	},
	{
	"epoch": 0.672,
	"grad_norm": 0.29704657196998596,
	"learning_rate": 7.357429718875502e-05,
	"loss": 0.2784,
	"step": 10500
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.26352909207344055,
	"learning_rate": 7.325301204819278e-05,
	"loss": 0.2722,
	"step": 11000
	},
	{
	"epoch": 0.736,
	"grad_norm": 0.3012610077857971,
	"learning_rate": 7.293172690763053e-05,
	"loss": 0.2671,
	"step": 11500
	},
	{
	"epoch": 0.768,
	"grad_norm": 239.10655212402344,
	"learning_rate": 7.261044176706828e-05,
	"loss": 0.268,
	"step": 12000
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.2739589214324951,
	"learning_rate": 7.228915662650603e-05,
	"loss": 0.2758,
	"step": 12500
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.1865103393793106,
	"eval_runtime": 13.4887,
	"eval_samples_per_second": 148.272,
	"eval_steps_per_second": 6.227,
	"step": 12500
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.3086440861225128,
	"learning_rate": 7.196787148594378e-05,
	"loss": 0.258,
	"step": 13000
	},
	{
	"epoch": 0.864,
	"grad_norm": 0.25051313638687134,
	"learning_rate": 7.164658634538153e-05,
	"loss": 0.255,
	"step": 13500
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.2483261674642563,
	"learning_rate": 7.132530120481928e-05,
	"loss": 0.2505,
	"step": 14000
	},
	{
	"epoch": 0.928,
	"grad_norm": 0.2732410728931427,
	"learning_rate": 7.100401606425703e-05,
	"loss": 0.2456,
	"step": 14500
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.2605254054069519,
	"learning_rate": 7.068273092369479e-05,
	"loss": 0.2487,
	"step": 15000
	},
	{
	"epoch": 0.992,
	"grad_norm": 0.294114887714386,
	"learning_rate": 7.036144578313253e-05,
	"loss": 0.2448,
	"step": 15500
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.27836671471595764,
	"learning_rate": 7.004016064257029e-05,
	"loss": 0.2342,
	"step": 16000
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.2619302272796631,
	"learning_rate": 6.971887550200803e-05,
	"loss": 0.2282,
	"step": 16500
	},
	{
	"epoch": 1.088,
	"grad_norm": 0.2845689058303833,
	"learning_rate": 6.939759036144579e-05,
	"loss": 0.2254,
	"step": 17000
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.3349343538284302,
	"learning_rate": 6.907630522088353e-05,
	"loss": 0.2226,
	"step": 17500
	},
	{
	"epoch": 1.152,
	"grad_norm": 0.293632835149765,
	"learning_rate": 6.875502008032129e-05,
	"loss": 0.2195,
	"step": 18000
	},
	{
	"epoch": 1.184,
	"grad_norm": 0.2546076476573944,
	"learning_rate": 6.843373493975903e-05,
	"loss": 0.2212,
	"step": 18500
	},
	{
	"epoch": 1.216,
	"grad_norm": 0.25859034061431885,
	"learning_rate": 6.811244979919679e-05,
	"loss": 0.2197,
	"step": 19000
	},
	{
	"epoch": 1.248,
	"grad_norm": 0.25642773509025574,
	"learning_rate": 6.779116465863455e-05,
	"loss": 0.2167,
	"step": 19500
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.25777679681777954,
	"learning_rate": 6.74698795180723e-05,
	"loss": 0.2171,
	"step": 20000
	},
	{
	"epoch": 1.312,
	"grad_norm": 0.28767868876457214,
	"learning_rate": 6.714859437751005e-05,
	"loss": 0.2122,
	"step": 20500
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 0.24645094573497772,
	"learning_rate": 6.682730923694779e-05,
	"loss": 0.2121,
	"step": 21000
	},
	{
	"epoch": 1.376,
	"grad_norm": 0.27973559498786926,
	"learning_rate": 6.650602409638555e-05,
	"loss": 0.209,
	"step": 21500
	},
	{
	"epoch": 1.408,
	"grad_norm": 0.2312808781862259,
	"learning_rate": 6.618473895582329e-05,
	"loss": 0.207,
	"step": 22000
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.32198190689086914,
	"learning_rate": 6.586345381526105e-05,
	"loss": 0.2062,
	"step": 22500
	},
	{
	"epoch": 1.472,
	"grad_norm": 0.26178357005119324,
	"learning_rate": 6.55421686746988e-05,
	"loss": 0.2054,
	"step": 23000
	},
	{
	"epoch": 1.504,
	"grad_norm": 0.2309255599975586,
	"learning_rate": 6.522088353413655e-05,
	"loss": 0.2029,
	"step": 23500
	},
	{
	"epoch": 1.536,
	"grad_norm": 0.22608640789985657,
	"learning_rate": 6.48995983935743e-05,
	"loss": 0.2038,
	"step": 24000
	},
	{
	"epoch": 1.568,
	"grad_norm": 0.20961375534534454,
	"learning_rate": 6.457831325301206e-05,
	"loss": 0.2016,
	"step": 24500
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.1852613389492035,
	"learning_rate": 6.42570281124498e-05,
	"loss": 0.2003,
	"step": 25000
	},
	{
	"epoch": 1.6,
	"eval_loss": 0.13480305671691895,
	"eval_runtime": 13.4963,
	"eval_samples_per_second": 148.189,
	"eval_steps_per_second": 6.224,
	"step": 25000
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 0.25356176495552063,
	"learning_rate": 6.393574297188755e-05,
	"loss": 0.1991,
	"step": 25500
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 0.23418042063713074,
	"learning_rate": 6.36144578313253e-05,
	"loss": 0.1993,
	"step": 26000
	},
	{
	"epoch": 1.696,
	"grad_norm": 0.4756409823894501,
	"learning_rate": 6.329317269076305e-05,
	"loss": 0.1962,
	"step": 26500
	},
	{
	"epoch": 1.728,
	"grad_norm": 0.31074902415275574,
	"learning_rate": 6.29718875502008e-05,
	"loss": 0.1946,
	"step": 27000
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.2518517076969147,
	"learning_rate": 6.265060240963856e-05,
	"loss": 0.1936,
	"step": 27500
	},
	{
	"epoch": 1.792,
	"grad_norm": 0.23294122517108917,
	"learning_rate": 6.232931726907632e-05,
	"loss": 0.1931,
	"step": 28000
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 0.30960217118263245,
	"learning_rate": 6.200803212851406e-05,
	"loss": 0.1916,
	"step": 28500
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 0.2612380385398865,
	"learning_rate": 6.168674698795182e-05,
	"loss": 0.1941,
	"step": 29000
	},
	{
	"epoch": 1.888,
	"grad_norm": 0.23748044669628143,
	"learning_rate": 6.136546184738956e-05,
	"loss": 0.1912,
	"step": 29500
	},
	{
	"epoch": 1.92,
	"grad_norm": 0.21203479170799255,
	"learning_rate": 6.104417670682732e-05,
	"loss": 0.1905,
	"step": 30000
	},
	{
	"epoch": 1.952,
	"grad_norm": 0.23570066690444946,
	"learning_rate": 6.072289156626506e-05,
	"loss": 0.1882,
	"step": 30500
	},
	{
	"epoch": 1.984,
	"grad_norm": 0.24766422808170319,
	"learning_rate": 6.040160642570281e-05,
	"loss": 0.1908,
	"step": 31000
	},
	{
	"epoch": 2.016,
	"grad_norm": 0.21270865201950073,
	"learning_rate": 6.008032128514057e-05,
	"loss": 0.1835,
	"step": 31500
	},
	{
	"epoch": 2.048,
	"grad_norm": 0.2123081386089325,
	"learning_rate": 5.975903614457831e-05,
	"loss": 0.1765,
	"step": 32000
	},
	{
	"epoch": 2.08,
	"grad_norm": 0.3412201404571533,
	"learning_rate": 5.943775100401607e-05,
	"loss": 0.1931,
	"step": 32500
	},
	{
	"epoch": 2.112,
	"grad_norm": 0.2280445396900177,
	"learning_rate": 5.911646586345382e-05,
	"loss": 0.1893,
	"step": 33000
	},
	{
	"epoch": 2.144,
	"grad_norm": 0.2307668924331665,
	"learning_rate": 5.8795180722891576e-05,
	"loss": 0.1826,
	"step": 33500
	},
	{
	"epoch": 2.176,
	"grad_norm": 0.22051069140434265,
	"learning_rate": 5.847389558232932e-05,
	"loss": 0.1751,
	"step": 34000
	},
	{
	"epoch": 2.208,
	"grad_norm": 0.28806522488594055,
	"learning_rate": 5.8152610441767076e-05,
	"loss": 0.1771,
	"step": 34500
	},
	{
	"epoch": 2.24,
	"grad_norm": 0.19143815338611603,
	"learning_rate": 5.7831325301204826e-05,
	"loss": 0.1774,
	"step": 35000
	},
	{
	"epoch": 2.2720000000000002,
	"grad_norm": 0.2986365556716919,
	"learning_rate": 5.751004016064257e-05,
	"loss": 0.1752,
	"step": 35500
	},
	{
	"epoch": 2.304,
	"grad_norm": 0.19981278479099274,
	"learning_rate": 5.7188755020080326e-05,
	"loss": 0.1756,
	"step": 36000
	},
	{
	"epoch": 2.336,
	"grad_norm": 0.2546658515930176,
	"learning_rate": 5.6867469879518076e-05,
	"loss": 0.1741,
	"step": 36500
	},
	{
	"epoch": 2.368,
	"grad_norm": 0.1719229370355606,
	"learning_rate": 5.6546184738955826e-05,
	"loss": 0.174,
	"step": 37000
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.22920982539653778,
	"learning_rate": 5.6224899598393576e-05,
	"loss": 0.1707,
	"step": 37500
	},
	{
	"epoch": 2.4,
	"eval_loss": 0.11245977133512497,
	"eval_runtime": 13.3722,
	"eval_samples_per_second": 149.565,
	"eval_steps_per_second": 6.282,
	"step": 37500
	},
	{
	"epoch": 2.432,
	"grad_norm": 0.22950303554534912,
	"learning_rate": 5.590361445783133e-05,
	"loss": 0.1715,
	"step": 38000
	},
	{
	"epoch": 2.464,
	"grad_norm": 0.19281500577926636,
	"learning_rate": 5.5582329317269076e-05,
	"loss": 0.1719,
	"step": 38500
	},
	{
	"epoch": 2.496,
	"grad_norm": 0.3043808043003082,
	"learning_rate": 5.526104417670683e-05,
	"loss": 0.1709,
	"step": 39000
	},
	{
	"epoch": 2.528,
	"grad_norm": 0.2020847350358963,
	"learning_rate": 5.493975903614458e-05,
	"loss": 0.1687,
	"step": 39500
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.2701270878314972,
	"learning_rate": 5.461847389558234e-05,
	"loss": 0.1689,
	"step": 40000
	},
	{
	"epoch": 2.592,
	"grad_norm": 0.20151746273040771,
	"learning_rate": 5.429718875502008e-05,
	"loss": 0.1703,
	"step": 40500
	},
	{
	"epoch": 2.624,
	"grad_norm": 0.28613436222076416,
	"learning_rate": 5.397590361445783e-05,
	"loss": 0.1668,
	"step": 41000
	},
	{
	"epoch": 2.656,
	"grad_norm": 0.24828064441680908,
	"learning_rate": 5.365461847389559e-05,
	"loss": 0.1671,
	"step": 41500
	},
	{
	"epoch": 2.6879999999999997,
	"grad_norm": 0.2424352616071701,
	"learning_rate": 5.333333333333333e-05,
	"loss": 0.1678,
	"step": 42000
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 0.1992502510547638,
	"learning_rate": 5.301204819277109e-05,
	"loss": 0.165,
	"step": 42500
	},
	{
	"epoch": 2.752,
	"grad_norm": 0.19437122344970703,
	"learning_rate": 5.269076305220884e-05,
	"loss": 0.1658,
	"step": 43000
	},
	{
	"epoch": 2.784,
	"grad_norm": 0.2736295461654663,
	"learning_rate": 5.23694779116466e-05,
	"loss": 0.165,
	"step": 43500
	},
	{
	"epoch": 2.816,
	"grad_norm": 0.20108367502689362,
	"learning_rate": 5.204819277108434e-05,
	"loss": 0.1661,
	"step": 44000
	},
	{
	"epoch": 2.848,
	"grad_norm": 0.17667348682880402,
	"learning_rate": 5.17269076305221e-05,
	"loss": 0.163,
	"step": 44500
	},
	{
	"epoch": 2.88,
	"grad_norm": 0.24210619926452637,
	"learning_rate": 5.140562248995984e-05,
	"loss": 0.1634,
	"step": 45000
	},
	{
	"epoch": 2.912,
	"grad_norm": 0.2011321634054184,
	"learning_rate": 5.108433734939759e-05,
	"loss": 0.1634,
	"step": 45500
	},
	{
	"epoch": 2.944,
	"grad_norm": 0.1979280710220337,
	"learning_rate": 5.076305220883535e-05,
	"loss": 0.162,
	"step": 46000
	},
	{
	"epoch": 2.976,
	"grad_norm": 0.23149700462818146,
	"learning_rate": 5.044176706827309e-05,
	"loss": 0.1605,
	"step": 46500
	},
	{
	"epoch": 3.008,
	"grad_norm": 0.1558334231376648,
	"learning_rate": 5.012048192771085e-05,
	"loss": 0.1575,
	"step": 47000
	},
	{
	"epoch": 3.04,
	"grad_norm": 0.251295268535614,
	"learning_rate": 4.97991967871486e-05,
	"loss": 0.1518,
	"step": 47500
	},
	{
	"epoch": 3.072,
	"grad_norm": 0.1870911866426468,
	"learning_rate": 4.9477911646586354e-05,
	"loss": 0.151,
	"step": 48000
	},
	{
	"epoch": 3.104,
	"grad_norm": 0.19055207073688507,
	"learning_rate": 4.91566265060241e-05,
	"loss": 0.1506,
	"step": 48500
	},
	{
	"epoch": 3.136,
	"grad_norm": 0.19039425253868103,
	"learning_rate": 4.8835341365461854e-05,
	"loss": 0.1502,
	"step": 49000
	},
	{
	"epoch": 3.168,
	"grad_norm": 0.2273644655942917,
	"learning_rate": 4.8514056224899604e-05,
	"loss": 0.1515,
	"step": 49500
	},
	{
	"epoch": 3.2,
	"grad_norm": 0.20844458043575287,
	"learning_rate": 4.819277108433736e-05,
	"loss": 0.15,
	"step": 50000
	},
	{
	"epoch": 3.2,
	"eval_loss": 0.09431243687868118,
	"eval_runtime": 13.3841,
	"eval_samples_per_second": 149.431,
	"eval_steps_per_second": 6.276,
	"step": 50000
	},
	{
	"epoch": 3.232,
	"grad_norm": 0.21888093650341034,
	"learning_rate": 4.7871485943775104e-05,
	"loss": 0.1514,
	"step": 50500
	},
	{
	"epoch": 3.2640000000000002,
	"grad_norm": 0.1797676682472229,
	"learning_rate": 4.7550200803212854e-05,
	"loss": 0.1505,
	"step": 51000
	},
	{
	"epoch": 3.296,
	"grad_norm": 0.17472127079963684,
	"learning_rate": 4.7228915662650604e-05,
	"loss": 0.15,
	"step": 51500
	},
	{
	"epoch": 3.328,
	"grad_norm": 0.1877003014087677,
	"learning_rate": 4.6907630522088354e-05,
	"loss": 0.1501,
	"step": 52000
	},
	{
	"epoch": 3.36,
	"grad_norm": 0.2039192020893097,
	"learning_rate": 4.658634538152611e-05,
	"loss": 0.1509,
	"step": 52500
	},
	{
	"epoch": 3.392,
	"grad_norm": 0.19264955818653107,
	"learning_rate": 4.6265060240963854e-05,
	"loss": 0.147,
	"step": 53000
	},
	{
	"epoch": 3.424,
	"grad_norm": 0.2461443841457367,
	"learning_rate": 4.594377510040161e-05,
	"loss": 0.1473,
	"step": 53500
	},
	{
	"epoch": 3.456,
	"grad_norm": 0.245579794049263,
	"learning_rate": 4.562248995983936e-05,
	"loss": 0.148,
	"step": 54000
	},
	{
	"epoch": 3.488,
	"grad_norm": 0.2419605553150177,
	"learning_rate": 4.530120481927712e-05,
	"loss": 0.1483,
	"step": 54500
	},
	{
	"epoch": 3.52,
	"grad_norm": 0.21280065178871155,
	"learning_rate": 4.497991967871486e-05,
	"loss": 0.1465,
	"step": 55000
	},
	{
	"epoch": 3.552,
	"grad_norm": 0.19970615208148956,
	"learning_rate": 4.465863453815261e-05,
	"loss": 0.1479,
	"step": 55500
	},
	{
	"epoch": 3.584,
	"grad_norm": 0.178068608045578,
	"learning_rate": 4.433734939759037e-05,
	"loss": 0.1469,
	"step": 56000
	},
	{
	"epoch": 3.616,
	"grad_norm": 0.2007550597190857,
	"learning_rate": 4.401606425702811e-05,
	"loss": 0.1484,
	"step": 56500
	},
	{
	"epoch": 3.648,
	"grad_norm": 0.2703693211078644,
	"learning_rate": 4.369477911646587e-05,
	"loss": 0.1461,
	"step": 57000
	},
	{
	"epoch": 3.68,
	"grad_norm": 0.18838930130004883,
	"learning_rate": 4.337349397590362e-05,
	"loss": 0.1467,
	"step": 57500
	},
	{
	"epoch": 3.7119999999999997,
	"grad_norm": 0.22705510258674622,
	"learning_rate": 4.3052208835341375e-05,
	"loss": 0.1471,
	"step": 58000
	},
	{
	"epoch": 3.7439999999999998,
	"grad_norm": 0.18866540491580963,
	"learning_rate": 4.273092369477912e-05,
	"loss": 0.1464,
	"step": 58500
	},
	{
	"epoch": 3.776,
	"grad_norm": 0.16808009147644043,
	"learning_rate": 4.2409638554216875e-05,
	"loss": 0.1469,
	"step": 59000
	},
	{
	"epoch": 3.808,
	"grad_norm": 0.20790338516235352,
	"learning_rate": 4.208835341365462e-05,
	"loss": 0.1455,
	"step": 59500
	},
	{
	"epoch": 3.84,
	"grad_norm": 0.20283524692058563,
	"learning_rate": 4.1767068273092375e-05,
	"loss": 0.1453,
	"step": 60000
	},
	{
	"epoch": 3.872,
	"grad_norm": 0.18522211909294128,
	"learning_rate": 4.1445783132530125e-05,
	"loss": 0.1449,
	"step": 60500
	},
	{
	"epoch": 3.904,
	"grad_norm": 0.2298567146062851,
	"learning_rate": 4.112449799196787e-05,
	"loss": 0.1442,
	"step": 61000
	},
	{
	"epoch": 3.936,
	"grad_norm": 0.23237478733062744,
	"learning_rate": 4.0803212851405625e-05,
	"loss": 0.1445,
	"step": 61500
	},
	{
	"epoch": 3.968,
	"grad_norm": 0.18708902597427368,
	"learning_rate": 4.0481927710843375e-05,
	"loss": 0.1436,
	"step": 62000
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.2235335260629654,
	"learning_rate": 4.016064257028113e-05,
	"loss": 0.145,
	"step": 62500
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.08151204138994217,
	"eval_runtime": 13.1737,
	"eval_samples_per_second": 151.818,
	"eval_steps_per_second": 6.376,
	"step": 62500
	},
	{
	"epoch": 4.032,
	"grad_norm": 0.27586033940315247,
	"learning_rate": 3.9839357429718875e-05,
	"loss": 0.1361,
	"step": 63000
	},
	{
	"epoch": 4.064,
	"grad_norm": 0.20399342477321625,
	"learning_rate": 3.9518072289156625e-05,
	"loss": 0.1359,
	"step": 63500
	},
	{
	"epoch": 4.096,
	"grad_norm": 0.2167077660560608,
	"learning_rate": 3.919678714859438e-05,
	"loss": 0.1349,
	"step": 64000
	},
	{
	"epoch": 4.128,
	"grad_norm": 0.2217278927564621,
	"learning_rate": 3.887550200803213e-05,
	"loss": 0.1343,
	"step": 64500
	},
	{
	"epoch": 4.16,
	"grad_norm": 0.17411163449287415,
	"learning_rate": 3.855421686746988e-05,
	"loss": 0.1353,
	"step": 65000
	},
	{
	"epoch": 4.192,
	"grad_norm": 0.2262706607580185,
	"learning_rate": 3.823293172690763e-05,
	"loss": 0.1355,
	"step": 65500
	},
	{
	"epoch": 4.224,
	"grad_norm": 0.21051813662052155,
	"learning_rate": 3.791164658634539e-05,
	"loss": 0.1351,
	"step": 66000
	},
	{
	"epoch": 4.256,
	"grad_norm": 0.2202002853155136,
	"learning_rate": 3.759036144578314e-05,
	"loss": 0.1362,
	"step": 66500
	},
	{
	"epoch": 4.288,
	"grad_norm": 0.1532248854637146,
	"learning_rate": 3.726907630522089e-05,
	"loss": 0.1338,
	"step": 67000
	},
	{
	"epoch": 4.32,
	"grad_norm": 0.25249359011650085,
	"learning_rate": 3.694779116465864e-05,
	"loss": 0.1334,
	"step": 67500
	},
	{
	"epoch": 4.352,
	"grad_norm": 0.2392909973859787,
	"learning_rate": 3.662650602409639e-05,
	"loss": 0.1354,
	"step": 68000
	},
	{
	"epoch": 4.384,
	"grad_norm": 0.3180345892906189,
	"learning_rate": 3.630522088353414e-05,
	"loss": 0.1353,
	"step": 68500
	},
	{
	"epoch": 4.416,
	"grad_norm": 0.27343523502349854,
	"learning_rate": 3.598393574297189e-05,
	"loss": 0.1354,
	"step": 69000
	},
	{
	"epoch": 4.448,
	"grad_norm": 0.17806372046470642,
	"learning_rate": 3.566265060240964e-05,
	"loss": 0.1351,
	"step": 69500
	},
	{
	"epoch": 4.48,
	"grad_norm": 0.17694541811943054,
	"learning_rate": 3.5341365461847396e-05,
	"loss": 0.135,
	"step": 70000
	},
	{
	"epoch": 4.5120000000000005,
	"grad_norm": 0.1796264797449112,
	"learning_rate": 3.5020080321285146e-05,
	"loss": 0.1326,
	"step": 70500
	},
	{
	"epoch": 4.5440000000000005,
	"grad_norm": 0.16896295547485352,
	"learning_rate": 3.4698795180722896e-05,
	"loss": 0.1327,
	"step": 71000
	},
	{
	"epoch": 4.576,
	"grad_norm": 0.16427506506443024,
	"learning_rate": 3.4377510040160646e-05,
	"loss": 0.1341,
	"step": 71500
	},
	{
	"epoch": 4.608,
	"grad_norm": 0.15947696566581726,
	"learning_rate": 3.4056224899598396e-05,
	"loss": 0.1336,
	"step": 72000
	},
	{
	"epoch": 4.64,
	"grad_norm": 0.24063943326473236,
	"learning_rate": 3.373493975903615e-05,
	"loss": 0.1326,
	"step": 72500
	},
	{
	"epoch": 4.672,
	"grad_norm": 0.2784833610057831,
	"learning_rate": 3.3413654618473896e-05,
	"loss": 0.1313,
	"step": 73000
	},
	{
	"epoch": 4.704,
	"grad_norm": 0.1624738872051239,
	"learning_rate": 3.3092369477911646e-05,
	"loss": 0.1343,
	"step": 73500
	},
	{
	"epoch": 4.736,
	"grad_norm": 0.163747176527977,
	"learning_rate": 3.27710843373494e-05,
	"loss": 0.1332,
	"step": 74000
	},
	{
	"epoch": 4.768,
	"grad_norm": 0.19286634027957916,
	"learning_rate": 3.244979919678715e-05,
	"loss": 0.1314,
	"step": 74500
	},
	{
	"epoch": 4.8,
	"grad_norm": 0.2070024311542511,
	"learning_rate": 3.21285140562249e-05,
	"loss": 0.1323,
	"step": 75000
	},
	{
	"epoch": 4.8,
	"eval_loss": 0.07321055233478546,
	"eval_runtime": 13.3287,
	"eval_samples_per_second": 150.052,
	"eval_steps_per_second": 6.302,
	"step": 75000
	},
	{
	"epoch": 4.832,
	"grad_norm": 0.25665566325187683,
	"learning_rate": 3.180722891566265e-05,
	"loss": 0.133,
	"step": 75500
	},
	{
	"epoch": 4.864,
	"grad_norm": 0.18933174014091492,
	"learning_rate": 3.14859437751004e-05,
	"loss": 0.1334,
	"step": 76000
	},
	{
	"epoch": 4.896,
	"grad_norm": 0.20106372237205505,
	"learning_rate": 3.116465863453816e-05,
	"loss": 0.1318,
	"step": 76500
	},
	{
	"epoch": 4.928,
	"grad_norm": 0.23300665616989136,
	"learning_rate": 3.084337349397591e-05,
	"loss": 0.1314,
	"step": 77000
	},
	{
	"epoch": 4.96,
	"grad_norm": 0.2776864171028137,
	"learning_rate": 3.052208835341366e-05,
	"loss": 0.1307,
	"step": 77500
	},
	{
	"epoch": 4.992,
	"grad_norm": 0.17158937454223633,
	"learning_rate": 3.0200803212851406e-05,
	"loss": 0.1328,
	"step": 78000
	},
	{
	"epoch": 5.024,
	"grad_norm": 0.19341541826725006,
	"learning_rate": 2.9879518072289156e-05,
	"loss": 0.1255,
	"step": 78500
	},
	{
	"epoch": 5.056,
	"grad_norm": 0.1820104718208313,
	"learning_rate": 2.955823293172691e-05,
	"loss": 0.1239,
	"step": 79000
	},
	{
	"epoch": 5.088,
	"grad_norm": 0.19204023480415344,
	"learning_rate": 2.923694779116466e-05,
	"loss": 0.1251,
	"step": 79500
	},
	{
	"epoch": 5.12,
	"grad_norm": 0.20374265313148499,
	"learning_rate": 2.8915662650602413e-05,
	"loss": 0.1238,
	"step": 80000
	},
	{
	"epoch": 5.152,
	"grad_norm": 0.17607811093330383,
	"learning_rate": 2.8594377510040163e-05,
	"loss": 0.1242,
	"step": 80500
	},
	{
	"epoch": 5.184,
	"grad_norm": 0.18394358456134796,
	"learning_rate": 2.8273092369477913e-05,
	"loss": 0.1246,
	"step": 81000
	},
	{
	"epoch": 5.216,
	"grad_norm": 0.1720678061246872,
	"learning_rate": 2.7951807228915666e-05,
	"loss": 0.1234,
	"step": 81500
	},
	{
	"epoch": 5.248,
	"grad_norm": 0.1649816781282425,
	"learning_rate": 2.7630522088353417e-05,
	"loss": 0.1246,
	"step": 82000
	},
	{
	"epoch": 5.28,
	"grad_norm": 0.24089868366718292,
	"learning_rate": 2.730923694779117e-05,
	"loss": 0.1236,
	"step": 82500
	},
	{
	"epoch": 5.312,
	"grad_norm": 0.16703809797763824,
	"learning_rate": 2.6987951807228917e-05,
	"loss": 0.1235,
	"step": 83000
	},
	{
	"epoch": 5.344,
	"grad_norm": 0.2375577837228775,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 0.1255,
	"step": 83500
	},
	{
	"epoch": 5.376,
	"grad_norm": 0.20844422280788422,
	"learning_rate": 2.634538152610442e-05,
	"loss": 0.124,
	"step": 84000
	},
	{
	"epoch": 5.408,
	"grad_norm": 0.15090999007225037,
	"learning_rate": 2.602409638554217e-05,
	"loss": 0.1236,
	"step": 84500
	},
	{
	"epoch": 5.44,
	"grad_norm": 0.1982196420431137,
	"learning_rate": 2.570281124497992e-05,
	"loss": 0.1234,
	"step": 85000
	},
	{
	"epoch": 5.4719999999999995,
	"grad_norm": 0.20548874139785767,
	"learning_rate": 2.5381526104417673e-05,
	"loss": 0.1237,
	"step": 85500
	},
	{
	"epoch": 5.504,
	"grad_norm": 0.1553628295660019,
	"learning_rate": 2.5060240963855423e-05,
	"loss": 0.1241,
	"step": 86000
	},
	{
	"epoch": 5.536,
	"grad_norm": 0.20827996730804443,
	"learning_rate": 2.4738955823293177e-05,
	"loss": 0.1236,
	"step": 86500
	},
	{
	"epoch": 5.568,
	"grad_norm": 0.26525431871414185,
	"learning_rate": 2.4417670682730927e-05,
	"loss": 0.1244,
	"step": 87000
	},
	{
	"epoch": 5.6,
	"grad_norm": 0.16824448108673096,
	"learning_rate": 2.409638554216868e-05,
	"loss": 0.124,
	"step": 87500
	},
	{
	"epoch": 5.6,
	"eval_loss": 0.06600421667098999,
	"eval_runtime": 13.2001,
	"eval_samples_per_second": 151.514,
	"eval_steps_per_second": 6.364,
	"step": 87500
	},
	{
	"epoch": 5.632,
	"grad_norm": 0.19588659703731537,
	"learning_rate": 2.3775100401606427e-05,
	"loss": 0.1239,
	"step": 88000
	},
	{
	"epoch": 5.664,
	"grad_norm": 0.20829927921295166,
	"learning_rate": 2.3453815261044177e-05,
	"loss": 0.1236,
	"step": 88500
	},
	{
	"epoch": 5.696,
	"grad_norm": 0.17067208886146545,
	"learning_rate": 2.3132530120481927e-05,
	"loss": 0.1246,
	"step": 89000
	},
	{
	"epoch": 5.728,
	"grad_norm": 0.17796407639980316,
	"learning_rate": 2.281124497991968e-05,
	"loss": 0.123,
	"step": 89500
	},
	{
	"epoch": 5.76,
	"grad_norm": 0.17811580002307892,
	"learning_rate": 2.248995983935743e-05,
	"loss": 0.1247,
	"step": 90000
	},
	{
	"epoch": 5.792,
	"grad_norm": 0.16586844623088837,
	"learning_rate": 2.2168674698795184e-05,
	"loss": 0.1226,
	"step": 90500
	},
	{
	"epoch": 5.824,
	"grad_norm": 0.16634885966777802,
	"learning_rate": 2.1847389558232934e-05,
	"loss": 0.1239,
	"step": 91000
	},
	{
	"epoch": 5.856,
	"grad_norm": 0.1891159564256668,
	"learning_rate": 2.1526104417670687e-05,
	"loss": 0.1234,
	"step": 91500
	},
	{
	"epoch": 5.888,
	"grad_norm": 0.2127494215965271,
	"learning_rate": 2.1204819277108437e-05,
	"loss": 0.1227,
	"step": 92000
	},
	{
	"epoch": 5.92,
	"grad_norm": 0.15109600126743317,
	"learning_rate": 2.0883534136546187e-05,
	"loss": 0.1218,
	"step": 92500
	},
	{
	"epoch": 5.952,
	"grad_norm": 0.14382487535476685,
	"learning_rate": 2.0562248995983934e-05,
	"loss": 0.1216,
	"step": 93000
	},
	{
	"epoch": 5.984,
	"grad_norm": 0.2122729867696762,
	"learning_rate": 2.0240963855421687e-05,
	"loss": 0.1248,
	"step": 93500
	},
	{
	"epoch": 6.016,
	"grad_norm": 0.19725599884986877,
	"learning_rate": 1.9919678714859437e-05,
	"loss": 0.12,
	"step": 94000
	},
	{
	"epoch": 6.048,
	"grad_norm": 0.18302911520004272,
	"learning_rate": 1.959839357429719e-05,
	"loss": 0.1174,
	"step": 94500
	},
	{
	"epoch": 6.08,
	"grad_norm": 0.19952338933944702,
	"learning_rate": 1.927710843373494e-05,
	"loss": 0.1176,
	"step": 95000
	},
	{
	"epoch": 6.112,
	"grad_norm": 0.16824807226657867,
	"learning_rate": 1.8955823293172694e-05,
	"loss": 0.1174,
	"step": 95500
	},
	{
	"epoch": 6.144,
	"grad_norm": 0.22110256552696228,
	"learning_rate": 1.8634538152610444e-05,
	"loss": 0.1172,
	"step": 96000
	},
	{
	"epoch": 6.176,
	"grad_norm": 0.20097705721855164,
	"learning_rate": 1.8313253012048194e-05,
	"loss": 0.1171,
	"step": 96500
	},
	{
	"epoch": 6.208,
	"grad_norm": 0.1569439023733139,
	"learning_rate": 1.7991967871485944e-05,
	"loss": 0.1177,
	"step": 97000
	},
	{
	"epoch": 6.24,
	"grad_norm": 0.1618974804878235,
	"learning_rate": 1.7670682730923698e-05,
	"loss": 0.1169,
	"step": 97500
	},
	{
	"epoch": 6.272,
	"grad_norm": 0.2146083265542984,
	"learning_rate": 1.7349397590361448e-05,
	"loss": 0.1172,
	"step": 98000
	},
	{
	"epoch": 6.304,
	"grad_norm": 0.16460789740085602,
	"learning_rate": 1.7028112449799198e-05,
	"loss": 0.1166,
	"step": 98500
	},
	{
	"epoch": 6.336,
	"grad_norm": 0.20428918302059174,
	"learning_rate": 1.6706827309236948e-05,
	"loss": 0.1177,
	"step": 99000
	},
	{
	"epoch": 6.368,
	"grad_norm": 0.1996203064918518,
	"learning_rate": 1.63855421686747e-05,
	"loss": 0.1172,
	"step": 99500
	},
	{
	"epoch": 6.4,
	"grad_norm": 0.22684213519096375,
	"learning_rate": 1.606425702811245e-05,
	"loss": 0.118,
	"step": 100000
	},
	{
	"epoch": 6.4,
	"eval_loss": 0.061658285558223724,
	"eval_runtime": 13.1578,
	"eval_samples_per_second": 152.001,
	"eval_steps_per_second": 6.384,
	"step": 100000
	}
	],
	"logging_steps": 500,
	"max_steps": 125000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 12500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 6.459712365560463e+18,
	"train_batch_size": 24,
	"trial_name": null,
	"trial_params": null
	}