manchuBERT / trainer_state.json

Rename checkpoint/trainer_state.json to trainer_state.json

55ddb41 verified almost 2 years ago

70 kB

	{
	"best_metric": 2.4363410472869873,
	"best_model_checkpoint": "/home/seemdog/manchu_BERT/1002_BERT_DA_1.0/checkpoint-86000",
	"epoch": 9.964620917517031,
	"global_step": 213000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05,
	"learning_rate": 4.9766081871345035e-05,
	"loss": 6.1581,
	"step": 1000
	},
	{
	"epoch": 0.05,
	"eval_loss": 5.5598931312561035,
	"eval_runtime": 54.891,
	"eval_samples_per_second": 120.767,
	"eval_steps_per_second": 1.895,
	"step": 1000
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.953216374269006e-05,
	"loss": 5.3713,
	"step": 2000
	},
	{
	"epoch": 0.09,
	"eval_loss": 4.843267440795898,
	"eval_runtime": 54.8945,
	"eval_samples_per_second": 120.759,
	"eval_steps_per_second": 1.895,
	"step": 2000
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.9298245614035086e-05,
	"loss": 4.7624,
	"step": 3000
	},
	{
	"epoch": 0.14,
	"eval_loss": 4.427705764770508,
	"eval_runtime": 54.9095,
	"eval_samples_per_second": 120.726,
	"eval_steps_per_second": 1.894,
	"step": 3000
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.906432748538012e-05,
	"loss": 4.2884,
	"step": 4000
	},
	{
	"epoch": 0.19,
	"eval_loss": 4.152446746826172,
	"eval_runtime": 54.9536,
	"eval_samples_per_second": 120.629,
	"eval_steps_per_second": 1.893,
	"step": 4000
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.883040935672515e-05,
	"loss": 3.908,
	"step": 5000
	},
	{
	"epoch": 0.23,
	"eval_loss": 3.943004608154297,
	"eval_runtime": 54.9769,
	"eval_samples_per_second": 120.578,
	"eval_steps_per_second": 1.892,
	"step": 5000
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.859649122807018e-05,
	"loss": 3.6357,
	"step": 6000
	},
	{
	"epoch": 0.28,
	"eval_loss": 3.7840378284454346,
	"eval_runtime": 54.9612,
	"eval_samples_per_second": 120.612,
	"eval_steps_per_second": 1.892,
	"step": 6000
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.836257309941521e-05,
	"loss": 3.442,
	"step": 7000
	},
	{
	"epoch": 0.33,
	"eval_loss": 3.6515119075775146,
	"eval_runtime": 55.0182,
	"eval_samples_per_second": 120.487,
	"eval_steps_per_second": 1.89,
	"step": 7000
	},
	{
	"epoch": 0.37,
	"learning_rate": 4.8128654970760235e-05,
	"loss": 3.2982,
	"step": 8000
	},
	{
	"epoch": 0.37,
	"eval_loss": 3.5147831439971924,
	"eval_runtime": 54.9459,
	"eval_samples_per_second": 120.646,
	"eval_steps_per_second": 1.893,
	"step": 8000
	},
	{
	"epoch": 0.42,
	"learning_rate": 4.789473684210526e-05,
	"loss": 3.1681,
	"step": 9000
	},
	{
	"epoch": 0.42,
	"eval_loss": 3.4453866481781006,
	"eval_runtime": 54.9741,
	"eval_samples_per_second": 120.584,
	"eval_steps_per_second": 1.892,
	"step": 9000
	},
	{
	"epoch": 0.47,
	"learning_rate": 4.7660818713450294e-05,
	"loss": 3.0515,
	"step": 10000
	},
	{
	"epoch": 0.47,
	"eval_loss": 3.3482985496520996,
	"eval_runtime": 54.9922,
	"eval_samples_per_second": 120.544,
	"eval_steps_per_second": 1.891,
	"step": 10000
	},
	{
	"epoch": 0.51,
	"learning_rate": 4.7426900584795326e-05,
	"loss": 2.9408,
	"step": 11000
	},
	{
	"epoch": 0.51,
	"eval_loss": 3.274308919906616,
	"eval_runtime": 55.0307,
	"eval_samples_per_second": 120.46,
	"eval_steps_per_second": 1.89,
	"step": 11000
	},
	{
	"epoch": 0.56,
	"learning_rate": 4.719298245614036e-05,
	"loss": 2.8601,
	"step": 12000
	},
	{
	"epoch": 0.56,
	"eval_loss": 3.2094714641571045,
	"eval_runtime": 54.9444,
	"eval_samples_per_second": 120.649,
	"eval_steps_per_second": 1.893,
	"step": 12000
	},
	{
	"epoch": 0.61,
	"learning_rate": 4.695906432748538e-05,
	"loss": 2.7866,
	"step": 13000
	},
	{
	"epoch": 0.61,
	"eval_loss": 3.1299281120300293,
	"eval_runtime": 54.9484,
	"eval_samples_per_second": 120.64,
	"eval_steps_per_second": 1.893,
	"step": 13000
	},
	{
	"epoch": 0.65,
	"learning_rate": 4.672514619883041e-05,
	"loss": 2.7094,
	"step": 14000
	},
	{
	"epoch": 0.65,
	"eval_loss": 3.096022844314575,
	"eval_runtime": 55.155,
	"eval_samples_per_second": 120.189,
	"eval_steps_per_second": 1.886,
	"step": 14000
	},
	{
	"epoch": 0.7,
	"learning_rate": 4.649122807017544e-05,
	"loss": 2.6424,
	"step": 15000
	},
	{
	"epoch": 0.7,
	"eval_loss": 3.060807228088379,
	"eval_runtime": 55.1935,
	"eval_samples_per_second": 120.105,
	"eval_steps_per_second": 1.884,
	"step": 15000
	},
	{
	"epoch": 0.75,
	"learning_rate": 4.625730994152047e-05,
	"loss": 2.5729,
	"step": 16000
	},
	{
	"epoch": 0.75,
	"eval_loss": 3.0170695781707764,
	"eval_runtime": 55.2064,
	"eval_samples_per_second": 120.077,
	"eval_steps_per_second": 1.884,
	"step": 16000
	},
	{
	"epoch": 0.8,
	"learning_rate": 4.60233918128655e-05,
	"loss": 2.5108,
	"step": 17000
	},
	{
	"epoch": 0.8,
	"eval_loss": 2.9729015827178955,
	"eval_runtime": 55.2048,
	"eval_samples_per_second": 120.08,
	"eval_steps_per_second": 1.884,
	"step": 17000
	},
	{
	"epoch": 0.84,
	"learning_rate": 4.5789473684210527e-05,
	"loss": 2.4538,
	"step": 18000
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.9392964839935303,
	"eval_runtime": 55.2009,
	"eval_samples_per_second": 120.089,
	"eval_steps_per_second": 1.884,
	"step": 18000
	},
	{
	"epoch": 0.89,
	"learning_rate": 4.555555555555556e-05,
	"loss": 2.3941,
	"step": 19000
	},
	{
	"epoch": 0.89,
	"eval_loss": 2.900946617126465,
	"eval_runtime": 55.1868,
	"eval_samples_per_second": 120.119,
	"eval_steps_per_second": 1.885,
	"step": 19000
	},
	{
	"epoch": 0.94,
	"learning_rate": 4.5321637426900585e-05,
	"loss": 2.3341,
	"step": 20000
	},
	{
	"epoch": 0.94,
	"eval_loss": 2.87040376663208,
	"eval_runtime": 55.0611,
	"eval_samples_per_second": 120.393,
	"eval_steps_per_second": 1.889,
	"step": 20000
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.508771929824562e-05,
	"loss": 2.2797,
	"step": 21000
	},
	{
	"epoch": 0.98,
	"eval_loss": 2.8554604053497314,
	"eval_runtime": 54.9944,
	"eval_samples_per_second": 120.54,
	"eval_steps_per_second": 1.891,
	"step": 21000
	},
	{
	"epoch": 1.03,
	"learning_rate": 4.485380116959065e-05,
	"loss": 2.2284,
	"step": 22000
	},
	{
	"epoch": 1.03,
	"eval_loss": 2.8280177116394043,
	"eval_runtime": 54.9695,
	"eval_samples_per_second": 120.594,
	"eval_steps_per_second": 1.892,
	"step": 22000
	},
	{
	"epoch": 1.08,
	"learning_rate": 4.4619883040935676e-05,
	"loss": 2.1651,
	"step": 23000
	},
	{
	"epoch": 1.08,
	"eval_loss": 2.7877776622772217,
	"eval_runtime": 54.9786,
	"eval_samples_per_second": 120.574,
	"eval_steps_per_second": 1.892,
	"step": 23000
	},
	{
	"epoch": 1.12,
	"learning_rate": 4.43859649122807e-05,
	"loss": 2.1267,
	"step": 24000
	},
	{
	"epoch": 1.12,
	"eval_loss": 2.7796318531036377,
	"eval_runtime": 55.0112,
	"eval_samples_per_second": 120.503,
	"eval_steps_per_second": 1.891,
	"step": 24000
	},
	{
	"epoch": 1.17,
	"learning_rate": 4.4152046783625734e-05,
	"loss": 2.0887,
	"step": 25000
	},
	{
	"epoch": 1.17,
	"eval_loss": 2.7155935764312744,
	"eval_runtime": 54.9846,
	"eval_samples_per_second": 120.561,
	"eval_steps_per_second": 1.891,
	"step": 25000
	},
	{
	"epoch": 1.22,
	"learning_rate": 4.3918128654970766e-05,
	"loss": 2.0477,
	"step": 26000
	},
	{
	"epoch": 1.22,
	"eval_loss": 2.7347090244293213,
	"eval_runtime": 54.9797,
	"eval_samples_per_second": 120.572,
	"eval_steps_per_second": 1.892,
	"step": 26000
	},
	{
	"epoch": 1.26,
	"learning_rate": 4.368421052631579e-05,
	"loss": 2.0055,
	"step": 27000
	},
	{
	"epoch": 1.26,
	"eval_loss": 2.7260184288024902,
	"eval_runtime": 54.9686,
	"eval_samples_per_second": 120.596,
	"eval_steps_per_second": 1.892,
	"step": 27000
	},
	{
	"epoch": 1.31,
	"learning_rate": 4.345029239766082e-05,
	"loss": 1.9738,
	"step": 28000
	},
	{
	"epoch": 1.31,
	"eval_loss": 2.7053301334381104,
	"eval_runtime": 54.975,
	"eval_samples_per_second": 120.582,
	"eval_steps_per_second": 1.892,
	"step": 28000
	},
	{
	"epoch": 1.36,
	"learning_rate": 4.321637426900585e-05,
	"loss": 1.9336,
	"step": 29000
	},
	{
	"epoch": 1.36,
	"eval_loss": 2.6540746688842773,
	"eval_runtime": 54.9866,
	"eval_samples_per_second": 120.557,
	"eval_steps_per_second": 1.891,
	"step": 29000
	},
	{
	"epoch": 1.4,
	"learning_rate": 4.298245614035088e-05,
	"loss": 1.9008,
	"step": 30000
	},
	{
	"epoch": 1.4,
	"eval_loss": 2.6721866130828857,
	"eval_runtime": 54.9707,
	"eval_samples_per_second": 120.592,
	"eval_steps_per_second": 1.892,
	"step": 30000
	},
	{
	"epoch": 1.45,
	"learning_rate": 4.274853801169591e-05,
	"loss": 1.8603,
	"step": 31000
	},
	{
	"epoch": 1.45,
	"eval_loss": 2.6387619972229004,
	"eval_runtime": 54.9719,
	"eval_samples_per_second": 120.589,
	"eval_steps_per_second": 1.892,
	"step": 31000
	},
	{
	"epoch": 1.5,
	"learning_rate": 4.251461988304094e-05,
	"loss": 1.8291,
	"step": 32000
	},
	{
	"epoch": 1.5,
	"eval_loss": 2.640782594680786,
	"eval_runtime": 54.9643,
	"eval_samples_per_second": 120.606,
	"eval_steps_per_second": 1.892,
	"step": 32000
	},
	{
	"epoch": 1.54,
	"learning_rate": 4.228070175438597e-05,
	"loss": 1.8059,
	"step": 33000
	},
	{
	"epoch": 1.54,
	"eval_loss": 2.614128589630127,
	"eval_runtime": 54.9538,
	"eval_samples_per_second": 120.629,
	"eval_steps_per_second": 1.893,
	"step": 33000
	},
	{
	"epoch": 1.59,
	"learning_rate": 4.204678362573099e-05,
	"loss": 1.7663,
	"step": 34000
	},
	{
	"epoch": 1.59,
	"eval_loss": 2.618607997894287,
	"eval_runtime": 55.0051,
	"eval_samples_per_second": 120.516,
	"eval_steps_per_second": 1.891,
	"step": 34000
	},
	{
	"epoch": 1.64,
	"learning_rate": 4.1812865497076025e-05,
	"loss": 1.7322,
	"step": 35000
	},
	{
	"epoch": 1.64,
	"eval_loss": 2.6462574005126953,
	"eval_runtime": 54.9802,
	"eval_samples_per_second": 120.571,
	"eval_steps_per_second": 1.892,
	"step": 35000
	},
	{
	"epoch": 1.68,
	"learning_rate": 4.157894736842106e-05,
	"loss": 1.7187,
	"step": 36000
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.5989272594451904,
	"eval_runtime": 54.9619,
	"eval_samples_per_second": 120.611,
	"eval_steps_per_second": 1.892,
	"step": 36000
	},
	{
	"epoch": 1.73,
	"learning_rate": 4.134502923976608e-05,
	"loss": 1.6852,
	"step": 37000
	},
	{
	"epoch": 1.73,
	"eval_loss": 2.5719058513641357,
	"eval_runtime": 54.9667,
	"eval_samples_per_second": 120.6,
	"eval_steps_per_second": 1.892,
	"step": 37000
	},
	{
	"epoch": 1.78,
	"learning_rate": 4.111111111111111e-05,
	"loss": 1.6649,
	"step": 38000
	},
	{
	"epoch": 1.78,
	"eval_loss": 2.57804012298584,
	"eval_runtime": 54.9675,
	"eval_samples_per_second": 120.598,
	"eval_steps_per_second": 1.892,
	"step": 38000
	},
	{
	"epoch": 1.82,
	"learning_rate": 4.087719298245614e-05,
	"loss": 1.6285,
	"step": 39000
	},
	{
	"epoch": 1.82,
	"eval_loss": 2.5606088638305664,
	"eval_runtime": 55.1929,
	"eval_samples_per_second": 120.106,
	"eval_steps_per_second": 1.884,
	"step": 39000
	},
	{
	"epoch": 1.87,
	"learning_rate": 4.0643274853801174e-05,
	"loss": 1.6033,
	"step": 40000
	},
	{
	"epoch": 1.87,
	"eval_loss": 2.570094585418701,
	"eval_runtime": 55.1572,
	"eval_samples_per_second": 120.184,
	"eval_steps_per_second": 1.886,
	"step": 40000
	},
	{
	"epoch": 1.92,
	"learning_rate": 4.04093567251462e-05,
	"loss": 1.5833,
	"step": 41000
	},
	{
	"epoch": 1.92,
	"eval_loss": 2.5516393184661865,
	"eval_runtime": 55.1223,
	"eval_samples_per_second": 120.26,
	"eval_steps_per_second": 1.887,
	"step": 41000
	},
	{
	"epoch": 1.96,
	"learning_rate": 4.017543859649123e-05,
	"loss": 1.5701,
	"step": 42000
	},
	{
	"epoch": 1.96,
	"eval_loss": 2.544060707092285,
	"eval_runtime": 54.9919,
	"eval_samples_per_second": 120.545,
	"eval_steps_per_second": 1.891,
	"step": 42000
	},
	{
	"epoch": 2.01,
	"learning_rate": 3.994152046783626e-05,
	"loss": 1.5252,
	"step": 43000
	},
	{
	"epoch": 2.01,
	"eval_loss": 2.545295476913452,
	"eval_runtime": 54.9924,
	"eval_samples_per_second": 120.544,
	"eval_steps_per_second": 1.891,
	"step": 43000
	},
	{
	"epoch": 2.06,
	"learning_rate": 3.970760233918129e-05,
	"loss": 1.5019,
	"step": 44000
	},
	{
	"epoch": 2.06,
	"eval_loss": 2.547807216644287,
	"eval_runtime": 55.007,
	"eval_samples_per_second": 120.512,
	"eval_steps_per_second": 1.891,
	"step": 44000
	},
	{
	"epoch": 2.11,
	"learning_rate": 3.9473684210526316e-05,
	"loss": 1.4789,
	"step": 45000
	},
	{
	"epoch": 2.11,
	"eval_loss": 2.541635036468506,
	"eval_runtime": 54.9822,
	"eval_samples_per_second": 120.566,
	"eval_steps_per_second": 1.892,
	"step": 45000
	},
	{
	"epoch": 2.15,
	"learning_rate": 3.923976608187135e-05,
	"loss": 1.4611,
	"step": 46000
	},
	{
	"epoch": 2.15,
	"eval_loss": 2.526390790939331,
	"eval_runtime": 54.9826,
	"eval_samples_per_second": 120.565,
	"eval_steps_per_second": 1.892,
	"step": 46000
	},
	{
	"epoch": 2.2,
	"learning_rate": 3.9005847953216374e-05,
	"loss": 1.4413,
	"step": 47000
	},
	{
	"epoch": 2.2,
	"eval_loss": 2.5193886756896973,
	"eval_runtime": 54.9793,
	"eval_samples_per_second": 120.573,
	"eval_steps_per_second": 1.892,
	"step": 47000
	},
	{
	"epoch": 2.25,
	"learning_rate": 3.877192982456141e-05,
	"loss": 1.4106,
	"step": 48000
	},
	{
	"epoch": 2.25,
	"eval_loss": 2.504810094833374,
	"eval_runtime": 55.0248,
	"eval_samples_per_second": 120.473,
	"eval_steps_per_second": 1.89,
	"step": 48000
	},
	{
	"epoch": 2.29,
	"learning_rate": 3.853801169590643e-05,
	"loss": 1.3928,
	"step": 49000
	},
	{
	"epoch": 2.29,
	"eval_loss": 2.5266056060791016,
	"eval_runtime": 55.1287,
	"eval_samples_per_second": 120.246,
	"eval_steps_per_second": 1.886,
	"step": 49000
	},
	{
	"epoch": 2.34,
	"learning_rate": 3.8304093567251465e-05,
	"loss": 1.3857,
	"step": 50000
	},
	{
	"epoch": 2.34,
	"eval_loss": 2.5026743412017822,
	"eval_runtime": 55.0968,
	"eval_samples_per_second": 120.315,
	"eval_steps_per_second": 1.888,
	"step": 50000
	},
	{
	"epoch": 2.39,
	"learning_rate": 3.80701754385965e-05,
	"loss": 1.3682,
	"step": 51000
	},
	{
	"epoch": 2.39,
	"eval_loss": 2.5191988945007324,
	"eval_runtime": 55.0835,
	"eval_samples_per_second": 120.345,
	"eval_steps_per_second": 1.888,
	"step": 51000
	},
	{
	"epoch": 2.43,
	"learning_rate": 3.783625730994152e-05,
	"loss": 1.337,
	"step": 52000
	},
	{
	"epoch": 2.43,
	"eval_loss": 2.4917993545532227,
	"eval_runtime": 55.1615,
	"eval_samples_per_second": 120.175,
	"eval_steps_per_second": 1.885,
	"step": 52000
	},
	{
	"epoch": 2.48,
	"learning_rate": 3.760233918128655e-05,
	"loss": 1.3314,
	"step": 53000
	},
	{
	"epoch": 2.48,
	"eval_loss": 2.503882646560669,
	"eval_runtime": 55.1711,
	"eval_samples_per_second": 120.153,
	"eval_steps_per_second": 1.885,
	"step": 53000
	},
	{
	"epoch": 2.53,
	"learning_rate": 3.736842105263158e-05,
	"loss": 1.3213,
	"step": 54000
	},
	{
	"epoch": 2.53,
	"eval_loss": 2.5335164070129395,
	"eval_runtime": 55.1504,
	"eval_samples_per_second": 120.199,
	"eval_steps_per_second": 1.886,
	"step": 54000
	},
	{
	"epoch": 2.57,
	"learning_rate": 3.713450292397661e-05,
	"loss": 1.2901,
	"step": 55000
	},
	{
	"epoch": 2.57,
	"eval_loss": 2.5040109157562256,
	"eval_runtime": 55.1836,
	"eval_samples_per_second": 120.126,
	"eval_steps_per_second": 1.885,
	"step": 55000
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.690058479532164e-05,
	"loss": 1.2927,
	"step": 56000
	},
	{
	"epoch": 2.62,
	"eval_loss": 2.4990580081939697,
	"eval_runtime": 55.1982,
	"eval_samples_per_second": 120.095,
	"eval_steps_per_second": 1.884,
	"step": 56000
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.6666666666666666e-05,
	"loss": 1.2631,
	"step": 57000
	},
	{
	"epoch": 2.67,
	"eval_loss": 2.500002861022949,
	"eval_runtime": 55.1671,
	"eval_samples_per_second": 120.162,
	"eval_steps_per_second": 1.885,
	"step": 57000
	},
	{
	"epoch": 2.71,
	"learning_rate": 3.64327485380117e-05,
	"loss": 1.2526,
	"step": 58000
	},
	{
	"epoch": 2.71,
	"eval_loss": 2.484260320663452,
	"eval_runtime": 55.0693,
	"eval_samples_per_second": 120.376,
	"eval_steps_per_second": 1.889,
	"step": 58000
	},
	{
	"epoch": 2.76,
	"learning_rate": 3.6198830409356724e-05,
	"loss": 1.2371,
	"step": 59000
	},
	{
	"epoch": 2.76,
	"eval_loss": 2.480639696121216,
	"eval_runtime": 55.0676,
	"eval_samples_per_second": 120.379,
	"eval_steps_per_second": 1.889,
	"step": 59000
	},
	{
	"epoch": 2.81,
	"learning_rate": 3.5964912280701756e-05,
	"loss": 1.2194,
	"step": 60000
	},
	{
	"epoch": 2.81,
	"eval_loss": 2.480283498764038,
	"eval_runtime": 54.981,
	"eval_samples_per_second": 120.569,
	"eval_steps_per_second": 1.892,
	"step": 60000
	},
	{
	"epoch": 2.85,
	"learning_rate": 3.573099415204679e-05,
	"loss": 1.2103,
	"step": 61000
	},
	{
	"epoch": 2.85,
	"eval_loss": 2.4655823707580566,
	"eval_runtime": 54.9896,
	"eval_samples_per_second": 120.55,
	"eval_steps_per_second": 1.891,
	"step": 61000
	},
	{
	"epoch": 2.9,
	"learning_rate": 3.5497076023391815e-05,
	"loss": 1.1954,
	"step": 62000
	},
	{
	"epoch": 2.9,
	"eval_loss": 2.467862367630005,
	"eval_runtime": 55.0349,
	"eval_samples_per_second": 120.451,
	"eval_steps_per_second": 1.89,
	"step": 62000
	},
	{
	"epoch": 2.95,
	"learning_rate": 3.526315789473684e-05,
	"loss": 1.1841,
	"step": 63000
	},
	{
	"epoch": 2.95,
	"eval_loss": 2.4734864234924316,
	"eval_runtime": 55.0767,
	"eval_samples_per_second": 120.359,
	"eval_steps_per_second": 1.888,
	"step": 63000
	},
	{
	"epoch": 2.99,
	"learning_rate": 3.502923976608187e-05,
	"loss": 1.1697,
	"step": 64000
	},
	{
	"epoch": 2.99,
	"eval_loss": 2.4691245555877686,
	"eval_runtime": 55.01,
	"eval_samples_per_second": 120.505,
	"eval_steps_per_second": 1.891,
	"step": 64000
	},
	{
	"epoch": 3.04,
	"learning_rate": 3.4795321637426905e-05,
	"loss": 1.1488,
	"step": 65000
	},
	{
	"epoch": 3.04,
	"eval_loss": 2.50709867477417,
	"eval_runtime": 55.0061,
	"eval_samples_per_second": 120.514,
	"eval_steps_per_second": 1.891,
	"step": 65000
	},
	{
	"epoch": 3.09,
	"learning_rate": 3.456140350877193e-05,
	"loss": 1.1343,
	"step": 66000
	},
	{
	"epoch": 3.09,
	"eval_loss": 2.464665412902832,
	"eval_runtime": 54.9972,
	"eval_samples_per_second": 120.533,
	"eval_steps_per_second": 1.891,
	"step": 66000
	},
	{
	"epoch": 3.13,
	"learning_rate": 3.432748538011696e-05,
	"loss": 1.1285,
	"step": 67000
	},
	{
	"epoch": 3.13,
	"eval_loss": 2.4716575145721436,
	"eval_runtime": 54.9735,
	"eval_samples_per_second": 120.585,
	"eval_steps_per_second": 1.892,
	"step": 67000
	},
	{
	"epoch": 3.18,
	"learning_rate": 3.409356725146199e-05,
	"loss": 1.1124,
	"step": 68000
	},
	{
	"epoch": 3.18,
	"eval_loss": 2.476966619491577,
	"eval_runtime": 55.0007,
	"eval_samples_per_second": 120.526,
	"eval_steps_per_second": 1.891,
	"step": 68000
	},
	{
	"epoch": 3.23,
	"learning_rate": 3.385964912280702e-05,
	"loss": 1.1097,
	"step": 69000
	},
	{
	"epoch": 3.23,
	"eval_loss": 2.487794876098633,
	"eval_runtime": 54.9919,
	"eval_samples_per_second": 120.545,
	"eval_steps_per_second": 1.891,
	"step": 69000
	},
	{
	"epoch": 3.27,
	"learning_rate": 3.362573099415205e-05,
	"loss": 1.0956,
	"step": 70000
	},
	{
	"epoch": 3.27,
	"eval_loss": 2.4818880558013916,
	"eval_runtime": 55.0269,
	"eval_samples_per_second": 120.468,
	"eval_steps_per_second": 1.89,
	"step": 70000
	},
	{
	"epoch": 3.32,
	"learning_rate": 3.339181286549708e-05,
	"loss": 1.088,
	"step": 71000
	},
	{
	"epoch": 3.32,
	"eval_loss": 2.4609289169311523,
	"eval_runtime": 54.9477,
	"eval_samples_per_second": 120.642,
	"eval_steps_per_second": 1.893,
	"step": 71000
	},
	{
	"epoch": 3.37,
	"learning_rate": 3.3157894736842106e-05,
	"loss": 1.0728,
	"step": 72000
	},
	{
	"epoch": 3.37,
	"eval_loss": 2.4839322566986084,
	"eval_runtime": 54.9672,
	"eval_samples_per_second": 120.599,
	"eval_steps_per_second": 1.892,
	"step": 72000
	},
	{
	"epoch": 3.42,
	"learning_rate": 3.292397660818713e-05,
	"loss": 1.0587,
	"step": 73000
	},
	{
	"epoch": 3.42,
	"eval_loss": 2.4727675914764404,
	"eval_runtime": 55.0507,
	"eval_samples_per_second": 120.416,
	"eval_steps_per_second": 1.889,
	"step": 73000
	},
	{
	"epoch": 3.46,
	"learning_rate": 3.2690058479532164e-05,
	"loss": 1.0534,
	"step": 74000
	},
	{
	"epoch": 3.46,
	"eval_loss": 2.4812207221984863,
	"eval_runtime": 54.9899,
	"eval_samples_per_second": 120.549,
	"eval_steps_per_second": 1.891,
	"step": 74000
	},
	{
	"epoch": 3.51,
	"learning_rate": 3.24561403508772e-05,
	"loss": 1.0455,
	"step": 75000
	},
	{
	"epoch": 3.51,
	"eval_loss": 2.469550609588623,
	"eval_runtime": 54.9765,
	"eval_samples_per_second": 120.579,
	"eval_steps_per_second": 1.892,
	"step": 75000
	},
	{
	"epoch": 3.56,
	"learning_rate": 3.222222222222223e-05,
	"loss": 1.0402,
	"step": 76000
	},
	{
	"epoch": 3.56,
	"eval_loss": 2.458113431930542,
	"eval_runtime": 54.9925,
	"eval_samples_per_second": 120.544,
	"eval_steps_per_second": 1.891,
	"step": 76000
	},
	{
	"epoch": 3.6,
	"learning_rate": 3.198830409356725e-05,
	"loss": 1.0227,
	"step": 77000
	},
	{
	"epoch": 3.6,
	"eval_loss": 2.4712133407592773,
	"eval_runtime": 54.9707,
	"eval_samples_per_second": 120.592,
	"eval_steps_per_second": 1.892,
	"step": 77000
	},
	{
	"epoch": 3.65,
	"learning_rate": 3.175438596491228e-05,
	"loss": 1.0172,
	"step": 78000
	},
	{
	"epoch": 3.65,
	"eval_loss": 2.4822046756744385,
	"eval_runtime": 54.9842,
	"eval_samples_per_second": 120.562,
	"eval_steps_per_second": 1.891,
	"step": 78000
	},
	{
	"epoch": 3.7,
	"learning_rate": 3.152046783625731e-05,
	"loss": 0.9947,
	"step": 79000
	},
	{
	"epoch": 3.7,
	"eval_loss": 2.455008029937744,
	"eval_runtime": 54.9636,
	"eval_samples_per_second": 120.607,
	"eval_steps_per_second": 1.892,
	"step": 79000
	},
	{
	"epoch": 3.74,
	"learning_rate": 3.128654970760234e-05,
	"loss": 0.9924,
	"step": 80000
	},
	{
	"epoch": 3.74,
	"eval_loss": 2.440960168838501,
	"eval_runtime": 54.9708,
	"eval_samples_per_second": 120.591,
	"eval_steps_per_second": 1.892,
	"step": 80000
	},
	{
	"epoch": 3.79,
	"learning_rate": 3.105263157894737e-05,
	"loss": 0.9863,
	"step": 81000
	},
	{
	"epoch": 3.79,
	"eval_loss": 2.454493761062622,
	"eval_runtime": 54.966,
	"eval_samples_per_second": 120.602,
	"eval_steps_per_second": 1.892,
	"step": 81000
	},
	{
	"epoch": 3.84,
	"learning_rate": 3.08187134502924e-05,
	"loss": 0.9793,
	"step": 82000
	},
	{
	"epoch": 3.84,
	"eval_loss": 2.482584238052368,
	"eval_runtime": 55.0651,
	"eval_samples_per_second": 120.385,
	"eval_steps_per_second": 1.889,
	"step": 82000
	},
	{
	"epoch": 3.88,
	"learning_rate": 3.058479532163743e-05,
	"loss": 0.9639,
	"step": 83000
	},
	{
	"epoch": 3.88,
	"eval_loss": 2.4847776889801025,
	"eval_runtime": 55.089,
	"eval_samples_per_second": 120.332,
	"eval_steps_per_second": 1.888,
	"step": 83000
	},
	{
	"epoch": 3.93,
	"learning_rate": 3.035087719298246e-05,
	"loss": 0.9584,
	"step": 84000
	},
	{
	"epoch": 3.93,
	"eval_loss": 2.4647934436798096,
	"eval_runtime": 55.1206,
	"eval_samples_per_second": 120.263,
	"eval_steps_per_second": 1.887,
	"step": 84000
	},
	{
	"epoch": 3.98,
	"learning_rate": 3.0116959064327488e-05,
	"loss": 0.9508,
	"step": 85000
	},
	{
	"epoch": 3.98,
	"eval_loss": 2.445103406906128,
	"eval_runtime": 55.0978,
	"eval_samples_per_second": 120.313,
	"eval_steps_per_second": 1.888,
	"step": 85000
	},
	{
	"epoch": 4.02,
	"learning_rate": 2.9883040935672517e-05,
	"loss": 0.9425,
	"step": 86000
	},
	{
	"epoch": 4.02,
	"eval_loss": 2.4363410472869873,
	"eval_runtime": 55.0773,
	"eval_samples_per_second": 120.358,
	"eval_steps_per_second": 1.888,
	"step": 86000
	},
	{
	"epoch": 4.07,
	"learning_rate": 2.9649122807017543e-05,
	"loss": 0.9301,
	"step": 87000
	},
	{
	"epoch": 4.07,
	"eval_loss": 2.4576821327209473,
	"eval_runtime": 55.0908,
	"eval_samples_per_second": 120.329,
	"eval_steps_per_second": 1.888,
	"step": 87000
	},
	{
	"epoch": 4.12,
	"learning_rate": 2.9415204678362572e-05,
	"loss": 0.922,
	"step": 88000
	},
	{
	"epoch": 4.12,
	"eval_loss": 2.487666130065918,
	"eval_runtime": 55.1028,
	"eval_samples_per_second": 120.302,
	"eval_steps_per_second": 1.887,
	"step": 88000
	},
	{
	"epoch": 4.16,
	"learning_rate": 2.9181286549707604e-05,
	"loss": 0.9102,
	"step": 89000
	},
	{
	"epoch": 4.16,
	"eval_loss": 2.462902784347534,
	"eval_runtime": 55.0955,
	"eval_samples_per_second": 120.318,
	"eval_steps_per_second": 1.888,
	"step": 89000
	},
	{
	"epoch": 4.21,
	"learning_rate": 2.8947368421052634e-05,
	"loss": 0.9081,
	"step": 90000
	},
	{
	"epoch": 4.21,
	"eval_loss": 2.4494595527648926,
	"eval_runtime": 55.0849,
	"eval_samples_per_second": 120.341,
	"eval_steps_per_second": 1.888,
	"step": 90000
	},
	{
	"epoch": 4.26,
	"learning_rate": 2.8713450292397666e-05,
	"loss": 0.8956,
	"step": 91000
	},
	{
	"epoch": 4.26,
	"eval_loss": 2.466681718826294,
	"eval_runtime": 55.0767,
	"eval_samples_per_second": 120.359,
	"eval_steps_per_second": 1.888,
	"step": 91000
	},
	{
	"epoch": 4.3,
	"learning_rate": 2.847953216374269e-05,
	"loss": 0.8932,
	"step": 92000
	},
	{
	"epoch": 4.3,
	"eval_loss": 2.4637372493743896,
	"eval_runtime": 55.0713,
	"eval_samples_per_second": 120.371,
	"eval_steps_per_second": 1.888,
	"step": 92000
	},
	{
	"epoch": 4.35,
	"learning_rate": 2.824561403508772e-05,
	"loss": 0.8845,
	"step": 93000
	},
	{
	"epoch": 4.35,
	"eval_loss": 2.4586174488067627,
	"eval_runtime": 55.0741,
	"eval_samples_per_second": 120.365,
	"eval_steps_per_second": 1.888,
	"step": 93000
	},
	{
	"epoch": 4.4,
	"learning_rate": 2.801169590643275e-05,
	"loss": 0.877,
	"step": 94000
	},
	{
	"epoch": 4.4,
	"eval_loss": 2.471717357635498,
	"eval_runtime": 55.0727,
	"eval_samples_per_second": 120.368,
	"eval_steps_per_second": 1.888,
	"step": 94000
	},
	{
	"epoch": 4.44,
	"learning_rate": 2.777777777777778e-05,
	"loss": 0.8713,
	"step": 95000
	},
	{
	"epoch": 4.44,
	"eval_loss": 2.4618284702301025,
	"eval_runtime": 55.0799,
	"eval_samples_per_second": 120.352,
	"eval_steps_per_second": 1.888,
	"step": 95000
	},
	{
	"epoch": 4.49,
	"learning_rate": 2.754385964912281e-05,
	"loss": 0.8768,
	"step": 96000
	},
	{
	"epoch": 4.49,
	"eval_loss": 2.4480040073394775,
	"eval_runtime": 55.1696,
	"eval_samples_per_second": 120.157,
	"eval_steps_per_second": 1.885,
	"step": 96000
	},
	{
	"epoch": 4.54,
	"learning_rate": 2.7309941520467834e-05,
	"loss": 0.8662,
	"step": 97000
	},
	{
	"epoch": 4.54,
	"eval_loss": 2.468902349472046,
	"eval_runtime": 55.1714,
	"eval_samples_per_second": 120.153,
	"eval_steps_per_second": 1.885,
	"step": 97000
	},
	{
	"epoch": 4.58,
	"learning_rate": 2.7076023391812866e-05,
	"loss": 0.8622,
	"step": 98000
	},
	{
	"epoch": 4.58,
	"eval_loss": 2.4613983631134033,
	"eval_runtime": 55.1613,
	"eval_samples_per_second": 120.175,
	"eval_steps_per_second": 1.885,
	"step": 98000
	},
	{
	"epoch": 4.63,
	"learning_rate": 2.6842105263157896e-05,
	"loss": 0.8497,
	"step": 99000
	},
	{
	"epoch": 4.63,
	"eval_loss": 2.488284111022949,
	"eval_runtime": 55.1664,
	"eval_samples_per_second": 120.164,
	"eval_steps_per_second": 1.885,
	"step": 99000
	},
	{
	"epoch": 4.68,
	"learning_rate": 2.6608187134502928e-05,
	"loss": 0.8399,
	"step": 100000
	},
	{
	"epoch": 4.68,
	"eval_loss": 2.486598253250122,
	"eval_runtime": 55.142,
	"eval_samples_per_second": 120.217,
	"eval_steps_per_second": 1.886,
	"step": 100000
	},
	{
	"epoch": 4.73,
	"learning_rate": 2.6374269005847957e-05,
	"loss": 0.8397,
	"step": 101000
	},
	{
	"epoch": 4.73,
	"eval_loss": 2.490933895111084,
	"eval_runtime": 55.1377,
	"eval_samples_per_second": 120.226,
	"eval_steps_per_second": 1.886,
	"step": 101000
	},
	{
	"epoch": 4.77,
	"learning_rate": 2.6140350877192983e-05,
	"loss": 0.8266,
	"step": 102000
	},
	{
	"epoch": 4.77,
	"eval_loss": 2.4587643146514893,
	"eval_runtime": 55.0944,
	"eval_samples_per_second": 120.321,
	"eval_steps_per_second": 1.888,
	"step": 102000
	},
	{
	"epoch": 4.82,
	"learning_rate": 2.5906432748538012e-05,
	"loss": 0.8231,
	"step": 103000
	},
	{
	"epoch": 4.82,
	"eval_loss": 2.4951488971710205,
	"eval_runtime": 55.155,
	"eval_samples_per_second": 120.189,
	"eval_steps_per_second": 1.886,
	"step": 103000
	},
	{
	"epoch": 4.87,
	"learning_rate": 2.567251461988304e-05,
	"loss": 0.8189,
	"step": 104000
	},
	{
	"epoch": 4.87,
	"eval_loss": 2.458134889602661,
	"eval_runtime": 55.0735,
	"eval_samples_per_second": 120.366,
	"eval_steps_per_second": 1.888,
	"step": 104000
	},
	{
	"epoch": 4.91,
	"learning_rate": 2.5438596491228074e-05,
	"loss": 0.8155,
	"step": 105000
	},
	{
	"epoch": 4.91,
	"eval_loss": 2.448225736618042,
	"eval_runtime": 55.0955,
	"eval_samples_per_second": 120.318,
	"eval_steps_per_second": 1.888,
	"step": 105000
	},
	{
	"epoch": 4.96,
	"learning_rate": 2.5204678362573103e-05,
	"loss": 0.8059,
	"step": 106000
	},
	{
	"epoch": 4.96,
	"eval_loss": 2.489133358001709,
	"eval_runtime": 55.1106,
	"eval_samples_per_second": 120.285,
	"eval_steps_per_second": 1.887,
	"step": 106000
	},
	{
	"epoch": 5.01,
	"learning_rate": 2.4970760233918132e-05,
	"loss": 0.8085,
	"step": 107000
	},
	{
	"epoch": 5.01,
	"eval_loss": 2.491405487060547,
	"eval_runtime": 55.0557,
	"eval_samples_per_second": 120.405,
	"eval_steps_per_second": 1.889,
	"step": 107000
	},
	{
	"epoch": 5.05,
	"learning_rate": 2.4736842105263158e-05,
	"loss": 0.7851,
	"step": 108000
	},
	{
	"epoch": 5.05,
	"eval_loss": 2.486567735671997,
	"eval_runtime": 55.0714,
	"eval_samples_per_second": 120.371,
	"eval_steps_per_second": 1.888,
	"step": 108000
	},
	{
	"epoch": 5.1,
	"learning_rate": 2.450292397660819e-05,
	"loss": 0.7827,
	"step": 109000
	},
	{
	"epoch": 5.1,
	"eval_loss": 2.480097532272339,
	"eval_runtime": 55.0814,
	"eval_samples_per_second": 120.349,
	"eval_steps_per_second": 1.888,
	"step": 109000
	},
	{
	"epoch": 5.15,
	"learning_rate": 2.4269005847953216e-05,
	"loss": 0.7813,
	"step": 110000
	},
	{
	"epoch": 5.15,
	"eval_loss": 2.4855968952178955,
	"eval_runtime": 55.078,
	"eval_samples_per_second": 120.357,
	"eval_steps_per_second": 1.888,
	"step": 110000
	},
	{
	"epoch": 5.19,
	"learning_rate": 2.4035087719298245e-05,
	"loss": 0.7829,
	"step": 111000
	},
	{
	"epoch": 5.19,
	"eval_loss": 2.462341785430908,
	"eval_runtime": 55.0705,
	"eval_samples_per_second": 120.373,
	"eval_steps_per_second": 1.888,
	"step": 111000
	},
	{
	"epoch": 5.24,
	"learning_rate": 2.3801169590643278e-05,
	"loss": 0.7724,
	"step": 112000
	},
	{
	"epoch": 5.24,
	"eval_loss": 2.478029251098633,
	"eval_runtime": 55.0837,
	"eval_samples_per_second": 120.344,
	"eval_steps_per_second": 1.888,
	"step": 112000
	},
	{
	"epoch": 5.29,
	"learning_rate": 2.3567251461988303e-05,
	"loss": 0.7646,
	"step": 113000
	},
	{
	"epoch": 5.29,
	"eval_loss": 2.4587323665618896,
	"eval_runtime": 55.1053,
	"eval_samples_per_second": 120.297,
	"eval_steps_per_second": 1.887,
	"step": 113000
	},
	{
	"epoch": 5.33,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.7604,
	"step": 114000
	},
	{
	"epoch": 5.33,
	"eval_loss": 2.453984498977661,
	"eval_runtime": 55.0903,
	"eval_samples_per_second": 120.33,
	"eval_steps_per_second": 1.888,
	"step": 114000
	},
	{
	"epoch": 5.38,
	"learning_rate": 2.309941520467836e-05,
	"loss": 0.7518,
	"step": 115000
	},
	{
	"epoch": 5.38,
	"eval_loss": 2.488924026489258,
	"eval_runtime": 55.1009,
	"eval_samples_per_second": 120.307,
	"eval_steps_per_second": 1.887,
	"step": 115000
	},
	{
	"epoch": 5.43,
	"learning_rate": 2.2865497076023394e-05,
	"loss": 0.7515,
	"step": 116000
	},
	{
	"epoch": 5.43,
	"eval_loss": 2.4510860443115234,
	"eval_runtime": 55.088,
	"eval_samples_per_second": 120.335,
	"eval_steps_per_second": 1.888,
	"step": 116000
	},
	{
	"epoch": 5.47,
	"learning_rate": 2.2631578947368423e-05,
	"loss": 0.7511,
	"step": 117000
	},
	{
	"epoch": 5.47,
	"eval_loss": 2.468933343887329,
	"eval_runtime": 55.0676,
	"eval_samples_per_second": 120.379,
	"eval_steps_per_second": 1.889,
	"step": 117000
	},
	{
	"epoch": 5.52,
	"learning_rate": 2.2397660818713452e-05,
	"loss": 0.7424,
	"step": 118000
	},
	{
	"epoch": 5.52,
	"eval_loss": 2.4676008224487305,
	"eval_runtime": 55.1052,
	"eval_samples_per_second": 120.297,
	"eval_steps_per_second": 1.887,
	"step": 118000
	},
	{
	"epoch": 5.57,
	"learning_rate": 2.216374269005848e-05,
	"loss": 0.7327,
	"step": 119000
	},
	{
	"epoch": 5.57,
	"eval_loss": 2.482384443283081,
	"eval_runtime": 55.0883,
	"eval_samples_per_second": 120.334,
	"eval_steps_per_second": 1.888,
	"step": 119000
	},
	{
	"epoch": 5.61,
	"learning_rate": 2.1929824561403507e-05,
	"loss": 0.7349,
	"step": 120000
	},
	{
	"epoch": 5.61,
	"eval_loss": 2.450364351272583,
	"eval_runtime": 55.0642,
	"eval_samples_per_second": 120.387,
	"eval_steps_per_second": 1.889,
	"step": 120000
	},
	{
	"epoch": 5.66,
	"learning_rate": 2.169590643274854e-05,
	"loss": 0.7307,
	"step": 121000
	},
	{
	"epoch": 5.66,
	"eval_loss": 2.4753456115722656,
	"eval_runtime": 55.0827,
	"eval_samples_per_second": 120.346,
	"eval_steps_per_second": 1.888,
	"step": 121000
	},
	{
	"epoch": 5.71,
	"learning_rate": 2.146198830409357e-05,
	"loss": 0.7269,
	"step": 122000
	},
	{
	"epoch": 5.71,
	"eval_loss": 2.463690757751465,
	"eval_runtime": 55.087,
	"eval_samples_per_second": 120.337,
	"eval_steps_per_second": 1.888,
	"step": 122000
	},
	{
	"epoch": 5.75,
	"learning_rate": 2.1228070175438598e-05,
	"loss": 0.7175,
	"step": 123000
	},
	{
	"epoch": 5.75,
	"eval_loss": 2.4744393825531006,
	"eval_runtime": 55.0809,
	"eval_samples_per_second": 120.35,
	"eval_steps_per_second": 1.888,
	"step": 123000
	},
	{
	"epoch": 5.8,
	"learning_rate": 2.0994152046783627e-05,
	"loss": 0.7178,
	"step": 124000
	},
	{
	"epoch": 5.8,
	"eval_loss": 2.4851980209350586,
	"eval_runtime": 55.0877,
	"eval_samples_per_second": 120.335,
	"eval_steps_per_second": 1.888,
	"step": 124000
	},
	{
	"epoch": 5.85,
	"learning_rate": 2.0760233918128656e-05,
	"loss": 0.7048,
	"step": 125000
	},
	{
	"epoch": 5.85,
	"eval_loss": 2.5102007389068604,
	"eval_runtime": 55.1078,
	"eval_samples_per_second": 120.291,
	"eval_steps_per_second": 1.887,
	"step": 125000
	},
	{
	"epoch": 5.89,
	"learning_rate": 2.0526315789473685e-05,
	"loss": 0.7072,
	"step": 126000
	},
	{
	"epoch": 5.89,
	"eval_loss": 2.5026237964630127,
	"eval_runtime": 55.1176,
	"eval_samples_per_second": 120.27,
	"eval_steps_per_second": 1.887,
	"step": 126000
	},
	{
	"epoch": 5.94,
	"learning_rate": 2.0292397660818714e-05,
	"loss": 0.7054,
	"step": 127000
	},
	{
	"epoch": 5.94,
	"eval_loss": 2.4804298877716064,
	"eval_runtime": 55.0663,
	"eval_samples_per_second": 120.382,
	"eval_steps_per_second": 1.889,
	"step": 127000
	},
	{
	"epoch": 5.99,
	"learning_rate": 2.0058479532163744e-05,
	"loss": 0.7019,
	"step": 128000
	},
	{
	"epoch": 5.99,
	"eval_loss": 2.4398744106292725,
	"eval_runtime": 54.9972,
	"eval_samples_per_second": 120.533,
	"eval_steps_per_second": 1.891,
	"step": 128000
	},
	{
	"epoch": 6.03,
	"learning_rate": 1.9824561403508773e-05,
	"loss": 0.6942,
	"step": 129000
	},
	{
	"epoch": 6.03,
	"eval_loss": 2.4618844985961914,
	"eval_runtime": 55.1004,
	"eval_samples_per_second": 120.308,
	"eval_steps_per_second": 1.887,
	"step": 129000
	},
	{
	"epoch": 6.08,
	"learning_rate": 1.9590643274853802e-05,
	"loss": 0.6842,
	"step": 130000
	},
	{
	"epoch": 6.08,
	"eval_loss": 2.496403217315674,
	"eval_runtime": 55.0871,
	"eval_samples_per_second": 120.337,
	"eval_steps_per_second": 1.888,
	"step": 130000
	},
	{
	"epoch": 6.13,
	"learning_rate": 1.935672514619883e-05,
	"loss": 0.6859,
	"step": 131000
	},
	{
	"epoch": 6.13,
	"eval_loss": 2.483705520629883,
	"eval_runtime": 55.0869,
	"eval_samples_per_second": 120.337,
	"eval_steps_per_second": 1.888,
	"step": 131000
	},
	{
	"epoch": 6.18,
	"learning_rate": 1.9122807017543863e-05,
	"loss": 0.6742,
	"step": 132000
	},
	{
	"epoch": 6.18,
	"eval_loss": 2.489377498626709,
	"eval_runtime": 55.1198,
	"eval_samples_per_second": 120.265,
	"eval_steps_per_second": 1.887,
	"step": 132000
	},
	{
	"epoch": 6.22,
	"learning_rate": 1.888888888888889e-05,
	"loss": 0.6818,
	"step": 133000
	},
	{
	"epoch": 6.22,
	"eval_loss": 2.507904052734375,
	"eval_runtime": 55.1222,
	"eval_samples_per_second": 120.26,
	"eval_steps_per_second": 1.887,
	"step": 133000
	},
	{
	"epoch": 6.27,
	"learning_rate": 1.8654970760233918e-05,
	"loss": 0.6742,
	"step": 134000
	},
	{
	"epoch": 6.27,
	"eval_loss": 2.4935832023620605,
	"eval_runtime": 55.1223,
	"eval_samples_per_second": 120.26,
	"eval_steps_per_second": 1.887,
	"step": 134000
	},
	{
	"epoch": 6.32,
	"learning_rate": 1.8421052631578947e-05,
	"loss": 0.6756,
	"step": 135000
	},
	{
	"epoch": 6.32,
	"eval_loss": 2.512763023376465,
	"eval_runtime": 55.167,
	"eval_samples_per_second": 120.162,
	"eval_steps_per_second": 1.885,
	"step": 135000
	},
	{
	"epoch": 6.36,
	"learning_rate": 1.8187134502923976e-05,
	"loss": 0.6635,
	"step": 136000
	},
	{
	"epoch": 6.36,
	"eval_loss": 2.5170469284057617,
	"eval_runtime": 55.1756,
	"eval_samples_per_second": 120.144,
	"eval_steps_per_second": 1.885,
	"step": 136000
	},
	{
	"epoch": 6.41,
	"learning_rate": 1.795321637426901e-05,
	"loss": 0.6645,
	"step": 137000
	},
	{
	"epoch": 6.41,
	"eval_loss": 2.5008370876312256,
	"eval_runtime": 55.1095,
	"eval_samples_per_second": 120.288,
	"eval_steps_per_second": 1.887,
	"step": 137000
	},
	{
	"epoch": 6.46,
	"learning_rate": 1.7719298245614035e-05,
	"loss": 0.6617,
	"step": 138000
	},
	{
	"epoch": 6.46,
	"eval_loss": 2.503709316253662,
	"eval_runtime": 55.1047,
	"eval_samples_per_second": 120.298,
	"eval_steps_per_second": 1.887,
	"step": 138000
	},
	{
	"epoch": 6.5,
	"learning_rate": 1.7485380116959067e-05,
	"loss": 0.6574,
	"step": 139000
	},
	{
	"epoch": 6.5,
	"eval_loss": 2.4953572750091553,
	"eval_runtime": 55.0727,
	"eval_samples_per_second": 120.368,
	"eval_steps_per_second": 1.888,
	"step": 139000
	},
	{
	"epoch": 6.55,
	"learning_rate": 1.7251461988304093e-05,
	"loss": 0.6519,
	"step": 140000
	},
	{
	"epoch": 6.55,
	"eval_loss": 2.519571304321289,
	"eval_runtime": 55.1072,
	"eval_samples_per_second": 120.293,
	"eval_steps_per_second": 1.887,
	"step": 140000
	},
	{
	"epoch": 6.6,
	"learning_rate": 1.7017543859649125e-05,
	"loss": 0.6453,
	"step": 141000
	},
	{
	"epoch": 6.6,
	"eval_loss": 2.485342502593994,
	"eval_runtime": 55.0939,
	"eval_samples_per_second": 120.322,
	"eval_steps_per_second": 1.888,
	"step": 141000
	},
	{
	"epoch": 6.64,
	"learning_rate": 1.6783625730994155e-05,
	"loss": 0.6445,
	"step": 142000
	},
	{
	"epoch": 6.64,
	"eval_loss": 2.485079765319824,
	"eval_runtime": 55.093,
	"eval_samples_per_second": 120.324,
	"eval_steps_per_second": 1.888,
	"step": 142000
	},
	{
	"epoch": 6.69,
	"learning_rate": 1.654970760233918e-05,
	"loss": 0.643,
	"step": 143000
	},
	{
	"epoch": 6.69,
	"eval_loss": 2.4923973083496094,
	"eval_runtime": 55.1032,
	"eval_samples_per_second": 120.302,
	"eval_steps_per_second": 1.887,
	"step": 143000
	},
	{
	"epoch": 6.74,
	"learning_rate": 1.6315789473684213e-05,
	"loss": 0.6373,
	"step": 144000
	},
	{
	"epoch": 6.74,
	"eval_loss": 2.5037529468536377,
	"eval_runtime": 55.0798,
	"eval_samples_per_second": 120.353,
	"eval_steps_per_second": 1.888,
	"step": 144000
	},
	{
	"epoch": 6.78,
	"learning_rate": 1.608187134502924e-05,
	"loss": 0.6292,
	"step": 145000
	},
	{
	"epoch": 6.78,
	"eval_loss": 2.488449811935425,
	"eval_runtime": 55.097,
	"eval_samples_per_second": 120.315,
	"eval_steps_per_second": 1.888,
	"step": 145000
	},
	{
	"epoch": 6.83,
	"learning_rate": 1.584795321637427e-05,
	"loss": 0.6386,
	"step": 146000
	},
	{
	"epoch": 6.83,
	"eval_loss": 2.482603073120117,
	"eval_runtime": 55.1088,
	"eval_samples_per_second": 120.289,
	"eval_steps_per_second": 1.887,
	"step": 146000
	},
	{
	"epoch": 6.88,
	"learning_rate": 1.56140350877193e-05,
	"loss": 0.6357,
	"step": 147000
	},
	{
	"epoch": 6.88,
	"eval_loss": 2.482375144958496,
	"eval_runtime": 55.1247,
	"eval_samples_per_second": 120.255,
	"eval_steps_per_second": 1.887,
	"step": 147000
	},
	{
	"epoch": 6.92,
	"learning_rate": 1.538011695906433e-05,
	"loss": 0.6251,
	"step": 148000
	},
	{
	"epoch": 6.92,
	"eval_loss": 2.4937736988067627,
	"eval_runtime": 55.1287,
	"eval_samples_per_second": 120.246,
	"eval_steps_per_second": 1.886,
	"step": 148000
	},
	{
	"epoch": 6.97,
	"learning_rate": 1.5146198830409358e-05,
	"loss": 0.624,
	"step": 149000
	},
	{
	"epoch": 6.97,
	"eval_loss": 2.5023653507232666,
	"eval_runtime": 55.1273,
	"eval_samples_per_second": 120.249,
	"eval_steps_per_second": 1.887,
	"step": 149000
	},
	{
	"epoch": 7.02,
	"learning_rate": 1.4912280701754386e-05,
	"loss": 0.6238,
	"step": 150000
	},
	{
	"epoch": 7.02,
	"eval_loss": 2.520798444747925,
	"eval_runtime": 55.0799,
	"eval_samples_per_second": 120.352,
	"eval_steps_per_second": 1.888,
	"step": 150000
	},
	{
	"epoch": 7.06,
	"learning_rate": 1.4678362573099417e-05,
	"loss": 0.6165,
	"step": 151000
	},
	{
	"epoch": 7.06,
	"eval_loss": 2.5339748859405518,
	"eval_runtime": 55.1169,
	"eval_samples_per_second": 120.272,
	"eval_steps_per_second": 1.887,
	"step": 151000
	},
	{
	"epoch": 7.11,
	"learning_rate": 1.4444444444444444e-05,
	"loss": 0.6119,
	"step": 152000
	},
	{
	"epoch": 7.11,
	"eval_loss": 2.5113964080810547,
	"eval_runtime": 55.0891,
	"eval_samples_per_second": 120.332,
	"eval_steps_per_second": 1.888,
	"step": 152000
	},
	{
	"epoch": 7.16,
	"learning_rate": 1.4210526315789475e-05,
	"loss": 0.6089,
	"step": 153000
	},
	{
	"epoch": 7.16,
	"eval_loss": 2.52811861038208,
	"eval_runtime": 55.112,
	"eval_samples_per_second": 120.282,
	"eval_steps_per_second": 1.887,
	"step": 153000
	},
	{
	"epoch": 7.2,
	"learning_rate": 1.3976608187134504e-05,
	"loss": 0.6035,
	"step": 154000
	},
	{
	"epoch": 7.2,
	"eval_loss": 2.5194358825683594,
	"eval_runtime": 55.1145,
	"eval_samples_per_second": 120.277,
	"eval_steps_per_second": 1.887,
	"step": 154000
	},
	{
	"epoch": 7.25,
	"learning_rate": 1.3742690058479531e-05,
	"loss": 0.6018,
	"step": 155000
	},
	{
	"epoch": 7.25,
	"eval_loss": 2.5066628456115723,
	"eval_runtime": 55.0979,
	"eval_samples_per_second": 120.313,
	"eval_steps_per_second": 1.888,
	"step": 155000
	},
	{
	"epoch": 7.3,
	"learning_rate": 1.3508771929824562e-05,
	"loss": 0.6016,
	"step": 156000
	},
	{
	"epoch": 7.3,
	"eval_loss": 2.490973711013794,
	"eval_runtime": 54.9953,
	"eval_samples_per_second": 120.538,
	"eval_steps_per_second": 1.891,
	"step": 156000
	},
	{
	"epoch": 7.34,
	"learning_rate": 1.327485380116959e-05,
	"loss": 0.6013,
	"step": 157000
	},
	{
	"epoch": 7.34,
	"eval_loss": 2.489246368408203,
	"eval_runtime": 54.9888,
	"eval_samples_per_second": 120.552,
	"eval_steps_per_second": 1.891,
	"step": 157000
	},
	{
	"epoch": 7.39,
	"learning_rate": 1.304093567251462e-05,
	"loss": 0.5958,
	"step": 158000
	},
	{
	"epoch": 7.39,
	"eval_loss": 2.528749704360962,
	"eval_runtime": 54.994,
	"eval_samples_per_second": 120.54,
	"eval_steps_per_second": 1.891,
	"step": 158000
	},
	{
	"epoch": 7.44,
	"learning_rate": 1.2807017543859651e-05,
	"loss": 0.5925,
	"step": 159000
	},
	{
	"epoch": 7.44,
	"eval_loss": 2.528515100479126,
	"eval_runtime": 54.9798,
	"eval_samples_per_second": 120.571,
	"eval_steps_per_second": 1.892,
	"step": 159000
	},
	{
	"epoch": 7.49,
	"learning_rate": 1.2573099415204679e-05,
	"loss": 0.5908,
	"step": 160000
	},
	{
	"epoch": 7.49,
	"eval_loss": 2.510267734527588,
	"eval_runtime": 55.0014,
	"eval_samples_per_second": 120.524,
	"eval_steps_per_second": 1.891,
	"step": 160000
	},
	{
	"epoch": 7.53,
	"learning_rate": 1.2339181286549708e-05,
	"loss": 0.587,
	"step": 161000
	},
	{
	"epoch": 7.53,
	"eval_loss": 2.533625602722168,
	"eval_runtime": 54.9987,
	"eval_samples_per_second": 120.53,
	"eval_steps_per_second": 1.891,
	"step": 161000
	},
	{
	"epoch": 7.58,
	"learning_rate": 1.2105263157894737e-05,
	"loss": 0.5851,
	"step": 162000
	},
	{
	"epoch": 7.58,
	"eval_loss": 2.538762331008911,
	"eval_runtime": 54.9696,
	"eval_samples_per_second": 120.594,
	"eval_steps_per_second": 1.892,
	"step": 162000
	},
	{
	"epoch": 7.63,
	"learning_rate": 1.1871345029239766e-05,
	"loss": 0.579,
	"step": 163000
	},
	{
	"epoch": 7.63,
	"eval_loss": 2.5098183155059814,
	"eval_runtime": 54.9924,
	"eval_samples_per_second": 120.544,
	"eval_steps_per_second": 1.891,
	"step": 163000
	},
	{
	"epoch": 7.67,
	"learning_rate": 1.1637426900584795e-05,
	"loss": 0.5764,
	"step": 164000
	},
	{
	"epoch": 7.67,
	"eval_loss": 2.5329983234405518,
	"eval_runtime": 55.0148,
	"eval_samples_per_second": 120.495,
	"eval_steps_per_second": 1.89,
	"step": 164000
	},
	{
	"epoch": 7.72,
	"learning_rate": 1.1403508771929824e-05,
	"loss": 0.5781,
	"step": 165000
	},
	{
	"epoch": 7.72,
	"eval_loss": 2.512319803237915,
	"eval_runtime": 54.9674,
	"eval_samples_per_second": 120.599,
	"eval_steps_per_second": 1.892,
	"step": 165000
	},
	{
	"epoch": 7.77,
	"learning_rate": 1.1169590643274855e-05,
	"loss": 0.5758,
	"step": 166000
	},
	{
	"epoch": 7.77,
	"eval_loss": 2.5034148693084717,
	"eval_runtime": 54.9854,
	"eval_samples_per_second": 120.559,
	"eval_steps_per_second": 1.891,
	"step": 166000
	},
	{
	"epoch": 7.81,
	"learning_rate": 1.0935672514619884e-05,
	"loss": 0.5792,
	"step": 167000
	},
	{
	"epoch": 7.81,
	"eval_loss": 2.525723934173584,
	"eval_runtime": 55.017,
	"eval_samples_per_second": 120.49,
	"eval_steps_per_second": 1.89,
	"step": 167000
	},
	{
	"epoch": 7.86,
	"learning_rate": 1.0701754385964913e-05,
	"loss": 0.5745,
	"step": 168000
	},
	{
	"epoch": 7.86,
	"eval_loss": 2.526042938232422,
	"eval_runtime": 54.987,
	"eval_samples_per_second": 120.556,
	"eval_steps_per_second": 1.891,
	"step": 168000
	},
	{
	"epoch": 7.91,
	"learning_rate": 1.0467836257309941e-05,
	"loss": 0.5702,
	"step": 169000
	},
	{
	"epoch": 7.91,
	"eval_loss": 2.5171217918395996,
	"eval_runtime": 54.976,
	"eval_samples_per_second": 120.58,
	"eval_steps_per_second": 1.892,
	"step": 169000
	},
	{
	"epoch": 7.95,
	"learning_rate": 1.023391812865497e-05,
	"loss": 0.5714,
	"step": 170000
	},
	{
	"epoch": 7.95,
	"eval_loss": 2.509648323059082,
	"eval_runtime": 54.9828,
	"eval_samples_per_second": 120.565,
	"eval_steps_per_second": 1.892,
	"step": 170000
	},
	{
	"epoch": 8.0,
	"learning_rate": 1e-05,
	"loss": 0.5692,
	"step": 171000
	},
	{
	"epoch": 8.0,
	"eval_loss": 2.4963207244873047,
	"eval_runtime": 54.9818,
	"eval_samples_per_second": 120.567,
	"eval_steps_per_second": 1.892,
	"step": 171000
	},
	{
	"epoch": 8.05,
	"learning_rate": 9.76608187134503e-06,
	"loss": 0.5541,
	"step": 172000
	},
	{
	"epoch": 8.05,
	"eval_loss": 2.5158822536468506,
	"eval_runtime": 54.9875,
	"eval_samples_per_second": 120.555,
	"eval_steps_per_second": 1.891,
	"step": 172000
	},
	{
	"epoch": 8.09,
	"learning_rate": 9.532163742690059e-06,
	"loss": 0.5609,
	"step": 173000
	},
	{
	"epoch": 8.09,
	"eval_loss": 2.52651047706604,
	"eval_runtime": 54.9727,
	"eval_samples_per_second": 120.587,
	"eval_steps_per_second": 1.892,
	"step": 173000
	},
	{
	"epoch": 8.14,
	"learning_rate": 9.298245614035088e-06,
	"loss": 0.5567,
	"step": 174000
	},
	{
	"epoch": 8.14,
	"eval_loss": 2.529944658279419,
	"eval_runtime": 54.9646,
	"eval_samples_per_second": 120.605,
	"eval_steps_per_second": 1.892,
	"step": 174000
	},
	{
	"epoch": 8.19,
	"learning_rate": 9.064327485380117e-06,
	"loss": 0.5593,
	"step": 175000
	},
	{
	"epoch": 8.19,
	"eval_loss": 2.5352935791015625,
	"eval_runtime": 54.9969,
	"eval_samples_per_second": 120.534,
	"eval_steps_per_second": 1.891,
	"step": 175000
	},
	{
	"epoch": 8.23,
	"learning_rate": 8.830409356725146e-06,
	"loss": 0.5537,
	"step": 176000
	},
	{
	"epoch": 8.23,
	"eval_loss": 2.5415403842926025,
	"eval_runtime": 54.9924,
	"eval_samples_per_second": 120.544,
	"eval_steps_per_second": 1.891,
	"step": 176000
	},
	{
	"epoch": 8.28,
	"learning_rate": 8.596491228070176e-06,
	"loss": 0.5465,
	"step": 177000
	},
	{
	"epoch": 8.28,
	"eval_loss": 2.5204358100891113,
	"eval_runtime": 55.0062,
	"eval_samples_per_second": 120.514,
	"eval_steps_per_second": 1.891,
	"step": 177000
	},
	{
	"epoch": 8.33,
	"learning_rate": 8.362573099415205e-06,
	"loss": 0.548,
	"step": 178000
	},
	{
	"epoch": 8.33,
	"eval_loss": 2.5008552074432373,
	"eval_runtime": 54.9691,
	"eval_samples_per_second": 120.595,
	"eval_steps_per_second": 1.892,
	"step": 178000
	},
	{
	"epoch": 8.37,
	"learning_rate": 8.128654970760234e-06,
	"loss": 0.5477,
	"step": 179000
	},
	{
	"epoch": 8.37,
	"eval_loss": 2.5255722999572754,
	"eval_runtime": 54.9912,
	"eval_samples_per_second": 120.547,
	"eval_steps_per_second": 1.891,
	"step": 179000
	},
	{
	"epoch": 8.42,
	"learning_rate": 7.894736842105263e-06,
	"loss": 0.5393,
	"step": 180000
	},
	{
	"epoch": 8.42,
	"eval_loss": 2.49310564994812,
	"eval_runtime": 54.9871,
	"eval_samples_per_second": 120.556,
	"eval_steps_per_second": 1.891,
	"step": 180000
	},
	{
	"epoch": 8.47,
	"learning_rate": 7.660818713450294e-06,
	"loss": 0.5441,
	"step": 181000
	},
	{
	"epoch": 8.47,
	"eval_loss": 2.5206234455108643,
	"eval_runtime": 54.9863,
	"eval_samples_per_second": 120.557,
	"eval_steps_per_second": 1.891,
	"step": 181000
	},
	{
	"epoch": 8.51,
	"learning_rate": 7.426900584795322e-06,
	"loss": 0.5419,
	"step": 182000
	},
	{
	"epoch": 8.51,
	"eval_loss": 2.511657476425171,
	"eval_runtime": 54.9931,
	"eval_samples_per_second": 120.542,
	"eval_steps_per_second": 1.891,
	"step": 182000
	},
	{
	"epoch": 8.56,
	"learning_rate": 7.192982456140351e-06,
	"loss": 0.5377,
	"step": 183000
	},
	{
	"epoch": 8.56,
	"eval_loss": 2.534726142883301,
	"eval_runtime": 55.0074,
	"eval_samples_per_second": 120.511,
	"eval_steps_per_second": 1.891,
	"step": 183000
	},
	{
	"epoch": 8.61,
	"learning_rate": 6.95906432748538e-06,
	"loss": 0.5375,
	"step": 184000
	},
	{
	"epoch": 8.61,
	"eval_loss": 2.4978044033050537,
	"eval_runtime": 55.0077,
	"eval_samples_per_second": 120.51,
	"eval_steps_per_second": 1.891,
	"step": 184000
	},
	{
	"epoch": 8.65,
	"learning_rate": 6.725146198830409e-06,
	"loss": 0.5375,
	"step": 185000
	},
	{
	"epoch": 8.65,
	"eval_loss": 2.4929347038269043,
	"eval_runtime": 54.9953,
	"eval_samples_per_second": 120.537,
	"eval_steps_per_second": 1.891,
	"step": 185000
	},
	{
	"epoch": 8.7,
	"learning_rate": 6.4912280701754385e-06,
	"loss": 0.5354,
	"step": 186000
	},
	{
	"epoch": 8.7,
	"eval_loss": 2.4908556938171387,
	"eval_runtime": 55.0037,
	"eval_samples_per_second": 120.519,
	"eval_steps_per_second": 1.891,
	"step": 186000
	},
	{
	"epoch": 8.75,
	"learning_rate": 6.2573099415204685e-06,
	"loss": 0.5318,
	"step": 187000
	},
	{
	"epoch": 8.75,
	"eval_loss": 2.531054973602295,
	"eval_runtime": 54.9993,
	"eval_samples_per_second": 120.529,
	"eval_steps_per_second": 1.891,
	"step": 187000
	},
	{
	"epoch": 8.8,
	"learning_rate": 6.023391812865498e-06,
	"loss": 0.5338,
	"step": 188000
	},
	{
	"epoch": 8.8,
	"eval_loss": 2.5138602256774902,
	"eval_runtime": 54.9949,
	"eval_samples_per_second": 120.539,
	"eval_steps_per_second": 1.891,
	"step": 188000
	},
	{
	"epoch": 8.84,
	"learning_rate": 5.789473684210527e-06,
	"loss": 0.5247,
	"step": 189000
	},
	{
	"epoch": 8.84,
	"eval_loss": 2.5182831287384033,
	"eval_runtime": 54.9996,
	"eval_samples_per_second": 120.528,
	"eval_steps_per_second": 1.891,
	"step": 189000
	},
	{
	"epoch": 8.89,
	"learning_rate": 5.555555555555556e-06,
	"loss": 0.5249,
	"step": 190000
	},
	{
	"epoch": 8.89,
	"eval_loss": 2.5073628425598145,
	"eval_runtime": 54.9824,
	"eval_samples_per_second": 120.566,
	"eval_steps_per_second": 1.892,
	"step": 190000
	},
	{
	"epoch": 8.94,
	"learning_rate": 5.321637426900585e-06,
	"loss": 0.5266,
	"step": 191000
	},
	{
	"epoch": 8.94,
	"eval_loss": 2.5005078315734863,
	"eval_runtime": 54.9464,
	"eval_samples_per_second": 120.645,
	"eval_steps_per_second": 1.893,
	"step": 191000
	},
	{
	"epoch": 8.98,
	"learning_rate": 5.087719298245614e-06,
	"loss": 0.5279,
	"step": 192000
	},
	{
	"epoch": 8.98,
	"eval_loss": 2.5144731998443604,
	"eval_runtime": 54.9856,
	"eval_samples_per_second": 120.559,
	"eval_steps_per_second": 1.891,
	"step": 192000
	},
	{
	"epoch": 9.03,
	"learning_rate": 4.853801169590644e-06,
	"loss": 0.5231,
	"step": 193000
	},
	{
	"epoch": 9.03,
	"eval_loss": 2.5163862705230713,
	"eval_runtime": 54.965,
	"eval_samples_per_second": 120.604,
	"eval_steps_per_second": 1.892,
	"step": 193000
	},
	{
	"epoch": 9.08,
	"learning_rate": 4.619883040935673e-06,
	"loss": 0.5157,
	"step": 194000
	},
	{
	"epoch": 9.08,
	"eval_loss": 2.4902589321136475,
	"eval_runtime": 54.9685,
	"eval_samples_per_second": 120.596,
	"eval_steps_per_second": 1.892,
	"step": 194000
	},
	{
	"epoch": 9.12,
	"learning_rate": 4.3859649122807014e-06,
	"loss": 0.5153,
	"step": 195000
	},
	{
	"epoch": 9.12,
	"eval_loss": 2.5248496532440186,
	"eval_runtime": 55.0107,
	"eval_samples_per_second": 120.504,
	"eval_steps_per_second": 1.891,
	"step": 195000
	},
	{
	"epoch": 9.17,
	"learning_rate": 4.152046783625731e-06,
	"loss": 0.5238,
	"step": 196000
	},
	{
	"epoch": 9.17,
	"eval_loss": 2.4956910610198975,
	"eval_runtime": 54.9681,
	"eval_samples_per_second": 120.597,
	"eval_steps_per_second": 1.892,
	"step": 196000
	},
	{
	"epoch": 9.22,
	"learning_rate": 3.9181286549707605e-06,
	"loss": 0.5229,
	"step": 197000
	},
	{
	"epoch": 9.22,
	"eval_loss": 2.509634256362915,
	"eval_runtime": 55.0395,
	"eval_samples_per_second": 120.441,
	"eval_steps_per_second": 1.89,
	"step": 197000
	},
	{
	"epoch": 9.26,
	"learning_rate": 3.6842105263157892e-06,
	"loss": 0.5099,
	"step": 198000
	},
	{
	"epoch": 9.26,
	"eval_loss": 2.505375862121582,
	"eval_runtime": 54.9659,
	"eval_samples_per_second": 120.602,
	"eval_steps_per_second": 1.892,
	"step": 198000
	},
	{
	"epoch": 9.31,
	"learning_rate": 3.4502923976608188e-06,
	"loss": 0.5164,
	"step": 199000
	},
	{
	"epoch": 9.31,
	"eval_loss": 2.512755870819092,
	"eval_runtime": 54.9727,
	"eval_samples_per_second": 120.587,
	"eval_steps_per_second": 1.892,
	"step": 199000
	},
	{
	"epoch": 9.36,
	"learning_rate": 3.216374269005848e-06,
	"loss": 0.5147,
	"step": 200000
	},
	{
	"epoch": 9.36,
	"eval_loss": 2.5104758739471436,
	"eval_runtime": 54.9829,
	"eval_samples_per_second": 120.565,
	"eval_steps_per_second": 1.891,
	"step": 200000
	},
	{
	"epoch": 9.4,
	"learning_rate": 2.9824561403508774e-06,
	"loss": 0.5092,
	"step": 201000
	},
	{
	"epoch": 9.4,
	"eval_loss": 2.5510807037353516,
	"eval_runtime": 54.9886,
	"eval_samples_per_second": 120.552,
	"eval_steps_per_second": 1.891,
	"step": 201000
	},
	{
	"epoch": 9.45,
	"learning_rate": 2.7485380116959066e-06,
	"loss": 0.5123,
	"step": 202000
	},
	{
	"epoch": 9.45,
	"eval_loss": 2.4837098121643066,
	"eval_runtime": 54.9612,
	"eval_samples_per_second": 120.612,
	"eval_steps_per_second": 1.892,
	"step": 202000
	},
	{
	"epoch": 9.5,
	"learning_rate": 2.5146198830409357e-06,
	"loss": 0.5077,
	"step": 203000
	},
	{
	"epoch": 9.5,
	"eval_loss": 2.5026121139526367,
	"eval_runtime": 55.0018,
	"eval_samples_per_second": 120.523,
	"eval_steps_per_second": 1.891,
	"step": 203000
	},
	{
	"epoch": 9.54,
	"learning_rate": 2.2807017543859652e-06,
	"loss": 0.5112,
	"step": 204000
	},
	{
	"epoch": 9.54,
	"eval_loss": 2.514636278152466,
	"eval_runtime": 54.9811,
	"eval_samples_per_second": 120.569,
	"eval_steps_per_second": 1.892,
	"step": 204000
	},
	{
	"epoch": 9.59,
	"learning_rate": 2.0467836257309943e-06,
	"loss": 0.5033,
	"step": 205000
	},
	{
	"epoch": 9.59,
	"eval_loss": 2.537416696548462,
	"eval_runtime": 54.983,
	"eval_samples_per_second": 120.565,
	"eval_steps_per_second": 1.891,
	"step": 205000
	},
	{
	"epoch": 9.64,
	"learning_rate": 1.8128654970760235e-06,
	"loss": 0.5111,
	"step": 206000
	},
	{
	"epoch": 9.64,
	"eval_loss": 2.515895366668701,
	"eval_runtime": 54.9923,
	"eval_samples_per_second": 120.544,
	"eval_steps_per_second": 1.891,
	"step": 206000
	},
	{
	"epoch": 9.68,
	"learning_rate": 1.5789473684210528e-06,
	"loss": 0.5119,
	"step": 207000
	},
	{
	"epoch": 9.68,
	"eval_loss": 2.5189149379730225,
	"eval_runtime": 54.9887,
	"eval_samples_per_second": 120.552,
	"eval_steps_per_second": 1.891,
	"step": 207000
	},
	{
	"epoch": 9.73,
	"learning_rate": 1.345029239766082e-06,
	"loss": 0.5022,
	"step": 208000
	},
	{
	"epoch": 9.73,
	"eval_loss": 2.506300926208496,
	"eval_runtime": 54.9799,
	"eval_samples_per_second": 120.571,
	"eval_steps_per_second": 1.892,
	"step": 208000
	},
	{
	"epoch": 9.78,
	"learning_rate": 1.1111111111111112e-06,
	"loss": 0.5051,
	"step": 209000
	},
	{
	"epoch": 9.78,
	"eval_loss": 2.4811651706695557,
	"eval_runtime": 54.958,
	"eval_samples_per_second": 120.619,
	"eval_steps_per_second": 1.892,
	"step": 209000
	},
	{
	"epoch": 9.82,
	"learning_rate": 8.771929824561404e-07,
	"loss": 0.5028,
	"step": 210000
	},
	{
	"epoch": 9.82,
	"eval_loss": 2.4914138317108154,
	"eval_runtime": 55.0024,
	"eval_samples_per_second": 120.522,
	"eval_steps_per_second": 1.891,
	"step": 210000
	},
	{
	"epoch": 9.87,
	"learning_rate": 6.432748538011697e-07,
	"loss": 0.5066,
	"step": 211000
	},
	{
	"epoch": 9.87,
	"eval_loss": 2.5056285858154297,
	"eval_runtime": 54.9649,
	"eval_samples_per_second": 120.604,
	"eval_steps_per_second": 1.892,
	"step": 211000
	},
	{
	"epoch": 9.92,
	"learning_rate": 4.093567251461989e-07,
	"loss": 0.5058,
	"step": 212000
	},
	{
	"epoch": 9.92,
	"eval_loss": 2.53446102142334,
	"eval_runtime": 54.9817,
	"eval_samples_per_second": 120.567,
	"eval_steps_per_second": 1.892,
	"step": 212000
	},
	{
	"epoch": 9.96,
	"learning_rate": 1.7543859649122808e-07,
	"loss": 0.507,
	"step": 213000
	},
	{
	"epoch": 9.96,
	"eval_loss": 2.507356882095337,
	"eval_runtime": 55.001,
	"eval_samples_per_second": 120.525,
	"eval_steps_per_second": 1.891,
	"step": 213000
	}
	],
	"max_steps": 213750,
	"num_train_epochs": 10,
	"total_flos": 4.4847043698061394e+18,
	"trial_name": null,
	"trial_params": null
	}