mnli / trainer_state.json

Training in progress, step 200

84ce188 almost 4 years ago

56.8 kB

	{
	"best_metric": 86.3506916192026,
	"best_model_checkpoint": "outputs/bitfit/t5-base/mnli/checkpoint-32800",
	"epoch": 3.0,
	"global_step": 36816,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02,
	"eval_accuracy": 84.0520748576078,
	"eval_average_metrics": 84.0520748576078,
	"eval_loss": 0.19396202266216278,
	"eval_runtime": 73.5315,
	"eval_samples_per_second": 133.711,
	"step": 200
	},
	{
	"epoch": 0.03,
	"eval_accuracy": 85.08950366151342,
	"eval_average_metrics": 85.08950366151342,
	"eval_loss": 0.1736125648021698,
	"eval_runtime": 77.6953,
	"eval_samples_per_second": 126.546,
	"step": 400
	},
	{
	"epoch": 0.04,
	"learning_rate": 0.0002959256844850065,
	"loss": 0.2786,
	"step": 500
	},
	{
	"epoch": 0.05,
	"eval_accuracy": 85.25223759153783,
	"eval_average_metrics": 85.25223759153783,
	"eval_loss": 0.1704595386981964,
	"eval_runtime": 71.3646,
	"eval_samples_per_second": 137.771,
	"step": 600
	},
	{
	"epoch": 0.07,
	"eval_accuracy": 85.120016273393,
	"eval_average_metrics": 85.120016273393,
	"eval_loss": 0.17760007083415985,
	"eval_runtime": 70.572,
	"eval_samples_per_second": 139.319,
	"step": 800
	},
	{
	"epoch": 0.08,
	"learning_rate": 0.000291851368970013,
	"loss": 0.1754,
	"step": 1000
	},
	{
	"epoch": 0.08,
	"eval_accuracy": 85.81163547599675,
	"eval_average_metrics": 85.81163547599675,
	"eval_loss": 0.17395834624767303,
	"eval_runtime": 68.4178,
	"eval_samples_per_second": 143.705,
	"step": 1000
	},
	{
	"epoch": 0.1,
	"eval_accuracy": 86.04556550040684,
	"eval_average_metrics": 86.04556550040684,
	"eval_loss": 0.16720984876155853,
	"eval_runtime": 74.935,
	"eval_samples_per_second": 131.207,
	"step": 1200
	},
	{
	"epoch": 0.11,
	"eval_accuracy": 85.85231895850285,
	"eval_average_metrics": 85.85231895850285,
	"eval_loss": 0.1686050444841385,
	"eval_runtime": 65.5334,
	"eval_samples_per_second": 150.03,
	"step": 1400
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.00028777705345501956,
	"loss": 0.17,
	"step": 1500
	},
	{
	"epoch": 0.13,
	"eval_accuracy": 84.83523189585028,
	"eval_average_metrics": 84.83523189585028,
	"eval_loss": 0.17506256699562073,
	"eval_runtime": 72.658,
	"eval_samples_per_second": 135.319,
	"step": 1600
	},
	{
	"epoch": 0.15,
	"eval_accuracy": 85.77095199349064,
	"eval_average_metrics": 85.77095199349064,
	"eval_loss": 0.16318167746067047,
	"eval_runtime": 71.0929,
	"eval_samples_per_second": 138.298,
	"step": 1800
	},
	{
	"epoch": 0.16,
	"learning_rate": 0.000283702737940026,
	"loss": 0.1593,
	"step": 2000
	},
	{
	"epoch": 0.16,
	"eval_accuracy": 84.98779495524816,
	"eval_average_metrics": 84.98779495524816,
	"eval_loss": 0.17500561475753784,
	"eval_runtime": 76.1036,
	"eval_samples_per_second": 129.192,
	"step": 2000
	},
	{
	"epoch": 0.18,
	"eval_accuracy": 85.22172497965825,
	"eval_average_metrics": 85.22172497965825,
	"eval_loss": 0.16974958777427673,
	"eval_runtime": 73.5318,
	"eval_samples_per_second": 133.711,
	"step": 2200
	},
	{
	"epoch": 0.2,
	"eval_accuracy": 84.93694060211554,
	"eval_average_metrics": 84.93694060211554,
	"eval_loss": 0.16803883016109467,
	"eval_runtime": 71.8068,
	"eval_samples_per_second": 136.923,
	"step": 2400
	},
	{
	"epoch": 0.2,
	"learning_rate": 0.00027962842242503253,
	"loss": 0.1626,
	"step": 2500
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 85.64890154597234,
	"eval_average_metrics": 85.64890154597234,
	"eval_loss": 0.16620652377605438,
	"eval_runtime": 70.4457,
	"eval_samples_per_second": 139.569,
	"step": 2600
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 85.17087062652563,
	"eval_average_metrics": 85.17087062652563,
	"eval_loss": 0.16685815155506134,
	"eval_runtime": 70.323,
	"eval_samples_per_second": 139.812,
	"step": 2800
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0002755541069100391,
	"loss": 0.1637,
	"step": 3000
	},
	{
	"epoch": 0.24,
	"eval_accuracy": 85.08950366151342,
	"eval_average_metrics": 85.08950366151342,
	"eval_loss": 0.1686829775571823,
	"eval_runtime": 68.4934,
	"eval_samples_per_second": 143.547,
	"step": 3000
	},
	{
	"epoch": 0.26,
	"eval_accuracy": 84.67249796582588,
	"eval_average_metrics": 84.67249796582588,
	"eval_loss": 0.1832115650177002,
	"eval_runtime": 69.9104,
	"eval_samples_per_second": 140.637,
	"step": 3200
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 85.74043938161107,
	"eval_average_metrics": 85.74043938161107,
	"eval_loss": 0.15809670090675354,
	"eval_runtime": 71.8214,
	"eval_samples_per_second": 136.895,
	"step": 3400
	},
	{
	"epoch": 0.29,
	"learning_rate": 0.0002714797913950456,
	"loss": 0.1611,
	"step": 3500
	},
	{
	"epoch": 0.29,
	"eval_accuracy": 85.82180634662328,
	"eval_average_metrics": 85.82180634662328,
	"eval_loss": 0.16679300367832184,
	"eval_runtime": 68.4877,
	"eval_samples_per_second": 143.559,
	"step": 3600
	},
	{
	"epoch": 0.31,
	"eval_accuracy": 85.69975589910497,
	"eval_average_metrics": 85.69975589910497,
	"eval_loss": 0.1635247766971588,
	"eval_runtime": 70.3174,
	"eval_samples_per_second": 139.823,
	"step": 3800
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.0002674054758800521,
	"loss": 0.1546,
	"step": 4000
	},
	{
	"epoch": 0.33,
	"eval_accuracy": 85.8319772172498,
	"eval_average_metrics": 85.8319772172498,
	"eval_loss": 0.16676998138427734,
	"eval_runtime": 73.2289,
	"eval_samples_per_second": 134.264,
	"step": 4000
	},
	{
	"epoch": 0.34,
	"eval_accuracy": 85.50650935720098,
	"eval_average_metrics": 85.50650935720098,
	"eval_loss": 0.17212657630443573,
	"eval_runtime": 74.584,
	"eval_samples_per_second": 131.824,
	"step": 4200
	},
	{
	"epoch": 0.36,
	"eval_accuracy": 85.54719283970708,
	"eval_average_metrics": 85.54719283970708,
	"eval_loss": 0.17162065207958221,
	"eval_runtime": 69.8754,
	"eval_samples_per_second": 140.708,
	"step": 4400
	},
	{
	"epoch": 0.37,
	"learning_rate": 0.00026333116036505864,
	"loss": 0.1531,
	"step": 4500
	},
	{
	"epoch": 0.37,
	"eval_accuracy": 85.96419853539463,
	"eval_average_metrics": 85.96419853539463,
	"eval_loss": 0.16573481261730194,
	"eval_runtime": 67.7552,
	"eval_samples_per_second": 145.111,
	"step": 4600
	},
	{
	"epoch": 0.39,
	"eval_accuracy": 85.78112286411717,
	"eval_average_metrics": 85.78112286411717,
	"eval_loss": 0.16396570205688477,
	"eval_runtime": 63.3281,
	"eval_samples_per_second": 155.255,
	"step": 4800
	},
	{
	"epoch": 0.41,
	"learning_rate": 0.0002592568448500652,
	"loss": 0.1566,
	"step": 5000
	},
	{
	"epoch": 0.41,
	"eval_accuracy": 85.73026851098454,
	"eval_average_metrics": 85.73026851098454,
	"eval_loss": 0.16679789125919342,
	"eval_runtime": 68.8228,
	"eval_samples_per_second": 142.86,
	"step": 5000
	},
	{
	"epoch": 0.42,
	"eval_accuracy": 85.68958502847845,
	"eval_average_metrics": 85.68958502847845,
	"eval_loss": 0.16058295965194702,
	"eval_runtime": 66.5592,
	"eval_samples_per_second": 147.718,
	"step": 5200
	},
	{
	"epoch": 0.44,
	"eval_accuracy": 85.66924328722538,
	"eval_average_metrics": 85.66924328722538,
	"eval_loss": 0.1740991473197937,
	"eval_runtime": 66.4465,
	"eval_samples_per_second": 147.969,
	"step": 5400
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.00025518252933507166,
	"loss": 0.1514,
	"step": 5500
	},
	{
	"epoch": 0.46,
	"eval_accuracy": 84.66232709519936,
	"eval_average_metrics": 84.66232709519936,
	"eval_loss": 0.18576639890670776,
	"eval_runtime": 66.3297,
	"eval_samples_per_second": 148.229,
	"step": 5600
	},
	{
	"epoch": 0.47,
	"eval_accuracy": 85.88283157038242,
	"eval_average_metrics": 85.88283157038242,
	"eval_loss": 0.16450409591197968,
	"eval_runtime": 64.7793,
	"eval_samples_per_second": 151.777,
	"step": 5800
	},
	{
	"epoch": 0.49,
	"learning_rate": 0.0002511082138200782,
	"loss": 0.1531,
	"step": 6000
	},
	{
	"epoch": 0.49,
	"eval_accuracy": 85.13018714401953,
	"eval_average_metrics": 85.13018714401953,
	"eval_loss": 0.17607340216636658,
	"eval_runtime": 63.5814,
	"eval_samples_per_second": 154.637,
	"step": 6000
	},
	{
	"epoch": 0.51,
	"eval_accuracy": 85.35394629780309,
	"eval_average_metrics": 85.35394629780309,
	"eval_loss": 0.16797170042991638,
	"eval_runtime": 63.9708,
	"eval_samples_per_second": 153.695,
	"step": 6200
	},
	{
	"epoch": 0.52,
	"eval_accuracy": 85.75061025223759,
	"eval_average_metrics": 85.75061025223759,
	"eval_loss": 0.16036862134933472,
	"eval_runtime": 64.9464,
	"eval_samples_per_second": 151.386,
	"step": 6400
	},
	{
	"epoch": 0.53,
	"learning_rate": 0.00024703389830508474,
	"loss": 0.1544,
	"step": 6500
	},
	{
	"epoch": 0.54,
	"eval_accuracy": 85.64890154597234,
	"eval_average_metrics": 85.64890154597234,
	"eval_loss": 0.16572105884552002,
	"eval_runtime": 67.1736,
	"eval_samples_per_second": 146.367,
	"step": 6600
	},
	{
	"epoch": 0.55,
	"eval_accuracy": 85.40480065093573,
	"eval_average_metrics": 85.40480065093573,
	"eval_loss": 0.16141638159751892,
	"eval_runtime": 67.3069,
	"eval_samples_per_second": 146.077,
	"step": 6800
	},
	{
	"epoch": 0.57,
	"learning_rate": 0.00024295958279009125,
	"loss": 0.1549,
	"step": 7000
	},
	{
	"epoch": 0.57,
	"eval_accuracy": 85.84214808787632,
	"eval_average_metrics": 85.84214808787632,
	"eval_loss": 0.1581791192293167,
	"eval_runtime": 70.2525,
	"eval_samples_per_second": 139.952,
	"step": 7000
	},
	{
	"epoch": 0.59,
	"eval_accuracy": 85.78112286411717,
	"eval_average_metrics": 85.78112286411717,
	"eval_loss": 0.1584727168083191,
	"eval_runtime": 70.5829,
	"eval_samples_per_second": 139.297,
	"step": 7200
	},
	{
	"epoch": 0.6,
	"eval_accuracy": 85.84214808787632,
	"eval_average_metrics": 85.84214808787632,
	"eval_loss": 0.16103526949882507,
	"eval_runtime": 66.5529,
	"eval_samples_per_second": 147.732,
	"step": 7400
	},
	{
	"epoch": 0.61,
	"learning_rate": 0.00023888526727509777,
	"loss": 0.1572,
	"step": 7500
	},
	{
	"epoch": 0.62,
	"eval_accuracy": 86.00488201790073,
	"eval_average_metrics": 86.00488201790073,
	"eval_loss": 0.17075441777706146,
	"eval_runtime": 61.313,
	"eval_samples_per_second": 160.358,
	"step": 7600
	},
	{
	"epoch": 0.64,
	"eval_accuracy": 85.89300244100895,
	"eval_average_metrics": 85.89300244100895,
	"eval_loss": 0.1631649136543274,
	"eval_runtime": 70.2006,
	"eval_samples_per_second": 140.056,
	"step": 7800
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0002348109517601043,
	"loss": 0.1552,
	"step": 8000
	},
	{
	"epoch": 0.65,
	"eval_accuracy": 86.00488201790073,
	"eval_average_metrics": 86.00488201790073,
	"eval_loss": 0.15884214639663696,
	"eval_runtime": 70.0105,
	"eval_samples_per_second": 140.436,
	"step": 8000
	},
	{
	"epoch": 0.67,
	"eval_accuracy": 85.42514239218877,
	"eval_average_metrics": 85.42514239218877,
	"eval_loss": 0.16717489063739777,
	"eval_runtime": 67.9572,
	"eval_samples_per_second": 144.679,
	"step": 8200
	},
	{
	"epoch": 0.68,
	"eval_accuracy": 85.66924328722538,
	"eval_average_metrics": 85.66924328722538,
	"eval_loss": 0.16362008452415466,
	"eval_runtime": 71.9947,
	"eval_samples_per_second": 136.566,
	"step": 8400
	},
	{
	"epoch": 0.69,
	"learning_rate": 0.00023073663624511082,
	"loss": 0.1518,
	"step": 8500
	},
	{
	"epoch": 0.7,
	"eval_accuracy": 85.49633848657446,
	"eval_average_metrics": 85.49633848657446,
	"eval_loss": 0.16621538996696472,
	"eval_runtime": 70.1174,
	"eval_samples_per_second": 140.222,
	"step": 8600
	},
	{
	"epoch": 0.72,
	"eval_accuracy": 85.98454027664768,
	"eval_average_metrics": 85.98454027664768,
	"eval_loss": 0.16499604284763336,
	"eval_runtime": 68.6629,
	"eval_samples_per_second": 143.192,
	"step": 8800
	},
	{
	"epoch": 0.73,
	"learning_rate": 0.0002266623207301173,
	"loss": 0.1514,
	"step": 9000
	},
	{
	"epoch": 0.73,
	"eval_accuracy": 86.09641985353946,
	"eval_average_metrics": 86.09641985353946,
	"eval_loss": 0.1623799055814743,
	"eval_runtime": 70.2156,
	"eval_samples_per_second": 140.026,
	"step": 9000
	},
	{
	"epoch": 0.75,
	"eval_accuracy": 85.54719283970708,
	"eval_average_metrics": 85.54719283970708,
	"eval_loss": 0.1693897545337677,
	"eval_runtime": 64.4752,
	"eval_samples_per_second": 152.493,
	"step": 9200
	},
	{
	"epoch": 0.77,
	"eval_accuracy": 85.15052888527258,
	"eval_average_metrics": 85.15052888527258,
	"eval_loss": 0.16912253201007843,
	"eval_runtime": 71.6316,
	"eval_samples_per_second": 137.258,
	"step": 9400
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.00022258800521512384,
	"loss": 0.1492,
	"step": 9500
	},
	{
	"epoch": 0.78,
	"eval_accuracy": 85.81163547599675,
	"eval_average_metrics": 85.81163547599675,
	"eval_loss": 0.16445724666118622,
	"eval_runtime": 70.0896,
	"eval_samples_per_second": 140.278,
	"step": 9600
	},
	{
	"epoch": 0.8,
	"eval_accuracy": 85.51668022782751,
	"eval_average_metrics": 85.51668022782751,
	"eval_loss": 0.171467587351799,
	"eval_runtime": 67.0912,
	"eval_samples_per_second": 146.547,
	"step": 9800
	},
	{
	"epoch": 0.81,
	"learning_rate": 0.00021851368970013035,
	"loss": 0.1465,
	"step": 10000
	},
	{
	"epoch": 0.81,
	"eval_accuracy": 85.76078112286412,
	"eval_average_metrics": 85.76078112286412,
	"eval_loss": 0.16485248506069183,
	"eval_runtime": 71.6667,
	"eval_samples_per_second": 137.191,
	"step": 10000
	},
	{
	"epoch": 0.83,
	"eval_accuracy": 85.54719283970708,
	"eval_average_metrics": 85.54719283970708,
	"eval_loss": 0.16628311574459076,
	"eval_runtime": 69.3952,
	"eval_samples_per_second": 141.681,
	"step": 10200
	},
	{
	"epoch": 0.85,
	"eval_accuracy": 85.72009764035802,
	"eval_average_metrics": 85.72009764035802,
	"eval_loss": 0.1626047044992447,
	"eval_runtime": 63.0097,
	"eval_samples_per_second": 156.039,
	"step": 10400
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.0002144393741851369,
	"loss": 0.1478,
	"step": 10500
	},
	{
	"epoch": 0.86,
	"eval_accuracy": 85.64890154597234,
	"eval_average_metrics": 85.64890154597234,
	"eval_loss": 0.16279704868793488,
	"eval_runtime": 72.6628,
	"eval_samples_per_second": 135.31,
	"step": 10600
	},
	{
	"epoch": 0.88,
	"eval_accuracy": 85.80146460537021,
	"eval_average_metrics": 85.80146460537021,
	"eval_loss": 0.1637255698442459,
	"eval_runtime": 71.5577,
	"eval_samples_per_second": 137.4,
	"step": 10800
	},
	{
	"epoch": 0.9,
	"learning_rate": 0.0002103650586701434,
	"loss": 0.1509,
	"step": 11000
	},
	{
	"epoch": 0.9,
	"eval_accuracy": 85.79129373474369,
	"eval_average_metrics": 85.79129373474369,
	"eval_loss": 0.16114714741706848,
	"eval_runtime": 72.3627,
	"eval_samples_per_second": 135.871,
	"step": 11000
	},
	{
	"epoch": 0.91,
	"eval_accuracy": 85.8319772172498,
	"eval_average_metrics": 85.8319772172498,
	"eval_loss": 0.15985067188739777,
	"eval_runtime": 68.9168,
	"eval_samples_per_second": 142.665,
	"step": 11200
	},
	{
	"epoch": 0.93,
	"eval_accuracy": 85.40480065093573,
	"eval_average_metrics": 85.40480065093573,
	"eval_loss": 0.17174053192138672,
	"eval_runtime": 68.3249,
	"eval_samples_per_second": 143.901,
	"step": 11400
	},
	{
	"epoch": 0.94,
	"learning_rate": 0.00020629074315514992,
	"loss": 0.15,
	"step": 11500
	},
	{
	"epoch": 0.95,
	"eval_accuracy": 85.97436940602115,
	"eval_average_metrics": 85.97436940602115,
	"eval_loss": 0.15932144224643707,
	"eval_runtime": 68.7187,
	"eval_samples_per_second": 143.076,
	"step": 11600
	},
	{
	"epoch": 0.96,
	"eval_accuracy": 85.59804719283972,
	"eval_average_metrics": 85.59804719283972,
	"eval_loss": 0.16465091705322266,
	"eval_runtime": 68.0374,
	"eval_samples_per_second": 144.509,
	"step": 11800
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.00020221642764015643,
	"loss": 0.1514,
	"step": 12000
	},
	{
	"epoch": 0.98,
	"eval_accuracy": 85.88283157038242,
	"eval_average_metrics": 85.88283157038242,
	"eval_loss": 0.15999911725521088,
	"eval_runtime": 67.678,
	"eval_samples_per_second": 145.276,
	"step": 12000
	},
	{
	"epoch": 0.99,
	"eval_accuracy": 86.0353946297803,
	"eval_average_metrics": 86.0353946297803,
	"eval_loss": 0.16025537252426147,
	"eval_runtime": 63.6019,
	"eval_samples_per_second": 154.587,
	"step": 12200
	},
	{
	"epoch": 1.01,
	"eval_accuracy": 85.8726606997559,
	"eval_average_metrics": 85.8726606997559,
	"eval_loss": 0.1621241718530655,
	"eval_runtime": 68.3301,
	"eval_samples_per_second": 143.89,
	"step": 12400
	},
	{
	"epoch": 1.02,
	"learning_rate": 0.00019814211212516294,
	"loss": 0.147,
	"step": 12500
	},
	{
	"epoch": 1.03,
	"eval_accuracy": 85.76078112286412,
	"eval_average_metrics": 85.76078112286412,
	"eval_loss": 0.17349866032600403,
	"eval_runtime": 66.9259,
	"eval_samples_per_second": 146.909,
	"step": 12600
	},
	{
	"epoch": 1.04,
	"eval_accuracy": 85.78112286411717,
	"eval_average_metrics": 85.78112286411717,
	"eval_loss": 0.1615545153617859,
	"eval_runtime": 69.1346,
	"eval_samples_per_second": 142.215,
	"step": 12800
	},
	{
	"epoch": 1.06,
	"learning_rate": 0.00019406779661016945,
	"loss": 0.143,
	"step": 13000
	},
	{
	"epoch": 1.06,
	"eval_accuracy": 85.84214808787632,
	"eval_average_metrics": 85.84214808787632,
	"eval_loss": 0.1661369502544403,
	"eval_runtime": 62.8833,
	"eval_samples_per_second": 156.353,
	"step": 13000
	},
	{
	"epoch": 1.08,
	"eval_accuracy": 86.06590724165989,
	"eval_average_metrics": 86.06590724165989,
	"eval_loss": 0.16263821721076965,
	"eval_runtime": 68.8917,
	"eval_samples_per_second": 142.717,
	"step": 13200
	},
	{
	"epoch": 1.09,
	"eval_accuracy": 85.69975589910497,
	"eval_average_metrics": 85.69975589910497,
	"eval_loss": 0.1634710133075714,
	"eval_runtime": 62.7526,
	"eval_samples_per_second": 156.679,
	"step": 13400
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.000189993481095176,
	"loss": 0.1444,
	"step": 13500
	},
	{
	"epoch": 1.11,
	"eval_accuracy": 85.78112286411717,
	"eval_average_metrics": 85.78112286411717,
	"eval_loss": 0.16405758261680603,
	"eval_runtime": 66.2833,
	"eval_samples_per_second": 148.333,
	"step": 13600
	},
	{
	"epoch": 1.12,
	"eval_accuracy": 85.9540276647681,
	"eval_average_metrics": 85.9540276647681,
	"eval_loss": 0.16064594686031342,
	"eval_runtime": 63.0321,
	"eval_samples_per_second": 155.984,
	"step": 13800
	},
	{
	"epoch": 1.14,
	"learning_rate": 0.0001859191655801825,
	"loss": 0.1466,
	"step": 14000
	},
	{
	"epoch": 1.14,
	"eval_accuracy": 86.31000813669651,
	"eval_average_metrics": 86.31000813669651,
	"eval_loss": 0.15932226181030273,
	"eval_runtime": 66.0369,
	"eval_samples_per_second": 148.886,
	"step": 14000
	},
	{
	"epoch": 1.16,
	"eval_accuracy": 85.72009764035802,
	"eval_average_metrics": 85.72009764035802,
	"eval_loss": 0.16476964950561523,
	"eval_runtime": 67.6592,
	"eval_samples_per_second": 145.316,
	"step": 14200
	},
	{
	"epoch": 1.17,
	"eval_accuracy": 85.36411716842962,
	"eval_average_metrics": 85.36411716842962,
	"eval_loss": 0.17415712773799896,
	"eval_runtime": 69.9268,
	"eval_samples_per_second": 140.604,
	"step": 14400
	},
	{
	"epoch": 1.18,
	"learning_rate": 0.00018184485006518905,
	"loss": 0.1493,
	"step": 14500
	},
	{
	"epoch": 1.19,
	"eval_accuracy": 85.65907241659886,
	"eval_average_metrics": 85.65907241659886,
	"eval_loss": 0.1634403020143509,
	"eval_runtime": 70.839,
	"eval_samples_per_second": 138.794,
	"step": 14600
	},
	{
	"epoch": 1.21,
	"eval_accuracy": 85.94385679414158,
	"eval_average_metrics": 85.94385679414158,
	"eval_loss": 0.16072088479995728,
	"eval_runtime": 67.4524,
	"eval_samples_per_second": 145.762,
	"step": 14800
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00017777053455019556,
	"loss": 0.1453,
	"step": 15000
	},
	{
	"epoch": 1.22,
	"eval_accuracy": 85.97436940602115,
	"eval_average_metrics": 85.97436940602115,
	"eval_loss": 0.16354931890964508,
	"eval_runtime": 71.4854,
	"eval_samples_per_second": 137.539,
	"step": 15000
	},
	{
	"epoch": 1.24,
	"eval_accuracy": 86.04556550040684,
	"eval_average_metrics": 86.04556550040684,
	"eval_loss": 0.16333648562431335,
	"eval_runtime": 68.0001,
	"eval_samples_per_second": 144.588,
	"step": 15200
	},
	{
	"epoch": 1.25,
	"eval_accuracy": 86.10659072416598,
	"eval_average_metrics": 86.10659072416598,
	"eval_loss": 0.1655624806880951,
	"eval_runtime": 70.1652,
	"eval_samples_per_second": 140.126,
	"step": 15400
	},
	{
	"epoch": 1.26,
	"learning_rate": 0.00017369621903520204,
	"loss": 0.1409,
	"step": 15500
	},
	{
	"epoch": 1.27,
	"eval_accuracy": 86.08624898291293,
	"eval_average_metrics": 86.08624898291293,
	"eval_loss": 0.16712406277656555,
	"eval_runtime": 70.4214,
	"eval_samples_per_second": 139.617,
	"step": 15600
	},
	{
	"epoch": 1.29,
	"eval_accuracy": 85.65907241659886,
	"eval_average_metrics": 85.65907241659886,
	"eval_loss": 0.16410161554813385,
	"eval_runtime": 69.5518,
	"eval_samples_per_second": 141.362,
	"step": 15800
	},
	{
	"epoch": 1.3,
	"learning_rate": 0.00016962190352020858,
	"loss": 0.144,
	"step": 16000
	},
	{
	"epoch": 1.3,
	"eval_accuracy": 86.0353946297803,
	"eval_average_metrics": 86.0353946297803,
	"eval_loss": 0.1600012332201004,
	"eval_runtime": 69.4158,
	"eval_samples_per_second": 141.639,
	"step": 16000
	},
	{
	"epoch": 1.32,
	"eval_accuracy": 85.9947111472742,
	"eval_average_metrics": 85.9947111472742,
	"eval_loss": 0.1664758175611496,
	"eval_runtime": 70.4437,
	"eval_samples_per_second": 139.572,
	"step": 16200
	},
	{
	"epoch": 1.34,
	"eval_accuracy": 86.10659072416598,
	"eval_average_metrics": 86.10659072416598,
	"eval_loss": 0.16372230648994446,
	"eval_runtime": 70.0549,
	"eval_samples_per_second": 140.347,
	"step": 16400
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.0001655475880052151,
	"loss": 0.142,
	"step": 16500
	},
	{
	"epoch": 1.35,
	"eval_accuracy": 86.01505288852725,
	"eval_average_metrics": 86.01505288852725,
	"eval_loss": 0.16394633054733276,
	"eval_runtime": 73.1757,
	"eval_samples_per_second": 134.362,
	"step": 16600
	},
	{
	"epoch": 1.37,
	"eval_accuracy": 86.19812855980472,
	"eval_average_metrics": 86.19812855980472,
	"eval_loss": 0.16236965358257294,
	"eval_runtime": 67.0918,
	"eval_samples_per_second": 146.545,
	"step": 16800
	},
	{
	"epoch": 1.39,
	"learning_rate": 0.00016147327249022163,
	"loss": 0.1469,
	"step": 17000
	},
	{
	"epoch": 1.39,
	"eval_accuracy": 86.06590724165989,
	"eval_average_metrics": 86.06590724165989,
	"eval_loss": 0.15920616686344147,
	"eval_runtime": 73.7251,
	"eval_samples_per_second": 133.36,
	"step": 17000
	},
	{
	"epoch": 1.4,
	"eval_accuracy": 86.31000813669651,
	"eval_average_metrics": 86.31000813669651,
	"eval_loss": 0.16292713582515717,
	"eval_runtime": 70.7554,
	"eval_samples_per_second": 138.958,
	"step": 17200
	},
	{
	"epoch": 1.42,
	"eval_accuracy": 85.86248982912937,
	"eval_average_metrics": 85.86248982912937,
	"eval_loss": 0.16360752284526825,
	"eval_runtime": 72.9243,
	"eval_samples_per_second": 134.825,
	"step": 17400
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.00015739895697522815,
	"loss": 0.145,
	"step": 17500
	},
	{
	"epoch": 1.43,
	"eval_accuracy": 85.88283157038242,
	"eval_average_metrics": 85.88283157038242,
	"eval_loss": 0.16182997822761536,
	"eval_runtime": 71.4174,
	"eval_samples_per_second": 137.67,
	"step": 17600
	},
	{
	"epoch": 1.45,
	"eval_accuracy": 85.79129373474369,
	"eval_average_metrics": 85.79129373474369,
	"eval_loss": 0.16671514511108398,
	"eval_runtime": 72.782,
	"eval_samples_per_second": 135.088,
	"step": 17800
	},
	{
	"epoch": 1.47,
	"learning_rate": 0.00015332464146023469,
	"loss": 0.1416,
	"step": 18000
	},
	{
	"epoch": 1.47,
	"eval_accuracy": 85.79129373474369,
	"eval_average_metrics": 85.79129373474369,
	"eval_loss": 0.16370686888694763,
	"eval_runtime": 69.6237,
	"eval_samples_per_second": 141.216,
	"step": 18000
	},
	{
	"epoch": 1.48,
	"eval_accuracy": 85.77095199349064,
	"eval_average_metrics": 85.77095199349064,
	"eval_loss": 0.15921832621097565,
	"eval_runtime": 69.2043,
	"eval_samples_per_second": 142.072,
	"step": 18200
	},
	{
	"epoch": 1.5,
	"eval_accuracy": 85.82180634662328,
	"eval_average_metrics": 85.82180634662328,
	"eval_loss": 0.1640625149011612,
	"eval_runtime": 68.8973,
	"eval_samples_per_second": 142.705,
	"step": 18400
	},
	{
	"epoch": 1.51,
	"learning_rate": 0.00014925032594524117,
	"loss": 0.1453,
	"step": 18500
	},
	{
	"epoch": 1.52,
	"eval_accuracy": 85.36411716842962,
	"eval_average_metrics": 85.36411716842962,
	"eval_loss": 0.1784326434135437,
	"eval_runtime": 73.5853,
	"eval_samples_per_second": 133.614,
	"step": 18600
	},
	{
	"epoch": 1.53,
	"eval_accuracy": 85.89300244100895,
	"eval_average_metrics": 85.89300244100895,
	"eval_loss": 0.16068434715270996,
	"eval_runtime": 69.0604,
	"eval_samples_per_second": 142.368,
	"step": 18800
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.0001451760104302477,
	"loss": 0.1414,
	"step": 19000
	},
	{
	"epoch": 1.55,
	"eval_accuracy": 85.75061025223759,
	"eval_average_metrics": 85.75061025223759,
	"eval_loss": 0.164332315325737,
	"eval_runtime": 75.2094,
	"eval_samples_per_second": 130.728,
	"step": 19000
	},
	{
	"epoch": 1.56,
	"eval_accuracy": 85.66924328722538,
	"eval_average_metrics": 85.66924328722538,
	"eval_loss": 0.15945520997047424,
	"eval_runtime": 70.4879,
	"eval_samples_per_second": 139.485,
	"step": 19200
	},
	{
	"epoch": 1.58,
	"eval_accuracy": 85.74043938161107,
	"eval_average_metrics": 85.74043938161107,
	"eval_loss": 0.15915806591510773,
	"eval_runtime": 72.0792,
	"eval_samples_per_second": 136.405,
	"step": 19400
	},
	{
	"epoch": 1.59,
	"learning_rate": 0.00014110169491525422,
	"loss": 0.1463,
	"step": 19500
	},
	{
	"epoch": 1.6,
	"eval_accuracy": 86.10659072416598,
	"eval_average_metrics": 86.10659072416598,
	"eval_loss": 0.16554424166679382,
	"eval_runtime": 69.3189,
	"eval_samples_per_second": 141.837,
	"step": 19600
	},
	{
	"epoch": 1.61,
	"eval_accuracy": 85.8726606997559,
	"eval_average_metrics": 85.8726606997559,
	"eval_loss": 0.1639343500137329,
	"eval_runtime": 70.0392,
	"eval_samples_per_second": 140.378,
	"step": 19800
	},
	{
	"epoch": 1.63,
	"learning_rate": 0.00013702737940026073,
	"loss": 0.1435,
	"step": 20000
	},
	{
	"epoch": 1.63,
	"eval_accuracy": 85.79129373474369,
	"eval_average_metrics": 85.79129373474369,
	"eval_loss": 0.1651633232831955,
	"eval_runtime": 72.4148,
	"eval_samples_per_second": 135.773,
	"step": 20000
	},
	{
	"epoch": 1.65,
	"eval_accuracy": 85.90317331163547,
	"eval_average_metrics": 85.90317331163547,
	"eval_loss": 0.163535937666893,
	"eval_runtime": 73.7758,
	"eval_samples_per_second": 133.269,
	"step": 20200
	},
	{
	"epoch": 1.66,
	"eval_accuracy": 85.81163547599675,
	"eval_average_metrics": 85.81163547599675,
	"eval_loss": 0.16132992506027222,
	"eval_runtime": 74.1683,
	"eval_samples_per_second": 132.563,
	"step": 20400
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.00013295306388526727,
	"loss": 0.1393,
	"step": 20500
	},
	{
	"epoch": 1.68,
	"eval_accuracy": 85.86248982912937,
	"eval_average_metrics": 85.86248982912937,
	"eval_loss": 0.16424906253814697,
	"eval_runtime": 75.4388,
	"eval_samples_per_second": 130.331,
	"step": 20600
	},
	{
	"epoch": 1.69,
	"eval_accuracy": 86.20829943043124,
	"eval_average_metrics": 86.20829943043124,
	"eval_loss": 0.16280879080295563,
	"eval_runtime": 73.6216,
	"eval_samples_per_second": 133.548,
	"step": 20800
	},
	{
	"epoch": 1.71,
	"learning_rate": 0.00012887874837027379,
	"loss": 0.1476,
	"step": 21000
	},
	{
	"epoch": 1.71,
	"eval_accuracy": 86.32017900732303,
	"eval_average_metrics": 86.32017900732303,
	"eval_loss": 0.1631232500076294,
	"eval_runtime": 75.2489,
	"eval_samples_per_second": 130.66,
	"step": 21000
	},
	{
	"epoch": 1.73,
	"eval_accuracy": 85.97436940602115,
	"eval_average_metrics": 85.97436940602115,
	"eval_loss": 0.16299067437648773,
	"eval_runtime": 66.4642,
	"eval_samples_per_second": 147.929,
	"step": 21200
	},
	{
	"epoch": 1.74,
	"eval_accuracy": 86.14727420667208,
	"eval_average_metrics": 86.14727420667208,
	"eval_loss": 0.16605544090270996,
	"eval_runtime": 72.8565,
	"eval_samples_per_second": 134.95,
	"step": 21400
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.0001248044328552803,
	"loss": 0.1434,
	"step": 21500
	},
	{
	"epoch": 1.76,
	"eval_accuracy": 85.73026851098454,
	"eval_average_metrics": 85.73026851098454,
	"eval_loss": 0.16752640902996063,
	"eval_runtime": 73.5899,
	"eval_samples_per_second": 133.605,
	"step": 21600
	},
	{
	"epoch": 1.78,
	"eval_accuracy": 86.05573637103336,
	"eval_average_metrics": 86.05573637103336,
	"eval_loss": 0.1640099287033081,
	"eval_runtime": 70.9879,
	"eval_samples_per_second": 138.503,
	"step": 21800
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.00012073011734028682,
	"loss": 0.1425,
	"step": 22000
	},
	{
	"epoch": 1.79,
	"eval_accuracy": 86.02522375915377,
	"eval_average_metrics": 86.02522375915377,
	"eval_loss": 0.1621551811695099,
	"eval_runtime": 67.2101,
	"eval_samples_per_second": 146.288,
	"step": 22000
	},
	{
	"epoch": 1.81,
	"eval_accuracy": 86.01505288852725,
	"eval_average_metrics": 86.01505288852725,
	"eval_loss": 0.1614847183227539,
	"eval_runtime": 68.053,
	"eval_samples_per_second": 144.476,
	"step": 22200
	},
	{
	"epoch": 1.83,
	"eval_accuracy": 85.84214808787632,
	"eval_average_metrics": 85.84214808787632,
	"eval_loss": 0.1623518317937851,
	"eval_runtime": 67.5192,
	"eval_samples_per_second": 145.618,
	"step": 22400
	},
	{
	"epoch": 1.83,
	"learning_rate": 0.00011665580182529335,
	"loss": 0.1441,
	"step": 22500
	},
	{
	"epoch": 1.84,
	"eval_accuracy": 86.06590724165989,
	"eval_average_metrics": 86.06590724165989,
	"eval_loss": 0.1657322645187378,
	"eval_runtime": 65.1547,
	"eval_samples_per_second": 150.902,
	"step": 22600
	},
	{
	"epoch": 1.86,
	"eval_accuracy": 86.00488201790073,
	"eval_average_metrics": 86.00488201790073,
	"eval_loss": 0.16235147416591644,
	"eval_runtime": 57.9601,
	"eval_samples_per_second": 169.634,
	"step": 22800
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00011258148631029986,
	"loss": 0.1391,
	"step": 23000
	},
	{
	"epoch": 1.87,
	"eval_accuracy": 85.82180634662328,
	"eval_average_metrics": 85.82180634662328,
	"eval_loss": 0.15935710072517395,
	"eval_runtime": 57.3417,
	"eval_samples_per_second": 171.463,
	"step": 23000
	},
	{
	"epoch": 1.89,
	"eval_accuracy": 85.81163547599675,
	"eval_average_metrics": 85.81163547599675,
	"eval_loss": 0.1635563224554062,
	"eval_runtime": 56.1817,
	"eval_samples_per_second": 175.003,
	"step": 23200
	},
	{
	"epoch": 1.91,
	"eval_accuracy": 85.7099267697315,
	"eval_average_metrics": 85.7099267697315,
	"eval_loss": 0.16560596227645874,
	"eval_runtime": 59.2499,
	"eval_samples_per_second": 165.941,
	"step": 23400
	},
	{
	"epoch": 1.91,
	"learning_rate": 0.00010850717079530637,
	"loss": 0.1382,
	"step": 23500
	},
	{
	"epoch": 1.92,
	"eval_accuracy": 86.02522375915377,
	"eval_average_metrics": 86.02522375915377,
	"eval_loss": 0.1604122817516327,
	"eval_runtime": 59.8309,
	"eval_samples_per_second": 164.33,
	"step": 23600
	},
	{
	"epoch": 1.94,
	"eval_accuracy": 85.80146460537021,
	"eval_average_metrics": 85.80146460537021,
	"eval_loss": 0.16524049639701843,
	"eval_runtime": 61.3749,
	"eval_samples_per_second": 160.196,
	"step": 23800
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.0001044328552803129,
	"loss": 0.1379,
	"step": 24000
	},
	{
	"epoch": 1.96,
	"eval_accuracy": 85.73026851098454,
	"eval_average_metrics": 85.73026851098454,
	"eval_loss": 0.16642265021800995,
	"eval_runtime": 61.5426,
	"eval_samples_per_second": 159.759,
	"step": 24000
	},
	{
	"epoch": 1.97,
	"eval_accuracy": 86.23881204231083,
	"eval_average_metrics": 86.23881204231083,
	"eval_loss": 0.1592371165752411,
	"eval_runtime": 61.4113,
	"eval_samples_per_second": 160.101,
	"step": 24200
	},
	{
	"epoch": 1.99,
	"eval_accuracy": 86.23881204231083,
	"eval_average_metrics": 86.23881204231083,
	"eval_loss": 0.16144132614135742,
	"eval_runtime": 60.7982,
	"eval_samples_per_second": 161.715,
	"step": 24400
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.00010035853976531943,
	"loss": 0.1454,
	"step": 24500
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 86.09641985353946,
	"eval_average_metrics": 86.09641985353946,
	"eval_loss": 0.1667686253786087,
	"eval_runtime": 60.7535,
	"eval_samples_per_second": 161.834,
	"step": 24600
	},
	{
	"epoch": 2.02,
	"eval_accuracy": 86.06590724165989,
	"eval_average_metrics": 86.06590724165989,
	"eval_loss": 0.1680220663547516,
	"eval_runtime": 58.6093,
	"eval_samples_per_second": 167.755,
	"step": 24800
	},
	{
	"epoch": 2.04,
	"learning_rate": 9.628422425032592e-05,
	"loss": 0.138,
	"step": 25000
	},
	{
	"epoch": 2.04,
	"eval_accuracy": 85.84214808787632,
	"eval_average_metrics": 85.84214808787632,
	"eval_loss": 0.16406849026679993,
	"eval_runtime": 56.628,
	"eval_samples_per_second": 173.624,
	"step": 25000
	},
	{
	"epoch": 2.05,
	"eval_accuracy": 85.89300244100895,
	"eval_average_metrics": 85.89300244100895,
	"eval_loss": 0.16717499494552612,
	"eval_runtime": 55.5415,
	"eval_samples_per_second": 177.021,
	"step": 25200
	},
	{
	"epoch": 2.07,
	"eval_accuracy": 86.18795768917819,
	"eval_average_metrics": 86.18795768917819,
	"eval_loss": 0.16641969978809357,
	"eval_runtime": 52.5873,
	"eval_samples_per_second": 186.965,
	"step": 25400
	},
	{
	"epoch": 2.08,
	"learning_rate": 9.220990873533245e-05,
	"loss": 0.1356,
	"step": 25500
	},
	{
	"epoch": 2.09,
	"eval_accuracy": 86.0353946297803,
	"eval_average_metrics": 86.0353946297803,
	"eval_loss": 0.16517092287540436,
	"eval_runtime": 54.8202,
	"eval_samples_per_second": 179.35,
	"step": 25600
	},
	{
	"epoch": 2.1,
	"eval_accuracy": 86.20829943043124,
	"eval_average_metrics": 86.20829943043124,
	"eval_loss": 0.1606525331735611,
	"eval_runtime": 58.0473,
	"eval_samples_per_second": 169.379,
	"step": 25800
	},
	{
	"epoch": 2.12,
	"learning_rate": 8.813559322033898e-05,
	"loss": 0.138,
	"step": 26000
	},
	{
	"epoch": 2.12,
	"eval_accuracy": 85.75061025223759,
	"eval_average_metrics": 85.75061025223759,
	"eval_loss": 0.1638970524072647,
	"eval_runtime": 60.2198,
	"eval_samples_per_second": 163.268,
	"step": 26000
	},
	{
	"epoch": 2.13,
	"eval_accuracy": 85.913344182262,
	"eval_average_metrics": 85.913344182262,
	"eval_loss": 0.16841016709804535,
	"eval_runtime": 59.4106,
	"eval_samples_per_second": 165.492,
	"step": 26200
	},
	{
	"epoch": 2.15,
	"eval_accuracy": 86.11676159479251,
	"eval_average_metrics": 86.11676159479251,
	"eval_loss": 0.16477040946483612,
	"eval_runtime": 59.3558,
	"eval_samples_per_second": 165.645,
	"step": 26400
	},
	{
	"epoch": 2.16,
	"learning_rate": 8.406127770534549e-05,
	"loss": 0.1315,
	"step": 26500
	},
	{
	"epoch": 2.17,
	"eval_accuracy": 85.56753458096013,
	"eval_average_metrics": 85.56753458096013,
	"eval_loss": 0.17194555699825287,
	"eval_runtime": 59.1291,
	"eval_samples_per_second": 166.28,
	"step": 26600
	},
	{
	"epoch": 2.18,
	"eval_accuracy": 85.94385679414158,
	"eval_average_metrics": 85.94385679414158,
	"eval_loss": 0.16446976363658905,
	"eval_runtime": 46.5169,
	"eval_samples_per_second": 211.364,
	"step": 26800
	},
	{
	"epoch": 2.2,
	"learning_rate": 7.998696219035201e-05,
	"loss": 0.1332,
	"step": 27000
	},
	{
	"epoch": 2.2,
	"eval_accuracy": 85.81163547599675,
	"eval_average_metrics": 85.81163547599675,
	"eval_loss": 0.1695818454027176,
	"eval_runtime": 45.2415,
	"eval_samples_per_second": 217.323,
	"step": 27000
	},
	{
	"epoch": 2.22,
	"eval_accuracy": 85.93368592351506,
	"eval_average_metrics": 85.93368592351506,
	"eval_loss": 0.1703195720911026,
	"eval_runtime": 45.7196,
	"eval_samples_per_second": 215.05,
	"step": 27200
	},
	{
	"epoch": 2.23,
	"eval_accuracy": 86.14727420667208,
	"eval_average_metrics": 86.14727420667208,
	"eval_loss": 0.1657610833644867,
	"eval_runtime": 48.3877,
	"eval_samples_per_second": 203.192,
	"step": 27400
	},
	{
	"epoch": 2.24,
	"learning_rate": 7.591264667535854e-05,
	"loss": 0.1354,
	"step": 27500
	},
	{
	"epoch": 2.25,
	"eval_accuracy": 86.09641985353946,
	"eval_average_metrics": 86.09641985353946,
	"eval_loss": 0.1658048778772354,
	"eval_runtime": 49.7336,
	"eval_samples_per_second": 197.693,
	"step": 27600
	},
	{
	"epoch": 2.27,
	"eval_accuracy": 85.9947111472742,
	"eval_average_metrics": 85.9947111472742,
	"eval_loss": 0.16919544339179993,
	"eval_runtime": 56.1273,
	"eval_samples_per_second": 175.173,
	"step": 27800
	},
	{
	"epoch": 2.28,
	"learning_rate": 7.183833116036505e-05,
	"loss": 0.1311,
	"step": 28000
	},
	{
	"epoch": 2.28,
	"eval_accuracy": 86.14727420667208,
	"eval_average_metrics": 86.14727420667208,
	"eval_loss": 0.16675373911857605,
	"eval_runtime": 48.3863,
	"eval_samples_per_second": 203.198,
	"step": 28000
	},
	{
	"epoch": 2.3,
	"eval_accuracy": 85.73026851098454,
	"eval_average_metrics": 85.73026851098454,
	"eval_loss": 0.16785795986652374,
	"eval_runtime": 49.8131,
	"eval_samples_per_second": 197.378,
	"step": 28200
	},
	{
	"epoch": 2.31,
	"eval_accuracy": 85.62855980471929,
	"eval_average_metrics": 85.62855980471929,
	"eval_loss": 0.1680869162082672,
	"eval_runtime": 49.9453,
	"eval_samples_per_second": 196.855,
	"step": 28400
	},
	{
	"epoch": 2.32,
	"learning_rate": 6.776401564537158e-05,
	"loss": 0.1351,
	"step": 28500
	},
	{
	"epoch": 2.33,
	"eval_accuracy": 85.86248982912937,
	"eval_average_metrics": 85.86248982912937,
	"eval_loss": 0.16826093196868896,
	"eval_runtime": 47.9335,
	"eval_samples_per_second": 205.117,
	"step": 28600
	},
	{
	"epoch": 2.35,
	"eval_accuracy": 85.84214808787632,
	"eval_average_metrics": 85.84214808787632,
	"eval_loss": 0.16651229560375214,
	"eval_runtime": 49.892,
	"eval_samples_per_second": 197.066,
	"step": 28800
	},
	{
	"epoch": 2.36,
	"learning_rate": 6.368970013037809e-05,
	"loss": 0.1347,
	"step": 29000
	},
	{
	"epoch": 2.36,
	"eval_accuracy": 86.01505288852725,
	"eval_average_metrics": 86.01505288852725,
	"eval_loss": 0.16772997379302979,
	"eval_runtime": 49.8947,
	"eval_samples_per_second": 197.055,
	"step": 29000
	},
	{
	"epoch": 2.38,
	"eval_accuracy": 86.2693246541904,
	"eval_average_metrics": 86.2693246541904,
	"eval_loss": 0.16580338776111603,
	"eval_runtime": 50.1072,
	"eval_samples_per_second": 196.219,
	"step": 29200
	},
	{
	"epoch": 2.4,
	"eval_accuracy": 86.20829943043124,
	"eval_average_metrics": 86.20829943043124,
	"eval_loss": 0.16437767446041107,
	"eval_runtime": 52.1067,
	"eval_samples_per_second": 188.69,
	"step": 29400
	},
	{
	"epoch": 2.4,
	"learning_rate": 5.961538461538461e-05,
	"loss": 0.1308,
	"step": 29500
	},
	{
	"epoch": 2.41,
	"eval_accuracy": 86.10659072416598,
	"eval_average_metrics": 86.10659072416598,
	"eval_loss": 0.16909147799015045,
	"eval_runtime": 48.4579,
	"eval_samples_per_second": 202.898,
	"step": 29600
	},
	{
	"epoch": 2.43,
	"eval_accuracy": 86.07607811228641,
	"eval_average_metrics": 86.07607811228641,
	"eval_loss": 0.16544800996780396,
	"eval_runtime": 53.3838,
	"eval_samples_per_second": 184.176,
	"step": 29800
	},
	{
	"epoch": 2.44,
	"learning_rate": 5.554106910039113e-05,
	"loss": 0.1301,
	"step": 30000
	},
	{
	"epoch": 2.44,
	"eval_accuracy": 86.15744507729862,
	"eval_average_metrics": 86.15744507729862,
	"eval_loss": 0.16652615368366241,
	"eval_runtime": 45.6168,
	"eval_samples_per_second": 215.535,
	"step": 30000
	},
	{
	"epoch": 2.46,
	"eval_accuracy": 86.00488201790073,
	"eval_average_metrics": 86.00488201790073,
	"eval_loss": 0.16784194111824036,
	"eval_runtime": 46.0567,
	"eval_samples_per_second": 213.476,
	"step": 30200
	},
	{
	"epoch": 2.48,
	"eval_accuracy": 86.12693246541903,
	"eval_average_metrics": 86.12693246541903,
	"eval_loss": 0.16726775467395782,
	"eval_runtime": 53.9156,
	"eval_samples_per_second": 182.359,
	"step": 30400
	},
	{
	"epoch": 2.49,
	"learning_rate": 5.146675358539765e-05,
	"loss": 0.1324,
	"step": 30500
	},
	{
	"epoch": 2.49,
	"eval_accuracy": 86.2693246541904,
	"eval_average_metrics": 86.2693246541904,
	"eval_loss": 0.16430824995040894,
	"eval_runtime": 48.9757,
	"eval_samples_per_second": 200.753,
	"step": 30600
	},
	{
	"epoch": 2.51,
	"eval_accuracy": 85.88283157038242,
	"eval_average_metrics": 85.88283157038242,
	"eval_loss": 0.16779069602489471,
	"eval_runtime": 45.747,
	"eval_samples_per_second": 214.921,
	"step": 30800
	},
	{
	"epoch": 2.53,
	"learning_rate": 4.7392438070404173e-05,
	"loss": 0.1333,
	"step": 31000
	},
	{
	"epoch": 2.53,
	"eval_accuracy": 86.12693246541903,
	"eval_average_metrics": 86.12693246541903,
	"eval_loss": 0.16358087956905365,
	"eval_runtime": 45.8832,
	"eval_samples_per_second": 214.283,
	"step": 31000
	},
	{
	"epoch": 2.54,
	"eval_accuracy": 86.20829943043124,
	"eval_average_metrics": 86.20829943043124,
	"eval_loss": 0.16272908449172974,
	"eval_runtime": 44.9382,
	"eval_samples_per_second": 218.789,
	"step": 31200
	},
	{
	"epoch": 2.56,
	"eval_accuracy": 86.21847030105776,
	"eval_average_metrics": 86.21847030105776,
	"eval_loss": 0.16233167052268982,
	"eval_runtime": 45.3879,
	"eval_samples_per_second": 216.621,
	"step": 31400
	},
	{
	"epoch": 2.57,
	"learning_rate": 4.3318122555410686e-05,
	"loss": 0.1366,
	"step": 31500
	},
	{
	"epoch": 2.57,
	"eval_accuracy": 86.12693246541903,
	"eval_average_metrics": 86.12693246541903,
	"eval_loss": 0.16067072749137878,
	"eval_runtime": 45.3275,
	"eval_samples_per_second": 216.91,
	"step": 31600
	},
	{
	"epoch": 2.59,
	"eval_accuracy": 86.00488201790073,
	"eval_average_metrics": 86.00488201790073,
	"eval_loss": 0.16438935697078705,
	"eval_runtime": 45.069,
	"eval_samples_per_second": 218.154,
	"step": 31800
	},
	{
	"epoch": 2.61,
	"learning_rate": 3.924380704041721e-05,
	"loss": 0.1401,
	"step": 32000
	},
	{
	"epoch": 2.61,
	"eval_accuracy": 86.13710333604556,
	"eval_average_metrics": 86.13710333604556,
	"eval_loss": 0.15911179780960083,
	"eval_runtime": 45.1936,
	"eval_samples_per_second": 217.553,
	"step": 32000
	},
	{
	"epoch": 2.62,
	"eval_accuracy": 86.0353946297803,
	"eval_average_metrics": 86.0353946297803,
	"eval_loss": 0.16360121965408325,
	"eval_runtime": 46.2972,
	"eval_samples_per_second": 212.367,
	"step": 32200
	},
	{
	"epoch": 2.64,
	"eval_accuracy": 86.19812855980472,
	"eval_average_metrics": 86.19812855980472,
	"eval_loss": 0.1620582789182663,
	"eval_runtime": 45.431,
	"eval_samples_per_second": 216.416,
	"step": 32400
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.5169491525423724e-05,
	"loss": 0.1343,
	"step": 32500
	},
	{
	"epoch": 2.66,
	"eval_accuracy": 86.08624898291293,
	"eval_average_metrics": 86.08624898291293,
	"eval_loss": 0.16568879783153534,
	"eval_runtime": 45.3557,
	"eval_samples_per_second": 216.775,
	"step": 32600
	},
	{
	"epoch": 2.67,
	"eval_accuracy": 86.3506916192026,
	"eval_average_metrics": 86.3506916192026,
	"eval_loss": 0.16203464567661285,
	"eval_runtime": 44.9934,
	"eval_samples_per_second": 218.521,
	"step": 32800
	},
	{
	"epoch": 2.69,
	"learning_rate": 3.109517601043025e-05,
	"loss": 0.1345,
	"step": 33000
	},
	{
	"epoch": 2.69,
	"eval_accuracy": 86.2286411716843,
	"eval_average_metrics": 86.2286411716843,
	"eval_loss": 0.1651608943939209,
	"eval_runtime": 45.6781,
	"eval_samples_per_second": 215.246,
	"step": 33000
	},
	{
	"epoch": 2.71,
	"eval_accuracy": 86.28966639544345,
	"eval_average_metrics": 86.28966639544345,
	"eval_loss": 0.16327986121177673,
	"eval_runtime": 45.4189,
	"eval_samples_per_second": 216.474,
	"step": 33200
	},
	{
	"epoch": 2.72,
	"eval_accuracy": 86.32017900732303,
	"eval_average_metrics": 86.32017900732303,
	"eval_loss": 0.16431905329227448,
	"eval_runtime": 44.9451,
	"eval_samples_per_second": 218.756,
	"step": 33400
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.7020860495436762e-05,
	"loss": 0.1321,
	"step": 33500
	},
	{
	"epoch": 2.74,
	"eval_accuracy": 86.12693246541903,
	"eval_average_metrics": 86.12693246541903,
	"eval_loss": 0.16271112859249115,
	"eval_runtime": 45.4697,
	"eval_samples_per_second": 216.232,
	"step": 33600
	},
	{
	"epoch": 2.75,
	"eval_accuracy": 86.27949552481692,
	"eval_average_metrics": 86.27949552481692,
	"eval_loss": 0.16375945508480072,
	"eval_runtime": 45.4502,
	"eval_samples_per_second": 216.325,
	"step": 33800
	},
	{
	"epoch": 2.77,
	"learning_rate": 2.294654498044328e-05,
	"loss": 0.1348,
	"step": 34000
	},
	{
	"epoch": 2.77,
	"eval_accuracy": 86.12693246541903,
	"eval_average_metrics": 86.12693246541903,
	"eval_loss": 0.16407504677772522,
	"eval_runtime": 45.1689,
	"eval_samples_per_second": 217.672,
	"step": 34000
	},
	{
	"epoch": 2.79,
	"eval_accuracy": 86.2693246541904,
	"eval_average_metrics": 86.2693246541904,
	"eval_loss": 0.16450707614421844,
	"eval_runtime": 45.2377,
	"eval_samples_per_second": 217.341,
	"step": 34200
	},
	{
	"epoch": 2.8,
	"eval_accuracy": 86.10659072416598,
	"eval_average_metrics": 86.10659072416598,
	"eval_loss": 0.16434065997600555,
	"eval_runtime": 45.1061,
	"eval_samples_per_second": 217.975,
	"step": 34400
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.8872229465449803e-05,
	"loss": 0.1361,
	"step": 34500
	},
	{
	"epoch": 2.82,
	"eval_accuracy": 86.2286411716843,
	"eval_average_metrics": 86.2286411716843,
	"eval_loss": 0.16249413788318634,
	"eval_runtime": 45.4837,
	"eval_samples_per_second": 216.165,
	"step": 34600
	},
	{
	"epoch": 2.84,
	"eval_accuracy": 86.14727420667208,
	"eval_average_metrics": 86.14727420667208,
	"eval_loss": 0.1645725518465042,
	"eval_runtime": 45.3804,
	"eval_samples_per_second": 216.657,
	"step": 34800
	},
	{
	"epoch": 2.85,
	"learning_rate": 1.4797913950456322e-05,
	"loss": 0.1335,
	"step": 35000
	},
	{
	"epoch": 2.85,
	"eval_accuracy": 86.16761594792514,
	"eval_average_metrics": 86.16761594792514,
	"eval_loss": 0.16331711411476135,
	"eval_runtime": 45.6878,
	"eval_samples_per_second": 215.2,
	"step": 35000
	},
	{
	"epoch": 2.87,
	"eval_accuracy": 86.12693246541903,
	"eval_average_metrics": 86.12693246541903,
	"eval_loss": 0.16130615770816803,
	"eval_runtime": 45.0413,
	"eval_samples_per_second": 218.289,
	"step": 35200
	},
	{
	"epoch": 2.88,
	"eval_accuracy": 86.25915378356387,
	"eval_average_metrics": 86.25915378356387,
	"eval_loss": 0.16118405759334564,
	"eval_runtime": 45.4606,
	"eval_samples_per_second": 216.275,
	"step": 35400
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.0723598435462841e-05,
	"loss": 0.1368,
	"step": 35500
	},
	{
	"epoch": 2.9,
	"eval_accuracy": 86.20829943043124,
	"eval_average_metrics": 86.20829943043124,
	"eval_loss": 0.16242747008800507,
	"eval_runtime": 45.4511,
	"eval_samples_per_second": 216.32,
	"step": 35600
	},
	{
	"epoch": 2.92,
	"eval_accuracy": 86.16761594792514,
	"eval_average_metrics": 86.16761594792514,
	"eval_loss": 0.16256776452064514,
	"eval_runtime": 45.2281,
	"eval_samples_per_second": 217.387,
	"step": 35800
	},
	{
	"epoch": 2.93,
	"learning_rate": 6.649282920469361e-06,
	"loss": 0.1323,
	"step": 36000
	},
	{
	"epoch": 2.93,
	"eval_accuracy": 86.33034987794956,
	"eval_average_metrics": 86.33034987794956,
	"eval_loss": 0.1619912087917328,
	"eval_runtime": 45.4939,
	"eval_samples_per_second": 216.117,
	"step": 36000
	},
	{
	"epoch": 2.95,
	"eval_accuracy": 86.20829943043124,
	"eval_average_metrics": 86.20829943043124,
	"eval_loss": 0.1618933379650116,
	"eval_runtime": 45.7568,
	"eval_samples_per_second": 214.875,
	"step": 36200
	},
	{
	"epoch": 2.97,
	"eval_accuracy": 86.17778681855167,
	"eval_average_metrics": 86.17778681855167,
	"eval_loss": 0.1621612161397934,
	"eval_runtime": 44.9098,
	"eval_samples_per_second": 218.928,
	"step": 36400
	},
	{
	"epoch": 2.97,
	"learning_rate": 2.5749674054758798e-06,
	"loss": 0.1334,
	"step": 36500
	},
	{
	"epoch": 2.98,
	"eval_accuracy": 86.21847030105776,
	"eval_average_metrics": 86.21847030105776,
	"eval_loss": 0.1621207445859909,
	"eval_runtime": 45.2906,
	"eval_samples_per_second": 217.087,
	"step": 36600
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 86.19812855980472,
	"eval_average_metrics": 86.19812855980472,
	"eval_loss": 0.16204114258289337,
	"eval_runtime": 45.2396,
	"eval_samples_per_second": 217.332,
	"step": 36800
	},
	{
	"epoch": 3.0,
	"step": 36816,
	"total_flos": 1.4734111386140467e+17,
	"train_loss": 0.14615808979732375,
	"train_runtime": 23668.4692,
	"train_samples_per_second": 49.775,
	"train_steps_per_second": 1.555
	}
	],
	"max_steps": 36816,
	"num_train_epochs": 3,
	"total_flos": 1.4734111386140467e+17,
	"trial_name": null,
	"trial_params": null
	}