Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +14 -14
eval_results.json +5 -5
pytorch_model.bin +2 -2
runs/Feb01_01-43-50_node1/events.out.tfevents.1643651287.node1 +2 -2
runs/Feb01_01-43-50_node1/events.out.tfevents.1643675002.node1 +3 -0
runs/Feb02_15-57-24_node1/1643788722.2843874/events.out.tfevents.1643788722.node1 +3 -0
runs/Feb02_15-57-24_node1/events.out.tfevents.1643788722.node1 +3 -0
test_results.json +5 -5
train_results.json +4 -4
trainer_state.json +1977 -228
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 85.93368592351506,
-    "eval_average_metrics": 85.93368592351506,
-    "eval_loss": 0.17226365208625793,
-    "eval_runtime": 30.5086,
-    "eval_samples_per_second": 322.27,
-    "test_accuracy": 85.43046357615894,
-    "test_average_metrics": 85.43046357615894,
-    "test_loss": 0.17781256139278412,
-    "test_runtime": 30.4602,
-    "test_samples_per_second": 322.224,
-    "train_loss": 0.23374057220749037,
-    "train_runtime": 6523.9156,
     "train_samples": 392702,
-    "train_samples_per_second": 180.583,
-    "train_steps_per_second": 1.806
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 86.3506916192026,
+    "eval_average_metrics": 86.3506916192026,
+    "eval_loss": 0.16203464567661285,
+    "eval_runtime": 45.0247,
+    "eval_samples_per_second": 218.369,
+    "test_accuracy": 85.93988792664288,
+    "test_average_metrics": 85.93988792664288,
+    "test_loss": 0.1660582423210144,
+    "test_runtime": 45.3162,
+    "test_samples_per_second": 216.589,
+    "train_loss": 0.14615808979732375,
+    "train_runtime": 23668.4692,
     "train_samples": 392702,
+    "train_samples_per_second": 49.775,
+    "train_steps_per_second": 1.555
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 85.93368592351506,
-    "eval_average_metrics": 85.93368592351506,
-    "eval_loss": 0.17226365208625793,
-    "eval_runtime": 30.5086,
-    "eval_samples_per_second": 322.27
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 86.3506916192026,
+    "eval_average_metrics": 86.3506916192026,
+    "eval_loss": 0.16203464567661285,
+    "eval_runtime": 45.0247,
+    "eval_samples_per_second": 218.369
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c58387e3d1fe32fdfae73ec67d97c77b22f06090ae79bdcaacd1547246407012
-size 7551621

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c6815c840cdfcd2ea089ce1b164e2d168610e928688794abb73c9d93b5f4846
+size 2631685

runs/Feb01_01-43-50_node1/events.out.tfevents.1643651287.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fb20504e7ed89bb03068cdb76e05057b742e45496687efbb2442505b2a0888c
-size 75749

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9056121896cc2c19dff11248cdb6754bd299a8402245313a32e3c8f42f08d15
+size 76109

runs/Feb01_01-43-50_node1/events.out.tfevents.1643675002.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1825204e65f022a411a3c412c2f986dc530e0b6e657ef3ec6430bddf847de34d
+size 696

runs/Feb02_15-57-24_node1/1643788722.2843874/events.out.tfevents.1643788722.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a5cc6742a3c45936856f80793723f877c455d552a34ece2ee611e5ba34ff5ea
+size 5011

runs/Feb02_15-57-24_node1/events.out.tfevents.1643788722.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73688ba00877ab50ac51b7d07dfc52f0ca6bb7524ec9860791c501a092776192
+size 4299

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "test_accuracy": 85.43046357615894,
-    "test_average_metrics": 85.43046357615894,
-    "test_loss": 0.17781256139278412,
-    "test_runtime": 30.4602,
-    "test_samples_per_second": 322.224
 }

 {
     "epoch": 3.0,
+    "test_accuracy": 85.93988792664288,
+    "test_average_metrics": 85.93988792664288,
+    "test_loss": 0.1660582423210144,
+    "test_runtime": 45.3162,
+    "test_samples_per_second": 216.589
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.23374057220749037,
-    "train_runtime": 6523.9156,
     "train_samples": 392702,
-    "train_samples_per_second": 180.583,
-    "train_steps_per_second": 1.806
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.14615808979732375,
+    "train_runtime": 23668.4692,
     "train_samples": 392702,
+    "train_samples_per_second": 49.775,
+    "train_steps_per_second": 1.555
 }

trainer_state.json CHANGED Viewed

@@ -1,370 +1,2119 @@
 {
-  "best_metric": 85.93368592351506,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/mnli/checkpoint-8500",
   "epoch": 3.0,
-  "global_step": 11784,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.13,
-      "learning_rate": 0.0003,
-      "loss": 1.5813,
-      "step": 500
     },
     {
-      "epoch": 0.13,
-      "eval_accuracy": 78.88527257933279,
-      "eval_average_metrics": 78.88527257933279,
-      "eval_loss": 0.23019099235534668,
-      "eval_runtime": 42.8546,
-      "eval_samples_per_second": 229.427,
       "step": 500
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 0.0002867068415455512,
-      "loss": 0.2292,
       "step": 1000
     },
     {
-      "epoch": 0.25,
-      "eval_accuracy": 84.4894222945484,
-      "eval_average_metrics": 84.4894222945484,
-      "eval_loss": 0.18283487856388092,
-      "eval_runtime": 37.9691,
-      "eval_samples_per_second": 258.947,
       "step": 1000
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.0002734136830911024,
-      "loss": 0.1956,
-      "step": 1500
     },
     {
-      "epoch": 0.38,
-      "eval_accuracy": 84.54027664768104,
-      "eval_average_metrics": 84.54027664768104,
-      "eval_loss": 0.1822226196527481,
-      "eval_runtime": 41.1857,
-      "eval_samples_per_second": 238.724,
       "step": 1500
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.00026012052463665364,
-      "loss": 0.1863,
       "step": 2000
     },
     {
-      "epoch": 0.51,
       "eval_accuracy": 85.22172497965825,
       "eval_average_metrics": 85.22172497965825,
-      "eval_loss": 0.17375251650810242,
-      "eval_runtime": 40.7516,
-      "eval_samples_per_second": 241.267,
-      "step": 2000
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.00024682736618220487,
-      "loss": 0.185,
-      "step": 2500
     },
     {
-      "epoch": 0.64,
-      "eval_accuracy": 85.0793327908869,
-      "eval_average_metrics": 85.0793327908869,
-      "eval_loss": 0.17669464647769928,
-      "eval_runtime": 30.4483,
-      "eval_samples_per_second": 322.908,
       "step": 2500
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.0002335342077277561,
-      "loss": 0.1775,
       "step": 3000
     },
     {
-      "epoch": 0.76,
-      "eval_accuracy": 85.37428803905614,
-      "eval_average_metrics": 85.37428803905614,
-      "eval_loss": 0.17255689203739166,
-      "eval_runtime": 42.9629,
-      "eval_samples_per_second": 228.848,
       "step": 3000
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 0.0002202410492733073,
-      "loss": 0.1769,
-      "step": 3500
     },
     {
-      "epoch": 0.89,
-      "eval_accuracy": 85.31326281529698,
-      "eval_average_metrics": 85.31326281529698,
-      "eval_loss": 0.17830435931682587,
-      "eval_runtime": 43.1763,
-      "eval_samples_per_second": 227.718,
       "step": 3500
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 0.00020694789081885853,
-      "loss": 0.1785,
       "step": 4000
     },
     {
-      "epoch": 1.02,
-      "eval_accuracy": 85.13018714401953,
-      "eval_average_metrics": 85.13018714401953,
-      "eval_loss": 0.1796959936618805,
-      "eval_runtime": 42.9567,
-      "eval_samples_per_second": 228.882,
       "step": 4000
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 0.00019365473236440978,
-      "loss": 0.1732,
-      "step": 4500
     },
     {
-      "epoch": 1.15,
-      "eval_accuracy": 85.17087062652563,
-      "eval_average_metrics": 85.17087062652563,
-      "eval_loss": 0.17632290720939636,
-      "eval_runtime": 43.5824,
-      "eval_samples_per_second": 225.596,
       "step": 4500
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 0.000180361573909961,
-      "loss": 0.171,
       "step": 5000
     },
     {
-      "epoch": 1.27,
-      "eval_accuracy": 85.48616761594793,
-      "eval_average_metrics": 85.48616761594793,
-      "eval_loss": 0.17681637406349182,
-      "eval_runtime": 43.3608,
-      "eval_samples_per_second": 226.748,
       "step": 5000
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 0.0001670684154555122,
-      "loss": 0.1721,
-      "step": 5500
     },
     {
-      "epoch": 1.4,
-      "eval_accuracy": 85.50650935720098,
-      "eval_average_metrics": 85.50650935720098,
-      "eval_loss": 0.17369242012500763,
-      "eval_runtime": 43.0099,
-      "eval_samples_per_second": 228.599,
       "step": 5500
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 0.00015377525700106343,
-      "loss": 0.1691,
       "step": 6000
     },
     {
-      "epoch": 1.53,
-      "eval_accuracy": 85.76078112286412,
-      "eval_average_metrics": 85.76078112286412,
-      "eval_loss": 0.1705426275730133,
-      "eval_runtime": 43.2716,
-      "eval_samples_per_second": 227.216,
       "step": 6000
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 0.00014048209854661468,
-      "loss": 0.1692,
-      "step": 6500
     },
     {
-      "epoch": 1.65,
-      "eval_accuracy": 85.7099267697315,
-      "eval_average_metrics": 85.7099267697315,
-      "eval_loss": 0.1722770631313324,
-      "eval_runtime": 42.9316,
-      "eval_samples_per_second": 229.015,
       "step": 6500
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 0.0001271889400921659,
-      "loss": 0.1673,
       "step": 7000
     },
     {
-      "epoch": 1.78,
-      "eval_accuracy": 85.913344182262,
-      "eval_average_metrics": 85.913344182262,
-      "eval_loss": 0.17221254110336304,
-      "eval_runtime": 43.2906,
-      "eval_samples_per_second": 227.116,
       "step": 7000
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 0.00011389578163771711,
-      "loss": 0.1674,
-      "step": 7500
     },
     {
-      "epoch": 1.91,
-      "eval_accuracy": 85.67941415785191,
-      "eval_average_metrics": 85.67941415785191,
-      "eval_loss": 0.1707369089126587,
-      "eval_runtime": 43.5484,
-      "eval_samples_per_second": 225.772,
       "step": 7500
     },
     {
-      "epoch": 2.04,
-      "learning_rate": 0.00010060262318326833,
-      "loss": 0.1666,
       "step": 8000
     },
     {
-      "epoch": 2.04,
-      "eval_accuracy": 85.69975589910497,
-      "eval_average_metrics": 85.69975589910497,
-      "eval_loss": 0.1726333200931549,
-      "eval_runtime": 30.6332,
-      "eval_samples_per_second": 320.959,
       "step": 8000
     },
     {
-      "epoch": 2.16,
-      "learning_rate": 8.730946472881955e-05,
-      "loss": 0.1649,
-      "step": 8500
     },
     {
-      "epoch": 2.16,
-      "eval_accuracy": 85.93368592351506,
-      "eval_average_metrics": 85.93368592351506,
-      "eval_loss": 0.17226365208625793,
-      "eval_runtime": 30.5517,
-      "eval_samples_per_second": 321.816,
       "step": 8500
     },
     {
-      "epoch": 2.29,
-      "learning_rate": 7.401630627437078e-05,
-      "loss": 0.1652,
       "step": 9000
     },
     {
-      "epoch": 2.29,
-      "eval_accuracy": 85.72009764035802,
-      "eval_average_metrics": 85.72009764035802,
-      "eval_loss": 0.17146219313144684,
-      "eval_runtime": 30.3221,
-      "eval_samples_per_second": 324.252,
       "step": 9000
     },
     {
-      "epoch": 2.42,
-      "learning_rate": 6.072314781992201e-05,
-      "loss": 0.1641,
-      "step": 9500
     },
     {
-      "epoch": 2.42,
-      "eval_accuracy": 85.66924328722538,
-      "eval_average_metrics": 85.66924328722538,
-      "eval_loss": 0.17002874612808228,
-      "eval_runtime": 30.4938,
-      "eval_samples_per_second": 322.427,
       "step": 9500
     },
     {
-      "epoch": 2.55,
-      "learning_rate": 4.742998936547323e-05,
-      "loss": 0.1626,
       "step": 10000
     },
     {
-      "epoch": 2.55,
       "eval_accuracy": 85.72009764035802,
       "eval_average_metrics": 85.72009764035802,
-      "eval_loss": 0.17231160402297974,
-      "eval_runtime": 30.4513,
-      "eval_samples_per_second": 322.877,
-      "step": 10000
     },
     {
-      "epoch": 2.67,
-      "learning_rate": 3.4136830911024454e-05,
-      "loss": 0.1648,
       "step": 10500
     },
     {
-      "epoch": 2.67,
-      "eval_accuracy": 85.61838893409276,
-      "eval_average_metrics": 85.61838893409276,
-      "eval_loss": 0.17298805713653564,
-      "eval_runtime": 30.4131,
-      "eval_samples_per_second": 323.281,
-      "step": 10500
     },
     {
-      "epoch": 2.8,
-      "learning_rate": 2.084367245657568e-05,
-      "loss": 0.1632,
       "step": 11000
     },
     {
-      "epoch": 2.8,
-      "eval_accuracy": 85.62855980471929,
-      "eval_average_metrics": 85.62855980471929,
-      "eval_loss": 0.17419515550136566,
-      "eval_runtime": 30.8553,
-      "eval_samples_per_second": 318.648,
       "step": 11000
     },
     {
-      "epoch": 2.93,
-      "learning_rate": 7.550514002126905e-06,
-      "loss": 0.1632,
-      "step": 11500
     },
     {
-      "epoch": 2.93,
-      "eval_accuracy": 85.66924328722538,
-      "eval_average_metrics": 85.66924328722538,
-      "eval_loss": 0.17305442690849304,
-      "eval_runtime": 30.5078,
-      "eval_samples_per_second": 322.278,
       "step": 11500
     },
     {
       "epoch": 3.0,
-      "step": 11784,
-      "total_flos": 1.6728445568645094e+17,
-      "train_loss": 0.23374057220749037,
-      "train_runtime": 6523.9156,
-      "train_samples_per_second": 180.583,
-      "train_steps_per_second": 1.806
     }
   ],
-  "max_steps": 11784,
   "num_train_epochs": 3,
-  "total_flos": 1.6728445568645094e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 86.3506916192026,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/mnli/checkpoint-32800",
   "epoch": 3.0,
+  "global_step": 36816,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "eval_accuracy": 84.0520748576078,
+      "eval_average_metrics": 84.0520748576078,
+      "eval_loss": 0.19396202266216278,
+      "eval_runtime": 73.5315,
+      "eval_samples_per_second": 133.711,
+      "step": 200
     },
     {
+      "epoch": 0.03,
+      "eval_accuracy": 85.08950366151342,
+      "eval_average_metrics": 85.08950366151342,
+      "eval_loss": 0.1736125648021698,
+      "eval_runtime": 77.6953,
+      "eval_samples_per_second": 126.546,
+      "step": 400
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002959256844850065,
+      "loss": 0.2786,
       "step": 500
     },
     {
+      "epoch": 0.05,
+      "eval_accuracy": 85.25223759153783,
+      "eval_average_metrics": 85.25223759153783,
+      "eval_loss": 0.1704595386981964,
+      "eval_runtime": 71.3646,
+      "eval_samples_per_second": 137.771,
+      "step": 600
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 85.120016273393,
+      "eval_average_metrics": 85.120016273393,
+      "eval_loss": 0.17760007083415985,
+      "eval_runtime": 70.572,
+      "eval_samples_per_second": 139.319,
+      "step": 800
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000291851368970013,
+      "loss": 0.1754,
       "step": 1000
     },
     {
+      "epoch": 0.08,
+      "eval_accuracy": 85.81163547599675,
+      "eval_average_metrics": 85.81163547599675,
+      "eval_loss": 0.17395834624767303,
+      "eval_runtime": 68.4178,
+      "eval_samples_per_second": 143.705,
       "step": 1000
     },
     {
+      "epoch": 0.1,
+      "eval_accuracy": 86.04556550040684,
+      "eval_average_metrics": 86.04556550040684,
+      "eval_loss": 0.16720984876155853,
+      "eval_runtime": 74.935,
+      "eval_samples_per_second": 131.207,
+      "step": 1200
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 85.85231895850285,
+      "eval_average_metrics": 85.85231895850285,
+      "eval_loss": 0.1686050444841385,
+      "eval_runtime": 65.5334,
+      "eval_samples_per_second": 150.03,
+      "step": 1400
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 0.00028777705345501956,
+      "loss": 0.17,
       "step": 1500
     },
     {
+      "epoch": 0.13,
+      "eval_accuracy": 84.83523189585028,
+      "eval_average_metrics": 84.83523189585028,
+      "eval_loss": 0.17506256699562073,
+      "eval_runtime": 72.658,
+      "eval_samples_per_second": 135.319,
+      "step": 1600
+    },
+    {
+      "epoch": 0.15,
+      "eval_accuracy": 85.77095199349064,
+      "eval_average_metrics": 85.77095199349064,
+      "eval_loss": 0.16318167746067047,
+      "eval_runtime": 71.0929,
+      "eval_samples_per_second": 138.298,
+      "step": 1800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.000283702737940026,
+      "loss": 0.1593,
       "step": 2000
     },
     {
+      "epoch": 0.16,
+      "eval_accuracy": 84.98779495524816,
+      "eval_average_metrics": 84.98779495524816,
+      "eval_loss": 0.17500561475753784,
+      "eval_runtime": 76.1036,
+      "eval_samples_per_second": 129.192,
+      "step": 2000
+    },
+    {
+      "epoch": 0.18,
       "eval_accuracy": 85.22172497965825,
       "eval_average_metrics": 85.22172497965825,
+      "eval_loss": 0.16974958777427673,
+      "eval_runtime": 73.5318,
+      "eval_samples_per_second": 133.711,
+      "step": 2200
     },
     {
+      "epoch": 0.2,
+      "eval_accuracy": 84.93694060211554,
+      "eval_average_metrics": 84.93694060211554,
+      "eval_loss": 0.16803883016109467,
+      "eval_runtime": 71.8068,
+      "eval_samples_per_second": 136.923,
+      "step": 2400
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 0.00027962842242503253,
+      "loss": 0.1626,
       "step": 2500
     },
     {
+      "epoch": 0.21,
+      "eval_accuracy": 85.64890154597234,
+      "eval_average_metrics": 85.64890154597234,
+      "eval_loss": 0.16620652377605438,
+      "eval_runtime": 70.4457,
+      "eval_samples_per_second": 139.569,
+      "step": 2600
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 85.17087062652563,
+      "eval_average_metrics": 85.17087062652563,
+      "eval_loss": 0.16685815155506134,
+      "eval_runtime": 70.323,
+      "eval_samples_per_second": 139.812,
+      "step": 2800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002755541069100391,
+      "loss": 0.1637,
       "step": 3000
     },
     {
+      "epoch": 0.24,
+      "eval_accuracy": 85.08950366151342,
+      "eval_average_metrics": 85.08950366151342,
+      "eval_loss": 0.1686829775571823,
+      "eval_runtime": 68.4934,
+      "eval_samples_per_second": 143.547,
       "step": 3000
     },
     {
+      "epoch": 0.26,
+      "eval_accuracy": 84.67249796582588,
+      "eval_average_metrics": 84.67249796582588,
+      "eval_loss": 0.1832115650177002,
+      "eval_runtime": 69.9104,
+      "eval_samples_per_second": 140.637,
+      "step": 3200
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 85.74043938161107,
+      "eval_average_metrics": 85.74043938161107,
+      "eval_loss": 0.15809670090675354,
+      "eval_runtime": 71.8214,
+      "eval_samples_per_second": 136.895,
+      "step": 3400
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.0002714797913950456,
+      "loss": 0.1611,
       "step": 3500
     },
     {
+      "epoch": 0.29,
+      "eval_accuracy": 85.82180634662328,
+      "eval_average_metrics": 85.82180634662328,
+      "eval_loss": 0.16679300367832184,
+      "eval_runtime": 68.4877,
+      "eval_samples_per_second": 143.559,
+      "step": 3600
+    },
+    {
+      "epoch": 0.31,
+      "eval_accuracy": 85.69975589910497,
+      "eval_average_metrics": 85.69975589910497,
+      "eval_loss": 0.1635247766971588,
+      "eval_runtime": 70.3174,
+      "eval_samples_per_second": 139.823,
+      "step": 3800
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002674054758800521,
+      "loss": 0.1546,
       "step": 4000
     },
     {
+      "epoch": 0.33,
+      "eval_accuracy": 85.8319772172498,
+      "eval_average_metrics": 85.8319772172498,
+      "eval_loss": 0.16676998138427734,
+      "eval_runtime": 73.2289,
+      "eval_samples_per_second": 134.264,
       "step": 4000
     },
     {
+      "epoch": 0.34,
+      "eval_accuracy": 85.50650935720098,
+      "eval_average_metrics": 85.50650935720098,
+      "eval_loss": 0.17212657630443573,
+      "eval_runtime": 74.584,
+      "eval_samples_per_second": 131.824,
+      "step": 4200
     },
     {
+      "epoch": 0.36,
+      "eval_accuracy": 85.54719283970708,
+      "eval_average_metrics": 85.54719283970708,
+      "eval_loss": 0.17162065207958221,
+      "eval_runtime": 69.8754,
+      "eval_samples_per_second": 140.708,
+      "step": 4400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00026333116036505864,
+      "loss": 0.1531,
       "step": 4500
     },
     {
+      "epoch": 0.37,
+      "eval_accuracy": 85.96419853539463,
+      "eval_average_metrics": 85.96419853539463,
+      "eval_loss": 0.16573481261730194,
+      "eval_runtime": 67.7552,
+      "eval_samples_per_second": 145.111,
+      "step": 4600
+    },
+    {
+      "epoch": 0.39,
+      "eval_accuracy": 85.78112286411717,
+      "eval_average_metrics": 85.78112286411717,
+      "eval_loss": 0.16396570205688477,
+      "eval_runtime": 63.3281,
+      "eval_samples_per_second": 155.255,
+      "step": 4800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002592568448500652,
+      "loss": 0.1566,
       "step": 5000
     },
     {
+      "epoch": 0.41,
+      "eval_accuracy": 85.73026851098454,
+      "eval_average_metrics": 85.73026851098454,
+      "eval_loss": 0.16679789125919342,
+      "eval_runtime": 68.8228,
+      "eval_samples_per_second": 142.86,
       "step": 5000
     },
     {
+      "epoch": 0.42,
+      "eval_accuracy": 85.68958502847845,
+      "eval_average_metrics": 85.68958502847845,
+      "eval_loss": 0.16058295965194702,
+      "eval_runtime": 66.5592,
+      "eval_samples_per_second": 147.718,
+      "step": 5200
     },
     {
+      "epoch": 0.44,
+      "eval_accuracy": 85.66924328722538,
+      "eval_average_metrics": 85.66924328722538,
+      "eval_loss": 0.1740991473197937,
+      "eval_runtime": 66.4465,
+      "eval_samples_per_second": 147.969,
+      "step": 5400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00025518252933507166,
+      "loss": 0.1514,
       "step": 5500
     },
     {
+      "epoch": 0.46,
+      "eval_accuracy": 84.66232709519936,
+      "eval_average_metrics": 84.66232709519936,
+      "eval_loss": 0.18576639890670776,
+      "eval_runtime": 66.3297,
+      "eval_samples_per_second": 148.229,
+      "step": 5600
+    },
+    {
+      "epoch": 0.47,
+      "eval_accuracy": 85.88283157038242,
+      "eval_average_metrics": 85.88283157038242,
+      "eval_loss": 0.16450409591197968,
+      "eval_runtime": 64.7793,
+      "eval_samples_per_second": 151.777,
+      "step": 5800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002511082138200782,
+      "loss": 0.1531,
       "step": 6000
     },
     {
+      "epoch": 0.49,
+      "eval_accuracy": 85.13018714401953,
+      "eval_average_metrics": 85.13018714401953,
+      "eval_loss": 0.17607340216636658,
+      "eval_runtime": 63.5814,
+      "eval_samples_per_second": 154.637,
       "step": 6000
     },
     {
+      "epoch": 0.51,
+      "eval_accuracy": 85.35394629780309,
+      "eval_average_metrics": 85.35394629780309,
+      "eval_loss": 0.16797170042991638,
+      "eval_runtime": 63.9708,
+      "eval_samples_per_second": 153.695,
+      "step": 6200
     },
     {
+      "epoch": 0.52,
+      "eval_accuracy": 85.75061025223759,
+      "eval_average_metrics": 85.75061025223759,
+      "eval_loss": 0.16036862134933472,
+      "eval_runtime": 64.9464,
+      "eval_samples_per_second": 151.386,
+      "step": 6400
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00024703389830508474,
+      "loss": 0.1544,
       "step": 6500
     },
     {
+      "epoch": 0.54,
+      "eval_accuracy": 85.64890154597234,
+      "eval_average_metrics": 85.64890154597234,
+      "eval_loss": 0.16572105884552002,
+      "eval_runtime": 67.1736,
+      "eval_samples_per_second": 146.367,
+      "step": 6600
+    },
+    {
+      "epoch": 0.55,
+      "eval_accuracy": 85.40480065093573,
+      "eval_average_metrics": 85.40480065093573,
+      "eval_loss": 0.16141638159751892,
+      "eval_runtime": 67.3069,
+      "eval_samples_per_second": 146.077,
+      "step": 6800
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024295958279009125,
+      "loss": 0.1549,
       "step": 7000
     },
     {
+      "epoch": 0.57,
+      "eval_accuracy": 85.84214808787632,
+      "eval_average_metrics": 85.84214808787632,
+      "eval_loss": 0.1581791192293167,
+      "eval_runtime": 70.2525,
+      "eval_samples_per_second": 139.952,
       "step": 7000
     },
     {
+      "epoch": 0.59,
+      "eval_accuracy": 85.78112286411717,
+      "eval_average_metrics": 85.78112286411717,
+      "eval_loss": 0.1584727168083191,
+      "eval_runtime": 70.5829,
+      "eval_samples_per_second": 139.297,
+      "step": 7200
     },
     {
+      "epoch": 0.6,
+      "eval_accuracy": 85.84214808787632,
+      "eval_average_metrics": 85.84214808787632,
+      "eval_loss": 0.16103526949882507,
+      "eval_runtime": 66.5529,
+      "eval_samples_per_second": 147.732,
+      "step": 7400
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00023888526727509777,
+      "loss": 0.1572,
       "step": 7500
     },
     {
+      "epoch": 0.62,
+      "eval_accuracy": 86.00488201790073,
+      "eval_average_metrics": 86.00488201790073,
+      "eval_loss": 0.17075441777706146,
+      "eval_runtime": 61.313,
+      "eval_samples_per_second": 160.358,
+      "step": 7600
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 85.89300244100895,
+      "eval_average_metrics": 85.89300244100895,
+      "eval_loss": 0.1631649136543274,
+      "eval_runtime": 70.2006,
+      "eval_samples_per_second": 140.056,
+      "step": 7800
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002348109517601043,
+      "loss": 0.1552,
       "step": 8000
     },
     {
+      "epoch": 0.65,
+      "eval_accuracy": 86.00488201790073,
+      "eval_average_metrics": 86.00488201790073,
+      "eval_loss": 0.15884214639663696,
+      "eval_runtime": 70.0105,
+      "eval_samples_per_second": 140.436,
       "step": 8000
     },
     {
+      "epoch": 0.67,
+      "eval_accuracy": 85.42514239218877,
+      "eval_average_metrics": 85.42514239218877,
+      "eval_loss": 0.16717489063739777,
+      "eval_runtime": 67.9572,
+      "eval_samples_per_second": 144.679,
+      "step": 8200
     },
     {
+      "epoch": 0.68,
+      "eval_accuracy": 85.66924328722538,
+      "eval_average_metrics": 85.66924328722538,
+      "eval_loss": 0.16362008452415466,
+      "eval_runtime": 71.9947,
+      "eval_samples_per_second": 136.566,
+      "step": 8400
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023073663624511082,
+      "loss": 0.1518,
       "step": 8500
     },
     {
+      "epoch": 0.7,
+      "eval_accuracy": 85.49633848657446,
+      "eval_average_metrics": 85.49633848657446,
+      "eval_loss": 0.16621538996696472,
+      "eval_runtime": 70.1174,
+      "eval_samples_per_second": 140.222,
+      "step": 8600
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 85.98454027664768,
+      "eval_average_metrics": 85.98454027664768,
+      "eval_loss": 0.16499604284763336,
+      "eval_runtime": 68.6629,
+      "eval_samples_per_second": 143.192,
+      "step": 8800
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002266623207301173,
+      "loss": 0.1514,
       "step": 9000
     },
     {
+      "epoch": 0.73,
+      "eval_accuracy": 86.09641985353946,
+      "eval_average_metrics": 86.09641985353946,
+      "eval_loss": 0.1623799055814743,
+      "eval_runtime": 70.2156,
+      "eval_samples_per_second": 140.026,
       "step": 9000
     },
     {
+      "epoch": 0.75,
+      "eval_accuracy": 85.54719283970708,
+      "eval_average_metrics": 85.54719283970708,
+      "eval_loss": 0.1693897545337677,
+      "eval_runtime": 64.4752,
+      "eval_samples_per_second": 152.493,
+      "step": 9200
     },
     {
+      "epoch": 0.77,
+      "eval_accuracy": 85.15052888527258,
+      "eval_average_metrics": 85.15052888527258,
+      "eval_loss": 0.16912253201007843,
+      "eval_runtime": 71.6316,
+      "eval_samples_per_second": 137.258,
+      "step": 9400
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022258800521512384,
+      "loss": 0.1492,
       "step": 9500
     },
     {
+      "epoch": 0.78,
+      "eval_accuracy": 85.81163547599675,
+      "eval_average_metrics": 85.81163547599675,
+      "eval_loss": 0.16445724666118622,
+      "eval_runtime": 70.0896,
+      "eval_samples_per_second": 140.278,
+      "step": 9600
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 85.51668022782751,
+      "eval_average_metrics": 85.51668022782751,
+      "eval_loss": 0.171467587351799,
+      "eval_runtime": 67.0912,
+      "eval_samples_per_second": 146.547,
+      "step": 9800
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00021851368970013035,
+      "loss": 0.1465,
+      "step": 10000
+    },
+    {
+      "epoch": 0.81,
+      "eval_accuracy": 85.76078112286412,
+      "eval_average_metrics": 85.76078112286412,
+      "eval_loss": 0.16485248506069183,
+      "eval_runtime": 71.6667,
+      "eval_samples_per_second": 137.191,
       "step": 10000
     },
     {
+      "epoch": 0.83,
+      "eval_accuracy": 85.54719283970708,
+      "eval_average_metrics": 85.54719283970708,
+      "eval_loss": 0.16628311574459076,
+      "eval_runtime": 69.3952,
+      "eval_samples_per_second": 141.681,
+      "step": 10200
+    },
+    {
+      "epoch": 0.85,
       "eval_accuracy": 85.72009764035802,
       "eval_average_metrics": 85.72009764035802,
+      "eval_loss": 0.1626047044992447,
+      "eval_runtime": 63.0097,
+      "eval_samples_per_second": 156.039,
+      "step": 10400
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 0.0002144393741851369,
+      "loss": 0.1478,
       "step": 10500
     },
     {
+      "epoch": 0.86,
+      "eval_accuracy": 85.64890154597234,
+      "eval_average_metrics": 85.64890154597234,
+      "eval_loss": 0.16279704868793488,
+      "eval_runtime": 72.6628,
+      "eval_samples_per_second": 135.31,
+      "step": 10600
     },
     {
+      "epoch": 0.88,
+      "eval_accuracy": 85.80146460537021,
+      "eval_average_metrics": 85.80146460537021,
+      "eval_loss": 0.1637255698442459,
+      "eval_runtime": 71.5577,
+      "eval_samples_per_second": 137.4,
+      "step": 10800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002103650586701434,
+      "loss": 0.1509,
       "step": 11000
     },
     {
+      "epoch": 0.9,
+      "eval_accuracy": 85.79129373474369,
+      "eval_average_metrics": 85.79129373474369,
+      "eval_loss": 0.16114714741706848,
+      "eval_runtime": 72.3627,
+      "eval_samples_per_second": 135.871,
       "step": 11000
     },
     {
+      "epoch": 0.91,
+      "eval_accuracy": 85.8319772172498,
+      "eval_average_metrics": 85.8319772172498,
+      "eval_loss": 0.15985067188739777,
+      "eval_runtime": 68.9168,
+      "eval_samples_per_second": 142.665,
+      "step": 11200
     },
     {
+      "epoch": 0.93,
+      "eval_accuracy": 85.40480065093573,
+      "eval_average_metrics": 85.40480065093573,
+      "eval_loss": 0.17174053192138672,
+      "eval_runtime": 68.3249,
+      "eval_samples_per_second": 143.901,
+      "step": 11400
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00020629074315514992,
+      "loss": 0.15,
       "step": 11500
     },
+    {
+      "epoch": 0.95,
+      "eval_accuracy": 85.97436940602115,
+      "eval_average_metrics": 85.97436940602115,
+      "eval_loss": 0.15932144224643707,
+      "eval_runtime": 68.7187,
+      "eval_samples_per_second": 143.076,
+      "step": 11600
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 85.59804719283972,
+      "eval_average_metrics": 85.59804719283972,
+      "eval_loss": 0.16465091705322266,
+      "eval_runtime": 68.0374,
+      "eval_samples_per_second": 144.509,
+      "step": 11800
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020221642764015643,
+      "loss": 0.1514,
+      "step": 12000
+    },
+    {
+      "epoch": 0.98,
+      "eval_accuracy": 85.88283157038242,
+      "eval_average_metrics": 85.88283157038242,
+      "eval_loss": 0.15999911725521088,
+      "eval_runtime": 67.678,
+      "eval_samples_per_second": 145.276,
+      "step": 12000
+    },
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 86.0353946297803,
+      "eval_average_metrics": 86.0353946297803,
+      "eval_loss": 0.16025537252426147,
+      "eval_runtime": 63.6019,
+      "eval_samples_per_second": 154.587,
+      "step": 12200
+    },
+    {
+      "epoch": 1.01,
+      "eval_accuracy": 85.8726606997559,
+      "eval_average_metrics": 85.8726606997559,
+      "eval_loss": 0.1621241718530655,
+      "eval_runtime": 68.3301,
+      "eval_samples_per_second": 143.89,
+      "step": 12400
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00019814211212516294,
+      "loss": 0.147,
+      "step": 12500
+    },
+    {
+      "epoch": 1.03,
+      "eval_accuracy": 85.76078112286412,
+      "eval_average_metrics": 85.76078112286412,
+      "eval_loss": 0.17349866032600403,
+      "eval_runtime": 66.9259,
+      "eval_samples_per_second": 146.909,
+      "step": 12600
+    },
+    {
+      "epoch": 1.04,
+      "eval_accuracy": 85.78112286411717,
+      "eval_average_metrics": 85.78112286411717,
+      "eval_loss": 0.1615545153617859,
+      "eval_runtime": 69.1346,
+      "eval_samples_per_second": 142.215,
+      "step": 12800
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00019406779661016945,
+      "loss": 0.143,
+      "step": 13000
+    },
+    {
+      "epoch": 1.06,
+      "eval_accuracy": 85.84214808787632,
+      "eval_average_metrics": 85.84214808787632,
+      "eval_loss": 0.1661369502544403,
+      "eval_runtime": 62.8833,
+      "eval_samples_per_second": 156.353,
+      "step": 13000
+    },
+    {
+      "epoch": 1.08,
+      "eval_accuracy": 86.06590724165989,
+      "eval_average_metrics": 86.06590724165989,
+      "eval_loss": 0.16263821721076965,
+      "eval_runtime": 68.8917,
+      "eval_samples_per_second": 142.717,
+      "step": 13200
+    },
+    {
+      "epoch": 1.09,
+      "eval_accuracy": 85.69975589910497,
+      "eval_average_metrics": 85.69975589910497,
+      "eval_loss": 0.1634710133075714,
+      "eval_runtime": 62.7526,
+      "eval_samples_per_second": 156.679,
+      "step": 13400
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.000189993481095176,
+      "loss": 0.1444,
+      "step": 13500
+    },
+    {
+      "epoch": 1.11,
+      "eval_accuracy": 85.78112286411717,
+      "eval_average_metrics": 85.78112286411717,
+      "eval_loss": 0.16405758261680603,
+      "eval_runtime": 66.2833,
+      "eval_samples_per_second": 148.333,
+      "step": 13600
+    },
+    {
+      "epoch": 1.12,
+      "eval_accuracy": 85.9540276647681,
+      "eval_average_metrics": 85.9540276647681,
+      "eval_loss": 0.16064594686031342,
+      "eval_runtime": 63.0321,
+      "eval_samples_per_second": 155.984,
+      "step": 13800
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001859191655801825,
+      "loss": 0.1466,
+      "step": 14000
+    },
+    {
+      "epoch": 1.14,
+      "eval_accuracy": 86.31000813669651,
+      "eval_average_metrics": 86.31000813669651,
+      "eval_loss": 0.15932226181030273,
+      "eval_runtime": 66.0369,
+      "eval_samples_per_second": 148.886,
+      "step": 14000
+    },
+    {
+      "epoch": 1.16,
+      "eval_accuracy": 85.72009764035802,
+      "eval_average_metrics": 85.72009764035802,
+      "eval_loss": 0.16476964950561523,
+      "eval_runtime": 67.6592,
+      "eval_samples_per_second": 145.316,
+      "step": 14200
+    },
+    {
+      "epoch": 1.17,
+      "eval_accuracy": 85.36411716842962,
+      "eval_average_metrics": 85.36411716842962,
+      "eval_loss": 0.17415712773799896,
+      "eval_runtime": 69.9268,
+      "eval_samples_per_second": 140.604,
+      "step": 14400
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018184485006518905,
+      "loss": 0.1493,
+      "step": 14500
+    },
+    {
+      "epoch": 1.19,
+      "eval_accuracy": 85.65907241659886,
+      "eval_average_metrics": 85.65907241659886,
+      "eval_loss": 0.1634403020143509,
+      "eval_runtime": 70.839,
+      "eval_samples_per_second": 138.794,
+      "step": 14600
+    },
+    {
+      "epoch": 1.21,
+      "eval_accuracy": 85.94385679414158,
+      "eval_average_metrics": 85.94385679414158,
+      "eval_loss": 0.16072088479995728,
+      "eval_runtime": 67.4524,
+      "eval_samples_per_second": 145.762,
+      "step": 14800
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017777053455019556,
+      "loss": 0.1453,
+      "step": 15000
+    },
+    {
+      "epoch": 1.22,
+      "eval_accuracy": 85.97436940602115,
+      "eval_average_metrics": 85.97436940602115,
+      "eval_loss": 0.16354931890964508,
+      "eval_runtime": 71.4854,
+      "eval_samples_per_second": 137.539,
+      "step": 15000
+    },
+    {
+      "epoch": 1.24,
+      "eval_accuracy": 86.04556550040684,
+      "eval_average_metrics": 86.04556550040684,
+      "eval_loss": 0.16333648562431335,
+      "eval_runtime": 68.0001,
+      "eval_samples_per_second": 144.588,
+      "step": 15200
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 86.10659072416598,
+      "eval_average_metrics": 86.10659072416598,
+      "eval_loss": 0.1655624806880951,
+      "eval_runtime": 70.1652,
+      "eval_samples_per_second": 140.126,
+      "step": 15400
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00017369621903520204,
+      "loss": 0.1409,
+      "step": 15500
+    },
+    {
+      "epoch": 1.27,
+      "eval_accuracy": 86.08624898291293,
+      "eval_average_metrics": 86.08624898291293,
+      "eval_loss": 0.16712406277656555,
+      "eval_runtime": 70.4214,
+      "eval_samples_per_second": 139.617,
+      "step": 15600
+    },
+    {
+      "epoch": 1.29,
+      "eval_accuracy": 85.65907241659886,
+      "eval_average_metrics": 85.65907241659886,
+      "eval_loss": 0.16410161554813385,
+      "eval_runtime": 69.5518,
+      "eval_samples_per_second": 141.362,
+      "step": 15800
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00016962190352020858,
+      "loss": 0.144,
+      "step": 16000
+    },
+    {
+      "epoch": 1.3,
+      "eval_accuracy": 86.0353946297803,
+      "eval_average_metrics": 86.0353946297803,
+      "eval_loss": 0.1600012332201004,
+      "eval_runtime": 69.4158,
+      "eval_samples_per_second": 141.639,
+      "step": 16000
+    },
+    {
+      "epoch": 1.32,
+      "eval_accuracy": 85.9947111472742,
+      "eval_average_metrics": 85.9947111472742,
+      "eval_loss": 0.1664758175611496,
+      "eval_runtime": 70.4437,
+      "eval_samples_per_second": 139.572,
+      "step": 16200
+    },
+    {
+      "epoch": 1.34,
+      "eval_accuracy": 86.10659072416598,
+      "eval_average_metrics": 86.10659072416598,
+      "eval_loss": 0.16372230648994446,
+      "eval_runtime": 70.0549,
+      "eval_samples_per_second": 140.347,
+      "step": 16400
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001655475880052151,
+      "loss": 0.142,
+      "step": 16500
+    },
+    {
+      "epoch": 1.35,
+      "eval_accuracy": 86.01505288852725,
+      "eval_average_metrics": 86.01505288852725,
+      "eval_loss": 0.16394633054733276,
+      "eval_runtime": 73.1757,
+      "eval_samples_per_second": 134.362,
+      "step": 16600
+    },
+    {
+      "epoch": 1.37,
+      "eval_accuracy": 86.19812855980472,
+      "eval_average_metrics": 86.19812855980472,
+      "eval_loss": 0.16236965358257294,
+      "eval_runtime": 67.0918,
+      "eval_samples_per_second": 146.545,
+      "step": 16800
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016147327249022163,
+      "loss": 0.1469,
+      "step": 17000
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 86.06590724165989,
+      "eval_average_metrics": 86.06590724165989,
+      "eval_loss": 0.15920616686344147,
+      "eval_runtime": 73.7251,
+      "eval_samples_per_second": 133.36,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4,
+      "eval_accuracy": 86.31000813669651,
+      "eval_average_metrics": 86.31000813669651,
+      "eval_loss": 0.16292713582515717,
+      "eval_runtime": 70.7554,
+      "eval_samples_per_second": 138.958,
+      "step": 17200
+    },
+    {
+      "epoch": 1.42,
+      "eval_accuracy": 85.86248982912937,
+      "eval_average_metrics": 85.86248982912937,
+      "eval_loss": 0.16360752284526825,
+      "eval_runtime": 72.9243,
+      "eval_samples_per_second": 134.825,
+      "step": 17400
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00015739895697522815,
+      "loss": 0.145,
+      "step": 17500
+    },
+    {
+      "epoch": 1.43,
+      "eval_accuracy": 85.88283157038242,
+      "eval_average_metrics": 85.88283157038242,
+      "eval_loss": 0.16182997822761536,
+      "eval_runtime": 71.4174,
+      "eval_samples_per_second": 137.67,
+      "step": 17600
+    },
+    {
+      "epoch": 1.45,
+      "eval_accuracy": 85.79129373474369,
+      "eval_average_metrics": 85.79129373474369,
+      "eval_loss": 0.16671514511108398,
+      "eval_runtime": 72.782,
+      "eval_samples_per_second": 135.088,
+      "step": 17800
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00015332464146023469,
+      "loss": 0.1416,
+      "step": 18000
+    },
+    {
+      "epoch": 1.47,
+      "eval_accuracy": 85.79129373474369,
+      "eval_average_metrics": 85.79129373474369,
+      "eval_loss": 0.16370686888694763,
+      "eval_runtime": 69.6237,
+      "eval_samples_per_second": 141.216,
+      "step": 18000
+    },
+    {
+      "epoch": 1.48,
+      "eval_accuracy": 85.77095199349064,
+      "eval_average_metrics": 85.77095199349064,
+      "eval_loss": 0.15921832621097565,
+      "eval_runtime": 69.2043,
+      "eval_samples_per_second": 142.072,
+      "step": 18200
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 85.82180634662328,
+      "eval_average_metrics": 85.82180634662328,
+      "eval_loss": 0.1640625149011612,
+      "eval_runtime": 68.8973,
+      "eval_samples_per_second": 142.705,
+      "step": 18400
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014925032594524117,
+      "loss": 0.1453,
+      "step": 18500
+    },
+    {
+      "epoch": 1.52,
+      "eval_accuracy": 85.36411716842962,
+      "eval_average_metrics": 85.36411716842962,
+      "eval_loss": 0.1784326434135437,
+      "eval_runtime": 73.5853,
+      "eval_samples_per_second": 133.614,
+      "step": 18600
+    },
+    {
+      "epoch": 1.53,
+      "eval_accuracy": 85.89300244100895,
+      "eval_average_metrics": 85.89300244100895,
+      "eval_loss": 0.16068434715270996,
+      "eval_runtime": 69.0604,
+      "eval_samples_per_second": 142.368,
+      "step": 18800
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001451760104302477,
+      "loss": 0.1414,
+      "step": 19000
+    },
+    {
+      "epoch": 1.55,
+      "eval_accuracy": 85.75061025223759,
+      "eval_average_metrics": 85.75061025223759,
+      "eval_loss": 0.164332315325737,
+      "eval_runtime": 75.2094,
+      "eval_samples_per_second": 130.728,
+      "step": 19000
+    },
+    {
+      "epoch": 1.56,
+      "eval_accuracy": 85.66924328722538,
+      "eval_average_metrics": 85.66924328722538,
+      "eval_loss": 0.15945520997047424,
+      "eval_runtime": 70.4879,
+      "eval_samples_per_second": 139.485,
+      "step": 19200
+    },
+    {
+      "epoch": 1.58,
+      "eval_accuracy": 85.74043938161107,
+      "eval_average_metrics": 85.74043938161107,
+      "eval_loss": 0.15915806591510773,
+      "eval_runtime": 72.0792,
+      "eval_samples_per_second": 136.405,
+      "step": 19400
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014110169491525422,
+      "loss": 0.1463,
+      "step": 19500
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 86.10659072416598,
+      "eval_average_metrics": 86.10659072416598,
+      "eval_loss": 0.16554424166679382,
+      "eval_runtime": 69.3189,
+      "eval_samples_per_second": 141.837,
+      "step": 19600
+    },
+    {
+      "epoch": 1.61,
+      "eval_accuracy": 85.8726606997559,
+      "eval_average_metrics": 85.8726606997559,
+      "eval_loss": 0.1639343500137329,
+      "eval_runtime": 70.0392,
+      "eval_samples_per_second": 140.378,
+      "step": 19800
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013702737940026073,
+      "loss": 0.1435,
+      "step": 20000
+    },
+    {
+      "epoch": 1.63,
+      "eval_accuracy": 85.79129373474369,
+      "eval_average_metrics": 85.79129373474369,
+      "eval_loss": 0.1651633232831955,
+      "eval_runtime": 72.4148,
+      "eval_samples_per_second": 135.773,
+      "step": 20000
+    },
+    {
+      "epoch": 1.65,
+      "eval_accuracy": 85.90317331163547,
+      "eval_average_metrics": 85.90317331163547,
+      "eval_loss": 0.163535937666893,
+      "eval_runtime": 73.7758,
+      "eval_samples_per_second": 133.269,
+      "step": 20200
+    },
+    {
+      "epoch": 1.66,
+      "eval_accuracy": 85.81163547599675,
+      "eval_average_metrics": 85.81163547599675,
+      "eval_loss": 0.16132992506027222,
+      "eval_runtime": 74.1683,
+      "eval_samples_per_second": 132.563,
+      "step": 20400
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00013295306388526727,
+      "loss": 0.1393,
+      "step": 20500
+    },
+    {
+      "epoch": 1.68,
+      "eval_accuracy": 85.86248982912937,
+      "eval_average_metrics": 85.86248982912937,
+      "eval_loss": 0.16424906253814697,
+      "eval_runtime": 75.4388,
+      "eval_samples_per_second": 130.331,
+      "step": 20600
+    },
+    {
+      "epoch": 1.69,
+      "eval_accuracy": 86.20829943043124,
+      "eval_average_metrics": 86.20829943043124,
+      "eval_loss": 0.16280879080295563,
+      "eval_runtime": 73.6216,
+      "eval_samples_per_second": 133.548,
+      "step": 20800
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012887874837027379,
+      "loss": 0.1476,
+      "step": 21000
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 86.32017900732303,
+      "eval_average_metrics": 86.32017900732303,
+      "eval_loss": 0.1631232500076294,
+      "eval_runtime": 75.2489,
+      "eval_samples_per_second": 130.66,
+      "step": 21000
+    },
+    {
+      "epoch": 1.73,
+      "eval_accuracy": 85.97436940602115,
+      "eval_average_metrics": 85.97436940602115,
+      "eval_loss": 0.16299067437648773,
+      "eval_runtime": 66.4642,
+      "eval_samples_per_second": 147.929,
+      "step": 21200
+    },
+    {
+      "epoch": 1.74,
+      "eval_accuracy": 86.14727420667208,
+      "eval_average_metrics": 86.14727420667208,
+      "eval_loss": 0.16605544090270996,
+      "eval_runtime": 72.8565,
+      "eval_samples_per_second": 134.95,
+      "step": 21400
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001248044328552803,
+      "loss": 0.1434,
+      "step": 21500
+    },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 85.73026851098454,
+      "eval_average_metrics": 85.73026851098454,
+      "eval_loss": 0.16752640902996063,
+      "eval_runtime": 73.5899,
+      "eval_samples_per_second": 133.605,
+      "step": 21600
+    },
+    {
+      "epoch": 1.78,
+      "eval_accuracy": 86.05573637103336,
+      "eval_average_metrics": 86.05573637103336,
+      "eval_loss": 0.1640099287033081,
+      "eval_runtime": 70.9879,
+      "eval_samples_per_second": 138.503,
+      "step": 21800
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012073011734028682,
+      "loss": 0.1425,
+      "step": 22000
+    },
+    {
+      "epoch": 1.79,
+      "eval_accuracy": 86.02522375915377,
+      "eval_average_metrics": 86.02522375915377,
+      "eval_loss": 0.1621551811695099,
+      "eval_runtime": 67.2101,
+      "eval_samples_per_second": 146.288,
+      "step": 22000
+    },
+    {
+      "epoch": 1.81,
+      "eval_accuracy": 86.01505288852725,
+      "eval_average_metrics": 86.01505288852725,
+      "eval_loss": 0.1614847183227539,
+      "eval_runtime": 68.053,
+      "eval_samples_per_second": 144.476,
+      "step": 22200
+    },
+    {
+      "epoch": 1.83,
+      "eval_accuracy": 85.84214808787632,
+      "eval_average_metrics": 85.84214808787632,
+      "eval_loss": 0.1623518317937851,
+      "eval_runtime": 67.5192,
+      "eval_samples_per_second": 145.618,
+      "step": 22400
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011665580182529335,
+      "loss": 0.1441,
+      "step": 22500
+    },
+    {
+      "epoch": 1.84,
+      "eval_accuracy": 86.06590724165989,
+      "eval_average_metrics": 86.06590724165989,
+      "eval_loss": 0.1657322645187378,
+      "eval_runtime": 65.1547,
+      "eval_samples_per_second": 150.902,
+      "step": 22600
+    },
+    {
+      "epoch": 1.86,
+      "eval_accuracy": 86.00488201790073,
+      "eval_average_metrics": 86.00488201790073,
+      "eval_loss": 0.16235147416591644,
+      "eval_runtime": 57.9601,
+      "eval_samples_per_second": 169.634,
+      "step": 22800
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011258148631029986,
+      "loss": 0.1391,
+      "step": 23000
+    },
+    {
+      "epoch": 1.87,
+      "eval_accuracy": 85.82180634662328,
+      "eval_average_metrics": 85.82180634662328,
+      "eval_loss": 0.15935710072517395,
+      "eval_runtime": 57.3417,
+      "eval_samples_per_second": 171.463,
+      "step": 23000
+    },
+    {
+      "epoch": 1.89,
+      "eval_accuracy": 85.81163547599675,
+      "eval_average_metrics": 85.81163547599675,
+      "eval_loss": 0.1635563224554062,
+      "eval_runtime": 56.1817,
+      "eval_samples_per_second": 175.003,
+      "step": 23200
+    },
+    {
+      "epoch": 1.91,
+      "eval_accuracy": 85.7099267697315,
+      "eval_average_metrics": 85.7099267697315,
+      "eval_loss": 0.16560596227645874,
+      "eval_runtime": 59.2499,
+      "eval_samples_per_second": 165.941,
+      "step": 23400
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010850717079530637,
+      "loss": 0.1382,
+      "step": 23500
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 86.02522375915377,
+      "eval_average_metrics": 86.02522375915377,
+      "eval_loss": 0.1604122817516327,
+      "eval_runtime": 59.8309,
+      "eval_samples_per_second": 164.33,
+      "step": 23600
+    },
+    {
+      "epoch": 1.94,
+      "eval_accuracy": 85.80146460537021,
+      "eval_average_metrics": 85.80146460537021,
+      "eval_loss": 0.16524049639701843,
+      "eval_runtime": 61.3749,
+      "eval_samples_per_second": 160.196,
+      "step": 23800
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0001044328552803129,
+      "loss": 0.1379,
+      "step": 24000
+    },
+    {
+      "epoch": 1.96,
+      "eval_accuracy": 85.73026851098454,
+      "eval_average_metrics": 85.73026851098454,
+      "eval_loss": 0.16642265021800995,
+      "eval_runtime": 61.5426,
+      "eval_samples_per_second": 159.759,
+      "step": 24000
+    },
+    {
+      "epoch": 1.97,
+      "eval_accuracy": 86.23881204231083,
+      "eval_average_metrics": 86.23881204231083,
+      "eval_loss": 0.1592371165752411,
+      "eval_runtime": 61.4113,
+      "eval_samples_per_second": 160.101,
+      "step": 24200
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 86.23881204231083,
+      "eval_average_metrics": 86.23881204231083,
+      "eval_loss": 0.16144132614135742,
+      "eval_runtime": 60.7982,
+      "eval_samples_per_second": 161.715,
+      "step": 24400
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00010035853976531943,
+      "loss": 0.1454,
+      "step": 24500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 86.09641985353946,
+      "eval_average_metrics": 86.09641985353946,
+      "eval_loss": 0.1667686253786087,
+      "eval_runtime": 60.7535,
+      "eval_samples_per_second": 161.834,
+      "step": 24600
+    },
+    {
+      "epoch": 2.02,
+      "eval_accuracy": 86.06590724165989,
+      "eval_average_metrics": 86.06590724165989,
+      "eval_loss": 0.1680220663547516,
+      "eval_runtime": 58.6093,
+      "eval_samples_per_second": 167.755,
+      "step": 24800
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.628422425032592e-05,
+      "loss": 0.138,
+      "step": 25000
+    },
+    {
+      "epoch": 2.04,
+      "eval_accuracy": 85.84214808787632,
+      "eval_average_metrics": 85.84214808787632,
+      "eval_loss": 0.16406849026679993,
+      "eval_runtime": 56.628,
+      "eval_samples_per_second": 173.624,
+      "step": 25000
+    },
+    {
+      "epoch": 2.05,
+      "eval_accuracy": 85.89300244100895,
+      "eval_average_metrics": 85.89300244100895,
+      "eval_loss": 0.16717499494552612,
+      "eval_runtime": 55.5415,
+      "eval_samples_per_second": 177.021,
+      "step": 25200
+    },
+    {
+      "epoch": 2.07,
+      "eval_accuracy": 86.18795768917819,
+      "eval_average_metrics": 86.18795768917819,
+      "eval_loss": 0.16641969978809357,
+      "eval_runtime": 52.5873,
+      "eval_samples_per_second": 186.965,
+      "step": 25400
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.220990873533245e-05,
+      "loss": 0.1356,
+      "step": 25500
+    },
+    {
+      "epoch": 2.09,
+      "eval_accuracy": 86.0353946297803,
+      "eval_average_metrics": 86.0353946297803,
+      "eval_loss": 0.16517092287540436,
+      "eval_runtime": 54.8202,
+      "eval_samples_per_second": 179.35,
+      "step": 25600
+    },
+    {
+      "epoch": 2.1,
+      "eval_accuracy": 86.20829943043124,
+      "eval_average_metrics": 86.20829943043124,
+      "eval_loss": 0.1606525331735611,
+      "eval_runtime": 58.0473,
+      "eval_samples_per_second": 169.379,
+      "step": 25800
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.813559322033898e-05,
+      "loss": 0.138,
+      "step": 26000
+    },
+    {
+      "epoch": 2.12,
+      "eval_accuracy": 85.75061025223759,
+      "eval_average_metrics": 85.75061025223759,
+      "eval_loss": 0.1638970524072647,
+      "eval_runtime": 60.2198,
+      "eval_samples_per_second": 163.268,
+      "step": 26000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 85.913344182262,
+      "eval_average_metrics": 85.913344182262,
+      "eval_loss": 0.16841016709804535,
+      "eval_runtime": 59.4106,
+      "eval_samples_per_second": 165.492,
+      "step": 26200
+    },
+    {
+      "epoch": 2.15,
+      "eval_accuracy": 86.11676159479251,
+      "eval_average_metrics": 86.11676159479251,
+      "eval_loss": 0.16477040946483612,
+      "eval_runtime": 59.3558,
+      "eval_samples_per_second": 165.645,
+      "step": 26400
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.406127770534549e-05,
+      "loss": 0.1315,
+      "step": 26500
+    },
+    {
+      "epoch": 2.17,
+      "eval_accuracy": 85.56753458096013,
+      "eval_average_metrics": 85.56753458096013,
+      "eval_loss": 0.17194555699825287,
+      "eval_runtime": 59.1291,
+      "eval_samples_per_second": 166.28,
+      "step": 26600
+    },
+    {
+      "epoch": 2.18,
+      "eval_accuracy": 85.94385679414158,
+      "eval_average_metrics": 85.94385679414158,
+      "eval_loss": 0.16446976363658905,
+      "eval_runtime": 46.5169,
+      "eval_samples_per_second": 211.364,
+      "step": 26800
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 7.998696219035201e-05,
+      "loss": 0.1332,
+      "step": 27000
+    },
+    {
+      "epoch": 2.2,
+      "eval_accuracy": 85.81163547599675,
+      "eval_average_metrics": 85.81163547599675,
+      "eval_loss": 0.1695818454027176,
+      "eval_runtime": 45.2415,
+      "eval_samples_per_second": 217.323,
+      "step": 27000
+    },
+    {
+      "epoch": 2.22,
+      "eval_accuracy": 85.93368592351506,
+      "eval_average_metrics": 85.93368592351506,
+      "eval_loss": 0.1703195720911026,
+      "eval_runtime": 45.7196,
+      "eval_samples_per_second": 215.05,
+      "step": 27200
+    },
+    {
+      "epoch": 2.23,
+      "eval_accuracy": 86.14727420667208,
+      "eval_average_metrics": 86.14727420667208,
+      "eval_loss": 0.1657610833644867,
+      "eval_runtime": 48.3877,
+      "eval_samples_per_second": 203.192,
+      "step": 27400
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.591264667535854e-05,
+      "loss": 0.1354,
+      "step": 27500
+    },
+    {
+      "epoch": 2.25,
+      "eval_accuracy": 86.09641985353946,
+      "eval_average_metrics": 86.09641985353946,
+      "eval_loss": 0.1658048778772354,
+      "eval_runtime": 49.7336,
+      "eval_samples_per_second": 197.693,
+      "step": 27600
+    },
+    {
+      "epoch": 2.27,
+      "eval_accuracy": 85.9947111472742,
+      "eval_average_metrics": 85.9947111472742,
+      "eval_loss": 0.16919544339179993,
+      "eval_runtime": 56.1273,
+      "eval_samples_per_second": 175.173,
+      "step": 27800
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.183833116036505e-05,
+      "loss": 0.1311,
+      "step": 28000
+    },
+    {
+      "epoch": 2.28,
+      "eval_accuracy": 86.14727420667208,
+      "eval_average_metrics": 86.14727420667208,
+      "eval_loss": 0.16675373911857605,
+      "eval_runtime": 48.3863,
+      "eval_samples_per_second": 203.198,
+      "step": 28000
+    },
+    {
+      "epoch": 2.3,
+      "eval_accuracy": 85.73026851098454,
+      "eval_average_metrics": 85.73026851098454,
+      "eval_loss": 0.16785795986652374,
+      "eval_runtime": 49.8131,
+      "eval_samples_per_second": 197.378,
+      "step": 28200
+    },
+    {
+      "epoch": 2.31,
+      "eval_accuracy": 85.62855980471929,
+      "eval_average_metrics": 85.62855980471929,
+      "eval_loss": 0.1680869162082672,
+      "eval_runtime": 49.9453,
+      "eval_samples_per_second": 196.855,
+      "step": 28400
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.776401564537158e-05,
+      "loss": 0.1351,
+      "step": 28500
+    },
+    {
+      "epoch": 2.33,
+      "eval_accuracy": 85.86248982912937,
+      "eval_average_metrics": 85.86248982912937,
+      "eval_loss": 0.16826093196868896,
+      "eval_runtime": 47.9335,
+      "eval_samples_per_second": 205.117,
+      "step": 28600
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 85.84214808787632,
+      "eval_average_metrics": 85.84214808787632,
+      "eval_loss": 0.16651229560375214,
+      "eval_runtime": 49.892,
+      "eval_samples_per_second": 197.066,
+      "step": 28800
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.368970013037809e-05,
+      "loss": 0.1347,
+      "step": 29000
+    },
+    {
+      "epoch": 2.36,
+      "eval_accuracy": 86.01505288852725,
+      "eval_average_metrics": 86.01505288852725,
+      "eval_loss": 0.16772997379302979,
+      "eval_runtime": 49.8947,
+      "eval_samples_per_second": 197.055,
+      "step": 29000
+    },
+    {
+      "epoch": 2.38,
+      "eval_accuracy": 86.2693246541904,
+      "eval_average_metrics": 86.2693246541904,
+      "eval_loss": 0.16580338776111603,
+      "eval_runtime": 50.1072,
+      "eval_samples_per_second": 196.219,
+      "step": 29200
+    },
+    {
+      "epoch": 2.4,
+      "eval_accuracy": 86.20829943043124,
+      "eval_average_metrics": 86.20829943043124,
+      "eval_loss": 0.16437767446041107,
+      "eval_runtime": 52.1067,
+      "eval_samples_per_second": 188.69,
+      "step": 29400
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 5.961538461538461e-05,
+      "loss": 0.1308,
+      "step": 29500
+    },
+    {
+      "epoch": 2.41,
+      "eval_accuracy": 86.10659072416598,
+      "eval_average_metrics": 86.10659072416598,
+      "eval_loss": 0.16909147799015045,
+      "eval_runtime": 48.4579,
+      "eval_samples_per_second": 202.898,
+      "step": 29600
+    },
+    {
+      "epoch": 2.43,
+      "eval_accuracy": 86.07607811228641,
+      "eval_average_metrics": 86.07607811228641,
+      "eval_loss": 0.16544800996780396,
+      "eval_runtime": 53.3838,
+      "eval_samples_per_second": 184.176,
+      "step": 29800
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.554106910039113e-05,
+      "loss": 0.1301,
+      "step": 30000
+    },
+    {
+      "epoch": 2.44,
+      "eval_accuracy": 86.15744507729862,
+      "eval_average_metrics": 86.15744507729862,
+      "eval_loss": 0.16652615368366241,
+      "eval_runtime": 45.6168,
+      "eval_samples_per_second": 215.535,
+      "step": 30000
+    },
+    {
+      "epoch": 2.46,
+      "eval_accuracy": 86.00488201790073,
+      "eval_average_metrics": 86.00488201790073,
+      "eval_loss": 0.16784194111824036,
+      "eval_runtime": 46.0567,
+      "eval_samples_per_second": 213.476,
+      "step": 30200
+    },
+    {
+      "epoch": 2.48,
+      "eval_accuracy": 86.12693246541903,
+      "eval_average_metrics": 86.12693246541903,
+      "eval_loss": 0.16726775467395782,
+      "eval_runtime": 53.9156,
+      "eval_samples_per_second": 182.359,
+      "step": 30400
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.146675358539765e-05,
+      "loss": 0.1324,
+      "step": 30500
+    },
+    {
+      "epoch": 2.49,
+      "eval_accuracy": 86.2693246541904,
+      "eval_average_metrics": 86.2693246541904,
+      "eval_loss": 0.16430824995040894,
+      "eval_runtime": 48.9757,
+      "eval_samples_per_second": 200.753,
+      "step": 30600
+    },
+    {
+      "epoch": 2.51,
+      "eval_accuracy": 85.88283157038242,
+      "eval_average_metrics": 85.88283157038242,
+      "eval_loss": 0.16779069602489471,
+      "eval_runtime": 45.747,
+      "eval_samples_per_second": 214.921,
+      "step": 30800
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.7392438070404173e-05,
+      "loss": 0.1333,
+      "step": 31000
+    },
+    {
+      "epoch": 2.53,
+      "eval_accuracy": 86.12693246541903,
+      "eval_average_metrics": 86.12693246541903,
+      "eval_loss": 0.16358087956905365,
+      "eval_runtime": 45.8832,
+      "eval_samples_per_second": 214.283,
+      "step": 31000
+    },
+    {
+      "epoch": 2.54,
+      "eval_accuracy": 86.20829943043124,
+      "eval_average_metrics": 86.20829943043124,
+      "eval_loss": 0.16272908449172974,
+      "eval_runtime": 44.9382,
+      "eval_samples_per_second": 218.789,
+      "step": 31200
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 86.21847030105776,
+      "eval_average_metrics": 86.21847030105776,
+      "eval_loss": 0.16233167052268982,
+      "eval_runtime": 45.3879,
+      "eval_samples_per_second": 216.621,
+      "step": 31400
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.3318122555410686e-05,
+      "loss": 0.1366,
+      "step": 31500
+    },
+    {
+      "epoch": 2.57,
+      "eval_accuracy": 86.12693246541903,
+      "eval_average_metrics": 86.12693246541903,
+      "eval_loss": 0.16067072749137878,
+      "eval_runtime": 45.3275,
+      "eval_samples_per_second": 216.91,
+      "step": 31600
+    },
+    {
+      "epoch": 2.59,
+      "eval_accuracy": 86.00488201790073,
+      "eval_average_metrics": 86.00488201790073,
+      "eval_loss": 0.16438935697078705,
+      "eval_runtime": 45.069,
+      "eval_samples_per_second": 218.154,
+      "step": 31800
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.924380704041721e-05,
+      "loss": 0.1401,
+      "step": 32000
+    },
+    {
+      "epoch": 2.61,
+      "eval_accuracy": 86.13710333604556,
+      "eval_average_metrics": 86.13710333604556,
+      "eval_loss": 0.15911179780960083,
+      "eval_runtime": 45.1936,
+      "eval_samples_per_second": 217.553,
+      "step": 32000
+    },
+    {
+      "epoch": 2.62,
+      "eval_accuracy": 86.0353946297803,
+      "eval_average_metrics": 86.0353946297803,
+      "eval_loss": 0.16360121965408325,
+      "eval_runtime": 46.2972,
+      "eval_samples_per_second": 212.367,
+      "step": 32200
+    },
+    {
+      "epoch": 2.64,
+      "eval_accuracy": 86.19812855980472,
+      "eval_average_metrics": 86.19812855980472,
+      "eval_loss": 0.1620582789182663,
+      "eval_runtime": 45.431,
+      "eval_samples_per_second": 216.416,
+      "step": 32400
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.5169491525423724e-05,
+      "loss": 0.1343,
+      "step": 32500
+    },
+    {
+      "epoch": 2.66,
+      "eval_accuracy": 86.08624898291293,
+      "eval_average_metrics": 86.08624898291293,
+      "eval_loss": 0.16568879783153534,
+      "eval_runtime": 45.3557,
+      "eval_samples_per_second": 216.775,
+      "step": 32600
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 86.3506916192026,
+      "eval_average_metrics": 86.3506916192026,
+      "eval_loss": 0.16203464567661285,
+      "eval_runtime": 44.9934,
+      "eval_samples_per_second": 218.521,
+      "step": 32800
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.109517601043025e-05,
+      "loss": 0.1345,
+      "step": 33000
+    },
+    {
+      "epoch": 2.69,
+      "eval_accuracy": 86.2286411716843,
+      "eval_average_metrics": 86.2286411716843,
+      "eval_loss": 0.1651608943939209,
+      "eval_runtime": 45.6781,
+      "eval_samples_per_second": 215.246,
+      "step": 33000
+    },
+    {
+      "epoch": 2.71,
+      "eval_accuracy": 86.28966639544345,
+      "eval_average_metrics": 86.28966639544345,
+      "eval_loss": 0.16327986121177673,
+      "eval_runtime": 45.4189,
+      "eval_samples_per_second": 216.474,
+      "step": 33200
+    },
+    {
+      "epoch": 2.72,
+      "eval_accuracy": 86.32017900732303,
+      "eval_average_metrics": 86.32017900732303,
+      "eval_loss": 0.16431905329227448,
+      "eval_runtime": 44.9451,
+      "eval_samples_per_second": 218.756,
+      "step": 33400
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.7020860495436762e-05,
+      "loss": 0.1321,
+      "step": 33500
+    },
+    {
+      "epoch": 2.74,
+      "eval_accuracy": 86.12693246541903,
+      "eval_average_metrics": 86.12693246541903,
+      "eval_loss": 0.16271112859249115,
+      "eval_runtime": 45.4697,
+      "eval_samples_per_second": 216.232,
+      "step": 33600
+    },
+    {
+      "epoch": 2.75,
+      "eval_accuracy": 86.27949552481692,
+      "eval_average_metrics": 86.27949552481692,
+      "eval_loss": 0.16375945508480072,
+      "eval_runtime": 45.4502,
+      "eval_samples_per_second": 216.325,
+      "step": 33800
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.294654498044328e-05,
+      "loss": 0.1348,
+      "step": 34000
+    },
+    {
+      "epoch": 2.77,
+      "eval_accuracy": 86.12693246541903,
+      "eval_average_metrics": 86.12693246541903,
+      "eval_loss": 0.16407504677772522,
+      "eval_runtime": 45.1689,
+      "eval_samples_per_second": 217.672,
+      "step": 34000
+    },
+    {
+      "epoch": 2.79,
+      "eval_accuracy": 86.2693246541904,
+      "eval_average_metrics": 86.2693246541904,
+      "eval_loss": 0.16450707614421844,
+      "eval_runtime": 45.2377,
+      "eval_samples_per_second": 217.341,
+      "step": 34200
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 86.10659072416598,
+      "eval_average_metrics": 86.10659072416598,
+      "eval_loss": 0.16434065997600555,
+      "eval_runtime": 45.1061,
+      "eval_samples_per_second": 217.975,
+      "step": 34400
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.8872229465449803e-05,
+      "loss": 0.1361,
+      "step": 34500
+    },
+    {
+      "epoch": 2.82,
+      "eval_accuracy": 86.2286411716843,
+      "eval_average_metrics": 86.2286411716843,
+      "eval_loss": 0.16249413788318634,
+      "eval_runtime": 45.4837,
+      "eval_samples_per_second": 216.165,
+      "step": 34600
+    },
+    {
+      "epoch": 2.84,
+      "eval_accuracy": 86.14727420667208,
+      "eval_average_metrics": 86.14727420667208,
+      "eval_loss": 0.1645725518465042,
+      "eval_runtime": 45.3804,
+      "eval_samples_per_second": 216.657,
+      "step": 34800
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.4797913950456322e-05,
+      "loss": 0.1335,
+      "step": 35000
+    },
+    {
+      "epoch": 2.85,
+      "eval_accuracy": 86.16761594792514,
+      "eval_average_metrics": 86.16761594792514,
+      "eval_loss": 0.16331711411476135,
+      "eval_runtime": 45.6878,
+      "eval_samples_per_second": 215.2,
+      "step": 35000
+    },
+    {
+      "epoch": 2.87,
+      "eval_accuracy": 86.12693246541903,
+      "eval_average_metrics": 86.12693246541903,
+      "eval_loss": 0.16130615770816803,
+      "eval_runtime": 45.0413,
+      "eval_samples_per_second": 218.289,
+      "step": 35200
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 86.25915378356387,
+      "eval_average_metrics": 86.25915378356387,
+      "eval_loss": 0.16118405759334564,
+      "eval_runtime": 45.4606,
+      "eval_samples_per_second": 216.275,
+      "step": 35400
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.0723598435462841e-05,
+      "loss": 0.1368,
+      "step": 35500
+    },
+    {
+      "epoch": 2.9,
+      "eval_accuracy": 86.20829943043124,
+      "eval_average_metrics": 86.20829943043124,
+      "eval_loss": 0.16242747008800507,
+      "eval_runtime": 45.4511,
+      "eval_samples_per_second": 216.32,
+      "step": 35600
+    },
+    {
+      "epoch": 2.92,
+      "eval_accuracy": 86.16761594792514,
+      "eval_average_metrics": 86.16761594792514,
+      "eval_loss": 0.16256776452064514,
+      "eval_runtime": 45.2281,
+      "eval_samples_per_second": 217.387,
+      "step": 35800
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.649282920469361e-06,
+      "loss": 0.1323,
+      "step": 36000
+    },
+    {
+      "epoch": 2.93,
+      "eval_accuracy": 86.33034987794956,
+      "eval_average_metrics": 86.33034987794956,
+      "eval_loss": 0.1619912087917328,
+      "eval_runtime": 45.4939,
+      "eval_samples_per_second": 216.117,
+      "step": 36000
+    },
+    {
+      "epoch": 2.95,
+      "eval_accuracy": 86.20829943043124,
+      "eval_average_metrics": 86.20829943043124,
+      "eval_loss": 0.1618933379650116,
+      "eval_runtime": 45.7568,
+      "eval_samples_per_second": 214.875,
+      "step": 36200
+    },
+    {
+      "epoch": 2.97,
+      "eval_accuracy": 86.17778681855167,
+      "eval_average_metrics": 86.17778681855167,
+      "eval_loss": 0.1621612161397934,
+      "eval_runtime": 44.9098,
+      "eval_samples_per_second": 218.928,
+      "step": 36400
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 2.5749674054758798e-06,
+      "loss": 0.1334,
+      "step": 36500
+    },
+    {
+      "epoch": 2.98,
+      "eval_accuracy": 86.21847030105776,
+      "eval_average_metrics": 86.21847030105776,
+      "eval_loss": 0.1621207445859909,
+      "eval_runtime": 45.2906,
+      "eval_samples_per_second": 217.087,
+      "step": 36600
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 86.19812855980472,
+      "eval_average_metrics": 86.19812855980472,
+      "eval_loss": 0.16204114258289337,
+      "eval_runtime": 45.2396,
+      "eval_samples_per_second": 217.332,
+      "step": 36800
+    },
     {
       "epoch": 3.0,
+      "step": 36816,
+      "total_flos": 1.4734111386140467e+17,
+      "train_loss": 0.14615808979732375,
+      "train_runtime": 23668.4692,
+      "train_samples_per_second": 49.775,
+      "train_steps_per_second": 1.555
     }
   ],
+  "max_steps": 36816,
   "num_train_epochs": 3,
+  "total_flos": 1.4734111386140467e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e63ea87be75b95629a7a1ac96920fa8d9c190a4c1cd01d194aa511d6abaff27
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:b82cf4891c98c9bf466396db66ef870ad6541024b7c8eccd64ed757f2c8b263c
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"~~bottleneck_dim": 24, "~~dataset_config_name": ["en"], "delta_type": "~~adapter~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "mnli", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/mnli", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "mnli", "test_dataset_config_name": ["en"], "test_dataset_name": "mnli", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}

+ {"dataset_config_name": ["en"], "delta_type": "lora", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "mnli", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "lora_r": 8, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/mnli", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "mnli", "test_dataset_config_name": ["en"], "test_dataset_name": "mnli", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}