🍻 cheers

Browse files

Files changed (5) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/May31_08-09-02_adrian-development/events.out.tfevents.1685529875.adrian-development.7868.2 +3 -0
train_results.json +5 -5
trainer_state.json +250 -280

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.631180416292096,
-    "eval_loss": 1.547638177871704,
-    "eval_runtime": 155.3247,
-    "eval_samples_per_second": 186.203,
-    "eval_steps_per_second": 23.28,
-    "train_loss": 1.8849000129177436,
-    "train_runtime": 16318.8411,
-    "train_samples_per_second": 70.893,
-    "train_steps_per_second": 2.216
 }

 {
+    "epoch": 4.7,
+    "eval_accuracy": 0.6628518083120116,
+    "eval_loss": 1.1537460088729858,
+    "eval_runtime": 154.7616,
+    "eval_samples_per_second": 186.881,
+    "eval_steps_per_second": 23.365,
+    "train_loss": 1.1847389993106618,
+    "train_runtime": 16307.0712,
+    "train_samples_per_second": 70.944,
+    "train_steps_per_second": 2.217
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.631180416292096,
-    "eval_loss": 1.547638177871704,
-    "eval_runtime": 155.3247,
-    "eval_samples_per_second": 186.203,
-    "eval_steps_per_second": 23.28
 }

 {
+    "epoch": 4.7,
+    "eval_accuracy": 0.6628518083120116,
+    "eval_loss": 1.1537460088729858,
+    "eval_runtime": 154.7616,
+    "eval_samples_per_second": 186.881,
+    "eval_steps_per_second": 23.365
 }

runs/May31_08-09-02_adrian-development/events.out.tfevents.1685529875.adrian-development.7868.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d62d39ae5eee0fc4d3716b8f1eafe90e41f35e75d0312c80062a93ba28f83104
+size 369

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 5.0,
-    "train_loss": 1.8849000129177436,
-    "train_runtime": 16318.8411,
-    "train_samples_per_second": 70.893,
-    "train_steps_per_second": 2.216
 }

 {
+    "epoch": 4.7,
+    "train_loss": 1.1847389993106618,
+    "train_runtime": 16307.0712,
+    "train_samples_per_second": 70.944,
+    "train_steps_per_second": 2.217
 }

trainer_state.json CHANGED Viewed

@@ -1,565 +1,535 @@
 {
-  "best_metric": 1.547638177871704,
-  "best_model_checkpoint": "Transformers/vit-base-clothing-leafs-example-full-simple/checkpoint-36000",
-  "epoch": 5.0,
-  "global_step": 36155,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14,
-      "learning_rate": 9.723413082561194e-07,
-      "loss": 3.4054,
       "step": 1000
     },
     {
       "epoch": 0.14,
-      "eval_accuracy": 0.25032846967706246,
-      "eval_loss": 3.1049513816833496,
-      "eval_runtime": 156.7842,
-      "eval_samples_per_second": 184.47,
-      "eval_steps_per_second": 23.064,
       "step": 1000
     },
     {
       "epoch": 0.28,
-      "learning_rate": 9.446826165122389e-07,
-      "loss": 2.95,
       "step": 2000
     },
     {
       "epoch": 0.28,
-      "eval_accuracy": 0.3431989488970334,
-      "eval_loss": 2.8256096839904785,
-      "eval_runtime": 156.9228,
-      "eval_samples_per_second": 184.307,
-      "eval_steps_per_second": 23.043,
       "step": 2000
     },
     {
       "epoch": 0.41,
-      "learning_rate": 9.170239247683584e-07,
-      "loss": 2.715,
       "step": 3000
     },
     {
       "epoch": 0.41,
-      "eval_accuracy": 0.3754581287601134,
-      "eval_loss": 2.6272990703582764,
-      "eval_runtime": 146.3102,
-      "eval_samples_per_second": 197.676,
-      "eval_steps_per_second": 24.715,
       "step": 3000
     },
     {
       "epoch": 0.55,
-      "learning_rate": 8.893928917162218e-07,
-      "loss": 2.552,
       "step": 4000
     },
     {
       "epoch": 0.55,
-      "eval_accuracy": 0.4142867021644423,
-      "eval_loss": 2.4831433296203613,
-      "eval_runtime": 142.6553,
-      "eval_samples_per_second": 202.74,
-      "eval_steps_per_second": 25.348,
       "step": 4000
     },
     {
       "epoch": 0.69,
-      "learning_rate": 8.617341999723413e-07,
-      "loss": 2.4189,
       "step": 5000
     },
     {
       "epoch": 0.69,
-      "eval_accuracy": 0.4471336698706867,
-      "eval_loss": 2.364607095718384,
-      "eval_runtime": 142.2186,
-      "eval_samples_per_second": 203.363,
-      "eval_steps_per_second": 25.426,
       "step": 5000
     },
     {
       "epoch": 0.83,
-      "learning_rate": 8.341031669202047e-07,
-      "loss": 2.306,
       "step": 6000
     },
     {
       "epoch": 0.83,
-      "eval_accuracy": 0.4672567595601964,
-      "eval_loss": 2.266972303390503,
-      "eval_runtime": 142.0527,
-      "eval_samples_per_second": 203.6,
-      "eval_steps_per_second": 25.455,
       "step": 6000
     },
     {
       "epoch": 0.97,
-      "learning_rate": 8.064444751763241e-07,
-      "loss": 2.2189,
       "step": 7000
     },
     {
       "epoch": 0.97,
-      "eval_accuracy": 0.4896272733559228,
-      "eval_loss": 2.1854753494262695,
-      "eval_runtime": 144.7118,
-      "eval_samples_per_second": 199.859,
-      "eval_steps_per_second": 24.988,
       "step": 7000
     },
     {
       "epoch": 1.11,
-      "learning_rate": 7.787857834324436e-07,
-      "loss": 2.1523,
       "step": 8000
     },
     {
       "epoch": 1.11,
-      "eval_accuracy": 0.5122743931954913,
-      "eval_loss": 2.113058567047119,
-      "eval_runtime": 143.2513,
-      "eval_samples_per_second": 201.897,
-      "eval_steps_per_second": 25.242,
       "step": 8000
     },
     {
       "epoch": 1.24,
-      "learning_rate": 7.51154750380307e-07,
-      "loss": 2.0765,
       "step": 9000
     },
     {
       "epoch": 1.24,
-      "eval_accuracy": 0.529423967913699,
-      "eval_loss": 2.0503833293914795,
-      "eval_runtime": 142.002,
-      "eval_samples_per_second": 203.673,
-      "eval_steps_per_second": 25.464,
       "step": 9000
     },
     {
       "epoch": 1.38,
-      "learning_rate": 7.234960586364265e-07,
-      "loss": 2.0082,
       "step": 10000
     },
     {
       "epoch": 1.38,
-      "eval_accuracy": 0.5425973307516769,
-      "eval_loss": 1.9951448440551758,
-      "eval_runtime": 144.1539,
-      "eval_samples_per_second": 200.633,
-      "eval_steps_per_second": 25.084,
       "step": 10000
     },
     {
       "epoch": 1.52,
-      "learning_rate": 6.958926842760338e-07,
-      "loss": 1.9663,
       "step": 11000
     },
     {
       "epoch": 1.52,
-      "eval_accuracy": 0.5556669663232142,
-      "eval_loss": 1.9460337162017822,
-      "eval_runtime": 144.6987,
-      "eval_samples_per_second": 199.877,
-      "eval_steps_per_second": 24.99,
       "step": 11000
     },
     {
       "epoch": 1.66,
-      "learning_rate": 6.682339925321532e-07,
-      "loss": 1.9155,
       "step": 12000
     },
     {
       "epoch": 1.66,
-      "eval_accuracy": 0.5670769656316991,
-      "eval_loss": 1.9018137454986572,
-      "eval_runtime": 143.4532,
-      "eval_samples_per_second": 201.613,
-      "eval_steps_per_second": 25.207,
       "step": 12000
     },
     {
       "epoch": 1.8,
-      "learning_rate": 6.406029594800165e-07,
-      "loss": 1.8748,
       "step": 13000
     },
     {
       "epoch": 1.8,
-      "eval_accuracy": 0.5768619044326119,
-      "eval_loss": 1.862241506576538,
-      "eval_runtime": 143.567,
-      "eval_samples_per_second": 201.453,
-      "eval_steps_per_second": 25.187,
       "step": 13000
     },
     {
       "epoch": 1.94,
-      "learning_rate": 6.129442677361361e-07,
-      "loss": 1.8318,
       "step": 14000
     },
     {
       "epoch": 1.94,
-      "eval_accuracy": 0.5785215406956642,
-      "eval_loss": 1.8258068561553955,
-      "eval_runtime": 144.3395,
-      "eval_samples_per_second": 200.375,
-      "eval_steps_per_second": 25.052,
       "step": 14000
     },
     {
       "epoch": 2.07,
-      "learning_rate": 5.852855759922556e-07,
-      "loss": 1.7969,
       "step": 15000
     },
     {
       "epoch": 2.07,
-      "eval_accuracy": 0.5844339948827882,
-      "eval_loss": 1.7949597835540771,
-      "eval_runtime": 142.3732,
-      "eval_samples_per_second": 203.142,
-      "eval_steps_per_second": 25.398,
       "step": 15000
     },
     {
       "epoch": 2.21,
-      "learning_rate": 5.57626884248375e-07,
-      "loss": 1.769,
       "step": 16000
     },
     {
       "epoch": 2.21,
-      "eval_accuracy": 0.5934928428186156,
-      "eval_loss": 1.7645893096923828,
-      "eval_runtime": 143.1571,
-      "eval_samples_per_second": 202.03,
-      "eval_steps_per_second": 25.259,
       "step": 16000
     },
     {
       "epoch": 2.35,
-      "learning_rate": 5.299958511962384e-07,
-      "loss": 1.7303,
       "step": 17000
     },
     {
       "epoch": 2.35,
-      "eval_accuracy": 0.597987691031049,
-      "eval_loss": 1.7381689548492432,
-      "eval_runtime": 146.7645,
-      "eval_samples_per_second": 197.064,
-      "eval_steps_per_second": 24.638,
       "step": 17000
     },
     {
       "epoch": 2.49,
-      "learning_rate": 5.023648181441018e-07,
-      "loss": 1.7159,
       "step": 18000
     },
     {
       "epoch": 2.49,
-      "eval_accuracy": 0.6031394785976073,
-      "eval_loss": 1.714737892150879,
-      "eval_runtime": 145.394,
-      "eval_samples_per_second": 198.922,
-      "eval_steps_per_second": 24.87,
       "step": 18000
     },
     {
       "epoch": 2.63,
-      "learning_rate": 4.7470612640022124e-07,
-      "loss": 1.6935,
       "step": 19000
     },
     {
       "epoch": 2.63,
-      "eval_accuracy": 0.6080492358758038,
-      "eval_loss": 1.6934996843338013,
-      "eval_runtime": 143.1955,
-      "eval_samples_per_second": 201.976,
-      "eval_steps_per_second": 25.252,
       "step": 19000
     },
     {
       "epoch": 2.77,
-      "learning_rate": 4.4704743465634077e-07,
-      "loss": 1.6843,
       "step": 20000
     },
     {
       "epoch": 2.77,
-      "eval_accuracy": 0.6099163266717378,
-      "eval_loss": 1.674344778060913,
-      "eval_runtime": 143.1944,
-      "eval_samples_per_second": 201.977,
-      "eval_steps_per_second": 25.252,
       "step": 20000
     },
     {
       "epoch": 2.9,
-      "learning_rate": 4.1938874291246025e-07,
-      "loss": 1.6495,
       "step": 21000
     },
     {
       "epoch": 2.9,
-      "eval_accuracy": 0.6116105386902704,
-      "eval_loss": 1.6570900678634644,
-      "eval_runtime": 142.9785,
-      "eval_samples_per_second": 202.282,
-      "eval_steps_per_second": 25.291,
       "step": 21000
     },
     {
       "epoch": 3.04,
-      "learning_rate": 3.917577098603236e-07,
-      "loss": 1.6281,
       "step": 22000
     },
     {
       "epoch": 3.04,
-      "eval_accuracy": 0.6163474171910657,
-      "eval_loss": 1.6406831741333008,
-      "eval_runtime": 144.1751,
-      "eval_samples_per_second": 200.603,
-      "eval_steps_per_second": 25.081,
       "step": 22000
     },
     {
       "epoch": 3.18,
-      "learning_rate": 3.6409901811644307e-07,
-      "loss": 1.6161,
       "step": 23000
     },
     {
       "epoch": 3.18,
-      "eval_accuracy": 0.6166931747458682,
-      "eval_loss": 1.628000259399414,
-      "eval_runtime": 142.9419,
-      "eval_samples_per_second": 202.334,
-      "eval_steps_per_second": 25.297,
       "step": 23000
     },
     {
       "epoch": 3.32,
-      "learning_rate": 3.3646798506430647e-07,
-      "loss": 1.6003,
       "step": 24000
     },
     {
       "epoch": 3.32,
-      "eval_accuracy": 0.6204273563377359,
-      "eval_loss": 1.6148841381072998,
-      "eval_runtime": 144.0133,
-      "eval_samples_per_second": 200.829,
-      "eval_steps_per_second": 25.109,
       "step": 24000
     },
     {
       "epoch": 3.46,
-      "learning_rate": 3.0880929332042595e-07,
-      "loss": 1.5973,
       "step": 25000
     },
     {
       "epoch": 3.46,
-      "eval_accuracy": 0.6222252956227093,
-      "eval_loss": 1.6035106182098389,
-      "eval_runtime": 141.8894,
-      "eval_samples_per_second": 203.835,
-      "eval_steps_per_second": 25.485,
       "step": 25000
     },
     {
       "epoch": 3.6,
-      "learning_rate": 2.811782602682893e-07,
-      "loss": 1.58,
       "step": 26000
     },
     {
       "epoch": 3.6,
-      "eval_accuracy": 0.6232625682871171,
-      "eval_loss": 1.593165636062622,
-      "eval_runtime": 142.737,
-      "eval_samples_per_second": 202.624,
-      "eval_steps_per_second": 25.333,
       "step": 26000
     },
     {
       "epoch": 3.73,
-      "learning_rate": 2.535195685244088e-07,
-      "loss": 1.5887,
       "step": 27000
     },
     {
       "epoch": 3.73,
-      "eval_accuracy": 0.6248876287946892,
-      "eval_loss": 1.5843583345413208,
-      "eval_runtime": 142.0792,
-      "eval_samples_per_second": 203.562,
-      "eval_steps_per_second": 25.451,
       "step": 27000
     },
     {
       "epoch": 3.87,
-      "learning_rate": 2.2586087678052825e-07,
-      "loss": 1.5583,
       "step": 28000
     },
     {
       "epoch": 3.87,
-      "eval_accuracy": 0.626616416568702,
-      "eval_loss": 1.576346516609192,
-      "eval_runtime": 142.1019,
-      "eval_samples_per_second": 203.53,
-      "eval_steps_per_second": 25.447,
       "step": 28000
     },
     {
       "epoch": 4.01,
-      "learning_rate": 1.9820218503664775e-07,
-      "loss": 1.5576,
       "step": 29000
     },
     {
       "epoch": 4.01,
-      "eval_accuracy": 0.6278957195214715,
-      "eval_loss": 1.5693974494934082,
-      "eval_runtime": 142.1243,
-      "eval_samples_per_second": 203.498,
-      "eval_steps_per_second": 25.443,
       "step": 29000
     },
     {
       "epoch": 4.15,
-      "learning_rate": 1.7054349329276723e-07,
-      "loss": 1.5538,
       "step": 30000
     },
     {
       "epoch": 4.15,
-      "eval_accuracy": 0.6281031740543531,
-      "eval_loss": 1.564090371131897,
-      "eval_runtime": 141.9612,
-      "eval_samples_per_second": 203.732,
-      "eval_steps_per_second": 25.472,
       "step": 30000
     },
     {
       "epoch": 4.29,
-      "learning_rate": 1.429124602406306e-07,
-      "loss": 1.5462,
       "step": 31000
     },
     {
       "epoch": 4.29,
-      "eval_accuracy": 0.6282760528317544,
-      "eval_loss": 1.5589792728424072,
-      "eval_runtime": 141.9942,
-      "eval_samples_per_second": 203.684,
-      "eval_steps_per_second": 25.466,
       "step": 31000
     },
     {
       "epoch": 4.43,
-      "learning_rate": 1.152537684967501e-07,
-      "loss": 1.5428,
       "step": 32000
     },
     {
       "epoch": 4.43,
-      "eval_accuracy": 0.630246870894129,
-      "eval_loss": 1.5552754402160645,
-      "eval_runtime": 153.7134,
-      "eval_samples_per_second": 188.155,
-      "eval_steps_per_second": 23.524,
       "step": 32000
     },
     {
       "epoch": 4.56,
-      "learning_rate": 8.762273544461347e-08,
-      "loss": 1.5294,
       "step": 33000
     },
     {
       "epoch": 4.56,
-      "eval_accuracy": 0.6294862042735634,
-      "eval_loss": 1.552242398262024,
-      "eval_runtime": 153.3276,
-      "eval_samples_per_second": 188.629,
-      "eval_steps_per_second": 23.583,
       "step": 33000
     },
     {
       "epoch": 4.7,
-      "learning_rate": 5.999170239247684e-08,
-      "loss": 1.5362,
       "step": 34000
     },
     {
       "epoch": 4.7,
-      "eval_accuracy": 0.6300048406057672,
-      "eval_loss": 1.5497843027114868,
-      "eval_runtime": 153.8161,
-      "eval_samples_per_second": 188.03,
-      "eval_steps_per_second": 23.509,
       "step": 34000
     },
     {
-      "epoch": 4.84,
-      "learning_rate": 3.233301064859632e-08,
-      "loss": 1.5302,
-      "step": 35000
-    },
-    {
-      "epoch": 4.84,
-      "eval_accuracy": 0.6304543254270106,
-      "eval_loss": 1.5483404397964478,
-      "eval_runtime": 153.9073,
-      "eval_samples_per_second": 187.918,
-      "eval_steps_per_second": 23.495,
-      "step": 35000
-    },
-    {
-      "epoch": 4.98,
-      "learning_rate": 4.701977596459688e-09,
-      "loss": 1.5222,
-      "step": 36000
-    },
-    {
-      "epoch": 4.98,
-      "eval_accuracy": 0.631180416292096,
-      "eval_loss": 1.547638177871704,
-      "eval_runtime": 153.639,
-      "eval_samples_per_second": 188.247,
-      "eval_steps_per_second": 23.536,
-      "step": 36000
-    },
-    {
-      "epoch": 5.0,
-      "step": 36155,
-      "total_flos": 8.968467433938647e+19,
-      "train_loss": 1.8849000129177436,
-      "train_runtime": 16318.8411,
-      "train_samples_per_second": 70.893,
-      "train_steps_per_second": 2.216
     }
   ],
   "max_steps": 36155,
   "num_train_epochs": 5,
-  "total_flos": 8.968467433938647e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.1537460088729858,
+  "best_model_checkpoint": "Transformers/vit-base-clothing-leafs-example-full-simple/checkpoint-29000",
+  "epoch": 4.701977596459687,
+  "global_step": 34000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.14,
+      "learning_rate": 0.0004861844834739317,
+      "loss": 1.7696,
       "step": 1000
     },
     {
       "epoch": 0.14,
+      "eval_accuracy": 0.51210151441809,
+      "eval_loss": 1.6692757606506348,
+      "eval_runtime": 156.1015,
+      "eval_samples_per_second": 185.277,
+      "eval_steps_per_second": 23.164,
       "step": 1000
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0004723551376019915,
+      "loss": 1.5848,
       "step": 2000
     },
     {
       "epoch": 0.28,
+      "eval_accuracy": 0.5409031187331443,
+      "eval_loss": 1.545974850654602,
+      "eval_runtime": 152.8778,
+      "eval_samples_per_second": 189.184,
+      "eval_steps_per_second": 23.653,
       "step": 2000
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.00045852579173005114,
+      "loss": 1.5409,
       "step": 3000
     },
     {
       "epoch": 0.41,
+      "eval_accuracy": 0.5449830578798147,
+      "eval_loss": 1.539915680885315,
+      "eval_runtime": 149.8345,
+      "eval_samples_per_second": 193.026,
+      "eval_steps_per_second": 24.133,
       "step": 3000
     },
     {
       "epoch": 0.55,
+      "learning_rate": 0.0004447102752039829,
+      "loss": 1.5147,
       "step": 4000
     },
     {
       "epoch": 0.55,
+      "eval_accuracy": 0.5655210566350874,
+      "eval_loss": 1.4725779294967651,
+      "eval_runtime": 149.8923,
+      "eval_samples_per_second": 192.952,
+      "eval_steps_per_second": 24.124,
       "step": 4000
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.0004308809293320426,
+      "loss": 1.4834,
       "step": 5000
     },
     {
       "epoch": 0.69,
+      "eval_accuracy": 0.5699121775810801,
+      "eval_loss": 1.4570878744125366,
+      "eval_runtime": 150.1106,
+      "eval_samples_per_second": 192.671,
+      "eval_steps_per_second": 24.089,
       "step": 5000
     },
     {
       "epoch": 0.83,
+      "learning_rate": 0.0004170515834601024,
+      "loss": 1.4598,
       "step": 6000
     },
     {
       "epoch": 0.83,
+      "eval_accuracy": 0.5605421478459305,
+      "eval_loss": 1.4731388092041016,
+      "eval_runtime": 149.8373,
+      "eval_samples_per_second": 193.023,
+      "eval_steps_per_second": 24.133,
       "step": 6000
     },
     {
       "epoch": 0.97,
+      "learning_rate": 0.00040322223758816204,
+      "loss": 1.4368,
       "step": 7000
     },
     {
       "epoch": 0.97,
+      "eval_accuracy": 0.5819099647327294,
+      "eval_loss": 1.405070424079895,
+      "eval_runtime": 150.0888,
+      "eval_samples_per_second": 192.699,
+      "eval_steps_per_second": 24.092,
       "step": 7000
     },
     {
       "epoch": 1.11,
+      "learning_rate": 0.0003893928917162218,
+      "loss": 1.3777,
       "step": 8000
     },
     {
       "epoch": 1.11,
+      "eval_accuracy": 0.59408063066178,
+      "eval_loss": 1.3815604448318481,
+      "eval_runtime": 149.8631,
+      "eval_samples_per_second": 192.989,
+      "eval_steps_per_second": 24.129,
       "step": 8000
     },
     {
       "epoch": 1.24,
+      "learning_rate": 0.0003755773751901535,
+      "loss": 1.3634,
       "step": 9000
     },
     {
       "epoch": 1.24,
+      "eval_accuracy": 0.6013761150681143,
+      "eval_loss": 1.356782078742981,
+      "eval_runtime": 155.0119,
+      "eval_samples_per_second": 186.579,
+      "eval_steps_per_second": 23.327,
       "step": 9000
     },
     {
       "epoch": 1.38,
+      "learning_rate": 0.0003617480293182133,
+      "loss": 1.3494,
       "step": 10000
     },
     {
       "epoch": 1.38,
+      "eval_accuracy": 0.5920406610884448,
+      "eval_loss": 1.3675092458724976,
+      "eval_runtime": 158.2083,
+      "eval_samples_per_second": 182.81,
+      "eval_steps_per_second": 22.856,
       "step": 10000
     },
     {
       "epoch": 1.52,
+      "learning_rate": 0.000347918683446273,
+      "loss": 1.3231,
       "step": 11000
     },
     {
       "epoch": 1.52,
+      "eval_accuracy": 0.5963280547679967,
+      "eval_loss": 1.3448883295059204,
+      "eval_runtime": 157.2868,
+      "eval_samples_per_second": 183.881,
+      "eval_steps_per_second": 22.99,
       "step": 11000
     },
     {
       "epoch": 1.66,
+      "learning_rate": 0.0003341031669202047,
+      "loss": 1.3001,
       "step": 12000
     },
     {
       "epoch": 1.66,
+      "eval_accuracy": 0.6059401147915082,
+      "eval_loss": 1.334527850151062,
+      "eval_runtime": 155.8494,
+      "eval_samples_per_second": 185.577,
+      "eval_steps_per_second": 23.202,
       "step": 12000
     },
     {
       "epoch": 1.8,
+      "learning_rate": 0.0003202738210482644,
+      "loss": 1.2931,
       "step": 13000
     },
     {
       "epoch": 1.8,
+      "eval_accuracy": 0.6064933268791923,
+      "eval_loss": 1.3300402164459229,
+      "eval_runtime": 154.1543,
+      "eval_samples_per_second": 187.617,
+      "eval_steps_per_second": 23.457,
       "step": 13000
     },
     {
       "epoch": 1.94,
+      "learning_rate": 0.0003064444751763242,
+      "loss": 1.2888,
       "step": 14000
     },
     {
       "epoch": 1.94,
+      "eval_accuracy": 0.6109881750916257,
+      "eval_loss": 1.3210688829421997,
+      "eval_runtime": 153.4104,
+      "eval_samples_per_second": 188.527,
+      "eval_steps_per_second": 23.571,
       "step": 14000
     },
     {
       "epoch": 2.07,
+      "learning_rate": 0.0002926151293043839,
+      "loss": 1.2316,
       "step": 15000
     },
     {
       "epoch": 2.07,
+      "eval_accuracy": 0.6146186294170528,
+      "eval_loss": 1.301633358001709,
+      "eval_runtime": 153.9979,
+      "eval_samples_per_second": 187.808,
+      "eval_steps_per_second": 23.481,
       "step": 15000
     },
     {
       "epoch": 2.21,
+      "learning_rate": 0.0002787996127783156,
+      "loss": 1.196,
       "step": 16000
     },
     {
       "epoch": 2.21,
+      "eval_accuracy": 0.6186985685637231,
+      "eval_loss": 1.2850406169891357,
+      "eval_runtime": 156.035,
+      "eval_samples_per_second": 185.356,
+      "eval_steps_per_second": 23.174,
       "step": 16000
     },
     {
       "epoch": 2.35,
+      "learning_rate": 0.0002649702669063753,
+      "loss": 1.1827,
       "step": 17000
     },
     {
       "epoch": 2.35,
+      "eval_accuracy": 0.62499135606113,
+      "eval_loss": 1.2636860609054565,
+      "eval_runtime": 153.9031,
+      "eval_samples_per_second": 187.923,
+      "eval_steps_per_second": 23.495,
       "step": 17000
     },
     {
       "epoch": 2.49,
+      "learning_rate": 0.000251154750380307,
+      "loss": 1.1656,
       "step": 18000
     },
     {
       "epoch": 2.49,
+      "eval_accuracy": 0.6329783555770694,
+      "eval_loss": 1.2347491979599,
+      "eval_runtime": 156.2721,
+      "eval_samples_per_second": 185.075,
+      "eval_steps_per_second": 23.139,
       "step": 18000
     },
     {
       "epoch": 2.63,
+      "learning_rate": 0.00023732540450836675,
+      "loss": 1.1589,
       "step": 19000
     },
     {
       "epoch": 2.63,
+      "eval_accuracy": 0.6352603554387664,
+      "eval_loss": 1.2342965602874756,
+      "eval_runtime": 154.9782,
+      "eval_samples_per_second": 186.62,
+      "eval_steps_per_second": 23.332,
       "step": 19000
     },
     {
       "epoch": 2.77,
+      "learning_rate": 0.0002234960586364265,
+      "loss": 1.1458,
       "step": 20000
     },
     {
       "epoch": 2.77,
+      "eval_accuracy": 0.6324251434893853,
+      "eval_loss": 1.2315857410430908,
+      "eval_runtime": 153.0744,
+      "eval_samples_per_second": 188.941,
+      "eval_steps_per_second": 23.622,
       "step": 20000
     },
     {
       "epoch": 2.9,
+      "learning_rate": 0.0002096805421103582,
+      "loss": 1.1517,
       "step": 21000
     },
     {
       "epoch": 2.9,
+      "eval_accuracy": 0.6440425973307516,
+      "eval_loss": 1.2039456367492676,
+      "eval_runtime": 155.3634,
+      "eval_samples_per_second": 186.157,
+      "eval_steps_per_second": 23.274,
       "step": 21000
     },
     {
       "epoch": 3.04,
+      "learning_rate": 0.00019585119623841794,
+      "loss": 1.0928,
       "step": 22000
     },
     {
       "epoch": 3.04,
+      "eval_accuracy": 0.6439042943088307,
+      "eval_loss": 1.2146044969558716,
+      "eval_runtime": 154.9132,
+      "eval_samples_per_second": 186.698,
+      "eval_steps_per_second": 23.342,
       "step": 22000
     },
     {
       "epoch": 3.18,
+      "learning_rate": 0.00018202185036647766,
+      "loss": 1.0052,
       "step": 23000
     },
     {
       "epoch": 3.18,
+      "eval_accuracy": 0.6462554456814882,
+      "eval_loss": 1.200515866279602,
+      "eval_runtime": 154.8032,
+      "eval_samples_per_second": 186.831,
+      "eval_steps_per_second": 23.359,
       "step": 23000
     },
     {
       "epoch": 3.32,
+      "learning_rate": 0.0001681925044945374,
+      "loss": 1.0028,
       "step": 24000
     },
     {
       "epoch": 3.32,
+      "eval_accuracy": 0.6495055666966323,
+      "eval_loss": 1.1917015314102173,
+      "eval_runtime": 153.9041,
+      "eval_samples_per_second": 187.922,
+      "eval_steps_per_second": 23.495,
       "step": 24000
     },
     {
       "epoch": 3.46,
+      "learning_rate": 0.00015437698796846912,
+      "loss": 1.0131,
       "step": 25000
     },
     {
       "epoch": 3.46,
+      "eval_accuracy": 0.6534817785768618,
+      "eval_loss": 1.1741726398468018,
+      "eval_runtime": 153.9239,
+      "eval_samples_per_second": 187.898,
+      "eval_steps_per_second": 23.492,
       "step": 25000
     },
     {
       "epoch": 3.6,
+      "learning_rate": 0.00014054764209652884,
+      "loss": 1.0048,
       "step": 26000
     },
     {
       "epoch": 3.6,
+      "eval_accuracy": 0.6559020814604799,
+      "eval_loss": 1.1676703691482544,
+      "eval_runtime": 156.008,
+      "eval_samples_per_second": 185.388,
+      "eval_steps_per_second": 23.178,
       "step": 26000
     },
     {
       "epoch": 3.73,
+      "learning_rate": 0.0001267182962245886,
+      "loss": 0.9948,
       "step": 27000
     },
     {
       "epoch": 3.73,
+      "eval_accuracy": 0.661814535647604,
+      "eval_loss": 1.1556403636932373,
+      "eval_runtime": 154.0881,
+      "eval_samples_per_second": 187.698,
+      "eval_steps_per_second": 23.467,
       "step": 27000
     },
     {
       "epoch": 3.87,
+      "learning_rate": 0.00011288895035264832,
+      "loss": 0.9767,
       "step": 28000
     },
     {
       "epoch": 3.87,
+      "eval_accuracy": 0.6612958993154,
+      "eval_loss": 1.1548937559127808,
+      "eval_runtime": 153.955,
+      "eval_samples_per_second": 187.86,
+      "eval_steps_per_second": 23.487,
       "step": 28000
     },
     {
       "epoch": 4.01,
+      "learning_rate": 9.907343382658e-05,
+      "loss": 0.9648,
       "step": 29000
     },
     {
       "epoch": 4.01,
+      "eval_accuracy": 0.6628518083120116,
+      "eval_loss": 1.1537460088729858,
+      "eval_runtime": 154.4616,
+      "eval_samples_per_second": 187.244,
+      "eval_steps_per_second": 23.41,
       "step": 29000
     },
     {
       "epoch": 4.15,
+      "learning_rate": 8.524408795463976e-05,
+      "loss": 0.7937,
       "step": 30000
     },
     {
       "epoch": 4.15,
+      "eval_accuracy": 0.6646843233524653,
+      "eval_loss": 1.1759380102157593,
+      "eval_runtime": 154.4382,
+      "eval_samples_per_second": 187.272,
+      "eval_steps_per_second": 23.414,
       "step": 30000
     },
     {
       "epoch": 4.29,
+      "learning_rate": 7.142857142857142e-05,
+      "loss": 0.7809,
       "step": 31000
     },
     {
       "epoch": 4.29,
+      "eval_accuracy": 0.6660327778161953,
+      "eval_loss": 1.1789319515228271,
+      "eval_runtime": 156.6898,
+      "eval_samples_per_second": 184.581,
+      "eval_steps_per_second": 23.077,
       "step": 31000
     },
     {
       "epoch": 4.43,
+      "learning_rate": 5.759922555663117e-05,
+      "loss": 0.7919,
       "step": 32000
     },
     {
       "epoch": 4.43,
+      "eval_accuracy": 0.6640273839983404,
+      "eval_loss": 1.1803646087646484,
+      "eval_runtime": 153.9058,
+      "eval_samples_per_second": 187.92,
+      "eval_steps_per_second": 23.495,
       "step": 32000
     },
     {
       "epoch": 4.56,
+      "learning_rate": 4.3783709030562856e-05,
+      "loss": 0.7747,
       "step": 33000
     },
     {
       "epoch": 4.56,
+      "eval_accuracy": 0.6665859899038794,
+      "eval_loss": 1.1784451007843018,
+      "eval_runtime": 154.9201,
+      "eval_samples_per_second": 186.69,
+      "eval_steps_per_second": 23.341,
       "step": 33000
     },
     {
       "epoch": 4.7,
+      "learning_rate": 2.9954363158622597e-05,
+      "loss": 0.7669,
       "step": 34000
     },
     {
       "epoch": 4.7,
+      "eval_accuracy": 0.6704584745176682,
+      "eval_loss": 1.1698390245437622,
+      "eval_runtime": 153.1559,
+      "eval_samples_per_second": 188.84,
+      "eval_steps_per_second": 23.61,
       "step": 34000
     },
     {
+      "epoch": 4.7,
+      "step": 34000,
+      "total_flos": 8.43398821843071e+19,
+      "train_loss": 1.1847389993106618,
+      "train_runtime": 16307.0712,
+      "train_samples_per_second": 70.944,
+      "train_steps_per_second": 2.217
     }
   ],
   "max_steps": 36155,
   "num_train_epochs": 5,
+  "total_flos": 8.43398821843071e+19,
   "trial_name": null,
   "trial_params": null
 }