🍻 cheers

Browse files

Files changed (5) hide show

all_results.json +9 -9
eval_results.json +5 -5
runs/Jun06_08-26-21_adrian-development/events.out.tfevents.1686046785.adrian-development.7746.2 +3 -0
train_results.json +4 -4
trainer_state.json +201 -201

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.7118110780720559,
-    "eval_loss": 0.9865913391113281,
-    "eval_runtime": 155.9763,
-    "eval_samples_per_second": 185.426,
-    "eval_steps_per_second": 23.183,
-    "train_loss": 0.8423061020030403,
-    "train_runtime": 13978.3951,
-    "train_samples_per_second": 66.21,
-    "train_steps_per_second": 2.069
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.710220593319964,
+    "eval_loss": 0.9962999820709229,
+    "eval_runtime": 152.3809,
+    "eval_samples_per_second": 189.801,
+    "eval_steps_per_second": 23.73,
+    "train_loss": 0.8206716175314105,
+    "train_runtime": 13827.0136,
+    "train_samples_per_second": 66.935,
+    "train_steps_per_second": 2.092
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.7118110780720559,
-    "eval_loss": 0.9865913391113281,
-    "eval_runtime": 155.9763,
-    "eval_samples_per_second": 185.426,
-    "eval_steps_per_second": 23.183
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.710220593319964,
+    "eval_loss": 0.9962999820709229,
+    "eval_runtime": 152.3809,
+    "eval_samples_per_second": 189.801,
+    "eval_steps_per_second": 23.73
 }

runs/Jun06_08-26-21_adrian-development/events.out.tfevents.1686046785.adrian-development.7746.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b8516e0dba9ec9da4f284c2bcace0026732ba0e15f5af5808e844557b2785e
+size 369

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 4.0,
-    "train_loss": 0.8423061020030403,
-    "train_runtime": 13978.3951,
-    "train_samples_per_second": 66.21,
-    "train_steps_per_second": 2.069
 }

 {
     "epoch": 4.0,
+    "train_loss": 0.8206716175314105,
+    "train_runtime": 13827.0136,
+    "train_samples_per_second": 66.935,
+    "train_steps_per_second": 2.092
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.9865913391113281,
-  "best_model_checkpoint": "Transformers/vit-base-clothing-leafs-example-full-simple/checkpoint-12000",
   "epoch": 4.0,
   "global_step": 28924,
   "is_hyper_param_search": false,
@@ -9,432 +9,432 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "learning_rate": 4.8273060434241463e-05,
-      "loss": 1.7384,
       "step": 1000
     },
     {
       "epoch": 0.14,
-      "eval_accuracy": 0.6473272941013761,
-      "eval_loss": 1.328142523765564,
-      "eval_runtime": 162.5228,
-      "eval_samples_per_second": 177.957,
-      "eval_steps_per_second": 22.249,
       "step": 1000
     },
     {
       "epoch": 0.28,
-      "learning_rate": 4.654439220024893e-05,
-      "loss": 1.2367,
       "step": 2000
     },
     {
       "epoch": 0.28,
-      "eval_accuracy": 0.6703201714957472,
-      "eval_loss": 1.181534767150879,
-      "eval_runtime": 155.6299,
-      "eval_samples_per_second": 185.838,
-      "eval_steps_per_second": 23.235,
       "step": 2000
     },
     {
       "epoch": 0.41,
-      "learning_rate": 4.481745263449039e-05,
-      "loss": 1.1348,
       "step": 3000
     },
     {
       "epoch": 0.41,
-      "eval_accuracy": 0.6793790194315745,
-      "eval_loss": 1.128984808921814,
-      "eval_runtime": 155.0985,
-      "eval_samples_per_second": 186.475,
-      "eval_steps_per_second": 23.314,
       "step": 3000
     },
     {
       "epoch": 0.55,
-      "learning_rate": 4.3088784400497855e-05,
-      "loss": 1.1003,
       "step": 4000
     },
     {
       "epoch": 0.55,
-      "eval_accuracy": 0.6882995643454809,
-      "eval_loss": 1.0926539897918701,
-      "eval_runtime": 154.2349,
-      "eval_samples_per_second": 187.519,
-      "eval_steps_per_second": 23.445,
       "step": 4000
     },
     {
       "epoch": 0.69,
-      "learning_rate": 4.136357350297331e-05,
-      "loss": 1.0695,
       "step": 5000
     },
     {
       "epoch": 0.69,
-      "eval_accuracy": 0.6911347762948621,
-      "eval_loss": 1.0641425848007202,
-      "eval_runtime": 156.9018,
-      "eval_samples_per_second": 184.332,
-      "eval_steps_per_second": 23.046,
       "step": 5000
     },
     {
       "epoch": 0.83,
-      "learning_rate": 3.963490526898078e-05,
-      "loss": 1.0426,
       "step": 6000
     },
     {
       "epoch": 0.83,
-      "eval_accuracy": 0.6957679275292166,
-      "eval_loss": 1.0410244464874268,
-      "eval_runtime": 154.2668,
-      "eval_samples_per_second": 187.48,
-      "eval_steps_per_second": 23.44,
       "step": 6000
     },
     {
       "epoch": 0.97,
-      "learning_rate": 3.790623703498825e-05,
-      "loss": 1.0247,
       "step": 7000
     },
     {
       "epoch": 0.97,
-      "eval_accuracy": 0.6936933822004011,
-      "eval_loss": 1.0401992797851562,
-      "eval_runtime": 155.38,
-      "eval_samples_per_second": 186.137,
-      "eval_steps_per_second": 23.272,
       "step": 7000
     },
     {
       "epoch": 1.11,
-      "learning_rate": 3.61792974692297e-05,
-      "loss": 0.9406,
       "step": 8000
     },
     {
       "epoch": 1.11,
-      "eval_accuracy": 0.7003665030080908,
-      "eval_loss": 1.024382472038269,
-      "eval_runtime": 154.8686,
-      "eval_samples_per_second": 186.752,
-      "eval_steps_per_second": 23.349,
       "step": 8000
     },
     {
       "epoch": 1.24,
-      "learning_rate": 3.4450629235237175e-05,
-      "loss": 0.8824,
       "step": 9000
     },
     {
       "epoch": 1.24,
-      "eval_accuracy": 0.699329230343683,
-      "eval_loss": 1.0364962816238403,
-      "eval_runtime": 156.6606,
-      "eval_samples_per_second": 184.616,
-      "eval_steps_per_second": 23.082,
       "step": 9000
     },
     {
       "epoch": 1.38,
-      "learning_rate": 3.2721961001244647e-05,
-      "loss": 0.8979,
       "step": 10000
     },
     {
       "epoch": 1.38,
-      "eval_accuracy": 0.7066938662609779,
-      "eval_loss": 1.0050914287567139,
-      "eval_runtime": 154.5086,
-      "eval_samples_per_second": 187.187,
-      "eval_steps_per_second": 23.403,
       "step": 10000
     },
     {
       "epoch": 1.52,
-      "learning_rate": 3.099502143548611e-05,
-      "loss": 0.8947,
       "step": 11000
     },
     {
       "epoch": 1.52,
-      "eval_accuracy": 0.7089067146117143,
-      "eval_loss": 0.9985986948013306,
-      "eval_runtime": 156.682,
-      "eval_samples_per_second": 184.59,
-      "eval_steps_per_second": 23.079,
       "step": 11000
     },
     {
       "epoch": 1.66,
-      "learning_rate": 2.926635320149357e-05,
-      "loss": 0.8785,
       "step": 12000
     },
     {
       "epoch": 1.66,
-      "eval_accuracy": 0.7118110780720559,
-      "eval_loss": 0.9865913391113281,
-      "eval_runtime": 154.6399,
-      "eval_samples_per_second": 187.028,
-      "eval_steps_per_second": 23.383,
       "step": 12000
     },
     {
       "epoch": 1.8,
-      "learning_rate": 2.7539413635735027e-05,
-      "loss": 0.8881,
       "step": 13000
     },
     {
       "epoch": 1.8,
-      "eval_accuracy": 0.7112232902288915,
-      "eval_loss": 0.9892340898513794,
-      "eval_runtime": 155.1615,
-      "eval_samples_per_second": 186.399,
-      "eval_steps_per_second": 23.305,
       "step": 13000
     },
     {
       "epoch": 1.94,
-      "learning_rate": 2.58107454017425e-05,
-      "loss": 0.8652,
       "step": 14000
     },
     {
       "epoch": 1.94,
-      "eval_accuracy": 0.7111887144734113,
-      "eval_loss": 0.987538754940033,
-      "eval_runtime": 154.34,
-      "eval_samples_per_second": 187.392,
-      "eval_steps_per_second": 23.429,
       "step": 14000
     },
     {
       "epoch": 2.07,
-      "learning_rate": 2.4082077167749967e-05,
-      "loss": 0.7969,
       "step": 15000
     },
     {
       "epoch": 2.07,
-      "eval_accuracy": 0.7082843510130696,
-      "eval_loss": 1.003035068511963,
-      "eval_runtime": 154.584,
-      "eval_samples_per_second": 187.096,
-      "eval_steps_per_second": 23.392,
       "step": 15000
     },
     {
       "epoch": 2.21,
-      "learning_rate": 2.2353408933757432e-05,
-      "loss": 0.7153,
       "step": 16000
     },
     {
       "epoch": 2.21,
-      "eval_accuracy": 0.7085263813014314,
-      "eval_loss": 1.0069255828857422,
-      "eval_runtime": 154.1761,
-      "eval_samples_per_second": 187.591,
-      "eval_steps_per_second": 23.454,
       "step": 16000
     },
     {
       "epoch": 2.35,
-      "learning_rate": 2.0626469367998893e-05,
-      "loss": 0.7158,
       "step": 17000
     },
     {
       "epoch": 2.35,
-      "eval_accuracy": 0.7080077449692276,
-      "eval_loss": 1.0076011419296265,
-      "eval_runtime": 156.3358,
-      "eval_samples_per_second": 184.999,
-      "eval_steps_per_second": 23.13,
       "step": 17000
     },
     {
       "epoch": 2.49,
-      "learning_rate": 1.8897801134006362e-05,
-      "loss": 0.7248,
       "step": 18000
     },
     {
       "epoch": 2.49,
-      "eval_accuracy": 0.7108083811631284,
-      "eval_loss": 1.0020238161087036,
-      "eval_runtime": 154.0953,
-      "eval_samples_per_second": 187.689,
-      "eval_steps_per_second": 23.466,
       "step": 18000
     },
     {
       "epoch": 2.63,
-      "learning_rate": 1.716913290001383e-05,
-      "loss": 0.7204,
       "step": 19000
     },
     {
       "epoch": 2.63,
-      "eval_accuracy": 0.7130903810248254,
-      "eval_loss": 0.992910623550415,
-      "eval_runtime": 154.166,
-      "eval_samples_per_second": 187.603,
-      "eval_steps_per_second": 23.455,
       "step": 19000
     },
     {
       "epoch": 2.77,
-      "learning_rate": 1.5442193334255288e-05,
-      "loss": 0.7127,
       "step": 20000
     },
     {
       "epoch": 2.77,
-      "eval_accuracy": 0.7138510476453911,
-      "eval_loss": 0.992859423160553,
-      "eval_runtime": 155.0252,
-      "eval_samples_per_second": 186.563,
-      "eval_steps_per_second": 23.325,
       "step": 20000
     },
     {
       "epoch": 2.9,
-      "learning_rate": 1.3713525100262758e-05,
-      "loss": 0.7274,
       "step": 21000
     },
     {
       "epoch": 2.9,
-      "eval_accuracy": 0.7104626236083258,
-      "eval_loss": 0.9929330945014954,
-      "eval_runtime": 155.2366,
-      "eval_samples_per_second": 186.309,
-      "eval_steps_per_second": 23.293,
       "step": 21000
     },
     {
       "epoch": 3.04,
-      "learning_rate": 1.198658553450422e-05,
-      "loss": 0.6769,
       "step": 22000
     },
     {
       "epoch": 3.04,
-      "eval_accuracy": 0.7118110780720559,
-      "eval_loss": 1.0151628255844116,
-      "eval_runtime": 154.6606,
-      "eval_samples_per_second": 187.003,
-      "eval_steps_per_second": 23.38,
       "step": 22000
     },
     {
       "epoch": 3.18,
-      "learning_rate": 1.0259645968745679e-05,
-      "loss": 0.5859,
       "step": 23000
     },
     {
       "epoch": 3.18,
-      "eval_accuracy": 0.708872138856234,
-      "eval_loss": 1.0313763618469238,
-      "eval_runtime": 154.3702,
-      "eval_samples_per_second": 187.355,
-      "eval_steps_per_second": 23.424,
       "step": 23000
     },
     {
       "epoch": 3.32,
-      "learning_rate": 8.530977734753147e-06,
-      "loss": 0.5811,
       "step": 24000
     },
     {
       "epoch": 3.32,
-      "eval_accuracy": 0.7105663508747666,
-      "eval_loss": 1.0339767932891846,
-      "eval_runtime": 154.2207,
-      "eval_samples_per_second": 187.536,
-      "eval_steps_per_second": 23.447,
       "step": 24000
     },
     {
       "epoch": 3.46,
-      "learning_rate": 6.802309500760615e-06,
-      "loss": 0.5863,
       "step": 25000
     },
     {
       "epoch": 3.46,
-      "eval_accuracy": 0.7104971993638061,
-      "eval_loss": 1.0252958536148071,
-      "eval_runtime": 154.7743,
-      "eval_samples_per_second": 186.866,
-      "eval_steps_per_second": 23.363,
       "step": 25000
     },
     {
       "epoch": 3.6,
-      "learning_rate": 5.073641266768082e-06,
-      "loss": 0.5656,
       "step": 26000
     },
     {
       "epoch": 3.6,
       "eval_accuracy": 0.7103934720973654,
-      "eval_loss": 1.027882695198059,
-      "eval_runtime": 154.9221,
-      "eval_samples_per_second": 186.687,
-      "eval_steps_per_second": 23.341,
       "step": 26000
     },
     {
       "epoch": 3.73,
-      "learning_rate": 3.346701701009542e-06,
-      "loss": 0.5753,
       "step": 27000
     },
     {
       "epoch": 3.73,
-      "eval_accuracy": 0.7107738054076481,
-      "eval_loss": 1.0284228324890137,
-      "eval_runtime": 155.4908,
-      "eval_samples_per_second": 186.005,
-      "eval_steps_per_second": 23.255,
       "step": 27000
     },
     {
       "epoch": 3.87,
-      "learning_rate": 1.61803346701701e-06,
-      "loss": 0.5681,
       "step": 28000
     },
     {
       "epoch": 3.87,
-      "eval_accuracy": 0.7111887144734113,
-      "eval_loss": 1.0259647369384766,
-      "eval_runtime": 155.1653,
-      "eval_samples_per_second": 186.395,
-      "eval_steps_per_second": 23.304,
       "step": 28000
     },
     {
       "epoch": 4.0,
       "step": 28924,
       "total_flos": 7.174773947150918e+19,
-      "train_loss": 0.8423061020030403,
-      "train_runtime": 13978.3951,
-      "train_samples_per_second": 66.21,
-      "train_steps_per_second": 2.069
     }
   ],
   "max_steps": 28924,

 {
+  "best_metric": 0.9962999820709229,
+  "best_model_checkpoint": "Transformers/vit-base-clothing-leafs-example-full-simple/checkpoint-14000",
   "epoch": 4.0,
   "global_step": 28924,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.14,
+      "learning_rate": 7.240959065136219e-05,
+      "loss": 1.6085,
       "step": 1000
     },
     {
       "epoch": 0.14,
+      "eval_accuracy": 0.6414494156697323,
+      "eval_loss": 1.2965176105499268,
+      "eval_runtime": 155.6021,
+      "eval_samples_per_second": 185.872,
+      "eval_steps_per_second": 23.239,
       "step": 1000
     },
     {
       "epoch": 0.28,
+      "learning_rate": 6.981918130272437e-05,
+      "loss": 1.2071,
       "step": 2000
     },
     {
       "epoch": 0.28,
+      "eval_accuracy": 0.6689717170320172,
+      "eval_loss": 1.163772702217102,
+      "eval_runtime": 147.9377,
+      "eval_samples_per_second": 195.501,
+      "eval_steps_per_second": 24.443,
       "step": 2000
     },
     {
       "epoch": 0.41,
+      "learning_rate": 6.722617895173557e-05,
+      "loss": 1.1467,
       "step": 3000
     },
     {
       "epoch": 0.41,
+      "eval_accuracy": 0.672187262291681,
+      "eval_loss": 1.1356933116912842,
+      "eval_runtime": 148.7126,
+      "eval_samples_per_second": 194.482,
+      "eval_steps_per_second": 24.315,
       "step": 3000
     },
     {
       "epoch": 0.55,
+      "learning_rate": 6.463836260544876e-05,
+      "loss": 1.1073,
       "step": 4000
     },
     {
       "epoch": 0.55,
+      "eval_accuracy": 0.6832515040453634,
+      "eval_loss": 1.094034194946289,
+      "eval_runtime": 147.3532,
+      "eval_samples_per_second": 196.277,
+      "eval_steps_per_second": 24.54,
       "step": 4000
     },
     {
       "epoch": 0.69,
+      "learning_rate": 6.204536025445996e-05,
+      "loss": 1.0721,
       "step": 5000
     },
     {
       "epoch": 0.69,
+      "eval_accuracy": 0.685879261461863,
+      "eval_loss": 1.0801600217819214,
+      "eval_runtime": 148.8743,
+      "eval_samples_per_second": 194.271,
+      "eval_steps_per_second": 24.289,
       "step": 5000
     },
     {
       "epoch": 0.83,
+      "learning_rate": 5.9452357903471155e-05,
+      "loss": 1.0607,
       "step": 6000
     },
     {
       "epoch": 0.83,
+      "eval_accuracy": 0.6946615033538482,
+      "eval_loss": 1.0509121417999268,
+      "eval_runtime": 153.6507,
+      "eval_samples_per_second": 188.232,
+      "eval_steps_per_second": 23.534,
       "step": 6000
     },
     {
       "epoch": 0.97,
+      "learning_rate": 5.685935555248236e-05,
+      "loss": 1.032,
       "step": 7000
     },
     {
       "epoch": 0.97,
+      "eval_accuracy": 0.6914805338496646,
+      "eval_loss": 1.055686593055725,
+      "eval_runtime": 151.6461,
+      "eval_samples_per_second": 190.72,
+      "eval_steps_per_second": 23.845,
       "step": 7000
     },
     {
       "epoch": 1.11,
+      "learning_rate": 5.4266353201493564e-05,
+      "loss": 0.9224,
       "step": 8000
     },
     {
       "epoch": 1.11,
+      "eval_accuracy": 0.696632321416223,
+      "eval_loss": 1.0505746603012085,
+      "eval_runtime": 152.4908,
+      "eval_samples_per_second": 189.664,
+      "eval_steps_per_second": 23.713,
       "step": 8000
     },
     {
       "epoch": 1.24,
+      "learning_rate": 5.167335085050477e-05,
+      "loss": 0.9029,
       "step": 9000
     },
     {
       "epoch": 1.24,
+      "eval_accuracy": 0.6952492911970126,
+      "eval_loss": 1.0421319007873535,
+      "eval_runtime": 153.6492,
+      "eval_samples_per_second": 188.234,
+      "eval_steps_per_second": 23.534,
       "step": 9000
     },
     {
       "epoch": 1.38,
+      "learning_rate": 4.9080348499515966e-05,
+      "loss": 0.8858,
       "step": 10000
     },
     {
       "epoch": 1.38,
+      "eval_accuracy": 0.701887836249222,
+      "eval_loss": 1.0203652381896973,
+      "eval_runtime": 153.0256,
+      "eval_samples_per_second": 189.001,
+      "eval_steps_per_second": 23.63,
       "step": 10000
     },
     {
       "epoch": 1.52,
+      "learning_rate": 4.6489939150878154e-05,
+      "loss": 0.8943,
       "step": 11000
     },
     {
       "epoch": 1.52,
+      "eval_accuracy": 0.7037895028006362,
+      "eval_loss": 1.0182340145111084,
+      "eval_runtime": 153.2325,
+      "eval_samples_per_second": 188.746,
+      "eval_steps_per_second": 23.598,
       "step": 11000
     },
     {
       "epoch": 1.66,
+      "learning_rate": 4.389952980224035e-05,
+      "loss": 0.8756,
       "step": 12000
     },
     {
       "epoch": 1.66,
+      "eval_accuracy": 0.7108083811631284,
+      "eval_loss": 1.0010631084442139,
+      "eval_runtime": 153.3911,
+      "eval_samples_per_second": 188.551,
+      "eval_steps_per_second": 23.574,
       "step": 12000
     },
     {
       "epoch": 1.8,
+      "learning_rate": 4.130652745125155e-05,
+      "loss": 0.8657,
       "step": 13000
     },
     {
       "epoch": 1.8,
+      "eval_accuracy": 0.7074199571260632,
+      "eval_loss": 1.0035113096237183,
+      "eval_runtime": 150.8806,
+      "eval_samples_per_second": 191.688,
+      "eval_steps_per_second": 23.966,
       "step": 13000
     },
     {
       "epoch": 1.94,
+      "learning_rate": 3.871352510026276e-05,
+      "loss": 0.8737,
       "step": 14000
     },
     {
       "epoch": 1.94,
+      "eval_accuracy": 0.710220593319964,
+      "eval_loss": 0.9962999820709229,
+      "eval_runtime": 153.1018,
+      "eval_samples_per_second": 188.907,
+      "eval_steps_per_second": 23.618,
       "step": 14000
     },
     {
       "epoch": 2.07,
+      "learning_rate": 3.6120522749273955e-05,
+      "loss": 0.7893,
       "step": 15000
     },
     {
       "epoch": 2.07,
+      "eval_accuracy": 0.708872138856234,
+      "eval_loss": 1.020798921585083,
+      "eval_runtime": 154.3576,
+      "eval_samples_per_second": 187.37,
+      "eval_steps_per_second": 23.426,
       "step": 15000
     },
     {
       "epoch": 2.21,
+      "learning_rate": 3.352752039828516e-05,
+      "loss": 0.7067,
       "step": 16000
     },
     {
       "epoch": 2.21,
+      "eval_accuracy": 0.7075582601479843,
+      "eval_loss": 1.0219132900238037,
+      "eval_runtime": 152.5343,
+      "eval_samples_per_second": 189.61,
+      "eval_steps_per_second": 23.706,
       "step": 16000
     },
     {
       "epoch": 2.35,
+      "learning_rate": 3.093451804729636e-05,
+      "loss": 0.7072,
       "step": 17000
     },
     {
       "epoch": 2.35,
+      "eval_accuracy": 0.7095982297213194,
+      "eval_loss": 1.0180853605270386,
+      "eval_runtime": 154.4198,
+      "eval_samples_per_second": 187.295,
+      "eval_steps_per_second": 23.417,
       "step": 17000
     },
     {
       "epoch": 2.49,
+      "learning_rate": 2.834410869865855e-05,
+      "loss": 0.6914,
       "step": 18000
     },
     {
       "epoch": 2.49,
+      "eval_accuracy": 0.7122605628932992,
+      "eval_loss": 1.0164895057678223,
+      "eval_runtime": 151.314,
+      "eval_samples_per_second": 191.139,
+      "eval_steps_per_second": 23.897,
       "step": 18000
     },
     {
       "epoch": 2.63,
+      "learning_rate": 2.575369935002074e-05,
+      "loss": 0.7044,
       "step": 19000
     },
     {
       "epoch": 2.63,
+      "eval_accuracy": 0.71236429015974,
+      "eval_loss": 1.01729416847229,
+      "eval_runtime": 151.1469,
+      "eval_samples_per_second": 191.35,
+      "eval_steps_per_second": 23.924,
       "step": 19000
     },
     {
       "epoch": 2.77,
+      "learning_rate": 2.3160696999031945e-05,
+      "loss": 0.7014,
       "step": 20000
     },
     {
       "epoch": 2.77,
+      "eval_accuracy": 0.7145425627549962,
+      "eval_loss": 1.0055793523788452,
+      "eval_runtime": 153.0154,
+      "eval_samples_per_second": 189.014,
+      "eval_steps_per_second": 23.632,
       "step": 20000
     },
     {
       "epoch": 2.9,
+      "learning_rate": 2.0567694648043142e-05,
+      "loss": 0.6997,
       "step": 21000
     },
     {
       "epoch": 2.9,
+      "eval_accuracy": 0.7116381992946545,
+      "eval_loss": 1.0049206018447876,
+      "eval_runtime": 154.2346,
+      "eval_samples_per_second": 187.52,
+      "eval_steps_per_second": 23.445,
       "step": 21000
     },
     {
       "epoch": 3.04,
+      "learning_rate": 1.7974692297054347e-05,
+      "loss": 0.6378,
       "step": 22000
     },
     {
       "epoch": 3.04,
+      "eval_accuracy": 0.7104971993638061,
+      "eval_loss": 1.035260558128357,
+      "eval_runtime": 154.7462,
+      "eval_samples_per_second": 186.9,
+      "eval_steps_per_second": 23.367,
       "step": 22000
     },
     {
       "epoch": 3.18,
+      "learning_rate": 1.538168994606555e-05,
+      "loss": 0.5446,
       "step": 23000
     },
     {
       "epoch": 3.18,
+      "eval_accuracy": 0.7085609570569117,
+      "eval_loss": 1.0574305057525635,
+      "eval_runtime": 153.225,
+      "eval_samples_per_second": 188.755,
+      "eval_steps_per_second": 23.599,
       "step": 23000
     },
     {
       "epoch": 3.32,
+      "learning_rate": 1.2788687595076752e-05,
+      "loss": 0.5307,
       "step": 24000
     },
     {
       "epoch": 3.32,
+      "eval_accuracy": 0.7079040177027868,
+      "eval_loss": 1.0585498809814453,
+      "eval_runtime": 150.418,
+      "eval_samples_per_second": 192.277,
+      "eval_steps_per_second": 24.04,
       "step": 24000
     },
     {
       "epoch": 3.46,
+      "learning_rate": 1.0198278246438942e-05,
+      "loss": 0.5269,
       "step": 25000
     },
     {
       "epoch": 3.46,
+      "eval_accuracy": 0.7093907751884378,
+      "eval_loss": 1.0660898685455322,
+      "eval_runtime": 153.521,
+      "eval_samples_per_second": 188.391,
+      "eval_steps_per_second": 23.554,
       "step": 25000
     },
     {
       "epoch": 3.6,
+      "learning_rate": 7.607868897801134e-06,
+      "loss": 0.525,
       "step": 26000
     },
     {
       "epoch": 3.6,
       "eval_accuracy": 0.7103934720973654,
+      "eval_loss": 1.059892177581787,
+      "eval_runtime": 153.2046,
+      "eval_samples_per_second": 188.78,
+      "eval_steps_per_second": 23.602,
       "step": 26000
     },
     {
       "epoch": 3.73,
+      "learning_rate": 5.0148665468123355e-06,
+      "loss": 0.516,
       "step": 27000
     },
     {
       "epoch": 3.73,
+      "eval_accuracy": 0.7111195629624507,
+      "eval_loss": 1.0657610893249512,
+      "eval_runtime": 152.7663,
+      "eval_samples_per_second": 189.322,
+      "eval_steps_per_second": 23.67,
       "step": 27000
     },
     {
       "epoch": 3.87,
+      "learning_rate": 2.4244571981745263e-06,
+      "loss": 0.5224,
       "step": 28000
     },
     {
       "epoch": 3.87,
+      "eval_accuracy": 0.7099785630316022,
+      "eval_loss": 1.059259295463562,
+      "eval_runtime": 152.2364,
+      "eval_samples_per_second": 189.981,
+      "eval_steps_per_second": 23.753,
       "step": 28000
     },
     {
       "epoch": 4.0,
       "step": 28924,
       "total_flos": 7.174773947150918e+19,
+      "train_loss": 0.8206716175314105,
+      "train_runtime": 13827.0136,
+      "train_samples_per_second": 66.935,
+      "train_steps_per_second": 2.092
     }
   ],
   "max_steps": 28924,