DejanX13
/

vit-house-classifier

@@ -1,443 +1,450 @@
 {
   "best_global_step": 450,
-  "best_metric": 0.570094108581543,
-  "best_model_checkpoint": "./vit-results/checkpoint-200",
   "epoch": 10.0,
   "eval_steps": 50,
-  "global_step": 480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.20833333333333334,
-      "grad_norm": 1.4851477146148682,
-      "learning_rate": 1.9625e-05,
-      "loss": 1.3347,
       "step": 10
     },
     {
-      "epoch": 0.4166666666666667,
-      "grad_norm": 2.0887389183044434,
-      "learning_rate": 1.9208333333333337e-05,
-      "loss": 1.2739,
       "step": 20
     },
     {
-      "epoch": 0.625,
-      "grad_norm": 1.6611489057540894,
-      "learning_rate": 1.8791666666666668e-05,
-      "loss": 1.2122,
       "step": 30
     },
     {
-      "epoch": 0.8333333333333334,
-      "grad_norm": 1.7925909757614136,
-      "learning_rate": 1.8375e-05,
-      "loss": 1.181,
       "step": 40
     },
     {
-      "epoch": 1.0416666666666667,
-      "grad_norm": 1.7047886848449707,
-      "learning_rate": 1.7958333333333334e-05,
-      "loss": 1.1578,
       "step": 50
     },
     {
-      "epoch": 1.0416666666666667,
-      "eval_accuracy": 0.4625,
-      "eval_loss": 1.135870099067688,
-      "eval_runtime": 1.2659,
-      "eval_samples_per_second": 63.197,
-      "eval_steps_per_second": 7.9,
       "step": 50
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 1.962847352027893,
-      "learning_rate": 1.754166666666667e-05,
-      "loss": 1.0607,
       "step": 60
     },
     {
-      "epoch": 1.4583333333333333,
-      "grad_norm": 2.020244836807251,
-      "learning_rate": 1.7125e-05,
-      "loss": 1.0081,
       "step": 70
     },
     {
-      "epoch": 1.6666666666666665,
-      "grad_norm": 2.294292449951172,
-      "learning_rate": 1.6708333333333334e-05,
-      "loss": 0.9995,
       "step": 80
     },
     {
-      "epoch": 1.875,
-      "grad_norm": 2.0403995513916016,
-      "learning_rate": 1.629166666666667e-05,
-      "loss": 1.0403,
       "step": 90
     },
     {
-      "epoch": 2.0833333333333335,
-      "grad_norm": 3.781327724456787,
-      "learning_rate": 1.5875e-05,
-      "loss": 0.9551,
       "step": 100
     },
     {
-      "epoch": 2.0833333333333335,
-      "eval_accuracy": 0.725,
-      "eval_loss": 1.0034687519073486,
-      "eval_runtime": 1.2636,
-      "eval_samples_per_second": 63.309,
-      "eval_steps_per_second": 7.914,
       "step": 100
     },
     {
-      "epoch": 2.2916666666666665,
-      "grad_norm": 2.135753631591797,
-      "learning_rate": 1.5458333333333334e-05,
-      "loss": 0.8584,
       "step": 110
     },
     {
-      "epoch": 2.5,
-      "grad_norm": 1.9046008586883545,
-      "learning_rate": 1.5041666666666667e-05,
-      "loss": 0.8578,
       "step": 120
     },
     {
-      "epoch": 2.7083333333333335,
-      "grad_norm": 1.7979331016540527,
-      "learning_rate": 1.4625e-05,
-      "loss": 0.7959,
       "step": 130
     },
     {
-      "epoch": 2.9166666666666665,
-      "grad_norm": 2.755568742752075,
-      "learning_rate": 1.4208333333333336e-05,
-      "loss": 0.8676,
       "step": 140
     },
     {
-      "epoch": 3.125,
-      "grad_norm": 1.752200961112976,
-      "learning_rate": 1.3791666666666667e-05,
-      "loss": 0.7547,
       "step": 150
     },
     {
-      "epoch": 3.125,
-      "eval_accuracy": 0.7625,
-      "eval_loss": 0.8992247581481934,
-      "eval_runtime": 1.2311,
-      "eval_samples_per_second": 64.981,
-      "eval_steps_per_second": 8.123,
       "step": 150
     },
     {
-      "epoch": 3.3333333333333335,
-      "grad_norm": 1.913486361503601,
-      "learning_rate": 1.3375e-05,
-      "loss": 0.7207,
       "step": 160
     },
     {
-      "epoch": 3.5416666666666665,
-      "grad_norm": 2.5411376953125,
-      "learning_rate": 1.2958333333333334e-05,
-      "loss": 0.6804,
       "step": 170
     },
     {
-      "epoch": 3.75,
-      "grad_norm": 1.997448444366455,
-      "learning_rate": 1.2541666666666667e-05,
-      "loss": 0.6733,
       "step": 180
     },
     {
-      "epoch": 3.9583333333333335,
-      "grad_norm": 1.744899868965149,
-      "learning_rate": 1.2125e-05,
-      "loss": 0.6074,
       "step": 190
     },
     {
-      "epoch": 4.166666666666667,
-      "grad_norm": 1.6227153539657593,
-      "learning_rate": 1.1708333333333334e-05,
-      "loss": 0.5998,
       "step": 200
     },
     {
-      "epoch": 4.166666666666667,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.7827270030975342,
-      "eval_runtime": 1.2396,
-      "eval_samples_per_second": 64.536,
-      "eval_steps_per_second": 8.067,
       "step": 200
     },
     {
-      "epoch": 4.375,
-      "grad_norm": 1.6534216403961182,
-      "learning_rate": 1.1291666666666667e-05,
-      "loss": 0.5243,
       "step": 210
     },
     {
-      "epoch": 4.583333333333333,
-      "grad_norm": 1.8691354990005493,
-      "learning_rate": 1.0875e-05,
-      "loss": 0.5312,
       "step": 220
     },
     {
-      "epoch": 4.791666666666667,
-      "grad_norm": 1.7466825246810913,
-      "learning_rate": 1.0458333333333335e-05,
-      "loss": 0.492,
       "step": 230
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 3.337895154953003,
-      "learning_rate": 1.0041666666666667e-05,
-      "loss": 0.4978,
       "step": 240
     },
     {
-      "epoch": 5.208333333333333,
-      "grad_norm": 2.0019006729125977,
-      "learning_rate": 9.625e-06,
-      "loss": 0.4259,
       "step": 250
     },
     {
-      "epoch": 5.208333333333333,
-      "eval_accuracy": 0.8125,
-      "eval_loss": 0.6670618653297424,
-      "eval_runtime": 1.2584,
-      "eval_samples_per_second": 63.572,
-      "eval_steps_per_second": 7.946,
       "step": 250
     },
     {
-      "epoch": 5.416666666666667,
-      "grad_norm": 1.431734323501587,
-      "learning_rate": 9.208333333333333e-06,
-      "loss": 0.4032,
       "step": 260
     },
     {
-      "epoch": 5.625,
-      "grad_norm": 2.39288592338562,
-      "learning_rate": 8.791666666666667e-06,
-      "loss": 0.4095,
       "step": 270
     },
     {
-      "epoch": 5.833333333333333,
-      "grad_norm": 2.3530094623565674,
-      "learning_rate": 8.375e-06,
-      "loss": 0.3499,
       "step": 280
     },
     {
-      "epoch": 6.041666666666667,
-      "grad_norm": 1.5345488786697388,
-      "learning_rate": 7.958333333333333e-06,
-      "loss": 0.333,
       "step": 290
     },
     {
-      "epoch": 6.25,
-      "grad_norm": 2.1422934532165527,
-      "learning_rate": 7.541666666666667e-06,
-      "loss": 0.3336,
       "step": 300
     },
     {
-      "epoch": 6.25,
-      "eval_accuracy": 0.725,
-      "eval_loss": 0.6925244927406311,
-      "eval_runtime": 1.3296,
-      "eval_samples_per_second": 60.169,
-      "eval_steps_per_second": 7.521,
       "step": 300
     },
     {
-      "epoch": 6.458333333333333,
-      "grad_norm": 1.0821270942687988,
-      "learning_rate": 7.125e-06,
-      "loss": 0.2689,
       "step": 310
     },
     {
-      "epoch": 6.666666666666667,
-      "grad_norm": 1.5213534832000732,
-      "learning_rate": 6.708333333333333e-06,
-      "loss": 0.2875,
       "step": 320
     },
     {
-      "epoch": 6.875,
-      "grad_norm": 2.103844165802002,
-      "learning_rate": 6.291666666666667e-06,
-      "loss": 0.2881,
       "step": 330
     },
     {
-      "epoch": 7.083333333333333,
-      "grad_norm": 1.164125680923462,
-      "learning_rate": 5.8750000000000005e-06,
-      "loss": 0.25,
       "step": 340
     },
     {
-      "epoch": 7.291666666666667,
-      "grad_norm": 0.9860062599182129,
-      "learning_rate": 5.458333333333333e-06,
-      "loss": 0.2409,
       "step": 350
     },
     {
-      "epoch": 7.291666666666667,
       "eval_accuracy": 0.8125,
-      "eval_loss": 0.5735878348350525,
-      "eval_runtime": 1.2591,
-      "eval_samples_per_second": 63.536,
-      "eval_steps_per_second": 7.942,
       "step": 350
     },
     {
-      "epoch": 7.5,
-      "grad_norm": 0.9531723856925964,
-      "learning_rate": 5.041666666666667e-06,
-      "loss": 0.2265,
       "step": 360
     },
     {
-      "epoch": 7.708333333333333,
-      "grad_norm": 1.6497358083724976,
-      "learning_rate": 4.625000000000001e-06,
-      "loss": 0.2423,
       "step": 370
     },
     {
-      "epoch": 7.916666666666667,
-      "grad_norm": 1.4591480493545532,
-      "learning_rate": 4.208333333333333e-06,
-      "loss": 0.2121,
       "step": 380
     },
     {
-      "epoch": 8.125,
-      "grad_norm": 0.8170286417007446,
-      "learning_rate": 3.7916666666666666e-06,
-      "loss": 0.2122,
       "step": 390
     },
     {
-      "epoch": 8.333333333333334,
-      "grad_norm": 0.8556548953056335,
-      "learning_rate": 3.3750000000000003e-06,
-      "loss": 0.1982,
       "step": 400
     },
     {
-      "epoch": 8.333333333333334,
       "eval_accuracy": 0.8125,
-      "eval_loss": 0.5838413238525391,
-      "eval_runtime": 1.3799,
-      "eval_samples_per_second": 57.977,
-      "eval_steps_per_second": 7.247,
       "step": 400
     },
     {
-      "epoch": 8.541666666666666,
-      "grad_norm": 0.9361312389373779,
-      "learning_rate": 2.9583333333333335e-06,
-      "loss": 0.1997,
       "step": 410
     },
     {
-      "epoch": 8.75,
-      "grad_norm": 0.8666655421257019,
-      "learning_rate": 2.5416666666666668e-06,
-      "loss": 0.1902,
       "step": 420
     },
     {
-      "epoch": 8.958333333333334,
-      "grad_norm": 0.8868537545204163,
-      "learning_rate": 2.125e-06,
-      "loss": 0.1861,
       "step": 430
     },
     {
-      "epoch": 9.166666666666666,
-      "grad_norm": 1.152140498161316,
-      "learning_rate": 1.7083333333333334e-06,
-      "loss": 0.1866,
       "step": 440
     },
     {
-      "epoch": 9.375,
-      "grad_norm": 0.7092148661613464,
-      "learning_rate": 1.2916666666666669e-06,
-      "loss": 0.1732,
       "step": 450
     },
     {
-      "epoch": 9.375,
-      "eval_accuracy": 0.8125,
-      "eval_loss": 0.570094108581543,
-      "eval_runtime": 1.4058,
-      "eval_samples_per_second": 56.905,
-      "eval_steps_per_second": 7.113,
       "step": 450
     },
     {
-      "epoch": 9.583333333333334,
-      "grad_norm": 0.7921653985977173,
-      "learning_rate": 8.75e-07,
-      "loss": 0.1803,
       "step": 460
     },
     {
-      "epoch": 9.791666666666666,
-      "grad_norm": 0.735058605670929,
-      "learning_rate": 4.583333333333333e-07,
-      "loss": 0.1927,
       "step": 470
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 1.2600841522216797,
-      "learning_rate": 4.166666666666667e-08,
-      "loss": 0.174,
       "step": 480
     },
     {
       "epoch": 10.0,
-      "step": 480,
-      "total_flos": 5.866248766604083e+17,
-      "train_loss": 0.5593519407014053,
-      "train_runtime": 335.8262,
-      "train_samples_per_second": 22.541,
-      "train_steps_per_second": 1.429
     }
   ],
   "logging_steps": 10,
-  "max_steps": 480,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 100,
@@ -453,7 +460,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.866248766604083e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 450,
+  "best_metric": 0.5457363724708557,
+  "best_model_checkpoint": "./vit-results/checkpoint-400",
   "epoch": 10.0,
   "eval_steps": 50,
+  "global_step": 490,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 1.3306224346160889,
+      "learning_rate": 1.963265306122449e-05,
+      "loss": 1.3374,
       "step": 10
     },
     {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 1.4784319400787354,
+      "learning_rate": 1.922448979591837e-05,
+      "loss": 1.265,
       "step": 20
     },
     {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 2.0332705974578857,
+      "learning_rate": 1.8816326530612246e-05,
+      "loss": 1.2081,
       "step": 30
     },
     {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 1.4771761894226074,
+      "learning_rate": 1.8408163265306125e-05,
+      "loss": 1.2104,
       "step": 40
     },
     {
+      "epoch": 1.0204081632653061,
+      "grad_norm": 1.5638868808746338,
+      "learning_rate": 1.8e-05,
+      "loss": 1.1453,
       "step": 50
     },
     {
+      "epoch": 1.0204081632653061,
+      "eval_accuracy": 0.475,
+      "eval_loss": 1.1232645511627197,
+      "eval_runtime": 1.3068,
+      "eval_samples_per_second": 61.216,
+      "eval_steps_per_second": 7.652,
       "step": 50
     },
     {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 2.1241655349731445,
+      "learning_rate": 1.759183673469388e-05,
+      "loss": 1.0284,
       "step": 60
     },
     {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 2.0577926635742188,
+      "learning_rate": 1.7183673469387755e-05,
+      "loss": 1.0428,
       "step": 70
     },
     {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 1.7612333297729492,
+      "learning_rate": 1.6775510204081634e-05,
+      "loss": 1.008,
       "step": 80
     },
     {
+      "epoch": 1.836734693877551,
+      "grad_norm": 2.2085816860198975,
+      "learning_rate": 1.6367346938775513e-05,
+      "loss": 1.0095,
       "step": 90
     },
     {
+      "epoch": 2.0408163265306123,
+      "grad_norm": 1.5611677169799805,
+      "learning_rate": 1.595918367346939e-05,
+      "loss": 0.9155,
       "step": 100
     },
     {
+      "epoch": 2.0408163265306123,
+      "eval_accuracy": 0.7,
+      "eval_loss": 0.964668869972229,
+      "eval_runtime": 1.2647,
+      "eval_samples_per_second": 63.255,
+      "eval_steps_per_second": 7.907,
       "step": 100
     },
     {
+      "epoch": 2.2448979591836733,
+      "grad_norm": 2.1504409313201904,
+      "learning_rate": 1.5551020408163265e-05,
+      "loss": 0.8396,
       "step": 110
     },
     {
+      "epoch": 2.4489795918367347,
+      "grad_norm": 1.9358028173446655,
+      "learning_rate": 1.5142857142857144e-05,
+      "loss": 0.8618,
       "step": 120
     },
     {
+      "epoch": 2.6530612244897958,
+      "grad_norm": 1.5132843255996704,
+      "learning_rate": 1.4734693877551021e-05,
+      "loss": 0.8077,
       "step": 130
     },
     {
+      "epoch": 2.857142857142857,
+      "grad_norm": 2.5402004718780518,
+      "learning_rate": 1.43265306122449e-05,
+      "loss": 0.7742,
       "step": 140
     },
     {
+      "epoch": 3.061224489795918,
+      "grad_norm": 2.259558916091919,
+      "learning_rate": 1.3918367346938776e-05,
+      "loss": 0.7638,
       "step": 150
     },
     {
+      "epoch": 3.061224489795918,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.8326537013053894,
+      "eval_runtime": 1.2728,
+      "eval_samples_per_second": 62.853,
+      "eval_steps_per_second": 7.857,
       "step": 150
     },
     {
+      "epoch": 3.2653061224489797,
+      "grad_norm": 2.010672092437744,
+      "learning_rate": 1.3510204081632654e-05,
+      "loss": 0.672,
       "step": 160
     },
     {
+      "epoch": 3.4693877551020407,
+      "grad_norm": 1.8449556827545166,
+      "learning_rate": 1.3102040816326531e-05,
+      "loss": 0.6367,
       "step": 170
     },
     {
+      "epoch": 3.673469387755102,
+      "grad_norm": 1.8838822841644287,
+      "learning_rate": 1.2693877551020409e-05,
+      "loss": 0.6125,
       "step": 180
     },
     {
+      "epoch": 3.877551020408163,
+      "grad_norm": 2.325084686279297,
+      "learning_rate": 1.2285714285714288e-05,
+      "loss": 0.5768,
       "step": 190
     },
     {
+      "epoch": 4.081632653061225,
+      "grad_norm": 2.084455966949463,
+      "learning_rate": 1.1877551020408165e-05,
+      "loss": 0.537,
       "step": 200
     },
     {
+      "epoch": 4.081632653061225,
+      "eval_accuracy": 0.7875,
+      "eval_loss": 0.7291887402534485,
+      "eval_runtime": 1.2754,
+      "eval_samples_per_second": 62.726,
+      "eval_steps_per_second": 7.841,
       "step": 200
     },
     {
+      "epoch": 4.285714285714286,
+      "grad_norm": 2.3336734771728516,
+      "learning_rate": 1.146938775510204e-05,
+      "loss": 0.5,
       "step": 210
     },
     {
+      "epoch": 4.489795918367347,
+      "grad_norm": 2.6175546646118164,
+      "learning_rate": 1.1061224489795918e-05,
+      "loss": 0.4665,
       "step": 220
     },
     {
+      "epoch": 4.6938775510204085,
+      "grad_norm": 1.6590876579284668,
+      "learning_rate": 1.0653061224489796e-05,
+      "loss": 0.448,
       "step": 230
     },
     {
+      "epoch": 4.8979591836734695,
+      "grad_norm": 1.8714507818222046,
+      "learning_rate": 1.0244897959183675e-05,
+      "loss": 0.4491,
       "step": 240
     },
     {
+      "epoch": 5.1020408163265305,
+      "grad_norm": 2.239349365234375,
+      "learning_rate": 9.836734693877552e-06,
+      "loss": 0.3957,
       "step": 250
     },
     {
+      "epoch": 5.1020408163265305,
+      "eval_accuracy": 0.825,
+      "eval_loss": 0.6328426599502563,
+      "eval_runtime": 1.2652,
+      "eval_samples_per_second": 63.23,
+      "eval_steps_per_second": 7.904,
       "step": 250
     },
     {
+      "epoch": 5.3061224489795915,
+      "grad_norm": 2.4021127223968506,
+      "learning_rate": 9.42857142857143e-06,
+      "loss": 0.3601,
       "step": 260
     },
     {
+      "epoch": 5.510204081632653,
+      "grad_norm": 1.2185922861099243,
+      "learning_rate": 9.020408163265307e-06,
+      "loss": 0.3431,
       "step": 270
     },
     {
+      "epoch": 5.714285714285714,
+      "grad_norm": 1.0699914693832397,
+      "learning_rate": 8.612244897959184e-06,
+      "loss": 0.3646,
       "step": 280
     },
     {
+      "epoch": 5.918367346938775,
+      "grad_norm": 1.5863635540008545,
+      "learning_rate": 8.204081632653062e-06,
+      "loss": 0.3129,
       "step": 290
     },
     {
+      "epoch": 6.122448979591836,
+      "grad_norm": 1.0668057203292847,
+      "learning_rate": 7.79591836734694e-06,
+      "loss": 0.2842,
       "step": 300
     },
     {
+      "epoch": 6.122448979591836,
+      "eval_accuracy": 0.7875,
+      "eval_loss": 0.5894995927810669,
+      "eval_runtime": 1.2447,
+      "eval_samples_per_second": 64.272,
+      "eval_steps_per_second": 8.034,
       "step": 300
     },
     {
+      "epoch": 6.326530612244898,
+      "grad_norm": 1.0372223854064941,
+      "learning_rate": 7.387755102040817e-06,
+      "loss": 0.2725,
       "step": 310
     },
     {
+      "epoch": 6.530612244897959,
+      "grad_norm": 1.855797529220581,
+      "learning_rate": 6.979591836734695e-06,
+      "loss": 0.2596,
       "step": 320
     },
     {
+      "epoch": 6.73469387755102,
+      "grad_norm": 1.3400880098342896,
+      "learning_rate": 6.571428571428572e-06,
+      "loss": 0.2579,
       "step": 330
     },
     {
+      "epoch": 6.938775510204081,
+      "grad_norm": 1.0782897472381592,
+      "learning_rate": 6.163265306122449e-06,
+      "loss": 0.2394,
       "step": 340
     },
     {
+      "epoch": 7.142857142857143,
+      "grad_norm": 1.1473782062530518,
+      "learning_rate": 5.755102040816327e-06,
+      "loss": 0.2266,
       "step": 350
     },
     {
+      "epoch": 7.142857142857143,
       "eval_accuracy": 0.8125,
+      "eval_loss": 0.5921751260757446,
+      "eval_runtime": 1.2621,
+      "eval_samples_per_second": 63.388,
+      "eval_steps_per_second": 7.924,
       "step": 350
     },
     {
+      "epoch": 7.346938775510204,
+      "grad_norm": 0.8374194502830505,
+      "learning_rate": 5.3469387755102045e-06,
+      "loss": 0.2043,
       "step": 360
     },
     {
+      "epoch": 7.551020408163265,
+      "grad_norm": 0.9697467684745789,
+      "learning_rate": 4.938775510204082e-06,
+      "loss": 0.2076,
       "step": 370
     },
     {
+      "epoch": 7.755102040816326,
+      "grad_norm": 1.7021687030792236,
+      "learning_rate": 4.530612244897959e-06,
+      "loss": 0.2111,
       "step": 380
     },
     {
+      "epoch": 7.959183673469388,
+      "grad_norm": 0.8718199729919434,
+      "learning_rate": 4.122448979591837e-06,
+      "loss": 0.188,
       "step": 390
     },
     {
+      "epoch": 8.16326530612245,
+      "grad_norm": 0.7752737998962402,
+      "learning_rate": 3.7142857142857146e-06,
+      "loss": 0.1798,
       "step": 400
     },
     {
+      "epoch": 8.16326530612245,
       "eval_accuracy": 0.8125,
+      "eval_loss": 0.5628954172134399,
+      "eval_runtime": 1.291,
+      "eval_samples_per_second": 61.967,
+      "eval_steps_per_second": 7.746,
       "step": 400
     },
     {
+      "epoch": 8.36734693877551,
+      "grad_norm": 1.137776494026184,
+      "learning_rate": 3.3061224489795924e-06,
+      "loss": 0.1778,
       "step": 410
     },
     {
+      "epoch": 8.571428571428571,
+      "grad_norm": 0.7163811326026917,
+      "learning_rate": 2.8979591836734694e-06,
+      "loss": 0.1697,
       "step": 420
     },
     {
+      "epoch": 8.775510204081632,
+      "grad_norm": 0.860792875289917,
+      "learning_rate": 2.489795918367347e-06,
+      "loss": 0.1803,
       "step": 430
     },
     {
+      "epoch": 8.979591836734693,
+      "grad_norm": 0.8092204928398132,
+      "learning_rate": 2.0816326530612247e-06,
+      "loss": 0.1792,
       "step": 440
     },
     {
+      "epoch": 9.183673469387756,
+      "grad_norm": 3.376288890838623,
+      "learning_rate": 1.6734693877551023e-06,
+      "loss": 0.1746,
       "step": 450
     },
     {
+      "epoch": 9.183673469387756,
+      "eval_accuracy": 0.825,
+      "eval_loss": 0.5457363724708557,
+      "eval_runtime": 1.2999,
+      "eval_samples_per_second": 61.544,
+      "eval_steps_per_second": 7.693,
       "step": 450
     },
     {
+      "epoch": 9.387755102040817,
+      "grad_norm": 0.6227843165397644,
+      "learning_rate": 1.2653061224489795e-06,
+      "loss": 0.1631,
       "step": 460
     },
     {
+      "epoch": 9.591836734693878,
+      "grad_norm": 0.7905530333518982,
+      "learning_rate": 8.571428571428572e-07,
+      "loss": 0.1603,
       "step": 470
     },
     {
+      "epoch": 9.795918367346939,
+      "grad_norm": 0.6496562361717224,
+      "learning_rate": 4.489795918367347e-07,
+      "loss": 0.1581,
       "step": 480
     },
     {
       "epoch": 10.0,
+      "grad_norm": 0.9721047282218933,
+      "learning_rate": 4.0816326530612253e-08,
+      "loss": 0.1594,
+      "step": 490
+    },
+    {
+      "epoch": 10.0,
+      "step": 490,
+      "total_flos": 6.013486186109338e+17,
+      "train_loss": 0.5295110111333886,
+      "train_runtime": 345.9048,
+      "train_samples_per_second": 22.434,
+      "train_steps_per_second": 1.417
     }
   ],
   "logging_steps": 10,
+  "max_steps": 490,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 6.013486186109338e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null