End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +13 -0
eval_results.json +8 -0
runs/Mar10_03-39-18_ab7c5e129afd/events.out.tfevents.1741578838.ab7c5e129afd.2134.1 +3 -0
train_results.json +8 -0
trainer_state.json +766 -0

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6481
-- Accuracy: 0.8158
 ## Model description

 This model is a fine-tuned version of [microsoft/swinv2-tiny-patch4-window8-256](https://huggingface.co/microsoft/swinv2-tiny-patch4-window8-256) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5934
+- Accuracy: 0.8333
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 39.96296296296296,
+    "eval_accuracy": 0.8333333333333334,
+    "eval_loss": 0.593357503414154,
+    "eval_runtime": 2.7963,
+    "eval_samples_per_second": 81.536,
+    "eval_steps_per_second": 5.364,
+    "total_flos": 1.1031361417201582e+18,
+    "train_loss": 0.543996471625108,
+    "train_runtime": 850.8149,
+    "train_samples_per_second": 40.103,
+    "train_steps_per_second": 0.611
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.96296296296296,
+    "eval_accuracy": 0.8333333333333334,
+    "eval_loss": 0.593357503414154,
+    "eval_runtime": 2.7963,
+    "eval_samples_per_second": 81.536,
+    "eval_steps_per_second": 5.364
+}

runs/Mar10_03-39-18_ab7c5e129afd/events.out.tfevents.1741578838.ab7c5e129afd.2134.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:482e829f2573ecca78d1bf0fcd04be9ec6bfbe572d10418d075bce6d7fe9d203
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 39.96296296296296,
+    "total_flos": 1.1031361417201582e+18,
+    "train_loss": 0.543996471625108,
+    "train_runtime": 850.8149,
+    "train_samples_per_second": 40.103,
+    "train_steps_per_second": 0.611
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,766 @@

+{
+  "best_metric": 0.8333333333333334,
+  "best_model_checkpoint": "swinv2-tiny-patch4-window8-256-dmae-humeda-DAV60/checkpoint-377",
+  "epoch": 39.96296296296296,
+  "eval_steps": 500,
+  "global_step": 520,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 4.973352909088135,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 1.5779,
+      "step": 10
+    },
+    {
+      "epoch": 0.9629629629629629,
+      "eval_accuracy": 0.3508771929824561,
+      "eval_loss": 1.5147490501403809,
+      "eval_runtime": 3.3598,
+      "eval_samples_per_second": 67.86,
+      "eval_steps_per_second": 4.465,
+      "step": 13
+    },
+    {
+      "epoch": 1.5185185185185186,
+      "grad_norm": 4.458120822906494,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 1.532,
+      "step": 20
+    },
+    {
+      "epoch": 1.9629629629629628,
+      "eval_accuracy": 0.5394736842105263,
+      "eval_loss": 1.3726485967636108,
+      "eval_runtime": 2.7021,
+      "eval_samples_per_second": 84.379,
+      "eval_steps_per_second": 5.551,
+      "step": 26
+    },
+    {
+      "epoch": 2.2962962962962963,
+      "grad_norm": 4.9333882331848145,
+      "learning_rate": 2.3076923076923076e-05,
+      "loss": 1.459,
+      "step": 30
+    },
+    {
+      "epoch": 2.962962962962963,
+      "eval_accuracy": 0.618421052631579,
+      "eval_loss": 0.9851850271224976,
+      "eval_runtime": 2.7471,
+      "eval_samples_per_second": 82.996,
+      "eval_steps_per_second": 5.46,
+      "step": 39
+    },
+    {
+      "epoch": 3.074074074074074,
+      "grad_norm": 10.688750267028809,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 1.2696,
+      "step": 40
+    },
+    {
+      "epoch": 3.814814814814815,
+      "grad_norm": 6.760787010192871,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 1.0357,
+      "step": 50
+    },
+    {
+      "epoch": 3.962962962962963,
+      "eval_accuracy": 0.6140350877192983,
+      "eval_loss": 0.8557938933372498,
+      "eval_runtime": 3.6391,
+      "eval_samples_per_second": 62.653,
+      "eval_steps_per_second": 4.122,
+      "step": 52
+    },
+    {
+      "epoch": 4.592592592592593,
+      "grad_norm": 11.264517784118652,
+      "learning_rate": 3.931623931623932e-05,
+      "loss": 0.9678,
+      "step": 60
+    },
+    {
+      "epoch": 4.962962962962963,
+      "eval_accuracy": 0.6622807017543859,
+      "eval_loss": 0.7997034788131714,
+      "eval_runtime": 2.7329,
+      "eval_samples_per_second": 83.428,
+      "eval_steps_per_second": 5.489,
+      "step": 65
+    },
+    {
+      "epoch": 5.37037037037037,
+      "grad_norm": 15.311161994934082,
+      "learning_rate": 3.854700854700855e-05,
+      "loss": 0.9602,
+      "step": 70
+    },
+    {
+      "epoch": 5.962962962962963,
+      "eval_accuracy": 0.6710526315789473,
+      "eval_loss": 0.7788758277893066,
+      "eval_runtime": 2.711,
+      "eval_samples_per_second": 84.1,
+      "eval_steps_per_second": 5.533,
+      "step": 78
+    },
+    {
+      "epoch": 6.148148148148148,
+      "grad_norm": 11.81164836883545,
+      "learning_rate": 3.769230769230769e-05,
+      "loss": 0.8906,
+      "step": 80
+    },
+    {
+      "epoch": 6.888888888888889,
+      "grad_norm": 7.672252178192139,
+      "learning_rate": 3.683760683760684e-05,
+      "loss": 0.7664,
+      "step": 90
+    },
+    {
+      "epoch": 6.962962962962963,
+      "eval_accuracy": 0.618421052631579,
+      "eval_loss": 0.8889743089675903,
+      "eval_runtime": 3.499,
+      "eval_samples_per_second": 65.161,
+      "eval_steps_per_second": 4.287,
+      "step": 91
+    },
+    {
+      "epoch": 7.666666666666667,
+      "grad_norm": 11.658954620361328,
+      "learning_rate": 3.598290598290599e-05,
+      "loss": 0.8537,
+      "step": 100
+    },
+    {
+      "epoch": 7.962962962962963,
+      "eval_accuracy": 0.7105263157894737,
+      "eval_loss": 0.6859638094902039,
+      "eval_runtime": 2.7594,
+      "eval_samples_per_second": 82.627,
+      "eval_steps_per_second": 5.436,
+      "step": 104
+    },
+    {
+      "epoch": 8.444444444444445,
+      "grad_norm": 10.199373245239258,
+      "learning_rate": 3.512820512820513e-05,
+      "loss": 0.7566,
+      "step": 110
+    },
+    {
+      "epoch": 8.962962962962964,
+      "eval_accuracy": 0.7587719298245614,
+      "eval_loss": 0.6138375401496887,
+      "eval_runtime": 2.7859,
+      "eval_samples_per_second": 81.842,
+      "eval_steps_per_second": 5.384,
+      "step": 117
+    },
+    {
+      "epoch": 9.222222222222221,
+      "grad_norm": 7.8964643478393555,
+      "learning_rate": 3.4273504273504276e-05,
+      "loss": 0.71,
+      "step": 120
+    },
+    {
+      "epoch": 9.962962962962964,
+      "grad_norm": 9.411240577697754,
+      "learning_rate": 3.341880341880342e-05,
+      "loss": 0.7025,
+      "step": 130
+    },
+    {
+      "epoch": 9.962962962962964,
+      "eval_accuracy": 0.793859649122807,
+      "eval_loss": 0.520746111869812,
+      "eval_runtime": 3.1792,
+      "eval_samples_per_second": 71.715,
+      "eval_steps_per_second": 4.718,
+      "step": 130
+    },
+    {
+      "epoch": 10.74074074074074,
+      "grad_norm": 9.329798698425293,
+      "learning_rate": 3.2564102564102565e-05,
+      "loss": 0.6081,
+      "step": 140
+    },
+    {
+      "epoch": 10.962962962962964,
+      "eval_accuracy": 0.7763157894736842,
+      "eval_loss": 0.564355731010437,
+      "eval_runtime": 2.7404,
+      "eval_samples_per_second": 83.199,
+      "eval_steps_per_second": 5.474,
+      "step": 143
+    },
+    {
+      "epoch": 11.518518518518519,
+      "grad_norm": 10.05624771118164,
+      "learning_rate": 3.170940170940171e-05,
+      "loss": 0.631,
+      "step": 150
+    },
+    {
+      "epoch": 11.962962962962964,
+      "eval_accuracy": 0.7543859649122807,
+      "eval_loss": 0.5858676433563232,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 72.203,
+      "eval_steps_per_second": 4.75,
+      "step": 156
+    },
+    {
+      "epoch": 12.296296296296296,
+      "grad_norm": 11.134556770324707,
+      "learning_rate": 3.085470085470086e-05,
+      "loss": 0.6163,
+      "step": 160
+    },
+    {
+      "epoch": 12.962962962962964,
+      "eval_accuracy": 0.7105263157894737,
+      "eval_loss": 0.7182390093803406,
+      "eval_runtime": 2.777,
+      "eval_samples_per_second": 82.104,
+      "eval_steps_per_second": 5.402,
+      "step": 169
+    },
+    {
+      "epoch": 13.074074074074074,
+      "grad_norm": 20.01995849609375,
+      "learning_rate": 3.0000000000000004e-05,
+      "loss": 0.5923,
+      "step": 170
+    },
+    {
+      "epoch": 13.814814814814815,
+      "grad_norm": 10.06767463684082,
+      "learning_rate": 2.9145299145299145e-05,
+      "loss": 0.5743,
+      "step": 180
+    },
+    {
+      "epoch": 13.962962962962964,
+      "eval_accuracy": 0.7763157894736842,
+      "eval_loss": 0.5642982125282288,
+      "eval_runtime": 2.7113,
+      "eval_samples_per_second": 84.092,
+      "eval_steps_per_second": 5.532,
+      "step": 182
+    },
+    {
+      "epoch": 14.592592592592592,
+      "grad_norm": 9.349576950073242,
+      "learning_rate": 2.8290598290598296e-05,
+      "loss": 0.5752,
+      "step": 190
+    },
+    {
+      "epoch": 14.962962962962964,
+      "eval_accuracy": 0.793859649122807,
+      "eval_loss": 0.5027949213981628,
+      "eval_runtime": 3.7508,
+      "eval_samples_per_second": 60.787,
+      "eval_steps_per_second": 3.999,
+      "step": 195
+    },
+    {
+      "epoch": 15.37037037037037,
+      "grad_norm": 10.582262992858887,
+      "learning_rate": 2.7435897435897437e-05,
+      "loss": 0.461,
+      "step": 200
+    },
+    {
+      "epoch": 15.962962962962964,
+      "eval_accuracy": 0.7807017543859649,
+      "eval_loss": 0.5465320944786072,
+      "eval_runtime": 2.755,
+      "eval_samples_per_second": 82.76,
+      "eval_steps_per_second": 5.445,
+      "step": 208
+    },
+    {
+      "epoch": 16.14814814814815,
+      "grad_norm": 9.319547653198242,
+      "learning_rate": 2.658119658119658e-05,
+      "loss": 0.5056,
+      "step": 210
+    },
+    {
+      "epoch": 16.88888888888889,
+      "grad_norm": 9.023859977722168,
+      "learning_rate": 2.5811965811965814e-05,
+      "loss": 0.4145,
+      "step": 220
+    },
+    {
+      "epoch": 16.962962962962962,
+      "eval_accuracy": 0.7719298245614035,
+      "eval_loss": 0.5868436694145203,
+      "eval_runtime": 2.6887,
+      "eval_samples_per_second": 84.8,
+      "eval_steps_per_second": 5.579,
+      "step": 221
+    },
+    {
+      "epoch": 17.666666666666668,
+      "grad_norm": 9.497326850891113,
+      "learning_rate": 2.495726495726496e-05,
+      "loss": 0.4065,
+      "step": 230
+    },
+    {
+      "epoch": 17.962962962962962,
+      "eval_accuracy": 0.7807017543859649,
+      "eval_loss": 0.5470357537269592,
+      "eval_runtime": 3.1034,
+      "eval_samples_per_second": 73.467,
+      "eval_steps_per_second": 4.833,
+      "step": 234
+    },
+    {
+      "epoch": 18.444444444444443,
+      "grad_norm": 13.887053489685059,
+      "learning_rate": 2.4102564102564103e-05,
+      "loss": 0.501,
+      "step": 240
+    },
+    {
+      "epoch": 18.962962962962962,
+      "eval_accuracy": 0.793859649122807,
+      "eval_loss": 0.5405624508857727,
+      "eval_runtime": 2.7248,
+      "eval_samples_per_second": 83.677,
+      "eval_steps_per_second": 5.505,
+      "step": 247
+    },
+    {
+      "epoch": 19.22222222222222,
+      "grad_norm": 9.410223007202148,
+      "learning_rate": 2.324786324786325e-05,
+      "loss": 0.3938,
+      "step": 250
+    },
+    {
+      "epoch": 19.962962962962962,
+      "grad_norm": 12.785265922546387,
+      "learning_rate": 2.2393162393162394e-05,
+      "loss": 0.4374,
+      "step": 260
+    },
+    {
+      "epoch": 19.962962962962962,
+      "eval_accuracy": 0.793859649122807,
+      "eval_loss": 0.5533683896064758,
+      "eval_runtime": 3.0615,
+      "eval_samples_per_second": 74.473,
+      "eval_steps_per_second": 4.9,
+      "step": 260
+    },
+    {
+      "epoch": 20.74074074074074,
+      "grad_norm": 11.361822128295898,
+      "learning_rate": 2.153846153846154e-05,
+      "loss": 0.4614,
+      "step": 270
+    },
+    {
+      "epoch": 20.962962962962962,
+      "eval_accuracy": 0.8157894736842105,
+      "eval_loss": 0.5484946370124817,
+      "eval_runtime": 2.7027,
+      "eval_samples_per_second": 84.361,
+      "eval_steps_per_second": 5.55,
+      "step": 273
+    },
+    {
+      "epoch": 21.51851851851852,
+      "grad_norm": 7.663370609283447,
+      "learning_rate": 2.0683760683760686e-05,
+      "loss": 0.3836,
+      "step": 280
+    },
+    {
+      "epoch": 21.962962962962962,
+      "eval_accuracy": 0.7850877192982456,
+      "eval_loss": 0.6217398643493652,
+      "eval_runtime": 2.7487,
+      "eval_samples_per_second": 82.948,
+      "eval_steps_per_second": 5.457,
+      "step": 286
+    },
+    {
+      "epoch": 22.296296296296298,
+      "grad_norm": 8.853464126586914,
+      "learning_rate": 1.982905982905983e-05,
+      "loss": 0.4474,
+      "step": 290
+    },
+    {
+      "epoch": 22.962962962962962,
+      "eval_accuracy": 0.7763157894736842,
+      "eval_loss": 0.6068528294563293,
+      "eval_runtime": 3.6122,
+      "eval_samples_per_second": 63.12,
+      "eval_steps_per_second": 4.153,
+      "step": 299
+    },
+    {
+      "epoch": 23.074074074074073,
+      "grad_norm": 15.08626937866211,
+      "learning_rate": 1.8974358974358975e-05,
+      "loss": 0.3285,
+      "step": 300
+    },
+    {
+      "epoch": 23.814814814814813,
+      "grad_norm": 14.73444938659668,
+      "learning_rate": 1.8119658119658122e-05,
+      "loss": 0.3893,
+      "step": 310
+    },
+    {
+      "epoch": 23.962962962962962,
+      "eval_accuracy": 0.793859649122807,
+      "eval_loss": 0.5980626344680786,
+      "eval_runtime": 2.783,
+      "eval_samples_per_second": 81.926,
+      "eval_steps_per_second": 5.39,
+      "step": 312
+    },
+    {
+      "epoch": 24.59259259259259,
+      "grad_norm": 12.244878768920898,
+      "learning_rate": 1.7264957264957267e-05,
+      "loss": 0.3548,
+      "step": 320
+    },
+    {
+      "epoch": 24.962962962962962,
+      "eval_accuracy": 0.7894736842105263,
+      "eval_loss": 0.6003035306930542,
+      "eval_runtime": 2.7487,
+      "eval_samples_per_second": 82.948,
+      "eval_steps_per_second": 5.457,
+      "step": 325
+    },
+    {
+      "epoch": 25.37037037037037,
+      "grad_norm": 12.140262603759766,
+      "learning_rate": 1.641025641025641e-05,
+      "loss": 0.3454,
+      "step": 330
+    },
+    {
+      "epoch": 25.962962962962962,
+      "eval_accuracy": 0.8114035087719298,
+      "eval_loss": 0.5897476077079773,
+      "eval_runtime": 3.3163,
+      "eval_samples_per_second": 68.75,
+      "eval_steps_per_second": 4.523,
+      "step": 338
+    },
+    {
+      "epoch": 26.14814814814815,
+      "grad_norm": 11.911709785461426,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.3024,
+      "step": 340
+    },
+    {
+      "epoch": 26.88888888888889,
+      "grad_norm": 9.537832260131836,
+      "learning_rate": 1.4700854700854703e-05,
+      "loss": 0.2857,
+      "step": 350
+    },
+    {
+      "epoch": 26.962962962962962,
+      "eval_accuracy": 0.8157894736842105,
+      "eval_loss": 0.6031244993209839,
+      "eval_runtime": 2.7739,
+      "eval_samples_per_second": 82.194,
+      "eval_steps_per_second": 5.408,
+      "step": 351
+    },
+    {
+      "epoch": 27.666666666666668,
+      "grad_norm": 8.15013599395752,
+      "learning_rate": 1.3846153846153847e-05,
+      "loss": 0.3282,
+      "step": 360
+    },
+    {
+      "epoch": 27.962962962962962,
+      "eval_accuracy": 0.7763157894736842,
+      "eval_loss": 0.6139560341835022,
+      "eval_runtime": 2.7394,
+      "eval_samples_per_second": 83.231,
+      "eval_steps_per_second": 5.476,
+      "step": 364
+    },
+    {
+      "epoch": 28.444444444444443,
+      "grad_norm": 10.504316329956055,
+      "learning_rate": 1.2991452991452993e-05,
+      "loss": 0.3088,
+      "step": 370
+    },
+    {
+      "epoch": 28.962962962962962,
+      "eval_accuracy": 0.8333333333333334,
+      "eval_loss": 0.593357503414154,
+      "eval_runtime": 3.5071,
+      "eval_samples_per_second": 65.01,
+      "eval_steps_per_second": 4.277,
+      "step": 377
+    },
+    {
+      "epoch": 29.22222222222222,
+      "grad_norm": 9.943313598632812,
+      "learning_rate": 1.2136752136752137e-05,
+      "loss": 0.2952,
+      "step": 380
+    },
+    {
+      "epoch": 29.962962962962962,
+      "grad_norm": 10.9620943069458,
+      "learning_rate": 1.1282051282051283e-05,
+      "loss": 0.2943,
+      "step": 390
+    },
+    {
+      "epoch": 29.962962962962962,
+      "eval_accuracy": 0.7894736842105263,
+      "eval_loss": 0.6545236706733704,
+      "eval_runtime": 2.7799,
+      "eval_samples_per_second": 82.016,
+      "eval_steps_per_second": 5.396,
+      "step": 390
+    },
+    {
+      "epoch": 30.74074074074074,
+      "grad_norm": 10.951662063598633,
+      "learning_rate": 1.0427350427350429e-05,
+      "loss": 0.2857,
+      "step": 400
+    },
+    {
+      "epoch": 30.962962962962962,
+      "eval_accuracy": 0.7850877192982456,
+      "eval_loss": 0.6422854065895081,
+      "eval_runtime": 2.7723,
+      "eval_samples_per_second": 82.243,
+      "eval_steps_per_second": 5.411,
+      "step": 403
+    },
+    {
+      "epoch": 31.51851851851852,
+      "grad_norm": 9.850509643554688,
+      "learning_rate": 9.572649572649575e-06,
+      "loss": 0.2882,
+      "step": 410
+    },
+    {
+      "epoch": 31.962962962962962,
+      "eval_accuracy": 0.793859649122807,
+      "eval_loss": 0.6610004305839539,
+      "eval_runtime": 2.7662,
+      "eval_samples_per_second": 82.422,
+      "eval_steps_per_second": 5.423,
+      "step": 416
+    },
+    {
+      "epoch": 32.2962962962963,
+      "grad_norm": 12.695550918579102,
+      "learning_rate": 8.717948717948719e-06,
+      "loss": 0.3342,
+      "step": 420
+    },
+    {
+      "epoch": 32.96296296296296,
+      "eval_accuracy": 0.7807017543859649,
+      "eval_loss": 0.6815162897109985,
+      "eval_runtime": 2.6794,
+      "eval_samples_per_second": 85.094,
+      "eval_steps_per_second": 5.598,
+      "step": 429
+    },
+    {
+      "epoch": 33.074074074074076,
+      "grad_norm": 14.900729179382324,
+      "learning_rate": 7.863247863247863e-06,
+      "loss": 0.2813,
+      "step": 430
+    },
+    {
+      "epoch": 33.81481481481482,
+      "grad_norm": 9.834786415100098,
+      "learning_rate": 7.008547008547009e-06,
+      "loss": 0.2679,
+      "step": 440
+    },
+    {
+      "epoch": 33.96296296296296,
+      "eval_accuracy": 0.8114035087719298,
+      "eval_loss": 0.6480889320373535,
+      "eval_runtime": 3.015,
+      "eval_samples_per_second": 75.623,
+      "eval_steps_per_second": 4.975,
+      "step": 442
+    },
+    {
+      "epoch": 34.592592592592595,
+      "grad_norm": 17.68844985961914,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.2756,
+      "step": 450
+    },
+    {
+      "epoch": 34.96296296296296,
+      "eval_accuracy": 0.8157894736842105,
+      "eval_loss": 0.651802659034729,
+      "eval_runtime": 2.7547,
+      "eval_samples_per_second": 82.768,
+      "eval_steps_per_second": 5.445,
+      "step": 455
+    },
+    {
+      "epoch": 35.370370370370374,
+      "grad_norm": 13.564445495605469,
+      "learning_rate": 5.2991452991453e-06,
+      "loss": 0.2733,
+      "step": 460
+    },
+    {
+      "epoch": 35.96296296296296,
+      "eval_accuracy": 0.8026315789473685,
+      "eval_loss": 0.6514091491699219,
+      "eval_runtime": 2.7505,
+      "eval_samples_per_second": 82.895,
+      "eval_steps_per_second": 5.454,
+      "step": 468
+    },
+    {
+      "epoch": 36.148148148148145,
+      "grad_norm": 10.079754829406738,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.2723,
+      "step": 470
+    },
+    {
+      "epoch": 36.888888888888886,
+      "grad_norm": 9.357953071594238,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 0.2749,
+      "step": 480
+    },
+    {
+      "epoch": 36.96296296296296,
+      "eval_accuracy": 0.8070175438596491,
+      "eval_loss": 0.6525157690048218,
+      "eval_runtime": 3.7296,
+      "eval_samples_per_second": 61.132,
+      "eval_steps_per_second": 4.022,
+      "step": 481
+    },
+    {
+      "epoch": 37.666666666666664,
+      "grad_norm": 11.598859786987305,
+      "learning_rate": 2.7350427350427355e-06,
+      "loss": 0.2416,
+      "step": 490
+    },
+    {
+      "epoch": 37.96296296296296,
+      "eval_accuracy": 0.8201754385964912,
+      "eval_loss": 0.6446716785430908,
+      "eval_runtime": 2.8653,
+      "eval_samples_per_second": 79.573,
+      "eval_steps_per_second": 5.235,
+      "step": 494
+    },
+    {
+      "epoch": 38.44444444444444,
+      "grad_norm": 7.851300239562988,
+      "learning_rate": 1.8803418803418804e-06,
+      "loss": 0.2766,
+      "step": 500
+    },
+    {
+      "epoch": 38.96296296296296,
+      "eval_accuracy": 0.8201754385964912,
+      "eval_loss": 0.635898768901825,
+      "eval_runtime": 2.7643,
+      "eval_samples_per_second": 82.48,
+      "eval_steps_per_second": 5.426,
+      "step": 507
+    },
+    {
+      "epoch": 39.22222222222222,
+      "grad_norm": 6.0872416496276855,
+      "learning_rate": 1.0256410256410257e-06,
+      "loss": 0.2397,
+      "step": 510
+    },
+    {
+      "epoch": 39.96296296296296,
+      "grad_norm": 10.594880104064941,
+      "learning_rate": 1.7094017094017097e-07,
+      "loss": 0.2528,
+      "step": 520
+    },
+    {
+      "epoch": 39.96296296296296,
+      "eval_accuracy": 0.8157894736842105,
+      "eval_loss": 0.6481040120124817,
+      "eval_runtime": 3.9892,
+      "eval_samples_per_second": 57.154,
+      "eval_steps_per_second": 3.76,
+      "step": 520
+    },
+    {
+      "epoch": 39.96296296296296,
+      "step": 520,
+      "total_flos": 1.1031361417201582e+18,
+      "train_loss": 0.543996471625108,
+      "train_runtime": 850.8149,
+      "train_samples_per_second": 40.103,
+      "train_steps_per_second": 0.611
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 520,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1031361417201582e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}