End of training

Browse files

Files changed (7) hide show

README.md +2 -2
all_results.json +10 -5
eval_results.json +8 -0
runs/Jun27_08-47-10_c3df91dfd599/events.out.tfevents.1719560986.c3df91dfd599 +3 -0
runs/Jun27_10-04-20_79e23ecbe329/events.out.tfevents.1719482662.79e23ecbe329 +2 -2
train_results.json +5 -5
trainer_state.json +747 -78

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1387
-- Accuracy: 0.6431
 ## Model description

 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1410
+- Accuracy: 0.6445
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,13 @@
 {
-    "epoch": 8.0,
-    "total_flos": 1.9019421639416218e+17,
-    "train_loss": 2.6748404184977215,
-    "train_runtime": 2549.9123,
-    "train_samples_per_second": 3.749,
     "train_steps_per_second": 0.012
 }

 {
+    "epoch": 9.94818652849741,
+    "eval_accuracy": 0.6445224246502909,
+    "eval_loss": 1.1410062313079834,
+    "eval_runtime": 3958.7465,
+    "eval_samples_per_second": 5.255,
+    "eval_steps_per_second": 0.082,
+    "total_flos": 6.10407050089078e+18,
+    "train_loss": 1.4552634547154109,
+    "train_runtime": 78972.9917,
+    "train_samples_per_second": 3.124,
     "train_steps_per_second": 0.012
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 9.94818652849741,
+    "eval_accuracy": 0.6445224246502909,
+    "eval_loss": 1.1410062313079834,
+    "eval_runtime": 3958.7465,
+    "eval_samples_per_second": 5.255,
+    "eval_steps_per_second": 0.082
+}

runs/Jun27_08-47-10_c3df91dfd599/events.out.tfevents.1719560986.c3df91dfd599 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab2e624d68f7a540c20264ece6d52fd6c1515358fa34d47e32d73e330993398a
+size 140

runs/Jun27_10-04-20_79e23ecbe329/events.out.tfevents.1719482662.79e23ecbe329 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a045ca96045a3c5d654667f95a518993b09b26c7cf34dc7e94c96a65e4a593eb
-size 28626

 version https://git-lfs.github.com/spec/v1
+oid sha256:7283c41fe220096459cb54c21eef04c6fc32f896efe7179b4477384abcad9bf8
+size 29470

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 8.0,
-    "total_flos": 1.9019421639416218e+17,
-    "train_loss": 2.6748404184977215,
-    "train_runtime": 2549.9123,
-    "train_samples_per_second": 3.749,
     "train_steps_per_second": 0.012
 }

 {
+    "epoch": 9.94818652849741,
+    "total_flos": 6.10407050089078e+18,
+    "train_loss": 1.4552634547154109,
+    "train_runtime": 78972.9917,
+    "train_samples_per_second": 3.124,
     "train_steps_per_second": 0.012
 }

trainer_state.json CHANGED Viewed

@@ -1,118 +1,787 @@
 {
-  "best_metric": 0.30022075055187636,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-category-classification/checkpoint-26",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.8,
-      "eval_accuracy": 0.05518763796909492,
-      "eval_loss": 3.007758617401123,
-      "eval_runtime": 188.9532,
-      "eval_samples_per_second": 4.795,
-      "eval_steps_per_second": 0.079,
-      "step": 3
     },
     {
-      "epoch": 1.8666666666666667,
-      "eval_accuracy": 0.1280353200883002,
-      "eval_loss": 2.8865292072296143,
-      "eval_runtime": 166.273,
-      "eval_samples_per_second": 5.449,
-      "eval_steps_per_second": 0.09,
-      "step": 7
     },
     {
-      "epoch": 2.6666666666666665,
-      "grad_norm": 4.288784980773926,
       "learning_rate": 3.7037037037037037e-05,
-      "loss": 2.9474,
-      "step": 10
     },
     {
-      "epoch": 2.9333333333333336,
-      "eval_accuracy": 0.19646799116997793,
-      "eval_loss": 2.7917754650115967,
-      "eval_runtime": 156.11,
-      "eval_samples_per_second": 5.804,
-      "eval_steps_per_second": 0.096,
-      "step": 11
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.23620309050772628,
-      "eval_loss": 2.694143056869507,
-      "eval_runtime": 155.6836,
-      "eval_samples_per_second": 5.819,
-      "eval_steps_per_second": 0.096,
-      "step": 15
     },
     {
-      "epoch": 4.8,
-      "eval_accuracy": 0.2582781456953642,
-      "eval_loss": 2.628232002258301,
-      "eval_runtime": 148.8415,
-      "eval_samples_per_second": 6.087,
-      "eval_steps_per_second": 0.101,
-      "step": 18
     },
     {
-      "epoch": 5.333333333333333,
-      "grad_norm": 4.339354515075684,
       "learning_rate": 1.8518518518518518e-05,
-      "loss": 2.645,
-      "step": 20
     },
     {
-      "epoch": 5.866666666666667,
-      "eval_accuracy": 0.282560706401766,
-      "eval_loss": 2.5581247806549072,
-      "eval_runtime": 155.1024,
-      "eval_samples_per_second": 5.841,
-      "eval_steps_per_second": 0.097,
-      "step": 22
     },
     {
-      "epoch": 6.933333333333334,
-      "eval_accuracy": 0.30022075055187636,
-      "eval_loss": 2.515105962753296,
-      "eval_runtime": 149.6803,
-      "eval_samples_per_second": 6.053,
-      "eval_steps_per_second": 0.1,
-      "step": 26
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.57526159286499,
       "learning_rate": 0.0,
-      "loss": 2.4321,
-      "step": 30
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.2980132450331126,
-      "eval_loss": 2.4982221126556396,
-      "eval_runtime": 169.9225,
-      "eval_samples_per_second": 5.332,
-      "eval_steps_per_second": 0.088,
-      "step": 30
     },
     {
-      "epoch": 8.0,
-      "step": 30,
-      "total_flos": 1.9019421639416218e+17,
-      "train_loss": 2.6748404184977215,
-      "train_runtime": 2549.9123,
-      "train_samples_per_second": 3.749,
       "train_steps_per_second": 0.012
     }
   ],
   "logging_steps": 10,
-  "max_steps": 30,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -128,7 +797,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9019421639416218e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6431283949430371,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-category-classification/checkpoint-868",
+  "epoch": 9.94818652849741,
   "eval_steps": 500,
+  "global_step": 960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.10362694300518134,
+      "grad_norm": 6.313995838165283,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 3.047,
+      "step": 10
     },
     {
+      "epoch": 0.20725388601036268,
+      "grad_norm": 3.603754758834839,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 2.9583,
+      "step": 20
+    },
+    {
+      "epoch": 0.31088082901554404,
+      "grad_norm": 3.8277997970581055,
+      "learning_rate": 1.5625e-05,
+      "loss": 2.8186,
+      "step": 30
+    },
+    {
+      "epoch": 0.41450777202072536,
+      "grad_norm": 3.712352752685547,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 2.5968,
+      "step": 40
+    },
+    {
+      "epoch": 0.5181347150259067,
+      "grad_norm": 6.0071611404418945,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 2.3988,
+      "step": 50
+    },
+    {
+      "epoch": 0.6217616580310881,
+      "grad_norm": 5.359269142150879,
+      "learning_rate": 3.125e-05,
+      "loss": 2.1299,
+      "step": 60
+    },
+    {
+      "epoch": 0.7253886010362695,
+      "grad_norm": 6.4594244956970215,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 2.0938,
+      "step": 70
+    },
+    {
+      "epoch": 0.8290155440414507,
+      "grad_norm": 6.613985538482666,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.9437,
+      "step": 80
+    },
+    {
+      "epoch": 0.9326424870466321,
+      "grad_norm": 4.681708812713623,
+      "learning_rate": 4.6875e-05,
+      "loss": 1.9251,
+      "step": 90
+    },
+    {
+      "epoch": 0.9948186528497409,
+      "eval_accuracy": 0.5348747776762967,
+      "eval_loss": 1.5363707542419434,
+      "eval_runtime": 4339.9701,
+      "eval_samples_per_second": 4.793,
+      "eval_steps_per_second": 0.075,
+      "step": 96
+    },
+    {
+      "epoch": 1.0362694300518134,
+      "grad_norm": 6.605560779571533,
+      "learning_rate": 4.976851851851852e-05,
+      "loss": 1.8135,
+      "step": 100
+    },
+    {
+      "epoch": 1.1398963730569949,
+      "grad_norm": 5.990049839019775,
+      "learning_rate": 4.9189814814814815e-05,
+      "loss": 1.7992,
+      "step": 110
+    },
+    {
+      "epoch": 1.2435233160621761,
+      "grad_norm": 5.5032124519348145,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 1.7406,
+      "step": 120
     },
     {
+      "epoch": 1.3471502590673574,
+      "grad_norm": 6.0698771476745605,
+      "learning_rate": 4.803240740740741e-05,
+      "loss": 1.7347,
+      "step": 130
+    },
+    {
+      "epoch": 1.450777202072539,
+      "grad_norm": 5.383842468261719,
+      "learning_rate": 4.745370370370371e-05,
+      "loss": 1.7108,
+      "step": 140
+    },
+    {
+      "epoch": 1.5544041450777202,
+      "grad_norm": 5.526336193084717,
+      "learning_rate": 4.6875e-05,
+      "loss": 1.6553,
+      "step": 150
+    },
+    {
+      "epoch": 1.6580310880829017,
+      "grad_norm": 6.193297863006592,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 1.584,
+      "step": 160
+    },
+    {
+      "epoch": 1.761658031088083,
+      "grad_norm": 5.479032039642334,
+      "learning_rate": 4.5717592592592594e-05,
+      "loss": 1.6467,
+      "step": 170
+    },
+    {
+      "epoch": 1.8652849740932642,
+      "grad_norm": 5.958849906921387,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 1.6197,
+      "step": 180
+    },
+    {
+      "epoch": 1.9689119170984455,
+      "grad_norm": 6.240902423858643,
+      "learning_rate": 4.456018518518519e-05,
+      "loss": 1.6301,
+      "step": 190
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.5978464644522424,
+      "eval_loss": 1.309254765510559,
+      "eval_runtime": 3808.3973,
+      "eval_samples_per_second": 5.462,
+      "eval_steps_per_second": 0.086,
+      "step": 193
+    },
+    {
+      "epoch": 2.0725388601036268,
+      "grad_norm": 6.163332939147949,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 1.5208,
+      "step": 200
+    },
+    {
+      "epoch": 2.1761658031088085,
+      "grad_norm": 4.633750915527344,
+      "learning_rate": 4.340277777777778e-05,
+      "loss": 1.5478,
+      "step": 210
+    },
+    {
+      "epoch": 2.2797927461139897,
+      "grad_norm": 6.3137288093566895,
+      "learning_rate": 4.282407407407408e-05,
+      "loss": 1.5114,
+      "step": 220
+    },
+    {
+      "epoch": 2.383419689119171,
+      "grad_norm": 6.306565761566162,
+      "learning_rate": 4.224537037037037e-05,
+      "loss": 1.5908,
+      "step": 230
+    },
+    {
+      "epoch": 2.4870466321243523,
+      "grad_norm": 6.069610595703125,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.5485,
+      "step": 240
+    },
+    {
+      "epoch": 2.5906735751295336,
+      "grad_norm": 5.604846477508545,
+      "learning_rate": 4.1087962962962965e-05,
+      "loss": 1.4435,
+      "step": 250
+    },
+    {
+      "epoch": 2.694300518134715,
+      "grad_norm": 5.180357933044434,
+      "learning_rate": 4.0509259259259265e-05,
+      "loss": 1.4953,
+      "step": 260
+    },
+    {
+      "epoch": 2.7979274611398965,
+      "grad_norm": 5.613372325897217,
+      "learning_rate": 3.993055555555556e-05,
+      "loss": 1.4898,
+      "step": 270
+    },
+    {
+      "epoch": 2.901554404145078,
+      "grad_norm": 6.961531162261963,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 1.4793,
+      "step": 280
+    },
+    {
+      "epoch": 2.994818652849741,
+      "eval_accuracy": 0.6074123924433976,
+      "eval_loss": 1.259105920791626,
+      "eval_runtime": 3877.0711,
+      "eval_samples_per_second": 5.366,
+      "eval_steps_per_second": 0.084,
+      "step": 289
+    },
+    {
+      "epoch": 3.005181347150259,
+      "grad_norm": 6.35546350479126,
+      "learning_rate": 3.877314814814815e-05,
+      "loss": 1.4606,
+      "step": 290
+    },
+    {
+      "epoch": 3.1088082901554404,
+      "grad_norm": 4.932433128356934,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 1.423,
+      "step": 300
+    },
+    {
+      "epoch": 3.2124352331606216,
+      "grad_norm": 6.546709060668945,
+      "learning_rate": 3.7615740740740744e-05,
+      "loss": 1.406,
+      "step": 310
+    },
+    {
+      "epoch": 3.3160621761658033,
+      "grad_norm": 9.50334644317627,
       "learning_rate": 3.7037037037037037e-05,
+      "loss": 1.4365,
+      "step": 320
+    },
+    {
+      "epoch": 3.4196891191709846,
+      "grad_norm": 5.8740363121032715,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 1.4108,
+      "step": 330
+    },
+    {
+      "epoch": 3.523316062176166,
+      "grad_norm": 6.044996738433838,
+      "learning_rate": 3.587962962962963e-05,
+      "loss": 1.4176,
+      "step": 340
+    },
+    {
+      "epoch": 3.626943005181347,
+      "grad_norm": 5.8521552085876465,
+      "learning_rate": 3.530092592592593e-05,
+      "loss": 1.4497,
+      "step": 350
+    },
+    {
+      "epoch": 3.7305699481865284,
+      "grad_norm": 5.023159027099609,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 1.3827,
+      "step": 360
+    },
+    {
+      "epoch": 3.8341968911917097,
+      "grad_norm": 7.735539436340332,
+      "learning_rate": 3.414351851851852e-05,
+      "loss": 1.4248,
+      "step": 370
     },
     {
+      "epoch": 3.937823834196891,
+      "grad_norm": 6.757364273071289,
+      "learning_rate": 3.3564814814814815e-05,
+      "loss": 1.4316,
+      "step": 380
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6127962313127914,
+      "eval_loss": 1.2433934211730957,
+      "eval_runtime": 3727.6262,
+      "eval_samples_per_second": 5.581,
+      "eval_steps_per_second": 0.087,
+      "step": 386
+    },
+    {
+      "epoch": 4.041450777202073,
+      "grad_norm": 5.170826435089111,
+      "learning_rate": 3.2986111111111115e-05,
+      "loss": 1.3815,
+      "step": 390
+    },
+    {
+      "epoch": 4.1450777202072535,
+      "grad_norm": 5.3575053215026855,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 1.3492,
+      "step": 400
+    },
+    {
+      "epoch": 4.248704663212435,
+      "grad_norm": 6.391707897186279,
+      "learning_rate": 3.182870370370371e-05,
+      "loss": 1.3728,
+      "step": 410
+    },
+    {
+      "epoch": 4.352331606217617,
+      "grad_norm": 6.244965553283691,
+      "learning_rate": 3.125e-05,
+      "loss": 1.367,
+      "step": 420
+    },
+    {
+      "epoch": 4.455958549222798,
+      "grad_norm": 5.091292381286621,
+      "learning_rate": 3.06712962962963e-05,
+      "loss": 1.3732,
+      "step": 430
+    },
+    {
+      "epoch": 4.5595854922279795,
+      "grad_norm": 4.755329608917236,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 1.3418,
+      "step": 440
+    },
+    {
+      "epoch": 4.66321243523316,
+      "grad_norm": 6.017394542694092,
+      "learning_rate": 2.951388888888889e-05,
+      "loss": 1.3519,
+      "step": 450
+    },
+    {
+      "epoch": 4.766839378238342,
+      "grad_norm": 6.148505687713623,
+      "learning_rate": 2.8935185185185186e-05,
+      "loss": 1.3473,
+      "step": 460
+    },
+    {
+      "epoch": 4.870466321243523,
+      "grad_norm": 5.228733062744141,
+      "learning_rate": 2.8356481481481483e-05,
+      "loss": 1.2983,
+      "step": 470
+    },
+    {
+      "epoch": 4.974093264248705,
+      "grad_norm": 5.9043803215026855,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 1.3424,
+      "step": 480
+    },
+    {
+      "epoch": 4.994818652849741,
+      "eval_accuracy": 0.6309666874969956,
+      "eval_loss": 1.1883153915405273,
+      "eval_runtime": 3739.3568,
+      "eval_samples_per_second": 5.563,
+      "eval_steps_per_second": 0.087,
+      "step": 482
     },
     {
+      "epoch": 5.077720207253886,
+      "grad_norm": 6.2051310539245605,
+      "learning_rate": 2.7199074074074076e-05,
+      "loss": 1.3081,
+      "step": 490
     },
     {
+      "epoch": 5.181347150259067,
+      "grad_norm": 5.718914985656738,
+      "learning_rate": 2.6620370370370372e-05,
+      "loss": 1.2773,
+      "step": 500
+    },
+    {
+      "epoch": 5.284974093264249,
+      "grad_norm": 7.097866535186768,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 1.2914,
+      "step": 510
+    },
+    {
+      "epoch": 5.38860103626943,
+      "grad_norm": 5.6485724449157715,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 1.3093,
+      "step": 520
+    },
+    {
+      "epoch": 5.492227979274611,
+      "grad_norm": 6.204397201538086,
+      "learning_rate": 2.488425925925926e-05,
+      "loss": 1.3067,
+      "step": 530
+    },
+    {
+      "epoch": 5.595854922279793,
+      "grad_norm": 6.455079555511475,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 1.2826,
+      "step": 540
+    },
+    {
+      "epoch": 5.699481865284974,
+      "grad_norm": 5.391714572906494,
+      "learning_rate": 2.3726851851851854e-05,
+      "loss": 1.2741,
+      "step": 550
+    },
+    {
+      "epoch": 5.803108808290156,
+      "grad_norm": 5.677307605743408,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 1.3511,
+      "step": 560
+    },
+    {
+      "epoch": 5.9067357512953365,
+      "grad_norm": 6.441585063934326,
+      "learning_rate": 2.2569444444444447e-05,
+      "loss": 1.2867,
+      "step": 570
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6371196462048743,
+      "eval_loss": 1.1587461233139038,
+      "eval_runtime": 3638.0616,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 0.09,
+      "step": 579
+    },
+    {
+      "epoch": 6.010362694300518,
+      "grad_norm": 5.769332408905029,
+      "learning_rate": 2.1990740740740743e-05,
+      "loss": 1.3059,
+      "step": 580
+    },
+    {
+      "epoch": 6.1139896373057,
+      "grad_norm": 4.571792125701904,
+      "learning_rate": 2.141203703703704e-05,
+      "loss": 1.2681,
+      "step": 590
+    },
+    {
+      "epoch": 6.217616580310881,
+      "grad_norm": 5.652552127838135,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.2911,
+      "step": 600
+    },
+    {
+      "epoch": 6.321243523316062,
+      "grad_norm": 5.243156909942627,
+      "learning_rate": 2.0254629629629632e-05,
+      "loss": 1.2597,
+      "step": 610
+    },
+    {
+      "epoch": 6.424870466321243,
+      "grad_norm": 6.888844966888428,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 1.2195,
+      "step": 620
+    },
+    {
+      "epoch": 6.528497409326425,
+      "grad_norm": 6.571014404296875,
+      "learning_rate": 1.9097222222222222e-05,
+      "loss": 1.2624,
+      "step": 630
+    },
+    {
+      "epoch": 6.632124352331607,
+      "grad_norm": 7.260251998901367,
       "learning_rate": 1.8518518518518518e-05,
+      "loss": 1.2817,
+      "step": 640
+    },
+    {
+      "epoch": 6.7357512953367875,
+      "grad_norm": 5.61851167678833,
+      "learning_rate": 1.7939814814814815e-05,
+      "loss": 1.2261,
+      "step": 650
+    },
+    {
+      "epoch": 6.839378238341969,
+      "grad_norm": 5.466727256774902,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 1.2524,
+      "step": 660
+    },
+    {
+      "epoch": 6.94300518134715,
+      "grad_norm": 6.450463771820068,
+      "learning_rate": 1.6782407407407408e-05,
+      "loss": 1.2177,
+      "step": 670
+    },
+    {
+      "epoch": 6.994818652849741,
+      "eval_accuracy": 0.6366389463058213,
+      "eval_loss": 1.161221981048584,
+      "eval_runtime": 3629.1662,
+      "eval_samples_per_second": 5.732,
+      "eval_steps_per_second": 0.09,
+      "step": 675
+    },
+    {
+      "epoch": 7.046632124352332,
+      "grad_norm": 6.2261786460876465,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 1.2867,
+      "step": 680
+    },
+    {
+      "epoch": 7.150259067357513,
+      "grad_norm": 5.230395317077637,
+      "learning_rate": 1.5625e-05,
+      "loss": 1.2294,
+      "step": 690
+    },
+    {
+      "epoch": 7.253886010362694,
+      "grad_norm": 6.0760722160339355,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 1.2574,
+      "step": 700
+    },
+    {
+      "epoch": 7.357512953367876,
+      "grad_norm": 6.909919738769531,
+      "learning_rate": 1.4467592592592593e-05,
+      "loss": 1.2479,
+      "step": 710
+    },
+    {
+      "epoch": 7.461139896373057,
+      "grad_norm": 5.200183868408203,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 1.2062,
+      "step": 720
     },
     {
+      "epoch": 7.564766839378239,
+      "grad_norm": 6.757835865020752,
+      "learning_rate": 1.3310185185185186e-05,
+      "loss": 1.2496,
+      "step": 730
     },
     {
+      "epoch": 7.668393782383419,
+      "grad_norm": 5.478608131408691,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 1.2493,
+      "step": 740
+    },
+    {
+      "epoch": 7.772020725388601,
+      "grad_norm": 7.153792858123779,
+      "learning_rate": 1.2152777777777779e-05,
+      "loss": 1.2315,
+      "step": 750
+    },
+    {
+      "epoch": 7.875647668393782,
+      "grad_norm": 5.429667949676514,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 1.1949,
+      "step": 760
+    },
+    {
+      "epoch": 7.979274611398964,
+      "grad_norm": 5.698895454406738,
+      "learning_rate": 1.0995370370370372e-05,
+      "loss": 1.2091,
+      "step": 770
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6404845454982454,
+      "eval_loss": 1.1456378698349,
+      "eval_runtime": 3647.7317,
+      "eval_samples_per_second": 5.703,
+      "eval_steps_per_second": 0.089,
+      "step": 772
+    },
+    {
+      "epoch": 8.082901554404145,
+      "grad_norm": 5.858074188232422,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 1.2231,
+      "step": 780
+    },
+    {
+      "epoch": 8.186528497409327,
+      "grad_norm": 5.4128594398498535,
+      "learning_rate": 9.837962962962964e-06,
+      "loss": 1.1949,
+      "step": 790
+    },
+    {
+      "epoch": 8.290155440414507,
+      "grad_norm": 5.688471794128418,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 1.2229,
+      "step": 800
+    },
+    {
+      "epoch": 8.393782383419689,
+      "grad_norm": 5.991612434387207,
+      "learning_rate": 8.680555555555556e-06,
+      "loss": 1.2234,
+      "step": 810
+    },
+    {
+      "epoch": 8.49740932642487,
+      "grad_norm": 5.711306095123291,
+      "learning_rate": 8.101851851851852e-06,
+      "loss": 1.1823,
+      "step": 820
+    },
+    {
+      "epoch": 8.601036269430052,
+      "grad_norm": 6.6796441078186035,
+      "learning_rate": 7.523148148148148e-06,
+      "loss": 1.1891,
+      "step": 830
+    },
+    {
+      "epoch": 8.704663212435234,
+      "grad_norm": 6.775707721710205,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 1.1872,
+      "step": 840
+    },
+    {
+      "epoch": 8.808290155440414,
+      "grad_norm": 5.822583198547363,
+      "learning_rate": 6.365740740740741e-06,
+      "loss": 1.1953,
+      "step": 850
+    },
+    {
+      "epoch": 8.911917098445596,
+      "grad_norm": 4.7059478759765625,
+      "learning_rate": 5.787037037037038e-06,
+      "loss": 1.2191,
+      "step": 860
+    },
+    {
+      "epoch": 8.994818652849741,
+      "eval_accuracy": 0.6431283949430371,
+      "eval_loss": 1.1358870267868042,
+      "eval_runtime": 3765.2145,
+      "eval_samples_per_second": 5.525,
+      "eval_steps_per_second": 0.087,
+      "step": 868
+    },
+    {
+      "epoch": 9.015544041450777,
+      "grad_norm": 6.1211371421813965,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 1.2054,
+      "step": 870
+    },
+    {
+      "epoch": 9.119170984455959,
+      "grad_norm": 6.023680686950684,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 1.2076,
+      "step": 880
+    },
+    {
+      "epoch": 9.22279792746114,
+      "grad_norm": 5.6407389640808105,
+      "learning_rate": 4.050925925925926e-06,
+      "loss": 1.2433,
+      "step": 890
+    },
+    {
+      "epoch": 9.32642487046632,
+      "grad_norm": 5.213710308074951,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 1.2494,
+      "step": 900
+    },
+    {
+      "epoch": 9.430051813471502,
+      "grad_norm": 5.261003494262695,
+      "learning_rate": 2.893518518518519e-06,
+      "loss": 1.196,
+      "step": 910
+    },
+    {
+      "epoch": 9.533678756476684,
+      "grad_norm": 5.6940813064575195,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 1.1802,
+      "step": 920
+    },
+    {
+      "epoch": 9.637305699481866,
+      "grad_norm": 5.532364368438721,
+      "learning_rate": 1.7361111111111112e-06,
+      "loss": 1.1724,
+      "step": 930
+    },
+    {
+      "epoch": 9.740932642487046,
+      "grad_norm": 7.711543083190918,
+      "learning_rate": 1.1574074074074074e-06,
+      "loss": 1.18,
+      "step": 940
+    },
+    {
+      "epoch": 9.844559585492227,
+      "grad_norm": 5.626430034637451,
+      "learning_rate": 5.787037037037037e-07,
+      "loss": 1.1592,
+      "step": 950
+    },
+    {
+      "epoch": 9.94818652849741,
+      "grad_norm": 6.389472007751465,
       "learning_rate": 0.0,
+      "loss": 1.1983,
+      "step": 960
     },
     {
+      "epoch": 9.94818652849741,
+      "eval_accuracy": 0.6431283949430371,
+      "eval_loss": 1.138728141784668,
+      "eval_runtime": 3898.9781,
+      "eval_samples_per_second": 5.336,
+      "eval_steps_per_second": 0.084,
+      "step": 960
     },
     {
+      "epoch": 9.94818652849741,
+      "step": 960,
+      "total_flos": 6.10407050089078e+18,
+      "train_loss": 1.4552634547154109,
+      "train_runtime": 78972.9917,
+      "train_samples_per_second": 3.124,
       "train_steps_per_second": 0.012
     }
   ],
   "logging_steps": 10,
+  "max_steps": 960,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 6.10407050089078e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null