End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +11 -11
eval_results.json +6 -6
test_results.json +8 -0
train_results.json +6 -6
trainer_state.json +190 -419

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1909
-- Accuracy: 0.9548
 ## Model description

 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2461
+- Accuracy: 0.9273
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 19.27710843373494,
-    "eval_accuracy": 0.9661016949152542,
-    "eval_loss": 0.13029339909553528,
-    "eval_runtime": 1.306,
-    "eval_samples_per_second": 225.886,
-    "eval_steps_per_second": 7.657,
-    "total_flos": 1.2721899193419387e+18,
-    "train_loss": 0.1996179285645485,
-    "train_runtime": 565.0512,
-    "train_samples_per_second": 93.974,
-    "train_steps_per_second": 0.708
 }

 {
+    "epoch": 14.838709677419354,
+    "eval_accuracy": 0.9272727272727272,
+    "eval_loss": 0.2460637390613556,
+    "eval_runtime": 0.974,
+    "eval_samples_per_second": 169.402,
+    "eval_steps_per_second": 6.16,
+    "total_flos": 1.0886233115316142e+18,
+    "train_loss": 0.21913787420245184,
+    "train_runtime": 552.9922,
+    "train_samples_per_second": 80.019,
+    "train_steps_per_second": 0.624
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 19.27710843373494,
-    "eval_accuracy": 0.9661016949152542,
-    "eval_loss": 0.13029339909553528,
-    "eval_runtime": 1.306,
-    "eval_samples_per_second": 225.886,
-    "eval_steps_per_second": 7.657
 }

 {
+    "epoch": 14.838709677419354,
+    "eval_accuracy": 0.964824120603015,
+    "eval_loss": 0.15059159696102142,
+    "eval_runtime": 2.7989,
+    "eval_samples_per_second": 213.295,
+    "eval_steps_per_second": 6.788
 }

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.838709677419354,
+    "eval_accuracy": 0.9272727272727272,
+    "eval_loss": 0.2460637390613556,
+    "eval_runtime": 0.974,
+    "eval_samples_per_second": 169.402,
+    "eval_steps_per_second": 6.16
+}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 19.27710843373494,
-    "total_flos": 1.2721899193419387e+18,
-    "train_loss": 0.1996179285645485,
-    "train_runtime": 565.0512,
-    "train_samples_per_second": 93.974,
-    "train_steps_per_second": 0.708
 }

 {
+    "epoch": 14.838709677419354,
+    "total_flos": 1.0886233115316142e+18,
+    "train_loss": 0.21913787420245184,
+    "train_runtime": 552.9922,
+    "train_samples_per_second": 80.019,
+    "train_steps_per_second": 0.624
 }

trainer_state.json CHANGED Viewed

@@ -1,498 +1,269 @@
 {
-  "best_metric": 0.9661016949152542,
-  "best_model_checkpoint": "/kaggle/working/swin-brain-abnormalities-classification/checkpoint-311",
-  "epoch": 19.27710843373494,
   "eval_steps": 500,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.4819277108433735,
-      "grad_norm": 7.259073257446289,
-      "learning_rate": 1.25e-05,
-      "loss": 1.1246,
-      "step": 10
     },
     {
-      "epoch": 0.963855421686747,
-      "grad_norm": 4.209974765777588,
-      "learning_rate": 2.5e-05,
-      "loss": 0.7845,
-      "step": 20
     },
     {
-      "epoch": 0.963855421686747,
-      "eval_accuracy": 0.7661016949152543,
-      "eval_loss": 0.5746350288391113,
-      "eval_runtime": 1.2982,
-      "eval_samples_per_second": 227.238,
-      "eval_steps_per_second": 7.703,
-      "step": 20
     },
     {
-      "epoch": 1.4457831325301205,
-      "grad_norm": 8.389396667480469,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.6339,
-      "step": 30
     },
     {
-      "epoch": 1.927710843373494,
-      "grad_norm": 5.584402561187744,
-      "learning_rate": 5e-05,
-      "loss": 0.4587,
-      "step": 40
     },
     {
-      "epoch": 1.9759036144578315,
-      "eval_accuracy": 0.8779661016949153,
-      "eval_loss": 0.29308223724365234,
-      "eval_runtime": 1.2711,
-      "eval_samples_per_second": 232.081,
-      "eval_steps_per_second": 7.867,
-      "step": 41
-    },
-    {
-      "epoch": 2.4096385542168672,
-      "grad_norm": 13.30373477935791,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.3783,
-      "step": 50
-    },
-    {
-      "epoch": 2.891566265060241,
-      "grad_norm": 14.480766296386719,
-      "learning_rate": 4.722222222222222e-05,
-      "loss": 0.3004,
-      "step": 60
-    },
-    {
-      "epoch": 2.9879518072289155,
-      "eval_accuracy": 0.8949152542372881,
-      "eval_loss": 0.2784439027309418,
-      "eval_runtime": 1.2869,
-      "eval_samples_per_second": 229.239,
-      "eval_steps_per_second": 7.771,
-      "step": 62
-    },
-    {
-      "epoch": 3.3734939759036147,
-      "grad_norm": 22.313514709472656,
-      "learning_rate": 4.5833333333333334e-05,
-      "loss": 0.2702,
-      "step": 70
-    },
-    {
-      "epoch": 3.855421686746988,
-      "grad_norm": 15.409673690795898,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.2379,
-      "step": 80
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9355932203389831,
-      "eval_loss": 0.1557122766971588,
-      "eval_runtime": 1.3066,
-      "eval_samples_per_second": 225.78,
-      "eval_steps_per_second": 7.654,
-      "step": 83
-    },
-    {
-      "epoch": 4.337349397590361,
-      "grad_norm": 8.086126327514648,
-      "learning_rate": 4.305555555555556e-05,
-      "loss": 0.2492,
-      "step": 90
-    },
-    {
-      "epoch": 4.8192771084337345,
-      "grad_norm": 13.449581146240234,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.1845,
-      "step": 100
-    },
-    {
-      "epoch": 4.9638554216867465,
-      "eval_accuracy": 0.9491525423728814,
-      "eval_loss": 0.15197788178920746,
-      "eval_runtime": 1.2703,
-      "eval_samples_per_second": 232.229,
-      "eval_steps_per_second": 7.872,
-      "step": 103
-    },
-    {
-      "epoch": 5.301204819277109,
-      "grad_norm": 11.823051452636719,
-      "learning_rate": 4.027777777777778e-05,
-      "loss": 0.1818,
-      "step": 110
     },
     {
-      "epoch": 5.783132530120482,
-      "grad_norm": 7.886294364929199,
-      "learning_rate": 3.888888888888889e-05,
-      "loss": 0.1445,
-      "step": 120
     },
     {
-      "epoch": 5.975903614457831,
-      "eval_accuracy": 0.9525423728813559,
-      "eval_loss": 0.14502111077308655,
-      "eval_runtime": 1.2821,
-      "eval_samples_per_second": 230.1,
-      "eval_steps_per_second": 7.8,
-      "step": 124
     },
     {
-      "epoch": 6.265060240963855,
-      "grad_norm": 9.61337661743164,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.1449,
-      "step": 130
     },
     {
-      "epoch": 6.746987951807229,
-      "grad_norm": 10.163887977600098,
-      "learning_rate": 3.611111111111111e-05,
-      "loss": 0.1557,
-      "step": 140
     },
     {
-      "epoch": 6.9879518072289155,
-      "eval_accuracy": 0.9525423728813559,
-      "eval_loss": 0.11894461512565613,
-      "eval_runtime": 1.2782,
-      "eval_samples_per_second": 230.788,
-      "eval_steps_per_second": 7.823,
-      "step": 145
     },
     {
-      "epoch": 7.228915662650603,
-      "grad_norm": 5.782637596130371,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.1577,
-      "step": 150
     },
     {
-      "epoch": 7.710843373493976,
-      "grad_norm": 8.481064796447754,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.1503,
-      "step": 160
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9559322033898305,
-      "eval_loss": 0.12011975049972534,
-      "eval_runtime": 1.2771,
-      "eval_samples_per_second": 230.985,
-      "eval_steps_per_second": 7.83,
-      "step": 166
-    },
-    {
-      "epoch": 8.19277108433735,
-      "grad_norm": 11.080423355102539,
-      "learning_rate": 3.194444444444444e-05,
-      "loss": 0.1716,
-      "step": 170
-    },
-    {
-      "epoch": 8.674698795180722,
-      "grad_norm": 6.277684211730957,
-      "learning_rate": 3.055555555555556e-05,
-      "loss": 0.1446,
-      "step": 180
-    },
-    {
-      "epoch": 8.963855421686747,
-      "eval_accuracy": 0.9627118644067797,
-      "eval_loss": 0.12793326377868652,
-      "eval_runtime": 1.2696,
-      "eval_samples_per_second": 232.353,
-      "eval_steps_per_second": 7.876,
       "step": 186
     },
     {
-      "epoch": 9.156626506024097,
-      "grad_norm": 5.818056106567383,
-      "learning_rate": 2.916666666666667e-05,
-      "loss": 0.1256,
-      "step": 190
-    },
-    {
-      "epoch": 9.638554216867469,
-      "grad_norm": 5.736883163452148,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.1368,
-      "step": 200
     },
     {
-      "epoch": 9.975903614457831,
-      "eval_accuracy": 0.9593220338983051,
-      "eval_loss": 0.13930343091487885,
-      "eval_runtime": 1.2699,
-      "eval_samples_per_second": 232.298,
-      "eval_steps_per_second": 7.875,
-      "step": 207
     },
     {
-      "epoch": 10.120481927710843,
-      "grad_norm": 5.910589218139648,
-      "learning_rate": 2.6388888888888892e-05,
-      "loss": 0.1273,
-      "step": 210
     },
     {
-      "epoch": 10.602409638554217,
-      "grad_norm": 9.146703720092773,
-      "learning_rate": 2.5e-05,
-      "loss": 0.111,
-      "step": 220
     },
     {
-      "epoch": 10.987951807228916,
-      "eval_accuracy": 0.9627118644067797,
-      "eval_loss": 0.17713582515716553,
-      "eval_runtime": 1.2537,
-      "eval_samples_per_second": 235.307,
-      "eval_steps_per_second": 7.976,
-      "step": 228
     },
     {
-      "epoch": 11.08433734939759,
-      "grad_norm": 4.925355434417725,
-      "learning_rate": 2.361111111111111e-05,
-      "loss": 0.1125,
-      "step": 230
     },
     {
-      "epoch": 11.566265060240964,
-      "grad_norm": 4.107492923736572,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.118,
-      "step": 240
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9627118644067797,
-      "eval_loss": 0.15914401412010193,
-      "eval_runtime": 1.2854,
-      "eval_samples_per_second": 229.507,
-      "eval_steps_per_second": 7.78,
-      "step": 249
-    },
-    {
-      "epoch": 12.048192771084338,
-      "grad_norm": 7.796498775482178,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.0915,
-      "step": 250
-    },
-    {
-      "epoch": 12.53012048192771,
-      "grad_norm": 9.677573204040527,
-      "learning_rate": 1.9444444444444445e-05,
-      "loss": 0.099,
-      "step": 260
-    },
-    {
-      "epoch": 12.963855421686747,
-      "eval_accuracy": 0.9593220338983051,
-      "eval_loss": 0.15266619622707367,
-      "eval_runtime": 1.2662,
-      "eval_samples_per_second": 232.985,
-      "eval_steps_per_second": 7.898,
-      "step": 269
     },
     {
-      "epoch": 13.012048192771084,
-      "grad_norm": 4.379421710968018,
-      "learning_rate": 1.8055555555555555e-05,
-      "loss": 0.1159,
-      "step": 270
-    },
-    {
-      "epoch": 13.493975903614459,
-      "grad_norm": 4.8903326988220215,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.1205,
-      "step": 280
-    },
-    {
-      "epoch": 13.975903614457831,
-      "grad_norm": 11.284186363220215,
-      "learning_rate": 1.527777777777778e-05,
-      "loss": 0.0888,
-      "step": 290
-    },
-    {
-      "epoch": 13.975903614457831,
-      "eval_accuracy": 0.9559322033898305,
-      "eval_loss": 0.16676990687847137,
-      "eval_runtime": 1.2901,
-      "eval_samples_per_second": 228.665,
-      "eval_steps_per_second": 7.751,
-      "step": 290
-    },
-    {
-      "epoch": 14.457831325301205,
-      "grad_norm": 3.1499440670013428,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.0899,
-      "step": 300
-    },
-    {
-      "epoch": 14.939759036144578,
-      "grad_norm": 3.247986316680908,
-      "learning_rate": 1.25e-05,
-      "loss": 0.0768,
-      "step": 310
-    },
-    {
-      "epoch": 14.987951807228916,
-      "eval_accuracy": 0.9661016949152542,
-      "eval_loss": 0.13029339909553528,
-      "eval_runtime": 1.2781,
-      "eval_samples_per_second": 230.82,
-      "eval_steps_per_second": 7.824,
-      "step": 311
-    },
-    {
-      "epoch": 15.421686746987952,
-      "grad_norm": 6.322991371154785,
-      "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.0927,
-      "step": 320
-    },
-    {
-      "epoch": 15.903614457831326,
-      "grad_norm": 6.686095714569092,
-      "learning_rate": 9.722222222222223e-06,
-      "loss": 0.0776,
-      "step": 330
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9661016949152542,
-      "eval_loss": 0.1429983526468277,
-      "eval_runtime": 1.2624,
-      "eval_samples_per_second": 233.689,
-      "eval_steps_per_second": 7.922,
-      "step": 332
-    },
-    {
-      "epoch": 16.3855421686747,
-      "grad_norm": 7.175258159637451,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.0702,
-      "step": 340
-    },
-    {
-      "epoch": 16.867469879518072,
-      "grad_norm": 3.372356414794922,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.0853,
-      "step": 350
-    },
-    {
-      "epoch": 16.96385542168675,
-      "eval_accuracy": 0.9593220338983051,
-      "eval_loss": 0.1605215072631836,
-      "eval_runtime": 1.2716,
-      "eval_samples_per_second": 231.992,
-      "eval_steps_per_second": 7.864,
-      "step": 352
-    },
-    {
-      "epoch": 17.349397590361445,
-      "grad_norm": 5.981749534606934,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.0721,
-      "step": 360
-    },
-    {
-      "epoch": 17.83132530120482,
-      "grad_norm": 4.273797988891602,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 0.07,
-      "step": 370
     },
     {
-      "epoch": 17.97590361445783,
-      "eval_accuracy": 0.9593220338983051,
-      "eval_loss": 0.16592465341091156,
-      "eval_runtime": 1.2755,
-      "eval_samples_per_second": 231.286,
-      "eval_steps_per_second": 7.84,
-      "step": 373
     },
     {
-      "epoch": 18.313253012048193,
-      "grad_norm": 5.308500289916992,
-      "learning_rate": 2.777777777777778e-06,
-      "loss": 0.0885,
-      "step": 380
     },
     {
-      "epoch": 18.795180722891565,
-      "grad_norm": 4.930727958679199,
-      "learning_rate": 1.388888888888889e-06,
-      "loss": 0.0705,
-      "step": 390
     },
     {
-      "epoch": 18.987951807228917,
-      "eval_accuracy": 0.9593220338983051,
-      "eval_loss": 0.14548562467098236,
-      "eval_runtime": 1.2629,
-      "eval_samples_per_second": 233.598,
-      "eval_steps_per_second": 7.919,
-      "step": 394
     },
     {
-      "epoch": 19.27710843373494,
-      "grad_norm": 4.126744747161865,
       "learning_rate": 0.0,
-      "loss": 0.0712,
-      "step": 400
     },
     {
-      "epoch": 19.27710843373494,
-      "eval_accuracy": 0.9593220338983051,
-      "eval_loss": 0.14513157308101654,
-      "eval_runtime": 1.4146,
-      "eval_samples_per_second": 208.538,
-      "eval_steps_per_second": 7.069,
-      "step": 400
     },
     {
-      "epoch": 19.27710843373494,
-      "step": 400,
-      "total_flos": 1.2721899193419387e+18,
-      "train_loss": 0.1996179285645485,
-      "train_runtime": 565.0512,
-      "train_samples_per_second": 93.974,
-      "train_steps_per_second": 0.708
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 400,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
-    "CustomEarlyStoppingCallback": {
-      "args": {
-        "early_stopping_patience": 1,
-        "early_stopping_threshold": 0.0
-      },
-      "attributes": {
-        "early_stopping_patience_counter": 0
-      }
-    },
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,
@@ -504,7 +275,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2721899193419387e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.964824120603015,
+  "best_model_checkpoint": "/kaggle/working/swin-brain-abnormalities-classification/checkpoint-279",
+  "epoch": 14.838709677419354,
   "eval_steps": 500,
+  "global_step": 345,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.989247311827957,
+      "grad_norm": 12.819618225097656,
+      "learning_rate": 3.285714285714286e-05,
+      "loss": 0.928,
+      "step": 23
     },
     {
+      "epoch": 0.989247311827957,
+      "eval_accuracy": 0.7705192629815746,
+      "eval_loss": 0.6080142259597778,
+      "eval_runtime": 2.7919,
+      "eval_samples_per_second": 213.832,
+      "eval_steps_per_second": 6.805,
+      "step": 23
     },
     {
+      "epoch": 1.978494623655914,
+      "grad_norm": 15.878138542175293,
+      "learning_rate": 4.822580645161291e-05,
+      "loss": 0.508,
+      "step": 46
     },
     {
+      "epoch": 1.978494623655914,
+      "eval_accuracy": 0.916247906197655,
+      "eval_loss": 0.24024777114391327,
+      "eval_runtime": 2.7697,
+      "eval_samples_per_second": 215.545,
+      "eval_steps_per_second": 6.86,
+      "step": 46
     },
     {
+      "epoch": 2.967741935483871,
+      "grad_norm": 15.8612699508667,
+      "learning_rate": 4.451612903225807e-05,
+      "loss": 0.3178,
+      "step": 69
     },
     {
+      "epoch": 2.967741935483871,
+      "eval_accuracy": 0.9246231155778895,
+      "eval_loss": 0.21210229396820068,
+      "eval_runtime": 2.7786,
+      "eval_samples_per_second": 214.86,
+      "eval_steps_per_second": 6.838,
+      "step": 69
     },
     {
       "epoch": 4.0,
+      "grad_norm": 18.1905574798584,
+      "learning_rate": 4.0645161290322584e-05,
+      "loss": 0.2338,
+      "step": 93
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9363484087102177,
+      "eval_loss": 0.20449711382389069,
+      "eval_runtime": 2.7356,
+      "eval_samples_per_second": 218.234,
+      "eval_steps_per_second": 6.945,
+      "step": 93
     },
     {
+      "epoch": 4.989247311827957,
+      "grad_norm": 7.354104042053223,
+      "learning_rate": 3.6935483870967746e-05,
+      "loss": 0.1788,
+      "step": 116
     },
     {
+      "epoch": 4.989247311827957,
+      "eval_accuracy": 0.9296482412060302,
+      "eval_loss": 0.24434839189052582,
+      "eval_runtime": 2.754,
+      "eval_samples_per_second": 216.777,
+      "eval_steps_per_second": 6.899,
+      "step": 116
     },
     {
+      "epoch": 5.978494623655914,
+      "grad_norm": 12.372457504272461,
+      "learning_rate": 3.322580645161291e-05,
+      "loss": 0.1675,
+      "step": 139
     },
     {
+      "epoch": 5.978494623655914,
+      "eval_accuracy": 0.9430485762144054,
+      "eval_loss": 0.14566932618618011,
+      "eval_runtime": 2.7575,
+      "eval_samples_per_second": 216.503,
+      "eval_steps_per_second": 6.89,
+      "step": 139
     },
     {
+      "epoch": 6.967741935483871,
+      "grad_norm": 13.181761741638184,
+      "learning_rate": 2.9516129032258067e-05,
+      "loss": 0.155,
+      "step": 162
     },
     {
+      "epoch": 6.967741935483871,
+      "eval_accuracy": 0.9514237855946399,
+      "eval_loss": 0.17081618309020996,
+      "eval_runtime": 2.8126,
+      "eval_samples_per_second": 212.256,
+      "eval_steps_per_second": 6.755,
+      "step": 162
     },
     {
       "epoch": 8.0,
+      "grad_norm": 43.71896743774414,
+      "learning_rate": 2.5645161290322582e-05,
+      "loss": 0.1316,
       "step": 186
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9530988274706867,
+      "eval_loss": 0.1554775983095169,
+      "eval_runtime": 2.7304,
+      "eval_samples_per_second": 218.645,
+      "eval_steps_per_second": 6.959,
+      "step": 186
     },
     {
+      "epoch": 8.989247311827956,
+      "grad_norm": 8.03194808959961,
+      "learning_rate": 2.1935483870967744e-05,
+      "loss": 0.1099,
+      "step": 209
     },
     {
+      "epoch": 8.989247311827956,
+      "eval_accuracy": 0.9530988274706867,
+      "eval_loss": 0.17324857413768768,
+      "eval_runtime": 2.7989,
+      "eval_samples_per_second": 213.295,
+      "eval_steps_per_second": 6.788,
+      "step": 209
     },
     {
+      "epoch": 9.978494623655914,
+      "grad_norm": 5.151728630065918,
+      "learning_rate": 1.8225806451612903e-05,
+      "loss": 0.1121,
+      "step": 232
     },
     {
+      "epoch": 9.978494623655914,
+      "eval_accuracy": 0.9581239530988275,
+      "eval_loss": 0.13575538992881775,
+      "eval_runtime": 2.7641,
+      "eval_samples_per_second": 215.983,
+      "eval_steps_per_second": 6.874,
+      "step": 232
     },
     {
+      "epoch": 10.967741935483872,
+      "grad_norm": 14.949158668518066,
+      "learning_rate": 1.4516129032258066e-05,
+      "loss": 0.1007,
+      "step": 255
     },
     {
+      "epoch": 10.967741935483872,
+      "eval_accuracy": 0.9514237855946399,
+      "eval_loss": 0.21547764539718628,
+      "eval_runtime": 2.7877,
+      "eval_samples_per_second": 214.157,
+      "eval_steps_per_second": 6.816,
+      "step": 255
     },
     {
       "epoch": 12.0,
+      "grad_norm": 4.855920314788818,
+      "learning_rate": 1.064516129032258e-05,
+      "loss": 0.0951,
+      "step": 279
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.964824120603015,
+      "eval_loss": 0.15059159696102142,
+      "eval_runtime": 2.7534,
+      "eval_samples_per_second": 216.826,
+      "eval_steps_per_second": 6.901,
+      "step": 279
     },
     {
+      "epoch": 12.989247311827956,
+      "grad_norm": 5.928957462310791,
+      "learning_rate": 6.935483870967742e-06,
+      "loss": 0.0841,
+      "step": 302
     },
     {
+      "epoch": 12.989247311827956,
+      "eval_accuracy": 0.9530988274706867,
+      "eval_loss": 0.1921372413635254,
+      "eval_runtime": 2.8151,
+      "eval_samples_per_second": 212.072,
+      "eval_steps_per_second": 6.749,
+      "step": 302
     },
     {
+      "epoch": 13.978494623655914,
+      "grad_norm": 2.9877490997314453,
+      "learning_rate": 3.225806451612903e-06,
+      "loss": 0.0778,
+      "step": 325
     },
     {
+      "epoch": 13.978494623655914,
+      "eval_accuracy": 0.9530988274706867,
+      "eval_loss": 0.20410552620887756,
+      "eval_runtime": 2.7514,
+      "eval_samples_per_second": 216.98,
+      "eval_steps_per_second": 6.906,
+      "step": 325
     },
     {
+      "epoch": 14.838709677419354,
+      "grad_norm": 5.737996578216553,
       "learning_rate": 0.0,
+      "loss": 0.0768,
+      "step": 345
     },
     {
+      "epoch": 14.838709677419354,
+      "eval_accuracy": 0.9547738693467337,
+      "eval_loss": 0.1908799260854721,
+      "eval_runtime": 2.96,
+      "eval_samples_per_second": 201.69,
+      "eval_steps_per_second": 6.419,
+      "step": 345
     },
     {
+      "epoch": 14.838709677419354,
+      "step": 345,
+      "total_flos": 1.0886233115316142e+18,
+      "train_loss": 0.21913787420245184,
+      "train_runtime": 552.9922,
+      "train_samples_per_second": 80.019,
+      "train_steps_per_second": 0.624
     }
   ],
+  "logging_steps": 1,
+  "max_steps": 345,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_epoch_stop": false,
       "attributes": {}
     }
   },
+  "total_flos": 1.0886233115316142e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null