🍻 cheers

Browse files

Files changed (6) hide show

README.md +2 -1
all_results.json +11 -11
eval_results.json +6 -6
runs/Apr14_21-54-08_6575159b613a/events.out.tfevents.1744669968.6575159b613a.962.1 +3 -0
train_results.json +6 -6
trainer_state.json +889 -278

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/deit-base-distilled-patch16-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -16,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # deit-ena24
-This model is a fine-tuned version of [facebook/deit-base-distilled-patch16-224](https://huggingface.co/facebook/deit-base-distilled-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0999
 - Accuracy: 0.9763

 license: apache-2.0
 base_model: facebook/deit-base-distilled-patch16-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # deit-ena24
+This model is a fine-tuned version of [facebook/deit-base-distilled-patch16-224](https://huggingface.co/facebook/deit-base-distilled-patch16-224) on the ena24 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0999
 - Accuracy: 0.9763

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.9541984732824428,
-    "eval_loss": 0.18305547535419464,
-    "eval_runtime": 81.3613,
-    "eval_samples_per_second": 16.101,
-    "eval_steps_per_second": 2.016,
-    "total_flos": 4.7604963762671616e+17,
-    "train_loss": 0.6042932469863445,
-    "train_runtime": 1047.5566,
-    "train_samples_per_second": 5.863,
-    "train_steps_per_second": 0.733
 }

 {
+    "epoch": 2.0,
+    "eval_accuracy": 0.9763358778625955,
+    "eval_loss": 0.09990814328193665,
+    "eval_runtime": 73.9296,
+    "eval_samples_per_second": 17.72,
+    "eval_steps_per_second": 2.218,
+    "total_flos": 9.520992752534323e+17,
+    "train_loss": 0.37781994496223587,
+    "train_runtime": 2217.5006,
+    "train_samples_per_second": 5.54,
+    "train_steps_per_second": 0.693
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.9541984732824428,
-    "eval_loss": 0.18305547535419464,
-    "eval_runtime": 81.3613,
-    "eval_samples_per_second": 16.101,
-    "eval_steps_per_second": 2.016
 }

 {
+    "epoch": 2.0,
+    "eval_accuracy": 0.9763358778625955,
+    "eval_loss": 0.09990814328193665,
+    "eval_runtime": 73.9296,
+    "eval_samples_per_second": 17.72,
+    "eval_steps_per_second": 2.218
 }

runs/Apr14_21-54-08_6575159b613a/events.out.tfevents.1744669968.6575159b613a.962.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b19e21154dfc7cbe336cdff02e37fd6175a03b3b57d95f99c7d256c9aefda4eb
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "total_flos": 4.7604963762671616e+17,
-    "train_loss": 0.6042932469863445,
-    "train_runtime": 1047.5566,
-    "train_samples_per_second": 5.863,
-    "train_steps_per_second": 0.733
 }

 {
+    "epoch": 2.0,
+    "total_flos": 9.520992752534323e+17,
+    "train_loss": 0.37781994496223587,
+    "train_runtime": 2217.5006,
+    "train_samples_per_second": 5.54,
+    "train_steps_per_second": 0.693
 }

trainer_state.json CHANGED Viewed

@@ -1,623 +1,1234 @@
 {
-  "best_global_step": 700,
-  "best_metric": 0.18305547535419464,
-  "best_model_checkpoint": "./deit-ena24/checkpoint-700",
-  "epoch": 1.0,
   "eval_steps": 100,
-  "global_step": 768,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.013020833333333334,
-      "grad_norm": 13.260034561157227,
-      "learning_rate": 0.0001979166666666667,
-      "loss": 2.8732,
       "step": 10
     },
     {
       "epoch": 0.026041666666666668,
-      "grad_norm": 9.820590019226074,
-      "learning_rate": 0.0001953125,
-      "loss": 2.4629,
       "step": 20
     },
     {
       "epoch": 0.0390625,
-      "grad_norm": 10.095938682556152,
-      "learning_rate": 0.00019270833333333333,
-      "loss": 2.0921,
       "step": 30
     },
     {
       "epoch": 0.052083333333333336,
-      "grad_norm": 12.057257652282715,
-      "learning_rate": 0.00019010416666666668,
-      "loss": 1.8719,
       "step": 40
     },
     {
       "epoch": 0.06510416666666667,
-      "grad_norm": 13.049660682678223,
-      "learning_rate": 0.0001875,
-      "loss": 1.5668,
       "step": 50
     },
     {
       "epoch": 0.078125,
-      "grad_norm": 11.265847206115723,
-      "learning_rate": 0.00018515625000000002,
-      "loss": 1.3715,
       "step": 60
     },
     {
       "epoch": 0.09114583333333333,
-      "grad_norm": 9.338308334350586,
-      "learning_rate": 0.00018255208333333334,
-      "loss": 1.0822,
       "step": 70
     },
     {
       "epoch": 0.10416666666666667,
-      "grad_norm": 9.89381217956543,
-      "learning_rate": 0.0001799479166666667,
-      "loss": 1.0687,
       "step": 80
     },
     {
       "epoch": 0.1171875,
-      "grad_norm": 11.900596618652344,
-      "learning_rate": 0.00017734375,
-      "loss": 1.23,
       "step": 90
     },
     {
       "epoch": 0.13020833333333334,
-      "grad_norm": 11.67223072052002,
-      "learning_rate": 0.00017473958333333333,
-      "loss": 1.3013,
       "step": 100
     },
     {
       "epoch": 0.13020833333333334,
-      "eval_accuracy": 0.7145038167938931,
-      "eval_loss": 0.9782444834709167,
-      "eval_runtime": 82.9835,
-      "eval_samples_per_second": 15.786,
-      "eval_steps_per_second": 1.976,
       "step": 100
     },
     {
       "epoch": 0.14322916666666666,
-      "grad_norm": 4.8917670249938965,
-      "learning_rate": 0.00017213541666666668,
-      "loss": 0.7945,
       "step": 110
     },
     {
       "epoch": 0.15625,
-      "grad_norm": 5.368461608886719,
-      "learning_rate": 0.00016953125,
-      "loss": 0.9363,
       "step": 120
     },
     {
       "epoch": 0.16927083333333334,
-      "grad_norm": 12.348027229309082,
-      "learning_rate": 0.00016692708333333333,
-      "loss": 1.0411,
       "step": 130
     },
     {
       "epoch": 0.18229166666666666,
-      "grad_norm": 8.018155097961426,
-      "learning_rate": 0.00016432291666666668,
-      "loss": 1.1303,
       "step": 140
     },
     {
       "epoch": 0.1953125,
-      "grad_norm": 8.59954833984375,
-      "learning_rate": 0.00016171875,
-      "loss": 0.9403,
       "step": 150
     },
     {
       "epoch": 0.20833333333333334,
-      "grad_norm": 7.333462715148926,
-      "learning_rate": 0.00015911458333333335,
-      "loss": 1.0405,
       "step": 160
     },
     {
       "epoch": 0.22135416666666666,
-      "grad_norm": 9.870811462402344,
-      "learning_rate": 0.00015651041666666667,
-      "loss": 0.8883,
       "step": 170
     },
     {
       "epoch": 0.234375,
-      "grad_norm": 12.272759437561035,
-      "learning_rate": 0.00015390625000000002,
-      "loss": 0.8909,
       "step": 180
     },
     {
       "epoch": 0.24739583333333334,
-      "grad_norm": 11.775607109069824,
-      "learning_rate": 0.00015130208333333334,
-      "loss": 0.865,
       "step": 190
     },
     {
       "epoch": 0.2604166666666667,
-      "grad_norm": 6.171130180358887,
-      "learning_rate": 0.0001486979166666667,
-      "loss": 0.8173,
       "step": 200
     },
     {
       "epoch": 0.2604166666666667,
-      "eval_accuracy": 0.8557251908396947,
-      "eval_loss": 0.5562589168548584,
-      "eval_runtime": 74.7249,
-      "eval_samples_per_second": 17.531,
-      "eval_steps_per_second": 2.195,
       "step": 200
     },
     {
       "epoch": 0.2734375,
-      "grad_norm": 6.6932806968688965,
-      "learning_rate": 0.00014609375,
-      "loss": 0.5124,
       "step": 210
     },
     {
       "epoch": 0.2864583333333333,
-      "grad_norm": 16.43584442138672,
-      "learning_rate": 0.00014348958333333333,
-      "loss": 0.9,
       "step": 220
     },
     {
       "epoch": 0.2994791666666667,
-      "grad_norm": 7.73850679397583,
-      "learning_rate": 0.00014088541666666668,
-      "loss": 0.521,
       "step": 230
     },
     {
       "epoch": 0.3125,
-      "grad_norm": 9.52759838104248,
-      "learning_rate": 0.00013828125,
-      "loss": 0.4835,
       "step": 240
     },
     {
       "epoch": 0.3255208333333333,
-      "grad_norm": 11.618107795715332,
-      "learning_rate": 0.00013567708333333333,
-      "loss": 0.7698,
       "step": 250
     },
     {
       "epoch": 0.3385416666666667,
-      "grad_norm": 8.700807571411133,
-      "learning_rate": 0.00013307291666666667,
-      "loss": 0.6306,
       "step": 260
     },
     {
       "epoch": 0.3515625,
-      "grad_norm": 4.3553032875061035,
-      "learning_rate": 0.00013046875,
-      "loss": 0.7666,
       "step": 270
     },
     {
       "epoch": 0.3645833333333333,
-      "grad_norm": 12.448610305786133,
-      "learning_rate": 0.00012786458333333332,
-      "loss": 0.5738,
       "step": 280
     },
     {
       "epoch": 0.3776041666666667,
-      "grad_norm": 9.840099334716797,
-      "learning_rate": 0.00012526041666666667,
-      "loss": 0.8134,
       "step": 290
     },
     {
       "epoch": 0.390625,
-      "grad_norm": 7.528562545776367,
-      "learning_rate": 0.00012265625000000002,
-      "loss": 0.3854,
       "step": 300
     },
     {
       "epoch": 0.390625,
-      "eval_accuracy": 0.8290076335877863,
-      "eval_loss": 0.5590693950653076,
-      "eval_runtime": 74.2435,
-      "eval_samples_per_second": 17.645,
-      "eval_steps_per_second": 2.209,
       "step": 300
     },
     {
       "epoch": 0.4036458333333333,
-      "grad_norm": 15.404702186584473,
-      "learning_rate": 0.00012005208333333333,
-      "loss": 0.3826,
       "step": 310
     },
     {
       "epoch": 0.4166666666666667,
-      "grad_norm": 12.3324556350708,
-      "learning_rate": 0.00011744791666666667,
-      "loss": 0.671,
       "step": 320
     },
     {
       "epoch": 0.4296875,
-      "grad_norm": 7.279428482055664,
-      "learning_rate": 0.00011484375000000001,
-      "loss": 0.6104,
       "step": 330
     },
     {
       "epoch": 0.4427083333333333,
-      "grad_norm": 4.391035556793213,
-      "learning_rate": 0.00011223958333333333,
-      "loss": 0.2654,
       "step": 340
     },
     {
       "epoch": 0.4557291666666667,
-      "grad_norm": 8.39172077178955,
-      "learning_rate": 0.00010963541666666668,
-      "loss": 0.3805,
       "step": 350
     },
     {
       "epoch": 0.46875,
-      "grad_norm": 12.371193885803223,
-      "learning_rate": 0.00010703125,
-      "loss": 0.6499,
       "step": 360
     },
     {
       "epoch": 0.4817708333333333,
-      "grad_norm": 12.96164608001709,
-      "learning_rate": 0.00010442708333333332,
-      "loss": 0.479,
       "step": 370
     },
     {
       "epoch": 0.4947916666666667,
-      "grad_norm": 7.882753849029541,
-      "learning_rate": 0.00010182291666666667,
-      "loss": 0.4378,
       "step": 380
     },
     {
       "epoch": 0.5078125,
-      "grad_norm": 8.277647018432617,
-      "learning_rate": 9.921875000000001e-05,
-      "loss": 0.2082,
       "step": 390
     },
     {
       "epoch": 0.5208333333333334,
-      "grad_norm": 0.7365554571151733,
-      "learning_rate": 9.661458333333335e-05,
-      "loss": 0.4819,
       "step": 400
     },
     {
       "epoch": 0.5208333333333334,
-      "eval_accuracy": 0.8916030534351145,
-      "eval_loss": 0.42133229970932007,
-      "eval_runtime": 73.4397,
-      "eval_samples_per_second": 17.838,
-      "eval_steps_per_second": 2.233,
       "step": 400
     },
     {
       "epoch": 0.5338541666666666,
-      "grad_norm": 0.28731444478034973,
-      "learning_rate": 9.401041666666667e-05,
-      "loss": 0.3491,
       "step": 410
     },
     {
       "epoch": 0.546875,
-      "grad_norm": 3.7821755409240723,
-      "learning_rate": 9.140625e-05,
-      "loss": 0.1838,
       "step": 420
     },
     {
       "epoch": 0.5598958333333334,
-      "grad_norm": 3.5339951515197754,
-      "learning_rate": 8.880208333333334e-05,
-      "loss": 0.3314,
       "step": 430
     },
     {
       "epoch": 0.5729166666666666,
-      "grad_norm": 6.025645732879639,
-      "learning_rate": 8.619791666666667e-05,
-      "loss": 0.1585,
       "step": 440
     },
     {
       "epoch": 0.5859375,
-      "grad_norm": 0.45756229758262634,
-      "learning_rate": 8.359375000000001e-05,
-      "loss": 0.2913,
       "step": 450
     },
     {
       "epoch": 0.5989583333333334,
-      "grad_norm": 0.4419526755809784,
-      "learning_rate": 8.098958333333334e-05,
-      "loss": 0.5086,
       "step": 460
     },
     {
       "epoch": 0.6119791666666666,
-      "grad_norm": 2.3669064044952393,
-      "learning_rate": 7.838541666666667e-05,
-      "loss": 0.3715,
       "step": 470
     },
     {
       "epoch": 0.625,
-      "grad_norm": 5.0602335929870605,
-      "learning_rate": 7.578125e-05,
-      "loss": 0.1702,
       "step": 480
     },
     {
       "epoch": 0.6380208333333334,
-      "grad_norm": 1.94741690158844,
-      "learning_rate": 7.317708333333334e-05,
-      "loss": 0.1096,
       "step": 490
     },
     {
       "epoch": 0.6510416666666666,
-      "grad_norm": 0.24792739748954773,
-      "learning_rate": 7.057291666666666e-05,
-      "loss": 0.5078,
       "step": 500
     },
     {
       "epoch": 0.6510416666666666,
-      "eval_accuracy": 0.9145038167938931,
-      "eval_loss": 0.30997681617736816,
-      "eval_runtime": 73.9129,
-      "eval_samples_per_second": 17.724,
-      "eval_steps_per_second": 2.219,
       "step": 500
     },
     {
       "epoch": 0.6640625,
-      "grad_norm": 0.9492112398147583,
-      "learning_rate": 6.796875000000001e-05,
-      "loss": 0.2944,
       "step": 510
     },
     {
       "epoch": 0.6770833333333334,
-      "grad_norm": 12.045668601989746,
-      "learning_rate": 6.536458333333334e-05,
-      "loss": 0.4413,
       "step": 520
     },
     {
       "epoch": 0.6901041666666666,
-      "grad_norm": 1.8837093114852905,
-      "learning_rate": 6.276041666666667e-05,
-      "loss": 0.5431,
       "step": 530
     },
     {
       "epoch": 0.703125,
-      "grad_norm": 7.727165222167969,
-      "learning_rate": 6.015625e-05,
-      "loss": 0.1183,
       "step": 540
     },
     {
       "epoch": 0.7161458333333334,
-      "grad_norm": 8.092196464538574,
-      "learning_rate": 5.755208333333334e-05,
-      "loss": 0.2362,
       "step": 550
     },
     {
       "epoch": 0.7291666666666666,
-      "grad_norm": 15.029434204101562,
-      "learning_rate": 5.4947916666666666e-05,
-      "loss": 0.4467,
       "step": 560
     },
     {
       "epoch": 0.7421875,
-      "grad_norm": 4.014970302581787,
-      "learning_rate": 5.234375e-05,
-      "loss": 0.2989,
       "step": 570
     },
     {
       "epoch": 0.7552083333333334,
-      "grad_norm": 4.193512916564941,
-      "learning_rate": 4.973958333333333e-05,
-      "loss": 0.1541,
       "step": 580
     },
     {
       "epoch": 0.7682291666666666,
-      "grad_norm": 13.539695739746094,
-      "learning_rate": 4.713541666666667e-05,
-      "loss": 0.1179,
       "step": 590
     },
     {
       "epoch": 0.78125,
-      "grad_norm": 19.648563385009766,
-      "learning_rate": 4.453125e-05,
-      "loss": 0.3561,
       "step": 600
     },
     {
       "epoch": 0.78125,
-      "eval_accuracy": 0.9358778625954198,
-      "eval_loss": 0.23049861192703247,
-      "eval_runtime": 74.509,
-      "eval_samples_per_second": 17.582,
-      "eval_steps_per_second": 2.201,
       "step": 600
     },
     {
       "epoch": 0.7942708333333334,
-      "grad_norm": 0.04181066155433655,
-      "learning_rate": 4.192708333333333e-05,
-      "loss": 0.0591,
       "step": 610
     },
     {
       "epoch": 0.8072916666666666,
-      "grad_norm": 11.094377517700195,
-      "learning_rate": 3.932291666666667e-05,
-      "loss": 0.2947,
       "step": 620
     },
     {
       "epoch": 0.8203125,
-      "grad_norm": 7.612452983856201,
-      "learning_rate": 3.671875e-05,
-      "loss": 0.2272,
       "step": 630
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 0.9280955791473389,
-      "learning_rate": 3.411458333333333e-05,
-      "loss": 0.2866,
       "step": 640
     },
     {
       "epoch": 0.8463541666666666,
-      "grad_norm": 13.93165111541748,
-      "learning_rate": 3.151041666666667e-05,
-      "loss": 0.2116,
       "step": 650
     },
     {
       "epoch": 0.859375,
-      "grad_norm": 1.5849241018295288,
-      "learning_rate": 2.890625e-05,
-      "loss": 0.1249,
       "step": 660
     },
     {
       "epoch": 0.8723958333333334,
-      "grad_norm": 2.543943166732788,
-      "learning_rate": 2.6302083333333333e-05,
-      "loss": 0.1475,
       "step": 670
     },
     {
       "epoch": 0.8854166666666666,
-      "grad_norm": 9.006084442138672,
-      "learning_rate": 2.3697916666666666e-05,
-      "loss": 0.2498,
       "step": 680
     },
     {
       "epoch": 0.8984375,
-      "grad_norm": 6.0855488777160645,
-      "learning_rate": 2.109375e-05,
-      "loss": 0.1729,
       "step": 690
     },
     {
       "epoch": 0.9114583333333334,
-      "grad_norm": 3.486813545227051,
-      "learning_rate": 1.8489583333333337e-05,
-      "loss": 0.1739,
       "step": 700
     },
     {
       "epoch": 0.9114583333333334,
-      "eval_accuracy": 0.9541984732824428,
-      "eval_loss": 0.18305547535419464,
-      "eval_runtime": 74.4827,
-      "eval_samples_per_second": 17.588,
-      "eval_steps_per_second": 2.202,
       "step": 700
     },
     {
       "epoch": 0.9244791666666666,
-      "grad_norm": 9.733048439025879,
-      "learning_rate": 1.5885416666666665e-05,
-      "loss": 0.3438,
       "step": 710
     },
     {
       "epoch": 0.9375,
-      "grad_norm": 8.05999755859375,
-      "learning_rate": 1.3281250000000001e-05,
-      "loss": 0.2341,
       "step": 720
     },
     {
       "epoch": 0.9505208333333334,
-      "grad_norm": 1.3342446088790894,
-      "learning_rate": 1.0677083333333333e-05,
-      "loss": 0.0848,
       "step": 730
     },
     {
       "epoch": 0.9635416666666666,
-      "grad_norm": 1.0999221801757812,
-      "learning_rate": 8.072916666666667e-06,
-      "loss": 0.2429,
       "step": 740
     },
     {
       "epoch": 0.9765625,
-      "grad_norm": 0.9648075699806213,
-      "learning_rate": 5.46875e-06,
-      "loss": 0.046,
       "step": 750
     },
     {
       "epoch": 0.9895833333333334,
-      "grad_norm": 6.7523956298828125,
-      "learning_rate": 2.8645833333333334e-06,
-      "loss": 0.1141,
       "step": 760
     },
     {
-      "epoch": 1.0,
-      "step": 768,
-      "total_flos": 4.7604963762671616e+17,
-      "train_loss": 0.6042932469863445,
-      "train_runtime": 1047.5566,
-      "train_samples_per_second": 5.863,
-      "train_steps_per_second": 0.733
     }
   ],
   "logging_steps": 10,
-  "max_steps": 768,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -631,7 +1242,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.7604963762671616e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1500,
+  "best_metric": 0.09990814328193665,
+  "best_model_checkpoint": "./deit-ena24/checkpoint-1500",
+  "epoch": 2.0,
   "eval_steps": 100,
+  "global_step": 1536,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.013020833333333334,
+      "grad_norm": 14.254265785217285,
+      "learning_rate": 0.000198828125,
+      "loss": 2.9884,
       "step": 10
     },
     {
       "epoch": 0.026041666666666668,
+      "grad_norm": 9.068739891052246,
+      "learning_rate": 0.00019752604166666668,
+      "loss": 2.4096,
       "step": 20
     },
     {
       "epoch": 0.0390625,
+      "grad_norm": 13.04211139678955,
+      "learning_rate": 0.00019635416666666667,
+      "loss": 2.0258,
       "step": 30
     },
     {
       "epoch": 0.052083333333333336,
+      "grad_norm": 10.427019119262695,
+      "learning_rate": 0.00019505208333333335,
+      "loss": 1.8002,
       "step": 40
     },
     {
       "epoch": 0.06510416666666667,
+      "grad_norm": 14.92846965789795,
+      "learning_rate": 0.00019375000000000002,
+      "loss": 1.4203,
       "step": 50
     },
     {
       "epoch": 0.078125,
+      "grad_norm": 13.101774215698242,
+      "learning_rate": 0.00019257812500000001,
+      "loss": 1.333,
       "step": 60
     },
     {
       "epoch": 0.09114583333333333,
+      "grad_norm": 11.586206436157227,
+      "learning_rate": 0.0001912760416666667,
+      "loss": 1.4012,
       "step": 70
     },
     {
       "epoch": 0.10416666666666667,
+      "grad_norm": 10.456829071044922,
+      "learning_rate": 0.00018997395833333334,
+      "loss": 0.9635,
       "step": 80
     },
     {
       "epoch": 0.1171875,
+      "grad_norm": 11.61454963684082,
+      "learning_rate": 0.000188671875,
+      "loss": 1.0177,
       "step": 90
     },
     {
       "epoch": 0.13020833333333334,
+      "grad_norm": 13.899850845336914,
+      "learning_rate": 0.00018736979166666668,
+      "loss": 1.2545,
       "step": 100
     },
     {
       "epoch": 0.13020833333333334,
+      "eval_accuracy": 0.7122137404580152,
+      "eval_loss": 0.9921107888221741,
+      "eval_runtime": 85.2392,
+      "eval_samples_per_second": 15.369,
+      "eval_steps_per_second": 1.924,
       "step": 100
     },
     {
       "epoch": 0.14322916666666666,
+      "grad_norm": 5.766229629516602,
+      "learning_rate": 0.00018606770833333333,
+      "loss": 0.9139,
       "step": 110
     },
     {
       "epoch": 0.15625,
+      "grad_norm": 5.574714183807373,
+      "learning_rate": 0.000184765625,
+      "loss": 0.9618,
       "step": 120
     },
     {
       "epoch": 0.16927083333333334,
+      "grad_norm": 13.56793212890625,
+      "learning_rate": 0.00018346354166666668,
+      "loss": 1.1131,
       "step": 130
     },
     {
       "epoch": 0.18229166666666666,
+      "grad_norm": 8.038383483886719,
+      "learning_rate": 0.00018216145833333333,
+      "loss": 0.8377,
       "step": 140
     },
     {
       "epoch": 0.1953125,
+      "grad_norm": 11.770642280578613,
+      "learning_rate": 0.000180859375,
+      "loss": 0.9098,
       "step": 150
     },
     {
       "epoch": 0.20833333333333334,
+      "grad_norm": 7.951399803161621,
+      "learning_rate": 0.00017955729166666668,
+      "loss": 1.1005,
       "step": 160
     },
     {
       "epoch": 0.22135416666666666,
+      "grad_norm": 8.963672637939453,
+      "learning_rate": 0.00017825520833333333,
+      "loss": 1.0716,
       "step": 170
     },
     {
       "epoch": 0.234375,
+      "grad_norm": 8.31511402130127,
+      "learning_rate": 0.000176953125,
+      "loss": 0.9231,
       "step": 180
     },
     {
       "epoch": 0.24739583333333334,
+      "grad_norm": 11.787638664245605,
+      "learning_rate": 0.00017565104166666667,
+      "loss": 0.8794,
       "step": 190
     },
     {
       "epoch": 0.2604166666666667,
+      "grad_norm": 8.950199127197266,
+      "learning_rate": 0.00017434895833333332,
+      "loss": 0.8766,
       "step": 200
     },
     {
       "epoch": 0.2604166666666667,
+      "eval_accuracy": 0.8442748091603054,
+      "eval_loss": 0.5768096446990967,
+      "eval_runtime": 76.5082,
+      "eval_samples_per_second": 17.122,
+      "eval_steps_per_second": 2.144,
       "step": 200
     },
     {
       "epoch": 0.2734375,
+      "grad_norm": 8.455012321472168,
+      "learning_rate": 0.000173046875,
+      "loss": 0.5924,
       "step": 210
     },
     {
       "epoch": 0.2864583333333333,
+      "grad_norm": 13.688481330871582,
+      "learning_rate": 0.00017174479166666667,
+      "loss": 0.8901,
       "step": 220
     },
     {
       "epoch": 0.2994791666666667,
+      "grad_norm": 7.238300323486328,
+      "learning_rate": 0.00017044270833333335,
+      "loss": 0.6618,
       "step": 230
     },
     {
       "epoch": 0.3125,
+      "grad_norm": 14.064223289489746,
+      "learning_rate": 0.00016914062500000002,
+      "loss": 0.5885,
       "step": 240
     },
     {
       "epoch": 0.3255208333333333,
+      "grad_norm": 10.471748352050781,
+      "learning_rate": 0.0001678385416666667,
+      "loss": 0.7282,
       "step": 250
     },
     {
       "epoch": 0.3385416666666667,
+      "grad_norm": 14.036811828613281,
+      "learning_rate": 0.00016653645833333334,
+      "loss": 0.6805,
       "step": 260
     },
     {
       "epoch": 0.3515625,
+      "grad_norm": 4.001175880432129,
+      "learning_rate": 0.00016523437500000002,
+      "loss": 0.798,
       "step": 270
     },
     {
       "epoch": 0.3645833333333333,
+      "grad_norm": 7.733170032501221,
+      "learning_rate": 0.0001639322916666667,
+      "loss": 0.8256,
       "step": 280
     },
     {
       "epoch": 0.3776041666666667,
+      "grad_norm": 13.877567291259766,
+      "learning_rate": 0.00016263020833333334,
+      "loss": 0.8026,
       "step": 290
     },
     {
       "epoch": 0.390625,
+      "grad_norm": 6.910639762878418,
+      "learning_rate": 0.000161328125,
+      "loss": 0.5148,
       "step": 300
     },
     {
       "epoch": 0.390625,
+      "eval_accuracy": 0.8618320610687022,
+      "eval_loss": 0.447169691324234,
+      "eval_runtime": 75.8803,
+      "eval_samples_per_second": 17.264,
+      "eval_steps_per_second": 2.161,
       "step": 300
     },
     {
       "epoch": 0.4036458333333333,
+      "grad_norm": 8.244635581970215,
+      "learning_rate": 0.0001600260416666667,
+      "loss": 0.5423,
       "step": 310
     },
     {
       "epoch": 0.4166666666666667,
+      "grad_norm": 2.3077194690704346,
+      "learning_rate": 0.00015872395833333334,
+      "loss": 0.2741,
       "step": 320
     },
     {
       "epoch": 0.4296875,
+      "grad_norm": 7.123690128326416,
+      "learning_rate": 0.000157421875,
+      "loss": 0.6976,
       "step": 330
     },
     {
       "epoch": 0.4427083333333333,
+      "grad_norm": 5.03502082824707,
+      "learning_rate": 0.00015611979166666668,
+      "loss": 0.1724,
       "step": 340
     },
     {
       "epoch": 0.4557291666666667,
+      "grad_norm": 10.38921070098877,
+      "learning_rate": 0.00015481770833333333,
+      "loss": 0.5339,
       "step": 350
     },
     {
       "epoch": 0.46875,
+      "grad_norm": 15.144037246704102,
+      "learning_rate": 0.000153515625,
+      "loss": 0.7088,
       "step": 360
     },
     {
       "epoch": 0.4817708333333333,
+      "grad_norm": 12.410104751586914,
+      "learning_rate": 0.00015221354166666668,
+      "loss": 0.4032,
       "step": 370
     },
     {
       "epoch": 0.4947916666666667,
+      "grad_norm": 12.73668098449707,
+      "learning_rate": 0.00015091145833333333,
+      "loss": 0.608,
       "step": 380
     },
     {
       "epoch": 0.5078125,
+      "grad_norm": 11.428128242492676,
+      "learning_rate": 0.000149609375,
+      "loss": 0.4807,
       "step": 390
     },
     {
       "epoch": 0.5208333333333334,
+      "grad_norm": 1.5439820289611816,
+      "learning_rate": 0.00014830729166666668,
+      "loss": 0.4511,
       "step": 400
     },
     {
       "epoch": 0.5208333333333334,
+      "eval_accuracy": 0.8778625954198473,
+      "eval_loss": 0.47862082719802856,
+      "eval_runtime": 77.1268,
+      "eval_samples_per_second": 16.985,
+      "eval_steps_per_second": 2.126,
       "step": 400
     },
     {
       "epoch": 0.5338541666666666,
+      "grad_norm": 2.8190579414367676,
+      "learning_rate": 0.00014700520833333332,
+      "loss": 0.4902,
       "step": 410
     },
     {
       "epoch": 0.546875,
+      "grad_norm": 8.657638549804688,
+      "learning_rate": 0.000145703125,
+      "loss": 0.4453,
       "step": 420
     },
     {
       "epoch": 0.5598958333333334,
+      "grad_norm": 8.562153816223145,
+      "learning_rate": 0.00014440104166666667,
+      "loss": 0.4765,
       "step": 430
     },
     {
       "epoch": 0.5729166666666666,
+      "grad_norm": 10.900357246398926,
+      "learning_rate": 0.00014309895833333332,
+      "loss": 0.2885,
       "step": 440
     },
     {
       "epoch": 0.5859375,
+      "grad_norm": 1.7712116241455078,
+      "learning_rate": 0.000141796875,
+      "loss": 0.3364,
       "step": 450
     },
     {
       "epoch": 0.5989583333333334,
+      "grad_norm": 10.570148468017578,
+      "learning_rate": 0.00014049479166666667,
+      "loss": 0.7942,
       "step": 460
     },
     {
       "epoch": 0.6119791666666666,
+      "grad_norm": 3.171020984649658,
+      "learning_rate": 0.00013919270833333334,
+      "loss": 0.4288,
       "step": 470
     },
     {
       "epoch": 0.625,
+      "grad_norm": 5.04898738861084,
+      "learning_rate": 0.00013789062500000002,
+      "loss": 0.3496,
       "step": 480
     },
     {
       "epoch": 0.6380208333333334,
+      "grad_norm": 2.6155598163604736,
+      "learning_rate": 0.0001365885416666667,
+      "loss": 0.2348,
       "step": 490
     },
     {
       "epoch": 0.6510416666666666,
+      "grad_norm": 1.5771807432174683,
+      "learning_rate": 0.00013528645833333334,
+      "loss": 0.4874,
       "step": 500
     },
     {
       "epoch": 0.6510416666666666,
+      "eval_accuracy": 0.8862595419847328,
+      "eval_loss": 0.408286988735199,
+      "eval_runtime": 76.7885,
+      "eval_samples_per_second": 17.06,
+      "eval_steps_per_second": 2.136,
       "step": 500
     },
     {
       "epoch": 0.6640625,
+      "grad_norm": 1.126064419746399,
+      "learning_rate": 0.00013398437500000002,
+      "loss": 0.3431,
       "step": 510
     },
     {
       "epoch": 0.6770833333333334,
+      "grad_norm": 10.946215629577637,
+      "learning_rate": 0.0001326822916666667,
+      "loss": 0.5422,
       "step": 520
     },
     {
       "epoch": 0.6901041666666666,
+      "grad_norm": 10.152504920959473,
+      "learning_rate": 0.00013138020833333334,
+      "loss": 0.654,
       "step": 530
     },
     {
       "epoch": 0.703125,
+      "grad_norm": 10.196568489074707,
+      "learning_rate": 0.000130078125,
+      "loss": 0.3061,
       "step": 540
     },
     {
       "epoch": 0.7161458333333334,
+      "grad_norm": 18.616979598999023,
+      "learning_rate": 0.0001287760416666667,
+      "loss": 0.2963,
       "step": 550
     },
     {
       "epoch": 0.7291666666666666,
+      "grad_norm": 10.364749908447266,
+      "learning_rate": 0.00012747395833333333,
+      "loss": 0.5747,
       "step": 560
     },
     {
       "epoch": 0.7421875,
+      "grad_norm": 6.650425910949707,
+      "learning_rate": 0.000126171875,
+      "loss": 0.4145,
       "step": 570
     },
     {
       "epoch": 0.7552083333333334,
+      "grad_norm": 3.4692835807800293,
+      "learning_rate": 0.00012486979166666668,
+      "loss": 0.1143,
       "step": 580
     },
     {
       "epoch": 0.7682291666666666,
+      "grad_norm": 10.982894897460938,
+      "learning_rate": 0.00012356770833333333,
+      "loss": 0.2723,
       "step": 590
     },
     {
       "epoch": 0.78125,
+      "grad_norm": 13.571615219116211,
+      "learning_rate": 0.000122265625,
+      "loss": 0.5794,
       "step": 600
     },
     {
       "epoch": 0.78125,
+      "eval_accuracy": 0.8977099236641222,
+      "eval_loss": 0.3512656092643738,
+      "eval_runtime": 76.0132,
+      "eval_samples_per_second": 17.234,
+      "eval_steps_per_second": 2.158,
       "step": 600
     },
     {
       "epoch": 0.7942708333333334,
+      "grad_norm": 10.244173049926758,
+      "learning_rate": 0.00012096354166666668,
+      "loss": 0.1669,
       "step": 610
     },
     {
       "epoch": 0.8072916666666666,
+      "grad_norm": 9.398392677307129,
+      "learning_rate": 0.00011966145833333333,
+      "loss": 0.3262,
       "step": 620
     },
     {
       "epoch": 0.8203125,
+      "grad_norm": 8.680326461791992,
+      "learning_rate": 0.000118359375,
+      "loss": 0.3688,
       "step": 630
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 2.6575496196746826,
+      "learning_rate": 0.00011705729166666668,
+      "loss": 0.3672,
       "step": 640
     },
     {
       "epoch": 0.8463541666666666,
+      "grad_norm": 10.259125709533691,
+      "learning_rate": 0.00011575520833333334,
+      "loss": 0.4929,
       "step": 650
     },
     {
       "epoch": 0.859375,
+      "grad_norm": 10.977476119995117,
+      "learning_rate": 0.00011445312500000001,
+      "loss": 0.2888,
       "step": 660
     },
     {
       "epoch": 0.8723958333333334,
+      "grad_norm": 0.2373678833246231,
+      "learning_rate": 0.00011315104166666667,
+      "loss": 0.1836,
       "step": 670
     },
     {
       "epoch": 0.8854166666666666,
+      "grad_norm": 8.054667472839355,
+      "learning_rate": 0.00011184895833333333,
+      "loss": 0.1984,
       "step": 680
     },
     {
       "epoch": 0.8984375,
+      "grad_norm": 4.308763027191162,
+      "learning_rate": 0.00011054687500000001,
+      "loss": 0.2421,
       "step": 690
     },
     {
       "epoch": 0.9114583333333334,
+      "grad_norm": 0.2590220272541046,
+      "learning_rate": 0.00010924479166666668,
+      "loss": 0.3324,
       "step": 700
     },
     {
       "epoch": 0.9114583333333334,
+      "eval_accuracy": 0.9282442748091603,
+      "eval_loss": 0.23950977623462677,
+      "eval_runtime": 76.106,
+      "eval_samples_per_second": 17.213,
+      "eval_steps_per_second": 2.155,
       "step": 700
     },
     {
       "epoch": 0.9244791666666666,
+      "grad_norm": 11.796812057495117,
+      "learning_rate": 0.00010794270833333333,
+      "loss": 0.4767,
       "step": 710
     },
     {
       "epoch": 0.9375,
+      "grad_norm": 14.937353134155273,
+      "learning_rate": 0.000106640625,
+      "loss": 0.4462,
       "step": 720
     },
     {
       "epoch": 0.9505208333333334,
+      "grad_norm": 2.598228931427002,
+      "learning_rate": 0.00010533854166666668,
+      "loss": 0.1408,
       "step": 730
     },
     {
       "epoch": 0.9635416666666666,
+      "grad_norm": 7.975482940673828,
+      "learning_rate": 0.00010403645833333333,
+      "loss": 0.3842,
       "step": 740
     },
     {
       "epoch": 0.9765625,
+      "grad_norm": 13.985623359680176,
+      "learning_rate": 0.000102734375,
+      "loss": 0.2015,
       "step": 750
     },
     {
       "epoch": 0.9895833333333334,
+      "grad_norm": 6.4967169761657715,
+      "learning_rate": 0.00010143229166666668,
+      "loss": 0.1178,
       "step": 760
     },
     {
+      "epoch": 1.0026041666666667,
+      "grad_norm": 2.3705174922943115,
+      "learning_rate": 0.00010013020833333334,
+      "loss": 0.3769,
+      "step": 770
+    },
+    {
+      "epoch": 1.015625,
+      "grad_norm": 1.5413340330123901,
+      "learning_rate": 9.8828125e-05,
+      "loss": 0.0929,
+      "step": 780
+    },
+    {
+      "epoch": 1.0286458333333333,
+      "grad_norm": 0.045080412179231644,
+      "learning_rate": 9.752604166666667e-05,
+      "loss": 0.1167,
+      "step": 790
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "grad_norm": 0.6813530921936035,
+      "learning_rate": 9.622395833333335e-05,
+      "loss": 0.0975,
+      "step": 800
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "eval_accuracy": 0.9473282442748091,
+      "eval_loss": 0.2091217041015625,
+      "eval_runtime": 76.9014,
+      "eval_samples_per_second": 17.035,
+      "eval_steps_per_second": 2.133,
+      "step": 800
+    },
+    {
+      "epoch": 1.0546875,
+      "grad_norm": 0.1403409093618393,
+      "learning_rate": 9.492187500000001e-05,
+      "loss": 0.1571,
+      "step": 810
+    },
+    {
+      "epoch": 1.0677083333333333,
+      "grad_norm": 0.45783254504203796,
+      "learning_rate": 9.361979166666667e-05,
+      "loss": 0.0216,
+      "step": 820
+    },
+    {
+      "epoch": 1.0807291666666667,
+      "grad_norm": 8.578229904174805,
+      "learning_rate": 9.231770833333334e-05,
+      "loss": 0.039,
+      "step": 830
+    },
+    {
+      "epoch": 1.09375,
+      "grad_norm": 10.040135383605957,
+      "learning_rate": 9.1015625e-05,
+      "loss": 0.1932,
+      "step": 840
+    },
+    {
+      "epoch": 1.1067708333333333,
+      "grad_norm": 1.2970826625823975,
+      "learning_rate": 8.971354166666667e-05,
+      "loss": 0.0537,
+      "step": 850
+    },
+    {
+      "epoch": 1.1197916666666667,
+      "grad_norm": 0.9889762997627258,
+      "learning_rate": 8.841145833333334e-05,
+      "loss": 0.0471,
+      "step": 860
+    },
+    {
+      "epoch": 1.1328125,
+      "grad_norm": 0.07918990403413773,
+      "learning_rate": 8.7109375e-05,
+      "loss": 0.2681,
+      "step": 870
+    },
+    {
+      "epoch": 1.1458333333333333,
+      "grad_norm": 0.010387329384684563,
+      "learning_rate": 8.580729166666666e-05,
+      "loss": 0.2494,
+      "step": 880
+    },
+    {
+      "epoch": 1.1588541666666667,
+      "grad_norm": 10.086416244506836,
+      "learning_rate": 8.450520833333334e-05,
+      "loss": 0.2706,
+      "step": 890
+    },
+    {
+      "epoch": 1.171875,
+      "grad_norm": 0.24107152223587036,
+      "learning_rate": 8.3203125e-05,
+      "loss": 0.0579,
+      "step": 900
+    },
+    {
+      "epoch": 1.171875,
+      "eval_accuracy": 0.9419847328244275,
+      "eval_loss": 0.19194655120372772,
+      "eval_runtime": 77.4264,
+      "eval_samples_per_second": 16.919,
+      "eval_steps_per_second": 2.118,
+      "step": 900
+    },
+    {
+      "epoch": 1.1848958333333333,
+      "grad_norm": 8.108233451843262,
+      "learning_rate": 8.190104166666667e-05,
+      "loss": 0.052,
+      "step": 910
+    },
+    {
+      "epoch": 1.1979166666666667,
+      "grad_norm": 8.147061347961426,
+      "learning_rate": 8.059895833333335e-05,
+      "loss": 0.1775,
+      "step": 920
+    },
+    {
+      "epoch": 1.2109375,
+      "grad_norm": 9.907308578491211,
+      "learning_rate": 7.929687500000001e-05,
+      "loss": 0.2054,
+      "step": 930
+    },
+    {
+      "epoch": 1.2239583333333333,
+      "grad_norm": 0.03491589426994324,
+      "learning_rate": 7.799479166666667e-05,
+      "loss": 0.1212,
+      "step": 940
+    },
+    {
+      "epoch": 1.2369791666666667,
+      "grad_norm": 14.554330825805664,
+      "learning_rate": 7.669270833333334e-05,
+      "loss": 0.0365,
+      "step": 950
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 6.551287651062012,
+      "learning_rate": 7.5390625e-05,
+      "loss": 0.0244,
+      "step": 960
+    },
+    {
+      "epoch": 1.2630208333333333,
+      "grad_norm": 0.03951248526573181,
+      "learning_rate": 7.408854166666667e-05,
+      "loss": 0.0573,
+      "step": 970
+    },
+    {
+      "epoch": 1.2760416666666667,
+      "grad_norm": 0.014379375614225864,
+      "learning_rate": 7.278645833333334e-05,
+      "loss": 0.0535,
+      "step": 980
+    },
+    {
+      "epoch": 1.2890625,
+      "grad_norm": 8.54177474975586,
+      "learning_rate": 7.1484375e-05,
+      "loss": 0.1362,
+      "step": 990
+    },
+    {
+      "epoch": 1.3020833333333333,
+      "grad_norm": 3.608940839767456,
+      "learning_rate": 7.018229166666666e-05,
+      "loss": 0.2113,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3020833333333333,
+      "eval_accuracy": 0.9610687022900763,
+      "eval_loss": 0.17562778294086456,
+      "eval_runtime": 77.267,
+      "eval_samples_per_second": 16.954,
+      "eval_steps_per_second": 2.123,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3151041666666667,
+      "grad_norm": 0.4334266185760498,
+      "learning_rate": 6.888020833333334e-05,
+      "loss": 0.0837,
+      "step": 1010
+    },
+    {
+      "epoch": 1.328125,
+      "grad_norm": 1.7467626333236694,
+      "learning_rate": 6.7578125e-05,
+      "loss": 0.1298,
+      "step": 1020
+    },
+    {
+      "epoch": 1.3411458333333333,
+      "grad_norm": 0.09293239563703537,
+      "learning_rate": 6.627604166666667e-05,
+      "loss": 0.0307,
+      "step": 1030
+    },
+    {
+      "epoch": 1.3541666666666667,
+      "grad_norm": 0.6930071711540222,
+      "learning_rate": 6.497395833333335e-05,
+      "loss": 0.1656,
+      "step": 1040
+    },
+    {
+      "epoch": 1.3671875,
+      "grad_norm": 0.061571307480335236,
+      "learning_rate": 6.367187500000001e-05,
+      "loss": 0.0357,
+      "step": 1050
+    },
+    {
+      "epoch": 1.3802083333333333,
+      "grad_norm": 0.14721141755580902,
+      "learning_rate": 6.236979166666667e-05,
+      "loss": 0.0677,
+      "step": 1060
+    },
+    {
+      "epoch": 1.3932291666666667,
+      "grad_norm": 0.015600386075675488,
+      "learning_rate": 6.106770833333334e-05,
+      "loss": 0.0887,
+      "step": 1070
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 0.025986164808273315,
+      "learning_rate": 5.9765625000000004e-05,
+      "loss": 0.0937,
+      "step": 1080
+    },
+    {
+      "epoch": 1.4192708333333333,
+      "grad_norm": 13.869457244873047,
+      "learning_rate": 5.8463541666666665e-05,
+      "loss": 0.1568,
+      "step": 1090
+    },
+    {
+      "epoch": 1.4322916666666667,
+      "grad_norm": 0.11318224668502808,
+      "learning_rate": 5.716145833333334e-05,
+      "loss": 0.0301,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4322916666666667,
+      "eval_accuracy": 0.966412213740458,
+      "eval_loss": 0.1411714106798172,
+      "eval_runtime": 76.9438,
+      "eval_samples_per_second": 17.025,
+      "eval_steps_per_second": 2.131,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4453125,
+      "grad_norm": 5.520286560058594,
+      "learning_rate": 5.5859375e-05,
+      "loss": 0.0151,
+      "step": 1110
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "grad_norm": 9.024094581604004,
+      "learning_rate": 5.455729166666667e-05,
+      "loss": 0.1358,
+      "step": 1120
+    },
+    {
+      "epoch": 1.4713541666666667,
+      "grad_norm": 8.022049903869629,
+      "learning_rate": 5.3255208333333336e-05,
+      "loss": 0.0736,
+      "step": 1130
+    },
+    {
+      "epoch": 1.484375,
+      "grad_norm": 0.03531012311577797,
+      "learning_rate": 5.1953125000000004e-05,
+      "loss": 0.0978,
+      "step": 1140
+    },
+    {
+      "epoch": 1.4973958333333333,
+      "grad_norm": 0.30647599697113037,
+      "learning_rate": 5.0651041666666665e-05,
+      "loss": 0.0766,
+      "step": 1150
+    },
+    {
+      "epoch": 1.5104166666666665,
+      "grad_norm": 0.5959821939468384,
+      "learning_rate": 4.934895833333333e-05,
+      "loss": 0.0845,
+      "step": 1160
+    },
+    {
+      "epoch": 1.5234375,
+      "grad_norm": 0.040372032672166824,
+      "learning_rate": 4.8046875e-05,
+      "loss": 0.0896,
+      "step": 1170
+    },
+    {
+      "epoch": 1.5364583333333335,
+      "grad_norm": 0.016574544832110405,
+      "learning_rate": 4.674479166666667e-05,
+      "loss": 0.087,
+      "step": 1180
+    },
+    {
+      "epoch": 1.5494791666666665,
+      "grad_norm": 3.529259204864502,
+      "learning_rate": 4.5442708333333336e-05,
+      "loss": 0.0194,
+      "step": 1190
+    },
+    {
+      "epoch": 1.5625,
+      "grad_norm": 0.06897322833538055,
+      "learning_rate": 4.4140625000000004e-05,
+      "loss": 0.0534,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5625,
+      "eval_accuracy": 0.9687022900763359,
+      "eval_loss": 0.13458263874053955,
+      "eval_runtime": 75.3914,
+      "eval_samples_per_second": 17.376,
+      "eval_steps_per_second": 2.175,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5755208333333335,
+      "grad_norm": 0.307174414396286,
+      "learning_rate": 4.283854166666667e-05,
+      "loss": 0.0311,
+      "step": 1210
+    },
+    {
+      "epoch": 1.5885416666666665,
+      "grad_norm": 0.02322992868721485,
+      "learning_rate": 4.153645833333333e-05,
+      "loss": 0.1793,
+      "step": 1220
+    },
+    {
+      "epoch": 1.6015625,
+      "grad_norm": 0.014354332350194454,
+      "learning_rate": 4.0234375e-05,
+      "loss": 0.0013,
+      "step": 1230
+    },
+    {
+      "epoch": 1.6145833333333335,
+      "grad_norm": 0.01764397881925106,
+      "learning_rate": 3.893229166666667e-05,
+      "loss": 0.0435,
+      "step": 1240
+    },
+    {
+      "epoch": 1.6276041666666665,
+      "grad_norm": 0.17532891035079956,
+      "learning_rate": 3.7630208333333336e-05,
+      "loss": 0.0829,
+      "step": 1250
+    },
+    {
+      "epoch": 1.640625,
+      "grad_norm": 13.797767639160156,
+      "learning_rate": 3.6328125000000004e-05,
+      "loss": 0.1418,
+      "step": 1260
+    },
+    {
+      "epoch": 1.6536458333333335,
+      "grad_norm": 0.02218351885676384,
+      "learning_rate": 3.502604166666667e-05,
+      "loss": 0.0241,
+      "step": 1270
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.04145214706659317,
+      "learning_rate": 3.372395833333333e-05,
+      "loss": 0.004,
+      "step": 1280
+    },
+    {
+      "epoch": 1.6796875,
+      "grad_norm": 3.2447264194488525,
+      "learning_rate": 3.2421875e-05,
+      "loss": 0.0053,
+      "step": 1290
+    },
+    {
+      "epoch": 1.6927083333333335,
+      "grad_norm": 11.00242805480957,
+      "learning_rate": 3.111979166666667e-05,
+      "loss": 0.0868,
+      "step": 1300
+    },
+    {
+      "epoch": 1.6927083333333335,
+      "eval_accuracy": 0.9687022900763359,
+      "eval_loss": 0.12921789288520813,
+      "eval_runtime": 76.1446,
+      "eval_samples_per_second": 17.204,
+      "eval_steps_per_second": 2.154,
+      "step": 1300
+    },
+    {
+      "epoch": 1.7057291666666665,
+      "grad_norm": 0.017809266224503517,
+      "learning_rate": 2.9817708333333332e-05,
+      "loss": 0.0474,
+      "step": 1310
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 0.02033165469765663,
+      "learning_rate": 2.8515625e-05,
+      "loss": 0.1071,
+      "step": 1320
+    },
+    {
+      "epoch": 1.7317708333333335,
+      "grad_norm": 0.022759564220905304,
+      "learning_rate": 2.721354166666667e-05,
+      "loss": 0.0824,
+      "step": 1330
+    },
+    {
+      "epoch": 1.7447916666666665,
+      "grad_norm": 0.019711025059223175,
+      "learning_rate": 2.5911458333333332e-05,
+      "loss": 0.0616,
+      "step": 1340
+    },
+    {
+      "epoch": 1.7578125,
+      "grad_norm": 0.11359129846096039,
+      "learning_rate": 2.4609375e-05,
+      "loss": 0.0106,
+      "step": 1350
+    },
+    {
+      "epoch": 1.7708333333333335,
+      "grad_norm": 0.09237557649612427,
+      "learning_rate": 2.3307291666666668e-05,
+      "loss": 0.0129,
+      "step": 1360
+    },
+    {
+      "epoch": 1.7838541666666665,
+      "grad_norm": 0.007784575689584017,
+      "learning_rate": 2.2005208333333336e-05,
+      "loss": 0.0877,
+      "step": 1370
+    },
+    {
+      "epoch": 1.796875,
+      "grad_norm": 0.009522438049316406,
+      "learning_rate": 2.0703125e-05,
+      "loss": 0.0095,
+      "step": 1380
+    },
+    {
+      "epoch": 1.8098958333333335,
+      "grad_norm": 0.009628471918404102,
+      "learning_rate": 1.9401041666666668e-05,
+      "loss": 0.0038,
+      "step": 1390
+    },
+    {
+      "epoch": 1.8229166666666665,
+      "grad_norm": 0.7344593405723572,
+      "learning_rate": 1.8098958333333336e-05,
+      "loss": 0.0623,
+      "step": 1400
+    },
+    {
+      "epoch": 1.8229166666666665,
+      "eval_accuracy": 0.9763358778625955,
+      "eval_loss": 0.10858321189880371,
+      "eval_runtime": 77.5151,
+      "eval_samples_per_second": 16.9,
+      "eval_steps_per_second": 2.116,
+      "step": 1400
+    },
+    {
+      "epoch": 1.8359375,
+      "grad_norm": 3.2703933715820312,
+      "learning_rate": 1.6796875e-05,
+      "loss": 0.0251,
+      "step": 1410
+    },
+    {
+      "epoch": 1.8489583333333335,
+      "grad_norm": 0.013623889535665512,
+      "learning_rate": 1.5494791666666668e-05,
+      "loss": 0.0583,
+      "step": 1420
+    },
+    {
+      "epoch": 1.8619791666666665,
+      "grad_norm": 14.402461051940918,
+      "learning_rate": 1.4192708333333336e-05,
+      "loss": 0.1874,
+      "step": 1430
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 0.14863599836826324,
+      "learning_rate": 1.2890625e-05,
+      "loss": 0.0116,
+      "step": 1440
+    },
+    {
+      "epoch": 1.8880208333333335,
+      "grad_norm": 0.21350590884685516,
+      "learning_rate": 1.1588541666666668e-05,
+      "loss": 0.0009,
+      "step": 1450
+    },
+    {
+      "epoch": 1.9010416666666665,
+      "grad_norm": 2.0455312728881836,
+      "learning_rate": 1.0286458333333334e-05,
+      "loss": 0.055,
+      "step": 1460
+    },
+    {
+      "epoch": 1.9140625,
+      "grad_norm": 0.020870625972747803,
+      "learning_rate": 8.984375e-06,
+      "loss": 0.1927,
+      "step": 1470
+    },
+    {
+      "epoch": 1.9270833333333335,
+      "grad_norm": 0.04342105984687805,
+      "learning_rate": 7.682291666666668e-06,
+      "loss": 0.0033,
+      "step": 1480
+    },
+    {
+      "epoch": 1.9401041666666665,
+      "grad_norm": 0.010561387054622173,
+      "learning_rate": 6.380208333333333e-06,
+      "loss": 0.0465,
+      "step": 1490
+    },
+    {
+      "epoch": 1.953125,
+      "grad_norm": 0.024927057325839996,
+      "learning_rate": 5.078125000000001e-06,
+      "loss": 0.1078,
+      "step": 1500
+    },
+    {
+      "epoch": 1.953125,
+      "eval_accuracy": 0.9763358778625955,
+      "eval_loss": 0.09990814328193665,
+      "eval_runtime": 76.08,
+      "eval_samples_per_second": 17.219,
+      "eval_steps_per_second": 2.156,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9661458333333335,
+      "grad_norm": 9.230520248413086,
+      "learning_rate": 3.7760416666666667e-06,
+      "loss": 0.134,
+      "step": 1510
+    },
+    {
+      "epoch": 1.9791666666666665,
+      "grad_norm": 0.05698850750923157,
+      "learning_rate": 2.473958333333333e-06,
+      "loss": 0.0115,
+      "step": 1520
+    },
+    {
+      "epoch": 1.9921875,
+      "grad_norm": 0.005129971541464329,
+      "learning_rate": 1.1718750000000001e-06,
+      "loss": 0.0615,
+      "step": 1530
+    },
+    {
+      "epoch": 2.0,
+      "step": 1536,
+      "total_flos": 9.520992752534323e+17,
+      "train_loss": 0.37781994496223587,
+      "train_runtime": 2217.5006,
+      "train_samples_per_second": 5.54,
+      "train_steps_per_second": 0.693
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1536,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 9.520992752534323e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null