🍻 cheers

Browse files

Files changed (6) hide show

README.md +3 -2
all_results.json +11 -11
eval_results.json +6 -6
runs/May07_17-20-53_6cf576645707/events.out.tfevents.1715102622.6cf576645707.35.1 +3 -0
train_results.json +6 -6
trainer_state.json +46 -2105

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -30,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_model
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.1399
 - Accuracy: 0.7891

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: action_class
       type: imagefolder
       config: default
       split: train
 # Action_model
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the action_class dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.1399
 - Accuracy: 0.7891

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.8330404217926186,
-    "eval_loss": 0.6129801869392395,
-    "eval_runtime": 8.4281,
-    "eval_samples_per_second": 67.512,
-    "eval_steps_per_second": 8.543,
-    "total_flos": 3.3230947683690086e+18,
-    "train_loss": 0.23535207314277762,
-    "train_runtime": 1371.8304,
-    "train_samples_per_second": 31.258,
-    "train_steps_per_second": 1.954
 }

 {
+    "epoch": 1.0,
+    "eval_accuracy": 0.789103690685413,
+    "eval_loss": 1.1399264335632324,
+    "eval_runtime": 7.7057,
+    "eval_samples_per_second": 73.841,
+    "eval_steps_per_second": 9.344,
+    "total_flos": 3.3230947683690086e+17,
+    "train_loss": 1.549544946471257,
+    "train_runtime": 145.4848,
+    "train_samples_per_second": 29.474,
+    "train_steps_per_second": 0.921
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.8330404217926186,
-    "eval_loss": 0.6129801869392395,
-    "eval_runtime": 8.4281,
-    "eval_samples_per_second": 67.512,
-    "eval_steps_per_second": 8.543
 }

 {
+    "epoch": 1.0,
+    "eval_accuracy": 0.789103690685413,
+    "eval_loss": 1.1399264335632324,
+    "eval_runtime": 7.7057,
+    "eval_samples_per_second": 73.841,
+    "eval_steps_per_second": 9.344
 }

runs/May07_17-20-53_6cf576645707/events.out.tfevents.1715102622.6cf576645707.35.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a325ab9253138bc7fd40964f52865aa317e7c1c4073d45e5eeb89dd355257a0
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "total_flos": 3.3230947683690086e+18,
-    "train_loss": 0.23535207314277762,
-    "train_runtime": 1371.8304,
-    "train_samples_per_second": 31.258,
-    "train_steps_per_second": 1.954
 }

 {
+    "epoch": 1.0,
+    "total_flos": 3.3230947683690086e+17,
+    "train_loss": 1.549544946471257,
+    "train_runtime": 145.4848,
+    "train_samples_per_second": 29.474,
+    "train_steps_per_second": 0.921
 }

trainer_state.json CHANGED Viewed

@@ -1,2140 +1,81 @@
 {
-  "best_metric": 0.6129801869392395,
-  "best_model_checkpoint": "Action_model/checkpoint-300",
-  "epoch": 10.0,
   "eval_steps": 100,
-  "global_step": 2680,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.04,
-      "grad_norm": 2.570383071899414,
-      "learning_rate": 9.96268656716418e-05,
-      "loss": 0.1841,
-      "step": 10
-    },
-    {
-      "epoch": 0.07,
-      "grad_norm": 6.266295433044434,
-      "learning_rate": 9.925373134328359e-05,
-      "loss": 0.2301,
-      "step": 20
-    },
-    {
-      "epoch": 0.11,
-      "grad_norm": 8.001986503601074,
-      "learning_rate": 9.888059701492539e-05,
-      "loss": 0.2533,
-      "step": 30
-    },
     {
       "epoch": 0.15,
-      "grad_norm": 5.319194316864014,
-      "learning_rate": 9.850746268656717e-05,
-      "loss": 0.2436,
-      "step": 40
-    },
-    {
-      "epoch": 0.19,
-      "grad_norm": 0.9653372764587402,
-      "learning_rate": 9.813432835820896e-05,
-      "loss": 0.3712,
-      "step": 50
-    },
-    {
-      "epoch": 0.22,
-      "grad_norm": 7.348043441772461,
-      "learning_rate": 9.776119402985075e-05,
-      "loss": 0.3645,
-      "step": 60
-    },
-    {
-      "epoch": 0.26,
-      "grad_norm": 2.1969542503356934,
-      "learning_rate": 9.738805970149254e-05,
-      "loss": 0.4609,
-      "step": 70
     },
     {
       "epoch": 0.3,
-      "grad_norm": 6.397550106048584,
-      "learning_rate": 9.701492537313434e-05,
-      "loss": 0.4755,
-      "step": 80
-    },
-    {
-      "epoch": 0.34,
-      "grad_norm": 6.923007488250732,
-      "learning_rate": 9.664179104477612e-05,
-      "loss": 0.3901,
-      "step": 90
-    },
-    {
-      "epoch": 0.37,
-      "grad_norm": 4.786198616027832,
-      "learning_rate": 9.626865671641792e-05,
-      "loss": 0.255,
-      "step": 100
-    },
-    {
-      "epoch": 0.37,
-      "eval_accuracy": 0.7926186291739895,
-      "eval_loss": 0.7616190314292908,
-      "eval_runtime": 8.7209,
-      "eval_samples_per_second": 65.245,
-      "eval_steps_per_second": 8.256,
-      "step": 100
-    },
-    {
-      "epoch": 0.41,
-      "grad_norm": 8.368223190307617,
-      "learning_rate": 9.58955223880597e-05,
-      "loss": 0.3784,
-      "step": 110
     },
     {
       "epoch": 0.45,
-      "grad_norm": 4.078306198120117,
-      "learning_rate": 9.552238805970149e-05,
-      "loss": 0.4148,
-      "step": 120
-    },
-    {
-      "epoch": 0.49,
-      "grad_norm": 7.815361022949219,
-      "learning_rate": 9.514925373134329e-05,
-      "loss": 0.3621,
-      "step": 130
-    },
-    {
-      "epoch": 0.52,
-      "grad_norm": 11.498431205749512,
-      "learning_rate": 9.477611940298507e-05,
-      "loss": 0.3974,
-      "step": 140
-    },
-    {
-      "epoch": 0.56,
-      "grad_norm": 7.946558952331543,
-      "learning_rate": 9.440298507462687e-05,
-      "loss": 0.3856,
-      "step": 150
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.3486919403076172,
-      "learning_rate": 9.402985074626867e-05,
-      "loss": 0.2435,
-      "step": 160
-    },
-    {
-      "epoch": 0.63,
-      "grad_norm": 4.267444133758545,
-      "learning_rate": 9.365671641791045e-05,
-      "loss": 0.3736,
-      "step": 170
-    },
-    {
-      "epoch": 0.67,
-      "grad_norm": 3.022345542907715,
-      "learning_rate": 9.328358208955224e-05,
-      "loss": 0.439,
-      "step": 180
-    },
-    {
-      "epoch": 0.71,
-      "grad_norm": 5.57196044921875,
-      "learning_rate": 9.291044776119402e-05,
-      "loss": 0.2996,
-      "step": 190
     },
     {
       "epoch": 0.75,
-      "grad_norm": 2.636216640472412,
-      "learning_rate": 9.253731343283582e-05,
-      "loss": 0.2048,
-      "step": 200
     },
     {
       "epoch": 0.75,
-      "eval_accuracy": 0.8084358523725835,
-      "eval_loss": 0.724670946598053,
-      "eval_runtime": 8.4461,
-      "eval_samples_per_second": 67.368,
-      "eval_steps_per_second": 8.525,
-      "step": 200
-    },
-    {
-      "epoch": 0.78,
-      "grad_norm": 1.615098237991333,
-      "learning_rate": 9.216417910447762e-05,
-      "loss": 0.3594,
-      "step": 210
-    },
-    {
-      "epoch": 0.82,
-      "grad_norm": 9.315821647644043,
-      "learning_rate": 9.17910447761194e-05,
-      "loss": 0.3046,
-      "step": 220
-    },
-    {
-      "epoch": 0.86,
-      "grad_norm": 3.669430732727051,
-      "learning_rate": 9.14179104477612e-05,
-      "loss": 0.4158,
-      "step": 230
-    },
-    {
-      "epoch": 0.9,
-      "grad_norm": 7.0882978439331055,
-      "learning_rate": 9.104477611940299e-05,
-      "loss": 0.3477,
-      "step": 240
-    },
-    {
-      "epoch": 0.93,
-      "grad_norm": 1.1667325496673584,
-      "learning_rate": 9.067164179104479e-05,
-      "loss": 0.316,
-      "step": 250
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 1.482625961303711,
-      "learning_rate": 9.029850746268657e-05,
-      "loss": 0.3922,
-      "step": 260
-    },
-    {
-      "epoch": 1.01,
-      "grad_norm": 0.20793116092681885,
-      "learning_rate": 8.992537313432836e-05,
-      "loss": 0.3751,
-      "step": 270
-    },
-    {
-      "epoch": 1.04,
-      "grad_norm": 6.772298812866211,
-      "learning_rate": 8.955223880597016e-05,
-      "loss": 0.3269,
-      "step": 280
-    },
-    {
-      "epoch": 1.08,
-      "grad_norm": 5.833349227905273,
-      "learning_rate": 8.917910447761194e-05,
-      "loss": 0.3026,
-      "step": 290
-    },
-    {
-      "epoch": 1.12,
-      "grad_norm": 6.349458694458008,
-      "learning_rate": 8.880597014925374e-05,
-      "loss": 0.3763,
-      "step": 300
-    },
-    {
-      "epoch": 1.12,
-      "eval_accuracy": 0.8330404217926186,
-      "eval_loss": 0.6129801869392395,
-      "eval_runtime": 8.4095,
-      "eval_samples_per_second": 67.661,
-      "eval_steps_per_second": 8.562,
-      "step": 300
-    },
-    {
-      "epoch": 1.16,
-      "grad_norm": 4.767229080200195,
-      "learning_rate": 8.843283582089554e-05,
-      "loss": 0.3808,
-      "step": 310
-    },
-    {
-      "epoch": 1.19,
-      "grad_norm": 12.675297737121582,
-      "learning_rate": 8.805970149253732e-05,
-      "loss": 0.3766,
-      "step": 320
-    },
-    {
-      "epoch": 1.23,
-      "grad_norm": 3.8118245601654053,
-      "learning_rate": 8.76865671641791e-05,
-      "loss": 0.2642,
-      "step": 330
-    },
-    {
-      "epoch": 1.27,
-      "grad_norm": 8.736045837402344,
-      "learning_rate": 8.731343283582089e-05,
-      "loss": 0.3041,
-      "step": 340
-    },
-    {
-      "epoch": 1.31,
-      "grad_norm": 6.683359146118164,
-      "learning_rate": 8.694029850746269e-05,
-      "loss": 0.1352,
-      "step": 350
-    },
-    {
-      "epoch": 1.34,
-      "grad_norm": 4.780521392822266,
-      "learning_rate": 8.656716417910447e-05,
-      "loss": 0.4005,
-      "step": 360
-    },
-    {
-      "epoch": 1.38,
-      "grad_norm": 9.654714584350586,
-      "learning_rate": 8.619402985074627e-05,
-      "loss": 0.3646,
-      "step": 370
-    },
-    {
-      "epoch": 1.42,
-      "grad_norm": 4.174666881561279,
-      "learning_rate": 8.582089552238807e-05,
-      "loss": 0.2353,
-      "step": 380
-    },
-    {
-      "epoch": 1.46,
-      "grad_norm": 7.596667289733887,
-      "learning_rate": 8.548507462686568e-05,
-      "loss": 0.3991,
-      "step": 390
-    },
-    {
-      "epoch": 1.49,
-      "grad_norm": 5.592709064483643,
-      "learning_rate": 8.511194029850747e-05,
-      "loss": 0.307,
-      "step": 400
-    },
-    {
-      "epoch": 1.49,
       "eval_accuracy": 0.789103690685413,
-      "eval_loss": 0.8137023448944092,
-      "eval_runtime": 8.3292,
-      "eval_samples_per_second": 68.314,
-      "eval_steps_per_second": 8.644,
-      "step": 400
-    },
-    {
-      "epoch": 1.53,
-      "grad_norm": 2.232590675354004,
-      "learning_rate": 8.473880597014926e-05,
-      "loss": 0.4669,
-      "step": 410
-    },
-    {
-      "epoch": 1.57,
-      "grad_norm": 4.276609897613525,
-      "learning_rate": 8.436567164179105e-05,
-      "loss": 0.3831,
-      "step": 420
-    },
-    {
-      "epoch": 1.6,
-      "grad_norm": 7.262507915496826,
-      "learning_rate": 8.399253731343283e-05,
-      "loss": 0.3472,
-      "step": 430
-    },
-    {
-      "epoch": 1.64,
-      "grad_norm": 7.258556365966797,
-      "learning_rate": 8.361940298507463e-05,
-      "loss": 0.2396,
-      "step": 440
-    },
-    {
-      "epoch": 1.68,
-      "grad_norm": 4.945961952209473,
-      "learning_rate": 8.324626865671642e-05,
-      "loss": 0.2433,
-      "step": 450
-    },
-    {
-      "epoch": 1.72,
-      "grad_norm": 5.138702392578125,
-      "learning_rate": 8.287313432835821e-05,
-      "loss": 0.2947,
-      "step": 460
-    },
-    {
-      "epoch": 1.75,
-      "grad_norm": 1.1640909910202026,
-      "learning_rate": 8.25e-05,
-      "loss": 0.4791,
-      "step": 470
-    },
-    {
-      "epoch": 1.79,
-      "grad_norm": 4.626485824584961,
-      "learning_rate": 8.21268656716418e-05,
-      "loss": 0.286,
-      "step": 480
-    },
-    {
-      "epoch": 1.83,
-      "grad_norm": 5.178492069244385,
-      "learning_rate": 8.17537313432836e-05,
-      "loss": 0.3202,
-      "step": 490
-    },
-    {
-      "epoch": 1.87,
-      "grad_norm": 7.854339122772217,
-      "learning_rate": 8.138059701492538e-05,
-      "loss": 0.3542,
-      "step": 500
-    },
-    {
-      "epoch": 1.87,
-      "eval_accuracy": 0.8014059753954306,
-      "eval_loss": 0.6611581444740295,
-      "eval_runtime": 8.5853,
-      "eval_samples_per_second": 66.276,
-      "eval_steps_per_second": 8.386,
-      "step": 500
-    },
-    {
-      "epoch": 1.9,
-      "grad_norm": 1.429740071296692,
-      "learning_rate": 8.100746268656717e-05,
-      "loss": 0.3039,
-      "step": 510
-    },
-    {
-      "epoch": 1.94,
-      "grad_norm": 2.9776551723480225,
-      "learning_rate": 8.063432835820895e-05,
-      "loss": 0.3825,
-      "step": 520
-    },
-    {
-      "epoch": 1.98,
-      "grad_norm": 10.557899475097656,
-      "learning_rate": 8.026119402985075e-05,
-      "loss": 0.5109,
-      "step": 530
-    },
-    {
-      "epoch": 2.01,
-      "grad_norm": 1.448002815246582,
-      "learning_rate": 7.988805970149255e-05,
-      "loss": 0.3421,
-      "step": 540
-    },
-    {
-      "epoch": 2.05,
-      "grad_norm": 4.500860691070557,
-      "learning_rate": 7.951492537313433e-05,
-      "loss": 0.3008,
-      "step": 550
-    },
-    {
-      "epoch": 2.09,
-      "grad_norm": 8.077374458312988,
-      "learning_rate": 7.914179104477613e-05,
-      "loss": 0.27,
-      "step": 560
-    },
-    {
-      "epoch": 2.13,
-      "grad_norm": 0.16809479892253876,
-      "learning_rate": 7.876865671641792e-05,
-      "loss": 0.2184,
-      "step": 570
-    },
-    {
-      "epoch": 2.16,
-      "grad_norm": 4.892763137817383,
-      "learning_rate": 7.83955223880597e-05,
-      "loss": 0.1479,
-      "step": 580
-    },
-    {
-      "epoch": 2.2,
-      "grad_norm": 8.35221004486084,
-      "learning_rate": 7.80223880597015e-05,
-      "loss": 0.3498,
-      "step": 590
-    },
-    {
-      "epoch": 2.24,
-      "grad_norm": 12.043429374694824,
-      "learning_rate": 7.764925373134328e-05,
-      "loss": 0.3518,
-      "step": 600
-    },
-    {
-      "epoch": 2.24,
-      "eval_accuracy": 0.8189806678383128,
-      "eval_loss": 0.6964564919471741,
-      "eval_runtime": 8.3878,
-      "eval_samples_per_second": 67.837,
-      "eval_steps_per_second": 8.584,
-      "step": 600
-    },
-    {
-      "epoch": 2.28,
-      "grad_norm": 3.7737715244293213,
-      "learning_rate": 7.727611940298508e-05,
-      "loss": 0.3532,
-      "step": 610
-    },
-    {
-      "epoch": 2.31,
-      "grad_norm": 4.282881736755371,
-      "learning_rate": 7.690298507462687e-05,
-      "loss": 0.2214,
-      "step": 620
-    },
-    {
-      "epoch": 2.35,
-      "grad_norm": 6.733531475067139,
-      "learning_rate": 7.652985074626866e-05,
-      "loss": 0.2709,
-      "step": 630
-    },
-    {
-      "epoch": 2.39,
-      "grad_norm": 2.567267417907715,
-      "learning_rate": 7.615671641791045e-05,
-      "loss": 0.3725,
-      "step": 640
-    },
-    {
-      "epoch": 2.43,
-      "grad_norm": 3.120966911315918,
-      "learning_rate": 7.578358208955223e-05,
-      "loss": 0.3036,
-      "step": 650
-    },
-    {
-      "epoch": 2.46,
-      "grad_norm": 6.505622386932373,
-      "learning_rate": 7.541044776119403e-05,
-      "loss": 0.2426,
-      "step": 660
-    },
-    {
-      "epoch": 2.5,
-      "grad_norm": 4.887637615203857,
-      "learning_rate": 7.503731343283582e-05,
-      "loss": 0.281,
-      "step": 670
-    },
-    {
-      "epoch": 2.54,
-      "grad_norm": 9.790969848632812,
-      "learning_rate": 7.466417910447762e-05,
-      "loss": 0.4504,
-      "step": 680
-    },
-    {
-      "epoch": 2.57,
-      "grad_norm": 4.354789733886719,
-      "learning_rate": 7.429104477611941e-05,
-      "loss": 0.4094,
-      "step": 690
-    },
-    {
-      "epoch": 2.61,
-      "grad_norm": 5.015912055969238,
-      "learning_rate": 7.39179104477612e-05,
-      "loss": 0.3706,
-      "step": 700
-    },
-    {
-      "epoch": 2.61,
-      "eval_accuracy": 0.804920913884007,
-      "eval_loss": 0.7254143357276917,
-      "eval_runtime": 8.3242,
-      "eval_samples_per_second": 68.355,
-      "eval_steps_per_second": 8.649,
-      "step": 700
-    },
-    {
-      "epoch": 2.65,
-      "grad_norm": 5.382541656494141,
-      "learning_rate": 7.3544776119403e-05,
-      "loss": 0.1722,
-      "step": 710
-    },
-    {
-      "epoch": 2.69,
-      "grad_norm": 5.573971748352051,
-      "learning_rate": 7.317164179104478e-05,
-      "loss": 0.327,
-      "step": 720
-    },
-    {
-      "epoch": 2.72,
-      "grad_norm": 3.5606117248535156,
-      "learning_rate": 7.279850746268657e-05,
-      "loss": 0.2702,
-      "step": 730
-    },
-    {
-      "epoch": 2.76,
-      "grad_norm": 1.7398028373718262,
-      "learning_rate": 7.242537313432837e-05,
-      "loss": 0.238,
-      "step": 740
-    },
-    {
-      "epoch": 2.8,
-      "grad_norm": 2.7511751651763916,
-      "learning_rate": 7.205223880597015e-05,
-      "loss": 0.1848,
-      "step": 750
-    },
-    {
-      "epoch": 2.84,
-      "grad_norm": 3.381510019302368,
-      "learning_rate": 7.167910447761195e-05,
-      "loss": 0.2261,
-      "step": 760
-    },
-    {
-      "epoch": 2.87,
-      "grad_norm": 4.65634298324585,
-      "learning_rate": 7.130597014925373e-05,
-      "loss": 0.237,
-      "step": 770
-    },
-    {
-      "epoch": 2.91,
-      "grad_norm": 10.35020923614502,
-      "learning_rate": 7.093283582089553e-05,
-      "loss": 0.3012,
-      "step": 780
-    },
-    {
-      "epoch": 2.95,
-      "grad_norm": 8.878485679626465,
-      "learning_rate": 7.055970149253732e-05,
-      "loss": 0.4094,
-      "step": 790
-    },
-    {
-      "epoch": 2.99,
-      "grad_norm": 2.9728074073791504,
-      "learning_rate": 7.01865671641791e-05,
-      "loss": 0.4084,
-      "step": 800
-    },
-    {
-      "epoch": 2.99,
-      "eval_accuracy": 0.8101933216168717,
-      "eval_loss": 0.6746156811714172,
-      "eval_runtime": 8.2718,
-      "eval_samples_per_second": 68.788,
-      "eval_steps_per_second": 8.704,
-      "step": 800
-    },
-    {
-      "epoch": 3.02,
-      "grad_norm": 4.835368633270264,
-      "learning_rate": 6.98134328358209e-05,
-      "loss": 0.3152,
-      "step": 810
-    },
-    {
-      "epoch": 3.06,
-      "grad_norm": 2.9197049140930176,
-      "learning_rate": 6.944029850746268e-05,
-      "loss": 0.3433,
-      "step": 820
-    },
-    {
-      "epoch": 3.1,
-      "grad_norm": 5.646128177642822,
-      "learning_rate": 6.906716417910448e-05,
-      "loss": 0.2604,
-      "step": 830
-    },
-    {
-      "epoch": 3.13,
-      "grad_norm": 3.860607862472534,
-      "learning_rate": 6.869402985074627e-05,
-      "loss": 0.2831,
-      "step": 840
-    },
-    {
-      "epoch": 3.17,
-      "grad_norm": 0.1358175426721573,
-      "learning_rate": 6.832089552238807e-05,
-      "loss": 0.242,
-      "step": 850
-    },
-    {
-      "epoch": 3.21,
-      "grad_norm": 1.1011104583740234,
-      "learning_rate": 6.794776119402985e-05,
-      "loss": 0.2621,
-      "step": 860
-    },
-    {
-      "epoch": 3.25,
-      "grad_norm": 7.837879180908203,
-      "learning_rate": 6.757462686567164e-05,
-      "loss": 0.249,
-      "step": 870
-    },
-    {
-      "epoch": 3.28,
-      "grad_norm": 6.8647613525390625,
-      "learning_rate": 6.720149253731343e-05,
-      "loss": 0.3398,
-      "step": 880
-    },
-    {
-      "epoch": 3.32,
-      "grad_norm": 2.8186678886413574,
-      "learning_rate": 6.682835820895522e-05,
-      "loss": 0.3092,
-      "step": 890
-    },
-    {
-      "epoch": 3.36,
-      "grad_norm": 4.623282432556152,
-      "learning_rate": 6.645522388059702e-05,
-      "loss": 0.2533,
-      "step": 900
-    },
-    {
-      "epoch": 3.36,
-      "eval_accuracy": 0.8189806678383128,
-      "eval_loss": 0.6866591572761536,
-      "eval_runtime": 8.3143,
-      "eval_samples_per_second": 68.436,
-      "eval_steps_per_second": 8.66,
-      "step": 900
-    },
-    {
-      "epoch": 3.4,
-      "grad_norm": 4.85120964050293,
-      "learning_rate": 6.608208955223882e-05,
-      "loss": 0.2279,
-      "step": 910
-    },
-    {
-      "epoch": 3.43,
-      "grad_norm": 0.7263774275779724,
-      "learning_rate": 6.57089552238806e-05,
-      "loss": 0.1725,
-      "step": 920
-    },
-    {
-      "epoch": 3.47,
-      "grad_norm": 6.813180923461914,
-      "learning_rate": 6.53358208955224e-05,
-      "loss": 0.3304,
-      "step": 930
-    },
-    {
-      "epoch": 3.51,
-      "grad_norm": 8.58501148223877,
-      "learning_rate": 6.496268656716418e-05,
-      "loss": 0.1864,
-      "step": 940
-    },
-    {
-      "epoch": 3.54,
-      "grad_norm": 2.814436435699463,
-      "learning_rate": 6.458955223880597e-05,
-      "loss": 0.1496,
-      "step": 950
-    },
-    {
-      "epoch": 3.58,
-      "grad_norm": 8.36603832244873,
-      "learning_rate": 6.421641791044777e-05,
-      "loss": 0.208,
-      "step": 960
-    },
-    {
-      "epoch": 3.62,
-      "grad_norm": 3.5715956687927246,
-      "learning_rate": 6.384328358208955e-05,
-      "loss": 0.2429,
-      "step": 970
-    },
-    {
-      "epoch": 3.66,
-      "grad_norm": 4.983556270599365,
-      "learning_rate": 6.347014925373135e-05,
-      "loss": 0.4053,
-      "step": 980
-    },
-    {
-      "epoch": 3.69,
-      "grad_norm": 4.936723232269287,
-      "learning_rate": 6.309701492537313e-05,
-      "loss": 0.1545,
-      "step": 990
-    },
-    {
-      "epoch": 3.73,
-      "grad_norm": 6.59185791015625,
-      "learning_rate": 6.272388059701493e-05,
-      "loss": 0.3147,
-      "step": 1000
-    },
-    {
-      "epoch": 3.73,
-      "eval_accuracy": 0.8189806678383128,
-      "eval_loss": 0.7077136635780334,
-      "eval_runtime": 8.3117,
-      "eval_samples_per_second": 68.457,
-      "eval_steps_per_second": 8.662,
-      "step": 1000
-    },
-    {
-      "epoch": 3.77,
-      "grad_norm": 9.348366737365723,
-      "learning_rate": 6.235074626865672e-05,
-      "loss": 0.3634,
-      "step": 1010
-    },
-    {
-      "epoch": 3.81,
-      "grad_norm": 9.918521881103516,
-      "learning_rate": 6.19776119402985e-05,
-      "loss": 0.3151,
-      "step": 1020
-    },
-    {
-      "epoch": 3.84,
-      "grad_norm": 5.687044143676758,
-      "learning_rate": 6.16044776119403e-05,
-      "loss": 0.3088,
-      "step": 1030
-    },
-    {
-      "epoch": 3.88,
-      "grad_norm": 3.8347887992858887,
-      "learning_rate": 6.123134328358209e-05,
-      "loss": 0.2128,
-      "step": 1040
-    },
-    {
-      "epoch": 3.92,
-      "grad_norm": 5.380050182342529,
-      "learning_rate": 6.0858208955223884e-05,
-      "loss": 0.255,
-      "step": 1050
-    },
-    {
-      "epoch": 3.96,
-      "grad_norm": 8.848828315734863,
-      "learning_rate": 6.0485074626865676e-05,
-      "loss": 0.2794,
-      "step": 1060
-    },
-    {
-      "epoch": 3.99,
-      "grad_norm": 3.9666404724121094,
-      "learning_rate": 6.011194029850746e-05,
-      "loss": 0.1954,
-      "step": 1070
-    },
-    {
-      "epoch": 4.03,
-      "grad_norm": 0.3369455635547638,
-      "learning_rate": 5.973880597014926e-05,
-      "loss": 0.2298,
-      "step": 1080
-    },
-    {
-      "epoch": 4.07,
-      "grad_norm": 16.327823638916016,
-      "learning_rate": 5.9365671641791044e-05,
-      "loss": 0.2504,
-      "step": 1090
-    },
-    {
-      "epoch": 4.1,
-      "grad_norm": 7.070168495178223,
-      "learning_rate": 5.8992537313432835e-05,
-      "loss": 0.3182,
-      "step": 1100
-    },
-    {
-      "epoch": 4.1,
-      "eval_accuracy": 0.8189806678383128,
-      "eval_loss": 0.6661401987075806,
-      "eval_runtime": 8.2263,
-      "eval_samples_per_second": 69.169,
-      "eval_steps_per_second": 8.752,
-      "step": 1100
-    },
-    {
-      "epoch": 4.14,
-      "grad_norm": 2.853975534439087,
-      "learning_rate": 5.8619402985074634e-05,
-      "loss": 0.201,
-      "step": 1110
-    },
-    {
-      "epoch": 4.18,
-      "grad_norm": 0.958690881729126,
-      "learning_rate": 5.824626865671642e-05,
-      "loss": 0.1833,
-      "step": 1120
-    },
-    {
-      "epoch": 4.22,
-      "grad_norm": 3.4794461727142334,
-      "learning_rate": 5.787313432835822e-05,
-      "loss": 0.2796,
-      "step": 1130
-    },
-    {
-      "epoch": 4.25,
-      "grad_norm": 4.793296813964844,
-      "learning_rate": 5.7499999999999995e-05,
-      "loss": 0.2281,
-      "step": 1140
-    },
-    {
-      "epoch": 4.29,
-      "grad_norm": 6.200154781341553,
-      "learning_rate": 5.712686567164179e-05,
-      "loss": 0.2814,
-      "step": 1150
-    },
-    {
-      "epoch": 4.33,
-      "grad_norm": 5.616389274597168,
-      "learning_rate": 5.675373134328359e-05,
-      "loss": 0.1656,
-      "step": 1160
     },
     {
-      "epoch": 4.37,
-      "grad_norm": 9.382554054260254,
-      "learning_rate": 5.6380597014925376e-05,
-      "loss": 0.19,
-      "step": 1170
-    },
-    {
-      "epoch": 4.4,
-      "grad_norm": 3.526240587234497,
-      "learning_rate": 5.600746268656717e-05,
-      "loss": 0.2063,
-      "step": 1180
-    },
-    {
-      "epoch": 4.44,
-      "grad_norm": 3.494896650314331,
-      "learning_rate": 5.563432835820895e-05,
-      "loss": 0.1681,
-      "step": 1190
-    },
-    {
-      "epoch": 4.48,
-      "grad_norm": 5.764057636260986,
-      "learning_rate": 5.526119402985075e-05,
-      "loss": 0.2248,
-      "step": 1200
-    },
-    {
-      "epoch": 4.48,
-      "eval_accuracy": 0.8418277680140598,
-      "eval_loss": 0.6632041335105896,
-      "eval_runtime": 8.1661,
-      "eval_samples_per_second": 69.679,
-      "eval_steps_per_second": 8.817,
-      "step": 1200
-    },
-    {
-      "epoch": 4.51,
-      "grad_norm": 4.680635452270508,
-      "learning_rate": 5.488805970149254e-05,
-      "loss": 0.2179,
-      "step": 1210
-    },
-    {
-      "epoch": 4.55,
-      "grad_norm": 10.24306869506836,
-      "learning_rate": 5.451492537313433e-05,
-      "loss": 0.2187,
-      "step": 1220
-    },
-    {
-      "epoch": 4.59,
-      "grad_norm": 3.054690361022949,
-      "learning_rate": 5.4141791044776126e-05,
-      "loss": 0.1729,
-      "step": 1230
-    },
-    {
-      "epoch": 4.63,
-      "grad_norm": 4.907272815704346,
-      "learning_rate": 5.376865671641791e-05,
-      "loss": 0.2762,
-      "step": 1240
-    },
-    {
-      "epoch": 4.66,
-      "grad_norm": 4.774748802185059,
-      "learning_rate": 5.33955223880597e-05,
-      "loss": 0.1965,
-      "step": 1250
-    },
-    {
-      "epoch": 4.7,
-      "grad_norm": 5.757875919342041,
-      "learning_rate": 5.30223880597015e-05,
-      "loss": 0.1564,
-      "step": 1260
-    },
-    {
-      "epoch": 4.74,
-      "grad_norm": 0.3608088791370392,
-      "learning_rate": 5.2649253731343286e-05,
-      "loss": 0.0946,
-      "step": 1270
-    },
-    {
-      "epoch": 4.78,
-      "grad_norm": 3.6289939880371094,
-      "learning_rate": 5.227611940298508e-05,
-      "loss": 0.3364,
-      "step": 1280
-    },
-    {
-      "epoch": 4.81,
-      "grad_norm": 5.132009029388428,
-      "learning_rate": 5.190298507462686e-05,
-      "loss": 0.231,
-      "step": 1290
-    },
-    {
-      "epoch": 4.85,
-      "grad_norm": 1.0347099304199219,
-      "learning_rate": 5.152985074626866e-05,
-      "loss": 0.1617,
-      "step": 1300
-    },
-    {
-      "epoch": 4.85,
-      "eval_accuracy": 0.8172231985940246,
-      "eval_loss": 0.7277125716209412,
-      "eval_runtime": 8.4693,
-      "eval_samples_per_second": 67.184,
-      "eval_steps_per_second": 8.501,
-      "step": 1300
-    },
-    {
-      "epoch": 4.89,
-      "grad_norm": 2.5996298789978027,
-      "learning_rate": 5.115671641791045e-05,
-      "loss": 0.385,
-      "step": 1310
-    },
-    {
-      "epoch": 4.93,
-      "grad_norm": 3.724181890487671,
-      "learning_rate": 5.078358208955224e-05,
-      "loss": 0.1786,
-      "step": 1320
-    },
-    {
-      "epoch": 4.96,
-      "grad_norm": 2.150557518005371,
-      "learning_rate": 5.0410447761194035e-05,
-      "loss": 0.2122,
-      "step": 1330
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 3.8813323974609375,
-      "learning_rate": 5.003731343283582e-05,
-      "loss": 0.2425,
-      "step": 1340
-    },
-    {
-      "epoch": 5.04,
-      "grad_norm": 0.896369457244873,
-      "learning_rate": 4.966417910447762e-05,
-      "loss": 0.2208,
-      "step": 1350
-    },
-    {
-      "epoch": 5.07,
-      "grad_norm": 9.002110481262207,
-      "learning_rate": 4.92910447761194e-05,
-      "loss": 0.1432,
-      "step": 1360
-    },
-    {
-      "epoch": 5.11,
-      "grad_norm": 9.619662284851074,
-      "learning_rate": 4.8917910447761195e-05,
-      "loss": 0.1347,
-      "step": 1370
-    },
-    {
-      "epoch": 5.15,
-      "grad_norm": 3.5148773193359375,
-      "learning_rate": 4.8544776119402986e-05,
-      "loss": 0.2837,
-      "step": 1380
-    },
-    {
-      "epoch": 5.19,
-      "grad_norm": 7.631669044494629,
-      "learning_rate": 4.817164179104478e-05,
-      "loss": 0.1887,
-      "step": 1390
-    },
-    {
-      "epoch": 5.22,
-      "grad_norm": 11.738872528076172,
-      "learning_rate": 4.779850746268657e-05,
-      "loss": 0.2578,
-      "step": 1400
-    },
-    {
-      "epoch": 5.22,
-      "eval_accuracy": 0.8189806678383128,
-      "eval_loss": 0.7114442586898804,
-      "eval_runtime": 8.2672,
-      "eval_samples_per_second": 68.826,
-      "eval_steps_per_second": 8.709,
-      "step": 1400
-    },
-    {
-      "epoch": 5.26,
-      "grad_norm": 6.67802095413208,
-      "learning_rate": 4.742537313432836e-05,
-      "loss": 0.2527,
-      "step": 1410
-    },
-    {
-      "epoch": 5.3,
-      "grad_norm": 4.491325378417969,
-      "learning_rate": 4.705223880597015e-05,
-      "loss": 0.2386,
-      "step": 1420
-    },
-    {
-      "epoch": 5.34,
-      "grad_norm": 1.1810379028320312,
-      "learning_rate": 4.667910447761194e-05,
-      "loss": 0.1693,
-      "step": 1430
-    },
-    {
-      "epoch": 5.37,
-      "grad_norm": 6.075868129730225,
-      "learning_rate": 4.6305970149253736e-05,
-      "loss": 0.167,
-      "step": 1440
-    },
-    {
-      "epoch": 5.41,
-      "grad_norm": 2.315635919570923,
-      "learning_rate": 4.593283582089553e-05,
-      "loss": 0.2243,
-      "step": 1450
-    },
-    {
-      "epoch": 5.45,
-      "grad_norm": 10.839255332946777,
-      "learning_rate": 4.555970149253732e-05,
-      "loss": 0.2414,
-      "step": 1460
-    },
-    {
-      "epoch": 5.49,
-      "grad_norm": 4.562304496765137,
-      "learning_rate": 4.5186567164179104e-05,
-      "loss": 0.264,
-      "step": 1470
-    },
-    {
-      "epoch": 5.52,
-      "grad_norm": 1.8821789026260376,
-      "learning_rate": 4.4813432835820895e-05,
-      "loss": 0.1407,
-      "step": 1480
-    },
-    {
-      "epoch": 5.56,
-      "grad_norm": 8.406396865844727,
-      "learning_rate": 4.4440298507462694e-05,
-      "loss": 0.1454,
-      "step": 1490
-    },
-    {
-      "epoch": 5.6,
-      "grad_norm": 0.2816010117530823,
-      "learning_rate": 4.406716417910448e-05,
-      "loss": 0.1864,
-      "step": 1500
-    },
-    {
-      "epoch": 5.6,
-      "eval_accuracy": 0.8172231985940246,
-      "eval_loss": 0.755394458770752,
-      "eval_runtime": 8.2598,
-      "eval_samples_per_second": 68.888,
-      "eval_steps_per_second": 8.717,
-      "step": 1500
-    },
-    {
-      "epoch": 5.63,
-      "grad_norm": 6.619854927062988,
-      "learning_rate": 4.369402985074627e-05,
-      "loss": 0.2806,
-      "step": 1510
-    },
-    {
-      "epoch": 5.67,
-      "grad_norm": 2.056018829345703,
-      "learning_rate": 4.332089552238806e-05,
-      "loss": 0.2583,
-      "step": 1520
-    },
-    {
-      "epoch": 5.71,
-      "grad_norm": 0.966521680355072,
-      "learning_rate": 4.294776119402985e-05,
-      "loss": 0.0997,
-      "step": 1530
-    },
-    {
-      "epoch": 5.75,
-      "grad_norm": 2.8261241912841797,
-      "learning_rate": 4.2574626865671645e-05,
-      "loss": 0.1604,
-      "step": 1540
-    },
-    {
-      "epoch": 5.78,
-      "grad_norm": 3.089912176132202,
-      "learning_rate": 4.2201492537313436e-05,
-      "loss": 0.2775,
-      "step": 1550
-    },
-    {
-      "epoch": 5.82,
-      "grad_norm": 7.935690879821777,
-      "learning_rate": 4.182835820895523e-05,
-      "loss": 0.2522,
-      "step": 1560
-    },
-    {
-      "epoch": 5.86,
-      "grad_norm": 0.7999266982078552,
-      "learning_rate": 4.145522388059702e-05,
-      "loss": 0.0752,
-      "step": 1570
-    },
-    {
-      "epoch": 5.9,
-      "grad_norm": 6.0712480545043945,
-      "learning_rate": 4.1082089552238804e-05,
-      "loss": 0.1933,
-      "step": 1580
-    },
-    {
-      "epoch": 5.93,
-      "grad_norm": 10.768308639526367,
-      "learning_rate": 4.07089552238806e-05,
-      "loss": 0.1664,
-      "step": 1590
-    },
-    {
-      "epoch": 5.97,
-      "grad_norm": 9.641716003417969,
-      "learning_rate": 4.0335820895522394e-05,
-      "loss": 0.3134,
-      "step": 1600
-    },
-    {
-      "epoch": 5.97,
-      "eval_accuracy": 0.8154657293497364,
-      "eval_loss": 0.7593356966972351,
-      "eval_runtime": 8.4455,
-      "eval_samples_per_second": 67.373,
-      "eval_steps_per_second": 8.525,
-      "step": 1600
-    },
-    {
-      "epoch": 6.01,
-      "grad_norm": 6.7538838386535645,
-      "learning_rate": 3.996268656716418e-05,
-      "loss": 0.1747,
-      "step": 1610
-    },
-    {
-      "epoch": 6.04,
-      "grad_norm": 6.237377166748047,
-      "learning_rate": 3.958955223880597e-05,
-      "loss": 0.2406,
-      "step": 1620
-    },
-    {
-      "epoch": 6.08,
-      "grad_norm": 7.950930118560791,
-      "learning_rate": 3.921641791044776e-05,
-      "loss": 0.1884,
-      "step": 1630
-    },
-    {
-      "epoch": 6.12,
-      "grad_norm": 4.41484260559082,
-      "learning_rate": 3.8843283582089554e-05,
-      "loss": 0.1445,
-      "step": 1640
-    },
-    {
-      "epoch": 6.16,
-      "grad_norm": 6.339887619018555,
-      "learning_rate": 3.8470149253731345e-05,
-      "loss": 0.2906,
-      "step": 1650
-    },
-    {
-      "epoch": 6.19,
-      "grad_norm": 7.597599983215332,
-      "learning_rate": 3.809701492537314e-05,
-      "loss": 0.1576,
-      "step": 1660
-    },
-    {
-      "epoch": 6.23,
-      "grad_norm": 2.379629373550415,
-      "learning_rate": 3.772388059701493e-05,
-      "loss": 0.2016,
-      "step": 1670
-    },
-    {
-      "epoch": 6.27,
-      "grad_norm": 2.7694478034973145,
-      "learning_rate": 3.735074626865671e-05,
-      "loss": 0.1188,
-      "step": 1680
-    },
-    {
-      "epoch": 6.31,
-      "grad_norm": 2.1837210655212402,
-      "learning_rate": 3.6977611940298505e-05,
-      "loss": 0.1908,
-      "step": 1690
-    },
-    {
-      "epoch": 6.34,
-      "grad_norm": 4.4665350914001465,
-      "learning_rate": 3.66044776119403e-05,
-      "loss": 0.24,
-      "step": 1700
-    },
-    {
-      "epoch": 6.34,
-      "eval_accuracy": 0.8260105448154658,
-      "eval_loss": 0.7510848641395569,
-      "eval_runtime": 8.2044,
-      "eval_samples_per_second": 69.353,
-      "eval_steps_per_second": 8.776,
-      "step": 1700
-    },
-    {
-      "epoch": 6.38,
-      "grad_norm": 4.6551995277404785,
-      "learning_rate": 3.6231343283582095e-05,
-      "loss": 0.1631,
-      "step": 1710
-    },
-    {
-      "epoch": 6.42,
-      "grad_norm": 1.098407506942749,
-      "learning_rate": 3.585820895522388e-05,
-      "loss": 0.0912,
-      "step": 1720
-    },
-    {
-      "epoch": 6.46,
-      "grad_norm": 0.37138649821281433,
-      "learning_rate": 3.548507462686567e-05,
-      "loss": 0.2621,
-      "step": 1730
-    },
-    {
-      "epoch": 6.49,
-      "grad_norm": 7.4571757316589355,
-      "learning_rate": 3.511194029850746e-05,
-      "loss": 0.268,
-      "step": 1740
-    },
-    {
-      "epoch": 6.53,
-      "grad_norm": 0.5180323123931885,
-      "learning_rate": 3.4738805970149254e-05,
-      "loss": 0.2135,
-      "step": 1750
-    },
-    {
-      "epoch": 6.57,
-      "grad_norm": 1.0866820812225342,
-      "learning_rate": 3.4365671641791046e-05,
-      "loss": 0.1489,
-      "step": 1760
-    },
-    {
-      "epoch": 6.6,
-      "grad_norm": 8.90451717376709,
-      "learning_rate": 3.399253731343284e-05,
-      "loss": 0.288,
-      "step": 1770
-    },
-    {
-      "epoch": 6.64,
-      "grad_norm": 1.1608803272247314,
-      "learning_rate": 3.361940298507463e-05,
-      "loss": 0.18,
-      "step": 1780
-    },
-    {
-      "epoch": 6.68,
-      "grad_norm": 2.9207170009613037,
-      "learning_rate": 3.3246268656716414e-05,
-      "loss": 0.2414,
-      "step": 1790
-    },
-    {
-      "epoch": 6.72,
-      "grad_norm": 0.2674783170223236,
-      "learning_rate": 3.287313432835821e-05,
-      "loss": 0.2359,
-      "step": 1800
-    },
-    {
-      "epoch": 6.72,
-      "eval_accuracy": 0.8137082601054482,
-      "eval_loss": 0.7501537203788757,
-      "eval_runtime": 8.1528,
-      "eval_samples_per_second": 69.792,
-      "eval_steps_per_second": 8.831,
-      "step": 1800
-    },
-    {
-      "epoch": 6.75,
-      "grad_norm": 8.241676330566406,
-      "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.1975,
-      "step": 1810
-    },
-    {
-      "epoch": 6.79,
-      "grad_norm": 2.0347325801849365,
-      "learning_rate": 3.2126865671641796e-05,
-      "loss": 0.218,
-      "step": 1820
-    },
-    {
-      "epoch": 6.83,
-      "grad_norm": 1.0338706970214844,
-      "learning_rate": 3.175373134328358e-05,
-      "loss": 0.1437,
-      "step": 1830
-    },
-    {
-      "epoch": 6.87,
-      "grad_norm": 0.34902578592300415,
-      "learning_rate": 3.138059701492537e-05,
-      "loss": 0.1883,
-      "step": 1840
-    },
-    {
-      "epoch": 6.9,
-      "grad_norm": 6.642534255981445,
-      "learning_rate": 3.100746268656717e-05,
-      "loss": 0.2513,
-      "step": 1850
-    },
-    {
-      "epoch": 6.94,
-      "grad_norm": 4.432920455932617,
-      "learning_rate": 3.0634328358208955e-05,
-      "loss": 0.1058,
-      "step": 1860
-    },
-    {
-      "epoch": 6.98,
-      "grad_norm": 4.381640434265137,
-      "learning_rate": 3.0261194029850747e-05,
-      "loss": 0.2114,
-      "step": 1870
-    },
-    {
-      "epoch": 7.01,
-      "grad_norm": 7.730411529541016,
-      "learning_rate": 2.9888059701492538e-05,
-      "loss": 0.2542,
-      "step": 1880
-    },
-    {
-      "epoch": 7.05,
-      "grad_norm": 7.122923851013184,
-      "learning_rate": 2.9514925373134326e-05,
-      "loss": 0.2594,
-      "step": 1890
-    },
-    {
-      "epoch": 7.09,
-      "grad_norm": 1.411278486251831,
-      "learning_rate": 2.9141791044776125e-05,
-      "loss": 0.2322,
-      "step": 1900
-    },
-    {
-      "epoch": 7.09,
-      "eval_accuracy": 0.8347978910369068,
-      "eval_loss": 0.6952534317970276,
-      "eval_runtime": 8.3769,
-      "eval_samples_per_second": 67.925,
-      "eval_steps_per_second": 8.595,
-      "step": 1900
-    },
-    {
-      "epoch": 7.13,
-      "grad_norm": 2.219285011291504,
-      "learning_rate": 2.8768656716417913e-05,
-      "loss": 0.1344,
-      "step": 1910
-    },
-    {
-      "epoch": 7.16,
-      "grad_norm": 6.302455902099609,
-      "learning_rate": 2.8395522388059705e-05,
-      "loss": 0.2098,
-      "step": 1920
-    },
-    {
-      "epoch": 7.2,
-      "grad_norm": 1.2837783098220825,
-      "learning_rate": 2.8022388059701493e-05,
-      "loss": 0.0906,
-      "step": 1930
-    },
-    {
-      "epoch": 7.24,
-      "grad_norm": 6.604355335235596,
-      "learning_rate": 2.7649253731343284e-05,
-      "loss": 0.2352,
-      "step": 1940
-    },
-    {
-      "epoch": 7.28,
-      "grad_norm": 9.916419982910156,
-      "learning_rate": 2.727611940298508e-05,
-      "loss": 0.1422,
-      "step": 1950
-    },
-    {
-      "epoch": 7.31,
-      "grad_norm": 2.7665014266967773,
-      "learning_rate": 2.6902985074626868e-05,
-      "loss": 0.1722,
-      "step": 1960
-    },
-    {
-      "epoch": 7.35,
-      "grad_norm": 0.24231348931789398,
-      "learning_rate": 2.652985074626866e-05,
-      "loss": 0.2935,
-      "step": 1970
-    },
-    {
-      "epoch": 7.39,
-      "grad_norm": 0.8025885224342346,
-      "learning_rate": 2.6156716417910447e-05,
-      "loss": 0.157,
-      "step": 1980
-    },
-    {
-      "epoch": 7.43,
-      "grad_norm": 1.6752264499664307,
-      "learning_rate": 2.578358208955224e-05,
-      "loss": 0.1256,
-      "step": 1990
-    },
-    {
-      "epoch": 7.46,
-      "grad_norm": 2.404883861541748,
-      "learning_rate": 2.5410447761194027e-05,
-      "loss": 0.1514,
-      "step": 2000
-    },
-    {
-      "epoch": 7.46,
-      "eval_accuracy": 0.8260105448154658,
-      "eval_loss": 0.7120960354804993,
-      "eval_runtime": 8.1425,
-      "eval_samples_per_second": 69.88,
-      "eval_steps_per_second": 8.842,
-      "step": 2000
-    },
-    {
-      "epoch": 7.5,
-      "grad_norm": 5.409728050231934,
-      "learning_rate": 2.5037313432835825e-05,
-      "loss": 0.222,
-      "step": 2010
-    },
-    {
-      "epoch": 7.54,
-      "grad_norm": 3.949014663696289,
-      "learning_rate": 2.4664179104477614e-05,
-      "loss": 0.245,
-      "step": 2020
-    },
-    {
-      "epoch": 7.57,
-      "grad_norm": 8.40086555480957,
-      "learning_rate": 2.4291044776119405e-05,
-      "loss": 0.1408,
-      "step": 2030
-    },
-    {
-      "epoch": 7.61,
-      "grad_norm": 7.694955348968506,
-      "learning_rate": 2.3917910447761197e-05,
-      "loss": 0.2072,
-      "step": 2040
-    },
-    {
-      "epoch": 7.65,
-      "grad_norm": 1.9109055995941162,
-      "learning_rate": 2.3544776119402985e-05,
-      "loss": 0.145,
-      "step": 2050
-    },
-    {
-      "epoch": 7.69,
-      "grad_norm": 12.803776741027832,
-      "learning_rate": 2.3171641791044777e-05,
-      "loss": 0.1274,
-      "step": 2060
-    },
-    {
-      "epoch": 7.72,
-      "grad_norm": 3.3325235843658447,
-      "learning_rate": 2.2798507462686568e-05,
-      "loss": 0.1564,
-      "step": 2070
-    },
-    {
-      "epoch": 7.76,
-      "grad_norm": 1.105327844619751,
-      "learning_rate": 2.242537313432836e-05,
-      "loss": 0.2008,
-      "step": 2080
-    },
-    {
-      "epoch": 7.8,
-      "grad_norm": 1.7592620849609375,
-      "learning_rate": 2.2052238805970148e-05,
-      "loss": 0.203,
-      "step": 2090
-    },
-    {
-      "epoch": 7.84,
-      "grad_norm": 0.13264060020446777,
-      "learning_rate": 2.1679104477611943e-05,
-      "loss": 0.2089,
-      "step": 2100
-    },
-    {
-      "epoch": 7.84,
-      "eval_accuracy": 0.827768014059754,
-      "eval_loss": 0.693087637424469,
-      "eval_runtime": 8.2375,
-      "eval_samples_per_second": 69.074,
-      "eval_steps_per_second": 8.741,
-      "step": 2100
-    },
-    {
-      "epoch": 7.87,
-      "grad_norm": 5.904381275177002,
-      "learning_rate": 2.130597014925373e-05,
-      "loss": 0.1754,
-      "step": 2110
-    },
-    {
-      "epoch": 7.91,
-      "grad_norm": 1.7469266653060913,
-      "learning_rate": 2.0932835820895526e-05,
-      "loss": 0.1322,
-      "step": 2120
-    },
-    {
-      "epoch": 7.95,
-      "grad_norm": 4.313326835632324,
-      "learning_rate": 2.0559701492537314e-05,
-      "loss": 0.1418,
-      "step": 2130
-    },
-    {
-      "epoch": 7.99,
-      "grad_norm": 0.14211903512477875,
-      "learning_rate": 2.0186567164179106e-05,
-      "loss": 0.1534,
-      "step": 2140
-    },
-    {
-      "epoch": 8.02,
-      "grad_norm": 5.527184009552002,
-      "learning_rate": 1.9813432835820897e-05,
-      "loss": 0.2122,
-      "step": 2150
-    },
-    {
-      "epoch": 8.06,
-      "grad_norm": 0.2312430739402771,
-      "learning_rate": 1.9440298507462686e-05,
-      "loss": 0.1617,
-      "step": 2160
-    },
-    {
-      "epoch": 8.1,
-      "grad_norm": 0.23949085175991058,
-      "learning_rate": 1.906716417910448e-05,
-      "loss": 0.1286,
-      "step": 2170
-    },
-    {
-      "epoch": 8.13,
-      "grad_norm": 0.1903185099363327,
-      "learning_rate": 1.869402985074627e-05,
-      "loss": 0.0846,
-      "step": 2180
-    },
-    {
-      "epoch": 8.17,
-      "grad_norm": 0.08518023788928986,
-      "learning_rate": 1.832089552238806e-05,
-      "loss": 0.0801,
-      "step": 2190
-    },
-    {
-      "epoch": 8.21,
-      "grad_norm": 4.424215793609619,
-      "learning_rate": 1.7947761194029852e-05,
-      "loss": 0.2245,
-      "step": 2200
-    },
-    {
-      "epoch": 8.21,
-      "eval_accuracy": 0.8330404217926186,
-      "eval_loss": 0.7087014317512512,
-      "eval_runtime": 8.1117,
-      "eval_samples_per_second": 70.145,
-      "eval_steps_per_second": 8.876,
-      "step": 2200
-    },
-    {
-      "epoch": 8.25,
-      "grad_norm": 7.247931480407715,
-      "learning_rate": 1.7574626865671644e-05,
-      "loss": 0.0722,
-      "step": 2210
-    },
-    {
-      "epoch": 8.28,
-      "grad_norm": 4.80264949798584,
-      "learning_rate": 1.7201492537313435e-05,
-      "loss": 0.0844,
-      "step": 2220
-    },
-    {
-      "epoch": 8.32,
-      "grad_norm": 8.001790046691895,
-      "learning_rate": 1.6828358208955223e-05,
-      "loss": 0.1077,
-      "step": 2230
-    },
-    {
-      "epoch": 8.36,
-      "grad_norm": 5.419641017913818,
-      "learning_rate": 1.6455223880597015e-05,
-      "loss": 0.1627,
-      "step": 2240
-    },
-    {
-      "epoch": 8.4,
-      "grad_norm": 0.031686268746852875,
-      "learning_rate": 1.6082089552238806e-05,
-      "loss": 0.0984,
-      "step": 2250
-    },
-    {
-      "epoch": 8.43,
-      "grad_norm": 6.095193862915039,
-      "learning_rate": 1.5708955223880598e-05,
-      "loss": 0.1756,
-      "step": 2260
-    },
-    {
-      "epoch": 8.47,
-      "grad_norm": 5.179446220397949,
-      "learning_rate": 1.5335820895522386e-05,
-      "loss": 0.1708,
-      "step": 2270
-    },
-    {
-      "epoch": 8.51,
-      "grad_norm": 4.06497049331665,
-      "learning_rate": 1.496268656716418e-05,
-      "loss": 0.1493,
-      "step": 2280
-    },
-    {
-      "epoch": 8.54,
-      "grad_norm": 1.4721342325210571,
-      "learning_rate": 1.458955223880597e-05,
-      "loss": 0.2587,
-      "step": 2290
-    },
-    {
-      "epoch": 8.58,
-      "grad_norm": 4.418783664703369,
-      "learning_rate": 1.4216417910447763e-05,
-      "loss": 0.1328,
-      "step": 2300
-    },
-    {
-      "epoch": 8.58,
-      "eval_accuracy": 0.8312829525483304,
-      "eval_loss": 0.700339674949646,
-      "eval_runtime": 8.481,
-      "eval_samples_per_second": 67.091,
-      "eval_steps_per_second": 8.49,
-      "step": 2300
-    },
-    {
-      "epoch": 8.62,
-      "grad_norm": 1.5734038352966309,
-      "learning_rate": 1.3843283582089553e-05,
-      "loss": 0.165,
-      "step": 2310
-    },
-    {
-      "epoch": 8.66,
-      "grad_norm": 2.624784231185913,
-      "learning_rate": 1.3470149253731342e-05,
-      "loss": 0.0837,
-      "step": 2320
-    },
-    {
-      "epoch": 8.69,
-      "grad_norm": 2.7039573192596436,
-      "learning_rate": 1.3097014925373136e-05,
-      "loss": 0.2098,
-      "step": 2330
-    },
-    {
-      "epoch": 8.73,
-      "grad_norm": 6.542816638946533,
-      "learning_rate": 1.2723880597014926e-05,
-      "loss": 0.129,
-      "step": 2340
-    },
-    {
-      "epoch": 8.77,
-      "grad_norm": 2.9511120319366455,
-      "learning_rate": 1.2350746268656717e-05,
-      "loss": 0.1762,
-      "step": 2350
-    },
-    {
-      "epoch": 8.81,
-      "grad_norm": 3.435502529144287,
-      "learning_rate": 1.1977611940298509e-05,
-      "loss": 0.1345,
-      "step": 2360
-    },
-    {
-      "epoch": 8.84,
-      "grad_norm": 2.1689364910125732,
-      "learning_rate": 1.1604477611940299e-05,
-      "loss": 0.1011,
-      "step": 2370
-    },
-    {
-      "epoch": 8.88,
-      "grad_norm": 2.3366479873657227,
-      "learning_rate": 1.123134328358209e-05,
-      "loss": 0.1733,
-      "step": 2380
-    },
-    {
-      "epoch": 8.92,
-      "grad_norm": 5.928171634674072,
-      "learning_rate": 1.085820895522388e-05,
-      "loss": 0.1089,
-      "step": 2390
-    },
-    {
-      "epoch": 8.96,
-      "grad_norm": 0.08636012673377991,
-      "learning_rate": 1.0485074626865672e-05,
-      "loss": 0.1304,
-      "step": 2400
-    },
-    {
-      "epoch": 8.96,
-      "eval_accuracy": 0.8224956063268892,
-      "eval_loss": 0.7306046485900879,
-      "eval_runtime": 8.4262,
-      "eval_samples_per_second": 67.528,
-      "eval_steps_per_second": 8.545,
-      "step": 2400
-    },
-    {
-      "epoch": 8.99,
-      "grad_norm": 0.14256200194358826,
-      "learning_rate": 1.0111940298507463e-05,
-      "loss": 0.1506,
-      "step": 2410
-    },
-    {
-      "epoch": 9.03,
-      "grad_norm": 0.4166848659515381,
-      "learning_rate": 9.738805970149255e-06,
-      "loss": 0.2058,
-      "step": 2420
-    },
-    {
-      "epoch": 9.07,
-      "grad_norm": 0.3997032344341278,
-      "learning_rate": 9.365671641791045e-06,
-      "loss": 0.0482,
-      "step": 2430
-    },
-    {
-      "epoch": 9.1,
-      "grad_norm": 9.076058387756348,
-      "learning_rate": 8.992537313432836e-06,
-      "loss": 0.2201,
-      "step": 2440
-    },
-    {
-      "epoch": 9.14,
-      "grad_norm": 4.368849277496338,
-      "learning_rate": 8.619402985074628e-06,
-      "loss": 0.1288,
-      "step": 2450
-    },
-    {
-      "epoch": 9.18,
-      "grad_norm": 4.311466693878174,
-      "learning_rate": 8.24626865671642e-06,
-      "loss": 0.3058,
-      "step": 2460
-    },
-    {
-      "epoch": 9.22,
-      "grad_norm": 0.2911408543586731,
-      "learning_rate": 7.87313432835821e-06,
-      "loss": 0.1303,
-      "step": 2470
-    },
-    {
-      "epoch": 9.25,
-      "grad_norm": 5.493233680725098,
-      "learning_rate": 7.5e-06,
-      "loss": 0.0915,
-      "step": 2480
-    },
-    {
-      "epoch": 9.29,
-      "grad_norm": 0.09431172162294388,
-      "learning_rate": 7.126865671641792e-06,
-      "loss": 0.0954,
-      "step": 2490
-    },
-    {
-      "epoch": 9.33,
-      "grad_norm": 1.8603869676589966,
-      "learning_rate": 6.7537313432835825e-06,
-      "loss": 0.1514,
-      "step": 2500
-    },
-    {
-      "epoch": 9.33,
-      "eval_accuracy": 0.8260105448154658,
-      "eval_loss": 0.7162156701087952,
-      "eval_runtime": 8.3201,
-      "eval_samples_per_second": 68.389,
-      "eval_steps_per_second": 8.654,
-      "step": 2500
-    },
-    {
-      "epoch": 9.37,
-      "grad_norm": 4.870584964752197,
-      "learning_rate": 6.380597014925374e-06,
-      "loss": 0.1354,
-      "step": 2510
-    },
-    {
-      "epoch": 9.4,
-      "grad_norm": 2.316840410232544,
-      "learning_rate": 6.007462686567165e-06,
-      "loss": 0.1348,
-      "step": 2520
-    },
-    {
-      "epoch": 9.44,
-      "grad_norm": 1.9005101919174194,
-      "learning_rate": 5.6343283582089556e-06,
-      "loss": 0.1755,
-      "step": 2530
-    },
-    {
-      "epoch": 9.48,
-      "grad_norm": 0.1674620360136032,
-      "learning_rate": 5.261194029850746e-06,
-      "loss": 0.0878,
-      "step": 2540
-    },
-    {
-      "epoch": 9.51,
-      "grad_norm": 5.729959011077881,
-      "learning_rate": 4.888059701492537e-06,
-      "loss": 0.1637,
-      "step": 2550
-    },
-    {
-      "epoch": 9.55,
-      "grad_norm": 0.02724504843354225,
-      "learning_rate": 4.514925373134329e-06,
-      "loss": 0.1603,
-      "step": 2560
-    },
-    {
-      "epoch": 9.59,
-      "grad_norm": 2.728663921356201,
-      "learning_rate": 4.141791044776119e-06,
-      "loss": 0.1152,
-      "step": 2570
-    },
-    {
-      "epoch": 9.63,
-      "grad_norm": 8.920695304870605,
-      "learning_rate": 3.7686567164179105e-06,
-      "loss": 0.1964,
-      "step": 2580
-    },
-    {
-      "epoch": 9.66,
-      "grad_norm": 2.3974239826202393,
-      "learning_rate": 3.3955223880597013e-06,
-      "loss": 0.0842,
-      "step": 2590
-    },
-    {
-      "epoch": 9.7,
-      "grad_norm": 1.6431355476379395,
-      "learning_rate": 3.022388059701493e-06,
-      "loss": 0.2571,
-      "step": 2600
-    },
-    {
-      "epoch": 9.7,
-      "eval_accuracy": 0.8347978910369068,
-      "eval_loss": 0.7012546062469482,
-      "eval_runtime": 8.3265,
-      "eval_samples_per_second": 68.336,
-      "eval_steps_per_second": 8.647,
-      "step": 2600
-    },
-    {
-      "epoch": 9.74,
-      "grad_norm": 0.10621854662895203,
-      "learning_rate": 2.6492537313432836e-06,
-      "loss": 0.2632,
-      "step": 2610
-    },
-    {
-      "epoch": 9.78,
-      "grad_norm": 4.150152206420898,
-      "learning_rate": 2.2761194029850747e-06,
-      "loss": 0.2804,
-      "step": 2620
-    },
-    {
-      "epoch": 9.81,
-      "grad_norm": 4.01139497756958,
-      "learning_rate": 1.9029850746268657e-06,
-      "loss": 0.1696,
-      "step": 2630
-    },
-    {
-      "epoch": 9.85,
-      "grad_norm": 4.7402262687683105,
-      "learning_rate": 1.5298507462686568e-06,
-      "loss": 0.1891,
-      "step": 2640
-    },
-    {
-      "epoch": 9.89,
-      "grad_norm": 4.460111141204834,
-      "learning_rate": 1.1567164179104478e-06,
-      "loss": 0.1178,
-      "step": 2650
-    },
-    {
-      "epoch": 9.93,
-      "grad_norm": 5.822507858276367,
-      "learning_rate": 7.835820895522387e-07,
-      "loss": 0.089,
-      "step": 2660
-    },
-    {
-      "epoch": 9.96,
-      "grad_norm": 2.4408085346221924,
-      "learning_rate": 4.1044776119402984e-07,
-      "loss": 0.158,
-      "step": 2670
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 10.792135238647461,
-      "learning_rate": 3.7313432835820895e-08,
-      "loss": 0.2038,
-      "step": 2680
     },
     {
-      "epoch": 10.0,
-      "step": 2680,
-      "total_flos": 3.3230947683690086e+18,
-      "train_loss": 0.23535207314277762,
-      "train_runtime": 1371.8304,
-      "train_samples_per_second": 31.258,
-      "train_steps_per_second": 1.954
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 2680,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 100,
-  "total_flos": 3.3230947683690086e+18,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.1399264335632324,
+  "best_model_checkpoint": "Action_model/checkpoint-100",
+  "epoch": 1.0,
   "eval_steps": 100,
+  "global_step": 134,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15,
+      "grad_norm": 1.509538173675537,
+      "learning_rate": 8.507462686567164e-05,
+      "loss": 2.1872,
+      "step": 20
     },
     {
       "epoch": 0.3,
+      "grad_norm": 1.6843363046646118,
+      "learning_rate": 7.014925373134329e-05,
+      "loss": 1.872,
+      "step": 40
     },
     {
       "epoch": 0.45,
+      "grad_norm": 1.891447901725769,
+      "learning_rate": 5.5223880597014934e-05,
+      "loss": 1.5872,
+      "step": 60
     },
     {
       "epoch": 0.6,
+      "grad_norm": 1.9932177066802979,
+      "learning_rate": 4.029850746268657e-05,
+      "loss": 1.3864,
+      "step": 80
     },
     {
       "epoch": 0.75,
+      "grad_norm": 1.7128252983093262,
+      "learning_rate": 2.537313432835821e-05,
+      "loss": 1.2948,
+      "step": 100
     },
     {
       "epoch": 0.75,
       "eval_accuracy": 0.789103690685413,
+      "eval_loss": 1.1399264335632324,
+      "eval_runtime": 11.9209,
+      "eval_samples_per_second": 47.731,
+      "eval_steps_per_second": 6.04,
+      "step": 100
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 2.182009696960449,
+      "learning_rate": 1.0447761194029851e-05,
+      "loss": 1.2271,
+      "step": 120
     },
     {
+      "epoch": 1.0,
+      "step": 134,
+      "total_flos": 3.3230947683690086e+17,
+      "train_loss": 1.549544946471257,
+      "train_runtime": 145.4848,
+      "train_samples_per_second": 29.474,
+      "train_steps_per_second": 0.921
     }
   ],
+  "logging_steps": 20,
+  "max_steps": 134,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 3.3230947683690086e+17,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }