Training in progress, step 200, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcb63ef647999d891aca611972191a7ef63cdd6b5a72d1f1cd9faccf092dc513
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:3843927cedc4d683f3269d495867dcd7b2405c910617a503028f960732f07e6c
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa268dd80acfc5cde4bf3bcfa8a42fa9530951eb3f81d2c9b9693fc7f3af6bb5
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:47fd5ac1aedf65d1e43923149a90aa599911c73d408d5994466b0ae9f9c88c76
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d0ea4a1565c360d58ed9f6dadf07e5a29d241213d79057486f9b6220f49daa6
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:df9266203b37a0254a86248c42410caf65ae1b76706802247a77e92c1d88e294
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2fcb110bd43be3db5fbdb14fd66c8025f1c9ad9a279e51f670b913c453f9d08
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:564a75b416e4e48eb1f76e79505f22d2d45bf4fc8b254f4c8ce9b3ce5890dc81
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c45130d1af0412bda308db66a53c5b638e90386eb566b3c13a9a88bfa9bfb806
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd41c478f550639121d913c62a920bd1cb03accab9182666486c78e6e8a330ba
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c6f046a24d1b6cbffea1980486eabd340f42ae4b962f6b446ea5ac3c7b6a697
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e2ea2567791532b38b5fab7ba9b89492d30645a423a9f0f1bc21e98535902c9
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727be209ce9e6c45a7b6feda354228088df7ce27204df9a9348752498be8452d
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6cd518b6b383ab04cec632660a3cece5e59683a59a2ffb32a3f0ca2075f162e
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:794e99357a2fbead1aaca358574aaaecfdc7cb895b787cb9d96c264ac72bb0c0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:655a2930a3b9fe448e6f767f8b25b9ebdd3f906d256322c915a95c99f18bba8f
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33a0773f4c98251681ed846731287836f124116c5c095f6034e6f777ff3d2294
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab8cdd08f60cbd3036bbd610c5a42dde3ec47637b7e45c85683a417a9d360a6f
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:586f94c580fada001a98a596617db52634c95811e53cfca9a69e4db4d223a891
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:59a8af46ddb45218bc7cbc9b3f81796f6f16e1bc3531c4213c3b740a3fa6722a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.26595744680851063,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,766 @@
       "eval_samples_per_second": 6.454,
       "eval_steps_per_second": 0.202,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -798,7 +1558,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2170466684698624e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5319148936170213,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.454,
       "eval_steps_per_second": 0.202,
       "step": 100
+    },
+    {
+      "epoch": 0.26861702127659576,
+      "grad_norm": 2.1255381107330322,
+      "learning_rate": 1.833400994922806e-05,
+      "loss": 0.2532,
+      "step": 101
+    },
+    {
+      "epoch": 0.2712765957446808,
+      "grad_norm": 2.4879391193389893,
+      "learning_rate": 1.8282282057045087e-05,
+      "loss": 0.3593,
+      "step": 102
+    },
+    {
+      "epoch": 0.27393617021276595,
+      "grad_norm": 2.0561375617980957,
+      "learning_rate": 1.8229838658936566e-05,
+      "loss": 0.266,
+      "step": 103
+    },
+    {
+      "epoch": 0.2765957446808511,
+      "grad_norm": 2.101980447769165,
+      "learning_rate": 1.8176684285484985e-05,
+      "loss": 0.3686,
+      "step": 104
+    },
+    {
+      "epoch": 0.27925531914893614,
+      "grad_norm": 2.0041894912719727,
+      "learning_rate": 1.8122823528693966e-05,
+      "loss": 0.2551,
+      "step": 105
+    },
+    {
+      "epoch": 0.28191489361702127,
+      "grad_norm": 1.981961727142334,
+      "learning_rate": 1.8068261041591548e-05,
+      "loss": 0.2932,
+      "step": 106
+    },
+    {
+      "epoch": 0.2845744680851064,
+      "grad_norm": 2.636021614074707,
+      "learning_rate": 1.8013001537828213e-05,
+      "loss": 0.2584,
+      "step": 107
+    },
+    {
+      "epoch": 0.2872340425531915,
+      "grad_norm": 2.6354217529296875,
+      "learning_rate": 1.7957049791269684e-05,
+      "loss": 0.3208,
+      "step": 108
+    },
+    {
+      "epoch": 0.2898936170212766,
+      "grad_norm": 3.6334121227264404,
+      "learning_rate": 1.79004106355845e-05,
+      "loss": 0.3142,
+      "step": 109
+    },
+    {
+      "epoch": 0.2925531914893617,
+      "grad_norm": 2.6944894790649414,
+      "learning_rate": 1.7843088963826437e-05,
+      "loss": 0.2854,
+      "step": 110
+    },
+    {
+      "epoch": 0.29521276595744683,
+      "grad_norm": 4.576889514923096,
+      "learning_rate": 1.7785089728011798e-05,
+      "loss": 0.2685,
+      "step": 111
+    },
+    {
+      "epoch": 0.2978723404255319,
+      "grad_norm": 2.23494029045105,
+      "learning_rate": 1.772641793869162e-05,
+      "loss": 0.2604,
+      "step": 112
+    },
+    {
+      "epoch": 0.300531914893617,
+      "grad_norm": 3.0733425617218018,
+      "learning_rate": 1.7667078664518796e-05,
+      "loss": 0.2542,
+      "step": 113
+    },
+    {
+      "epoch": 0.30319148936170215,
+      "grad_norm": 1.9046289920806885,
+      "learning_rate": 1.7607077031810204e-05,
+      "loss": 0.2879,
+      "step": 114
+    },
+    {
+      "epoch": 0.3058510638297872,
+      "grad_norm": 2.2374041080474854,
+      "learning_rate": 1.7546418224103838e-05,
+      "loss": 0.2998,
+      "step": 115
+    },
+    {
+      "epoch": 0.30851063829787234,
+      "grad_norm": 5.9824395179748535,
+      "learning_rate": 1.7485107481711014e-05,
+      "loss": 0.3637,
+      "step": 116
+    },
+    {
+      "epoch": 0.31117021276595747,
+      "grad_norm": 3.0998919010162354,
+      "learning_rate": 1.7423150101263645e-05,
+      "loss": 0.2746,
+      "step": 117
+    },
+    {
+      "epoch": 0.31382978723404253,
+      "grad_norm": 2.05523419380188,
+      "learning_rate": 1.7360551435256673e-05,
+      "loss": 0.2776,
+      "step": 118
+    },
+    {
+      "epoch": 0.31648936170212766,
+      "grad_norm": 2.1908273696899414,
+      "learning_rate": 1.729731689158568e-05,
+      "loss": 0.3184,
+      "step": 119
+    },
+    {
+      "epoch": 0.3191489361702128,
+      "grad_norm": 2.3177342414855957,
+      "learning_rate": 1.7233451933079663e-05,
+      "loss": 0.2413,
+      "step": 120
+    },
+    {
+      "epoch": 0.3191489361702128,
+      "eval_accuracy": 0.8141176470588235,
+      "eval_f1": 0.48026315789473684,
+      "eval_loss": 0.43155437707901,
+      "eval_precision": 0.7087378640776699,
+      "eval_recall": 0.36318407960199006,
+      "eval_runtime": 34.0012,
+      "eval_samples_per_second": 6.588,
+      "eval_steps_per_second": 0.206,
+      "step": 120
+    },
+    {
+      "epoch": 0.32180851063829785,
+      "grad_norm": 2.1571784019470215,
+      "learning_rate": 1.7168962077029146e-05,
+      "loss": 0.3229,
+      "step": 121
+    },
+    {
+      "epoch": 0.324468085106383,
+      "grad_norm": 3.056910991668701,
+      "learning_rate": 1.7103852894709517e-05,
+      "loss": 0.3116,
+      "step": 122
+    },
+    {
+      "epoch": 0.3271276595744681,
+      "grad_norm": 1.9665093421936035,
+      "learning_rate": 1.7038130010899716e-05,
+      "loss": 0.2743,
+      "step": 123
+    },
+    {
+      "epoch": 0.32978723404255317,
+      "grad_norm": 2.3583879470825195,
+      "learning_rate": 1.6971799103396332e-05,
+      "loss": 0.2776,
+      "step": 124
+    },
+    {
+      "epoch": 0.3324468085106383,
+      "grad_norm": 2.8476576805114746,
+      "learning_rate": 1.6904865902523098e-05,
+      "loss": 0.3213,
+      "step": 125
+    },
+    {
+      "epoch": 0.3351063829787234,
+      "grad_norm": 1.9458303451538086,
+      "learning_rate": 1.6837336190635824e-05,
+      "loss": 0.2771,
+      "step": 126
+    },
+    {
+      "epoch": 0.3377659574468085,
+      "grad_norm": 2.4472289085388184,
+      "learning_rate": 1.6769215801622884e-05,
+      "loss": 0.2924,
+      "step": 127
+    },
+    {
+      "epoch": 0.3404255319148936,
+      "grad_norm": 2.520463228225708,
+      "learning_rate": 1.6700510620401223e-05,
+      "loss": 0.269,
+      "step": 128
+    },
+    {
+      "epoch": 0.34308510638297873,
+      "grad_norm": 2.2465851306915283,
+      "learning_rate": 1.6631226582407954e-05,
+      "loss": 0.3043,
+      "step": 129
+    },
+    {
+      "epoch": 0.34574468085106386,
+      "grad_norm": 2.4705588817596436,
+      "learning_rate": 1.6561369673087588e-05,
+      "loss": 0.3375,
+      "step": 130
+    },
+    {
+      "epoch": 0.3484042553191489,
+      "grad_norm": 2.332902669906616,
+      "learning_rate": 1.649094592737497e-05,
+      "loss": 0.2313,
+      "step": 131
+    },
+    {
+      "epoch": 0.35106382978723405,
+      "grad_norm": 2.050671100616455,
+      "learning_rate": 1.641996142917391e-05,
+      "loss": 0.3066,
+      "step": 132
+    },
+    {
+      "epoch": 0.3537234042553192,
+      "grad_norm": 3.541461706161499,
+      "learning_rate": 1.63484223108316e-05,
+      "loss": 0.2937,
+      "step": 133
+    },
+    {
+      "epoch": 0.35638297872340424,
+      "grad_norm": 2.344451665878296,
+      "learning_rate": 1.6276334752608823e-05,
+      "loss": 0.2666,
+      "step": 134
+    },
+    {
+      "epoch": 0.35904255319148937,
+      "grad_norm": 2.1711394786834717,
+      "learning_rate": 1.6203704982146073e-05,
+      "loss": 0.2457,
+      "step": 135
+    },
+    {
+      "epoch": 0.3617021276595745,
+      "grad_norm": 3.414870023727417,
+      "learning_rate": 1.613053927392553e-05,
+      "loss": 0.331,
+      "step": 136
+    },
+    {
+      "epoch": 0.36436170212765956,
+      "grad_norm": 3.037440299987793,
+      "learning_rate": 1.6056843948729e-05,
+      "loss": 0.3025,
+      "step": 137
+    },
+    {
+      "epoch": 0.3670212765957447,
+      "grad_norm": 3.548393726348877,
+      "learning_rate": 1.5982625373091877e-05,
+      "loss": 0.3203,
+      "step": 138
+    },
+    {
+      "epoch": 0.3696808510638298,
+      "grad_norm": 2.598219633102417,
+      "learning_rate": 1.5907889958753134e-05,
+      "loss": 0.3155,
+      "step": 139
+    },
+    {
+      "epoch": 0.3723404255319149,
+      "grad_norm": 2.790419101715088,
+      "learning_rate": 1.5832644162101417e-05,
+      "loss": 0.326,
+      "step": 140
+    },
+    {
+      "epoch": 0.3723404255319149,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1": 0.5222929936305732,
+      "eval_loss": 0.4106709063053131,
+      "eval_precision": 0.7256637168141593,
+      "eval_recall": 0.4079601990049751,
+      "eval_runtime": 33.9867,
+      "eval_samples_per_second": 6.591,
+      "eval_steps_per_second": 0.206,
+      "step": 140
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 3.642287492752075,
+      "learning_rate": 1.5756894483617268e-05,
+      "loss": 0.2809,
+      "step": 141
+    },
+    {
+      "epoch": 0.3776595744680851,
+      "grad_norm": 2.40323805809021,
+      "learning_rate": 1.568064746731156e-05,
+      "loss": 0.2835,
+      "step": 142
+    },
+    {
+      "epoch": 0.3803191489361702,
+      "grad_norm": 1.9183332920074463,
+      "learning_rate": 1.560390970016015e-05,
+      "loss": 0.2534,
+      "step": 143
+    },
+    {
+      "epoch": 0.3829787234042553,
+      "grad_norm": 3.2929575443267822,
+      "learning_rate": 1.552668781153484e-05,
+      "loss": 0.373,
+      "step": 144
+    },
+    {
+      "epoch": 0.38563829787234044,
+      "grad_norm": 2.27150559425354,
+      "learning_rate": 1.5448988472630654e-05,
+      "loss": 0.2783,
+      "step": 145
+    },
+    {
+      "epoch": 0.3882978723404255,
+      "grad_norm": 2.780089855194092,
+      "learning_rate": 1.5370818395889536e-05,
+      "loss": 0.322,
+      "step": 146
+    },
+    {
+      "epoch": 0.39095744680851063,
+      "grad_norm": 2.2651729583740234,
+      "learning_rate": 1.5292184334420434e-05,
+      "loss": 0.3145,
+      "step": 147
+    },
+    {
+      "epoch": 0.39361702127659576,
+      "grad_norm": 2.8416588306427,
+      "learning_rate": 1.521309308141592e-05,
+      "loss": 0.2979,
+      "step": 148
+    },
+    {
+      "epoch": 0.3962765957446808,
+      "grad_norm": 2.6914663314819336,
+      "learning_rate": 1.5133551469565313e-05,
+      "loss": 0.3314,
+      "step": 149
+    },
+    {
+      "epoch": 0.39893617021276595,
+      "grad_norm": 4.730180740356445,
+      "learning_rate": 1.5053566370464416e-05,
+      "loss": 0.2545,
+      "step": 150
+    },
+    {
+      "epoch": 0.4015957446808511,
+      "grad_norm": 2.2047128677368164,
+      "learning_rate": 1.4973144694021874e-05,
+      "loss": 0.2487,
+      "step": 151
+    },
+    {
+      "epoch": 0.40425531914893614,
+      "grad_norm": 2.841487407684326,
+      "learning_rate": 1.4892293387862221e-05,
+      "loss": 0.3067,
+      "step": 152
+    },
+    {
+      "epoch": 0.40691489361702127,
+      "grad_norm": 5.28929328918457,
+      "learning_rate": 1.4811019436725684e-05,
+      "loss": 0.242,
+      "step": 153
+    },
+    {
+      "epoch": 0.4095744680851064,
+      "grad_norm": 3.347501039505005,
+      "learning_rate": 1.472932986186477e-05,
+      "loss": 0.207,
+      "step": 154
+    },
+    {
+      "epoch": 0.4122340425531915,
+      "grad_norm": 3.1569905281066895,
+      "learning_rate": 1.4647231720437687e-05,
+      "loss": 0.3062,
+      "step": 155
+    },
+    {
+      "epoch": 0.4148936170212766,
+      "grad_norm": 2.134598970413208,
+      "learning_rate": 1.4564732104898702e-05,
+      "loss": 0.2443,
+      "step": 156
+    },
+    {
+      "epoch": 0.4175531914893617,
+      "grad_norm": 2.528136968612671,
+      "learning_rate": 1.4481838142385403e-05,
+      "loss": 0.2308,
+      "step": 157
+    },
+    {
+      "epoch": 0.42021276595744683,
+      "grad_norm": 2.756695032119751,
+      "learning_rate": 1.4398556994102996e-05,
+      "loss": 0.2461,
+      "step": 158
+    },
+    {
+      "epoch": 0.4228723404255319,
+      "grad_norm": 4.9117631912231445,
+      "learning_rate": 1.4314895854705641e-05,
+      "loss": 0.2911,
+      "step": 159
+    },
+    {
+      "epoch": 0.425531914893617,
+      "grad_norm": 2.877560615539551,
+      "learning_rate": 1.4230861951674914e-05,
+      "loss": 0.2404,
+      "step": 160
+    },
+    {
+      "epoch": 0.425531914893617,
+      "eval_accuracy": 0.8094117647058824,
+      "eval_f1": 0.40875912408759124,
+      "eval_loss": 0.46145251393318176,
+      "eval_precision": 0.7671232876712328,
+      "eval_recall": 0.27860696517412936,
+      "eval_runtime": 34.0326,
+      "eval_samples_per_second": 6.582,
+      "eval_steps_per_second": 0.206,
+      "step": 160
+    },
+    {
+      "epoch": 0.42819148936170215,
+      "grad_norm": 4.159635066986084,
+      "learning_rate": 1.4146462544695428e-05,
+      "loss": 0.2858,
+      "step": 161
+    },
+    {
+      "epoch": 0.4308510638297872,
+      "grad_norm": 2.716390609741211,
+      "learning_rate": 1.4061704925027653e-05,
+      "loss": 0.2299,
+      "step": 162
+    },
+    {
+      "epoch": 0.43351063829787234,
+      "grad_norm": 2.3737223148345947,
+      "learning_rate": 1.3976596414878044e-05,
+      "loss": 0.2371,
+      "step": 163
+    },
+    {
+      "epoch": 0.43617021276595747,
+      "grad_norm": 3.5703928470611572,
+      "learning_rate": 1.3891144366766457e-05,
+      "loss": 0.3007,
+      "step": 164
+    },
+    {
+      "epoch": 0.43882978723404253,
+      "grad_norm": 2.449308156967163,
+      "learning_rate": 1.380535616289099e-05,
+      "loss": 0.2414,
+      "step": 165
+    },
+    {
+      "epoch": 0.44148936170212766,
+      "grad_norm": 3.272531509399414,
+      "learning_rate": 1.3719239214490203e-05,
+      "loss": 0.2961,
+      "step": 166
+    },
+    {
+      "epoch": 0.4441489361702128,
+      "grad_norm": 3.6306636333465576,
+      "learning_rate": 1.363280096120289e-05,
+      "loss": 0.2923,
+      "step": 167
+    },
+    {
+      "epoch": 0.44680851063829785,
+      "grad_norm": 2.5956878662109375,
+      "learning_rate": 1.3546048870425356e-05,
+      "loss": 0.251,
+      "step": 168
+    },
+    {
+      "epoch": 0.449468085106383,
+      "grad_norm": 5.468013286590576,
+      "learning_rate": 1.3458990436666313e-05,
+      "loss": 0.287,
+      "step": 169
+    },
+    {
+      "epoch": 0.4521276595744681,
+      "grad_norm": 2.5763583183288574,
+      "learning_rate": 1.3371633180899417e-05,
+      "loss": 0.2779,
+      "step": 170
+    },
+    {
+      "epoch": 0.45478723404255317,
+      "grad_norm": 3.8822455406188965,
+      "learning_rate": 1.3283984649913552e-05,
+      "loss": 0.2197,
+      "step": 171
+    },
+    {
+      "epoch": 0.4574468085106383,
+      "grad_norm": 2.4867823123931885,
+      "learning_rate": 1.3196052415660856e-05,
+      "loss": 0.2875,
+      "step": 172
+    },
+    {
+      "epoch": 0.4601063829787234,
+      "grad_norm": 2.161820888519287,
+      "learning_rate": 1.3107844074602566e-05,
+      "loss": 0.2416,
+      "step": 173
+    },
+    {
+      "epoch": 0.4627659574468085,
+      "grad_norm": 3.0401649475097656,
+      "learning_rate": 1.3019367247052781e-05,
+      "loss": 0.2634,
+      "step": 174
+    },
+    {
+      "epoch": 0.4654255319148936,
+      "grad_norm": 2.273088216781616,
+      "learning_rate": 1.2930629576520133e-05,
+      "loss": 0.2709,
+      "step": 175
+    },
+    {
+      "epoch": 0.46808510638297873,
+      "grad_norm": 3.001025438308716,
+      "learning_rate": 1.2841638729047463e-05,
+      "loss": 0.2806,
+      "step": 176
+    },
+    {
+      "epoch": 0.47074468085106386,
+      "grad_norm": 2.348917245864868,
+      "learning_rate": 1.2752402392549556e-05,
+      "loss": 0.2702,
+      "step": 177
+    },
+    {
+      "epoch": 0.4734042553191489,
+      "grad_norm": 2.713019847869873,
+      "learning_rate": 1.2662928276148985e-05,
+      "loss": 0.2588,
+      "step": 178
+    },
+    {
+      "epoch": 0.47606382978723405,
+      "grad_norm": 3.061501979827881,
+      "learning_rate": 1.2573224109510112e-05,
+      "loss": 0.2701,
+      "step": 179
+    },
+    {
+      "epoch": 0.4787234042553192,
+      "grad_norm": 5.120430946350098,
+      "learning_rate": 1.2483297642171332e-05,
+      "loss": 0.2962,
+      "step": 180
+    },
+    {
+      "epoch": 0.4787234042553192,
+      "eval_accuracy": 0.8282352941176471,
+      "eval_f1": 0.5228758169934641,
+      "eval_loss": 0.42048707604408264,
+      "eval_precision": 0.7619047619047619,
+      "eval_recall": 0.39800995024875624,
+      "eval_runtime": 34.4467,
+      "eval_samples_per_second": 6.503,
+      "eval_steps_per_second": 0.203,
+      "step": 180
+    },
+    {
+      "epoch": 0.48138297872340424,
+      "grad_norm": 2.8563108444213867,
+      "learning_rate": 1.2393156642875579e-05,
+      "loss": 0.2855,
+      "step": 181
+    },
+    {
+      "epoch": 0.48404255319148937,
+      "grad_norm": 3.6837549209594727,
+      "learning_rate": 1.23028088988992e-05,
+      "loss": 0.2976,
+      "step": 182
+    },
+    {
+      "epoch": 0.4867021276595745,
+      "grad_norm": 3.085362434387207,
+      "learning_rate": 1.2212262215379199e-05,
+      "loss": 0.2775,
+      "step": 183
+    },
+    {
+      "epoch": 0.48936170212765956,
+      "grad_norm": 3.395561695098877,
+      "learning_rate": 1.2121524414638958e-05,
+      "loss": 0.3076,
+      "step": 184
+    },
+    {
+      "epoch": 0.4920212765957447,
+      "grad_norm": 3.6867411136627197,
+      "learning_rate": 1.2030603335512467e-05,
+      "loss": 0.2402,
+      "step": 185
+    },
+    {
+      "epoch": 0.4946808510638298,
+      "grad_norm": 5.76826810836792,
+      "learning_rate": 1.1939506832667129e-05,
+      "loss": 0.2715,
+      "step": 186
+    },
+    {
+      "epoch": 0.4973404255319149,
+      "grad_norm": 3.938023328781128,
+      "learning_rate": 1.1848242775925188e-05,
+      "loss": 0.2773,
+      "step": 187
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 3.6675262451171875,
+      "learning_rate": 1.1756819049583861e-05,
+      "loss": 0.2752,
+      "step": 188
+    },
+    {
+      "epoch": 0.5026595744680851,
+      "grad_norm": 2.274174213409424,
+      "learning_rate": 1.166524355173422e-05,
+      "loss": 0.2545,
+      "step": 189
+    },
+    {
+      "epoch": 0.5053191489361702,
+      "grad_norm": 3.854417562484741,
+      "learning_rate": 1.1573524193578863e-05,
+      "loss": 0.2804,
+      "step": 190
+    },
+    {
+      "epoch": 0.5079787234042553,
+      "grad_norm": 5.1708550453186035,
+      "learning_rate": 1.1481668898748474e-05,
+      "loss": 0.2371,
+      "step": 191
+    },
+    {
+      "epoch": 0.5106382978723404,
+      "grad_norm": 4.153345584869385,
+      "learning_rate": 1.1389685602617302e-05,
+      "loss": 0.2405,
+      "step": 192
+    },
+    {
+      "epoch": 0.5132978723404256,
+      "grad_norm": 3.244084119796753,
+      "learning_rate": 1.1297582251617618e-05,
+      "loss": 0.2737,
+      "step": 193
+    },
+    {
+      "epoch": 0.5159574468085106,
+      "grad_norm": 2.50569486618042,
+      "learning_rate": 1.1205366802553231e-05,
+      "loss": 0.2647,
+      "step": 194
+    },
+    {
+      "epoch": 0.5186170212765957,
+      "grad_norm": 2.3251872062683105,
+      "learning_rate": 1.1113047221912097e-05,
+      "loss": 0.1958,
+      "step": 195
+    },
+    {
+      "epoch": 0.5212765957446809,
+      "grad_norm": 2.288127899169922,
+      "learning_rate": 1.1020631485178084e-05,
+      "loss": 0.2109,
+      "step": 196
+    },
+    {
+      "epoch": 0.523936170212766,
+      "grad_norm": 4.095820426940918,
+      "learning_rate": 1.0928127576141992e-05,
+      "loss": 0.2998,
+      "step": 197
+    },
+    {
+      "epoch": 0.526595744680851,
+      "grad_norm": 5.008273601531982,
+      "learning_rate": 1.0835543486211815e-05,
+      "loss": 0.2841,
+      "step": 198
+    },
+    {
+      "epoch": 0.5292553191489362,
+      "grad_norm": 5.711911678314209,
+      "learning_rate": 1.0742887213722372e-05,
+      "loss": 0.2488,
+      "step": 199
+    },
+    {
+      "epoch": 0.5319148936170213,
+      "grad_norm": 5.29080867767334,
+      "learning_rate": 1.065016676324433e-05,
+      "loss": 0.2727,
+      "step": 200
+    },
+    {
+      "epoch": 0.5319148936170213,
+      "eval_accuracy": 0.8,
+      "eval_f1": 0.34615384615384615,
+      "eval_loss": 0.4829849600791931,
+      "eval_precision": 0.7627118644067796,
+      "eval_recall": 0.22388059701492538,
+      "eval_runtime": 33.8087,
+      "eval_samples_per_second": 6.626,
+      "eval_steps_per_second": 0.207,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.492182455884186e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null