Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:534c42076a246c6da5a00ffd44149115e4d50f42ee2ee4186468f5798dbb1ccf
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:64ce02d94b7d924c632a2067f73c82bb18c67f7a726992c6269ace98bdc6f056
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a663829a3b941a4048ffcc2de6e0512c94c579c7a489c3e009cf30a2a53e694d
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3fe0457fac8b753b7310b82e2980163e79f3ec63eda7fc5078528d806ac9366
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edb36318fb7a6485a66f873289f77615fb974210ae47a75c352e9d4d2d4426d8
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cdb0f1caf04a6ef7c87c522ede00a27f1e96ab25cd3d03dc1218ed3d6bf20b8
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6802368c5f12cbf6130a30d93da9380768ce9f37bbb6bd21b02b9e602182fbcd
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bc82b46510200e245a640ac75a1015933d3bfdd29a9f14f7e6e3cf00746cc9f
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7a755e47d66d671add11d66f6099b1dd83a6c13121c2ef15fdfdde9a3177177
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f062cfd6da4a5849543ad9f156b79c7cb80350250de63ee7e3ea29c94d29be4
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb3edd1ccbdea3e3f2d56cd3a4646f38afe7ca93815da1414f65fe03b9b673a2
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9629d3c55606b00e24d749b100b32fb20097550ff7d500801506540c686e621
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4599060b53a4939dd8f840249e269e7830878980b2cf9fafb1b39f1203aaa960
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:102dc9d8e967de85cf93dfd57a3dcb2e8948d2b8aec650c2929692368e17358b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e02bfd751b50b769ac97d99b9a8385f2091de1188f94cbd07e5f93afeae257da
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a95ccc72a79fe5e1e19337f8b060654731a9cc11cc1a00aca76960a6644d8396
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51118da612b8171b6675abc2602bed7ce97edefe29a8f466ea28ed45a226a206
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cb7c663bda618877a07c8634119b894f845c6c1f48ffc773fae5fc7587910b
 size 15088

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62710a98a3c7bb382ced086930b4b07cc7dc4c19e47a9f58b3464ec46167033a
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f5facd7e65af3371a0f80215db840e12650b3c5facc3bc8e9c313b25307f1c5
 size 15088

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e4c5366934a63a65595c9de33e3c7b09bdf1751d64db6f76892cbdd781442b1
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1b0b8e0d8818ddd524ea79ea80b4c68befffe51c42d62588c2d5ea88da10a4b
 size 15088

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f747b50387c790da0638d4436a970217188c80f6b7d2d6cc099b8ddf28c5197c
 size 15088

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a7feadabf89d4316a6005d255da1c51ac5f256268f862f7e85e39e78d9a3025
 size 15088

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a81a95c7d38a4c117734641266299d17605df7b45470c7b744f36bacf620813f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdc582f335d9f0cb32903e57fe4f3123895d2a8b97f7e3cac7005c8f96d98b1d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1694915254237288,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 5.75,
       "eval_steps_per_second": 0.197,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.207084150810214e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2542372881355932,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.75,
       "eval_steps_per_second": 0.197,
       "step": 200
+    },
+    {
+      "epoch": 0.17033898305084746,
+      "grad_norm": 2.295042037963867,
+      "learning_rate": 1.9700087871633267e-05,
+      "loss": 0.0225,
+      "step": 201
+    },
+    {
+      "epoch": 0.1711864406779661,
+      "grad_norm": 1.9021865129470825,
+      "learning_rate": 1.9692854983784235e-05,
+      "loss": 0.0282,
+      "step": 202
+    },
+    {
+      "epoch": 0.17203389830508475,
+      "grad_norm": 6.971744060516357,
+      "learning_rate": 1.9685537275184776e-05,
+      "loss": 0.0743,
+      "step": 203
+    },
+    {
+      "epoch": 0.17288135593220338,
+      "grad_norm": 3.0627219676971436,
+      "learning_rate": 1.9678134809871085e-05,
+      "loss": 0.0305,
+      "step": 204
+    },
+    {
+      "epoch": 0.17372881355932204,
+      "grad_norm": 2.7916667461395264,
+      "learning_rate": 1.9670647652621044e-05,
+      "loss": 0.0407,
+      "step": 205
+    },
+    {
+      "epoch": 0.17457627118644067,
+      "grad_norm": 0.5132026076316833,
+      "learning_rate": 1.966307586895367e-05,
+      "loss": 0.0058,
+      "step": 206
+    },
+    {
+      "epoch": 0.17542372881355933,
+      "grad_norm": 2.076672077178955,
+      "learning_rate": 1.9655419525128528e-05,
+      "loss": 0.0275,
+      "step": 207
+    },
+    {
+      "epoch": 0.17627118644067796,
+      "grad_norm": 1.9575265645980835,
+      "learning_rate": 1.9647678688145163e-05,
+      "loss": 0.0178,
+      "step": 208
+    },
+    {
+      "epoch": 0.17711864406779662,
+      "grad_norm": 2.161008358001709,
+      "learning_rate": 1.9639853425742496e-05,
+      "loss": 0.0262,
+      "step": 209
+    },
+    {
+      "epoch": 0.17796610169491525,
+      "grad_norm": 2.026916742324829,
+      "learning_rate": 1.963194380639825e-05,
+      "loss": 0.0257,
+      "step": 210
+    },
+    {
+      "epoch": 0.1788135593220339,
+      "grad_norm": 1.033382773399353,
+      "learning_rate": 1.9623949899328352e-05,
+      "loss": 0.017,
+      "step": 211
+    },
+    {
+      "epoch": 0.17966101694915254,
+      "grad_norm": 1.5789072513580322,
+      "learning_rate": 1.9615871774486293e-05,
+      "loss": 0.0241,
+      "step": 212
+    },
+    {
+      "epoch": 0.1805084745762712,
+      "grad_norm": 1.8820958137512207,
+      "learning_rate": 1.960770950256257e-05,
+      "loss": 0.031,
+      "step": 213
+    },
+    {
+      "epoch": 0.18135593220338983,
+      "grad_norm": 3.501945734024048,
+      "learning_rate": 1.959946315498402e-05,
+      "loss": 0.0479,
+      "step": 214
+    },
+    {
+      "epoch": 0.18220338983050846,
+      "grad_norm": 1.3452684879302979,
+      "learning_rate": 1.959113280391322e-05,
+      "loss": 0.0158,
+      "step": 215
+    },
+    {
+      "epoch": 0.18305084745762712,
+      "grad_norm": 2.5982766151428223,
+      "learning_rate": 1.9582718522247854e-05,
+      "loss": 0.0331,
+      "step": 216
+    },
+    {
+      "epoch": 0.18389830508474575,
+      "grad_norm": 3.8872103691101074,
+      "learning_rate": 1.9574220383620054e-05,
+      "loss": 0.023,
+      "step": 217
+    },
+    {
+      "epoch": 0.1847457627118644,
+      "grad_norm": 1.6585066318511963,
+      "learning_rate": 1.9565638462395796e-05,
+      "loss": 0.0235,
+      "step": 218
+    },
+    {
+      "epoch": 0.18559322033898304,
+      "grad_norm": 1.910556435585022,
+      "learning_rate": 1.95569728336742e-05,
+      "loss": 0.0249,
+      "step": 219
+    },
+    {
+      "epoch": 0.1864406779661017,
+      "grad_norm": 2.956751823425293,
+      "learning_rate": 1.954822357328692e-05,
+      "loss": 0.0271,
+      "step": 220
+    },
+    {
+      "epoch": 0.1864406779661017,
+      "eval_accuracy": 0.9985815602836879,
+      "eval_f1": 0.9974160206718347,
+      "eval_loss": 0.007490006275475025,
+      "eval_precision": 1.0,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 50.7062,
+      "eval_samples_per_second": 5.759,
+      "eval_steps_per_second": 0.197,
+      "step": 220
+    },
+    {
+      "epoch": 0.18728813559322033,
+      "grad_norm": 3.494168281555176,
+      "learning_rate": 1.9539390757797444e-05,
+      "loss": 0.0706,
+      "step": 221
+    },
+    {
+      "epoch": 0.188135593220339,
+      "grad_norm": 2.3897652626037598,
+      "learning_rate": 1.9530474464500445e-05,
+      "loss": 0.0252,
+      "step": 222
+    },
+    {
+      "epoch": 0.18898305084745762,
+      "grad_norm": 2.2590034008026123,
+      "learning_rate": 1.9521474771421093e-05,
+      "loss": 0.033,
+      "step": 223
+    },
+    {
+      "epoch": 0.18983050847457628,
+      "grad_norm": 3.1695659160614014,
+      "learning_rate": 1.9512391757314382e-05,
+      "loss": 0.0475,
+      "step": 224
+    },
+    {
+      "epoch": 0.1906779661016949,
+      "grad_norm": 0.6561757922172546,
+      "learning_rate": 1.950322550166444e-05,
+      "loss": 0.0089,
+      "step": 225
+    },
+    {
+      "epoch": 0.19152542372881357,
+      "grad_norm": 0.832501232624054,
+      "learning_rate": 1.9493976084683814e-05,
+      "loss": 0.0064,
+      "step": 226
+    },
+    {
+      "epoch": 0.1923728813559322,
+      "grad_norm": 2.210726022720337,
+      "learning_rate": 1.94846435873128e-05,
+      "loss": 0.0372,
+      "step": 227
+    },
+    {
+      "epoch": 0.19322033898305085,
+      "grad_norm": 1.805579662322998,
+      "learning_rate": 1.9475228091218712e-05,
+      "loss": 0.0288,
+      "step": 228
+    },
+    {
+      "epoch": 0.19406779661016949,
+      "grad_norm": 1.477453351020813,
+      "learning_rate": 1.946572967879517e-05,
+      "loss": 0.01,
+      "step": 229
+    },
+    {
+      "epoch": 0.19491525423728814,
+      "grad_norm": 1.16657555103302,
+      "learning_rate": 1.9456148433161387e-05,
+      "loss": 0.0183,
+      "step": 230
+    },
+    {
+      "epoch": 0.19576271186440677,
+      "grad_norm": 6.658266544342041,
+      "learning_rate": 1.944648443816144e-05,
+      "loss": 0.0464,
+      "step": 231
+    },
+    {
+      "epoch": 0.19661016949152543,
+      "grad_norm": 1.6691462993621826,
+      "learning_rate": 1.9436737778363526e-05,
+      "loss": 0.014,
+      "step": 232
+    },
+    {
+      "epoch": 0.19745762711864406,
+      "grad_norm": 1.3182052373886108,
+      "learning_rate": 1.942690853905924e-05,
+      "loss": 0.0092,
+      "step": 233
+    },
+    {
+      "epoch": 0.19830508474576272,
+      "grad_norm": 0.46388718485832214,
+      "learning_rate": 1.94169968062628e-05,
+      "loss": 0.004,
+      "step": 234
+    },
+    {
+      "epoch": 0.19915254237288135,
+      "grad_norm": 3.9312496185302734,
+      "learning_rate": 1.9407002666710334e-05,
+      "loss": 0.0451,
+      "step": 235
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.5306397676467896,
+      "learning_rate": 1.9396926207859085e-05,
+      "loss": 0.0169,
+      "step": 236
+    },
+    {
+      "epoch": 0.20084745762711864,
+      "grad_norm": 1.4190640449523926,
+      "learning_rate": 1.9386767517886666e-05,
+      "loss": 0.0248,
+      "step": 237
+    },
+    {
+      "epoch": 0.2016949152542373,
+      "grad_norm": 2.2406575679779053,
+      "learning_rate": 1.937652668569028e-05,
+      "loss": 0.0259,
+      "step": 238
+    },
+    {
+      "epoch": 0.20254237288135593,
+      "grad_norm": 0.8504940867424011,
+      "learning_rate": 1.9366203800885944e-05,
+      "loss": 0.0076,
+      "step": 239
+    },
+    {
+      "epoch": 0.2033898305084746,
+      "grad_norm": 1.1296645402908325,
+      "learning_rate": 1.9355798953807715e-05,
+      "loss": 0.0071,
+      "step": 240
+    },
+    {
+      "epoch": 0.2033898305084746,
+      "eval_accuracy": 0.9985815602836879,
+      "eval_f1": 0.9974160206718347,
+      "eval_loss": 0.007261006161570549,
+      "eval_precision": 1.0,
+      "eval_recall": 0.9948453608247423,
+      "eval_runtime": 50.5554,
+      "eval_samples_per_second": 5.776,
+      "eval_steps_per_second": 0.198,
+      "step": 240
+    },
+    {
+      "epoch": 0.20423728813559322,
+      "grad_norm": 2.6094491481781006,
+      "learning_rate": 1.934531223550687e-05,
+      "loss": 0.0298,
+      "step": 241
+    },
+    {
+      "epoch": 0.20508474576271185,
+      "grad_norm": 3.385869264602661,
+      "learning_rate": 1.933474373775115e-05,
+      "loss": 0.0282,
+      "step": 242
+    },
+    {
+      "epoch": 0.2059322033898305,
+      "grad_norm": 3.9192473888397217,
+      "learning_rate": 1.932409355302392e-05,
+      "loss": 0.0514,
+      "step": 243
+    },
+    {
+      "epoch": 0.20677966101694914,
+      "grad_norm": 2.312788724899292,
+      "learning_rate": 1.9313361774523387e-05,
+      "loss": 0.029,
+      "step": 244
+    },
+    {
+      "epoch": 0.2076271186440678,
+      "grad_norm": 1.603360891342163,
+      "learning_rate": 1.9302548496161765e-05,
+      "loss": 0.0193,
+      "step": 245
+    },
+    {
+      "epoch": 0.20847457627118643,
+      "grad_norm": 3.1534547805786133,
+      "learning_rate": 1.9291653812564468e-05,
+      "loss": 0.0516,
+      "step": 246
+    },
+    {
+      "epoch": 0.2093220338983051,
+      "grad_norm": 0.8444193005561829,
+      "learning_rate": 1.9280677819069273e-05,
+      "loss": 0.0084,
+      "step": 247
+    },
+    {
+      "epoch": 0.21016949152542372,
+      "grad_norm": 1.4498813152313232,
+      "learning_rate": 1.926962061172548e-05,
+      "loss": 0.012,
+      "step": 248
+    },
+    {
+      "epoch": 0.21101694915254238,
+      "grad_norm": 4.520916938781738,
+      "learning_rate": 1.9258482287293097e-05,
+      "loss": 0.0292,
+      "step": 249
+    },
+    {
+      "epoch": 0.211864406779661,
+      "grad_norm": 4.337013244628906,
+      "learning_rate": 1.924726294324196e-05,
+      "loss": 0.0285,
+      "step": 250
+    },
+    {
+      "epoch": 0.21271186440677967,
+      "grad_norm": 3.2843096256256104,
+      "learning_rate": 1.9235962677750898e-05,
+      "loss": 0.0424,
+      "step": 251
+    },
+    {
+      "epoch": 0.2135593220338983,
+      "grad_norm": 2.163046360015869,
+      "learning_rate": 1.922458158970688e-05,
+      "loss": 0.0235,
+      "step": 252
+    },
+    {
+      "epoch": 0.21440677966101696,
+      "grad_norm": 0.903529167175293,
+      "learning_rate": 1.921311977870413e-05,
+      "loss": 0.0111,
+      "step": 253
+    },
+    {
+      "epoch": 0.21525423728813559,
+      "grad_norm": 0.9559667110443115,
+      "learning_rate": 1.9201577345043282e-05,
+      "loss": 0.0097,
+      "step": 254
+    },
+    {
+      "epoch": 0.21610169491525424,
+      "grad_norm": 2.765850782394409,
+      "learning_rate": 1.918995438973047e-05,
+      "loss": 0.0173,
+      "step": 255
+    },
+    {
+      "epoch": 0.21694915254237288,
+      "grad_norm": 1.1641409397125244,
+      "learning_rate": 1.917825101447647e-05,
+      "loss": 0.0073,
+      "step": 256
+    },
+    {
+      "epoch": 0.21779661016949153,
+      "grad_norm": 1.1337021589279175,
+      "learning_rate": 1.91664673216958e-05,
+      "loss": 0.0129,
+      "step": 257
+    },
+    {
+      "epoch": 0.21864406779661016,
+      "grad_norm": 2.058060646057129,
+      "learning_rate": 1.9154603414505825e-05,
+      "loss": 0.0418,
+      "step": 258
+    },
+    {
+      "epoch": 0.21949152542372882,
+      "grad_norm": 2.029142379760742,
+      "learning_rate": 1.9142659396725862e-05,
+      "loss": 0.0289,
+      "step": 259
+    },
+    {
+      "epoch": 0.22033898305084745,
+      "grad_norm": 1.0298879146575928,
+      "learning_rate": 1.9130635372876245e-05,
+      "loss": 0.009,
+      "step": 260
+    },
+    {
+      "epoch": 0.22033898305084745,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.002083389787003398,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 50.0162,
+      "eval_samples_per_second": 5.838,
+      "eval_steps_per_second": 0.2,
+      "step": 260
+    },
+    {
+      "epoch": 0.2211864406779661,
+      "grad_norm": 1.038118839263916,
+      "learning_rate": 1.9118531448177446e-05,
+      "loss": 0.0065,
+      "step": 261
+    },
+    {
+      "epoch": 0.22203389830508474,
+      "grad_norm": 1.853901743888855,
+      "learning_rate": 1.9106347728549134e-05,
+      "loss": 0.0317,
+      "step": 262
+    },
+    {
+      "epoch": 0.2228813559322034,
+      "grad_norm": 1.197831392288208,
+      "learning_rate": 1.909408432060925e-05,
+      "loss": 0.0067,
+      "step": 263
+    },
+    {
+      "epoch": 0.22372881355932203,
+      "grad_norm": 1.2054872512817383,
+      "learning_rate": 1.908174133167307e-05,
+      "loss": 0.0105,
+      "step": 264
+    },
+    {
+      "epoch": 0.2245762711864407,
+      "grad_norm": 2.5519094467163086,
+      "learning_rate": 1.906931886975228e-05,
+      "loss": 0.0241,
+      "step": 265
+    },
+    {
+      "epoch": 0.22542372881355932,
+      "grad_norm": 1.8726714849472046,
+      "learning_rate": 1.9056817043554024e-05,
+      "loss": 0.0144,
+      "step": 266
+    },
+    {
+      "epoch": 0.22627118644067798,
+      "grad_norm": 3.216784715652466,
+      "learning_rate": 1.9044235962479945e-05,
+      "loss": 0.0338,
+      "step": 267
+    },
+    {
+      "epoch": 0.2271186440677966,
+      "grad_norm": 2.3170483112335205,
+      "learning_rate": 1.903157573662524e-05,
+      "loss": 0.0178,
+      "step": 268
+    },
+    {
+      "epoch": 0.22796610169491524,
+      "grad_norm": 3.330758571624756,
+      "learning_rate": 1.9018836476777675e-05,
+      "loss": 0.0404,
+      "step": 269
+    },
+    {
+      "epoch": 0.2288135593220339,
+      "grad_norm": 3.121005058288574,
+      "learning_rate": 1.9006018294416648e-05,
+      "loss": 0.0286,
+      "step": 270
+    },
+    {
+      "epoch": 0.22966101694915253,
+      "grad_norm": 0.9276627898216248,
+      "learning_rate": 1.8993121301712194e-05,
+      "loss": 0.0084,
+      "step": 271
+    },
+    {
+      "epoch": 0.2305084745762712,
+      "grad_norm": 0.7775290012359619,
+      "learning_rate": 1.8980145611523996e-05,
+      "loss": 0.0053,
+      "step": 272
+    },
+    {
+      "epoch": 0.23135593220338982,
+      "grad_norm": 3.8352859020233154,
+      "learning_rate": 1.8967091337400418e-05,
+      "loss": 0.0281,
+      "step": 273
+    },
+    {
+      "epoch": 0.23220338983050848,
+      "grad_norm": 1.0906392335891724,
+      "learning_rate": 1.895395859357749e-05,
+      "loss": 0.0128,
+      "step": 274
+    },
+    {
+      "epoch": 0.2330508474576271,
+      "grad_norm": 1.1791564226150513,
+      "learning_rate": 1.894074749497793e-05,
+      "loss": 0.0124,
+      "step": 275
+    },
+    {
+      "epoch": 0.23389830508474577,
+      "grad_norm": 1.4967304468154907,
+      "learning_rate": 1.8927458157210125e-05,
+      "loss": 0.015,
+      "step": 276
+    },
+    {
+      "epoch": 0.2347457627118644,
+      "grad_norm": 1.3809508085250854,
+      "learning_rate": 1.8914090696567104e-05,
+      "loss": 0.0089,
+      "step": 277
+    },
+    {
+      "epoch": 0.23559322033898306,
+      "grad_norm": 1.202942132949829,
+      "learning_rate": 1.8900645230025566e-05,
+      "loss": 0.0113,
+      "step": 278
+    },
+    {
+      "epoch": 0.2364406779661017,
+      "grad_norm": 1.3019424676895142,
+      "learning_rate": 1.8887121875244804e-05,
+      "loss": 0.008,
+      "step": 279
+    },
+    {
+      "epoch": 0.23728813559322035,
+      "grad_norm": 1.8381810188293457,
+      "learning_rate": 1.8873520750565716e-05,
+      "loss": 0.0288,
+      "step": 280
+    },
+    {
+      "epoch": 0.23728813559322035,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0014825169928371906,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 49.7093,
+      "eval_samples_per_second": 5.874,
+      "eval_steps_per_second": 0.201,
+      "step": 280
+    },
+    {
+      "epoch": 0.23813559322033898,
+      "grad_norm": 0.7632168531417847,
+      "learning_rate": 1.8859841975009747e-05,
+      "loss": 0.0062,
+      "step": 281
+    },
+    {
+      "epoch": 0.23898305084745763,
+      "grad_norm": 2.5059711933135986,
+      "learning_rate": 1.884608566827785e-05,
+      "loss": 0.0304,
+      "step": 282
+    },
+    {
+      "epoch": 0.23983050847457626,
+      "grad_norm": 2.896942138671875,
+      "learning_rate": 1.8832251950749443e-05,
+      "loss": 0.0271,
+      "step": 283
+    },
+    {
+      "epoch": 0.24067796610169492,
+      "grad_norm": 2.438624620437622,
+      "learning_rate": 1.8818340943481362e-05,
+      "loss": 0.0236,
+      "step": 284
+    },
+    {
+      "epoch": 0.24152542372881355,
+      "grad_norm": 3.87087082862854,
+      "learning_rate": 1.880435276820678e-05,
+      "loss": 0.0337,
+      "step": 285
+    },
+    {
+      "epoch": 0.2423728813559322,
+      "grad_norm": 1.3031063079833984,
+      "learning_rate": 1.8790287547334178e-05,
+      "loss": 0.009,
+      "step": 286
+    },
+    {
+      "epoch": 0.24322033898305084,
+      "grad_norm": 2.244393825531006,
+      "learning_rate": 1.8776145403946226e-05,
+      "loss": 0.0331,
+      "step": 287
+    },
+    {
+      "epoch": 0.2440677966101695,
+      "grad_norm": 1.3984683752059937,
+      "learning_rate": 1.8761926461798743e-05,
+      "loss": 0.0095,
+      "step": 288
+    },
+    {
+      "epoch": 0.24491525423728813,
+      "grad_norm": 0.9854875206947327,
+      "learning_rate": 1.874763084531961e-05,
+      "loss": 0.0076,
+      "step": 289
+    },
+    {
+      "epoch": 0.2457627118644068,
+      "grad_norm": 1.9005022048950195,
+      "learning_rate": 1.8733258679607674e-05,
+      "loss": 0.0169,
+      "step": 290
+    },
+    {
+      "epoch": 0.24661016949152542,
+      "grad_norm": 2.174389600753784,
+      "learning_rate": 1.871881009043163e-05,
+      "loss": 0.0357,
+      "step": 291
+    },
+    {
+      "epoch": 0.24745762711864408,
+      "grad_norm": 3.0177578926086426,
+      "learning_rate": 1.8704285204228973e-05,
+      "loss": 0.0373,
+      "step": 292
+    },
+    {
+      "epoch": 0.2483050847457627,
+      "grad_norm": 2.5867350101470947,
+      "learning_rate": 1.868968414810484e-05,
+      "loss": 0.035,
+      "step": 293
+    },
+    {
+      "epoch": 0.24915254237288137,
+      "grad_norm": 1.4265027046203613,
+      "learning_rate": 1.8675007049830937e-05,
+      "loss": 0.0138,
+      "step": 294
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.97405606508255,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 0.0102,
+      "step": 295
+    },
+    {
+      "epoch": 0.25084745762711863,
+      "grad_norm": 3.0567164421081543,
+      "learning_rate": 1.8645425241246636e-05,
+      "loss": 0.067,
+      "step": 296
+    },
+    {
+      "epoch": 0.25169491525423726,
+      "grad_norm": 1.839958667755127,
+      "learning_rate": 1.8630520789802308e-05,
+      "loss": 0.0252,
+      "step": 297
+    },
+    {
+      "epoch": 0.25254237288135595,
+      "grad_norm": 1.2445701360702515,
+      "learning_rate": 1.8615540813938063e-05,
+      "loss": 0.0391,
+      "step": 298
+    },
+    {
+      "epoch": 0.2533898305084746,
+      "grad_norm": 2.647850275039673,
+      "learning_rate": 1.860048544474147e-05,
+      "loss": 0.0212,
+      "step": 299
+    },
+    {
+      "epoch": 0.2542372881355932,
+      "grad_norm": 2.123107433319092,
+      "learning_rate": 1.858535481395986e-05,
+      "loss": 0.0236,
+      "step": 300
+    },
+    {
+      "epoch": 0.2542372881355932,
+      "eval_accuracy": 1.0,
+      "eval_f1": 1.0,
+      "eval_loss": 0.0011347213294357061,
+      "eval_precision": 1.0,
+      "eval_recall": 1.0,
+      "eval_runtime": 52.457,
+      "eval_samples_per_second": 5.566,
+      "eval_steps_per_second": 0.191,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.289113333137408e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null