Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce35a7d9d3ee41577a6667581545907c05369b98efeb251f2496e6bc41c8ec77
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c6cd9bbf69ca7d063802c57c85eae4c8a4594c67d7465d15bea57713fe47513
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3183b1742cfca72c52d940d8e04287494b43efa4116947a96e4cccfcd21348d1
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ccc731a20bfee6a4b55db5e68d3cde38d8ac7d2f719abd77539294a3e34b2ec
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4205a4ab8bd014921ab915be98db9b55bb90c27eea063f468f810bebf254273d
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:2785839db765cda31082ddf8a82d30deab7dd42debaf778105e6f1e72628bf0b
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27c49502b98af6483397efb3fb254c6f7e946e966f58d1d19162f8d43a197fae
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:6543635366541dceae1dd968c306b2f0f2b4ecbd81d3aea258b1607da46815a7
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b45efd5b804d9c79be3d4548ed087b9258b26177b6f16e8676684fc7e504f116
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b475c353783d4026335e7030c57ba069d3d2acec25effee2905e6c973933656
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f06d05203698d9a4d1d043d4f6ec8e5d78d608cb2c2042bf829842852ccf38a
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:722e06e8226ee81e6a1d319d49c78ac25f3e3038d6458b00cb35e8a42e093c2b
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9238ae75b55c27a76fd44d1a52af2ef5fcef2e2d365994a5ae17e1a8621203d8
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2282b29b361aca76f71e45f53ef426769df72fecd3cfe3e9040dd5f970c053c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f463169e3e2cc274a980569fa1cb4cfa88e7201ab5723d1c28049cdf5ad735
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd6c20f9a7c898a644f42332beb081e2ffc36926b9b070c86a030d2234848a7f
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5fd10842b846f23f804b87787b0db7af5bfcba064be8c3070f885069f8f09eb
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9417da51974d70b68528d0d38ed2aa065576da18992311f443f57eb70377b35a
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2450d0f517cf62b4f3a015159fe38db28367eb0c801cb5225a1b0f787d5dab99
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:29eb939b26d6f551db8d7074c3cce05769523646edbde94bdcfcf35d61bc8110
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e779a0b2c2a3ad985f3f55d1ce49fd69594728e960e944e220a1338fd43bc335
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:584643f2a79df1538d3f949cf4a835bec142b64a553256df7939bcbd22be0239
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b87d7520e5c4522a68dbd37ed2479be5e1a14db81e2ef489ecd23f9218d190e0
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7cf12f3a30d07de0068e40183f8060da3680a455554f62dd104c0e905fb0bf5
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e4d36ee848a393c30e3e5c4fa3aa77d375c6146cf30c4d23f89f99b1beaf537
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcc4feba00073f29deb4ad23d7b496e19059f229ff63aac62d469be206d14266
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.18552875695732837,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 5.569,
       "eval_steps_per_second": 0.182,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.403110712901632e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2782931354359926,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.569,
       "eval_steps_per_second": 0.182,
       "step": 200
+    },
+    {
+      "epoch": 0.18645640074211503,
+      "grad_norm": 3.4353301525115967,
+      "learning_rate": 1.9549799180279793e-05,
+      "loss": 0.2293,
+      "step": 201
+    },
+    {
+      "epoch": 0.18738404452690166,
+      "grad_norm": 3.4561715126037598,
+      "learning_rate": 1.9540140680664915e-05,
+      "loss": 0.1131,
+      "step": 202
+    },
+    {
+      "epoch": 0.18831168831168832,
+      "grad_norm": 4.9482293128967285,
+      "learning_rate": 1.953038210948861e-05,
+      "loss": 0.2009,
+      "step": 203
+    },
+    {
+      "epoch": 0.18923933209647495,
+      "grad_norm": 4.263972759246826,
+      "learning_rate": 1.952052356911368e-05,
+      "loss": 0.2624,
+      "step": 204
+    },
+    {
+      "epoch": 0.1901669758812616,
+      "grad_norm": 4.766571044921875,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 0.1823,
+      "step": 205
+    },
+    {
+      "epoch": 0.19109461966604824,
+      "grad_norm": 5.494351387023926,
+      "learning_rate": 1.950050699546116e-05,
+      "loss": 0.2365,
+      "step": 206
+    },
+    {
+      "epoch": 0.19202226345083487,
+      "grad_norm": 5.0484795570373535,
+      "learning_rate": 1.9490349172147964e-05,
+      "loss": 0.2197,
+      "step": 207
+    },
+    {
+      "epoch": 0.19294990723562153,
+      "grad_norm": 4.198167324066162,
+      "learning_rate": 1.9480091799562706e-05,
+      "loss": 0.1825,
+      "step": 208
+    },
+    {
+      "epoch": 0.19387755102040816,
+      "grad_norm": 4.7388105392456055,
+      "learning_rate": 1.9469734985300373e-05,
+      "loss": 0.2195,
+      "step": 209
+    },
+    {
+      "epoch": 0.19480519480519481,
+      "grad_norm": 4.556212902069092,
+      "learning_rate": 1.9459278837999048e-05,
+      "loss": 0.2085,
+      "step": 210
+    },
+    {
+      "epoch": 0.19573283858998144,
+      "grad_norm": 5.153113842010498,
+      "learning_rate": 1.9448723467338765e-05,
+      "loss": 0.2332,
+      "step": 211
+    },
+    {
+      "epoch": 0.19666048237476808,
+      "grad_norm": 2.6720712184906006,
+      "learning_rate": 1.9438068984040366e-05,
+      "loss": 0.1761,
+      "step": 212
+    },
+    {
+      "epoch": 0.19758812615955473,
+      "grad_norm": 2.9613466262817383,
+      "learning_rate": 1.9427315499864345e-05,
+      "loss": 0.1877,
+      "step": 213
+    },
+    {
+      "epoch": 0.19851576994434136,
+      "grad_norm": 3.5731585025787354,
+      "learning_rate": 1.9416463127609655e-05,
+      "loss": 0.2018,
+      "step": 214
+    },
+    {
+      "epoch": 0.19944341372912802,
+      "grad_norm": 4.205770015716553,
+      "learning_rate": 1.9405511981112553e-05,
+      "loss": 0.1952,
+      "step": 215
+    },
+    {
+      "epoch": 0.20037105751391465,
+      "grad_norm": 4.905291557312012,
+      "learning_rate": 1.9394462175245382e-05,
+      "loss": 0.2482,
+      "step": 216
+    },
+    {
+      "epoch": 0.2012987012987013,
+      "grad_norm": 6.575018405914307,
+      "learning_rate": 1.9383313825915372e-05,
+      "loss": 0.2007,
+      "step": 217
+    },
+    {
+      "epoch": 0.20222634508348794,
+      "grad_norm": 4.795684814453125,
+      "learning_rate": 1.937206705006344e-05,
+      "loss": 0.1878,
+      "step": 218
+    },
+    {
+      "epoch": 0.20315398886827457,
+      "grad_norm": 3.1328468322753906,
+      "learning_rate": 1.9360721965662934e-05,
+      "loss": 0.1864,
+      "step": 219
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 3.297593355178833,
+      "learning_rate": 1.9349278691718426e-05,
+      "loss": 0.2033,
+      "step": 220
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "eval_accuracy": 0.8370288248337029,
+      "eval_f1": 0.6423357664233577,
+      "eval_loss": 0.34552833437919617,
+      "eval_precision": 0.8354430379746836,
+      "eval_recall": 0.5217391304347826,
+      "eval_runtime": 48.9715,
+      "eval_samples_per_second": 5.636,
+      "eval_steps_per_second": 0.184,
+      "step": 220
+    },
+    {
+      "epoch": 0.20500927643784786,
+      "grad_norm": 3.253046989440918,
+      "learning_rate": 1.9337737348264448e-05,
+      "loss": 0.2099,
+      "step": 221
+    },
+    {
+      "epoch": 0.20593692022263452,
+      "grad_norm": 4.903271675109863,
+      "learning_rate": 1.9326098056364224e-05,
+      "loss": 0.2595,
+      "step": 222
+    },
+    {
+      "epoch": 0.20686456400742115,
+      "grad_norm": 6.408766746520996,
+      "learning_rate": 1.9314360938108427e-05,
+      "loss": 0.2615,
+      "step": 223
+    },
+    {
+      "epoch": 0.2077922077922078,
+      "grad_norm": 4.407992839813232,
+      "learning_rate": 1.9302526116613863e-05,
+      "loss": 0.1009,
+      "step": 224
+    },
+    {
+      "epoch": 0.20871985157699444,
+      "grad_norm": 2.9286835193634033,
+      "learning_rate": 1.9290593716022218e-05,
+      "loss": 0.1412,
+      "step": 225
+    },
+    {
+      "epoch": 0.20964749536178107,
+      "grad_norm": 3.6685068607330322,
+      "learning_rate": 1.9278563861498726e-05,
+      "loss": 0.221,
+      "step": 226
+    },
+    {
+      "epoch": 0.21057513914656772,
+      "grad_norm": 4.300150394439697,
+      "learning_rate": 1.9266436679230866e-05,
+      "loss": 0.1645,
+      "step": 227
+    },
+    {
+      "epoch": 0.21150278293135436,
+      "grad_norm": 4.307882308959961,
+      "learning_rate": 1.9254212296427043e-05,
+      "loss": 0.2284,
+      "step": 228
+    },
+    {
+      "epoch": 0.212430426716141,
+      "grad_norm": 2.4391989707946777,
+      "learning_rate": 1.924189084131525e-05,
+      "loss": 0.118,
+      "step": 229
+    },
+    {
+      "epoch": 0.21335807050092764,
+      "grad_norm": 5.997758388519287,
+      "learning_rate": 1.922947244314172e-05,
+      "loss": 0.2798,
+      "step": 230
+    },
+    {
+      "epoch": 0.21428571428571427,
+      "grad_norm": 4.957704544067383,
+      "learning_rate": 1.9216957232169567e-05,
+      "loss": 0.1852,
+      "step": 231
+    },
+    {
+      "epoch": 0.21521335807050093,
+      "grad_norm": 5.667599678039551,
+      "learning_rate": 1.9204345339677442e-05,
+      "loss": 0.2155,
+      "step": 232
+    },
+    {
+      "epoch": 0.21614100185528756,
+      "grad_norm": 4.291685104370117,
+      "learning_rate": 1.9191636897958123e-05,
+      "loss": 0.2637,
+      "step": 233
+    },
+    {
+      "epoch": 0.21706864564007422,
+      "grad_norm": 4.587561130523682,
+      "learning_rate": 1.9178832040317153e-05,
+      "loss": 0.2383,
+      "step": 234
+    },
+    {
+      "epoch": 0.21799628942486085,
+      "grad_norm": 3.8426513671875,
+      "learning_rate": 1.916593090107143e-05,
+      "loss": 0.212,
+      "step": 235
+    },
+    {
+      "epoch": 0.2189239332096475,
+      "grad_norm": 5.173671722412109,
+      "learning_rate": 1.91529336155478e-05,
+      "loss": 0.2054,
+      "step": 236
+    },
+    {
+      "epoch": 0.21985157699443414,
+      "grad_norm": 4.827680587768555,
+      "learning_rate": 1.913984032008163e-05,
+      "loss": 0.2072,
+      "step": 237
+    },
+    {
+      "epoch": 0.22077922077922077,
+      "grad_norm": 7.693399906158447,
+      "learning_rate": 1.9126651152015404e-05,
+      "loss": 0.2071,
+      "step": 238
+    },
+    {
+      "epoch": 0.22170686456400743,
+      "grad_norm": 3.128953695297241,
+      "learning_rate": 1.911336624969725e-05,
+      "loss": 0.2271,
+      "step": 239
+    },
+    {
+      "epoch": 0.22263450834879406,
+      "grad_norm": 6.966447353363037,
+      "learning_rate": 1.9099985752479505e-05,
+      "loss": 0.2448,
+      "step": 240
+    },
+    {
+      "epoch": 0.22263450834879406,
+      "eval_accuracy": 0.8381374722838137,
+      "eval_f1": 0.6403940886699507,
+      "eval_loss": 0.34381967782974243,
+      "eval_precision": 0.8496732026143791,
+      "eval_recall": 0.5138339920948617,
+      "eval_runtime": 48.6504,
+      "eval_samples_per_second": 5.673,
+      "eval_steps_per_second": 0.185,
+      "step": 240
+    },
+    {
+      "epoch": 0.22356215213358072,
+      "grad_norm": 4.817497730255127,
+      "learning_rate": 1.908650980071726e-05,
+      "loss": 0.1878,
+      "step": 241
+    },
+    {
+      "epoch": 0.22448979591836735,
+      "grad_norm": 3.612339973449707,
+      "learning_rate": 1.9072938535766864e-05,
+      "loss": 0.1226,
+      "step": 242
+    },
+    {
+      "epoch": 0.22541743970315398,
+      "grad_norm": 4.005315780639648,
+      "learning_rate": 1.905927209998447e-05,
+      "loss": 0.2076,
+      "step": 243
+    },
+    {
+      "epoch": 0.22634508348794063,
+      "grad_norm": 3.032423496246338,
+      "learning_rate": 1.904551063672452e-05,
+      "loss": 0.1511,
+      "step": 244
+    },
+    {
+      "epoch": 0.22727272727272727,
+      "grad_norm": 3.060365676879883,
+      "learning_rate": 1.9031654290338256e-05,
+      "loss": 0.1954,
+      "step": 245
+    },
+    {
+      "epoch": 0.22820037105751392,
+      "grad_norm": 5.271503448486328,
+      "learning_rate": 1.9017703206172187e-05,
+      "loss": 0.2244,
+      "step": 246
+    },
+    {
+      "epoch": 0.22912801484230055,
+      "grad_norm": 2.923628568649292,
+      "learning_rate": 1.900365753056659e-05,
+      "loss": 0.1753,
+      "step": 247
+    },
+    {
+      "epoch": 0.2300556586270872,
+      "grad_norm": 3.745664119720459,
+      "learning_rate": 1.8989517410853956e-05,
+      "loss": 0.188,
+      "step": 248
+    },
+    {
+      "epoch": 0.23098330241187384,
+      "grad_norm": 3.7633256912231445,
+      "learning_rate": 1.8975282995357448e-05,
+      "loss": 0.201,
+      "step": 249
+    },
+    {
+      "epoch": 0.23191094619666047,
+      "grad_norm": 3.29656720161438,
+      "learning_rate": 1.896095443338935e-05,
+      "loss": 0.1956,
+      "step": 250
+    },
+    {
+      "epoch": 0.23283858998144713,
+      "grad_norm": 4.702951431274414,
+      "learning_rate": 1.8946531875249496e-05,
+      "loss": 0.2101,
+      "step": 251
+    },
+    {
+      "epoch": 0.23376623376623376,
+      "grad_norm": 7.016535758972168,
+      "learning_rate": 1.8932015472223692e-05,
+      "loss": 0.2486,
+      "step": 252
+    },
+    {
+      "epoch": 0.23469387755102042,
+      "grad_norm": 4.004672050476074,
+      "learning_rate": 1.8917405376582144e-05,
+      "loss": 0.239,
+      "step": 253
+    },
+    {
+      "epoch": 0.23562152133580705,
+      "grad_norm": 4.382692337036133,
+      "learning_rate": 1.8902701741577844e-05,
+      "loss": 0.2308,
+      "step": 254
+    },
+    {
+      "epoch": 0.23654916512059368,
+      "grad_norm": 4.72487735748291,
+      "learning_rate": 1.8887904721444955e-05,
+      "loss": 0.2098,
+      "step": 255
+    },
+    {
+      "epoch": 0.23747680890538034,
+      "grad_norm": 3.4035651683807373,
+      "learning_rate": 1.8873014471397225e-05,
+      "loss": 0.101,
+      "step": 256
+    },
+    {
+      "epoch": 0.23840445269016697,
+      "grad_norm": 7.383582592010498,
+      "learning_rate": 1.8858031147626326e-05,
+      "loss": 0.2499,
+      "step": 257
+    },
+    {
+      "epoch": 0.23933209647495363,
+      "grad_norm": 4.3388895988464355,
+      "learning_rate": 1.8842954907300236e-05,
+      "loss": 0.1859,
+      "step": 258
+    },
+    {
+      "epoch": 0.24025974025974026,
+      "grad_norm": 3.2572548389434814,
+      "learning_rate": 1.8827785908561585e-05,
+      "loss": 0.1833,
+      "step": 259
+    },
+    {
+      "epoch": 0.24118738404452691,
+      "grad_norm": 7.2369561195373535,
+      "learning_rate": 1.881252431052599e-05,
+      "loss": 0.2337,
+      "step": 260
+    },
+    {
+      "epoch": 0.24118738404452691,
+      "eval_accuracy": 0.8281596452328159,
+      "eval_f1": 0.5931758530183727,
+      "eval_loss": 0.3704891502857208,
+      "eval_precision": 0.8828125,
+      "eval_recall": 0.44664031620553357,
+      "eval_runtime": 47.7821,
+      "eval_samples_per_second": 5.776,
+      "eval_steps_per_second": 0.188,
+      "step": 260
+    },
+    {
+      "epoch": 0.24211502782931354,
+      "grad_norm": 6.052790641784668,
+      "learning_rate": 1.879717027328039e-05,
+      "loss": 0.2569,
+      "step": 261
+    },
+    {
+      "epoch": 0.24304267161410018,
+      "grad_norm": 3.246156692504883,
+      "learning_rate": 1.8781723957881374e-05,
+      "loss": 0.1871,
+      "step": 262
+    },
+    {
+      "epoch": 0.24397031539888683,
+      "grad_norm": 6.536667823791504,
+      "learning_rate": 1.876618552635348e-05,
+      "loss": 0.1425,
+      "step": 263
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 5.4920830726623535,
+      "learning_rate": 1.87505551416875e-05,
+      "loss": 0.2275,
+      "step": 264
+    },
+    {
+      "epoch": 0.24582560296846012,
+      "grad_norm": 7.879229545593262,
+      "learning_rate": 1.8734832967838775e-05,
+      "loss": 0.2852,
+      "step": 265
+    },
+    {
+      "epoch": 0.24675324675324675,
+      "grad_norm": 3.7755329608917236,
+      "learning_rate": 1.871901916972547e-05,
+      "loss": 0.1967,
+      "step": 266
+    },
+    {
+      "epoch": 0.24768089053803338,
+      "grad_norm": 4.236266136169434,
+      "learning_rate": 1.8703113913226847e-05,
+      "loss": 0.1302,
+      "step": 267
+    },
+    {
+      "epoch": 0.24860853432282004,
+      "grad_norm": 5.8521599769592285,
+      "learning_rate": 1.8687117365181514e-05,
+      "loss": 0.2866,
+      "step": 268
+    },
+    {
+      "epoch": 0.24953617810760667,
+      "grad_norm": 2.9448065757751465,
+      "learning_rate": 1.867102969338569e-05,
+      "loss": 0.171,
+      "step": 269
+    },
+    {
+      "epoch": 0.2504638218923933,
+      "grad_norm": 4.411244869232178,
+      "learning_rate": 1.865485106659145e-05,
+      "loss": 0.1424,
+      "step": 270
+    },
+    {
+      "epoch": 0.25139146567717996,
+      "grad_norm": 5.2516655921936035,
+      "learning_rate": 1.863858165450492e-05,
+      "loss": 0.2166,
+      "step": 271
+    },
+    {
+      "epoch": 0.2523191094619666,
+      "grad_norm": 2.6857924461364746,
+      "learning_rate": 1.862222162778454e-05,
+      "loss": 0.1786,
+      "step": 272
+    },
+    {
+      "epoch": 0.2532467532467532,
+      "grad_norm": 6.46083927154541,
+      "learning_rate": 1.8605771158039253e-05,
+      "loss": 0.1817,
+      "step": 273
+    },
+    {
+      "epoch": 0.2541743970315399,
+      "grad_norm": 6.851802349090576,
+      "learning_rate": 1.85892304178267e-05,
+      "loss": 0.174,
+      "step": 274
+    },
+    {
+      "epoch": 0.25510204081632654,
+      "grad_norm": 4.372910022735596,
+      "learning_rate": 1.8572599580651415e-05,
+      "loss": 0.211,
+      "step": 275
+    },
+    {
+      "epoch": 0.2560296846011132,
+      "grad_norm": 8.214804649353027,
+      "learning_rate": 1.8555878820963014e-05,
+      "loss": 0.2295,
+      "step": 276
+    },
+    {
+      "epoch": 0.2569573283858998,
+      "grad_norm": 3.299901247024536,
+      "learning_rate": 1.8539068314154355e-05,
+      "loss": 0.1784,
+      "step": 277
+    },
+    {
+      "epoch": 0.25788497217068646,
+      "grad_norm": 3.1576666831970215,
+      "learning_rate": 1.8522168236559693e-05,
+      "loss": 0.1864,
+      "step": 278
+    },
+    {
+      "epoch": 0.2588126159554731,
+      "grad_norm": 6.918071269989014,
+      "learning_rate": 1.8505178765452853e-05,
+      "loss": 0.2015,
+      "step": 279
+    },
+    {
+      "epoch": 0.2597402597402597,
+      "grad_norm": 2.884896755218506,
+      "learning_rate": 1.8488100079045345e-05,
+      "loss": 0.1698,
+      "step": 280
+    },
+    {
+      "epoch": 0.2597402597402597,
+      "eval_accuracy": 0.8215077605321508,
+      "eval_f1": 0.5729442970822282,
+      "eval_loss": 0.37236273288726807,
+      "eval_precision": 0.8709677419354839,
+      "eval_recall": 0.4268774703557312,
+      "eval_runtime": 48.19,
+      "eval_samples_per_second": 5.727,
+      "eval_steps_per_second": 0.187,
+      "step": 280
+    },
+    {
+      "epoch": 0.2606679035250464,
+      "grad_norm": 2.52854061126709,
+      "learning_rate": 1.847093235648451e-05,
+      "loss": 0.1427,
+      "step": 281
+    },
+    {
+      "epoch": 0.26159554730983303,
+      "grad_norm": 3.8434646129608154,
+      "learning_rate": 1.8453675777851627e-05,
+      "loss": 0.2429,
+      "step": 282
+    },
+    {
+      "epoch": 0.2625231910946197,
+      "grad_norm": 3.32183837890625,
+      "learning_rate": 1.8436330524160048e-05,
+      "loss": 0.1672,
+      "step": 283
+    },
+    {
+      "epoch": 0.2634508348794063,
+      "grad_norm": 3.077954053878784,
+      "learning_rate": 1.8418896777353272e-05,
+      "loss": 0.1511,
+      "step": 284
+    },
+    {
+      "epoch": 0.26437847866419295,
+      "grad_norm": 6.1399617195129395,
+      "learning_rate": 1.8401374720303054e-05,
+      "loss": 0.1989,
+      "step": 285
+    },
+    {
+      "epoch": 0.2653061224489796,
+      "grad_norm": 4.476570129394531,
+      "learning_rate": 1.8383764536807486e-05,
+      "loss": 0.2204,
+      "step": 286
+    },
+    {
+      "epoch": 0.2662337662337662,
+      "grad_norm": 3.3272931575775146,
+      "learning_rate": 1.836606641158905e-05,
+      "loss": 0.1733,
+      "step": 287
+    },
+    {
+      "epoch": 0.26716141001855287,
+      "grad_norm": 3.8696646690368652,
+      "learning_rate": 1.8348280530292712e-05,
+      "loss": 0.2698,
+      "step": 288
+    },
+    {
+      "epoch": 0.2680890538033395,
+      "grad_norm": 4.347325325012207,
+      "learning_rate": 1.833040707948395e-05,
+      "loss": 0.2098,
+      "step": 289
+    },
+    {
+      "epoch": 0.2690166975881262,
+      "grad_norm": 3.8024332523345947,
+      "learning_rate": 1.831244624664681e-05,
+      "loss": 0.2092,
+      "step": 290
+    },
+    {
+      "epoch": 0.2699443413729128,
+      "grad_norm": 3.742701768875122,
+      "learning_rate": 1.829439822018192e-05,
+      "loss": 0.1793,
+      "step": 291
+    },
+    {
+      "epoch": 0.27087198515769945,
+      "grad_norm": 4.459840774536133,
+      "learning_rate": 1.827626318940454e-05,
+      "loss": 0.224,
+      "step": 292
+    },
+    {
+      "epoch": 0.2717996289424861,
+      "grad_norm": 3.4559335708618164,
+      "learning_rate": 1.8258041344542567e-05,
+      "loss": 0.2342,
+      "step": 293
+    },
+    {
+      "epoch": 0.2727272727272727,
+      "grad_norm": 4.520707607269287,
+      "learning_rate": 1.8239732876734525e-05,
+      "loss": 0.2899,
+      "step": 294
+    },
+    {
+      "epoch": 0.27365491651205937,
+      "grad_norm": 3.844388246536255,
+      "learning_rate": 1.822133797802758e-05,
+      "loss": 0.172,
+      "step": 295
+    },
+    {
+      "epoch": 0.274582560296846,
+      "grad_norm": 3.944843292236328,
+      "learning_rate": 1.8202856841375517e-05,
+      "loss": 0.1602,
+      "step": 296
+    },
+    {
+      "epoch": 0.2755102040816326,
+      "grad_norm": 2.833136796951294,
+      "learning_rate": 1.8184289660636715e-05,
+      "loss": 0.1829,
+      "step": 297
+    },
+    {
+      "epoch": 0.2764378478664193,
+      "grad_norm": 5.877793312072754,
+      "learning_rate": 1.816563663057211e-05,
+      "loss": 0.1776,
+      "step": 298
+    },
+    {
+      "epoch": 0.27736549165120594,
+      "grad_norm": 7.863223552703857,
+      "learning_rate": 1.8146897946843162e-05,
+      "loss": 0.2734,
+      "step": 299
+    },
+    {
+      "epoch": 0.2782931354359926,
+      "grad_norm": 3.5865793228149414,
+      "learning_rate": 1.81280738060098e-05,
+      "loss": 0.1607,
+      "step": 300
+    },
+    {
+      "epoch": 0.2782931354359926,
+      "eval_accuracy": 0.8292682926829268,
+      "eval_f1": 0.6010362694300518,
+      "eval_loss": 0.34550240635871887,
+      "eval_precision": 0.8721804511278195,
+      "eval_recall": 0.45849802371541504,
+      "eval_runtime": 47.9887,
+      "eval_samples_per_second": 5.751,
+      "eval_steps_per_second": 0.188,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.58457253545902e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null