Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4eee0bc20bfe612a2406db1927bad535b871029a1459cdfff99c1d8c6c7f3b63
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6939fa8cdf25c762650f2d3d3355a3af6563f0ff00721b627282f60908c3f59
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8480d8b71bc4ba12fadce2b7092485478b8c309ecce318c15ffc6f83a418ea33
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c7b3f1a318e2cc496fca5a0e17c82951b82e48847a73776b67435515bd3b117
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:865ffb2bdf7738b5a7a48e25068e631a1f4cfd3495ea1df1c76166542115412a
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:c357e6d93334bf277b9c7d69bbecfbf0d574ee83594d4aefca9a358b7697dc63
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bc6404ab67370a58b70ca5d2e8919c5e01e34f1cb289a4a6bd798d70aee2dbd
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3df6316f9b70a49fe93ecd1dcb217b8cf2b9f1d06201e9cd378d30cf1ac2444
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3498e0b6a4e7ed2241f24f000b2120ffa644d285a44cfde97745c9efb6ed358b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:735c4d9885bdc1f40b2e139d1c5be6fdf8fb80870faadee69ed0f5b65eb4bf69
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d06a365662a6d32a03d081ca66ae94093585c255a49fe32e4fc6101155e341c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fa86e6ee20e276dd223620f5f73051d773a3cf00f532b08afcae9924c2b3c84
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44818d96fc5cb3fb73cb12c5017e94708a24961757ad115fff879a4c54351a1b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1545702147d9ee97bdd5dc7bbcde2426e2ae21146f2807dae5aded5896daaa7
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7503aeea618e7970daff2e762d6b9cc3c0b593f25c7e566d92c8b37634b729e0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:07fbf2ec86fb6b1d0da0836072b0dca651e3c394204002f1ed426eecc30a569a
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7be0f10bff4b59eb4d3472c8dc5f6f8b12c709dd561a83d4586f3461ec1745a5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:b97d0b3b52285a9a23cb592a2b624fc30f4e8b1b49dee2093250a42185714fae
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e61888020fafc126b7e547b5961b63a5561eea0a9665cf9acb78e192fc0856bc
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:14c4dc09b19022d70ab1e7f40c998143b4e686e79e0e83e59d15521c0f0652bd
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:065119fcdbace59dd30c03371fc097ed8d58b83537d1b5e3a1f5c321afd26dfd
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed26153973e4964d16eab6644bf6fd88bae202c6e07155a00cad65a1de0f6bcf
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:061f461111f5cd0052d853db52e46aef61f148d9da594c2cc07a97c23921266c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ddf99c805abb2056960209b3190c0de826effa11fd4c4b1fb50ceb4079b7f5b
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2f6d7e0e198940381bc01669f2b59ed3c54273b38889812ff9b29559c995120
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:36e32dd1a5ae7a273ff3b5c3ef07147f38ae674d07fd46f56c265e9de492bff2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24752475247524752,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 5.728,
       "eval_steps_per_second": 0.187,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.099415773216768e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3712871287128713,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.728,
       "eval_steps_per_second": 0.187,
       "step": 200
+    },
+    {
+      "epoch": 0.24876237623762376,
+      "grad_norm": 8.231904983520508,
+      "learning_rate": 1.8685351516343277e-05,
+      "loss": 0.2536,
+      "step": 201
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 4.1948041915893555,
+      "learning_rate": 1.8663852883425045e-05,
+      "loss": 0.295,
+      "step": 202
+    },
+    {
+      "epoch": 0.25123762376237624,
+      "grad_norm": 5.275994777679443,
+      "learning_rate": 1.86421924643655e-05,
+      "loss": 0.2739,
+      "step": 203
+    },
+    {
+      "epoch": 0.2524752475247525,
+      "grad_norm": 4.482490062713623,
+      "learning_rate": 1.8620370663644676e-05,
+      "loss": 0.1973,
+      "step": 204
+    },
+    {
+      "epoch": 0.2537128712871287,
+      "grad_norm": 3.5862739086151123,
+      "learning_rate": 1.8598387888756224e-05,
+      "loss": 0.2146,
+      "step": 205
+    },
+    {
+      "epoch": 0.25495049504950495,
+      "grad_norm": 3.1812057495117188,
+      "learning_rate": 1.857624455019976e-05,
+      "loss": 0.2104,
+      "step": 206
+    },
+    {
+      "epoch": 0.2561881188118812,
+      "grad_norm": 6.783030986785889,
+      "learning_rate": 1.855394106147322e-05,
+      "loss": 0.2979,
+      "step": 207
+    },
+    {
+      "epoch": 0.25742574257425743,
+      "grad_norm": 6.715686321258545,
+      "learning_rate": 1.853147783906514e-05,
+      "loss": 0.2952,
+      "step": 208
+    },
+    {
+      "epoch": 0.25866336633663367,
+      "grad_norm": 5.6060028076171875,
+      "learning_rate": 1.8508855302446868e-05,
+      "loss": 0.2323,
+      "step": 209
+    },
+    {
+      "epoch": 0.2599009900990099,
+      "grad_norm": 4.204987049102783,
+      "learning_rate": 1.8486073874064745e-05,
+      "loss": 0.216,
+      "step": 210
+    },
+    {
+      "epoch": 0.26113861386138615,
+      "grad_norm": 5.449676036834717,
+      "learning_rate": 1.84631339793322e-05,
+      "loss": 0.1925,
+      "step": 211
+    },
+    {
+      "epoch": 0.2623762376237624,
+      "grad_norm": 4.839028835296631,
+      "learning_rate": 1.8440036046621816e-05,
+      "loss": 0.2531,
+      "step": 212
+    },
+    {
+      "epoch": 0.2636138613861386,
+      "grad_norm": 5.816053867340088,
+      "learning_rate": 1.8416780507257334e-05,
+      "loss": 0.2866,
+      "step": 213
+    },
+    {
+      "epoch": 0.26485148514851486,
+      "grad_norm": 4.106687545776367,
+      "learning_rate": 1.8393367795505587e-05,
+      "loss": 0.1797,
+      "step": 214
+    },
+    {
+      "epoch": 0.2660891089108911,
+      "grad_norm": 3.8408498764038086,
+      "learning_rate": 1.8369798348568403e-05,
+      "loss": 0.2328,
+      "step": 215
+    },
+    {
+      "epoch": 0.26732673267326734,
+      "grad_norm": 3.9387855529785156,
+      "learning_rate": 1.834607260657443e-05,
+      "loss": 0.2067,
+      "step": 216
+    },
+    {
+      "epoch": 0.2685643564356436,
+      "grad_norm": 3.855027198791504,
+      "learning_rate": 1.832219101257092e-05,
+      "loss": 0.2408,
+      "step": 217
+    },
+    {
+      "epoch": 0.2698019801980198,
+      "grad_norm": 5.5736494064331055,
+      "learning_rate": 1.829815401251547e-05,
+      "loss": 0.2225,
+      "step": 218
+    },
+    {
+      "epoch": 0.27103960396039606,
+      "grad_norm": 5.179149150848389,
+      "learning_rate": 1.8273962055267667e-05,
+      "loss": 0.2575,
+      "step": 219
+    },
+    {
+      "epoch": 0.2722772277227723,
+      "grad_norm": 8.503008842468262,
+      "learning_rate": 1.8249615592580733e-05,
+      "loss": 0.2965,
+      "step": 220
+    },
+    {
+      "epoch": 0.2722772277227723,
+      "eval_accuracy": 0.844789356984479,
+      "eval_f1": 0.6682464454976303,
+      "eval_loss": 0.3314219117164612,
+      "eval_precision": 0.834319526627219,
+      "eval_recall": 0.5573122529644269,
+      "eval_runtime": 48.2502,
+      "eval_samples_per_second": 5.72,
+      "eval_steps_per_second": 0.187,
+      "step": 220
+    },
+    {
+      "epoch": 0.27351485148514854,
+      "grad_norm": 4.444825172424316,
+      "learning_rate": 1.822511507909307e-05,
+      "loss": 0.1907,
+      "step": 221
+    },
+    {
+      "epoch": 0.2747524752475248,
+      "grad_norm": 6.425011157989502,
+      "learning_rate": 1.8200460972319786e-05,
+      "loss": 0.2938,
+      "step": 222
+    },
+    {
+      "epoch": 0.275990099009901,
+      "grad_norm": 3.5462961196899414,
+      "learning_rate": 1.817565373264413e-05,
+      "loss": 0.2045,
+      "step": 223
+    },
+    {
+      "epoch": 0.27722772277227725,
+      "grad_norm": 5.254908084869385,
+      "learning_rate": 1.8150693823308913e-05,
+      "loss": 0.1644,
+      "step": 224
+    },
+    {
+      "epoch": 0.2784653465346535,
+      "grad_norm": 4.101227283477783,
+      "learning_rate": 1.8125581710407864e-05,
+      "loss": 0.1875,
+      "step": 225
+    },
+    {
+      "epoch": 0.27970297029702973,
+      "grad_norm": 3.370792865753174,
+      "learning_rate": 1.8100317862876902e-05,
+      "loss": 0.1715,
+      "step": 226
+    },
+    {
+      "epoch": 0.28094059405940597,
+      "grad_norm": 4.758403778076172,
+      "learning_rate": 1.8074902752485392e-05,
+      "loss": 0.2956,
+      "step": 227
+    },
+    {
+      "epoch": 0.28217821782178215,
+      "grad_norm": 5.75641393661499,
+      "learning_rate": 1.8049336853827343e-05,
+      "loss": 0.2601,
+      "step": 228
+    },
+    {
+      "epoch": 0.2834158415841584,
+      "grad_norm": 3.241687059402466,
+      "learning_rate": 1.8023620644312538e-05,
+      "loss": 0.2022,
+      "step": 229
+    },
+    {
+      "epoch": 0.28465346534653463,
+      "grad_norm": 4.085322856903076,
+      "learning_rate": 1.7997754604157607e-05,
+      "loss": 0.2132,
+      "step": 230
+    },
+    {
+      "epoch": 0.28589108910891087,
+      "grad_norm": 5.415487766265869,
+      "learning_rate": 1.797173921637709e-05,
+      "loss": 0.1825,
+      "step": 231
+    },
+    {
+      "epoch": 0.2871287128712871,
+      "grad_norm": 4.1402907371521,
+      "learning_rate": 1.794557496677438e-05,
+      "loss": 0.2029,
+      "step": 232
+    },
+    {
+      "epoch": 0.28836633663366334,
+      "grad_norm": 4.597172737121582,
+      "learning_rate": 1.791926234393268e-05,
+      "loss": 0.1929,
+      "step": 233
+    },
+    {
+      "epoch": 0.2896039603960396,
+      "grad_norm": 6.450316905975342,
+      "learning_rate": 1.7892801839205867e-05,
+      "loss": 0.2061,
+      "step": 234
+    },
+    {
+      "epoch": 0.2908415841584158,
+      "grad_norm": 4.549274444580078,
+      "learning_rate": 1.786619394670933e-05,
+      "loss": 0.2288,
+      "step": 235
+    },
+    {
+      "epoch": 0.29207920792079206,
+      "grad_norm": 8.562817573547363,
+      "learning_rate": 1.7839439163310714e-05,
+      "loss": 0.2791,
+      "step": 236
+    },
+    {
+      "epoch": 0.2933168316831683,
+      "grad_norm": 4.906472206115723,
+      "learning_rate": 1.7812537988620678e-05,
+      "loss": 0.2505,
+      "step": 237
+    },
+    {
+      "epoch": 0.29455445544554454,
+      "grad_norm": 4.514908790588379,
+      "learning_rate": 1.7785490924983526e-05,
+      "loss": 0.2033,
+      "step": 238
+    },
+    {
+      "epoch": 0.2957920792079208,
+      "grad_norm": 5.586214065551758,
+      "learning_rate": 1.7758298477467865e-05,
+      "loss": 0.1828,
+      "step": 239
+    },
+    {
+      "epoch": 0.297029702970297,
+      "grad_norm": 11.2735595703125,
+      "learning_rate": 1.7730961153857155e-05,
+      "loss": 0.2379,
+      "step": 240
+    },
+    {
+      "epoch": 0.297029702970297,
+      "eval_accuracy": 0.8148558758314856,
+      "eval_f1": 0.5570291777188329,
+      "eval_loss": 0.3735515773296356,
+      "eval_precision": 0.8467741935483871,
+      "eval_recall": 0.4150197628458498,
+      "eval_runtime": 48.8987,
+      "eval_samples_per_second": 5.644,
+      "eval_steps_per_second": 0.184,
+      "step": 240
+    },
+    {
+      "epoch": 0.29826732673267325,
+      "grad_norm": 6.920717239379883,
+      "learning_rate": 1.7703479464640218e-05,
+      "loss": 0.2756,
+      "step": 241
+    },
+    {
+      "epoch": 0.2995049504950495,
+      "grad_norm": 5.730903625488281,
+      "learning_rate": 1.767585392300172e-05,
+      "loss": 0.1745,
+      "step": 242
+    },
+    {
+      "epoch": 0.30074257425742573,
+      "grad_norm": 4.035462856292725,
+      "learning_rate": 1.764808504481259e-05,
+      "loss": 0.1666,
+      "step": 243
+    },
+    {
+      "epoch": 0.30198019801980197,
+      "grad_norm": 4.878346920013428,
+      "learning_rate": 1.7620173348620368e-05,
+      "loss": 0.2491,
+      "step": 244
+    },
+    {
+      "epoch": 0.3032178217821782,
+      "grad_norm": 3.8003768920898438,
+      "learning_rate": 1.7592119355639545e-05,
+      "loss": 0.2041,
+      "step": 245
+    },
+    {
+      "epoch": 0.30445544554455445,
+      "grad_norm": 6.53809118270874,
+      "learning_rate": 1.7563923589741806e-05,
+      "loss": 0.2415,
+      "step": 246
+    },
+    {
+      "epoch": 0.3056930693069307,
+      "grad_norm": 3.5466408729553223,
+      "learning_rate": 1.7535586577446274e-05,
+      "loss": 0.1963,
+      "step": 247
+    },
+    {
+      "epoch": 0.3069306930693069,
+      "grad_norm": 4.167630195617676,
+      "learning_rate": 1.7507108847909656e-05,
+      "loss": 0.2261,
+      "step": 248
+    },
+    {
+      "epoch": 0.30816831683168316,
+      "grad_norm": 4.359383583068848,
+      "learning_rate": 1.7478490932916374e-05,
+      "loss": 0.1888,
+      "step": 249
+    },
+    {
+      "epoch": 0.3094059405940594,
+      "grad_norm": 8.298726081848145,
+      "learning_rate": 1.744973336686862e-05,
+      "loss": 0.2532,
+      "step": 250
+    },
+    {
+      "epoch": 0.31064356435643564,
+      "grad_norm": 5.459946632385254,
+      "learning_rate": 1.74208366867764e-05,
+      "loss": 0.2579,
+      "step": 251
+    },
+    {
+      "epoch": 0.3118811881188119,
+      "grad_norm": 4.424745559692383,
+      "learning_rate": 1.7391801432247487e-05,
+      "loss": 0.2071,
+      "step": 252
+    },
+    {
+      "epoch": 0.3131188118811881,
+      "grad_norm": 4.382404804229736,
+      "learning_rate": 1.7362628145477355e-05,
+      "loss": 0.2773,
+      "step": 253
+    },
+    {
+      "epoch": 0.31435643564356436,
+      "grad_norm": 3.338047742843628,
+      "learning_rate": 1.7333317371239046e-05,
+      "loss": 0.2231,
+      "step": 254
+    },
+    {
+      "epoch": 0.3155940594059406,
+      "grad_norm": 3.33626389503479,
+      "learning_rate": 1.7303869656872994e-05,
+      "loss": 0.2046,
+      "step": 255
+    },
+    {
+      "epoch": 0.31683168316831684,
+      "grad_norm": 3.3837637901306152,
+      "learning_rate": 1.727428555227683e-05,
+      "loss": 0.1503,
+      "step": 256
+    },
+    {
+      "epoch": 0.3180693069306931,
+      "grad_norm": 3.3898661136627197,
+      "learning_rate": 1.7244565609895074e-05,
+      "loss": 0.1641,
+      "step": 257
+    },
+    {
+      "epoch": 0.3193069306930693,
+      "grad_norm": 5.7499918937683105,
+      "learning_rate": 1.721471038470885e-05,
+      "loss": 0.268,
+      "step": 258
+    },
+    {
+      "epoch": 0.32054455445544555,
+      "grad_norm": 4.935744762420654,
+      "learning_rate": 1.7184720434225518e-05,
+      "loss": 0.2289,
+      "step": 259
+    },
+    {
+      "epoch": 0.3217821782178218,
+      "grad_norm": 3.377199411392212,
+      "learning_rate": 1.715459631846824e-05,
+      "loss": 0.1587,
+      "step": 260
+    },
+    {
+      "epoch": 0.3217821782178218,
+      "eval_accuracy": 0.8403547671840355,
+      "eval_f1": 0.6435643564356436,
+      "eval_loss": 0.33147069811820984,
+      "eval_precision": 0.8609271523178808,
+      "eval_recall": 0.5138339920948617,
+      "eval_runtime": 47.9408,
+      "eval_samples_per_second": 5.757,
+      "eval_steps_per_second": 0.188,
+      "step": 260
+    },
+    {
+      "epoch": 0.32301980198019803,
+      "grad_norm": 3.6289126873016357,
+      "learning_rate": 1.712433859996555e-05,
+      "loss": 0.2245,
+      "step": 261
+    },
+    {
+      "epoch": 0.32425742574257427,
+      "grad_norm": 3.2000958919525146,
+      "learning_rate": 1.7093947843740843e-05,
+      "loss": 0.2251,
+      "step": 262
+    },
+    {
+      "epoch": 0.3254950495049505,
+      "grad_norm": 4.913848400115967,
+      "learning_rate": 1.706342461730181e-05,
+      "loss": 0.1782,
+      "step": 263
+    },
+    {
+      "epoch": 0.32673267326732675,
+      "grad_norm": 5.196519374847412,
+      "learning_rate": 1.703276949062985e-05,
+      "loss": 0.2259,
+      "step": 264
+    },
+    {
+      "epoch": 0.327970297029703,
+      "grad_norm": 5.136421203613281,
+      "learning_rate": 1.700198303616944e-05,
+      "loss": 0.2132,
+      "step": 265
+    },
+    {
+      "epoch": 0.3292079207920792,
+      "grad_norm": 4.810065746307373,
+      "learning_rate": 1.6971065828817424e-05,
+      "loss": 0.1883,
+      "step": 266
+    },
+    {
+      "epoch": 0.33044554455445546,
+      "grad_norm": 4.666658878326416,
+      "learning_rate": 1.6940018445912275e-05,
+      "loss": 0.2087,
+      "step": 267
+    },
+    {
+      "epoch": 0.3316831683168317,
+      "grad_norm": 4.813300132751465,
+      "learning_rate": 1.690884146722334e-05,
+      "loss": 0.2631,
+      "step": 268
+    },
+    {
+      "epoch": 0.33292079207920794,
+      "grad_norm": 9.478407859802246,
+      "learning_rate": 1.687753547493999e-05,
+      "loss": 0.2618,
+      "step": 269
+    },
+    {
+      "epoch": 0.3341584158415842,
+      "grad_norm": 4.668523788452148,
+      "learning_rate": 1.684610105366076e-05,
+      "loss": 0.2025,
+      "step": 270
+    },
+    {
+      "epoch": 0.3353960396039604,
+      "grad_norm": 10.10991096496582,
+      "learning_rate": 1.6814538790382432e-05,
+      "loss": 0.2893,
+      "step": 271
+    },
+    {
+      "epoch": 0.33663366336633666,
+      "grad_norm": 6.124392509460449,
+      "learning_rate": 1.6782849274489055e-05,
+      "loss": 0.2382,
+      "step": 272
+    },
+    {
+      "epoch": 0.3378712871287129,
+      "grad_norm": 4.633864402770996,
+      "learning_rate": 1.6751033097740978e-05,
+      "loss": 0.1991,
+      "step": 273
+    },
+    {
+      "epoch": 0.33910891089108913,
+      "grad_norm": 4.003640174865723,
+      "learning_rate": 1.6719090854263752e-05,
+      "loss": 0.1811,
+      "step": 274
+    },
+    {
+      "epoch": 0.34034653465346537,
+      "grad_norm": 5.303317070007324,
+      "learning_rate": 1.6687023140537082e-05,
+      "loss": 0.3266,
+      "step": 275
+    },
+    {
+      "epoch": 0.3415841584158416,
+      "grad_norm": 4.467435836791992,
+      "learning_rate": 1.6654830555383648e-05,
+      "loss": 0.2174,
+      "step": 276
+    },
+    {
+      "epoch": 0.34282178217821785,
+      "grad_norm": 4.210566520690918,
+      "learning_rate": 1.662251369995795e-05,
+      "loss": 0.1746,
+      "step": 277
+    },
+    {
+      "epoch": 0.34405940594059403,
+      "grad_norm": 3.8887202739715576,
+      "learning_rate": 1.6590073177735066e-05,
+      "loss": 0.19,
+      "step": 278
+    },
+    {
+      "epoch": 0.34529702970297027,
+      "grad_norm": 4.348226547241211,
+      "learning_rate": 1.6557509594499405e-05,
+      "loss": 0.229,
+      "step": 279
+    },
+    {
+      "epoch": 0.3465346534653465,
+      "grad_norm": 3.498028039932251,
+      "learning_rate": 1.6524823558333362e-05,
+      "loss": 0.1769,
+      "step": 280
+    },
+    {
+      "epoch": 0.3465346534653465,
+      "eval_accuracy": 0.8370288248337029,
+      "eval_f1": 0.6440677966101694,
+      "eval_loss": 0.33291730284690857,
+      "eval_precision": 0.83125,
+      "eval_recall": 0.525691699604743,
+      "eval_runtime": 48.169,
+      "eval_samples_per_second": 5.73,
+      "eval_steps_per_second": 0.187,
+      "step": 280
+    },
+    {
+      "epoch": 0.34777227722772275,
+      "grad_norm": 5.36956262588501,
+      "learning_rate": 1.6492015679605994e-05,
+      "loss": 0.2361,
+      "step": 281
+    },
+    {
+      "epoch": 0.349009900990099,
+      "grad_norm": 5.6981401443481445,
+      "learning_rate": 1.6459086570961594e-05,
+      "loss": 0.1696,
+      "step": 282
+    },
+    {
+      "epoch": 0.3502475247524752,
+      "grad_norm": 5.104677677154541,
+      "learning_rate": 1.6426036847308287e-05,
+      "loss": 0.2587,
+      "step": 283
+    },
+    {
+      "epoch": 0.35148514851485146,
+      "grad_norm": 4.432884216308594,
+      "learning_rate": 1.6392867125806504e-05,
+      "loss": 0.2231,
+      "step": 284
+    },
+    {
+      "epoch": 0.3527227722772277,
+      "grad_norm": 8.529413223266602,
+      "learning_rate": 1.6359578025857495e-05,
+      "loss": 0.3018,
+      "step": 285
+    },
+    {
+      "epoch": 0.35396039603960394,
+      "grad_norm": 3.8591082096099854,
+      "learning_rate": 1.6326170169091735e-05,
+      "loss": 0.2339,
+      "step": 286
+    },
+    {
+      "epoch": 0.3551980198019802,
+      "grad_norm": 2.877532482147217,
+      "learning_rate": 1.6292644179357337e-05,
+      "loss": 0.168,
+      "step": 287
+    },
+    {
+      "epoch": 0.3564356435643564,
+      "grad_norm": 4.591522693634033,
+      "learning_rate": 1.6259000682708384e-05,
+      "loss": 0.1687,
+      "step": 288
+    },
+    {
+      "epoch": 0.35767326732673266,
+      "grad_norm": 4.433895111083984,
+      "learning_rate": 1.622524030739326e-05,
+      "loss": 0.2028,
+      "step": 289
+    },
+    {
+      "epoch": 0.3589108910891089,
+      "grad_norm": 5.059347629547119,
+      "learning_rate": 1.6191363683842883e-05,
+      "loss": 0.2286,
+      "step": 290
+    },
+    {
+      "epoch": 0.36014851485148514,
+      "grad_norm": 3.7166552543640137,
+      "learning_rate": 1.615737144465898e-05,
+      "loss": 0.1848,
+      "step": 291
+    },
+    {
+      "epoch": 0.3613861386138614,
+      "grad_norm": 4.245189189910889,
+      "learning_rate": 1.6123264224602245e-05,
+      "loss": 0.2474,
+      "step": 292
+    },
+    {
+      "epoch": 0.3626237623762376,
+      "grad_norm": 6.487268447875977,
+      "learning_rate": 1.608904266058047e-05,
+      "loss": 0.2036,
+      "step": 293
+    },
+    {
+      "epoch": 0.36386138613861385,
+      "grad_norm": 3.333557605743408,
+      "learning_rate": 1.605470739163669e-05,
+      "loss": 0.1859,
+      "step": 294
+    },
+    {
+      "epoch": 0.3650990099009901,
+      "grad_norm": 3.7823169231414795,
+      "learning_rate": 1.6020259058937228e-05,
+      "loss": 0.1713,
+      "step": 295
+    },
+    {
+      "epoch": 0.36633663366336633,
+      "grad_norm": 3.356194496154785,
+      "learning_rate": 1.5985698305759713e-05,
+      "loss": 0.1774,
+      "step": 296
+    },
+    {
+      "epoch": 0.36757425742574257,
+      "grad_norm": 4.501846790313721,
+      "learning_rate": 1.59510257774811e-05,
+      "loss": 0.1836,
+      "step": 297
+    },
+    {
+      "epoch": 0.3688118811881188,
+      "grad_norm": 9.250550270080566,
+      "learning_rate": 1.591624212156558e-05,
+      "loss": 0.3101,
+      "step": 298
+    },
+    {
+      "epoch": 0.37004950495049505,
+      "grad_norm": 3.5429160594940186,
+      "learning_rate": 1.5881347987552517e-05,
+      "loss": 0.1918,
+      "step": 299
+    },
+    {
+      "epoch": 0.3712871287128713,
+      "grad_norm": 6.185944080352783,
+      "learning_rate": 1.5846344027044307e-05,
+      "loss": 0.1984,
+      "step": 300
+    },
+    {
+      "epoch": 0.3712871287128713,
+      "eval_accuracy": 0.8536585365853658,
+      "eval_f1": 0.6826923076923077,
+      "eval_loss": 0.3210514485836029,
+      "eval_precision": 0.8711656441717791,
+      "eval_recall": 0.5612648221343873,
+      "eval_runtime": 48.5015,
+      "eval_samples_per_second": 5.691,
+      "eval_steps_per_second": 0.186,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.14412078544978e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null