Training in progress, step 300, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35f51831b2b098cdce1336c36fdb466a2549cbaa1f8a57f3dfb51b4a2a5bf371
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e380ae04a5173aeaed71f5a23293af6a6b5ce9b37a1646c0f6027f825d779fc
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a789181143a79739789063cd00a232ab9f16e3bca19ecdc66bcebfc70abdf7f0
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b043b19da04e16af34cc8400633335c68ab02712105f1221be29791b7d4e409
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b06c737fb3780906c6db6f49888f41e1ff147cd36f721e2ec559502e5722dcf
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f7f2a92d7df0f41408c607126dde2ec742d9311ee46369d1b8e81e62ba64c29
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95524888ea03dc8db342a6452b79ac2dc498646d4c1397845f5c61de5e72a273
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ddb9986bf6ad380f520fbe804799f709d80c796ef3ff88134b3291fe5611761
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:405be8d53a873909641aaba4d30e01e797a1e6db0878263ef451a17ff9e941b9
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a5ac5a37a7f3a37a7f5328e215de1663f8e85b03df885c4f3a38576bbb58b65
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4da83fa371fc825b162abc2365a97c78bdd6c68b3c8715678d0f9f6a05017b53
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9c10492278bc53059b6ed6f765490ebda8641ddb2ca6422c5a3ff08f7b12216
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cda0931130711d5820d481d7b5cc9a36c4df6219fb59d6ebb68f7ab10a011c4b
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aac0a2ddbb2e0439e67de80ba07301bbb4f6fae538d608784bb99a990eb4374
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d48786f7f9663e086296dbd832d3f41b07c50d093d8d13185ba7c06b778eba15
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:70a08e5416ead83a8ca5a4737f339d26abe014328af01895f5dc9b9056c94042
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad1d2ce7a6ea45f3182b7421bc96713b2844cd0ec18a52bec861802d753d23df
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f53af7b36bcb1f4a3830f3094a6baae96f54d6751f1aca6ab0241469f55b4c77
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bde33c3dc9d4b5847aa5e82a41ef1d715b6cab5c6f68c90d9c12b98c9395b5a1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b93e300fca3864a3b00ebf8f20bb271d3ee6a1118129c64855b165724ec8737a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb9b1e0f74c5f2631e58aded928e5d64789892339a1cd1a1bb054b2a8717bf3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aeed4b8b1f8111068fdf649eef309274cafb5724b7079e7c1ab8b7d24799ae1
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e93d6940d870db9ebba78cee7722d0384b494610e71e7f8b2e22bb0fd8e406ed
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bebf1ac8b6d22b64f12ee5515472ef4631edd26eaeae162231d65e567dd578f
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a024530de56227bb3ef9eb28b732e8ef3d765c77ebd0a0c5bc59f62e1682f1a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba5d98c98ae03b619b5cc816786d7328ffd6502c6e3927d2220789c3367ca675
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2510460251046025,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 5.298,
       "eval_steps_per_second": 0.172,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.32374373582766e+16,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.37656903765690375,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.298,
       "eval_steps_per_second": 0.172,
       "step": 200
+    },
+    {
+      "epoch": 0.25230125523012553,
+      "grad_norm": 3.1597511768341064,
+      "learning_rate": 1.8623458640038817e-05,
+      "loss": 0.2417,
+      "step": 201
+    },
+    {
+      "epoch": 0.2535564853556485,
+      "grad_norm": 4.373691558837891,
+      "learning_rate": 1.8601159918043533e-05,
+      "loss": 0.2408,
+      "step": 202
+    },
+    {
+      "epoch": 0.25481171548117154,
+      "grad_norm": 3.5026726722717285,
+      "learning_rate": 1.857869560760377e-05,
+      "loss": 0.281,
+      "step": 203
+    },
+    {
+      "epoch": 0.2560669456066946,
+      "grad_norm": 4.196898460388184,
+      "learning_rate": 1.85560661411996e-05,
+      "loss": 0.2201,
+      "step": 204
+    },
+    {
+      "epoch": 0.25732217573221755,
+      "grad_norm": 3.8971402645111084,
+      "learning_rate": 1.8533271954490655e-05,
+      "loss": 0.2692,
+      "step": 205
+    },
+    {
+      "epoch": 0.2585774058577406,
+      "grad_norm": 6.247049808502197,
+      "learning_rate": 1.8510313486307734e-05,
+      "loss": 0.2653,
+      "step": 206
+    },
+    {
+      "epoch": 0.2598326359832636,
+      "grad_norm": 5.326446056365967,
+      "learning_rate": 1.848719117864437e-05,
+      "loss": 0.2857,
+      "step": 207
+    },
+    {
+      "epoch": 0.2610878661087866,
+      "grad_norm": 3.6153714656829834,
+      "learning_rate": 1.846390547664831e-05,
+      "loss": 0.262,
+      "step": 208
+    },
+    {
+      "epoch": 0.2623430962343096,
+      "grad_norm": 6.952093124389648,
+      "learning_rate": 1.8440456828612946e-05,
+      "loss": 0.2807,
+      "step": 209
+    },
+    {
+      "epoch": 0.26359832635983266,
+      "grad_norm": 3.8363044261932373,
+      "learning_rate": 1.841684568596869e-05,
+      "loss": 0.2604,
+      "step": 210
+    },
+    {
+      "epoch": 0.26485355648535563,
+      "grad_norm": 3.643761396408081,
+      "learning_rate": 1.8393072503274277e-05,
+      "loss": 0.2796,
+      "step": 211
+    },
+    {
+      "epoch": 0.26610878661087867,
+      "grad_norm": 3.259951114654541,
+      "learning_rate": 1.836913773820802e-05,
+      "loss": 0.2724,
+      "step": 212
+    },
+    {
+      "epoch": 0.2673640167364017,
+      "grad_norm": 4.189282417297363,
+      "learning_rate": 1.834504185155899e-05,
+      "loss": 0.2455,
+      "step": 213
+    },
+    {
+      "epoch": 0.2686192468619247,
+      "grad_norm": 4.426260948181152,
+      "learning_rate": 1.832078530721816e-05,
+      "loss": 0.2975,
+      "step": 214
+    },
+    {
+      "epoch": 0.2698744769874477,
+      "grad_norm": 4.503783226013184,
+      "learning_rate": 1.829636857216945e-05,
+      "loss": 0.2852,
+      "step": 215
+    },
+    {
+      "epoch": 0.2711297071129707,
+      "grad_norm": 4.618401527404785,
+      "learning_rate": 1.8271792116480767e-05,
+      "loss": 0.3006,
+      "step": 216
+    },
+    {
+      "epoch": 0.2723849372384937,
+      "grad_norm": 5.484090805053711,
+      "learning_rate": 1.8247056413294927e-05,
+      "loss": 0.3397,
+      "step": 217
+    },
+    {
+      "epoch": 0.27364016736401675,
+      "grad_norm": 4.215097427368164,
+      "learning_rate": 1.8222161938820564e-05,
+      "loss": 0.312,
+      "step": 218
+    },
+    {
+      "epoch": 0.27489539748953973,
+      "grad_norm": 2.8045787811279297,
+      "learning_rate": 1.8197109172322958e-05,
+      "loss": 0.2896,
+      "step": 219
+    },
+    {
+      "epoch": 0.27615062761506276,
+      "grad_norm": 3.3742685317993164,
+      "learning_rate": 1.8171898596114804e-05,
+      "loss": 0.2715,
+      "step": 220
+    },
+    {
+      "epoch": 0.27615062761506276,
+      "eval_accuracy": 0.8410596026490066,
+      "eval_f1": 0.6587677725118484,
+      "eval_loss": 0.3223263919353485,
+      "eval_precision": 0.8273809523809523,
+      "eval_recall": 0.547244094488189,
+      "eval_runtime": 52.2317,
+      "eval_samples_per_second": 5.303,
+      "eval_steps_per_second": 0.172,
+      "step": 220
+    },
+    {
+      "epoch": 0.2774058577405858,
+      "grad_norm": 2.477954149246216,
+      "learning_rate": 1.8146530695546934e-05,
+      "loss": 0.2171,
+      "step": 221
+    },
+    {
+      "epoch": 0.27866108786610877,
+      "grad_norm": 3.73885440826416,
+      "learning_rate": 1.8121005958998968e-05,
+      "loss": 0.3282,
+      "step": 222
+    },
+    {
+      "epoch": 0.2799163179916318,
+      "grad_norm": 3.0945334434509277,
+      "learning_rate": 1.8095324877869902e-05,
+      "loss": 0.2823,
+      "step": 223
+    },
+    {
+      "epoch": 0.28117154811715483,
+      "grad_norm": 3.98866868019104,
+      "learning_rate": 1.8069487946568675e-05,
+      "loss": 0.3008,
+      "step": 224
+    },
+    {
+      "epoch": 0.2824267782426778,
+      "grad_norm": 3.4288768768310547,
+      "learning_rate": 1.804349566250462e-05,
+      "loss": 0.2644,
+      "step": 225
+    },
+    {
+      "epoch": 0.28368200836820084,
+      "grad_norm": 3.3643836975097656,
+      "learning_rate": 1.801734852607791e-05,
+      "loss": 0.2543,
+      "step": 226
+    },
+    {
+      "epoch": 0.2849372384937239,
+      "grad_norm": 5.725021839141846,
+      "learning_rate": 1.799104704066991e-05,
+      "loss": 0.2827,
+      "step": 227
+    },
+    {
+      "epoch": 0.28619246861924685,
+      "grad_norm": 4.484889507293701,
+      "learning_rate": 1.79645917126335e-05,
+      "loss": 0.3096,
+      "step": 228
+    },
+    {
+      "epoch": 0.2874476987447699,
+      "grad_norm": 5.622531414031982,
+      "learning_rate": 1.7937983051283312e-05,
+      "loss": 0.3283,
+      "step": 229
+    },
+    {
+      "epoch": 0.28870292887029286,
+      "grad_norm": 4.898491382598877,
+      "learning_rate": 1.7911221568885935e-05,
+      "loss": 0.2316,
+      "step": 230
+    },
+    {
+      "epoch": 0.2899581589958159,
+      "grad_norm": 4.367154121398926,
+      "learning_rate": 1.7884307780650047e-05,
+      "loss": 0.2739,
+      "step": 231
+    },
+    {
+      "epoch": 0.29121338912133893,
+      "grad_norm": 4.016841888427734,
+      "learning_rate": 1.7857242204716497e-05,
+      "loss": 0.2375,
+      "step": 232
+    },
+    {
+      "epoch": 0.2924686192468619,
+      "grad_norm": 3.615976333618164,
+      "learning_rate": 1.783002536214834e-05,
+      "loss": 0.2644,
+      "step": 233
+    },
+    {
+      "epoch": 0.29372384937238494,
+      "grad_norm": 5.212274074554443,
+      "learning_rate": 1.780265777692079e-05,
+      "loss": 0.3412,
+      "step": 234
+    },
+    {
+      "epoch": 0.29497907949790797,
+      "grad_norm": 3.3848087787628174,
+      "learning_rate": 1.7775139975911143e-05,
+      "loss": 0.2489,
+      "step": 235
+    },
+    {
+      "epoch": 0.29623430962343095,
+      "grad_norm": 5.973453998565674,
+      "learning_rate": 1.7747472488888622e-05,
+      "loss": 0.2657,
+      "step": 236
+    },
+    {
+      "epoch": 0.297489539748954,
+      "grad_norm": 4.158175468444824,
+      "learning_rate": 1.77196558485042e-05,
+      "loss": 0.2951,
+      "step": 237
+    },
+    {
+      "epoch": 0.298744769874477,
+      "grad_norm": 3.3108043670654297,
+      "learning_rate": 1.7691690590280325e-05,
+      "loss": 0.26,
+      "step": 238
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 4.062819480895996,
+      "learning_rate": 1.7663577252600612e-05,
+      "loss": 0.2535,
+      "step": 239
+    },
+    {
+      "epoch": 0.301255230125523,
+      "grad_norm": 4.0478339195251465,
+      "learning_rate": 1.763531637669949e-05,
+      "loss": 0.2737,
+      "step": 240
+    },
+    {
+      "epoch": 0.301255230125523,
+      "eval_accuracy": 0.8520971302428256,
+      "eval_f1": 0.6995515695067265,
+      "eval_loss": 0.3201642632484436,
+      "eval_precision": 0.8125,
+      "eval_recall": 0.6141732283464567,
+      "eval_runtime": 52.8485,
+      "eval_samples_per_second": 5.241,
+      "eval_steps_per_second": 0.17,
+      "step": 240
+    },
+    {
+      "epoch": 0.302510460251046,
+      "grad_norm": 5.782260894775391,
+      "learning_rate": 1.760690850665177e-05,
+      "loss": 0.2356,
+      "step": 241
+    },
+    {
+      "epoch": 0.30376569037656903,
+      "grad_norm": 4.108422756195068,
+      "learning_rate": 1.7578354189362183e-05,
+      "loss": 0.2658,
+      "step": 242
+    },
+    {
+      "epoch": 0.30502092050209206,
+      "grad_norm": 2.872807264328003,
+      "learning_rate": 1.7549653974554835e-05,
+      "loss": 0.3048,
+      "step": 243
+    },
+    {
+      "epoch": 0.30627615062761504,
+      "grad_norm": 3.7681846618652344,
+      "learning_rate": 1.752080841476264e-05,
+      "loss": 0.2832,
+      "step": 244
+    },
+    {
+      "epoch": 0.3075313807531381,
+      "grad_norm": 6.7302069664001465,
+      "learning_rate": 1.7491818065316676e-05,
+      "loss": 0.2518,
+      "step": 245
+    },
+    {
+      "epoch": 0.3087866108786611,
+      "grad_norm": 7.851168155670166,
+      "learning_rate": 1.7462683484335477e-05,
+      "loss": 0.2188,
+      "step": 246
+    },
+    {
+      "epoch": 0.3100418410041841,
+      "grad_norm": 5.26230001449585,
+      "learning_rate": 1.7433405232714325e-05,
+      "loss": 0.2898,
+      "step": 247
+    },
+    {
+      "epoch": 0.3112970711297071,
+      "grad_norm": 3.618230104446411,
+      "learning_rate": 1.7403983874114422e-05,
+      "loss": 0.2303,
+      "step": 248
+    },
+    {
+      "epoch": 0.31255230125523015,
+      "grad_norm": 3.8040518760681152,
+      "learning_rate": 1.7374419974952045e-05,
+      "loss": 0.3179,
+      "step": 249
+    },
+    {
+      "epoch": 0.3138075313807531,
+      "grad_norm": 3.1975717544555664,
+      "learning_rate": 1.734471410438765e-05,
+      "loss": 0.2503,
+      "step": 250
+    },
+    {
+      "epoch": 0.31506276150627616,
+      "grad_norm": 2.8378207683563232,
+      "learning_rate": 1.731486683431491e-05,
+      "loss": 0.2424,
+      "step": 251
+    },
+    {
+      "epoch": 0.3163179916317992,
+      "grad_norm": 5.816548824310303,
+      "learning_rate": 1.728487873934969e-05,
+      "loss": 0.2567,
+      "step": 252
+    },
+    {
+      "epoch": 0.31757322175732217,
+      "grad_norm": 3.5895259380340576,
+      "learning_rate": 1.7254750396819008e-05,
+      "loss": 0.2762,
+      "step": 253
+    },
+    {
+      "epoch": 0.3188284518828452,
+      "grad_norm": 3.293178081512451,
+      "learning_rate": 1.7224482386749916e-05,
+      "loss": 0.2801,
+      "step": 254
+    },
+    {
+      "epoch": 0.3200836820083682,
+      "grad_norm": 3.76770281791687,
+      "learning_rate": 1.719407529185831e-05,
+      "loss": 0.2545,
+      "step": 255
+    },
+    {
+      "epoch": 0.3213389121338912,
+      "grad_norm": 3.1176042556762695,
+      "learning_rate": 1.7163529697537756e-05,
+      "loss": 0.2608,
+      "step": 256
+    },
+    {
+      "epoch": 0.32259414225941424,
+      "grad_norm": 3.789315700531006,
+      "learning_rate": 1.7132846191848167e-05,
+      "loss": 0.2708,
+      "step": 257
+    },
+    {
+      "epoch": 0.3238493723849372,
+      "grad_norm": 5.817142963409424,
+      "learning_rate": 1.7102025365504524e-05,
+      "loss": 0.3254,
+      "step": 258
+    },
+    {
+      "epoch": 0.32510460251046025,
+      "grad_norm": 4.174067497253418,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 0.2826,
+      "step": 259
+    },
+    {
+      "epoch": 0.3263598326359833,
+      "grad_norm": 4.383941173553467,
+      "learning_rate": 1.7039974126921946e-05,
+      "loss": 0.3245,
+      "step": 260
+    },
+    {
+      "epoch": 0.3263598326359833,
+      "eval_accuracy": 0.8465783664459161,
+      "eval_f1": 0.6774941995359629,
+      "eval_loss": 0.30984166264533997,
+      "eval_precision": 0.8248587570621468,
+      "eval_recall": 0.5748031496062992,
+      "eval_runtime": 52.3032,
+      "eval_samples_per_second": 5.296,
+      "eval_steps_per_second": 0.172,
+      "step": 260
+    },
+    {
+      "epoch": 0.32761506276150626,
+      "grad_norm": 4.471529960632324,
+      "learning_rate": 1.7008744909285626e-05,
+      "loss": 0.2658,
+      "step": 261
+    },
+    {
+      "epoch": 0.3288702928870293,
+      "grad_norm": 4.479955673217773,
+      "learning_rate": 1.6977380760177467e-05,
+      "loss": 0.3076,
+      "step": 262
+    },
+    {
+      "epoch": 0.3301255230125523,
+      "grad_norm": 3.6632466316223145,
+      "learning_rate": 1.694588228341611e-05,
+      "loss": 0.2387,
+      "step": 263
+    },
+    {
+      "epoch": 0.3313807531380753,
+      "grad_norm": 3.813127040863037,
+      "learning_rate": 1.691425008540625e-05,
+      "loss": 0.2575,
+      "step": 264
+    },
+    {
+      "epoch": 0.33263598326359833,
+      "grad_norm": 3.7820916175842285,
+      "learning_rate": 1.6882484775126968e-05,
+      "loss": 0.2517,
+      "step": 265
+    },
+    {
+      "epoch": 0.33389121338912137,
+      "grad_norm": 3.487283229827881,
+      "learning_rate": 1.6850586964120005e-05,
+      "loss": 0.2898,
+      "step": 266
+    },
+    {
+      "epoch": 0.33514644351464434,
+      "grad_norm": 5.123818397521973,
+      "learning_rate": 1.6818557266477993e-05,
+      "loss": 0.2758,
+      "step": 267
+    },
+    {
+      "epoch": 0.3364016736401674,
+      "grad_norm": 3.208160400390625,
+      "learning_rate": 1.6786396298832622e-05,
+      "loss": 0.2846,
+      "step": 268
+    },
+    {
+      "epoch": 0.33765690376569035,
+      "grad_norm": 2.8521032333374023,
+      "learning_rate": 1.6754104680342783e-05,
+      "loss": 0.2573,
+      "step": 269
+    },
+    {
+      "epoch": 0.3389121338912134,
+      "grad_norm": 2.8169782161712646,
+      "learning_rate": 1.6721683032682637e-05,
+      "loss": 0.2259,
+      "step": 270
+    },
+    {
+      "epoch": 0.3401673640167364,
+      "grad_norm": 3.7779228687286377,
+      "learning_rate": 1.6689131980029647e-05,
+      "loss": 0.2947,
+      "step": 271
+    },
+    {
+      "epoch": 0.3414225941422594,
+      "grad_norm": 4.368408203125,
+      "learning_rate": 1.6656452149052568e-05,
+      "loss": 0.2654,
+      "step": 272
+    },
+    {
+      "epoch": 0.3426778242677824,
+      "grad_norm": 3.421369791030884,
+      "learning_rate": 1.662364416889938e-05,
+      "loss": 0.2921,
+      "step": 273
+    },
+    {
+      "epoch": 0.34393305439330546,
+      "grad_norm": 4.275522232055664,
+      "learning_rate": 1.6590708671185176e-05,
+      "loss": 0.2527,
+      "step": 274
+    },
+    {
+      "epoch": 0.34518828451882844,
+      "grad_norm": 3.0027596950531006,
+      "learning_rate": 1.6557646289979996e-05,
+      "loss": 0.2031,
+      "step": 275
+    },
+    {
+      "epoch": 0.34644351464435147,
+      "grad_norm": 3.2799339294433594,
+      "learning_rate": 1.6524457661796626e-05,
+      "loss": 0.2276,
+      "step": 276
+    },
+    {
+      "epoch": 0.3476987447698745,
+      "grad_norm": 3.7090659141540527,
+      "learning_rate": 1.6491143425578345e-05,
+      "loss": 0.2264,
+      "step": 277
+    },
+    {
+      "epoch": 0.3489539748953975,
+      "grad_norm": 6.081251621246338,
+      "learning_rate": 1.645770422268662e-05,
+      "loss": 0.3315,
+      "step": 278
+    },
+    {
+      "epoch": 0.3502092050209205,
+      "grad_norm": 5.695575714111328,
+      "learning_rate": 1.6424140696888765e-05,
+      "loss": 0.2948,
+      "step": 279
+    },
+    {
+      "epoch": 0.3514644351464435,
+      "grad_norm": 4.191822052001953,
+      "learning_rate": 1.639045349434554e-05,
+      "loss": 0.2868,
+      "step": 280
+    },
+    {
+      "epoch": 0.3514644351464435,
+      "eval_accuracy": 0.8432671081677704,
+      "eval_f1": 0.6830357142857143,
+      "eval_loss": 0.3159337043762207,
+      "eval_precision": 0.788659793814433,
+      "eval_recall": 0.6023622047244095,
+      "eval_runtime": 52.6769,
+      "eval_samples_per_second": 5.258,
+      "eval_steps_per_second": 0.171,
+      "step": 280
+    },
+    {
+      "epoch": 0.3527196652719665,
+      "grad_norm": 4.9057183265686035,
+      "learning_rate": 1.6356643263598716e-05,
+      "loss": 0.3545,
+      "step": 281
+    },
+    {
+      "epoch": 0.35397489539748955,
+      "grad_norm": 6.470303058624268,
+      "learning_rate": 1.6322710655558577e-05,
+      "loss": 0.3414,
+      "step": 282
+    },
+    {
+      "epoch": 0.35523012552301253,
+      "grad_norm": 3.9251017570495605,
+      "learning_rate": 1.6288656323491415e-05,
+      "loss": 0.2573,
+      "step": 283
+    },
+    {
+      "epoch": 0.35648535564853556,
+      "grad_norm": 4.604090213775635,
+      "learning_rate": 1.6254480923006924e-05,
+      "loss": 0.226,
+      "step": 284
+    },
+    {
+      "epoch": 0.3577405857740586,
+      "grad_norm": 6.23361873626709,
+      "learning_rate": 1.6220185112045606e-05,
+      "loss": 0.2693,
+      "step": 285
+    },
+    {
+      "epoch": 0.35899581589958157,
+      "grad_norm": 3.5196187496185303,
+      "learning_rate": 1.6185769550866073e-05,
+      "loss": 0.2104,
+      "step": 286
+    },
+    {
+      "epoch": 0.3602510460251046,
+      "grad_norm": 5.589550495147705,
+      "learning_rate": 1.6151234902032374e-05,
+      "loss": 0.3379,
+      "step": 287
+    },
+    {
+      "epoch": 0.36150627615062764,
+      "grad_norm": 3.052987813949585,
+      "learning_rate": 1.6116581830401193e-05,
+      "loss": 0.2646,
+      "step": 288
+    },
+    {
+      "epoch": 0.3627615062761506,
+      "grad_norm": 2.715062141418457,
+      "learning_rate": 1.60818110031091e-05,
+      "loss": 0.2731,
+      "step": 289
+    },
+    {
+      "epoch": 0.36401673640167365,
+      "grad_norm": 3.9851012229919434,
+      "learning_rate": 1.6046923089559667e-05,
+      "loss": 0.2482,
+      "step": 290
+    },
+    {
+      "epoch": 0.3652719665271967,
+      "grad_norm": 4.131580352783203,
+      "learning_rate": 1.6011918761410596e-05,
+      "loss": 0.2916,
+      "step": 291
+    },
+    {
+      "epoch": 0.36652719665271966,
+      "grad_norm": 5.364291667938232,
+      "learning_rate": 1.5976798692560796e-05,
+      "loss": 0.3029,
+      "step": 292
+    },
+    {
+      "epoch": 0.3677824267782427,
+      "grad_norm": 3.139458417892456,
+      "learning_rate": 1.5941563559137398e-05,
+      "loss": 0.2396,
+      "step": 293
+    },
+    {
+      "epoch": 0.36903765690376567,
+      "grad_norm": 3.1862568855285645,
+      "learning_rate": 1.5906214039482732e-05,
+      "loss": 0.2504,
+      "step": 294
+    },
+    {
+      "epoch": 0.3702928870292887,
+      "grad_norm": 3.489682912826538,
+      "learning_rate": 1.5870750814141296e-05,
+      "loss": 0.2214,
+      "step": 295
+    },
+    {
+      "epoch": 0.37154811715481173,
+      "grad_norm": 4.336936950683594,
+      "learning_rate": 1.5835174565846624e-05,
+      "loss": 0.3056,
+      "step": 296
+    },
+    {
+      "epoch": 0.3728033472803347,
+      "grad_norm": 3.281315803527832,
+      "learning_rate": 1.579948597950815e-05,
+      "loss": 0.2579,
+      "step": 297
+    },
+    {
+      "epoch": 0.37405857740585774,
+      "grad_norm": 7.08855676651001,
+      "learning_rate": 1.576368574219804e-05,
+      "loss": 0.295,
+      "step": 298
+    },
+    {
+      "epoch": 0.37531380753138077,
+      "grad_norm": 5.177116394042969,
+      "learning_rate": 1.5727774543137927e-05,
+      "loss": 0.2363,
+      "step": 299
+    },
+    {
+      "epoch": 0.37656903765690375,
+      "grad_norm": 2.4472217559814453,
+      "learning_rate": 1.5691753073685692e-05,
+      "loss": 0.2601,
+      "step": 300
+    },
+    {
+      "epoch": 0.37656903765690375,
+      "eval_accuracy": 0.8587196467991169,
+      "eval_f1": 0.7387755102040816,
+      "eval_loss": 0.31048765778541565,
+      "eval_precision": 0.7669491525423728,
+      "eval_recall": 0.7125984251968503,
+      "eval_runtime": 52.6769,
+      "eval_samples_per_second": 5.258,
+      "eval_steps_per_second": 0.171,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0951134131571917e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null