Training in progress, step 400, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e380ae04a5173aeaed71f5a23293af6a6b5ce9b37a1646c0f6027f825d779fc
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cd061667d62cdf6b8e885ae672a4fa1817a64172c0dc13f261537a3e31f28db
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b043b19da04e16af34cc8400633335c68ab02712105f1221be29791b7d4e409
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:87e886c2d84e224bcf754622b2803a8b4b64da30bce7eb4e4a3fb75b1b091c5e
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f7f2a92d7df0f41408c607126dde2ec742d9311ee46369d1b8e81e62ba64c29
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:d01731a1af4d71978b316124603e4caa090cc86ccd121d20f40ef90314e39721
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ddb9986bf6ad380f520fbe804799f709d80c796ef3ff88134b3291fe5611761
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:6befdc931c99a6a9572bf364f4fbf3a16a16ac047bda664b290f7eaf2d6f0509
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a5ac5a37a7f3a37a7f5328e215de1663f8e85b03df885c4f3a38576bbb58b65
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d08e96af21e8b93e1cae1c1f298c74bd5cb903e59a95e666fe5d23d7c34e828
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9c10492278bc53059b6ed6f765490ebda8641ddb2ca6422c5a3ff08f7b12216
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:800dcee3d49bf7c4fb9af44a7247d8c8a98f39fbe21de15901e57a24fee6d511
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aac0a2ddbb2e0439e67de80ba07301bbb4f6fae538d608784bb99a990eb4374
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:95e1a7c487043377d57b4e529a8c41b121f1a82a2bf5513187f81cd357b2a6fd
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70a08e5416ead83a8ca5a4737f339d26abe014328af01895f5dc9b9056c94042
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cc70fc94ad214460b8f53afbc67815e264058229327612b212b333c955747d2
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f53af7b36bcb1f4a3830f3094a6baae96f54d6751f1aca6ab0241469f55b4c77
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ffe6f9ada3514f92495fec3edd9e5bfa7e16527e9f4d407a243ffca3a335369
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b93e300fca3864a3b00ebf8f20bb271d3ee6a1118129c64855b165724ec8737a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea26ba6138daf1586403be19f69bfdf220f2970f3306409052e7562dbee71e8f
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aeed4b8b1f8111068fdf649eef309274cafb5724b7079e7c1ab8b7d24799ae1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:350fe26b744c676e14aee27774ebc4bcf6a2961db0854ea02d257bc061e2b80c
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bebf1ac8b6d22b64f12ee5515472ef4631edd26eaeae162231d65e567dd578f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8aa0e29a92b309693c410bb08006a182de233c5acd31c16b7450cbb9c31feeb
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba5d98c98ae03b619b5cc816786d7328ffd6502c6e3927d2220789c3367ca675
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f4d7d51569641046d070ffaf530561887033fff68178c32329f5f5841b1a076
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.37656903765690375,
   "eval_steps": 20,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2299,6 +2299,766 @@
       "eval_samples_per_second": 5.258,
       "eval_steps_per_second": 0.171,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2318,7 +3078,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0951134131571917e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.502092050209205,
   "eval_steps": 20,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.258,
       "eval_steps_per_second": 0.171,
       "step": 300
+    },
+    {
+      "epoch": 0.3778242677824268,
+      "grad_norm": 7.539090156555176,
+      "learning_rate": 1.565562202732211e-05,
+      "loss": 0.289,
+      "step": 301
+    },
+    {
+      "epoch": 0.3790794979079498,
+      "grad_norm": 7.3726420402526855,
+      "learning_rate": 1.561938209963753e-05,
+      "loss": 0.2752,
+      "step": 302
+    },
+    {
+      "epoch": 0.3803347280334728,
+      "grad_norm": 5.038547515869141,
+      "learning_rate": 1.5583033988318453e-05,
+      "loss": 0.2419,
+      "step": 303
+    },
+    {
+      "epoch": 0.3815899581589958,
+      "grad_norm": 3.0914595127105713,
+      "learning_rate": 1.554657839313413e-05,
+      "loss": 0.2324,
+      "step": 304
+    },
+    {
+      "epoch": 0.38284518828451886,
+      "grad_norm": 5.068948268890381,
+      "learning_rate": 1.5510016015923084e-05,
+      "loss": 0.2864,
+      "step": 305
+    },
+    {
+      "epoch": 0.38410041841004183,
+      "grad_norm": 4.331803321838379,
+      "learning_rate": 1.5473347560579576e-05,
+      "loss": 0.2247,
+      "step": 306
+    },
+    {
+      "epoch": 0.38535564853556487,
+      "grad_norm": 4.25094747543335,
+      "learning_rate": 1.5436573733040073e-05,
+      "loss": 0.2025,
+      "step": 307
+    },
+    {
+      "epoch": 0.38661087866108784,
+      "grad_norm": 6.317193984985352,
+      "learning_rate": 1.539969524126967e-05,
+      "loss": 0.2389,
+      "step": 308
+    },
+    {
+      "epoch": 0.3878661087866109,
+      "grad_norm": 5.176138401031494,
+      "learning_rate": 1.5362712795248423e-05,
+      "loss": 0.2235,
+      "step": 309
+    },
+    {
+      "epoch": 0.3891213389121339,
+      "grad_norm": 4.67032527923584,
+      "learning_rate": 1.5325627106957715e-05,
+      "loss": 0.2004,
+      "step": 310
+    },
+    {
+      "epoch": 0.3903765690376569,
+      "grad_norm": 7.408180236816406,
+      "learning_rate": 1.5288438890366534e-05,
+      "loss": 0.3133,
+      "step": 311
+    },
+    {
+      "epoch": 0.3916317991631799,
+      "grad_norm": 4.369890213012695,
+      "learning_rate": 1.5251148861417733e-05,
+      "loss": 0.2798,
+      "step": 312
+    },
+    {
+      "epoch": 0.39288702928870295,
+      "grad_norm": 6.916268348693848,
+      "learning_rate": 1.5213757738014234e-05,
+      "loss": 0.2518,
+      "step": 313
+    },
+    {
+      "epoch": 0.3941422594142259,
+      "grad_norm": 3.2595841884613037,
+      "learning_rate": 1.5176266240005225e-05,
+      "loss": 0.2666,
+      "step": 314
+    },
+    {
+      "epoch": 0.39539748953974896,
+      "grad_norm": 4.970115661621094,
+      "learning_rate": 1.513867508917229e-05,
+      "loss": 0.2762,
+      "step": 315
+    },
+    {
+      "epoch": 0.396652719665272,
+      "grad_norm": 3.959069013595581,
+      "learning_rate": 1.5100985009215519e-05,
+      "loss": 0.2324,
+      "step": 316
+    },
+    {
+      "epoch": 0.39790794979079497,
+      "grad_norm": 5.496798515319824,
+      "learning_rate": 1.5063196725739568e-05,
+      "loss": 0.283,
+      "step": 317
+    },
+    {
+      "epoch": 0.399163179916318,
+      "grad_norm": 4.346258640289307,
+      "learning_rate": 1.5025310966239701e-05,
+      "loss": 0.2182,
+      "step": 318
+    },
+    {
+      "epoch": 0.400418410041841,
+      "grad_norm": 7.267153263092041,
+      "learning_rate": 1.4987328460087778e-05,
+      "loss": 0.2261,
+      "step": 319
+    },
+    {
+      "epoch": 0.401673640167364,
+      "grad_norm": 4.095457077026367,
+      "learning_rate": 1.4949249938518203e-05,
+      "loss": 0.2597,
+      "step": 320
+    },
+    {
+      "epoch": 0.401673640167364,
+      "eval_accuracy": 0.8509933774834437,
+      "eval_f1": 0.6867749419953596,
+      "eval_loss": 0.31619083881378174,
+      "eval_precision": 0.8361581920903954,
+      "eval_recall": 0.5826771653543307,
+      "eval_runtime": 50.8111,
+      "eval_samples_per_second": 5.452,
+      "eval_steps_per_second": 0.177,
+      "step": 320
+    },
+    {
+      "epoch": 0.40292887029288704,
+      "grad_norm": 4.564698696136475,
+      "learning_rate": 1.491107613461387e-05,
+      "loss": 0.2494,
+      "step": 321
+    },
+    {
+      "epoch": 0.40418410041841,
+      "grad_norm": 3.54681134223938,
+      "learning_rate": 1.4872807783292027e-05,
+      "loss": 0.2396,
+      "step": 322
+    },
+    {
+      "epoch": 0.40543933054393305,
+      "grad_norm": 3.487334966659546,
+      "learning_rate": 1.4834445621290144e-05,
+      "loss": 0.2264,
+      "step": 323
+    },
+    {
+      "epoch": 0.4066945606694561,
+      "grad_norm": 4.941503047943115,
+      "learning_rate": 1.4795990387151719e-05,
+      "loss": 0.2566,
+      "step": 324
+    },
+    {
+      "epoch": 0.40794979079497906,
+      "grad_norm": 3.7651941776275635,
+      "learning_rate": 1.4757442821212058e-05,
+      "loss": 0.2159,
+      "step": 325
+    },
+    {
+      "epoch": 0.4092050209205021,
+      "grad_norm": 6.6421685218811035,
+      "learning_rate": 1.4718803665584038e-05,
+      "loss": 0.2367,
+      "step": 326
+    },
+    {
+      "epoch": 0.4104602510460251,
+      "grad_norm": 4.226874351501465,
+      "learning_rate": 1.4680073664143799e-05,
+      "loss": 0.2573,
+      "step": 327
+    },
+    {
+      "epoch": 0.4117154811715481,
+      "grad_norm": 5.6968536376953125,
+      "learning_rate": 1.464125356251644e-05,
+      "loss": 0.3498,
+      "step": 328
+    },
+    {
+      "epoch": 0.41297071129707114,
+      "grad_norm": 5.091569900512695,
+      "learning_rate": 1.4602344108061657e-05,
+      "loss": 0.2999,
+      "step": 329
+    },
+    {
+      "epoch": 0.41422594142259417,
+      "grad_norm": 3.757646083831787,
+      "learning_rate": 1.4563346049859348e-05,
+      "loss": 0.2588,
+      "step": 330
+    },
+    {
+      "epoch": 0.41548117154811715,
+      "grad_norm": 3.553725242614746,
+      "learning_rate": 1.4524260138695206e-05,
+      "loss": 0.3026,
+      "step": 331
+    },
+    {
+      "epoch": 0.4167364016736402,
+      "grad_norm": 4.0715765953063965,
+      "learning_rate": 1.4485087127046256e-05,
+      "loss": 0.3188,
+      "step": 332
+    },
+    {
+      "epoch": 0.41799163179916315,
+      "grad_norm": 3.9009945392608643,
+      "learning_rate": 1.4445827769066374e-05,
+      "loss": 0.2373,
+      "step": 333
+    },
+    {
+      "epoch": 0.4192468619246862,
+      "grad_norm": 3.4119412899017334,
+      "learning_rate": 1.4406482820571759e-05,
+      "loss": 0.2381,
+      "step": 334
+    },
+    {
+      "epoch": 0.4205020920502092,
+      "grad_norm": 7.349539756774902,
+      "learning_rate": 1.4367053039026392e-05,
+      "loss": 0.2528,
+      "step": 335
+    },
+    {
+      "epoch": 0.4217573221757322,
+      "grad_norm": 3.9228568077087402,
+      "learning_rate": 1.4327539183527447e-05,
+      "loss": 0.249,
+      "step": 336
+    },
+    {
+      "epoch": 0.42301255230125523,
+      "grad_norm": 5.134557247161865,
+      "learning_rate": 1.4287942014790677e-05,
+      "loss": 0.2908,
+      "step": 337
+    },
+    {
+      "epoch": 0.42426778242677826,
+      "grad_norm": 4.12131929397583,
+      "learning_rate": 1.4248262295135779e-05,
+      "loss": 0.2661,
+      "step": 338
+    },
+    {
+      "epoch": 0.42552301255230124,
+      "grad_norm": 3.757857322692871,
+      "learning_rate": 1.42085007884717e-05,
+      "loss": 0.2448,
+      "step": 339
+    },
+    {
+      "epoch": 0.42677824267782427,
+      "grad_norm": 3.9377548694610596,
+      "learning_rate": 1.4168658260281944e-05,
+      "loss": 0.287,
+      "step": 340
+    },
+    {
+      "epoch": 0.42677824267782427,
+      "eval_accuracy": 0.8532008830022075,
+      "eval_f1": 0.70509977827051,
+      "eval_loss": 0.29967617988586426,
+      "eval_precision": 0.8071065989847716,
+      "eval_recall": 0.6259842519685039,
+      "eval_runtime": 50.9044,
+      "eval_samples_per_second": 5.442,
+      "eval_steps_per_second": 0.177,
+      "step": 340
+    },
+    {
+      "epoch": 0.4280334728033473,
+      "grad_norm": 3.8355214595794678,
+      "learning_rate": 1.4128735477609839e-05,
+      "loss": 0.2409,
+      "step": 341
+    },
+    {
+      "epoch": 0.4292887029288703,
+      "grad_norm": 3.9827072620391846,
+      "learning_rate": 1.4088733209043748e-05,
+      "loss": 0.1978,
+      "step": 342
+    },
+    {
+      "epoch": 0.4305439330543933,
+      "grad_norm": 3.053262710571289,
+      "learning_rate": 1.4048652224702295e-05,
+      "loss": 0.215,
+      "step": 343
+    },
+    {
+      "epoch": 0.43179916317991635,
+      "grad_norm": 3.117565155029297,
+      "learning_rate": 1.400849329621953e-05,
+      "loss": 0.2652,
+      "step": 344
+    },
+    {
+      "epoch": 0.4330543933054393,
+      "grad_norm": 4.665426731109619,
+      "learning_rate": 1.3968257196730069e-05,
+      "loss": 0.3002,
+      "step": 345
+    },
+    {
+      "epoch": 0.43430962343096235,
+      "grad_norm": 3.6823060512542725,
+      "learning_rate": 1.3927944700854223e-05,
+      "loss": 0.2987,
+      "step": 346
+    },
+    {
+      "epoch": 0.43556485355648533,
+      "grad_norm": 3.018756628036499,
+      "learning_rate": 1.388755658468307e-05,
+      "loss": 0.2399,
+      "step": 347
+    },
+    {
+      "epoch": 0.43682008368200836,
+      "grad_norm": 2.53790283203125,
+      "learning_rate": 1.3847093625763517e-05,
+      "loss": 0.2733,
+      "step": 348
+    },
+    {
+      "epoch": 0.4380753138075314,
+      "grad_norm": 4.417150974273682,
+      "learning_rate": 1.3806556603083346e-05,
+      "loss": 0.2144,
+      "step": 349
+    },
+    {
+      "epoch": 0.4393305439330544,
+      "grad_norm": 6.118602275848389,
+      "learning_rate": 1.3765946297056192e-05,
+      "loss": 0.3063,
+      "step": 350
+    },
+    {
+      "epoch": 0.4405857740585774,
+      "grad_norm": 3.5751051902770996,
+      "learning_rate": 1.3725263489506542e-05,
+      "loss": 0.1951,
+      "step": 351
+    },
+    {
+      "epoch": 0.44184100418410044,
+      "grad_norm": 5.6558837890625,
+      "learning_rate": 1.3684508963654667e-05,
+      "loss": 0.3366,
+      "step": 352
+    },
+    {
+      "epoch": 0.4430962343096234,
+      "grad_norm": 3.0790345668792725,
+      "learning_rate": 1.364368350410155e-05,
+      "loss": 0.2517,
+      "step": 353
+    },
+    {
+      "epoch": 0.44435146443514645,
+      "grad_norm": 3.3675646781921387,
+      "learning_rate": 1.3602787896813787e-05,
+      "loss": 0.283,
+      "step": 354
+    },
+    {
+      "epoch": 0.4456066945606695,
+      "grad_norm": 3.162820339202881,
+      "learning_rate": 1.356182292910844e-05,
+      "loss": 0.2131,
+      "step": 355
+    },
+    {
+      "epoch": 0.44686192468619246,
+      "grad_norm": 2.9676196575164795,
+      "learning_rate": 1.3520789389637898e-05,
+      "loss": 0.2782,
+      "step": 356
+    },
+    {
+      "epoch": 0.4481171548117155,
+      "grad_norm": 5.9504008293151855,
+      "learning_rate": 1.347968806837468e-05,
+      "loss": 0.2663,
+      "step": 357
+    },
+    {
+      "epoch": 0.44937238493723847,
+      "grad_norm": 5.749334335327148,
+      "learning_rate": 1.3438519756596226e-05,
+      "loss": 0.2307,
+      "step": 358
+    },
+    {
+      "epoch": 0.4506276150627615,
+      "grad_norm": 5.305976390838623,
+      "learning_rate": 1.339728524686968e-05,
+      "loss": 0.2,
+      "step": 359
+    },
+    {
+      "epoch": 0.45188284518828453,
+      "grad_norm": 5.051678657531738,
+      "learning_rate": 1.335598533303662e-05,
+      "loss": 0.3115,
+      "step": 360
+    },
+    {
+      "epoch": 0.45188284518828453,
+      "eval_accuracy": 0.8543046357615894,
+      "eval_f1": 0.6986301369863014,
+      "eval_loss": 0.30281126499176025,
+      "eval_precision": 0.8315217391304348,
+      "eval_recall": 0.6023622047244095,
+      "eval_runtime": 53.4812,
+      "eval_samples_per_second": 5.179,
+      "eval_steps_per_second": 0.168,
+      "step": 360
+    },
+    {
+      "epoch": 0.4531380753138075,
+      "grad_norm": 3.419318914413452,
+      "learning_rate": 1.331462081019776e-05,
+      "loss": 0.2384,
+      "step": 361
+    },
+    {
+      "epoch": 0.45439330543933054,
+      "grad_norm": 3.9998960494995117,
+      "learning_rate": 1.327319247469768e-05,
+      "loss": 0.2815,
+      "step": 362
+    },
+    {
+      "epoch": 0.4556485355648536,
+      "grad_norm": 3.4446206092834473,
+      "learning_rate": 1.323170112410946e-05,
+      "loss": 0.272,
+      "step": 363
+    },
+    {
+      "epoch": 0.45690376569037655,
+      "grad_norm": 3.6744120121002197,
+      "learning_rate": 1.319014755721934e-05,
+      "loss": 0.2609,
+      "step": 364
+    },
+    {
+      "epoch": 0.4581589958158996,
+      "grad_norm": 4.846432209014893,
+      "learning_rate": 1.3148532574011342e-05,
+      "loss": 0.288,
+      "step": 365
+    },
+    {
+      "epoch": 0.4594142259414226,
+      "grad_norm": 5.032169818878174,
+      "learning_rate": 1.3106856975651866e-05,
+      "loss": 0.2614,
+      "step": 366
+    },
+    {
+      "epoch": 0.4606694560669456,
+      "grad_norm": 3.7232418060302734,
+      "learning_rate": 1.3065121564474268e-05,
+      "loss": 0.2498,
+      "step": 367
+    },
+    {
+      "epoch": 0.4619246861924686,
+      "grad_norm": 3.13726544380188,
+      "learning_rate": 1.3023327143963415e-05,
+      "loss": 0.2192,
+      "step": 368
+    },
+    {
+      "epoch": 0.46317991631799166,
+      "grad_norm": 5.035037994384766,
+      "learning_rate": 1.2981474518740217e-05,
+      "loss": 0.2971,
+      "step": 369
+    },
+    {
+      "epoch": 0.46443514644351463,
+      "grad_norm": 3.5766642093658447,
+      "learning_rate": 1.293956449454612e-05,
+      "loss": 0.3288,
+      "step": 370
+    },
+    {
+      "epoch": 0.46569037656903767,
+      "grad_norm": 2.6294803619384766,
+      "learning_rate": 1.2897597878227624e-05,
+      "loss": 0.236,
+      "step": 371
+    },
+    {
+      "epoch": 0.46694560669456064,
+      "grad_norm": 5.947935104370117,
+      "learning_rate": 1.285557547772072e-05,
+      "loss": 0.2743,
+      "step": 372
+    },
+    {
+      "epoch": 0.4682008368200837,
+      "grad_norm": 2.6133997440338135,
+      "learning_rate": 1.2813498102035357e-05,
+      "loss": 0.243,
+      "step": 373
+    },
+    {
+      "epoch": 0.4694560669456067,
+      "grad_norm": 3.549476146697998,
+      "learning_rate": 1.2771366561239865e-05,
+      "loss": 0.1827,
+      "step": 374
+    },
+    {
+      "epoch": 0.4707112970711297,
+      "grad_norm": 4.550835609436035,
+      "learning_rate": 1.2729181666445338e-05,
+      "loss": 0.2061,
+      "step": 375
+    },
+    {
+      "epoch": 0.4719665271966527,
+      "grad_norm": 4.819687843322754,
+      "learning_rate": 1.2686944229790044e-05,
+      "loss": 0.2638,
+      "step": 376
+    },
+    {
+      "epoch": 0.47322175732217575,
+      "grad_norm": 3.6842753887176514,
+      "learning_rate": 1.264465506442378e-05,
+      "loss": 0.2583,
+      "step": 377
+    },
+    {
+      "epoch": 0.47447698744769873,
+      "grad_norm": 7.268190860748291,
+      "learning_rate": 1.2602314984492222e-05,
+      "loss": 0.2948,
+      "step": 378
+    },
+    {
+      "epoch": 0.47573221757322176,
+      "grad_norm": 4.938054084777832,
+      "learning_rate": 1.2559924805121236e-05,
+      "loss": 0.2874,
+      "step": 379
+    },
+    {
+      "epoch": 0.4769874476987448,
+      "grad_norm": 8.232144355773926,
+      "learning_rate": 1.2517485342401201e-05,
+      "loss": 0.2654,
+      "step": 380
+    },
+    {
+      "epoch": 0.4769874476987448,
+      "eval_accuracy": 0.8543046357615894,
+      "eval_f1": 0.7013574660633484,
+      "eval_loss": 0.3007500171661377,
+      "eval_precision": 0.824468085106383,
+      "eval_recall": 0.610236220472441,
+      "eval_runtime": 52.7757,
+      "eval_samples_per_second": 5.249,
+      "eval_steps_per_second": 0.171,
+      "step": 380
+    },
+    {
+      "epoch": 0.47824267782426777,
+      "grad_norm": 4.203466892242432,
+      "learning_rate": 1.2474997413371294e-05,
+      "loss": 0.1688,
+      "step": 381
+    },
+    {
+      "epoch": 0.4794979079497908,
+      "grad_norm": 2.6223390102386475,
+      "learning_rate": 1.2432461836003762e-05,
+      "loss": 0.2678,
+      "step": 382
+    },
+    {
+      "epoch": 0.48075313807531384,
+      "grad_norm": 3.429694414138794,
+      "learning_rate": 1.238987942918817e-05,
+      "loss": 0.2859,
+      "step": 383
+    },
+    {
+      "epoch": 0.4820083682008368,
+      "grad_norm": 2.9112257957458496,
+      "learning_rate": 1.2347251012715629e-05,
+      "loss": 0.2242,
+      "step": 384
+    },
+    {
+      "epoch": 0.48326359832635984,
+      "grad_norm": 4.1868896484375,
+      "learning_rate": 1.2304577407263032e-05,
+      "loss": 0.2995,
+      "step": 385
+    },
+    {
+      "epoch": 0.4845188284518828,
+      "grad_norm": 3.6559159755706787,
+      "learning_rate": 1.2261859434377245e-05,
+      "loss": 0.2115,
+      "step": 386
+    },
+    {
+      "epoch": 0.48577405857740585,
+      "grad_norm": 4.471072673797607,
+      "learning_rate": 1.2219097916459284e-05,
+      "loss": 0.2012,
+      "step": 387
+    },
+    {
+      "epoch": 0.4870292887029289,
+      "grad_norm": 4.849166393280029,
+      "learning_rate": 1.2176293676748494e-05,
+      "loss": 0.2927,
+      "step": 388
+    },
+    {
+      "epoch": 0.48828451882845186,
+      "grad_norm": 4.391753196716309,
+      "learning_rate": 1.2133447539306689e-05,
+      "loss": 0.3133,
+      "step": 389
+    },
+    {
+      "epoch": 0.4895397489539749,
+      "grad_norm": 2.870288848876953,
+      "learning_rate": 1.2090560329002294e-05,
+      "loss": 0.212,
+      "step": 390
+    },
+    {
+      "epoch": 0.49079497907949793,
+      "grad_norm": 5.226803302764893,
+      "learning_rate": 1.2047632871494472e-05,
+      "loss": 0.224,
+      "step": 391
+    },
+    {
+      "epoch": 0.4920502092050209,
+      "grad_norm": 3.988142728805542,
+      "learning_rate": 1.200466599321721e-05,
+      "loss": 0.2408,
+      "step": 392
+    },
+    {
+      "epoch": 0.49330543933054394,
+      "grad_norm": 3.6183176040649414,
+      "learning_rate": 1.196166052136342e-05,
+      "loss": 0.2265,
+      "step": 393
+    },
+    {
+      "epoch": 0.49456066945606697,
+      "grad_norm": 4.849849700927734,
+      "learning_rate": 1.1918617283869021e-05,
+      "loss": 0.2457,
+      "step": 394
+    },
+    {
+      "epoch": 0.49581589958158995,
+      "grad_norm": 4.868863105773926,
+      "learning_rate": 1.1875537109396978e-05,
+      "loss": 0.2463,
+      "step": 395
+    },
+    {
+      "epoch": 0.497071129707113,
+      "grad_norm": 3.9498956203460693,
+      "learning_rate": 1.1832420827321374e-05,
+      "loss": 0.2655,
+      "step": 396
+    },
+    {
+      "epoch": 0.49832635983263596,
+      "grad_norm": 4.637706756591797,
+      "learning_rate": 1.1789269267711425e-05,
+      "loss": 0.2025,
+      "step": 397
+    },
+    {
+      "epoch": 0.499581589958159,
+      "grad_norm": 3.8872170448303223,
+      "learning_rate": 1.1746083261315505e-05,
+      "loss": 0.2401,
+      "step": 398
+    },
+    {
+      "epoch": 0.500836820083682,
+      "grad_norm": 3.0792970657348633,
+      "learning_rate": 1.1702863639545157e-05,
+      "loss": 0.2804,
+      "step": 399
+    },
+    {
+      "epoch": 0.502092050209205,
+      "grad_norm": 5.217683792114258,
+      "learning_rate": 1.165961123445908e-05,
+      "loss": 0.2443,
+      "step": 400
+    },
+    {
+      "epoch": 0.502092050209205,
+      "eval_accuracy": 0.8565121412803532,
+      "eval_f1": 0.7161572052401747,
+      "eval_loss": 0.2955167889595032,
+      "eval_precision": 0.803921568627451,
+      "eval_recall": 0.6456692913385826,
+      "eval_runtime": 51.6679,
+      "eval_samples_per_second": 5.361,
+      "eval_steps_per_second": 0.174,
+      "step": 400
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4611649697467597e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null