Training in progress, step 600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:046ad15b3a172be6c8a55556a3c20f15ef4ee714b05b61a7d6c92d4c6c9e3474
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:7454f5845a5f23b4913750fbc16c23c17c15de424259fe838f50365af1a6fc31
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c99483ad02ea22340771991cc6669d1256f76d10e032f69951c7480de7534bf0
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:85f7e2225ecc77b15d23f17a6bea4d6eff8126f32e4809d5fb9012178465eb09
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15aeeac899877619eba9935ba0590b8f1fa55e2d75c220d96a220798bf78d453
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:a00dd5beda4d499c230a9f8ca29e291ebb388ce836dab2a836a479101ade1b29
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c991dfb7fae6e7e8e823a6ff78f7059aa6c3e2ee08cfa323cee3a4c276002a52
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f93bf48e5d0d2bd9aeb51d2e8ded2cd18f7df64624a0dc6007c452f77b97c0b
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2efd166763c9a22763a8e34b47f368dce987da9bde3aa0da236e9078b6b587f0
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:321edf67e47d0b4c67f8b27b7638c352cf813e649e5ee9996cca152fb9c75062
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e892fe343502bd3fc0cfd63b8565786111da6ae6996697589256c318e3c3076d
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:fed803da648fcbfb47d40579c66789c1b5813d1ca024980a285cc0b048653350
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e97d6a38ca3edf5744f51d03cec6812554f609ad1d7c762e2e3dcca3bc8af260
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:c97e2f6d521cea150acde4f0539f7f18dddad1bc75aab9306523cb6a5047e1ae
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13a2e456b9f475387054566e8f129204eb628e3726aee77c4412ff11fc720706
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:f33f2493dd6209c0c885d7b0bc168e9eae2ef749d5250330e5bbff5e28b5a6d9
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99b43935a8d0c3ec7f6a15b5d02d38b25daf586d495f97529bae66a69e46d216
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:79f19fb56fbaf65a779ecd9cb3b30247bfd45158eafdcd105585ee87f1735d98
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31626c13f5c4cf0cf88e6b691ef4408c4d52105b3855f7889d25ca5f4f0a0734
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:afab5b50c52c688a707864652d6c5558ef69395b7a2375fa583b1b7139f6c609
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04807176bb2c22eeb6b0258c9226b2dfd4f8b8398c96841c95458ef393e0f56a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1755b69d438567bb52e96e1dc58c619fdbd9a694f1794f20010dff70a9f6c151
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40e15fa019a19c6cd7ce2d72f5afc609c5c0b834df5220f887d5ba71dae814ca
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd2c36f5a9cc648d59e856fb43df0193c9d5e0acbe931f548fb0ceebfba5c6a1
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:689f27834221968cbb24970b2a0ef37515a668dd8bd2e8a00c81e11a90d7d4a4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:be9988adf605fcbeeb14de5bdc4b2db6b176f9774ef7818d04698d021a01fbf6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6276150627615062,
   "eval_steps": 20,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3819,6 +3819,766 @@
       "eval_samples_per_second": 5.236,
       "eval_steps_per_second": 0.17,
       "step": 500
     }
   ],
   "logging_steps": 1,
@@ -3838,7 +4598,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8275482733012582e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7531380753138075,
   "eval_steps": 20,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.236,
       "eval_steps_per_second": 0.17,
       "step": 500
+    },
+    {
+      "epoch": 0.6288702928870293,
+      "grad_norm": 4.248108863830566,
+      "learning_rate": 7.270818333554665e-06,
+      "loss": 0.2752,
+      "step": 501
+    },
+    {
+      "epoch": 0.6301255230125523,
+      "grad_norm": 3.575007677078247,
+      "learning_rate": 7.228633438760138e-06,
+      "loss": 0.238,
+      "step": 502
+    },
+    {
+      "epoch": 0.6313807531380753,
+      "grad_norm": 5.464937210083008,
+      "learning_rate": 7.186501897964644e-06,
+      "loss": 0.2215,
+      "step": 503
+    },
+    {
+      "epoch": 0.6326359832635984,
+      "grad_norm": 4.194279670715332,
+      "learning_rate": 7.144424522279283e-06,
+      "loss": 0.2387,
+      "step": 504
+    },
+    {
+      "epoch": 0.6338912133891214,
+      "grad_norm": 4.254185199737549,
+      "learning_rate": 7.102402121772378e-06,
+      "loss": 0.2539,
+      "step": 505
+    },
+    {
+      "epoch": 0.6351464435146443,
+      "grad_norm": 8.297247886657715,
+      "learning_rate": 7.060435505453884e-06,
+      "loss": 0.2829,
+      "step": 506
+    },
+    {
+      "epoch": 0.6364016736401673,
+      "grad_norm": 5.86175012588501,
+      "learning_rate": 7.018525481259787e-06,
+      "loss": 0.2731,
+      "step": 507
+    },
+    {
+      "epoch": 0.6376569037656904,
+      "grad_norm": 4.584890365600586,
+      "learning_rate": 6.976672856036586e-06,
+      "loss": 0.1941,
+      "step": 508
+    },
+    {
+      "epoch": 0.6389121338912134,
+      "grad_norm": 4.639788627624512,
+      "learning_rate": 6.934878435525736e-06,
+      "loss": 0.2143,
+      "step": 509
+    },
+    {
+      "epoch": 0.6401673640167364,
+      "grad_norm": 4.085133075714111,
+      "learning_rate": 6.893143024348137e-06,
+      "loss": 0.2428,
+      "step": 510
+    },
+    {
+      "epoch": 0.6414225941422594,
+      "grad_norm": 5.64658784866333,
+      "learning_rate": 6.851467425988663e-06,
+      "loss": 0.2014,
+      "step": 511
+    },
+    {
+      "epoch": 0.6426778242677824,
+      "grad_norm": 4.088956832885742,
+      "learning_rate": 6.809852442780664e-06,
+      "loss": 0.185,
+      "step": 512
+    },
+    {
+      "epoch": 0.6439330543933054,
+      "grad_norm": 5.6827921867370605,
+      "learning_rate": 6.768298875890541e-06,
+      "loss": 0.3019,
+      "step": 513
+    },
+    {
+      "epoch": 0.6451882845188285,
+      "grad_norm": 6.169975757598877,
+      "learning_rate": 6.726807525302319e-06,
+      "loss": 0.2872,
+      "step": 514
+    },
+    {
+      "epoch": 0.6464435146443515,
+      "grad_norm": 4.995835304260254,
+      "learning_rate": 6.685379189802241e-06,
+      "loss": 0.2611,
+      "step": 515
+    },
+    {
+      "epoch": 0.6476987447698744,
+      "grad_norm": 3.8299150466918945,
+      "learning_rate": 6.6440146669633855e-06,
+      "loss": 0.1959,
+      "step": 516
+    },
+    {
+      "epoch": 0.6489539748953975,
+      "grad_norm": 4.961380958557129,
+      "learning_rate": 6.602714753130322e-06,
+      "loss": 0.2274,
+      "step": 517
+    },
+    {
+      "epoch": 0.6502092050209205,
+      "grad_norm": 4.710041522979736,
+      "learning_rate": 6.561480243403776e-06,
+      "loss": 0.3025,
+      "step": 518
+    },
+    {
+      "epoch": 0.6514644351464435,
+      "grad_norm": 3.762503147125244,
+      "learning_rate": 6.520311931625325e-06,
+      "loss": 0.25,
+      "step": 519
+    },
+    {
+      "epoch": 0.6527196652719666,
+      "grad_norm": 3.377311944961548,
+      "learning_rate": 6.479210610362103e-06,
+      "loss": 0.1953,
+      "step": 520
+    },
+    {
+      "epoch": 0.6527196652719666,
+      "eval_accuracy": 0.8576158940397351,
+      "eval_f1": 0.7020785219399538,
+      "eval_loss": 0.29889100790023804,
+      "eval_precision": 0.8491620111731844,
+      "eval_recall": 0.5984251968503937,
+      "eval_runtime": 50.9239,
+      "eval_samples_per_second": 5.439,
+      "eval_steps_per_second": 0.177,
+      "step": 520
+    },
+    {
+      "epoch": 0.6539748953974895,
+      "grad_norm": 4.013047218322754,
+      "learning_rate": 6.4381770708915594e-06,
+      "loss": 0.2467,
+      "step": 521
+    },
+    {
+      "epoch": 0.6552301255230125,
+      "grad_norm": 3.758030652999878,
+      "learning_rate": 6.397212103186214e-06,
+      "loss": 0.2211,
+      "step": 522
+    },
+    {
+      "epoch": 0.6564853556485356,
+      "grad_norm": 3.948408603668213,
+      "learning_rate": 6.35631649589845e-06,
+      "loss": 0.188,
+      "step": 523
+    },
+    {
+      "epoch": 0.6577405857740586,
+      "grad_norm": 2.879676103591919,
+      "learning_rate": 6.315491036345338e-06,
+      "loss": 0.2009,
+      "step": 524
+    },
+    {
+      "epoch": 0.6589958158995816,
+      "grad_norm": 4.440194606781006,
+      "learning_rate": 6.274736510493462e-06,
+      "loss": 0.2608,
+      "step": 525
+    },
+    {
+      "epoch": 0.6602510460251046,
+      "grad_norm": 7.7365403175354,
+      "learning_rate": 6.23405370294381e-06,
+      "loss": 0.2733,
+      "step": 526
+    },
+    {
+      "epoch": 0.6615062761506276,
+      "grad_norm": 4.252779960632324,
+      "learning_rate": 6.1934433969166575e-06,
+      "loss": 0.1904,
+      "step": 527
+    },
+    {
+      "epoch": 0.6627615062761506,
+      "grad_norm": 3.153885841369629,
+      "learning_rate": 6.1529063742364844e-06,
+      "loss": 0.1833,
+      "step": 528
+    },
+    {
+      "epoch": 0.6640167364016737,
+      "grad_norm": 7.1857476234436035,
+      "learning_rate": 6.112443415316934e-06,
+      "loss": 0.2215,
+      "step": 529
+    },
+    {
+      "epoch": 0.6652719665271967,
+      "grad_norm": 2.9891092777252197,
+      "learning_rate": 6.072055299145778e-06,
+      "loss": 0.2156,
+      "step": 530
+    },
+    {
+      "epoch": 0.6665271966527196,
+      "grad_norm": 3.8794708251953125,
+      "learning_rate": 6.031742803269931e-06,
+      "loss": 0.251,
+      "step": 531
+    },
+    {
+      "epoch": 0.6677824267782427,
+      "grad_norm": 3.384833335876465,
+      "learning_rate": 5.991506703780475e-06,
+      "loss": 0.218,
+      "step": 532
+    },
+    {
+      "epoch": 0.6690376569037657,
+      "grad_norm": 3.629615306854248,
+      "learning_rate": 5.95134777529771e-06,
+      "loss": 0.2329,
+      "step": 533
+    },
+    {
+      "epoch": 0.6702928870292887,
+      "grad_norm": 3.8525490760803223,
+      "learning_rate": 5.911266790956258e-06,
+      "loss": 0.229,
+      "step": 534
+    },
+    {
+      "epoch": 0.6715481171548117,
+      "grad_norm": 4.439032077789307,
+      "learning_rate": 5.871264522390165e-06,
+      "loss": 0.2752,
+      "step": 535
+    },
+    {
+      "epoch": 0.6728033472803348,
+      "grad_norm": 3.8713276386260986,
+      "learning_rate": 5.831341739718055e-06,
+      "loss": 0.2427,
+      "step": 536
+    },
+    {
+      "epoch": 0.6740585774058577,
+      "grad_norm": 3.2495763301849365,
+      "learning_rate": 5.791499211528302e-06,
+      "loss": 0.2424,
+      "step": 537
+    },
+    {
+      "epoch": 0.6753138075313807,
+      "grad_norm": 4.471564292907715,
+      "learning_rate": 5.751737704864224e-06,
+      "loss": 0.1954,
+      "step": 538
+    },
+    {
+      "epoch": 0.6765690376569038,
+      "grad_norm": 4.963108539581299,
+      "learning_rate": 5.712057985209325e-06,
+      "loss": 0.2393,
+      "step": 539
+    },
+    {
+      "epoch": 0.6778242677824268,
+      "grad_norm": 5.474493503570557,
+      "learning_rate": 5.672460816472556e-06,
+      "loss": 0.3153,
+      "step": 540
+    },
+    {
+      "epoch": 0.6778242677824268,
+      "eval_accuracy": 0.8642384105960265,
+      "eval_f1": 0.7260579064587973,
+      "eval_loss": 0.2864134609699249,
+      "eval_precision": 0.8358974358974359,
+      "eval_recall": 0.6417322834645669,
+      "eval_runtime": 51.7722,
+      "eval_samples_per_second": 5.35,
+      "eval_steps_per_second": 0.174,
+      "step": 540
+    },
+    {
+      "epoch": 0.6790794979079497,
+      "grad_norm": 5.037370681762695,
+      "learning_rate": 5.632946960973611e-06,
+      "loss": 0.2517,
+      "step": 541
+    },
+    {
+      "epoch": 0.6803347280334728,
+      "grad_norm": 5.2865142822265625,
+      "learning_rate": 5.5935171794282426e-06,
+      "loss": 0.2962,
+      "step": 542
+    },
+    {
+      "epoch": 0.6815899581589958,
+      "grad_norm": 3.1313962936401367,
+      "learning_rate": 5.554172230933628e-06,
+      "loss": 0.1967,
+      "step": 543
+    },
+    {
+      "epoch": 0.6828451882845188,
+      "grad_norm": 4.365119934082031,
+      "learning_rate": 5.514912872953746e-06,
+      "loss": 0.2568,
+      "step": 544
+    },
+    {
+      "epoch": 0.6841004184100419,
+      "grad_norm": 2.9407169818878174,
+      "learning_rate": 5.4757398613047985e-06,
+      "loss": 0.2133,
+      "step": 545
+    },
+    {
+      "epoch": 0.6853556485355649,
+      "grad_norm": 4.410444259643555,
+      "learning_rate": 5.436653950140657e-06,
+      "loss": 0.2656,
+      "step": 546
+    },
+    {
+      "epoch": 0.6866108786610878,
+      "grad_norm": 5.113467216491699,
+      "learning_rate": 5.397655891938348e-06,
+      "loss": 0.2425,
+      "step": 547
+    },
+    {
+      "epoch": 0.6878661087866109,
+      "grad_norm": 3.6607089042663574,
+      "learning_rate": 5.35874643748356e-06,
+      "loss": 0.1942,
+      "step": 548
+    },
+    {
+      "epoch": 0.6891213389121339,
+      "grad_norm": 4.0803914070129395,
+      "learning_rate": 5.3199263358562e-06,
+      "loss": 0.1702,
+      "step": 549
+    },
+    {
+      "epoch": 0.6903765690376569,
+      "grad_norm": 7.306187629699707,
+      "learning_rate": 5.281196334415968e-06,
+      "loss": 0.1774,
+      "step": 550
+    },
+    {
+      "epoch": 0.69163179916318,
+      "grad_norm": 6.191274166107178,
+      "learning_rate": 5.2425571787879455e-06,
+      "loss": 0.2996,
+      "step": 551
+    },
+    {
+      "epoch": 0.6928870292887029,
+      "grad_norm": 4.841433048248291,
+      "learning_rate": 5.204009612848288e-06,
+      "loss": 0.3033,
+      "step": 552
+    },
+    {
+      "epoch": 0.6941422594142259,
+      "grad_norm": 4.5002899169921875,
+      "learning_rate": 5.165554378709857e-06,
+      "loss": 0.2149,
+      "step": 553
+    },
+    {
+      "epoch": 0.695397489539749,
+      "grad_norm": 3.8781685829162598,
+      "learning_rate": 5.127192216707974e-06,
+      "loss": 0.2828,
+      "step": 554
+    },
+    {
+      "epoch": 0.696652719665272,
+      "grad_norm": 4.068243980407715,
+      "learning_rate": 5.088923865386133e-06,
+      "loss": 0.1836,
+      "step": 555
+    },
+    {
+      "epoch": 0.697907949790795,
+      "grad_norm": 4.608306407928467,
+      "learning_rate": 5.050750061481799e-06,
+      "loss": 0.2514,
+      "step": 556
+    },
+    {
+      "epoch": 0.699163179916318,
+      "grad_norm": 5.066010475158691,
+      "learning_rate": 5.012671539912226e-06,
+      "loss": 0.2174,
+      "step": 557
+    },
+    {
+      "epoch": 0.700418410041841,
+      "grad_norm": 4.110201358795166,
+      "learning_rate": 4.9746890337603005e-06,
+      "loss": 0.1672,
+      "step": 558
+    },
+    {
+      "epoch": 0.701673640167364,
+      "grad_norm": 4.265486717224121,
+      "learning_rate": 4.936803274260434e-06,
+      "loss": 0.2198,
+      "step": 559
+    },
+    {
+      "epoch": 0.702928870292887,
+      "grad_norm": 4.03239107131958,
+      "learning_rate": 4.899014990784485e-06,
+      "loss": 0.2172,
+      "step": 560
+    },
+    {
+      "epoch": 0.702928870292887,
+      "eval_accuracy": 0.8443708609271523,
+      "eval_f1": 0.6483790523690773,
+      "eval_loss": 0.31904953718185425,
+      "eval_precision": 0.8843537414965986,
+      "eval_recall": 0.5118110236220472,
+      "eval_runtime": 51.3743,
+      "eval_samples_per_second": 5.392,
+      "eval_steps_per_second": 0.175,
+      "step": 560
+    },
+    {
+      "epoch": 0.7041841004184101,
+      "grad_norm": 4.523290157318115,
+      "learning_rate": 4.861324910827714e-06,
+      "loss": 0.2345,
+      "step": 561
+    },
+    {
+      "epoch": 0.705439330543933,
+      "grad_norm": 4.160706520080566,
+      "learning_rate": 4.8237337599947795e-06,
+      "loss": 0.2406,
+      "step": 562
+    },
+    {
+      "epoch": 0.706694560669456,
+      "grad_norm": 6.3733811378479,
+      "learning_rate": 4.786242261985772e-06,
+      "loss": 0.2486,
+      "step": 563
+    },
+    {
+      "epoch": 0.7079497907949791,
+      "grad_norm": 6.861822128295898,
+      "learning_rate": 4.748851138582269e-06,
+      "loss": 0.2124,
+      "step": 564
+    },
+    {
+      "epoch": 0.7092050209205021,
+      "grad_norm": 4.6429829597473145,
+      "learning_rate": 4.711561109633466e-06,
+      "loss": 0.2569,
+      "step": 565
+    },
+    {
+      "epoch": 0.7104602510460251,
+      "grad_norm": 3.4625086784362793,
+      "learning_rate": 4.674372893042287e-06,
+      "loss": 0.2174,
+      "step": 566
+    },
+    {
+      "epoch": 0.7117154811715481,
+      "grad_norm": 7.073486804962158,
+      "learning_rate": 4.63728720475158e-06,
+      "loss": 0.2145,
+      "step": 567
+    },
+    {
+      "epoch": 0.7129707112970711,
+      "grad_norm": 4.345584869384766,
+      "learning_rate": 4.6003047587303376e-06,
+      "loss": 0.1827,
+      "step": 568
+    },
+    {
+      "epoch": 0.7142259414225941,
+      "grad_norm": 4.599338054656982,
+      "learning_rate": 4.563426266959932e-06,
+      "loss": 0.2167,
+      "step": 569
+    },
+    {
+      "epoch": 0.7154811715481172,
+      "grad_norm": 3.284950017929077,
+      "learning_rate": 4.526652439420427e-06,
+      "loss": 0.1409,
+      "step": 570
+    },
+    {
+      "epoch": 0.7167364016736402,
+      "grad_norm": 3.3235983848571777,
+      "learning_rate": 4.489983984076918e-06,
+      "loss": 0.2377,
+      "step": 571
+    },
+    {
+      "epoch": 0.7179916317991631,
+      "grad_norm": 5.1698079109191895,
+      "learning_rate": 4.453421606865869e-06,
+      "loss": 0.2022,
+      "step": 572
+    },
+    {
+      "epoch": 0.7192468619246862,
+      "grad_norm": 5.351980209350586,
+      "learning_rate": 4.416966011681548e-06,
+      "loss": 0.1903,
+      "step": 573
+    },
+    {
+      "epoch": 0.7205020920502092,
+      "grad_norm": 2.702564239501953,
+      "learning_rate": 4.380617900362473e-06,
+      "loss": 0.1935,
+      "step": 574
+    },
+    {
+      "epoch": 0.7217573221757322,
+      "grad_norm": 3.770988702774048,
+      "learning_rate": 4.34437797267789e-06,
+      "loss": 0.175,
+      "step": 575
+    },
+    {
+      "epoch": 0.7230125523012553,
+      "grad_norm": 3.6061084270477295,
+      "learning_rate": 4.308246926314307e-06,
+      "loss": 0.2515,
+      "step": 576
+    },
+    {
+      "epoch": 0.7242677824267783,
+      "grad_norm": 5.896265983581543,
+      "learning_rate": 4.272225456862076e-06,
+      "loss": 0.2694,
+      "step": 577
+    },
+    {
+      "epoch": 0.7255230125523012,
+      "grad_norm": 7.105819225311279,
+      "learning_rate": 4.236314257801968e-06,
+      "loss": 0.3122,
+      "step": 578
+    },
+    {
+      "epoch": 0.7267782426778243,
+      "grad_norm": 5.691869735717773,
+      "learning_rate": 4.200514020491854e-06,
+      "loss": 0.2672,
+      "step": 579
+    },
+    {
+      "epoch": 0.7280334728033473,
+      "grad_norm": 3.698089838027954,
+      "learning_rate": 4.164825434153381e-06,
+      "loss": 0.2604,
+      "step": 580
+    },
+    {
+      "epoch": 0.7280334728033473,
+      "eval_accuracy": 0.8686534216335541,
+      "eval_f1": 0.7384615384615385,
+      "eval_loss": 0.28295037150382996,
+      "eval_precision": 0.835820895522388,
+      "eval_recall": 0.6614173228346457,
+      "eval_runtime": 53.3249,
+      "eval_samples_per_second": 5.195,
+      "eval_steps_per_second": 0.169,
+      "step": 580
+    },
+    {
+      "epoch": 0.7292887029288703,
+      "grad_norm": 5.295552730560303,
+      "learning_rate": 4.129249185858704e-06,
+      "loss": 0.2536,
+      "step": 581
+    },
+    {
+      "epoch": 0.7305439330543934,
+      "grad_norm": 3.8178629875183105,
+      "learning_rate": 4.093785960517269e-06,
+      "loss": 0.2233,
+      "step": 582
+    },
+    {
+      "epoch": 0.7317991631799163,
+      "grad_norm": 5.176862716674805,
+      "learning_rate": 4.0584364408626065e-06,
+      "loss": 0.3026,
+      "step": 583
+    },
+    {
+      "epoch": 0.7330543933054393,
+      "grad_norm": 6.326966762542725,
+      "learning_rate": 4.0232013074392065e-06,
+      "loss": 0.2652,
+      "step": 584
+    },
+    {
+      "epoch": 0.7343096234309623,
+      "grad_norm": 8.710590362548828,
+      "learning_rate": 3.988081238589406e-06,
+      "loss": 0.2439,
+      "step": 585
+    },
+    {
+      "epoch": 0.7355648535564854,
+      "grad_norm": 5.5283026695251465,
+      "learning_rate": 3.953076910440337e-06,
+      "loss": 0.2445,
+      "step": 586
+    },
+    {
+      "epoch": 0.7368200836820084,
+      "grad_norm": 4.787403583526611,
+      "learning_rate": 3.918188996890903e-06,
+      "loss": 0.2705,
+      "step": 587
+    },
+    {
+      "epoch": 0.7380753138075313,
+      "grad_norm": 6.294352054595947,
+      "learning_rate": 3.883418169598808e-06,
+      "loss": 0.2813,
+      "step": 588
+    },
+    {
+      "epoch": 0.7393305439330544,
+      "grad_norm": 4.5643415451049805,
+      "learning_rate": 3.84876509796763e-06,
+      "loss": 0.2417,
+      "step": 589
+    },
+    {
+      "epoch": 0.7405857740585774,
+      "grad_norm": 6.011057376861572,
+      "learning_rate": 3.814230449133928e-06,
+      "loss": 0.3062,
+      "step": 590
+    },
+    {
+      "epoch": 0.7418410041841004,
+      "grad_norm": 5.100391387939453,
+      "learning_rate": 3.7798148879543983e-06,
+      "loss": 0.2424,
+      "step": 591
+    },
+    {
+      "epoch": 0.7430962343096235,
+      "grad_norm": 3.619565963745117,
+      "learning_rate": 3.745519076993078e-06,
+      "loss": 0.262,
+      "step": 592
+    },
+    {
+      "epoch": 0.7443514644351464,
+      "grad_norm": 5.100575923919678,
+      "learning_rate": 3.7113436765085865e-06,
+      "loss": 0.2577,
+      "step": 593
+    },
+    {
+      "epoch": 0.7456066945606694,
+      "grad_norm": 6.600237846374512,
+      "learning_rate": 3.6772893444414226e-06,
+      "loss": 0.2571,
+      "step": 594
+    },
+    {
+      "epoch": 0.7468619246861925,
+      "grad_norm": 4.155444145202637,
+      "learning_rate": 3.643356736401289e-06,
+      "loss": 0.2558,
+      "step": 595
+    },
+    {
+      "epoch": 0.7481171548117155,
+      "grad_norm": 3.4668867588043213,
+      "learning_rate": 3.609546505654462e-06,
+      "loss": 0.1694,
+      "step": 596
+    },
+    {
+      "epoch": 0.7493723849372385,
+      "grad_norm": 4.315099239349365,
+      "learning_rate": 3.5758593031112364e-06,
+      "loss": 0.2029,
+      "step": 597
+    },
+    {
+      "epoch": 0.7506276150627615,
+      "grad_norm": 4.79595422744751,
+      "learning_rate": 3.5422957773133804e-06,
+      "loss": 0.2165,
+      "step": 598
+    },
+    {
+      "epoch": 0.7518828451882845,
+      "grad_norm": 3.9190430641174316,
+      "learning_rate": 3.5088565744216574e-06,
+      "loss": 0.2107,
+      "step": 599
+    },
+    {
+      "epoch": 0.7531380753138075,
+      "grad_norm": 4.860176086425781,
+      "learning_rate": 3.475542338203377e-06,
+      "loss": 0.2671,
+      "step": 600
+    },
+    {
+      "epoch": 0.7531380753138075,
+      "eval_accuracy": 0.8565121412803532,
+      "eval_f1": 0.6976744186046512,
+      "eval_loss": 0.29695039987564087,
+      "eval_precision": 0.8522727272727273,
+      "eval_recall": 0.5905511811023622,
+      "eval_runtime": 51.86,
+      "eval_samples_per_second": 5.341,
+      "eval_steps_per_second": 0.174,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.19779349803434e+17,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null